你花大价钱买来的服务器带宽,全喂给了垃圾页面
你有没有试过:新发一篇干货文章,等了五天,百度还是没收录?点开站长工具一看——爬虫上周来了327次,其中219次都跑去了 /category/tech?page=3&sort=date&ref=wechat 这种链接。
不是搜索引擎不想抓你,是它根本没空理你真正想推的内容。
抓取预算到底是什么?它决定了你的命脉
搜索引擎每天给每个网站分配的抓取次数,是有上限的。
这个上限,取决于你网站的权重、更新节奏、以及服务器扛不扛得住。
就像快递小哥一天只能送50单——你让他反复跑同一个空地址,真要发货的客户就只能干等。
我帮一个本地生活类站点做过日志分析:它每天被爬约4800次,但近一半都耗在了已下架的团购页、带UTM参数的分享链接、还有自动生成的“按价格排序”分页上。
真正该被优先抓的新商户详情页,平均每天只分到不到200次访问。
后果很实在:
- 新上线的服务页,两周后才进索引;
- 老页面改了标题和简介,快照却还停留在三个月前;
- 搜索排名悄悄下滑,你查不出原因——其实爬虫压根没刷新过那几页。
第一步:先堵住抓取预算的“漏水口”
别急着加功能、搞技术升级。先低头看看:你是不是正亲手把爬虫往死胡同里引?
1. 清理无价值页面
- 已下架的商品、删掉的笔记、停更的栏目页,别让它返回200。必须设为404或410。
- 标签页、分类页如果只有1–2篇内容,直接在
robots.txt里用Disallow屏蔽。 - 所有带
?的URL变体(比如?utm_source=xxx、?page=2)——统统关掉。
2. 规范URL结构
- 同一个页面,只留一个“官方入口”。其他所有跳转,都做301重定向。
- 比如
example.com/post/abc是正文页,那example.com/post/abc?from=feed就得跳回去,不能放任两个地址并存。
3. 处理好死链和软404
- “页面找不到了”这种提示页,如果HTTP状态码还是200,等于骗爬虫说“我在呢,快进来”。
- 用百度搜索资源平台或 Bing 网站管理员工具定期跑一遍死链报告,批量提交剔除。
第二步:学会给搜索引擎“画地图”——sitemap的进阶用法
别再把sitemap当交作业的清单了。它其实是你递给爬虫的一张“重点拜访指南”。
很多人把几千个标签页、搜索结果页、甚至测试用的草稿页全塞进去。结果爬虫真信了,一头扎进数据迷宫出不来。
正确的做法是:
- 只放你真正在意的页面:最新发布的文章、主推产品页、内容扎实的分类页。标签页、用户中心、登录页、搜索页——一律不放。
- 用
priority和lastmod做轻重提醒:首页、本周爆款、高转化落地页标priority="1.0";半年前的老文标0.5;不重要的页面,干脆不列。 - 复杂站点分而治之:有PC/移动双站?有中英文版本?那就分别生成
sitemap-pc.xml、sitemap-mobile.xml、sitemap-zh.xml,再用主sitemap统一引用。
真实情况是:一个知识付费站点砍掉80%的低质入口后,核心课程页被爬频率翻了两倍多,新课上线后6小时内就进了索引。
第三步:用内部链接给抓取预算“导航”
爬虫不会读心,它靠链接走路。你首页没放新文章链接,它就不会知道你刚写了篇重磅干货;你详情页底部全是“热门标签”,它就会顺着点进一堆空壳聚合页。
三个马上能改的动作:
- 首页固定区域挂最新内容:不是轮播图,是实实在在的5–8个文字链接,带摘要或发布时间,让爬虫一眼锁定重点。
- 每页加上面包屑导航:比如
首页 > 运营干货 > 如何写好钩子开头。这不只是用户体验,更是告诉爬虫:“这个页面属于哪一层,有多重要。” - 文章末尾放“相关推荐”,不是“热门标签”:链接到2–3篇真正有关联、有深度的旧文,比堆10个“#增长”“#裂变”标签有用得多。
第四步:服务器速度——被低估的抓取预算杀手
爬虫不是慈善家。它来一次,发现你首页加载要5秒,第二次可能就只抓首页+1个内页,第三次干脆少来。
我见过一个企业官网,首页TTFB(首字节时间)常年卡在1.8秒以上,爬虫平均每次只抓3页就断连。后来上了轻量CDN+启用了Gzip压缩,同样时间段内抓取量直接涨了一倍多。
你不用懂底层优化,但可以立刻做三件小事:
- 检查当前主机类型:如果是共享虚拟主机,且日均IP超3000,建议尽快迁到基础云服务器(阿里云ECS入门款、腾讯云轻量应用服务器都够用)。
- 开启CDN:哪怕只接静态资源(图片、CSS、JS),也能大幅降低源站压力。
- 图片统一走压缩:用 Squoosh 或智图这类免费工具,把JPG/PNG体积压到原大小的1/3以内,页面加载速度立马有感。
第五步:用robots.txt精确控制爬虫行为
别再写“允许所有,除了后台”了。改成“只允许我指定的路径”,才是对抓取预算真正的尊重。
一个务实的 robots.txt 示例:
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search/
Disallow: /tag/
Disallow: /*?*
Allow: /wp-content/uploads/
Sitemap: https://example.com/sitemap.xml
⚠️ 特别注意:别屏蔽 /css/、/js/、/fonts/ 这类目录。否则爬虫看不到样式和交互逻辑,容易误判页面质量。
第六步:监控与迭代——抓取预算优化不是一次性工作
网站在长,流量在变,算法也在动。今天有效的策略,两个月后可能已经跑偏。
每周抽10分钟,做这三件事:
- 打开百度搜索资源平台 → 抓取统计:看最近7天抓取次数趋势,是否突然下跌?有没有某天暴涨但没对应动作?
- 打开索引覆盖率报告:如果“已提交未索引”的页面数明显增多,大概率是新内容被老页面挤占了配额。
- 对比一次服务器日志 + sitemap:用Excel简单筛选,找出“被高频抓取但从未进索引”的URL——这些就是最可疑的漏水点。
今天就能执行的一个操作
打开你网站根目录下的 robots.txt 文件,在最后一行 Sitemap: 上面,加这一行:
Disallow: /*?*
保存,然后去百度搜索资源平台 → “robots.txt更新” → 提交新文件,并点击“请求重新抓取”。
做完这步,顺手打开你的 sitemap.xml,把所有超过90天没更新、也没外部链接指向的老页面删掉。
坚持一周,你会明显感觉到:新内容上线后,不用再盯着“未索引”干着急了。