你的 robots.txt 文件正在悄悄“杀死”你的网站流量吗?

你有没有试过:新发的干货文没收录,首页排名突然掉出前十,甚至搜索自己品牌名都找不到官网?别急着怪算法——先打开 /robots.txt 看一眼。

它就藏在你网站根目录,几行小字,却可能把搜索引擎直接挡在门外。

robots.txt 的 5 个常见“隐形杀手”与破解之道

Disallow: /admin 看着很安全?其实漏洞就在斜杠里。

比如你想屏蔽 WordPress 后台,写成 Disallow: /wp-admin(缺结尾斜杠),搜索引擎会把它理解成“所有以 /wp-admin 开头的路径都不许抓”。结果 /wp-admin-settings-page/ 这种前端配置页也被一锅端了。

再比如测试期随手加的 Disallow: *,本意是“先别让爬虫进来”,但上线后忘了删。网站就像关了灯的店铺——人来人往,谁也看不见你。

真正管用的做法很简单:

  • 后台目录统一加结尾斜杠:Disallow: /wp-admin/Disallow: /admin/
  • 在文件末尾补上 Allow: /,明确告诉爬虫:“除了我列出来的,其他地方都欢迎来”

如何用 Allow 指令“抢救”被误伤的页面?

Allow 不是可有可无的配角,它是 Disallow 的纠错开关。

它的优先级更高,能直接覆盖前面的禁止指令。

举个实际场景:你屏蔽了整个产品目录 Disallow: /product/,但其中 /product/new-arrival/ 是本月主推页,必须被收录。那就在这条禁止规则后面,立刻跟上:

Disallow: /product/
Allow: /product/new-arrival/

爬虫读到这儿就会改主意:哦,这个子目录例外,放行。

WordPress 用户尤其要用好它。比如你屏蔽了 /wp-content/plugins/,但某个插件生成的轮播图资源 /wp-content/plugins/slider-pro/assets/images/ 是首页关键素材——加一行 Allow: /wp-content/plugins/slider-pro/assets/images/ 就能救回来。

动态参数与会话 ID:如何精准屏蔽而不误杀内容?

电商和内容站最怕重复页面:同一个商品页,因为 ?sort=price&filter=on 变出十几条 URL,既浪费抓取配额,又稀释权重。

但别一棍子打死所有带问号的链接。Disallow: /*?* 这种写法太粗暴,连分页 ?page=2、搜索落地页都可能被误伤。

更稳的办法是“点名屏蔽”:

Disallow: /*?*utm_source=
Disallow: /*?*sessionid=
Disallow: /*?*ref=

只拦那些你确认无价值的追踪参数。其他带问号的页面,比如 /article/?id=123/category/?tag=seo,照常开放。

改完务必去 Google Search Console 的 robots.txt 测试工具里验证——输入几个典型 URL,看它到底拦了谁、放了谁。

你真的需要为每个搜索引擎写不同的规则吗?

95% 的情况,User-agent: * 就够用了。主流爬虫(Googlebot、Bingbot、YandexBot)都认这个通用指令。

只有两种情况值得单独设规则:

第一种:对付恶意爬虫。如果你在日志里反复看到 User-agent: DotBotAhrefsBot(非官方版本)疯狂扫站,可以单列:

User-agent: DotBot
Disallow: /

第二种:给特定爬虫开小灶。比如你在东南亚做独立站,想优先让当地主流搜索引擎 Naverbot 抓取本地化页面,就查清它的 UA 名字,单独加一条:

User-agent: NaverBot
Allow: /thailand/

但这类操作要格外小心——写错一行,可能就把整个站点对某家引擎关了门。

如何测试你的 robots.txt 规则是否万无一失?

别信“我写得应该没问题”。爬虫不讲道理,只认规则。

最靠谱的验证方式,就是用它自己的眼睛看:打开 Google Search Console → 左侧菜单选「设置」→「robots.txt 测试工具」。

测试三类 URL:

  • 你明确想屏蔽的(比如 /admin/),确认显示“已禁止”
  • 你最在意的页面(首页、爆款文、核心产品页),确认显示“已允许”
  • 容易踩坑的页面(带参数的、深层目录的、刚加的 Allow 路径),挨个输进去看结果

Bing 网站管理员中心也有类似工具,顺手测一遍更安心。改完上传,等几小时,系统会自动刷新缓存。

今天下班前就能完成的 robots.txt 健康检查清单

现在就打开浏览器,花 12 分钟做完这六件事:

  1. 找到它:在地址栏输入 你的域名.com/robots.txt,按回车,直接看当前文件
  2. 揪出核弹:按 Ctrl+F 搜索 Disallow: /Disallow: *,如果这两行单独存在(前面没 Allow 补救),立刻删掉或注释掉
  3. 验核心页:把你最近三个月流量最高的 3 个页面完整 URL,一个个粘贴进 Google Search Console 的 robots.txt 测试工具,确保状态全是“允许”
  4. 查屏蔽项:逐行看 Disallow 后面的路径,问自己:“这个目录下,有没有我其实想被收录的子页面?” 有就补 Allow
  5. 砍模糊通配符:找到 /*?* 这类全局规则,替换成具体参数名,比如 /*?*utm_/*?*sessionid=
  6. 推新规则:保存修改后的文件,用 FTP 或主机后台覆盖根目录下的旧 robots.txt;然后去 Google Search Console 的「网址检查」工具,输入首页 URL,点「请求编入索引」

做完这些,你网站的“大门钥匙”就攥在自己手里了。