你的 robots.txt 文件正在悄悄“杀死”你的网站流量吗?
你有没有试过:新发的干货文没收录,首页排名突然掉出前十,甚至搜索自己品牌名都找不到官网?别急着怪算法——先打开 /robots.txt 看一眼。
它就藏在你网站根目录,几行小字,却可能把搜索引擎直接挡在门外。
robots.txt 的 5 个常见“隐形杀手”与破解之道
Disallow: /admin 看着很安全?其实漏洞就在斜杠里。
比如你想屏蔽 WordPress 后台,写成 Disallow: /wp-admin(缺结尾斜杠),搜索引擎会把它理解成“所有以 /wp-admin 开头的路径都不许抓”。结果 /wp-admin-settings-page/ 这种前端配置页也被一锅端了。
再比如测试期随手加的 Disallow: *,本意是“先别让爬虫进来”,但上线后忘了删。网站就像关了灯的店铺——人来人往,谁也看不见你。
真正管用的做法很简单:
- 后台目录统一加结尾斜杠:
Disallow: /wp-admin/、Disallow: /admin/ - 在文件末尾补上
Allow: /,明确告诉爬虫:“除了我列出来的,其他地方都欢迎来”
如何用 Allow 指令“抢救”被误伤的页面?
Allow 不是可有可无的配角,它是 Disallow 的纠错开关。
它的优先级更高,能直接覆盖前面的禁止指令。
举个实际场景:你屏蔽了整个产品目录 Disallow: /product/,但其中 /product/new-arrival/ 是本月主推页,必须被收录。那就在这条禁止规则后面,立刻跟上:
Disallow: /product/
Allow: /product/new-arrival/
爬虫读到这儿就会改主意:哦,这个子目录例外,放行。
WordPress 用户尤其要用好它。比如你屏蔽了 /wp-content/plugins/,但某个插件生成的轮播图资源 /wp-content/plugins/slider-pro/assets/images/ 是首页关键素材——加一行 Allow: /wp-content/plugins/slider-pro/assets/images/ 就能救回来。
动态参数与会话 ID:如何精准屏蔽而不误杀内容?
电商和内容站最怕重复页面:同一个商品页,因为 ?sort=price&filter=on 变出十几条 URL,既浪费抓取配额,又稀释权重。
但别一棍子打死所有带问号的链接。Disallow: /*?* 这种写法太粗暴,连分页 ?page=2、搜索落地页都可能被误伤。
更稳的办法是“点名屏蔽”:
Disallow: /*?*utm_source=
Disallow: /*?*sessionid=
Disallow: /*?*ref=
只拦那些你确认无价值的追踪参数。其他带问号的页面,比如 /article/?id=123 或 /category/?tag=seo,照常开放。
改完务必去 Google Search Console 的 robots.txt 测试工具里验证——输入几个典型 URL,看它到底拦了谁、放了谁。
你真的需要为每个搜索引擎写不同的规则吗?
95% 的情况,User-agent: * 就够用了。主流爬虫(Googlebot、Bingbot、YandexBot)都认这个通用指令。
只有两种情况值得单独设规则:
第一种:对付恶意爬虫。如果你在日志里反复看到 User-agent: DotBot 或 AhrefsBot(非官方版本)疯狂扫站,可以单列:
User-agent: DotBot
Disallow: /
第二种:给特定爬虫开小灶。比如你在东南亚做独立站,想优先让当地主流搜索引擎 Naverbot 抓取本地化页面,就查清它的 UA 名字,单独加一条:
User-agent: NaverBot
Allow: /thailand/
但这类操作要格外小心——写错一行,可能就把整个站点对某家引擎关了门。
如何测试你的 robots.txt 规则是否万无一失?
别信“我写得应该没问题”。爬虫不讲道理,只认规则。
最靠谱的验证方式,就是用它自己的眼睛看:打开 Google Search Console → 左侧菜单选「设置」→「robots.txt 测试工具」。
测试三类 URL:
- 你明确想屏蔽的(比如
/admin/),确认显示“已禁止” - 你最在意的页面(首页、爆款文、核心产品页),确认显示“已允许”
- 容易踩坑的页面(带参数的、深层目录的、刚加的
Allow路径),挨个输进去看结果
Bing 网站管理员中心也有类似工具,顺手测一遍更安心。改完上传,等几小时,系统会自动刷新缓存。
今天下班前就能完成的 robots.txt 健康检查清单
现在就打开浏览器,花 12 分钟做完这六件事:
- 找到它:在地址栏输入
你的域名.com/robots.txt,按回车,直接看当前文件 - 揪出核弹:按
Ctrl+F搜索Disallow: /和Disallow: *,如果这两行单独存在(前面没Allow补救),立刻删掉或注释掉 - 验核心页:把你最近三个月流量最高的 3 个页面完整 URL,一个个粘贴进 Google Search Console 的 robots.txt 测试工具,确保状态全是“允许”
- 查屏蔽项:逐行看
Disallow后面的路径,问自己:“这个目录下,有没有我其实想被收录的子页面?” 有就补Allow - 砍模糊通配符:找到
/*?*这类全局规则,替换成具体参数名,比如/*?*utm_或/*?*sessionid= - 推新规则:保存修改后的文件,用 FTP 或主机后台覆盖根目录下的旧
robots.txt;然后去 Google Search Console 的「网址检查」工具,输入首页 URL,点「请求编入索引」
做完这些,你网站的“大门钥匙”就攥在自己手里了。