你的网站可能正把搜索引擎往外推

你有没有遇到过:新发的干货文章好几天没被收录,但后台登录页、测试用的404页面反而跑进了搜索结果?别急着怪百度或Google——先看看你网站根目录下那个叫 robots.txt 的小文件。它不显眼,但真能左右你的流量命脉。

robots.txt 到底是什么?它如何指挥搜索引擎?

robots.txt 就是你网站根目录里一个纯文本文件(比如 www.yoursite.com/robots.txt)。它不是密码锁,也不是防火墙,而是一张写给搜索引擎爬虫的“温馨提示”。

爬虫每次来你家串门,第一件事就是找这张纸。它只认两种基本语言:User-agent(指明对谁说话)和 Disallow(告诉对方哪儿别去)。别的都算锦上添花。

真实翻车现场:有位做女装电商的朋友,图省事写了句 Disallow: /,想“防一下爬虫”。结果三个月后发现,除了首页,所有新品页、活动页全没进搜索结果——等于把自家橱窗关了灯,还拉上了卷帘门。

最常见的 5 个 robots.txt 配置错误,你中了几个?

错误一:/css//js/ 目录全拦在外面
现在搜索引擎要渲染页面才能看懂内容。你把样式和脚本一禁,它看到的可能是白屏+乱码,直接判定“这站没法看”,连带正文也不索引。

错误二:以为 Disallow: /admin/ 就能保住后台安全
错。这个地址在 robots.txt 里是明文写的,等于在门口贴了张纸:“管理员入口在此”。真想保护,得靠登录验证、IP限制这些实打实的防护。

错误三:空格多一个、冒号少一个、大小写混着写
比如 User-agent: * 写成 user-agent: *User-agent : *,有些爬虫会直接跳过整段规则。它不像人,不会帮你脑补。

错误四:忘了加 Sitemap 这行
虽然不算指令,但加上 Sitemap: https://www.yoursite.com/sitemap.xml,相当于递给爬虫一张清晰地图。尤其对常更新的博客、资讯站,能帮它更快找到新内容。

错误五:所有爬虫一视同仁
百度蜘蛛和 Googlebot 对 JS 渲染的支持不同,图片搜索爬虫又只关心 /uploads/ 下的图。一刀切的规则,容易顾此失彼。

如何一步步写出适合你的 robots.txt?

先想清楚:你最不想让爬虫碰的是什么?
通常是这些:WordPress 后台(/wp-admin/)、通用管理路径(/admin//cgi-bin/)、站内搜索结果页(/search//?s=)、带一堆参数的分享链接(/share?id=xxx&ref=yyy),还有老版本静态资源目录。

再套个稳妥模板(中小网站可直接参考):

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /search/
Disallow: /?s=
Disallow: /*?*
Sitemap: https://www.yoursite.com/sitemap.xml

注意:/*?* 这条很管用,但如果你的博客或商品页靠参数分页(比如 /list?page=2),就得单独放行,否则会误伤。

最后一步,必须测。打开 Google Search Console → “设置” → “robots.txt 测试工具”,粘贴你的内容,输入几个关键页面 URL,点“测试”。它会告诉你:爬虫到底能不能看到你想让它看的内容。

高级技巧:如何用 robots.txt 管理抓取预算?

大站最怕爬虫“瞎逛”——花半天时间爬完几百个已下架商品页,却漏掉了今天刚上的爆款详情页。robots.txt 就是你给它的“重点巡逻区域指南”。

比如:

  • 禁掉 /archive/2018/ 这类老归档目录(内容早过期了)
  • 屏蔽 /downloads/ 下的旧版PDF手册(用户早不下了)
  • 不让爬 /tag/ 下的冷门标签页(点进去全是零星几篇文章)

真实优化效果:一家本地生活资讯站,过去爬虫总卡在 /uploads/ 里翻2016年的活动海报。他们加了 Disallow: /uploads/2016//uploads/2019/ 几行,结果新发布的探店图文,当天就被抓取并出现在搜索结果里,收录速度缩短了不少。

配置好了就一劳永逸?别忘了检查和更新!

网站改版、换CMS、上线新频道(比如突然加了个会员社区或在线课程区)——这些时候,robots.txt 很可能已经“跟不上节奏”了。
旧的屏蔽路径可能404了,新的敏感区域却裸奔着。
建议养成两个习惯:

  • 每次网站有大动作,顺手打开 https://你的域名/robots.txt 快速扫一眼
  • 在 Google Search Console 的“覆盖率”报告里,定期看“被 robots.txt 屏蔽”的URL数量。如果某天突然暴增,八成是配置出问题了。

今天下班前就能完成的一个具体操作

现在就打开浏览器,输入你的网站地址,后面直接加 /robots.txt(比如 www.jiuhua.com/robots.txt),按回车。
如果返回404,说明你压根没这个文件——那今天就新建一个,粘贴上面那个基础模板,上传到网站根目录。
如果文件存在,就复制全部内容,打开 Google Search Console(你日常查收录、看关键词的那个平台),进入“设置”→“robots.txt 测试工具”,把内容粘进去,再随便输一个你最近发的公众号文章页URL,点“测试”。
两分钟,你就知道:搜索引擎到底是被你请进门了,还是被你堵在了门外。