robots.txt文件怎么配置？5个常见错误让你的网站流量暴跌

你的网站可能正把搜索引擎往外推

你有没有遇到过：新发的干货文章好几天没被收录，但后台登录页、测试用的404页面反而跑进了搜索结果？别急着怪百度或Google——先看看你网站根目录下那个叫 robots.txt 的小文件。它不显眼，但真能左右你的流量命脉。

robots.txt 到底是什么？它如何指挥搜索引擎？

robots.txt 就是你网站根目录里一个纯文本文件（比如 www.yoursite.com/robots.txt）。它不是密码锁，也不是防火墙，而是一张写给搜索引擎爬虫的“温馨提示”。

爬虫每次来你家串门，第一件事就是找这张纸。它只认两种基本语言：User-agent（指明对谁说话）和 Disallow（告诉对方哪儿别去）。别的都算锦上添花。

真实翻车现场：有位做女装电商的朋友，图省事写了句 Disallow: /，想“防一下爬虫”。结果三个月后发现，除了首页，所有新品页、活动页全没进搜索结果——等于把自家橱窗关了灯，还拉上了卷帘门。

最常见的 5 个 robots.txt 配置错误，你中了几个？

错误一：把 /css/ 和 /js/ 目录全拦在外面
现在搜索引擎要渲染页面才能看懂内容。你把样式和脚本一禁，它看到的可能是白屏+乱码，直接判定“这站没法看”，连带正文也不索引。

错误二：以为 Disallow: /admin/ 就能保住后台安全
错。这个地址在 robots.txt 里是明文写的，等于在门口贴了张纸：“管理员入口在此”。真想保护，得靠登录验证、IP限制这些实打实的防护。

错误三：空格多一个、冒号少一个、大小写混着写
比如 User-agent: * 写成 user-agent: * 或 User-agent : *，有些爬虫会直接跳过整段规则。它不像人，不会帮你脑补。

错误四：忘了加 Sitemap 这行
虽然不算指令，但加上 Sitemap: https://www.yoursite.com/sitemap.xml，相当于递给爬虫一张清晰地图。尤其对常更新的博客、资讯站，能帮它更快找到新内容。

错误五：所有爬虫一视同仁
百度蜘蛛和 Googlebot 对 JS 渲染的支持不同，图片搜索爬虫又只关心 /uploads/ 下的图。一刀切的规则，容易顾此失彼。

如何一步步写出适合你的 robots.txt？

先想清楚：你最不想让爬虫碰的是什么？
通常是这些：WordPress 后台（/wp-admin/）、通用管理路径（/admin/、/cgi-bin/）、站内搜索结果页（/search/ 或 /?s=）、带一堆参数的分享链接（/share?id=xxx&ref=yyy），还有老版本静态资源目录。

再套个稳妥模板（中小网站可直接参考）：

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /search/
Disallow: /?s=
Disallow: /*?*
Sitemap: https://www.yoursite.com/sitemap.xml

注意：/*?* 这条很管用，但如果你的博客或商品页靠参数分页（比如 /list?page=2），就得单独放行，否则会误伤。

最后一步，必须测。打开 Google Search Console → “设置” → “robots.txt 测试工具”，粘贴你的内容，输入几个关键页面 URL，点“测试”。它会告诉你：爬虫到底能不能看到你想让它看的内容。

高级技巧：如何用 robots.txt 管理抓取预算？

大站最怕爬虫“瞎逛”——花半天时间爬完几百个已下架商品页，却漏掉了今天刚上的爆款详情页。robots.txt 就是你给它的“重点巡逻区域指南”。

比如：

禁掉 /archive/2018/ 这类老归档目录（内容早过期了）
屏蔽 /downloads/ 下的旧版PDF手册（用户早不下了）
不让爬 /tag/ 下的冷门标签页（点进去全是零星几篇文章）

真实优化效果：一家本地生活资讯站，过去爬虫总卡在 /uploads/ 里翻2016年的活动海报。他们加了 Disallow: /uploads/2016/ 到 /uploads/2019/ 几行，结果新发布的探店图文，当天就被抓取并出现在搜索结果里，收录速度缩短了不少。

配置好了就一劳永逸？别忘了检查和更新！

网站改版、换CMS、上线新频道（比如突然加了个会员社区或在线课程区）——这些时候，robots.txt 很可能已经“跟不上节奏”了。
旧的屏蔽路径可能404了，新的敏感区域却裸奔着。
建议养成两个习惯：

每次网站有大动作，顺手打开 https://你的域名/robots.txt 快速扫一眼
在 Google Search Console 的“覆盖率”报告里，定期看“被 robots.txt 屏蔽”的URL数量。如果某天突然暴增，八成是配置出问题了。

今天下班前就能完成的一个具体操作

现在就打开浏览器，输入你的网站地址，后面直接加 /robots.txt（比如 www.jiuhua.com/robots.txt），按回车。
如果返回404，说明你压根没这个文件——那今天就新建一个，粘贴上面那个基础模板，上传到网站根目录。
如果文件存在，就复制全部内容，打开 Google Search Console（你日常查收录、看关键词的那个平台），进入“设置”→“robots.txt 测试工具”，把内容粘进去，再随便输一个你最近发的公众号文章页URL，点“测试”。
两分钟，你就知道：搜索引擎到底是被你请进门了，还是被你堵在了门外。

你的网站可能正把搜索引擎往外推#

robots.txt 到底是什么？它如何指挥搜索引擎？#

最常见的 5 个 robots.txt 配置错误，你中了几个？#

如何一步步写出适合你的 robots.txt？#

高级技巧：如何用 robots.txt 管理抓取预算？#

配置好了就一劳永逸？别忘了检查和更新！#

今天下班前就能完成的一个具体操作#