你的网站是不是被自己“锁”起来了?

最近有朋友问我:“我天天更新内容,外链也发了不少,怎么搜自己网站,首页都快掉出前10了?”
我第一反应就问他:你打开过 robots.txt 吗?

很多人根本不知道这个文件在哪,更别说它正悄悄把搜索引擎挡在门外。

robots.txt 写错,到底有多严重?

robots.txt 是爬虫进你家门时看到的第一张纸条。
它不强制,但主流搜索引擎(Google、Bing)都会老老实实照着做。
写错一行,可能整层楼都不让进——而且不会敲门提醒你。

最让人头疼的是:网站一切正常,用户访问没问题,后台数据也跑得欢,只有搜索流量在偷偷缩水。
你查服务器、看代码、翻内容,就是想不到问题出在那个几KB的纯文本文件上。

之前帮一个做母婴用品的电商排查,他们想屏蔽比价爬虫,在 robots.txt 里加了 Disallow: /product/*?price=,结果通配符没收住,把整个 /product/ 目录都拦住了。
新品上线三个月,百度和 Google 基本没收录,直到用户留言说“搜不到新款奶瓶”,才顺藤摸到这个文件。

哪些常见的 robots.txt 错误会“误伤”收录?

别小看几行文字,这几个坑,90% 的中小站长都踩过:

  1. Disallow: / —— 一键清空
    就一个斜杠,等于挂出“谢绝参观”牌。新手测试时随手加上,忘了删,后果就是全站失联。

  2. 路径少了个斜杠:Disallow: /adminDisallow: /admin/
    前者会误伤 /admin-page.html 这类页面;后者才精准屏蔽整个目录。差一个字符,意思全变。

  3. 通配符用得太猛
    比如 Disallow: /*.html$ 看似只拦静态页,但如果 CMS 生成的 URL 带 .html 后缀(比如 /blog/xxx.html),那所有文章页就一起消失了。

  4. 把 CSS 和 JS 也给禁了
    Disallow: /css/Disallow: /js/ 听起来很安全,但 Googlebot 现在要渲染页面才能理解内容。
    它看到的可能是白屏、乱码,或者压根读不到正文——不是不收录,是“看不懂,先放着”。

如何检查你的 robots.txt 是否健康?

不用装工具,不用找人,三步马上搞定:

第一,直接浏览器打开
输入 你的域名.com/robots.txt,就像打开首页一样自然。
盯着看:有没有多出来的空格?有没有拼错的路径?有没有不该出现的 /

第二,用你 already 在用的平台验证
打开 Google Search Console → 左侧菜单点「设置」→「robots.txt 测试工具」。
选 Googlebot,粘贴你想检查的 URL,点“测试”。它会立刻告诉你:这条规则下,这个页面是“允许”还是“禁止”。

第三,看 Search Console 的“覆盖率”报告
如果里面突然冒出一堆“已屏蔽”的页面,尤其是你确认没动过的新栏目或产品页,八成就是 robots.txt 搞的鬼。
再顺手翻翻服务器日志——如果 Googlebot 最近连 /blog/ 都没访问过,而你博客天天更新……那就真该去翻翻那个小文件了。

之前一个知识付费小站,robots.txt 里写着 Disallow: /course/ (末尾带空格)。
这个空格让规则失效,爬虫转头去抓 /course /(根本不存在的路径),浪费了大量抓取配额,真正有用的课程页反而没人搭理。

写一个安全又高效的 robots.txt,记住这几点

别追求功能多,追求“不出错”就够了:

原则一:能不写 Disallow,就不写
展示型网站、企业官网、内容站,绝大多数时候只要留一行 Sitemap: https://xxx.com/sitemap.xml 就够了。
其他规则,除非你明确知道为什么要加,否则先别碰。

原则二:路径必须和你网站实际结构一致
比如你后台地址是 /wp-admin/,就写 /wp-admin/;如果是 /manage/,就写 /manage/
不确定?先在浏览器里点开那个目录,复制地址栏里的完整路径。

原则三:Sitemap 要写对,且保持更新
别写死 sitemap.xml,写完整 HTTPS 地址。
如果你用 WordPress,插件生成的 sitemap 地址通常是 /sitemap_index.xml/wp-sitemap.xml,按实际填。

原则四:User-agent 别乱分
除非你在专门防某类恶意爬虫,否则统一用 User-agent: * 就行。
别学网上教程写一堆 Googlebot-NewsBingbot-Image,多数人用不上,还容易写错。

如果已经被屏蔽了,怎么快速恢复?

别等,现在就能动手:

第一步:立刻改文件
用 FTP、主机后台文件管理器,或者 WordPress 插件(如 Rank Math、Yoast 的 robots.txt 编辑器),把错的那一行删掉或改对。
保存后,立刻在浏览器里刷新 你的域名.com/robots.txt,确认生效。

第二步:去 Search Console 提交新版本
打开「robots.txt 测试工具」→ 点右上角「提交」→ 等几秒,Google 就会重新抓取你的新文件。

第三步:手动“推”一下关键页面
进「网址检查」工具,输入你最想被收录的页面(比如最新产品页、核心文章),点「请求编入索引」。
这不是万能药,但比干等快得多。

第四步:盯三天
改完别关电脑。第二天回 Search Console 看「覆盖率」报告有没有减少“已屏蔽”数量;第三天看百度统计或 GA 里,自然搜索流量有没有止跌。

有个做本地装修的客户,误写了 Disallow: /case/,导致所有案例页消失。
我们改完文件后,当天就用「网址检查」推了10个重点案例页,一周内百度收录量回升了大半。

今天下班前,花5分钟做这件事

现在,就打开一个新的浏览器标签页。
输入你的网站地址,后面加上 /robots.txt,回车。

安静读一遍,只问自己三个问题:

  1. 有没有 Disallow: / 这种“全站封杀”指令?
  2. 每一条 Disallow 后面的路径,你点开过吗?确定它真的不该被收录?
  3. 文件最后一行,是不是写着正确的 Sitemap: 地址?

如果有任何一行让你犹豫,立刻切到 Google Search Console,打开「robots.txt 测试工具」,粘贴你的域名,点测试
5分钟,可能救回你接下来一个月的自然流量。
去吧,现在就看一眼。