你发了一篇自认为挺扎实的文章,结果一周后打开站长平台——收录数还是零。不是没点击,是压根没进搜索引擎的库。

更扎心的是,隔壁同行同主题的稿子,发布时间比你还晚,首页都排上了。你翻遍设置、查 robots.txt、确认没手滑点“禁止收录”……问题到底卡在哪?

答案可能就藏在:你根本没给爬虫留个进门的钥匙。

为什么你的页面被搜索引擎“拒之门外”?

爬虫不是全知全能,它每天要从几十亿 URL 里挑着爬。它不靠玄学,靠信号——链接、权限、新鲜度,一个都不能少。

如果你的页面藏在三级菜单里,站内没人链它,外面也没人提它,那它大概率还在“待认领”状态。有些站长甚至自己关了门:比如 WordPress 后台勾选了“不鼓励搜索引擎索引此站点”,或者 robots.txt 里冷不丁多了一行 Disallow: /

我帮一个企业站排查过,内容质量不差,但收录率长期卡在 5% 以下。最后发现,他们装了个安全插件,悄悄在 robots.txt 里加了 Disallow: /。删掉这行,一个月后收录量明显提升。

现在就去检查你的 robots.txt 文件,看看有没有不该出现的 Disallow 规则。再打开百度站长平台或 Google Search Console 的“网址检查”功能,随便输一个你最想被收录的页面地址,看提示是不是“已排除,因 robots.txt 规则”。

如何用sitemap给爬虫画一张“藏宝图”?

sitemap 不是交完就完事的档案袋,它是你主动递到爬虫手里的路线图。

尤其对内容更新快的站(比如博客、资讯类),新文章发布后,别等爬虫自己撞进来——让它第一时间看到。用 Yoast SEO 或 Rank Math 这类插件,开个自动更新 sitemap 的开关就行。

关键不是“塞得多”,而是“挑得准”。标签页、空分类页、用户个人主页这类页面,别往 sitemap 里硬塞。它们没实质内容,反而会拖慢爬虫找真正好东西的速度。

之前有个电商站,sitemap 里混进了上万条带参数的商品筛选页(像 /shoes?color=red&size=42 这种)。爬虫真去爬了,结果核心商品页反倒被晾在一边。清理掉这些干扰项后,主力商品页的收录进度加快了不少。

你提交 sitemap 后,每周顺手点开百度站长平台或 Google Search Console 的“sitemap 报告”,看有没有标红报错。如果某个页面反复显示“无法抓取”,要么修复链接,要么干脆从 sitemap 里移出去。

内链布局:用3个技巧让爬虫“一路绿灯”

爬虫不会飞檐走壁,它靠链接走路。你页面要是孤零零挂在角落,它路过十次都不一定拐进去。

第一,首页必须带路。
别把首页当橱窗只摆最新爆款。首页权重最高,把它当成“总调度台”——把你的王牌页(比如产品页、核心教程、转化入口)直接放上去,最好放在首屏可见位置。

第二,正文里自然埋线。
写文章时提到相关概念,顺手链到站内旧文。比如写“怎么优化标题”,说到 <title> 标签,就链到你那篇《<title> 写法避坑指南》。这不是凑字数,是给爬虫指下一站。

第三,面包屑别省。
每个页面顶部加一行面包屑导航,比如“首页 > SEO 实操 > 搜索结果页收录控制”。用户看得清来路,爬虫也更容易理解你网站的结构层次。

有个技术博客写了 200 多篇,70% 页面长期零收录。原因很简单:所有内链只指向首页和最近 10 篇。后来我在每篇文章末尾加了个“老文推荐”模块,随机链 2~3 篇历史干货。一个月后,那些沉底的老内容开始陆续被收录。

外部链接:如何让搜索引擎“主动敲门”?

外链不是刷出来的KPI,是别人愿意为你背书的一句话。

哪怕你站内链接做得滴水不漏,如果全网没人提你,爬虫也会觉得:“这站好像不太有人关心?”于是降低访问频率,甚至跳过。

但外链不是越多越好。论坛签名、群发软文、垃圾站互链——这些非但没用,还可能触发风控。

靠谱的做法是:在垂直社区提供真实价值,顺便带上你的链接。比如在知乎回答“新手怎么判断页面是否被收录”,结尾附一句:“我们实测过几种常见误判场景,整理在这篇里”,然后链到你自己的诊断指南。

我见过一个做留学攻略的站长,他写的《日本签证材料避坑清单》被几个留学公众号自发转载,还保留了原文链接。没花钱、没求人,那篇文章上线三天就被收录,两周后进了长尾词前五。

你可以用百度站长平台的“外链分析”,或 Ahrefs(如果你常用)扫一眼外链来源。如果发现大量低质站、博彩站、空白页链接,赶紧用 Google 的“拒绝外链”工具处理掉。

为什么你用了“禁止收录”指令,页面还是被收录了?

你明明给某页加了 noindex,结果它还是出现在搜索结果里——不是爬虫不听话,是你指令没下到位。

常见误区是只写 noindex,却忘了加 follownoindex 是说“别收”,follow 是说“可以点进去看看”。如果只写 noindex,爬虫可能连门都不进,自然读不到这个指令。

正确写法是:在页面 <head> 里加上

<meta name="robots" content="noindex, follow">

另一个坑是:你在 robots.txt 里写了 Disallow: /admin/,但别人把 /admin/login.php 链到了微博或 GitHub。爬虫顺着外链进来,发现页面能打开,又没看到 noindex,就直接收了——因为 Disallow 只管“不让爬”,不管“不让收”。

真实案例:一个开发论坛把私信页设为 Disallow,结果用户把私信链接发到了技术群,被爬虫顺藤摸瓜抓走内容。后来他们在私信页头部补了 noindex,问题立刻解决。

检查你不想被收录的页面:

  • 如果是后台、草稿、测试页,优先加 <meta name="robots" content="noindex, follow">
  • 如果是整块目录(比如 /temp/),用 robots.txt + noindex 双保险;
  • CMS 用户直接去编辑页面,找“搜索引擎索引”开关,关掉就行。

一个今天就能执行的操作:用“收录率公式”快速诊断你的站点

别等下周,现在就打开你天天用的站长平台(百度站长平台 or Google Search Console),花三分钟做完这件事:

  1. 找到“sitemap 提交记录”,记下你当前 sitemap 里总共提交了多少页面;
  2. 在“索引覆盖率”或“覆盖范围”报告里,查出“已编入索引”的页面数;
  3. 算个简单比例:已收录 ÷ 已提交 = 收录率
    • 超过 80%,说明路径基本通畅;
    • 低于 50%,得马上动手查原因。

接着看“抓取统计”——最近 7 天,爬虫每天来你站几次?

  • 中小站如果稳定在 100 次以上,说明爬虫对你有兴趣;
  • 如果经常低于 50 次,先检查 sitemap 是否提交成功,再试着在知乎或行业论坛发一篇带链接的干货回复,相当于喊一声:“这儿有新料,快来看看。”

如果抓取量正常但收录率低,重点看“已发现但未收录”的页面列表。这类页面通常内容太薄(比如只有标题+一句话)、重复率高、或没独特信息。挑出 3 个,今天就打开编辑器,每篇补上 200 字以上的原创解释、操作截图或真实案例——不用重写,就加点人话、加点细节。

今天就做:打开站长平台 → 记下收录率、7天抓取次数、“已发现未收录”页面数 → 从中挑 3 个页面,各补一段 200 字左右的实在内容 → 明天刷新一下,看有没有页面状态变成“已编入索引”。