你提交了sitemap,Google就是不索引?先别怪蜘蛛,可能它压根没看清你的“菜单”

刚发完一篇干货,顺手把 sitemap.xml 提交到 Search Console,结果两周过去,新页面还在“待机状态”。这时候最容易怀疑自己:是不是标题不够炸?内容太水?甚至偷偷去查服务器日志,看有没有被降权……其实大概率,问题不在内容,而在那份你当成“提交完就结束”的 sitemap —— 它可能格式不对、链接失效、或者根本没被蜘蛛当真读过。


为什么你的sitemap提交了等于白提交?

搜索引擎不是收件箱,不会“已读不回”,但它确实会挑着看。它更信任那些更新稳定、结构干净、URL靠谱的站点。一旦发现你的 sitemap 里塞满死链、重复页、或三个月没动过的旧地址,它会默默降低对整站的爬取热情。

真实案例:一个专注小众旅行路线的博客,接手前索引率长期卡在个位数。查了才发现,它的 sitemap 里混进了几十个带参数的标签页(比如 ?sort=popular?page=2),内容和主分类页几乎一样。Google 直接判定为低价值重复页,连带首页的抓取频次都变少了。我们删掉所有带参数的非必要页面,只保留原创攻略页和城市主分类页,重新生成提交后,新内容进索引的速度快了一倍不止。

你要盯紧这三件事

  • 只往 sitemap 里放你真心想被搜到的页面:正文、产品页、核心栏目页。导航页、搜索页、登录页这些,别凑数。
  • 每个 URL 点开必须是 200 状态,且内容不能是“暂无内容”“正在建设中”这类占位符。
  • changefreq 别乱填。写“daily”但实际一周才更两篇?蜘蛛记性比你想象中好。

3个让蜘蛛更快抓取你新内容的更新技巧

蜘蛛不是超人,它靠习惯干活。你越让它猜不到节奏,它就越懒得来;你越给它清晰信号,它就越愿意多跑几趟。

技巧1:lastmod 是时间戳,不是装饰品
<lastmod> 标签的作用,是告诉蜘蛛“这个页面我动过筋骨了”。改了个错别字、调了下字体颜色?不用动它。但如果你重写了第三段、替换了关键数据图、补上了用户最常问的 FAQ——这时候,就该更新 lastmod。否则蜘蛛看到一堆“昨天刚改”的页面,点进去内容纹丝不动,下次就会绕着走。

技巧2:用“增量包”代替“全量包”
别每次更新都推一份全新 sitemap。试试每天凌晨自动生成一个只含当天新增/大改页面的 sitemap-daily.xml,单独提交到 Google Search Console 和 Bing Webmaster Tools。主 sitemap(比如 sitemap-index.xml)照常保留全量,但更新频率可以拉长到每周一次。蜘蛛会优先处理那个“新鲜热乎”的增量文件,新内容露脸时间自然提前。

技巧3:priority 不是许愿池,是轻重缓急表
首页设 priority="1.0" 合理,刚发布的深度教程设 0.9 也说得通,但分类页 0.7、普通列表页 0.5 就够了。千万别全设成 1.0——等于没说;也别临时把某篇推广文调高到 0.95,蜘蛛会对比你历史行为,发现波动太大反而起疑。


sitemap格式选错,努力全白费

XML 不是“长得像就行”。少一个闭合标签、多一个未转义的 & 符号、开头缺了 <?xml version="1.0" encoding="UTF-8"?>,都可能让整个文件变成蜘蛛眼里的“乱码”。

正确做法

  • 用标准 XML 格式,确保每个 <url> 块里至少有 <loc><lastmod><changefreq><priority> 虽非强制,但加上能让蜘蛛更省力。
  • 单个 sitemap 文件别超 50MB(未压缩)。内容多?用一个 sitemap-index.xml 当总目录,指向多个子文件,比如 sitemap-posts.xmlsitemap-products.xml
  • 生成后,用浏览器直接打开 sitemap.xml 链接,看能不能正常显示结构化列表;再用 W3C Feed Validation Service 这类免费工具扫一遍,比靠肉眼靠谱得多。

真实案例:一家本地生活资讯站,新闻更新很勤,但图片老不进图搜。最后发现,CMS 插件导出 sitemap 时,把文章标题里的 & 直接写成了 &,没转义成 &amp;,导致 XML 解析中断。一行代码修复后,图片被识别、索引的速度明显提升。


提交sitemap后,还需要做什么?3个被忽略的动作

提交只是起点。蜘蛛不会因为你“交了作业”就自动给你打分。

动作1:手动点一下“请现在来爬”
在 Google Search Console 的「网址检查」里,粘贴你最新发布的 2–3 篇重点文章链接,点“请求索引”。这不是多此一举,而是给蜘蛛递一张加急单。尤其适合首发爆文、活动专题页这类你特别在意的页面。

动作2:翻一翻 robots.txt,确认它没把你关门外
曾经有客户等了四十天没收录,最后发现 robots.txt 里写着 Disallow: / —— 整个网站都被拦住了。检查时顺便加一行:Sitemap: https://yourdomain.com/sitemap.xml,相当于在门口贴张纸条:“菜单在这儿,欢迎来翻”。

动作3:每月花五分钟,清理一次“僵尸链接”
打开你的 sitemap.xml,随机抽 5 个 URL,挨个在浏览器里打开。出现 404?跳转链太长?页面空白?把这些链接从 sitemap 里移出去。蜘蛛每爬一次死链,都在悄悄扣你整站的信任分。


移动端sitemap和图片视频sitemap,你做了吗?

如果你的网站有大量图片、视频,或者还维护着独立移动站(比如 m.example.com),光靠普通网页 sitemap,等于只交了半份菜单。

图片sitemap:在 <url> 标签下加 <image:image> 子标签,填上图片 URL、<image:title><image:caption>。对电商、摄影、装修类站点特别有用——Google 图片搜索会更准地理解你这张图到底是“北欧风沙发”还是“宜家同款仿品”。

视频sitemap:同理,用 <video:video> 包裹视频元信息。注意:视频源文件 URL 必须公开可访问,别放后台播放器链接,也别设登录墙。教程类、测评类站点做这个,视频被直接展示在搜索结果里的概率会高不少。

移动端sitemap:仅限你真有独立移动站(非响应式)才需要。在 <url> 里加 <mobile:mobile/> 标签,并单独提交给 Search Console。现在绝大多数站点用响应式设计,这条基本可以跳过。

真实案例:一个家居软装博主,之前只交了网页版 sitemap。我们把每篇案例笔记里的主图、细节图、搭配图单独整理成图片 sitemap 提交,一个月后,来自 Google 图片的自然流量翻了两倍多。


今天就能执行的1个具体操作步骤

打开 Google Search Console → 左侧菜单点「站点地图」→ 找到你当前提交的 sitemap.xml 链接,看右边状态是不是“成功”。如果不是,点开错误详情,常见问题是 XML 格式错误(比如 <loc> 没闭合、特殊字符没转义)。用文本编辑器修好后,重新提交。
顺手再做一步:用你常用的建站后台(WordPress / 用友 / 织梦 / 或直接 FTP),找到 robots.txt 文件,在末尾加一行:

Sitemap: https://你的域名/sitemap.xml

保存,然后回到 Search Console 的「网址检查」里,输入你网站首页地址,点“测试实时 URL”,确认能正常抓取。做完这两步,你的 sitemap 才算真正活起来了。