你更新了200篇产品页,写了50个客户案例,连FAQ都按用户真实提问重写了——结果搜控制台里,首页和栏目页密密麻麻,那些你熬夜改了三遍的详情页,影子都没见着。
领导问“新内容怎么搜不到”,你翻着控制台截图,心里清楚:不是没被看见,是压根没被爬到。
深度页面收不进索引,90%不是算法在卡你,是你自己把爬虫挡在了门外。下面这些事,我带团队踩过坑、调过数据、改过代码,今天直接说透。
你的网站结构,是让爬虫迷路的死胡同?
大部分网站的导航链是:首页 → 栏目页 → 列表页 → 详情页。人看着顺,爬虫却常在这儿卡死。
它从首页进来,点进栏目页,再点进列表页——但接下来就停了。因为很多列表页靠“点击加载更多”或滚动到底部触发AJAX,爬虫不会点、不会滚,只扫HTML里明明白白写的链接。
一个B2B工业设备网站,2000多个产品页,收录不到200个。查下来,列表页只静态展示前30条,后面全靠JS拉取。爬虫扫完第一页就走了,剩下1970个页面,等于不存在。
解决办法很实在:
- 把分页做成真链接,比如
/products/page/2/、/products/page/3/,别用?page=2这种参数形式(除非你在robots.txt里明确放行); - 首页或栏目页的导航栏里,至少放一两个“第2页”“第3页”的入口,别让爬虫全靠猜;
- 检查URL层级:如果
/industry/machinery/cnc/laser-cutting-machine/这种五层路径满天飞,赶紧砍掉中间两层。扁平化成/laser-cutting-machine/,或者在首页加个“热门产品”模块,把核心详情页直接推到第一层。
为什么你的sitemap提交了等于白提交?
sitemap不是快递单,填完地址就发货。它是张“推荐菜单”,搜索引擎看一眼,信不信、吃不吃,全凭它心情。
见过最典型的:电商站往sitemap里塞了8万条商品链接,实际收录几百条。一扒发现,里面混着缺货页、重复SKU页、刚上线还没配图的测试页——搜索引擎一看:“你连自己都觉得不重要,我干嘛优先抓?”
真正管用的sitemap,就两条:
- 精,不贪多。拆成多个文件,每个不超过5000条;只放你真正在意的页面:刚更新的产品页、新增的客户案例、重写的FAQ,别把“关于我们”“招聘”这种三年不动的页面硬塞进去;
- 有时间感。每条URL后面带上
<lastmod>,写真实的最后修改日期。一个博客之前所有页面<lastmod>全标成建站日,收录惨淡;后来改成按实际更新时间填,又剔掉半年没动过的旧文,两周后,深度页进索引的速度快了不少。
内链布局做对了吗?爬虫靠的是一张“网”不是一条“线”
很多人以为内链就是文章末尾加句“点击查看首页”,或者侧边栏塞几个栏目链接。这相当于只修了一条乡间小道,还指望高铁开进来。
爬虫靠的是网状路径。它可能从知乎跳进来,也可能从公众号推文点进来,甚至从某篇旧文的评论区误入——只要网够密,它总能找到你要推的页面。
举个工具类网站的例子:他们原来每个工具页只链向同品类的其他工具,爬虫困在“在线PDF转换”这个小圈子里打转,AI写作、密码管理这类冷门工具页,常年零收录。我们改了规则:
- 每个工具页正文里,必须自然嵌入3个不同类目的工具链接(比如PDF页里提一句“配合使用我们的AI摘要工具,效率翻倍”);
- 首页加了个“随机热用工具”模块,每天轮播不同类目;
三个月后,那些长期躺平的冷门工具页,收录量涨了一倍多。
还有个细节别忽略:页脚链接权重最低,爬虫通常扫到最后才看。把关键内链放进正文段落里、相关推荐模块中、或者侧边栏的“你可能也需要”区域——这些地方,才是爬虫真正在意的路口。
页面质量不过关,爬虫凭什么收录你?
说句实在话:很多深度页不被收录,不是技术问题,是内容没立住。
搜索引擎不关心你写了多少字,它只关心——用户点进来,能不能立刻找到答案。一个景点页只有“风景优美、值得一游”八个字,配三张滤镜图?它可能被收录,但永远排不进前几页。加了交通方式、门票政策、实测人流高峰、本地人推荐的小店、雨天备选方案?收录变快,排名也稳了。
判断一个深度页有没有“收录资格”,就看三点:
- 它解决了一个具体问题吗?比如“XX设备怎么连接WiFi”“合同里‘不可抗力’怎么认定”,而不是泛泛而谈“我们服务一流”;
- 内容完整吗?文字+实拍图+操作截图+短视频片段,比纯文字更容易被识别、更可能被推荐;
- 它是活的吗?三个月没动过的内容,哪怕写得再好,也会被系统判定为“过期信息”。哪怕只是补一条新FAQ、更新一次价格、替换一张过时截图,都算“还在维护”。
爬虫预算被浪费了,你都不知道
搜索引擎每天给每个站分配的爬取次数,是有限的。就像快递员一天只能送100件货——如果你让他反复跑同一个空仓库,那新上架的货,永远等不到签收。
常见被浪费预算的地方:
- 搜索结果页
/search?q=xxx; - 分页到第200页的列表
/products/page/200/; - 多个颜色/尺寸版本但内容雷同的产品页;
- 返回404或301跳转的失效链接。
怎么省下预算给深度页?
- 在
robots.txt里明确拦住低价值路径,比如:Disallow: /search/ Disallow: /products/page/ Disallow: /*?color= - 给重复页面加
<link rel="canonical">。比如红蓝黑三款同一款耳机,只留红色版为标准页,另两个页头部声明 canonical 指向它。搜索引擎就不会白跑两趟。
一个新闻站以前每篇稿子自动生成“打印版”“PDF版”,爬虫天天在三个几乎一样的页面间反复横跳。加上 canonical 后,原本被挤占的爬取资源,立刻分给了更多原创专题页,深度内容收录明显加快。
外部入口太少,爬虫根本找不到你的深度页面
爬虫不是幽灵,它需要入口。如果所有深度页只能靠“首页→产品列表→详情页”这一条路进来,那这条路一堵,页面就彻底失联。
真正的破局点,是制造多个可信入口:
- 社交平台发干货时,直接贴深度页链接。比如在LinkedIn分享“B2B客户决策链拆解”,就链到你写好的《采购、IT、法务三方审批流程图解》;
- 在知乎回答专业问题,不硬推,但把对应深度页当参考资料附上。比如答“SaaS合同里SLA条款怎么谈”,顺手挂出你整理的《SaaS服务等级协议避坑清单》;
- 和同行换友链,别只链首页。找健身博主换链接,就让他们链你的《家用哑铃选购指南》;找HR SaaS公司合作,互相链对方的《员工背调合规操作手册》。
一个法律咨询网站,之前“劳动仲裁证据清单”页一直零收录。我们让他们在3家律所官网交换链接,每家链不同深度页;同时在知乎集中回答劳动纠纷类问题,带对应页面链接。两个月后,这批页面全部进了索引,且自然流量开始缓慢爬升。
今天就能做的一个操作:清理你的sitemap
别等大改版,现在就做:
- 打开百度搜索资源平台或Google Search Console,找到你提交的
sitemap.xml; - 下载文件,删掉所有超过90天未更新、且正文少于300字的URL;
- 给剩下的每条URL补上
<lastmod>,日期填你最后一次手动编辑该页面的真实时间(不确定就去CMS后台看修改记录,或查服务器文件mtime); - 重新上传提交。
做完等一周,回搜控制台看“已收录”曲线。你会看到,那些你真正在意的页面,开始一个个亮起来。