你的网站正在被“吸血”——寄生虫页面清理实战指南

你发了一堆好文章,外链也铺得挺勤,结果百度收录数涨了,流量却纹丝不动?点开几个标签页,发现全是空壳、重复、连标题都懒得改的页面——别怪算法,先看看你家网站里是不是住了群“白吃不干活”的寄生虫。

它们不带来一个用户,不贡献一点排名,光占着蜘蛛的抓取配额、稀释你首页的权重、拖慢整站速度。可能是CMS自动生成的几百个城市+分类标签页,可能是插件悄悄塞进来的 /author/张三/(张三根本没写过字),也可能是搜索框一敲就蹦出来的 /search?q=xxx——这种页面,百度抓一万次,也不给你一个排名。

你的网站里到底藏着多少“死页面”?

先动手试:打开你网站,随便点一个标签,比如“WordPress教程”。如果点进去只看到3篇旧文,但URL是独立的 /tag/wordpress-教程/,而这个页面在百度搜“WordPress教程”根本排不上号——那它大概率就是寄生虫。

我帮一个本地生活平台查过,老板说流量腰斩,收录从8万掉到2万。后台一翻,光是“北京+家政”“上海+家政”“广州+家政”这类组合标签页就生成了4000多个,每页内容完全一样,只是URL里换了城市名。这些页面不仅没排名,还把“家政服务”这个主词的权重扯得稀碎。清理后,收录缩到1.5万,但核心词排名明显提升,流量反而翻了好几倍。一句话:不能带来转化、也抢不到排名的页面,留着就是给自己挖坑。

3步揪出最隐蔽的寄生虫页面

寄生虫不会举手自首,你得靠工具+眼力去扒。

第一步:盯住“蜘蛛常来、百度不收”的页面
打开百度搜索资源平台 → 抓取异常报告,或者用你服务器的访问日志(nginx/apache log)筛一下:哪些URL被爬了几十次甚至上百次,但始终没进索引?比如电商站的 /search?q=xxx 页面,蜘蛛天天来,可百度压根不收——这种页面,直接加到 robots.txt 里封掉,省下的抓取预算够喂十篇新文章。

第二步:用 site: 命令翻老底
在百度搜 site:你的域名,然后手动翻到第10页以后。标题写着“无标题文档”“您访问的页面不存在”“404 Not Found”的,基本都是寄生虫。我见过一个企业站,因为CMS模板漏洞,自动生成了2000多个带“404”字样的独立URL,全被蜘蛛当真页面抓走了——相当于请了一百个快递员,全堵在你家门口等开门,没人进屋送件。

第三步:比对内容相似度
用 Screaming Frog 或 Sitebulb 抓全站,导出所有页面的 <title><meta description> 和正文前200字。拉个Excel,按标题或描述排序,一眼就能揪出那些长得一模一样的页面。比如一篇《小红书起号指南》,系统同时生成了 /xhs-qihao//guide/xiaohongshu/ 两个地址——这不是多开一扇门,是自己跟自己打架。之前处理过一个知识类博客,30%的页面都是这种重复变体,清理完蜘蛛抓取效率至少提了一半。

这些“隐形杀手”比404更可怕

404至少会报错,寄生虫却披着“能打开”的皮,骗用户、骗蜘蛛、骗你自己。

第一种是分页陷阱/list/1//list/2//list/100/,每页只有标题列表不同,正文全是复制粘贴。百度一看:你在刷量。轻则降权单页,重则牵连整站。

第二种是搜索框裸奔:站内搜索功能默认开放给蜘蛛,/search?q=SEO/search?q=运营 全被抓走。这些页面内容高度雷同,全是“找到 3 条结果”,毫无信息增量。

第三种是空壳归档页/author/李四//category/未启用//tag/测试标签/……点进去就一行字:“暂无内容”。这种页面被收录后,用户点进来秒关,跳出率拉满,体验分直接崩盘。

去年帮一个口腔诊所网站做诊断,发现它的“疾病百科”模块,每个病种都拆成了“病因”“症状”“治疗”三页,但三页文字几乎一模一样。用户搜“牙周炎症状”,点进去看到的和“牙周炎治疗”页面差不多。最后我们合并了200多个这种页面,统一301到主词条页,整站权重明显回升,核心词排名从第5页跳到了第2页。

清理后,必须做的3件事防止复发

寄生虫不是灭一次就绝迹的蟑螂,得建防线。

第一件事:在 robots.txt 里划清“禁区”
只放行你真正想被收录的页面:首页、分类页、文章页、产品页。其他一律挡在外面。比如:

Disallow: /tag/
Disallow: /search/
Disallow: /author/
Disallow: /date/
Disallow: /wp-admin/

注意:如果你的标签页真有深度内容(比如每个标签下都有编辑写的专题综述),那就别封——封的是垃圾,不是干货。

第二件事:给重复页面装上“路标”
<link rel="canonical" href="主版本URL" /> 告诉百度:“别管我长啥样,权重请全打到这个地址上。”
比如你的文章同时存在 /post/123/article/seo-guide/ 两个地址,就在 /post/123<head> 里加上这行代码,指向 /article/seo-guide/。这样权重不散,蜘蛛也不迷路。

第三件事:养成每月“扫楼”习惯
不用复杂工具,就两招:

  • 每月花10分钟,在百度搜 site:你的域名,翻到第15页以后,看有没有新冒出来的奇怪页面;
  • 登录百度统计 → 页面分析 → 筛选“浏览量为0”且“已被收录”的页面,批量删或301。
    我自己会在服务器上设个简单脚本,每周自动检查哪些页面连续7天零访问,就自动301到首页——不是为了技术炫技,是怕哪天又冒出一堆“李四作者页”。

真实案例:一个旅游站从“病入膏肓”到“起死回生”

朋友做泰国旅游攻略站,坚持日更3篇原创半年,流量却卡在每天200左右。后台一查:收录1.2万,但真正有用的页面不到1000个。问题出在CMS的“热门标签”功能——用户点一次“清迈民宿”,系统就生成一个 /tag/清迈民宿/ 页面;再点“普吉岛潜水”,又来一个 /tag/普吉岛潜水/。半年下来,光标签页就破万。更糟的是,每个标签页还自动分页:/tag/清迈民宿/page/1//tag/清迈民宿/page/2/……每页就列10个标题,正文全无。

我花了3天,把所有标签页、分页路径全加进 robots.txt 屏蔽,再把旧标签页301导流到对应的分类首页(比如“曼谷攻略”)。清理后,收录从1.2万掉到3000,但“泰国旅游攻略”这个词直接从第8页冲到第1页第3位。朋友问:“收录少了,怎么流量翻了10倍?”我说:“以前是1000个人抢一碗饭,现在10个人分一碗,每人能吃饱。”

今天就能做的1个动作:从“搜索框测试”开始

现在就打开你网站的浏览器地址栏,输入你的域名,手动拼一个搜索URL:
比如你的站是 www.travel-thai.com,试着访问 www.travel-thai.com/search?q=测试www.travel-thai.com/s/测试
点开看看——如果页面显示“没有结果”或只有一堆标题列表,而且这个页面目前能被百度收录(搜 site:你的域名 search 能搜出来),那它就是你第一个该处理的寄生虫。

接着,打开你网站根目录下的 robots.txt 文件(用FTP、宝塔面板或主机后台都能直接编辑),在末尾加一行:

Disallow: /search/

(如果搜索路径是 /s/,就写 Disallow: /s/
保存,5分钟搞定。不用等明天,百度下次来抓,就不会再浪费时间扫这些页面了。很多站长就是靠这一步,把网站从“蜘蛛来了也绕着走”的状态,硬生生拉了回来。