页面重复内容检测：3步揪出偷走你流量和排名的隐形杀手

你发了一篇自以为能爆的干货，结果流量静得像凌晨三点的办公室。
打开 Search Console 一看——好家伙，“已索引-未选择”的页面密密麻麻，点开几个，内容居然和你上个月随手写的那篇一模一样。连你自己都愣了三秒：这玩意儿……我真写过？

这不是玄学，是重复内容在偷偷吃掉你的流量、权重，还有爬虫对你的耐心。

为什么你的网站正在被重复内容悄悄拖垮？

搜索引擎不靠“写得多”给排名，它靠“写得唯一”。

同一个域名下，如果十几个 URL 展示几乎一样的文字、标题、描述，它就犯难了：该信谁？该推谁？最后可能谁也不推。

更实际的问题是：爬虫时间有限。它花10分钟抓取200个雷同的产品列表页，就没力气去翻你真正想让它看见的新品详情页了。

我帮一个做家居配件的电商查过——他们用默认筛选参数生成了上万条变体链接，比如：
domain.com/item?id=889
domain.com/item?id=889&sort=price
domain.com/item?id=889&in_stock=1

所有页面正文、标题、图片说明几乎一致。结果呢？首页关键词排名掉了，用户搜“北欧风收纳盒”，出来的却是第7页的 /item?id=889&sort=date 这种没人点的链接。

重复内容不是“有没有”的问题，是“它已经干了什么”的问题。

如何用3个工具快速扫描出重复内容？

别一页页 Ctrl+F。真有人这么干，不如手抄《新华字典》。

我日常就用三个：Screaming Frog、Sitebulb、Google Search Console。它们不打架，反而互相补漏。

Screaming Frog（免费版够用）
爬完站，直接点「Content」→「Duplicate Content」。它会把相似度高的页面自动归成一组。你不用算百分比，只看“相似度 >90%”那几组，点开扫一眼就行——是不是同一段产品描述反复出现在5个URL里？是不是博客分页每页都塞着同样的导语？

Sitebulb（桌面客户端，有免费试用）
它的界面更直白：重复页面直接标红，旁边还带一句提示，比如“建议合并至 /blog/seo-basics”。你甚至不用点进去，就知道下一步该干嘛。

Google Search Console
进「页面」报告，筛选状态为「已索引但未选择」。这些页面，基本就是被算法打上“又一个复制品”标签的倒霉蛋。点开看看，大概率是你自己都忘了的旧标签页、空搜索结果页、或者带参数的“幽灵页面”。

别只信一个工具。我习惯先用 Screaming Frog 快速筛出大头，再拿 Search Console 对照——那些没被爬到但已被收录的漏网之鱼，往往藏在这里。

为什么参数和分页是重复内容的头号元凶？

重复内容很少是你复制粘贴出来的。它通常长在技术细节里，悄无声息。

比如 URL 参数。你加了个 ?utm_medium=email 做渠道追踪，没问题；但如果你没在 Search Console 里告诉 Google：“这个参数不影响内容”，它就会把 /?utm_medium=email 和 / 当成两个页面来抓。

再比如分页。很多 CMS 默认给 /blog/page/2/ 自动生成独立标题和描述：“最新博客文章 — 第2页”。可用户点进来，发现只是把第1页的文章往下滚了半屏——内容没增量，只有页码在动。

我帮一家工业设备B2B网站处理过这事。他们的产品列表用了分页+排序参数，光是 /products/?page=3&sort=price 这类组合就生成了400多个页面，标题全是“工业阀门列表 - 第X页”，描述也都是模板句。
解决方法很轻：

在每个分页 <head> 里加 rel="canonical" 指向第一页；
或者进 Search Console →「设置」→「URL参数」，把 page、sort 这类参数设为“不影响内容”。

做完当天，被错误收录的页面数掉了快一半。爬虫终于有空去读他们的技术白皮书了。

什么时候该用301重定向，什么时候该用 canonical？

一句话分清：
✅ 301 = 这个页面彻底没了，以后全去那个新地址。
✅ canonical = 这个页面还留着，但“正版”在那边，请认准它。

举个例子：
你写了两篇讲“小红书笔记排版技巧”的文章，第二篇更全、配图更多。第一篇可以 301 到第二篇——老读者点旧链接，直接跳转；搜索引擎也会把旧页权重慢慢导过去。

但如果是 domain.com/guide?ref=partnerA 和 domain.com/guide?ref=partnerB 这种带来源参数的页面，你不能删——合作伙伴还得靠这个链接追踪效果。这时候就在 ?ref=partnerB 页面的 <head> 里加一行：

<link rel="canonical" href="https://domain.com/guide" />

告诉 Google：“别管尾巴，正文和主页面一模一样。”

⚠️ 注意一个坑：别对内容差异大的页面乱加 canonical。比如两篇讲“咖啡机选购”的文章，一篇说意式，一篇说手冲，硬让后者 canonical 指向前者，Google 很可能直接忽略指令，甚至怀疑你在操纵排名。

如何用内容审计彻底消除重复，而不是临时屏蔽？

工具只能告诉你“哪里重复”，但决定“要不要留、怎么留”，得人来拍板。

我建议你拉一张最朴素的表：Excel 或 Google Sheets 都行，四列就够了：

URL
标题
和哪个页面重复（写清楚）
处理方式（删除 / 合并 / 重写 / 加 canonical）

然后每周抽1小时，处理10个。不用追求完美，先动起来。

真实案例：一个专注户外徒步的公众号，发过《川西小环线攻略》《四姑娘山徒步路线》《丹巴到色达7日行程》，三篇开头都是“川西海拔高、紫外线强、需备防晒”，中间景点介绍重合度60%以上。我们没删，而是合并成一篇《川西高原徒步完全指南》，按季节、难度、交通、装备分块，把零散信息织成一张网。上线后，单篇阅读时长涨了，而且用户开始从这篇自然跳转去看他们新写的《高原反应应对清单》。

内容审计不是删库跑路，是把散装信息，捏成一块实心砖。

今天就能执行的3个操作步骤

关掉手机通知，现在就做：

打开 Google Search Console → 左侧选「页面」→ 右上角点「筛选」→ 状态选「已索引但未选择」→ 把前10个URL复制出来 → 逐个打开，看内容是否和其他页面雷同（比如标题像、导语像、正文前三段几乎一样）。标记出至少3个。
下载 Screaming Frog（screamingfrog.co.uk） → 打开软件 → 输入你的域名 → 点「Start crawl」→ 等爬完 → 点顶部「Content」→ 「Duplicate Content」→ 找「Similarity >90%」的分组 → 选其中1组，把里面所有URL复制进你的表格。
就这1组重复页面，立刻决定怎么处理：
- 如果是旧文 vs 新文，把旧URL 301 到新URL（如果你用 WordPress，插件 Redirection 两下就搞定）；
- 如果是多篇碎片化内容，打开编辑器，把它们揉成一篇更完整的（哪怕先存草稿）；
- 如果是参数导致的，打开其中一个页面的 HTML 源码，在 <head> 里手动加一行 rel="canonical"（不会改代码？就先记下来，明天找同事帮忙加）。

做完这三步，你已经从“看不见问题”变成了“手里攥着第一个解决方案”。
重复内容不是洪水猛兽，它只是堆在门口的一箱旧快递——你不去拆，它永远挡着光。
现在，关掉浏览器标签页，打开 Search Console，开始第一步。

为什么你的网站正在被重复内容悄悄拖垮？#

如何用3个工具快速扫描出重复内容？#

为什么参数和分页是重复内容的头号元凶？#

什么时候该用301重定向，什么时候该用 canonical？#

如何用内容审计彻底消除重复，而不是临时屏蔽？#

今天就能执行的3个操作步骤#