你发了一篇自以为能爆的干货,结果流量静得像凌晨三点的办公室。
打开 Search Console 一看——好家伙,“已索引-未选择”的页面密密麻麻,点开几个,内容居然和你上个月随手写的那篇一模一样。连你自己都愣了三秒:这玩意儿……我真写过?

这不是玄学,是重复内容在偷偷吃掉你的流量、权重,还有爬虫对你的耐心。


为什么你的网站正在被重复内容悄悄拖垮?

搜索引擎不靠“写得多”给排名,它靠“写得唯一”。

同一个域名下,如果十几个 URL 展示几乎一样的文字、标题、描述,它就犯难了:该信谁?该推谁?最后可能谁也不推。

更实际的问题是:爬虫时间有限。它花10分钟抓取200个雷同的产品列表页,就没力气去翻你真正想让它看见的新品详情页了。

我帮一个做家居配件的电商查过——他们用默认筛选参数生成了上万条变体链接,比如:
domain.com/item?id=889
domain.com/item?id=889&sort=price
domain.com/item?id=889&in_stock=1

所有页面正文、标题、图片说明几乎一致。结果呢?首页关键词排名掉了,用户搜“北欧风收纳盒”,出来的却是第7页的 /item?id=889&sort=date 这种没人点的链接。

重复内容不是“有没有”的问题,是“它已经干了什么”的问题。


如何用3个工具快速扫描出重复内容?

别一页页 Ctrl+F。真有人这么干,不如手抄《新华字典》。

我日常就用三个:Screaming Frog、Sitebulb、Google Search Console。它们不打架,反而互相补漏。

Screaming Frog(免费版够用)
爬完站,直接点「Content」→「Duplicate Content」。它会把相似度高的页面自动归成一组。你不用算百分比,只看“相似度 >90%”那几组,点开扫一眼就行——是不是同一段产品描述反复出现在5个URL里?是不是博客分页每页都塞着同样的导语?

Sitebulb(桌面客户端,有免费试用)
它的界面更直白:重复页面直接标红,旁边还带一句提示,比如“建议合并至 /blog/seo-basics”。你甚至不用点进去,就知道下一步该干嘛。

Google Search Console
进「页面」报告,筛选状态为「已索引但未选择」。这些页面,基本就是被算法打上“又一个复制品”标签的倒霉蛋。点开看看,大概率是你自己都忘了的旧标签页、空搜索结果页、或者带参数的“幽灵页面”。

别只信一个工具。我习惯先用 Screaming Frog 快速筛出大头,再拿 Search Console 对照——那些没被爬到但已被收录的漏网之鱼,往往藏在这里。


为什么参数和分页是重复内容的头号元凶?

重复内容很少是你复制粘贴出来的。它通常长在技术细节里,悄无声息。

比如 URL 参数。你加了个 ?utm_medium=email 做渠道追踪,没问题;但如果你没在 Search Console 里告诉 Google:“这个参数不影响内容”,它就会把 /?utm_medium=email/ 当成两个页面来抓。

再比如分页。很多 CMS 默认给 /blog/page/2/ 自动生成独立标题和描述:“最新博客文章 — 第2页”。可用户点进来,发现只是把第1页的文章往下滚了半屏——内容没增量,只有页码在动。

我帮一家工业设备B2B网站处理过这事。他们的产品列表用了分页+排序参数,光是 /products/?page=3&sort=price 这类组合就生成了400多个页面,标题全是“工业阀门列表 - 第X页”,描述也都是模板句。
解决方法很轻:

  • 在每个分页 <head> 里加 rel="canonical" 指向第一页;
  • 或者进 Search Console →「设置」→「URL参数」,把 pagesort 这类参数设为“不影响内容”。

做完当天,被错误收录的页面数掉了快一半。爬虫终于有空去读他们的技术白皮书了。


什么时候该用301重定向,什么时候该用 canonical?

一句话分清:
301 = 这个页面彻底没了,以后全去那个新地址。
canonical = 这个页面还留着,但“正版”在那边,请认准它。

举个例子:
你写了两篇讲“小红书笔记排版技巧”的文章,第二篇更全、配图更多。第一篇可以 301 到第二篇——老读者点旧链接,直接跳转;搜索引擎也会把旧页权重慢慢导过去。

但如果是 domain.com/guide?ref=partnerAdomain.com/guide?ref=partnerB 这种带来源参数的页面,你不能删——合作伙伴还得靠这个链接追踪效果。这时候就在 ?ref=partnerB 页面的 <head> 里加一行:

<link rel="canonical" href="https://domain.com/guide" />

告诉 Google:“别管尾巴,正文和主页面一模一样。”

⚠️ 注意一个坑:别对内容差异大的页面乱加 canonical。比如两篇讲“咖啡机选购”的文章,一篇说意式,一篇说手冲,硬让后者 canonical 指向前者,Google 很可能直接忽略指令,甚至怀疑你在操纵排名。


如何用内容审计彻底消除重复,而不是临时屏蔽?

工具只能告诉你“哪里重复”,但决定“要不要留、怎么留”,得人来拍板。

我建议你拉一张最朴素的表:Excel 或 Google Sheets 都行,四列就够了:

  • URL
  • 标题
  • 和哪个页面重复(写清楚)
  • 处理方式(删除 / 合并 / 重写 / 加 canonical)

然后每周抽1小时,处理10个。不用追求完美,先动起来。

真实案例:一个专注户外徒步的公众号,发过《川西小环线攻略》《四姑娘山徒步路线》《丹巴到色达7日行程》,三篇开头都是“川西海拔高、紫外线强、需备防晒”,中间景点介绍重合度60%以上。我们没删,而是合并成一篇《川西高原徒步完全指南》,按季节、难度、交通、装备分块,把零散信息织成一张网。上线后,单篇阅读时长涨了,而且用户开始从这篇自然跳转去看他们新写的《高原反应应对清单》。

内容审计不是删库跑路,是把散装信息,捏成一块实心砖。


今天就能执行的3个操作步骤

关掉手机通知,现在就做:

  1. 打开 Google Search Console → 左侧选「页面」→ 右上角点「筛选」→ 状态选「已索引但未选择」→ 把前10个URL复制出来 → 逐个打开,看内容是否和其他页面雷同(比如标题像、导语像、正文前三段几乎一样)。标记出至少3个。

  2. 下载 Screaming Frog(screamingfrog.co.uk) → 打开软件 → 输入你的域名 → 点「Start crawl」→ 等爬完 → 点顶部「Content」→ 「Duplicate Content」→ 找「Similarity >90%」的分组 → 选其中1组,把里面所有URL复制进你的表格。

  3. 就这1组重复页面,立刻决定怎么处理

    • 如果是旧文 vs 新文,把旧URL 301 到新URL(如果你用 WordPress,插件 Redirection 两下就搞定);
    • 如果是多篇碎片化内容,打开编辑器,把它们揉成一篇更完整的(哪怕先存草稿);
    • 如果是参数导致的,打开其中一个页面的 HTML 源码,在 <head> 里手动加一行 rel="canonical"(不会改代码?就先记下来,明天找同事帮忙加)。

做完这三步,你已经从“看不见问题”变成了“手里攥着第一个解决方案”。
重复内容不是洪水猛兽,它只是堆在门口的一箱旧快递——你不去拆,它永远挡着光。
现在,关掉浏览器标签页,打开 Search Console,开始第一步。