你的繁体网站明明内容很好,为什么百度就是不收录?

朋友上周还跟我吐槽:“我那篇讲港式茶餐厅蛋挞做法的繁体文,配了6张实拍图,连油渍都拍得清清楚楚——结果百度蜘蛛绕着走,简体版发出去第二天就进库了。”

不是你写得不好,是百度爬虫根本没认真看你。

百度对繁体站真的有“歧视”吗?

没有明文规定,但有实际偏好。
它不是讨厌繁体字,是懒得花力气多转一道弯。

我见过一个专注台湾夜市小吃的繁体站:原创图文、更新稳定、外链干净,上线三个月,百度只收了首页和“关于”页。站长一急,把同一篇文直接贴到简体站,半个月,80%页面全进了索引。

原因很实在:百度90%以上的搜索请求来自简体用户。爬虫资源有限,碰到繁体页,会下意识多问一句:“值得为这个多跑一趟吗?”

繁体字要进百度分词系统,得先过一道繁简映射——技术上可行,但耗服务器时间。对爬虫来说,一个处理更慢、受众更小的页面,自然排在队尾。

真实案例:一位做台湾本地SEO的朋友,把所有繁体URL里的中文全换成英文或拼音(比如把/美食推薦改成/food-recommendation),没改内容,没动结构,抓取频率明显提升。

繁体站抓取慢,到底是卡在哪个环节?

不是百度不认繁体字,是它在中间几步悄悄“卡壳”了。

第一,域名信任度低。
.cn.com域名,百度默认“熟人”。.hk.tw这类区域域名,爬虫第一次来,会多做一轮安全扫描——查有没有敏感词、有没有可疑外链、页面是否突然堆满关键词。这一步,直接拖慢首次访问节奏。

第二,页面编码自己打架。
有的站HTML里写<meta charset="big5">,HTTP头却发utf-8;有的页面正文是繁体,但<title>里混了个简体字。爬虫一看:这页面到底算哪边的?犹豫两秒,跳过。

我亲眼见过一个站:sitemap.xml<loc>指向的是/產品/鍵盤,但对应页面的<meta charset>写的是gb2312。爬虫判定“编码和内容不匹配”,直接放弃。

第三,内链像用繁体字写迷宫地图。
锚文本写“最新消息”“聯絡我們”,百度对繁体词的语义理解弱,很难准确关联到目标页。爬虫点进去之前,得先转换、再分词、再匹配——它宁愿去爬第5个简体站的首页。

3个方法让百度爬虫主动“偏爱”你的繁体站

别等算法调整,现在就能动手。

方法一:强制服务器返回UTF-8编码。
别只靠HTML里的<meta charset="utf-8">。去你的服务器配置里,加上HTTP响应头:
Content-Type: text/html; charset=utf-8
这是爬虫睁眼第一眼看到的信息,比HTML里任何标签都管用。我帮一个站加完这行,爬虫回访从“一周一面”变成“两天一访”。

方法二:建一个轻量简体镜像页,并用hreflang明确关联。
不用重写全文,只要在繁体页<head>里加一行:
<link rel="alternate" hreflang="zh-Hans" href="https://yoursite.com/cn/about-us">
告诉百度:“我有简体版,你优先抓那个,顺便也看看这个繁体页。”
注意:镜像页必须一一对应,不能A页对B页,否则百度更糊涂。

方法三:URL彻底“去繁体化”。
/最新文章/咖啡豆介紹改成/blog/coffee-beans,或者干脆用数字ID:/p/456
爬虫看到英文或数字,直接抓,不翻译、不分词、不犹豫。实测下来,URL改干净后,新页面进库时间缩短了不少。

你的繁体站内链,可能正在“毒害”抓取效率

首页写着“常見問題”,点进去却是/faq.html——这对用户没问题,对爬虫是障碍。
它得先把“常見問題”转成简体“常见问题”,再猜这个词大概对应哪个URL,最后才决定要不要跳。三步变一步,它往往选择不跳。

解决办法很简单:锚文本用简体字或英文,页面正文照旧用繁体。
比如,“關於我們”链接,锚文本写成“关于我们”或“About Us”。
繁体用户完全看得懂,而百度对“关于我们”的分词准确率,远高于“關於我們”。

真实操作:一个站改了50条内链锚文本,一个月后,爬虫平均爬到的深度从2层升到4层,首页被引用次数也明显多了。

为什么你的繁体站适合用“静态化URL”?

动态参数对繁体站特别不友好。
比如这个URL:/item.php?name=鍵盤&lang=zh-hant
爬虫看到lang=zh-hant,第一反应是:“又一个可能重复的简体页副本?”——直接降低抓取意愿。
更麻烦的是,URL里那些%E9%8D%B5%E7%9B%A4之类的编码,爬虫还得额外解码一次。

静态URL更省事:/product/keyboard-123.html
如果必须分语言,用子目录,别用参数。
繁体放/hk/,简体放/cn/,爬虫扫一眼路径就知道该归哪类,不费脑。

真实案例:一个卖手作饰品的繁体电商站,原来全是/product?id=xxx&lang=zh-hant,百度收录率不到10%。改成/hk/product/xxx.html后,收录率大幅增长,几个主打繁体词的排名也稳了。

今天就能做的1个操作:打开你的robots.txt,删掉那行“Disallow: /zh-hant/”

别碰代码,别调服务器。
你现在就打开浏览器,输入:
https://你的域名/robots.txt

检查两件事:

  1. 有没有写着Disallow: /——整站禁止?赶紧删;
  2. 有没有类似Disallow: /zh-hant/这种——本想屏蔽测试目录,结果把整个繁体站封了。

再顺手打开sitemap.xml,确认里面列的繁体页URL,确实指向真实的繁体内容页(不是404,也不是跳转到简体页)。

最后,把这份sitemap.xml地址,复制粘贴到百度资源平台的“提交链接”栏里,点提交。

做完这三步,不用等明天,今晚就能在百度资源平台里看到“抓取频次”开始往上走。