你网站最近百度收录变少了?内容没缩水,外链照发,蜘蛛却像放假了一样——先别急着改标题、堆关键词,很可能问题出在服务器连 IPv6 都没通。
百度爬虫这几年真在认真用 IPv6。它不是“试试看”,而是把 IPv6 当成默认通道之一。你服务器不支持,它就得绕道走 IPv4,多一次握手、多一次等待,久而久之,你的站就容易被排到队尾。
为什么百度蜘蛛会优先选择 IPv6 站点?
百度爬虫调度系统会主动探测你服务器有没有 IPv6 地址。
如果只开了 IPv4,它每次请求都得多走一步:先查 DNS 的 A 记录,再等解析返回,最后才发请求。
这几十毫秒的延迟,在高频抓取场景下会被放大。
我帮一个做本地生活资讯的客户调过服务器,他们去年夏天开了双栈后,两周内百度蜘蛛的访问频次明显提升,页面收录也快了。翻日志时发现,带 240e: 开头的 IPv6 请求从几乎为零,慢慢涨到了总请求数的三成左右。
你也可以自己验证:打开 access.log,搜 Mozilla/5.0 + spider,再看看 IP 段是不是出现了 240e: 或 2001: 开头的地址。
你的服务器真的支持 IPv6 吗?三个自检方法
云服务器 ≠ 自动支持 IPv6。很多厂商默认只配 IPv4,得你手动开。
第一招:登录服务器,敲命令
ping6 ipv6.google.com
如果回 Network is unreachable,说明底层网络根本没通 IPv6。
第二招:用浏览器打开 test-ipv6.com(国内能直接访问),输入你的域名。结果要是显示 “IPv4 only”,那就得联系云服务商开通双栈。
第三招:复制你服务器的 IPv6 地址(比如 240e:xxx::1),粘贴进浏览器地址栏,前面加 http://[ 和 ],像这样:
http://[240e:xxx::1]
能打开首页,才算真正通了。
我接手过一个阿里云上的电商站,就是默认关着 IPv6,开了双栈三天后,日志里就出现了百度蜘蛛的 IPv6 请求。
配置 IPv6 后,百度蜘蛛抓取行为会怎么变?
别指望配置完第二天就收录翻倍。百度需要时间确认这条新通道稳定可靠,一般观察期是一到两周。
你会先看到日志里 240e: 开头的请求越来越多。
这些请求往往爬得更深——比如一次抓 20+ 页面,而不是只扫首页和栏目页。
我自己维护的一个小众技术博客,开了 IPv6 后,百度单次抓取量持续变高,长尾词页面被发现的速度确实快了。
如果你还同时启用了 HTTP/2,效果会更稳。百度对“IPv6 + HTTP/2”组合有明确偏好,这不是玄学,是日志里能数出来的。
双栈配置的坑:为什么你开了 IPv6 反而更慢?
开了 IPv6 却变卡?常见原因有两个:
一是 DNS 解析没设好。
如果你的域名同时返回 A 记录和 AAAA 记录,但某地 IPv6 网络质量差,百度蜘蛛试连失败后会退回到 IPv4,来回折腾反而更慢。
解决办法:去 DNS 服务商后台(比如 DNSPod、阿里云 DNS)开启“智能线路解析”,让三大运营商的 IPv6 请求优先走,海外用户继续走 IPv4。
二是防火墙漏了 IPv6 规则。
很多人只给 IPv4 放了 80/443 端口,忘了 ip6tables 或 nftables 里也要加对应规则。
检查命令:
ip6tables -L -n | grep :80
如果没输出,赶紧补上。我见过一位站长因此被百度连续标记“抓取超时”,半个月没怎么来,修复后三天就恢复了。
百度搜索资源平台里看不到 IPv6 数据?别慌
没错,百度搜索资源平台目前所有抓取数据都是混在一起的,没有单独的 IPv6 统计面板。
判断它到底用没用 IPv6,唯一靠谱的方式就是盯服务器日志。
用这行命令快速统计:
grep '240e:' access.log | wc -l
再对比总请求数,如果 IPv6 请求占比稳定在 10% 以上,基本可以确定百度已经在常态化使用了。
另外,“抓取异常”页面里如果出现大量 Connection timed out,且来源 IP 是 IPv6 段,那就要回头查路由或防火墙了。
我习惯每周跑一次简单脚本自动汇总,比盯着平台图表有用得多。
今天就能做的三个操作,提升百度 IPv6 抓取效果
马上打开终端,运行这一行:
dig AAAA yourdomain.com如果没返回 IPv6 地址,立刻去你的 DNS 服务商(DNSPod / 阿里云 DNS / 腾讯云 DNS)添加一条 AAAA 记录,指向你服务器的 IPv6 地址。
再跑一次这个命令,看路由是否通畅:
mtr -6 www.baidu.com如果中间某跳延迟特别高,或者持续丢包,截图发给云服务商技术支持,让他们优化 IPv6 路由策略。
登录百度搜索资源平台,重新提交一次网站地图。
不用改内容,就点“提交”按钮。百度爬虫下次调度时,会把你的站点重新打上“IPv6 就绪”标签,加快识别节奏。
现在就打开终端,三分钟搞定。比你刷十篇算法解读都实在。