你的Screaming Frog爬中文网站,还在满屏“锟斤拷”?

刚配好Screaming Frog,兴冲冲点下“开始”,结果标题栏里全是“”和“口口口”——你不是手残,是工具根本没认出这是中文。

别删重装,也别查半天文档。这个问题,三分钟就能调好。

为什么中文网站总出现乱码?

乱码不是玄学,就是“密码本对不上”。

你的网页用 UTF-8 写的,Screaming Frog 却拿 ISO-8859-1 去解,当然读成天书。

国内不少老站更麻烦:有的页面用 UTF-8,有的还卡在 GB2312GBK;有的 HTML 根本没写 <meta charset="...">,有的写了却是错的。爬虫一猜就崩。

我帮一个本地教育机构做SEO审计时,就遇到过这种混搭站:新上线的课程页是 UTF-8,但十年前建的“关于我们”页是 GBK。默认设置下,一半页面标题全乱,关键词统计直接缺了一半数据。

如何正确配置Screaming Frog的编码设置?

路径很直:配置(Configuration)→ 爬虫(Spider)→ 编码(Encoding)

这里只改两处,立竿见影:

  • “默认编码(Default Encoding)” 明确选成 UTF-8。95% 的中文站都跑这个标准,先认准它。
  • 一定要勾上 “覆盖元编码(Override Meta Encoding)”。有些网页自己写的 <meta charset="gbk"> 是错的,勾上这句,就强制按你定的 UTF-8 来读,不惯着它。

遇到顽固乱码页面怎么办?

设完上面俩,还有个别页面死活乱码?那就开个“自动识别模式”。

还在同一个“编码”页里,找到 “内容编码检测(Content Encoding Detection)”,把它打钩。

它会像 Chrome 一样,扫一遍页面内容,结合字节特征、常见中文词频、HTML 结构,反推最可能的真实编码。
比如之前处理一个区级政务站,页面 <meta> 声明的是 UTF-8,实际存的是 GBK。不开检测,标题全糊;一开,立刻对上,H1 和描述清清楚楚。

爬取时还有哪些相关设置要注意?

编码调对了,还得防“剪刀手”和“导出失真”:

  • “爬虫(Spider)”标签页 → 截断(Truncate) 区域:把“截断页面标题于”和“截断描述于”两个框清空,或至少填到 500。中文标题动辄30+字,255字符默认值很容易咔嚓掉后半句。
  • “存储(Storage)”标签页 → 导出文件编码”:选 UTF-8。否则你导出 Excel 后打开,发现标题又变“某某某”——白忙一场。

如何验证编码配置是否真正生效?

别等全站爬完再检查。现在就测:

  • 在 Screaming Frog 顶部地址栏,贴入 2–3 个你最担心的中文页面链接(比如带长标题的新闻页、含中文 H1 的产品页);
  • 点“开始(Start)”;
  • 爬完切到 “内部(Internal)”标签页,盯紧“Title”、“H1”、“Description”三列;
  • 全是可读中文?✓ 成功。
    还有“口口口”?退回配置页再核对那三个勾选。

顺手双击任一页面,在弹出窗口里点“响应(Response)”,拉到 <head> 里找 <meta charset="..."> ——看看它写的和你看到的内容是不是一回事,心里更有底。

一个快速检查清单:今天就能搞定中文乱码

现在就打开你电脑上的 Screaming Frog(不用重启),照着做:

  1. 点顶部菜单 配置(Configuration)→ 爬虫(Spider)
  2. 切到 编码(Encoding)标签页
  3. “默认编码(Default Encoding)”设为 UTF-8
  4. 勾选“覆盖元编码(Override Meta Encoding)”
  5. 勾选“内容编码检测(Content Encoding Detection)”

关掉窗口,随便输一个你常分析的中文网站首页 URL(比如你自己的站),点“开始”。
等十几秒,看 Title 列——如果跳出的是完整的中文标题,不是一堆方块或问号,你就已经赢了。
接下来,该跑全站,该导出数据,该盯关键词,都放心去干。