Screaming Frog中文乱码？3分钟搞定编码配置，告别“锟斤拷”和“口口口”

你的Screaming Frog爬中文网站，还在满屏“锟斤拷”？

刚配好Screaming Frog，兴冲冲点下“开始”，结果标题栏里全是“”和“口口口”——你不是手残，是工具根本没认出这是中文。

别删重装，也别查半天文档。这个问题，三分钟就能调好。

乱码不是玄学，就是“密码本对不上”。

你的网页用 UTF-8 写的，Screaming Frog 却拿 ISO-8859-1 去解，当然读成天书。

国内不少老站更麻烦：有的页面用 UTF-8，有的还卡在 GB2312 或 GBK；有的 HTML 根本没写 <meta charset="...">，有的写了却是错的。爬虫一猜就崩。

我帮一个本地教育机构做SEO审计时，就遇到过这种混搭站：新上线的课程页是 UTF-8，但十年前建的“关于我们”页是 GBK。默认设置下，一半页面标题全乱，关键词统计直接缺了一半数据。

路径很直：配置（Configuration）→ 爬虫（Spider）→ 编码（Encoding）

这里只改两处，立竿见影：

把 “默认编码（Default Encoding）” 明确选成 UTF-8。95% 的中文站都跑这个标准，先认准它。
一定要勾上 “覆盖元编码（Override Meta Encoding）”。有些网页自己写的 <meta charset="gbk"> 是错的，勾上这句，就强制按你定的 UTF-8 来读，不惯着它。

设完上面俩，还有个别页面死活乱码？那就开个“自动识别模式”。

还在同一个“编码”页里，找到 “内容编码检测（Content Encoding Detection）”，把它打钩。

它会像 Chrome 一样，扫一遍页面内容，结合字节特征、常见中文词频、HTML 结构，反推最可能的真实编码。
比如之前处理一个区级政务站，页面 <meta> 声明的是 UTF-8，实际存的是 GBK。不开检测，标题全糊；一开，立刻对上，H1 和描述清清楚楚。

编码调对了，还得防“剪刀手”和“导出失真”：

去 “爬虫（Spider）”标签页 → 截断（Truncate） 区域：把“截断页面标题于”和“截断描述于”两个框清空，或至少填到 500。中文标题动辄30+字，255字符默认值很容易咔嚓掉后半句。
去 “存储（Storage）”标签页 → 导出文件编码”：选 UTF-8。否则你导出 Excel 后打开，发现标题又变“æææ”——白忙一场。

别等全站爬完再检查。现在就测：

顺手双击任一页面，在弹出窗口里点“响应（Response）”，拉到 <head> 里找 <meta charset="..."> ——看看它写的和你看到的内容是不是一回事，心里更有底。

现在就打开你电脑上的 Screaming Frog（不用重启），照着做：

关掉窗口，随便输一个你常分析的中文网站首页 URL（比如你自己的站），点“开始”。
等十几秒，看 Title 列——如果跳出的是完整的中文标题，不是一堆方块或问号，你就已经赢了。
接下来，该跑全站，该导出数据，该盯关键词，都放心去干。