你的筛选排序页面,是不是搜索引擎从不点开的“黑盒”?
你家首页能排进前几,但用户搜“黑色42码跑步鞋”,却压根找不到你那页——不是没做,是做了也白做。那些带?color=red&sort=price的页面,看着热闹,其实早被搜索引擎悄悄折叠了。
筛选排序页面的核心SEO问题是什么?
动态参数生成的页面,本质是“换汤不换药”。URL变来变去,但内容骨架几乎一样:都是同一类商品,只是顺序或筛选条件微调。搜索引擎一抓一个准,立刻判定:重复、低质、不值得索引。
它不降权你单个页面,而是直接降低整组页面的爬取优先级。更麻烦的是,爬虫把大量配额花在这些页面上,结果连你真正的爆款分类页都没来得及细看。
我们帮过一家运动服饰站,他们后台能组合出近百万个筛选URL——颜色×尺码×品牌×排序。实际被索引的不到3%,且基本排在百名开外。剩下97%的页面,既没人点,也不贡献权重,纯属在后台默默吃掉服务器资源和爬虫预算。
如何用Robots.txt和Meta Robots精准控制爬取?
先砍掉最没价值的入口。比如所有含sort=、page=、order=这类纯排序或分页参数的URL,直接在robots.txt里封掉:
Disallow: /*?*sort=
Disallow: /*?*order=
Disallow: /*?*page=
这条规则立竿见影,爬虫当天就少抓一半无效链接。
如果有些筛选页你确实想留着(比如“北京同城配送的保温杯”),但又不想让它抢走分类页的权重,那就用<meta name="robots" content="noindex, follow">。允许爬虫进来逛一圈,但别把它当正经页面收录——这样既能保留长尾词的潜在曝光,又不稀释主页面的排名力。
怎么用Rel Canonical解决内容重复问题?
别让搜索引擎自己猜哪个是“正主”。每个带参数的筛选页,都要主动指明它的“老家”。
比如:
/shoes?color=black&size=42→ 规范到/shoes(父级分类)/shoes?color=black&sort=price→ 规范到/shoes?color=black(去掉排序参数的基础筛选页)
注意:规范目标必须是真实存在、内容稳定、有独立价值的页面。别指向一个空壳URL,也别指向另一个同样带参数的“伪主页面”。
我们见过客户把所有筛选页都canonical到/shoes?sort=newest,结果这个“最新排序页”本身也是动态生成、随时失效的——等于告诉谷歌:“请把权重全打给一个不存在的地址”。
如何优化筛选页面的标题和描述?
如果你决定让某个筛选页单独露脸(比如“L型转角沙发”这种高需求组合),标题就得像真人搜索时会打的词。
❌ 别写:“沙发 - 筛选结果”
✅ 改成:“L型转角沙发|小户型客厅适配款 · 免费设计咨询”
描述也要说人话,别堆功能参数。用户点进来是为了解决问题,不是读说明书。比如:
“专为20–35㎡客厅设计的L型沙发组合,靠墙不占地,转角区可加储物或贵妃榻。支持3D实景预览,下单前免费出布局方案。”
我们帮一家家居站改完一批筛选页的标题和描述后,相关页面在搜索结果里的点击率明显提升,用户停留时间也拉长了。
面包屑导航和内部链接怎样传递权重?
面包屑不是摆设。每个筛选页的导航链,必须清晰锚定到它的上级结构。例如:首页 > 家居 > 沙发 > L型转角沙发(筛选中)
这个路径要真实可点击,且每级都对应一个有效页面。别让最后一段“L型转角沙发(筛选中)”只是文字,它该是个带关键词的超链接,指向 /sofas?shape=l-shaped 这样的稳定筛选入口。
内部链接更要克制。别在博客文章里随手插一个/sofas?color=beige&sort=rating的链接——这种链接既难维护,又容易失效。真要推荐,就链向 /sofas?shape=l-shaped 这种有明确语义、长期稳定的筛选页,并用“L型转角沙发推荐”作锚文本。
结构化数据能让筛选页“开口说话”吗?
能。用ItemList标记,等于给搜索引擎递一张名片:
- 这是个商品列表页
- 共展示12件商品
- 按“销量从高到低”排序
- 第一件是“XX品牌记忆棉坐垫”,价格¥299
谷歌不一定拿它排名,但它会在搜索结果里给你加星级、价格、库存状态等富媒体摘要——用户一眼就认出这是你要找的页面,而不是泛泛的“沙发列表”。
我们上线ItemList后,不少客户发现,原来排在第3页的筛选页,开始频繁出现在“精选轮播图”或“图片合集”里,自然点击量涨了一截。
今天下班前就能执行的一个操作
打开你天天用的 Google Search Console(不用注册新账号,就是你现在登录的那个)。
→ 点左栏「URL检查」,随便输一个带筛选参数的页面,比如 yoursite.com/shoes?color=black&sort=price,看它当前是否被索引、有没有抓取错误。
→ 再点顶部搜索框,输入 site:yoursite.com "sort="(记得把域名换成你自己的),回车——看看谷歌库里存了多少个纯排序页。
如果结果数超过50个,说明问题已经浮出水面。
接下来,马上打开你网站根目录的 robots.txt 文件(FTP或后台文件管理器都能进),加上这三行:
Disallow: /*?*sort=
Disallow: /*?*order=
Disallow: /*?*page=
保存。5分钟,搞定。爬虫明天起就不会再浪费时间扫这些页面了。