Robots.txt 避坑指南：别让爬虫误伤你的聚合页

发布者：Lyus1688 | 分类：技术 SEO | 2025-11-22

对于学术会议聚合平台来说，页面数量往往是海量的。如果 Robots.txt 配置不当，Googlebot 可能会把宝贵的“爬取预算”（Crawl Budget）浪费在无效页面上，甚至因为抓取了大量的重复搜索结果页而惩罚你的网站。

1. 核心原则：屏蔽站内搜索结果

这是聚合站最容易犯的错误。一定要禁止爬虫抓取用户生成的搜索结果页，因为这些页面通常是无限生成的，且内容质量低。

User-agent: *
Disallow: /search?*
Disallow: /search/
Disallow: /api/

在 Robots.txt 文件的最后一行，一定要清楚地告诉爬虫你的站点地图在哪里。这对于新站被收录至关重要。

Sitemap: https://lyus1688.github.io/lyjj/sitemap.xml

Robots.txt 的 Disallow 只是告诉爬虫“不要访问”，但这并不等于“不要索引”。如果你想让某个页面彻底从 Google 消失，应该在页面 HTML 里使用 Meta Robots 标签，而不是仅仅在 Robots.txt 里屏蔽它。

总结： Robots.txt 是你与爬虫沟通的第一道门槛，保持简洁、准确，不要过度屏蔽。