Robots.txt 避坑指南:别让爬虫误伤你的聚合页
对于学术会议聚合平台来说,页面数量往往是海量的。如果 Robots.txt 配置不当,Googlebot 可能会把宝贵的“爬取预算”(Crawl Budget)浪费在无效页面上,甚至因为抓取了大量的重复搜索结果页而惩罚你的网站。
1. 核心原则:屏蔽站内搜索结果
这是聚合站最容易犯的错误。一定要禁止爬虫抓取用户生成的搜索结果页,因为这些页面通常是无限生成的,且内容质量低。
User-agent: *
Disallow: /search?*
Disallow: /search/
Disallow: /api/
2. 必须指明 Sitemap 位置
在 Robots.txt 文件的最后一行,一定要清楚地告诉爬虫你的站点地图在哪里。这对于新站被收录至关重要。
Sitemap: https://lyus1688.github.io/lyjj/sitemap.xml
3. 慎用 Noindex
Robots.txt 的 Disallow 只是告诉爬虫“不要访问”,但这并不等于“不要索引”。如果你想让某个页面彻底从 Google 消失,应该在页面 HTML 里使用 Meta Robots 标签,而不是仅仅在 Robots.txt 里屏蔽它。
总结: Robots.txt 是你与爬虫沟通的第一道门槛,保持简洁、准确,不要过度屏蔽。