什么是robots.txt?
robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt
),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots 排除协议(REP),告诉爬虫哪些页面或目录可以访问,哪些应该避免。
如何查看网站的robots.txt?
查看任何网站的 robots.txt 非常简单:
-
直接在浏览器地址栏输入:
网站域名/robots.txt
- 例如:
https://www.baidu.com/robots.txt
- 或
https://google.com/robots.txt
- 例如:
-
使用在线工具检查:
- Google Search Console 中的 robots.txt 测试工具
- 各种SEO工具如 Screaming Frog, SEMrush 等
robots.txt 的基本语法
一个典型的 robots.txt 文件包含以下元素:
User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Sitemap: [网站地图位置]
如何设置 robots.txt?
1. 创建文件
创建一个纯文本文件,命名为 robots.txt
2. 编写规则
常见配置示例:
允许所有爬虫访问所有内容:
User-agent: *
Disallow:
禁止所有爬虫访问任何内容:
User-agent: *
Disallow: /
禁止特定爬虫访问特定目录:
User-agent: Googlebot
Disallow: /private/
Disallow: /temp/
User-agent: *
Allow: /
指定网站地图:
Sitemap: https://example.com/sitemap.xml
3. 上传文件
将 robots.txt 文件上传到您网站的根目录(通常是 public_html 或 www 目录)
4. 验证文件
上传后,通过访问 您的网站/robots.txt
来验证是否可访问
注意事项
- robots.txt 不是强制性的,合规的爬虫会遵守,但恶意爬虫可能忽略
- 不要使用 robots.txt 来隐藏敏感信息 - 它实际上是公开的
- 禁止抓取不等于禁止索引(要防止索引需要使用 meta noindex 标签或密码保护)
- 区分大小写,路径必须精确匹配
- 每个指令通常应该独占一行
高级用法
- 使用
$
表示URL结束:Disallow: /*.pdf$
禁止抓取PDF文件 - 使用
*
作为通配符:Disallow: /images/*.jpg
禁止抓取images目录下的JPG文件 - 针对不同的搜索引擎设置不同的规则(通过 User-agent)
正确配置 robots.txt 可以帮助优化搜索引擎爬取效率,保护隐私内容,并节省服务器资源。