robots.txt 的写法(Robot Rules)
封面图
•
2025-10-22
•
SEO技术
248
0
0
0
`robots.txt` 是一个用于指导网络爬虫(如搜索引擎机器人)如何访问网站的文本文件。它位于网站的根目录下(例如:`https://example.com/robots.txt`),用来告诉爬虫哪些页面可以抓取、哪些不可以抓取。 --- ## 📌 一、基本语法 `robots.txt` 文件由多个规则组成,每个规则包括以下部分: ``` User-agent: <user-agent-name> Disallow: <path> Allow: <path> ``` ### 1. `User-agent`(用户代理) - 指定规则适用于哪个爬虫。 - 使用 `*` 表示所有爬虫。 - 示例: ``` User-agent: Googlebot User-agent: * ``` ### 2. `Disallow`(禁止访问) - 指定爬虫不能抓取的路径。 - 路径是相对于网站根目录的 URL。 - 示例: ``` Disallow: /admin/ Disallow: /private/ ``` ### 3. `Allow`(允许访问) - 指定爬虫可以抓取的路径(在某些情况下使用)。 - 注意:不是所有爬虫都支持 `Allow`,但大多数现代爬虫(如 Googlebot)支持。 - 示例: ``` Allow: /public/ ``` --- ## 🧩 二、常见写法示例 ### 示例 1:禁止所有爬虫访问整个网站 ```txt User-agent: * Disallow: / ``` ### 示例 2:允许所有爬虫访问,但禁止访问 `/admin/` ```txt User-agent: * Allow: / Disallow: /admin/ ``` ### 示例 3:只禁止 Googlebot 访问 `/private/` ```txt User-agent: Googlebot Disallow: /private/ ``` ### 示例 4:允许特定目录下的内容 ```txt User-agent: * Disallow: /temp/ Allow: /temp/public/ ``` --- ## ⚠️ 三、注意事项 1. **路径区分大小写** - 有些服务器对路径大小写敏感,建议统一使用小写或按实际路径书写。 2. **末尾斜杠问题** - `/folder/` 和 `/folder` 是不同的路径。 - 通常推荐使用 `/folder/` 来表示目录。 3. **不强制限制** - `robots.txt` 只是一种“礼貌协议”,并不是安全机制。恶意爬虫可能无视它。 4. **测试工具** - 可以使用 [Google 的 Robots.txt Tester](https://support.google.com/webmasters/answer/6066852) 或其他在线工具来验证你的 `robots.txt` 是否正确。 --- ## 📁 四、完整示例 ```txt User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /feed/ Disallow: /trackback/ Disallow: /category/* Disallow: /tag/* Disallow: /search/ User-agent: Googlebot Allow: / ``` 这个例子禁止了大部分爬虫访问 WordPress 的后台和一些动态路径,但允许 Googlebot 抓取整个网站。 --- 如果你有具体需求(比如只禁止某个爬虫、允许某些目录等),可以告诉我,我可以帮你写一个更合适的 `robots.txt`。
上一篇:
关键字也有权重吗?
下一篇:
google抓取网页 显示的错误
标题录入,一次不能超过6条
留言
评论