robots.txt如何只允许GPTBot抓取首页-1号优惠分享网

最近我发现1号优惠 · 51福利网被 GPTBot 大量的抓取，GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫，所有本着不想自己网站做别人的嫁衣，所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站，庆幸的是 OpenAI 遵守 robots 规则。

首先需要知道的是 GPTBot 爬虫的用户代理是：Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

51福利网

当然也为了让 OpenAI 认识和了解我们网站，所有子凡觉得对其开放网站首页和关于我们页面是有必要的，所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面，可以在 robots.txt 文件中使用以下规则：

复制

User-agent: GPTBot
Disallow: /    # 禁止搜索引擎访问整个网站
Allow: /$      # 允许搜索引擎访问首页
Allow: /about  # 允许搜索引擎访问关于页面

这些规则告诉 GPTBot 爬虫代理（User-agent: GPTBot）禁止访问整个网站（Disallow: /），但允许访问网站的根目录或首页（Allow: /$）。这确保了搜索引擎只能抓取你的首页而不是整个网站。

需要注意的是，robots.txt 文件只是一个建议，而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令，但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外，robots.txt 只能用于指导搜索引擎和合法的网络爬虫，对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护，建议使用其他安全措施，如身份验证和访问控制。

robots.txt如何只允许GPTBot抓取首页

1号优惠网·51福利网发布

相关推荐

评论抢沙发

1号优惠分享 · 51福利网

热门活动

热门标签

一号优惠经验分享网最新最全薅羊毛，现金红包线报网

一号优惠经验分享网提供每日最新内部优惠，薅羊毛活动，现金红包领取，免费福利和网赚福利手机赚钱线报，打造中国最受欢迎的网赚信息发布平台！51福利网

切换注册登录

切换登录注册