最近我发现1号优惠 · 51福利网被 GPTBot 大量的抓取,GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫,所有本着不想自己网站做别人的嫁衣,所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站,庆幸的是 OpenAI 遵守 robots 规则。
首先需要知道的是 GPTBot 爬虫的用户代理是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
当然也为了让 OpenAI 认识和了解我们网站,所有子凡觉得对其开放网站首页和关于我们页面是有必要的,所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面,可以在 robots.txt 文件中使用以下规则:
User-agent: GPTBot
Disallow: / # 禁止搜索引擎访问整个网站
Allow: /$ # 允许搜索引擎访问首页
Allow: /about # 允许搜索引擎访问关于页面
这些规则告诉 GPTBot 爬虫代理(User-agent: GPTBot)禁止访问整个网站(Disallow: /),但允许访问网站的根目录或首页(Allow: /$)。这确保了搜索引擎只能抓取你的首页而不是整个网站。
需要注意的是,robots.txt 文件只是一个建议,而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令,但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外,robots.txt 只能用于指导搜索引擎和合法的网络爬虫,对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护,建议使用其他安全措施,如身份验证和访问控制。