什么是 GPTBot?
GPTBot 是 OpenAI 的网络爬虫,用于从互联网上抓取公开内容,以训练其生成式人工智能模型。它会发送包含以下用户代理字符串的 HTTP 请求:GPTBot/1.1 以及一个指向 OpenAI 文档的链接,使其能在服务器访问日志中被识别出来。还可以通过比对 OpenAI 公布的 IP 地址范围来验证流量(OpenAI 开发者,《OpenAI 爬虫概述》, 2025)。
GPTBot 是如何访问您的内容的?
GPTBot 会抓取无需身份验证即可公开访问的页面,其追踪链接的方式与搜索引擎爬虫非常相似。每次请求都会携带GPTBot/1.1 在用户代理标头中添加标识符,以便 Web 服务器能在日志中识别它。若要阻止 GPTBot 抓取您网站的任何部分,请添加User-agent: GPTBot 随后是Disallow: / 给你的robots.txt 文件 (OpenAI 开发者,《OpenAI 爬虫概述》(2025年)。您还可以使用标准方法,允许对特定路径进行抓取,同时阻止其他路径,robots.txt 路径语法。
常见问题解答
GPTBot 收集公开可访问的网络内容,OpenAI 利用这些内容来训练和改进其生成式人工智能模型,包括 GPT 的未来版本。它会跳过需要登录的页面,并遵守标准robots.txt 指令。
在您网站的robots.txt:User-agent: GPTBot 在一行上,并且Disallow: / 在下一行。这会指示 GPTBot 跳过你的整个网站。你可以通过在Disallow 而是。
检查请求的 User-Agent 字符串中是否包含GPTBot/1.1,然后将源IP与OpenAI在其开发者文档中公布的IP范围进行比对(OpenAI 开发者,《OpenAI 爬虫概述》(2025年)。将这两种检查方法结合使用,可以得到可靠的确认结果。