什么是 GPTBot？

Q: 如何阻止 GPTBot 访问我的网站？

在您网站的robots.txt:User-agent: GPTBot 在一行上，并且Disallow: / 在下一行。这会指示 GPTBot 跳过你的整个网站。你可以通过在Disallow 而是。

Q: 如何验证一个请求是否确实来自 GPTBot？

检查请求的 User-Agent 字符串中是否包含GPTBot/1.1，然后将源IP与OpenAI在其开发者文档中公布的IP范围进行比对（OpenAI 开发者，《OpenAI 爬虫概述》（2025年）。将这两种检查方法结合使用，可以得到可靠的确认结果。

GPTBot 是 OpenAI 的网络爬虫，用于从互联网上抓取公开内容，以训练其生成式人工智能模型。它会发送包含以下用户代理字符串的 HTTP 请求：GPTBot/1.1 以及一个指向 OpenAI 文档的链接，使其能在服务器访问日志中被识别出来。还可以通过比对 OpenAI 公布的 IP 地址范围来验证流量（OpenAI 开发者，《OpenAI 爬虫概述》, 2025）。

GPTBot 是如何访问您的内容的？

GPTBot 会抓取无需身份验证即可公开访问的页面，其追踪链接的方式与搜索引擎爬虫非常相似。每次请求都会携带GPTBot/1.1 在用户代理标头中添加标识符，以便 Web 服务器能在日志中识别它。若要阻止 GPTBot 抓取您网站的任何部分，请添加User-agent: GPTBot 随后是Disallow: / 给你的robots.txt 文件 (OpenAI 开发者，《OpenAI 爬虫概述》（2025年）。您还可以使用标准方法，允许对特定路径进行抓取，同时阻止其他路径，robots.txt 路径语法。

常见问题解答

GPTBot 收集公开可访问的网络内容，OpenAI 利用这些内容来训练和改进其生成式人工智能模型，包括 GPT 的未来版本。它会跳过需要登录的页面，并遵守标准robots.txt 指令。

在您网站的robots.txt:User-agent: GPTBot 在一行上，并且Disallow: / 在下一行。这会指示 GPTBot 跳过你的整个网站。你可以通过在Disallow 而是。

检查请求的 User-Agent 字符串中是否包含GPTBot/1.1，然后将源IP与OpenAI在其开发者文档中公布的IP范围进行比对（OpenAI 开发者，《OpenAI 爬虫概述》（2025年）。将这两种检查方法结合使用，可以得到可靠的确认结果。