Что такое GPTBot?
GPTBot — это веб-краулер компании OpenAI, который извлекает общедоступный контент из Интернета для обучения своих генеративных моделей искусственного интеллекта. Он отправляет HTTP-запросы со строкой «user-agent», содержащей GPTBot/1.1 а также ссылку на документацию OpenAI, что позволяет идентифицировать его в журналах доступа к серверу. Трафик также можно проверить по опубликованным OpenAI диапазонам IP-адресов (Разработчики OpenAI, «Обзор краулеров OpenAI», 2025 г.).
Как GPTBot получает доступ к вашему контенту?
GPTBot сканирует страницы, доступные для общего просмотра без авторизации, переходя по ссылкам аналогично тому, как это делает бот поисковой системы. Каждый запрос содержит GPTBot/1.1 идентификатор в заголовке user-agent, чтобы веб-серверы могли распознавать его в логах. Чтобы запретить GPTBot сканировать любую часть вашего сайта, добавьте User-agent: GPTBot за которым следует Disallow: / вашему robots.txt файл (Разработчики OpenAI, «Обзор краулеров OpenAI», 2025). Вы также можете разрешить сканирование определённых путей и одновременно заблокировать другие, используя стандартные robots.txt синтаксис пути.
Часто задаваемые вопросы
GPTBot собирает общедоступный веб-контент, который OpenAI использует для обучения и совершенствования своих генеративных моделей искусственного интеллекта, включая будущие версии GPT. Он пропускает страницы, требующие входа в систему, и соблюдает стандартные robots.txt директивы.
Добавьте две строки в файл вашего сайта robots.txt: User-agent: GPTBot в одной строке и Disallow: / в следующей строке. Это указывает GPTBot пропустить весь ваш сайт. Вы можете указать только определённые каталоги, перечислив отдельные пути после Disallow вместо этого.
Проверьте строку «user-agent» в запросе на наличие GPTBot/1.1, после чего сверьте исходный IP-адрес с диапазонами IP-адресов, опубликованными OpenAI в документации для разработчиков (Разработчики OpenAI, «Обзор краулеров OpenAI», 2025). Совместное использование обоих методов проверки позволяет получить достоверное подтверждение.