O que é o GPTBot?

Q: Como faço para bloquear o GPTBot no meu site?

Adicione duas linhas ao arquivo do seu site robots.txt: User-agent: GPTBot em uma linha e Disallow: / na linha seguinte. Isso instrui o GPTBot a ignorar todo o seu site. Você pode selecionar apenas diretórios específicos, listando caminhos individuais após Disallow em vez disso.

Q: Como posso verificar se uma solicitação realmente veio do GPTBot?

Verifique se a string do user-agent da solicitação contém GPTBot/1.1, em seguida, compare o endereço IP de origem com os intervalos de IP publicados pela OpenAI em sua documentação para desenvolvedores (Equipe de Desenvolvedores da OpenAI, “Visão geral dos rastreadores da OpenAI”, 2025). A utilização conjunta dessas duas verificações proporciona uma confirmação confiável.

GPTBot é o rastreador da web da OpenAI que coleta conteúdo disponível publicamente na internet para treinar seus modelos de IA generativa. Ele envia solicitações HTTP com uma string de agente de usuário contendo GPTBot/1.1 e um link para a documentação da OpenAI, tornando-o identificável nos registros de acesso do servidor. O tráfego também pode ser verificado em relação aos intervalos de IP publicados pela OpenAI (Equipe de Desenvolvedores da OpenAI, “Visão geral dos rastreadores da OpenAI”, 2025).

Como o GPTBot acessa o seu conteúdo?

O GPTBot rastreia páginas acessíveis ao público sem necessidade de autenticação, seguindo links de maneira muito semelhante à de um bot de mecanismo de busca. Cada solicitação contém o GPTBot/1.1 identificador no cabeçalho user-agent, para que os servidores web possam reconhecê-lo nos registros. Para impedir que o GPTBot rastreie qualquer parte do seu site, adicione User-agent: GPTBot seguido por Disallow: / para o(a) seu(a) robots.txt arquivo (Equipe de Desenvolvedores da OpenAI, “Visão geral dos rastreadores da OpenAI”, 2025). Você também pode permitir o rastreamento de caminhos específicos e bloquear outros, utilizando o padrão robots.txt sintaxe de caminho.

Perguntas frequentes

O GPTBot coleta conteúdo da web acessível ao público que a OpenAI utiliza para treinar e aprimorar seus modelos de IA generativa, incluindo futuras versões do GPT. Ele ignora páginas que exigem login e respeita os padrões robots.txt diretrizes.

Adicione duas linhas ao arquivo do seu site robots.txt: User-agent: GPTBot em uma linha e Disallow: / na linha seguinte. Isso instrui o GPTBot a ignorar todo o seu site. Você pode selecionar apenas diretórios específicos, listando caminhos individuais após Disallow em vez disso.

Verifique se a string do user-agent da solicitação contém GPTBot/1.1, em seguida, compare o endereço IP de origem com os intervalos de IP publicados pela OpenAI em sua documentação para desenvolvedores (Equipe de Desenvolvedores da OpenAI, “Visão geral dos rastreadores da OpenAI”, 2025). A utilização conjunta dessas duas verificações proporciona uma confirmação confiável.