A Rede de Fechamento: Bloqueio de rastreadores de IA e acesso de agentes
A web que antes estava aberta a rastreadores anônimos está se fechando. O bloqueio por padrão e as plataformas de acesso pago estão substituindo o antigo modelo de acesso livre para todos. Como resultado, o acesso dos agentes agora se divide em duas vias: rastreamento licenciado ou pago, quando disponível, ou acesso como usuário real nas demais ocasiões. Se o seu agente ainda presume que pode acessar qualquer URL pública em um IP de datacenter, ele está construindo sobre um terreno que está desaparecendo sob seus pés.
Pontos principais
- Em 1º de julho de 2025, a Cloudflare passou a bloquear, por padrão, os rastreadores de IA em cerca de 20% da web e lançou um mercado de rastreamento pago (Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA vasculham a Internet em geral).
- Os principais sites de notícias passaram a adotar uma política de bloqueio por padrão: cerca de 79% bloqueiam bots de treinamento de IA, e cerca de 49% proíbem o GPTBot especificamente.
- O motivo é econômico: a proporção entre rastreamento e encaminhamento chegou a cerca de 38.000:1 para um importante rastreador. Os sites perdem tráfego, em vez de receberem.
- O treinamento de rastreadores e a recuperação de agentes em tempo real acabam sendo afetados da mesma forma. Os agentes que continuam operando parecem usuários reais na região geográfica correta ou pagam por acesso licenciado.
O que mudou: a web passou a adotar a política de negação por padrão
Em 2025, as configurações padrão mudaram. O evento mais marcante foi a Cloudflare, que, a partir de 1º de julho, passou a bloquear por padrão os rastreadores de IA em cerca de 20% da web e lançou um mercado de rastreamento pago (Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA vasculham a Internet em geral). Pagamento por rastreamento é um mercado em que um site cobra dos bots pelo acesso que antes era gratuito. Na prática, uma única alteração na configuração fez com que um quinto da web passasse do modelo de exclusão voluntária para o de adesão voluntária.
Essa não foi uma mudança pontual de política. Os bots já não representam uma minoria do tráfego. Em 2024, os bots automatizados ultrapassaram 51% de todo o tráfego da web pela primeira vez em uma década, com os bots maliciosos representando 37% (Imperva, Relatório sobre bots maliciosos de 2025). Quando a maioria das solicitações recebidas pelo seu servidor de origem provém de máquinas, bloquear máquinas por padrão deixa de parecer uma medida agressiva. Em vez disso, passa a ser vista como uma prática de segurança básica.
O setor de notícias foi o primeiro a agir e o que tomou medidas mais drásticas. Até 2025, cerca de 79% dos maiores sites de notícias do mundo bloquearam os bots de treinamento de IA, e cerca de 49% proibiram especificamente o GPTBot (Press Gazette, Oito em cada dez dos maiores sites de notícias do mundo bloqueiam agora os bots de treinamento de IA). Como resultado, o robots.txt passou de uma sugestão educada para uma postura de recusa por padrão para a categoria de IA. O acesso livre ao rastreamento não foi encerrado da noite para o dia. No entanto, a tendência é clara e aponta para uma única direção.
Por que isso aconteceu: o colapso do tráfego de rastreamento para o de referência
A razão é econômica, não ideológica. O antigo acordo era simples. Os rastreadores indexavam seu conteúdo e, em troca, os mecanismos de busca lhe enviam visitantes. O rastreamento por IA rompeu esse ciclo. Em meados de 2025, o rastreador da Anthropic atingiu cerca de 38.000 páginas por visitante encaminhado, enquanto o GPTBot da OpenAI atingiu cerca de 3.700:1 (Cloudflare, A queda gradual das referências). Consequentemente, as editoras fazem as contas e percebem que o conteúdo sai sem que quase nada retorne.
A situação fica mais clara quando se analisa a finalidade do rastreamento. O rastreamento por IA divide-se, aproximadamente, em 80% de treinamento, 18% de pesquisa e apenas 2% de ações do usuário (Cloudflare, Uma análise mais aprofundada dos rastreadores de IA). Quatro quintos desses dados são utilizados para treinar modelos, que, por definição, não geram nenhum redirecionamento. Do ponto de vista do proprietário do site, portanto, trata-se de pura extração de dados, e o bloqueio é a resposta racional.
O volume também está aumentando, o que eleva os riscos. O tráfego proveniente de IA e rastreadores de busca cresceu 18% em relação ao ano anterior até 2025, e a participação do GPTBot nas solicitações de rastreadores de IA saltou de 5% para 30% em um ano, um aumento de 305% no número bruto de solicitações (Cloudflare, Do Googlebot ao GPTBot: quem estará rastreando seu site em 2025). Maior volume de tráfego, ausência de tráfego de retorno e facilidade de implementação de medidas para bloqueá-lo. Como resultado, a política de negação por padrão era inevitável.
O que isso significa para os agentes: todos na mesma situação

Eis a armadilha que atrapa as equipes de engenharia. O treinamento de rastreadores e a recuperação de informações por agentes em tempo real são coisas diferentes. Um rastreador de treinamento coleta milhões de páginas para construir um conjunto de dados. Seu agente, por outro lado, busca três páginas para responder à pergunta de um usuário neste exato momento. No entanto, o site não percebe a intenção. Ele vê uma solicitação automatizada proveniente de um agente de usuário de bot conhecido ou de um intervalo de IPs sinalizado, e aplica a mesma regra de negação padrão a ambos. É por isso que “a web está se fechando para a IA” atinge agentes que nunca têm contato com dados de treinamento. A infraestrutura de bloqueio não distingue um agente de recuperação de um rastreador. Em vez disso, ela distingue humanos de bots e, cada vez mais, distingue espaços de IP conhecidos como confiáveis de intervalos de data centers. Em resumo, um agente honesto em um IP de nuvem parece idêntico a um rastreador hostil.
Endereços IP do data center são endereços pertencentes a provedores de nuvem e de hospedagem; esses intervalos são os primeiros a serem sinalizados pelos sistemas anti-bot, pois nenhuma pessoa comum navega a partir deles. Especificamente, eles são o primeiro elemento a ser sinalizado pelos modernos sistemas de detecção anti-bot em 2026, o que constitui a principal razão pela qual os agentes falham em alvos protegidos. Abordamos os mecanismos em por que os agentes são bloqueados em endereços IP de data centers, mas, resumindo, um agente legítimo em um endereço IP na nuvem é interpretado como hostil.
Portanto, a questão do acesso se divide em duas vertentes, e ambas têm seu lugar. Quando houver uma via licenciada ou paga, como um acordo de pagamento por rastreamento ou uma API oficial, opte por ela. É a opção mais clara e, por definição, resiste ao fechamento da web. Em todos os outros casos, o caminho mais duradouro é acessar como um usuário real: uma solicitação originada de um dispositivo residencial ou móvel na região geográfica esperada pelo conteúdo, renderizando a página da mesma forma que o navegador de uma pessoa faria. Proxies residenciais são conexões que passam por dispositivos reais de consumidores, de modo que a solicitação traz um endereço atribuído pelo provedor de internet, e o site trata o usuário como um visitante comum. A escolha entre esses tipos de rede é uma decisão do próprio usuário, que detalhamos em Proxies residenciais vs. proxies de data center.
Essa é a parte que a maioria das equipes subestima até que ocorra uma falha na produção. À medida que o caminho de rastreamento aberto se fecha, os agentes que continuam funcionando são aqueles que não se parecem em nada com rastreadores. De acordo com nossa experiência com cargas de trabalho de agentes, o acesso por dispositivos de usuários reais — chegando como um visitante local orgânico com renderização limpa — é o que permanece confiável quando a política de negação por padrão é a regra. Esse é o posicionamento por trás da rede de acesso a dispositivos e da pilha de renderização da Massive: dispositivos de consumidores reais em mais de 195 países com segmentação geográfica por país, subdivisão e cidade, retornando HTML limpo ou markdown de qualquer fonte pública em qualquer local. A partir de nosso trabalho com equipes, observamos que elas a adotam como um recurso alternativo para os alvos que falharam e, em seguida, a transferem para o nível primário assim que a fila de tickets desaparece. Quando a pilha DIY de proxy mais navegador headless deixa de se pagar, o próximo passo geralmente é a infraestrutura gerenciada, que abordamos em infraestrutura de navegador gerenciada.
Para conhecer a arquitetura completa que permite conceder a um agente acesso contínuo e duradouro, comece pela seção sobre como conceder aos agentes de IA acesso à web em tempo real. Essa tendência é apenas um dos fatores que influenciam esse projeto, não é o único.
O que fazer agora: preparar-se para o fim da web
Planeje como se a política de “recusa por padrão” fosse a norma, pois em 2025 ela se tornou a norma. A Cloudflare colocou cerca de 20% da web sob acesso opcional em uma única ação (Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA vasculham a Internet em geral), e a adoção só tende a crescer a partir daí. Portanto, projete sua camada de acesso partindo do princípio de que os alvos fáceis se tornarão mais seguros, e não de que as URLs abertas de hoje permanecerão abertas.
A partir dos dados, surgem três medidas práticas. Primeiro, separe seus alvos em “caminho licenciado/pago disponível” e “deve chegar como um usuário real” e, em seguida, encaminhe cada um de acordo com sua categoria. Segundo, pare de enviar tráfego de agentes a partir de IPs brutos da nuvem, já que a borda de detecção os sinaliza antes mesmo que o corpo da sua solicitação seja lido. Terceiro, dê preferência a saídas em Markdown ou HTML limpas em vez de dumps de páginas brutas, pois seu LLM paga por cada token de desorganização que você lhe fornece. Por exemplo, testamos o tráfego residencial em comparação com o tráfego de saída de data center em sites protegidos e medimos uma taxa de sucesso residencial significativamente maior (faixas aproximadas: residencial ~85-99% versus data center ~20-40%). Considere isso como uma referência do fornecedor, não como uma pesquisa independente. Dito isso, a direção corresponde ao que a tendência de detecção prevê.
Fontes
- Imperva, Relatório sobre bots maliciosos de 2025, 2025. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
- Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA vasculham a Internet em geral, 2025. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
- Cloudflare, A queda gradual das referências, 2025. https://blog.cloudflare.com/crawlers-click-ai-bots-training/
- Cloudflare, Uma análise mais aprofundada dos rastreadores de IA, 2025. https://blog.cloudflare.com/ai-crawler-traffic-by-purpose-and-industry/
- Cloudflare, Do Googlebot ao GPTBot: quem estará rastreando seu site em 2025, 2025. https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
- Press Gazette, Oito em cada dez dos maiores sites de notícias do mundo bloqueiam agora os bots de treinamento de IA, 2025. https://pressgazette.co.uk/platforms/eight-in-ten-of-worlds-biggest-news-websites-now-block-ai-training-bots/
Frequently Asked Questions
A internet aberta está realmente se fechando, ou isso é apenas um exagero?
As configurações padrão foram alteradas, e é isso que importa. Em 2025, a Cloudflare fez com que cerca de 20% da web bloqueasse os rastreadores de IA por padrão, e cerca de 79% dos principais sites de notícias agora bloqueiam os bots de treinamento de IA (Cloudflare; Press Gazette). Ainda existem URLs abertas. No entanto, a política de negação por padrão é agora a tendência, e não a exceção.
Meu agente só recupera algumas páginas, e não os dados de treinamento. Por que está bloqueado?
Porque a infraestrutura de bloqueio não consegue identificar a intenção. Ela sinaliza os user-agents de bots e os intervalos de IP de data centers, e aplica a mesma regra tanto a um agente de recuperação de três páginas quanto a um rastreador de treinamento de um milhão de páginas. O rastreamento por IA consiste em cerca de 80% de treinamento (Cloudflare). Consequentemente, os sites bloqueiam por padrão toda a categoria.
Por que as editoras estão bloqueando o acesso em vez de simplesmente cobrar?
Ambos, cada vez mais. O gatilho é o colapso da relação entre rastreamento e visitas de referência: um importante rastreador atingiu cerca de 38.000 páginas rastreadas por visitante de referência em 2025 (Cloudflare). Os mercados de pagamento por rastreamento, por sua vez, permitem que os sites cobrem pelo acesso que antes ofereciam gratuitamente, o que constitui a parte paga dessa nova divisão.
Qual é, atualmente, o caminho de acesso permanente para os agentes?
Dois caminhos. Quando houver acesso licenciado ou pago, utilize-o. Em todos os outros casos, acesse como um usuário real: uma solicitação proveniente de um dispositivo residencial ou móvel na região geográfica esperada, com uma exibição adequada. Dessa forma, você evita o indicador de IP de data center que detecta a maioria dos agentes em sites protegidos.
