La red de cierre: bloqueo de rastreadores de IA y acceso de agentes

Ryan Turner · Head of InnovationJune 5, 2026

La web que antes estaba abierta a los rastreadores anónimos se está cerrando. El bloqueo por defecto y los mercados de acceso de pago están sustituyendo al antiguo modelo de libre acceso para todos. Como consecuencia, el acceso de los agentes se divide ahora en dos vías: el rastreo con licencia o de pago, cuando sea posible, o el acceso como usuario real el resto del tiempo. Si su agente sigue dando por sentado que puede recuperar cualquier URL pública desde una IP de centro de datos, está construyendo sobre un terreno que se está desvaneciendo bajo sus pies.

Puntos clave

El 1 de julio de 2025, Cloudflare comenzó a bloquear de forma predeterminada los rastreadores de IA en aproximadamente el 20 % de la web y puso en marcha un mercado de pago por rastreo (Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general).
Los principales sitios web de noticias han adoptado una política de «denegación por defecto»: alrededor del 79 % bloquea los bots de entrenamiento de IA y alrededor del 49 % prohíbe expresamente el uso de GPTBot.
El motivo es de carácter económico: la relación entre el rastreo y las visitas procedentes de enlaces de referencia alcanzó aproximadamente 38 000:1 en el caso de un importante rastreador. A los sitios web se les extrae tráfico, en lugar de enviárselo.
El entrenamiento de rastreadores y la recuperación de agentes en tiempo real quedan atrapados en las mismas redes. Los agentes que siguen funcionando parecen usuarios reales ubicados en la zona geográfica adecuada, o bien pagan por un acceso con licencia.

Qué ha cambiado: la web ha pasado a un régimen de «denegación por defecto»

En 2025, se invirtieron los valores predeterminados. El acontecimiento más destacado fue el de Cloudflare, que el 1 de julio comenzó a bloquear de forma predeterminada los rastreadores de IA en aproximadamente el 20 % de la web y puso en marcha un mercado de pago por rastreo (Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general). Pago por rastreo es un mercado en el que un sitio cobra a los bots por un acceso que antes ofrecía de forma gratuita. En efecto, un simple cambio en la configuración hizo que una quinta parte de la web pasara de un sistema de exclusión voluntaria a uno de consentimiento expreso.

No se trató de un cambio de política de carácter puntual. Los bots ya no representan una parte minoritaria del tráfico. En 2024, los bots automatizados superaron por primera vez en una década el 51 % del tráfico web total, mientras que los bots maliciosos representaron el 37 % (Imperva, Informe sobre bots maliciosos de 2025). Cuando la mayoría de las solicitudes que llegan a su servidor de origen proceden de máquinas, bloquearlas por defecto deja de parecer una medida agresiva. Por el contrario, empieza a parecer una medida de seguridad básica.

El sector de la información fue el primero en reaccionar y el que tomó las medidas más drásticas. En 2025, aproximadamente el 79 % de los principales sitios web de noticias del mundo bloqueaban los bots de entrenamiento de IA, y alrededor del 49 % prohibían expresamente el uso de GPTBot (Press Gazette, Ocho de cada diez de los principales sitios web de noticias del mundo bloquean ahora los bots de entrenamiento de IA). Como consecuencia, el archivo robots.txt pasó de ser una sugerencia cortés a adoptar una postura de «denegación por defecto» para la categoría de IA. La posibilidad de rastreo abierto no desapareció de la noche a la mañana. No obstante, la tendencia es clara y apunta en una sola dirección.

Por qué ocurrió: el colapso del tráfico procedente del rastreo y de las referencias

La razón es económica, no ideológica. El antiguo acuerdo era sencillo. Los rastreadores indexaban su contenido y, a cambio, los motores de búsqueda le enviaban visitantes. El rastreo mediante IA rompió ese ciclo. A mediados de 2025, el rastreador de Anthropic alcanzaba aproximadamente 38 000 páginas por visitante remitido, mientras que el GPTBot de OpenAI registraba una proporción de aproximadamente 3 700:1 (Cloudflare, El descenso gradual previo a la caída de las visitas procedentes de enlaces externos). En consecuencia, las editoriales hacen sus cálculos y observan que el contenido se va sin que a cambio les llegue prácticamente nada.

La imagen se aclara más cuando se analiza la finalidad del rastreo. El rastreo basado en IA se divide, a grandes rasgos, en un 80 % de entrenamiento, un 18 % de búsqueda y solo un 2 % de acciones de los usuarios (Cloudflare, Un análisis más detallado de los rastreadores de IA). Cuatro quintas partes de esa información se destinan al entrenamiento de modelos, que, por su diseño, no devuelven ninguna referencia. Por lo tanto, desde el punto de vista del propietario de un sitio web, se trata de una mera extracción de información, y bloquearla es la respuesta más racional.

El volumen también está aumentando, lo que eleva las expectativas. El tráfico procedente de la inteligencia artificial y de los rastreadores de búsqueda creció un 18 % interanual hasta 2025, y la cuota de GPTBot en las solicitudes de los rastreadores de IA se disparó del 5 % al 30 % en un año, lo que supone un incremento del 305 % en el número bruto de solicitudes (Cloudflare, De Googlebot a GPTBot: ¿quién rastreará su sitio web en 2025?). Mayor carga, ausencia de tráfico de retorno y facilidad para bloquearlo mediante herramientas. En consecuencia, la política de «denegación por defecto» era inevitable.

Qué significa esto para los agentes: todos caen en la misma trampa

Esta es la trampa en la que caen los equipos de ingeniería. El entrenamiento de rastreadores y la recuperación de información por parte de un agente en tiempo real son cosas diferentes. Un rastreador de entrenamiento recopila millones de páginas para crear un conjunto de datos. Su agente, por el contrario, recupera tres páginas para responder a la pregunta de un usuario en este mismo instante. Sin embargo, el sitio web no percibe la intención. Detecta una solicitud automatizada procedente de un agente de usuario de bot conocido o de un rango de IP marcado, y aplica la misma regla de denegación por defecto a ambos. Por eso, el hecho de que «la web se esté cerrando a la IA» afecta a agentes que nunca han tenido contacto con los datos de entrenamiento. La infraestructura de bloqueo no distingue entre un agente de recuperación y un rastreador. En su lugar, distingue a los humanos de los bots y, cada vez más, distingue el espacio de IPs de confianza de los rangos de centros de datos. En resumen, un agente honesto con una IP en la nube parece idéntico a un rastreador hostil.

Direcciones IP del centro de datos Se trata de direcciones que pertenecen a proveedores de servicios en la nube y de alojamiento web; los sistemas antibots las detectan en primer lugar porque ninguna persona normal navega desde ellas. Concretamente, son lo primero que detectan los modernos sistemas antibots en 2026, lo cual constituye la razón principal por la que los agentes fracasan al atacar objetivos protegidos. Analizamos el funcionamiento en Por qué se bloquean los agentes en las direcciones IP de los centros de datos, pero, en resumen, un agente honesto que utiliza una dirección IP en la nube se interpreta como hostil.

Por lo tanto, la cuestión del acceso se divide en dos vías, y ambas tienen su lugar. Cuando exista una vía autorizada o de pago, como un acuerdo de pago por rastreo o una API oficial, utilícela. Es la opción más clara y, por definición, resiste el cierre de la web. En todos los demás casos, la vía más duradera es acceder como un usuario real: una solicitud que se origine desde un dispositivo residencial o móvil en la zona geográfica prevista por el contenido, de modo que la página se muestre tal y como lo haría el navegador de una persona. Proxies residenciales son conexiones que se canalizan a través de dispositivos reales de los usuarios, por lo que la solicitud lleva una dirección asignada por el proveedor de servicios de Internet (ISP) y el sitio web la trata como si se tratara de un visitante habitual. La elección entre esos tipos de red es una decisión propia, que analizamos en Proxies residenciales frente a proxies de centros de datos.

Esta es la parte que la mayoría de los equipos subestiman hasta que se produce una interrupción en el entorno de producción. A medida que se va cerrando la ruta de rastreo abierta, los agentes que siguen funcionando son aquellos que no parecen en absoluto rastreadores. Según nuestra experiencia con cargas de trabajo de agentes, el acceso desde dispositivos de usuarios reales —que llegan como visitantes locales orgánicos con una visualización limpia— es lo que sigue siendo fiable cuando la norma es el «denegación por defecto». Esa es la estrategia que sustenta la red de acceso a dispositivos de Massive, junto con su pila de renderizado: dispositivos reales de consumidores en más de 195 países, con segmentación geográfica por país, subdivisión y ciudad, que devuelven código HTML o Markdown limpio desde cualquier fuente pública en cualquier ubicación. A partir de nuestro trabajo con los equipos, observamos que lo incorporan como solución alternativa para los objetivos que fallan y, posteriormente, lo convierten en la opción principal una vez que desaparece la cola de incidencias. Cuando la pila de «proxy más navegador sin interfaz gráfica» de montaje propio deja de ser rentable, el siguiente paso suele ser una infraestructura gestionada, tema que abordamos en infraestructura de navegadores gestionada.

Para conocer la arquitectura completa que permite otorgar a un agente un acceso en tiempo real de forma permanente, comience por el apartado dedicado a cómo proporcionar a los agentes de IA acceso en tiempo real a Internet. Esta tendencia es uno de los factores que se tienen en cuenta en dicho diseño, pero no lo es todo.

Qué hacer ahora: prepararse para la web de cierre

Planifique como si el principio de «denegación por defecto» fuera la norma, ya que en 2025 pasó a serlo. Cloudflare sometió, de un solo golpe, aproximadamente al 20 % de la web a un acceso con autorización previa (Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general), y su adopción no hace más que aumentar a partir de ahí. Por lo tanto, diseñe su capa de acceso partiendo de la base de que los objetivos más vulnerables se reforzarán, y no dando por sentado que las URL que hoy están abiertas seguirán estándolo.

De los datos se desprenden tres medidas prácticas. En primer lugar, clasifique sus objetivos en «vía con licencia/de pago disponible» y «debe acceder como usuario real», y luego dirija cada uno según corresponda. En segundo lugar, deje de enviar tráfico de agentes desde direcciones IP de nube sin filtrar, ya que el sistema de detección en el borde las marca antes incluso de que se lea el cuerpo de su solicitud. En tercer lugar, dé preferencia a la salida en formato Markdown o HTML limpio frente a los volcados de páginas sin filtrar, ya que su modelo de lenguaje grande (LLM) paga por cada token de información superflua que le proporcione. Por ejemplo, hemos comparado el tráfico residencial con el de salida de centros de datos en sitios protegidos y hemos observado que la tasa de éxito del tráfico residencial es mucho mayor (rangos aproximados: residencial ~85-99 % frente a centro de datos ~20-40 %). Considere estos datos como un punto de referencia del proveedor, no como una investigación independiente. Dicho esto, la tendencia coincide con lo que predice la tendencia de detección.

Fuentes

Imperva, Informe sobre bots maliciosos de 2025, 2025. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general, 2025. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
Cloudflare, El descenso gradual previo a la caída de las visitas procedentes de enlaces externos, 2025. https://blog.cloudflare.com/crawlers-click-ai-bots-training/
Cloudflare, Un análisis más detallado de los rastreadores de IA, 2025. https://blog.cloudflare.com/ai-crawler-traffic-by-purpose-and-industry/
Cloudflare, De Googlebot a GPTBot: ¿quién rastreará su sitio web en 2025?, 2025. https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/
Press Gazette, Ocho de cada diez de los principales sitios web de noticias del mundo bloquean ahora los bots de entrenamiento de IA, 2025. https://pressgazette.co.uk/platforms/eight-in-ten-of-worlds-biggest-news-websites-now-block-ai-training-bots/

Preguntas frecuentes

¿Se está cerrando realmente la web abierta, o se trata solo de una exageración?+

Los ajustes predeterminados han cambiado, y eso es lo que realmente importa. En 2025, Cloudflare hizo que aproximadamente el 20 % de la web bloqueara de forma predeterminada los rastreadores de IA, y actualmente alrededor del 79 % de los principales sitios web de noticias bloquean los bots de entrenamiento de IA (Cloudflare; Press Gazette). Todavía existen las URL abiertas. Sin embargo, la política de «denegación por defecto» es ahora la norma, no la excepción.

Mi agente solo recupera unas pocas páginas, no datos de entrenamiento. ¿Por qué está bloqueado?+

Dado que la infraestructura de bloqueo no puede detectar la intención, marca como sospechosos los agentes de usuario de los bots y los rangos de direcciones IP de los centros de datos, y aplica la misma regla tanto a un agente de recuperación de tres páginas como a un rastreador de entrenamiento de un millón de páginas. El rastreo mediante IA consiste, aproximadamente, en un 80 % de entrenamiento (Cloudflare). Por consiguiente, los sitios web rechazan por defecto toda la categoría.

¿Por qué los editores bloquean el acceso en lugar de limitarse a cobrar?+

Ambas cosas, cada vez más. El factor desencadenante es el colapso de la relación entre el rastreo y las visitas procedentes de enlaces externos: un importante rastreador alcanzó unas 38 000 páginas rastreadas por cada visitante procedente de un enlace externo en 2025 (Cloudflare). Por su parte, los mercados de «pago por rastreo» permiten a los sitios web cobrar por un acceso que antes ofrecían de forma gratuita, lo que constituye la parte de pago de la nueva distribución.

¿Cuál es actualmente la vía de acceso permanente para los agentes?+

Dos vías. Cuando exista acceso con licencia o de pago, utilícelo. En el resto de casos, acceda como un usuario real: una solicitud procedente de un dispositivo doméstico o móvil situado en la zona geográfica prevista, con una visualización correcta. De este modo, evitará que se detecte la dirección IP del centro de datos, que es lo que delata a la mayoría de los agentes en los sitios web protegidos.