La red de cierre: bloqueo de rastreadores de IA y acceso de agentes
All Posts

La red de cierre: bloqueo de rastreadores de IA y acceso de agentes

Ryan Turner
Ryan Turner · Head of Growth

La web que antes estaba abierta a los rastreadores anónimos se está cerrando. El bloqueo por defecto y los mercados de acceso de pago están sustituyendo al antiguo modelo de libre acceso para todos. Como resultado, el acceso de los agentes se divide ahora en dos vías: el rastreo con licencia o de pago, cuando sea posible, o el acceso como usuario real el resto del tiempo. Si su agente sigue dando por sentado que puede recuperar cualquier URL pública desde una IP de centro de datos, está construyendo sobre un terreno que se desvanece bajo sus pies.

Puntos clave
  • El 1 de julio de 2025, Cloudflare comenzó a bloquear de forma predeterminada los rastreadores de IA en aproximadamente el 20 % de la web y lanzó un mercado de pago por rastreo (Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general).
  • Los principales sitios web de noticias han adoptado una política de «denegación por defecto»: alrededor del 79 % bloquea los bots de entrenamiento de IA, y alrededor del 49 % prohíbe expresamente el uso de GPTBot.
  • El motivo es de carácter económico: la proporción entre rastreos y referencias alcanzó aproximadamente 38 000:1 en el caso de un importante rastreador. A los sitios web se les extrae tráfico, en lugar de enviárselo.
  • El entrenamiento de rastreadores y la recuperación de agentes en tiempo real se ven afectados por las mismas restricciones. Los agentes que siguen funcionando deben parecer usuarios reales ubicados en la zona geográfica adecuada o pagar por un acceso con licencia.

Qué ha cambiado: la web ha pasado a un modelo de «denegación por defecto»

En 2025, se invirtieron los valores predeterminados. El acontecimiento más destacado fue la decisión de Cloudflare, que el 1 de julio comenzó a bloquear de forma predeterminada los rastreadores de IA en aproximadamente el 20 % de la web y puso en marcha un mercado de pago por rastreo (Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general). Pago por rastreo es un mercado en el que un sitio cobra a los bots por un acceso que antes ofrecía de forma gratuita. En efecto, un simple cambio en la configuración hizo que una quinta parte de la web pasara de un sistema de exclusión voluntaria a uno de consentimiento expreso.

No se trató de un simple cambio de política en un ámbito concreto. Los bots ya no representan una minoría del tráfico. En 2024, los bots automatizados superaron el 51 % del tráfico web total por primera vez en una década, mientras que los bots maliciosos representaron el 37 % (Imperva, Informe sobre bots maliciosos de 2025). Cuando la mayoría de las solicitudes que llegan a su servidor de origen proceden de máquinas, bloquearlas de forma predeterminada deja de parecer una medida agresiva. Por el contrario, empieza a parecer una medida de seguridad básica.

El sector de la información fue el primero en reaccionar y el que tomó las medidas más drásticas. En 2025, aproximadamente el 79 % de los principales sitios web de noticias del mundo bloqueaban los bots de entrenamiento de IA, y alrededor del 49 % prohibía expresamente el uso de GPTBot (Press Gazette, Ocho de cada diez de los principales sitios web de noticias del mundo bloquean ahora los bots de entrenamiento de IA). Como consecuencia, el archivo robots.txt pasó de ser una sugerencia cortés a adoptar una postura de denegación por defecto para la categoría de IA. La vía de rastreo abierto no desapareció de la noche a la mañana. No obstante, la tendencia es clara y apunta en una sola dirección.

Por qué ocurrió: el colapso del tráfico procedente del rastreo

La razón es económica, no ideológica. El antiguo acuerdo era sencillo. Los rastreadores indexaban su contenido y, a cambio, los motores de búsqueda le enviaban visitantes. El rastreo mediante IA rompió ese ciclo. A mediados de 2025, el rastreador de Anthropic alcanzaba aproximadamente 38 000 páginas por visitante referido, mientras que el GPTBot de OpenAI registraba una proporción de unos 3700:1 (Cloudflare, El descenso gradual que precedió a la caída de las visitas procedentes de enlaces externos). En consecuencia, las editoriales hacen sus cálculos y se dan cuenta de que el contenido se va sin que a cambio reciban prácticamente nada a cambio.

La imagen se aclara cuando se analiza el propósito del rastreo. El rastreo de la IA se divide, a grandes rasgos, en un 80 % de entrenamiento, un 18 % de búsqueda y solo un 2 % de acciones de los usuarios (Cloudflare, Un análisis más detallado de los rastreadores de IA). Cuatro quintas partes de ese tráfico se destinan al entrenamiento de modelos, que, por su diseño, no devuelven ninguna referencia. Por lo tanto, desde el punto de vista del propietario del sitio web, se trata de una mera extracción de valor, y bloquearlo es la respuesta más racional.

El volumen también está aumentando, lo que eleva las expectativas. El tráfico procedente de la IA y de los rastreadores de búsqueda creció un 18 % interanual hasta 2025, y la cuota de GPTBot en las solicitudes de los rastreadores de IA se disparó del 5 % al 30 % en un año, lo que supone un aumento del 305 % en el número de solicitudes brutas (Cloudflare, De Googlebot a GPTBot: ¿quién rastreará su sitio web en 2025?). Mayor carga, ausencia de tráfico de retorno y facilidad para bloquearlo mediante herramientas. En consecuencia, la política de «denegación por defecto» era inevitable.

Qué significa esto para los agentes: todos en el mismo saco

Esta es la trampa en la que caen los equipos de ingeniería. El entrenamiento de rastreadores y la recuperación de información en tiempo real mediante un agente son cosas diferentes. Un rastreador de entrenamiento recopila millones de páginas para crear un conjunto de datos. Su agente, por el contrario, recupera tres páginas para responder a la pregunta de un usuario en este mismo instante. Sin embargo, el sitio web no percibe la intención. Detecta una solicitud automatizada procedente de un agente de usuario bot conocido o de un rango de IP marcado, y aplica la misma regla de denegación por defecto a ambos. Por eso, el hecho de que «la web se esté cerrando a la IA» afecta a agentes que nunca tocan los datos de entrenamiento. La infraestructura de bloqueo no distingue entre un agente de recuperación y un rastreador. En su lugar, distingue entre humanos y bots, y cada vez más distingue entre el espacio de IP de confianza y los rangos de centros de datos. En resumen, un agente honesto en una IP en la nube parece idéntico a un rastreador hostil.

Direcciones IP de centros de datos son direcciones propiedad de proveedores de servicios en la nube y de alojamiento web; los sistemas antibots las detectan en primer lugar porque ninguna persona normal navega desde ellas. Concretamente, son lo primero que detectan los modernos sistemas antibots en 2026, lo que constituye la razón principal por la que los agentes fracasan en los objetivos protegidos. Analizamos el funcionamiento en Por qué se bloquean los agentes en las direcciones IP de los centros de datos, pero, en resumen, un agente legítimo que utiliza una dirección IP en la nube se interpreta como una amenaza.

Por lo tanto, la cuestión del acceso se divide en dos vías, y ambas tienen su lugar. Cuando exista una vía autorizada o de pago, como un acuerdo de pago por rastreo o una API oficial, utilícela. Es la opción más clara y, por definición, resiste el cierre de la web. En todos los demás casos, la vía más duradera es acceder como un usuario real: una solicitud que se origina en un dispositivo residencial o móvil en la zona geográfica prevista por el contenido, mostrando la página tal y como lo haría el navegador de una persona. Proxies residenciales son conexiones que pasan por dispositivos de consumo reales, por lo que la solicitud lleva una dirección asignada por el proveedor de servicios de Internet y el sitio web la trata como si se tratara de un visitante normal. La elección entre esos tipos de red es una decisión que debe tomar usted mismo, y que analizamos en Proxies residenciales frente a proxies de centros de datos.

Esta es la parte que la mayoría de los equipos subestiman hasta que se produce una interrupción en el entorno de producción. A medida que se va cerrando la ruta de rastreo abierta, los agentes que siguen funcionando son aquellos que no parecen en absoluto rastreadores. Según nuestra experiencia con cargas de trabajo de agentes, el acceso desde dispositivos de usuarios reales, que llegan como visitantes locales orgánicos con una visualización limpia, es lo que se mantiene fiable cuando la norma es el rechazo por defecto. Ese es el posicionamiento que subyace a la red de acceso a dispositivos más la pila de renderizado de Massive: dispositivos de consumidores reales en más de 195 países con geolocalización por país, subdivisión y ciudad, que devuelven HTML limpio o Markdown desde cualquier fuente pública en cualquier ubicación. A partir de nuestro trabajo con los equipos, observamos que lo incorporan como alternativa para los objetivos que fallan, y luego lo convierten en la opción principal una vez que desaparece la cola de incidencias. Cuando la pila de proxy y navegador sin interfaz de usuario de «hágalo usted mismo» deja de ser rentable, el siguiente paso suele ser la infraestructura gestionada, que abordamos en infraestructura de navegadores gestionada.

Para conocer la arquitectura completa que permite a un agente disponer de un acceso en tiempo real permanente, comience por la sección dedicada a cómo proporcionar a los agentes de IA acceso en tiempo real a la web. Esta tendencia es uno de los factores que se han tenido en cuenta en ese diseño, pero no lo es todo.

Qué hacer ahora: prepararse para el cierre de la web

Planifique como si el «denegación por defecto» fuera la norma, ya que en 2025 se convirtió en tal. Cloudflare pasó a proteger aproximadamente el 20 % de la web mediante un acceso con autorización expresa de un solo golpe (Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general), y su adopción no hace más que aumentar a partir de ahí. Por lo tanto, diseñe su capa de acceso partiendo de la base de que los objetivos más vulnerables se reforzarán, y no dando por sentado que las URL que hoy están abiertas seguirán estándolo.

De los datos se desprenden tres medidas prácticas. En primer lugar, clasifique sus objetivos en «vía con licencia/de pago disponible» y «debe llegar como usuario real», y luego dirija cada uno según corresponda. En segundo lugar, deje de enviar tráfico de agentes desde direcciones IP de nube sin filtrar, ya que el sistema de detección las marca antes incluso de que se lea el cuerpo de su solicitud. En tercer lugar, prefiera una salida limpia en Markdown o HTML en lugar de volcados de páginas sin filtrar, ya que su LLM paga por cada token de información superflua que le proporcione. Por ejemplo, comparamos el tráfico residencial con el de salida de centros de datos en sitios protegidos y medimos que el éxito del tráfico residencial era mucho mayor (rangos aproximados: residencial ~85-99 % frente a centro de datos ~20-40 %). Considere esto como un punto de referencia del proveedor, no como una investigación independiente. Dicho esto, la tendencia coincide con lo que predice la tendencia de detección.

Fuentes

Frequently Asked Questions

¿Se está cerrando realmente la web abierta, o se trata solo de una exageración?

Lo que ha cambiado son los ajustes predeterminados, que es lo que realmente importa. En 2025, Cloudflare hizo que alrededor del 20 % de la web bloqueara de forma predeterminada los rastreadores de IA, y actualmente alrededor del 79 % de los principales sitios web de noticias bloquean los bots de entrenamiento de IA (Cloudflare; Press Gazette). Las URL abiertas siguen existiendo. Sin embargo, el «denegación por defecto» es ahora la norma, no la excepción.

Mi agente solo recupera unas pocas páginas, no datos de entrenamiento. ¿Por qué está bloqueado?

Porque la infraestructura de bloqueo no puede discernir la intención. Detecta los agentes de usuario de los bots y los rangos de IP de los centros de datos, y aplica la misma regla tanto a un agente de recuperación de tres páginas como a un rastreador de entrenamiento de un millón de páginas. El rastreo mediante IA consiste, aproximadamente, en un 80 % de entrenamiento (Cloudflare). Por lo tanto, los sitios web rechazan por defecto toda la categoría.

¿Por qué los editores bloquean el acceso en lugar de limitarse a cobrar?

Ambas cosas, cada vez más. El detonante es el colapso de la relación entre el rastreo y las visitas procedentes de enlaces externos: un importante rastreador alcanzó unas 38 000 páginas rastreadas por visitante procedente de un enlace externo en 2025 (Cloudflare). Por su parte, los mercados de pago por rastreo permiten a los sitios web cobrar por un acceso que antes ofrecían de forma gratuita, lo que constituye la parte de pago de la nueva división.

¿Cuál es actualmente la ruta de acceso permanente para los agentes?

Dos opciones. Cuando disponga de una licencia o de acceso de pago, utilícelo. En el resto de casos, acceda como un usuario real: una solicitud desde un dispositivo doméstico o móvil situado en la zona geográfica prevista, con una visualización correcta. De este modo, evitará que se detecte la dirección IP del centro de datos, lo que suele delatar a la mayoría de los agentes en los sitios web protegidos.