Olvídese del navegador: cómo la conversión de HTML a Markdown reduce los costes de los tokens de agente en un 80 %

Ryan Turner · Head of InnovationJune 10, 2026

Para la mayoría de las tareas de los agentes de solo lectura, no es necesario en absoluto utilizar un navegador completo. Basta con recuperar la página, convertirla a Markdown limpio y pasársela al modelo. Eliminar el marcado, los scripts y los estilos antes de que el modelo lea nada elimina el ruido que el modelo nunca ha necesitado. Como resultado, se reduce el coste de los tokens, a menudo en más de la mitad.

El error consiste en considerar toda tarea web como un problema de automatización del navegador. Leer una página de documentación, recuperar un artículo u obtener las especificaciones de un producto es un problema de «recogida y conversión». Solo se recurre al navegador cuando la página se resiste.

Puntos clave

Para las tareas de solo lectura, recupere el contenido y conviértalo a Markdown en lugar de abrir un navegador.
El HTML sin procesar desperdicia tokens en el marcado, los scripts en línea, los estilos y el código repetitivo que el modelo ignora.
Los profesionales informan de reducciones simbólicas de alrededor del 80 % con este cambio; compruebe usted mismo sus propias páginas antes de dar por buena ninguna cifra.
Utilice el servidor de referencia MCP Fetch o una API de renderizado que devuelva directamente código Markdown.
Utilice un navegador real para iniciar sesión, acceder a contenidos protegidos con JavaScript y seguir flujos interactivos.

Esta entrada forma parte de una guía más amplia sobre cómo proporcionar a los agentes de IA acceso en tiempo real a la web. En este caso, nos centramos en la opción más económica: evite utilizar el navegador siempre que sea posible.

¿Por qué el código HTML sin formato consume tantos tokens?

El código HTML sin procesar contiene una gran cantidad de datos que el modelo no necesita. Conversión de HTML a Markdown Es el paso que elimina las etiquetas, los scripts en línea, los bloques de estilo, los píxeles de seguimiento, los elementos de navegación y el código repetitivo del pie de página, conservando únicamente el contenido legible. El modelo cobra por cada uno de esos tokens descartados en la entrada. Además, ese coste se repite en cada página, en cada ejecución y en todos los agentes de su flota.

Piense en la página típica de un artículo. El texto que le interesa puede tener unos cuantos miles de palabras. Sin embargo, el código HTML que lo rodea contiene <div> anidación, «soup» de clases, fragmentos de análisis y estructuras de tecnología publicitaria que, a menudo, eclipsan el contenido propiamente dicho. Si introduce todo eso directamente en una ventana de contexto, malgastará presupuesto en una estructura que el modelo acabará descartando de todos modos.

Markdown, por el contrario, conserva el contenido y elimina todo lo superfluo. Los encabezados siguen siendo encabezados, los enlaces siguen siendo enlaces y las listas siguen siendo listas. Todo lo demás —los scripts, el estilo, los elementos de maquetación— desaparece. Se obtiene el significado, no la mecánica.

La magnitud es importante porque los agentes están a punto de estar presentes en todas partes. Para el año 2025, Gartner predijo que Gartner, Gartner prevé que, para 2026, el 40 % de las aplicaciones empresariales contarán con agentes de IA específicos para cada tarea El 40 % de las aplicaciones empresariales contarán con agentes de IA específicos para cada tarea a finales de 2026, frente a menos del 5 % en 2025. En consecuencia, cuando un número tan elevado de agentes consulte la web, el desperdicio de tokens por página se acumulará hasta convertirse en una partida presupuestaria significativa.

¿Cuánto se puede ahorrar realmente con la conversión de HTML a Markdown?

El ahorro es considerable, pero depende de la página, por lo que debe considerar cualquier cifra destacada como un punto de partida, no como una promesa. Según dev.to, los profesionales informan de reducciones de alrededor del 80 % al convertir el código HTML a Markdown antes de que el modelo lo lea, Herramientas de navegador para agentes de IA, 4.ª parte: Prescindir del navegador (2026). Esa cifra la facilitan los propios profesionales y proveedores, y no ha sido verificada de forma independiente, por lo que debe incluirse en la columna de hipótesis y no en el presupuesto. Por ejemplo, una página con mucho contenido y un marcado ligero ahorrará menos que una estructura de aplicación sobrecargada de scripts que oculte un único párrafo de texto real. Ambas se reducen, pero la proporción varía considerablemente según la página. Por lo tanto, mida sus propios objetivos. Hemos realizado el recuento de tokens de esta manera en páginas representativas: seleccione diez de ellas, cuente los tokens de la versión HTML sin formato y de la versión en Markdown, y luego observe la diferencia. En nuestras pruebas, se observan habitualmente reducciones que superan con creces la mitad, a veces incluso mucho más. Sin embargo, la única cifra que importa para su presupuesto es la que haya medido en sus propias páginas. Base su modelo de costes en eso, no en un titular.

Este hábito resulta doblemente beneficioso. Por un lado, reduce el número de tokens de entrada hoy mismo. Por otro lado, establece una línea de referencia de medición que permite detectar retrocesos cuando un sitio web de referencia cambie su diseño el próximo trimestre. Según nuestra experiencia con las cargas de trabajo de los agentes, esa línea de referencia marca la diferencia entre detectar un aumento repentino de los costes en un panel de control y descubrirlo en una factura.

¿Cómo se convierte HTML a Markdown en un flujo de trabajo de agente?

Hay dos modelos que abarcan la mayoría de los casos: una herramienta de recuperación y conversión integrada en su agente, o una API de renderización que devuelve directamente el código Markdown. Ambas eliminan el mismo ruido. La diferencia radica en quién lleva a cabo la recuperación y en su capacidad para gestionar sitios web que se resisten al acceso automatizado.

Opción 1: el servidor de referencia MCP Fetch

El punto de acceso más sencillo es el servidor de referencia MCP Fetch, que recupera una URL y convierte el HTML a Markdown en un solo paso. Se incluye en la versión oficial Repositorio de servidores del Protocolo de Contexto de Modelos, por lo que cualquier agente compatible con MCP puede utilizarlo como herramienta. Para documentos internos, artículos públicos y sitios web que no bloquean los bots, esto suele ser todo lo que se necesita.

El problema es el acceso. Se envía una simple solicitud desde la IP de su servidor, y una parte cada vez mayor de la web considera ahora que el tráfico automatizado desconocido es hostil. En 2025, Imperva, Informe sobre bots maliciosos de 2025 Se constató que los bots automatizados representaban el 51 % de todo el tráfico web en 2024, siendo esta la primera vez en una década que los bots superaban a los usuarios humanos, mientras que los bots maliciosos alcanzaban el 37 %. Como consecuencia, los sistemas de defensa configurados para ese volumen suelen bloquear una solicitud «naked fetch» antes incluso de que se obtenga el código HTML para su conversión.

Opción 2: una API de renderizado que devuelva código Markdown

Cuando el objetivo se resista a una solicitud directa, redirija la solicitud a una infraestructura diseñada para sortear el bloqueo y solicite que devuelva el código Markdown directamente. Web Render API de Massive expone un punto final de navegación con format=markdown, por lo que la página se muestra lista para la solicitud en una sola llamada. No es necesario realizar ningún paso de recuperación por separado, no hay que mantener ningún convertidor del lado del cliente ni se almacena el código HTML en la memoria.

Hay dos factores que hacen que esto sea viable a gran escala. En primer lugar, Markdown es un formato de salida de primer orden en el punto final, no un complemento, por lo que la conversión se produce en el mismo momento en que se genera la página. En segundo lugar, la solicitud se envía desde una red real de dispositivos de usuarios que abarca más de 195 países y cuenta con aproximadamente 1,3 millones de dispositivos activos diarios, por lo que la consulta llega a sitios web que rechazan el tráfico procedente de centros de datos. Proxies residenciales Son conexiones que se enrutan a través de dispositivos reales de los usuarios, en lugar de rangos de centros de datos, por lo que se registran como visitantes normales. Hemos cuantificado esta diferencia en nuestra propia evaluación comparativa de proveedores: las direcciones IP residenciales registran tasas de éxito en sitios protegidos muy superiores a las de las direcciones IP de centros de datos (rangos aproximados de entre el 85 % y el 99 %, frente a entre el 20 % y el 40 %). Cabe destacar que debe considerarse como una referencia de los proveedores, no como una investigación independiente.

Ese acceso cobra cada mes más importancia. En 2025, Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general El 1 de julio de 2025 comenzó a bloquear de forma predeterminada los rastreadores de IA en aproximadamente el 20 % de la web. Como consecuencia, si su solicitud de obtención no puede acceder a la página, el proceso de Markdown más económico del mundo no devuelve ningún resultado.

También puede ajustar la llamada. El punto final de navegación ofrece niveles de velocidad y un parámetro de dificultad, funciona de forma sincrónica o asincrónica y mantiene sesiones persistentes de hasta 12 minutos en la misma salida cuando una lectura en varios pasos requiere continuidad. En cambio, para las lecturas de un solo paso, basta con reducir la solicitud y continuar.

¿En qué casos sigue siendo necesario utilizar un navegador de verdad?

Se sigue necesitando un navegador cuando el contenido no existe hasta que algo se ejecuta en él. Los inicios de sesión, los formularios de varios pasos, el desplazamiento infinito y el contenido restringido por JavaScript requieren todos ellos un contexto de representación en tiempo real y una interacción real. La técnica «Fetch-and-convert» devuelve una estructura vacía en esas páginas, ya que el código de marcado llega antes que los datos.

La regla básica que aplicamos es la siguiente: no utilice el navegador para tareas de solo lectura, pero sí para aquellas de lectura y escritura o interactivas. Si su tarea consiste en «leer esta página y resumirla», conviértala a Markdown. Sin embargo, si se trata de «iniciar sesión, navegar por tres pantallas y enviar el formulario», necesitará una automatización que gestione una sesión real. Automatización del navegador consiste en controlar mediante programación un motor de renderizado real para que haga clic, escriba y espere, precisamente lo que la función «fetch-and-convert» no puede hacer.

Cuando se cruza esa línea, tanto el marco como la infraestructura cobran importancia. Por ejemplo, la elección de la capa de automatización es una decisión en sí misma, que se aborda en marcos de trabajo para navegadores de agentes. Del mismo modo, pronto surge la cuestión de si es mejor gestionar esa flota por cuenta propia o adquirirla, que es el tema central de infraestructura de navegadores gestionada. La estructura de la decisión es sencilla en un primer momento: pruebe primero con Markdown y recurra al navegador únicamente cuando la página lo exija.

Una razón más para optar por Markdown de forma predeterminada: es el formato que, de todos modos, requiere su capa base. Puesta a tierra consiste en proporcionar al modelo contexto en tiempo real y recuperado, de modo que sus respuestas se basen en fuentes reales en lugar de en datos de entrenamiento obsoletos. El código Markdown limpio se integra directamente en la recuperación y el ensamblaje del contexto, razón por la cual vuelve a aparecer en Entrenamiento de modelos de lenguaje a gran escala (LLM) con datos web en tiempo real. En otras palabras, prescindir del navegador no solo resulta más económico, sino que genera exactamente el artefacto que el resto de su proceso ya espera.

Fuentes

Gartner. Gartner prevé que, para 2026, el 40 % de las aplicaciones empresariales contarán con agentes de IA específicos para cada tarea. 2025. https://www.gartner.com/en/newsroom/press-releases/26 de agosto de 2025: Gartner prevé que el 40 % de las aplicaciones empresariales contarán con agentes de IA específicos para cada tarea en 2026, frente a menos del 5 % en 2025
Imperva. Informe sobre bots maliciosos de 2025. 2025. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
Cloudflare. Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general. 2025. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
dev.to. Herramientas de navegador para agentes de IA, 4.ª parte: Prescindir del navegador. 2026. https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c
Protocolo de contexto de modelo. Servidor de referencias de MCP Fetch (repositorio de servidores). 2026. https://github.com/modelcontextprotocol/servers

Preguntas frecuentes

¿La conversión de HTML a Markdown siempre reduce el número de tokens en un 80 %?+

No. La cifra del 80 % se basa en datos facilitados por los propios profesionales y proveedores, no ha sido verificada de forma independiente, y la cifra real depende de la página. Las páginas con gran cantidad de scripts permiten un mayor ahorro; las páginas más ligeras, un menor ahorro. Por lo tanto, evalúe diez de sus propios sitios web para establecer un presupuesto en el que pueda confiar.

¿Perderé datos al convertir HTML a Markdown?+

Se pierde el diseño y el estilo, pero no el contenido. Los encabezados, los enlaces, las listas y el texto se conservan; los scripts, el CSS y los elementos de interfaz de usuario no. Si necesita detalles a nivel de atributos, como etiquetas de datos específicas, capture el código HTML sin procesar de esas páginas y convierta todo lo demás.

¿Por qué no puedo simplemente cargar la página yo mismo?+

Sí que puede, y el servidor MCP Fetch se lo facilita, hasta que el sitio de destino le bloquee. Dado que los bots generan actualmente la mayor parte del tráfico web y que muchos sitios bloquean por defecto las solicitudes automatizadas desconocidas, las consultas simples fallan con tanta frecuencia que una API de renderización en una red de dispositivos reales se convierte en la opción más fiable.

¿Resulta útil el formato Markdown para los resúmenes de IA o para las tareas de búsqueda?+

Para consultar páginas arbitrarias, sí. Sin embargo, para la recuperación de resultados estructurados de SERP o de respuestas generadas por IA, un punto final de búsqueda específico suele ser más adecuado que la obtención de páginas de resultados, ya que devuelve los datos ya analizados en lugar de dejar que usted mismo tenga que convertir el código HTML de la búsqueda.