Olvídese del navegador: cómo la conversión de HTML a Markdown reduce los costes de los tokens de agente en un 80 %
All Posts

Olvídese del navegador: cómo la conversión de HTML a Markdown reduce los costes de los tokens de agente en un 80 %

Ryan Turner
Ryan Turner · Head of Growth

Para la mayoría de las tareas de los agentes de solo lectura, no es necesario utilizar un navegador completo. Basta con cargar la página, convertirla a formato Markdown limpio y pasarla al modelo. Eliminar el marcado, los scripts y los estilos antes de que el modelo lea nada elimina el ruido que el modelo nunca necesitó. Como resultado, se reduce el número de tokens necesarios, a menudo en más de la mitad.

El error consiste en considerar toda tarea web como un problema de automatización del navegador. Leer una página de documentación, recuperar un artículo o obtener las especificaciones de un producto es una cuestión de «recoger y convertir». Solo se recurre al navegador cuando la página se resiste.

Puntos clave
  • Para tareas de solo lectura, recupere el contenido y conviértalo a Markdown en lugar de abrir un navegador.
  • El HTML sin formato desperdicia tokens en el marcado, los scripts en línea, los estilos y el código repetitivo que el modelo ignora.
  • Los profesionales informan de reducciones simbólicas de alrededor del 80 % con este cambio; compruebe sus propias páginas antes de dar por buena ninguna cifra.
  • Utilice el servidor de referencia MCP Fetch o una API de renderizado que devuelva código Markdown directamente.
  • Utilice un navegador real para iniciar sesión, acceder a contenidos protegidos por JavaScript y seguir flujos interactivos.

Esta entrada forma parte de una guía más amplia sobre cómo proporcionar a los agentes de IA acceso en tiempo real a la web. En este caso, nos centramos en la opción más económica: evite utilizar el navegador siempre que sea posible.

¿Por qué el código HTML sin formato consume tantos tokens?

El código HTML sin formato contiene una gran cantidad de datos que el modelo no necesita. Conversión de HTML a Markdown Es el paso que elimina las etiquetas, los scripts en línea, los bloques de estilo, los píxeles de seguimiento, los elementos de navegación y el código repetitivo del pie de página, conservando únicamente el contenido legible. El modelo cobra por cada uno de esos tokens descartados en la entrada. Además, ese coste se repite en cada página, en cada ejecución y en todos los agentes de su flota.

Piense en la página típica de un artículo. El texto que desea puede tener unos cuantos miles de palabras. Sin embargo, el código HTML que lo rodea contiene <div> anidamientos, «soup» de clases, fragmentos de análisis y estructuras de tecnología publicitaria que a menudo eclipsan el contenido. Si introduce todo eso directamente en una ventana de contexto, malgastará el presupuesto en una estructura que el modelo descartará de todos modos.

Markdown, por el contrario, conserva el contenido y elimina todo lo superfluo. Los encabezados siguen siendo encabezados, los enlaces siguen siendo enlaces y las listas siguen siendo listas. Todo lo demás —los scripts, el estilo, los contenedores de diseño— desaparece. Se obtiene el significado, no la maquinaria.

La escala es importante porque los agentes están a punto de estar en todas partes. En 2025, Gartner predijo que Gartner, Gartner prevé que, para 2026, el 40 % de las aplicaciones empresariales contarán con agentes de IA especializados en tareas específicas Para finales de 2026, el 40 % de las aplicaciones empresariales contarán con agentes de IA específicos para cada tarea, frente a menos del 5 % en 2025. En consecuencia, cuando haya tantos agentes consultando la web, el desperdicio de tokens por página se convertirá en un gasto considerable.

¿Cuánto se puede ahorrar realmente con la conversión de HTML a Markdown?

El ahorro es considerable, pero depende del tipo de página, por lo que debe considerar cualquier cifra indicativa como un punto de partida, no como una promesa. Según dev.to, los profesionales del sector informan de reducciones de alrededor del 80 % al convertir el HTML a Markdown antes de que el modelo lo lea, Herramientas de navegador para agentes de IA. Parte 4: Prescindir del navegador (2026). Esa cifra la facilitan los propios profesionales y proveedores, y no ha sido verificada de forma independiente, por lo que debe incluirse en la columna de hipótesis y no en el presupuesto. Por ejemplo, una página con mucho contenido envuelta en un marcado ligero ahorrará menos que una estructura de aplicación repleta de scripts que oculta un único párrafo de texto real. Ambas se reducen, pero la proporción varía considerablemente según la página. Por lo tanto, mida sus propios objetivos. Realizamos el recuento de tokens de esta manera en páginas representativas: seleccione diez de ellas, cuente los tokens de la versión HTML sin formato y de la versión Markdown, y luego observe la diferencia. En nuestras pruebas, normalmente verá reducciones que superan con creces la mitad, a veces mucho más. Sin embargo, la única cifra que importa para su presupuesto es la que haya medido en sus propias páginas. Base su modelo de costes en eso, no en un titular.

Este hábito tiene un doble beneficio. Por un lado, reduce el volumen de datos de entrada hoy mismo. Por otro lado, establece una referencia de medición que permite detectar cualquier retroceso cuando el sitio web de destino cambie su diseño el próximo trimestre. Según nuestra experiencia con las cargas de trabajo de los agentes, esa referencia marca la diferencia entre detectar un aumento repentino de los costes en un panel de control o descubrirlo en una factura.

¿Cómo se convierte HTML a Markdown en un flujo de trabajo de agente?

Hay dos modelos que abarcan la mayoría de los casos: una herramienta de recuperación y conversión integrada en su agente, o una API de renderización que devuelve el código Markdown directamente. Ambas eliminan el mismo ruido. La diferencia radica en quién ejecuta la recuperación y en cómo gestiona los sitios web que se resisten al acceso automatizado.

Opción 1: el servidor de referencia MCP Fetch

El punto de partida más sencillo es el servidor de referencia MCP Fetch, que recupera una URL y convierte el HTML a Markdown en un solo paso. Se incluye en el Repositorio de servidores del Protocolo de Contexto de Modelos, por lo que cualquier agente compatible con MCP puede utilizarlo como herramienta. Para documentos internos, artículos públicos y sitios web que no bloquean los bots, esto suele ser todo lo que se necesita.

El problema es el acceso. Se envía una simple solicitud desde la IP de su servidor, y una parte cada vez mayor de la web considera ahora como hostil el tráfico automatizado desconocido. En 2025, Imperva, Informe sobre bots maliciosos de 2025 Se constató que los bots automatizados representaban el 51 % de todo el tráfico web en 2024, siendo la primera vez en una década que los bots superaban a los usuarios humanos, mientras que los bots maliciosos alcanzaban el 37 %. Como consecuencia, los sistemas de defensa diseñados para ese volumen suelen bloquear una solicitud «naked fetch» antes incluso de que se reciba el código HTML para su conversión.

Opción 2: una API de renderizado que devuelve código Markdown

Si el destino se resiste a una solicitud de obtención simple, redirija la solicitud a una infraestructura diseñada para sortear el bloqueo y solicite que devuelva el código Markdown directamente. La API de renderizado web de Massive expone un punto final de navegación con format=markdown, por lo que la página se carga lista para la interfaz de usuario en una sola llamada. No hay que realizar ninguna operación de recuperación por separado, no hay que mantener ningún conversor del lado del cliente y no se almacena HTML en la memoria.

Hay dos factores que hacen que esto sea viable a gran escala. En primer lugar, Markdown es un formato de salida nativo en el punto final, no un complemento, por lo que la conversión se lleva a cabo en el mismo lugar donde se genera la página. En segundo lugar, la solicitud se envía desde una red real de dispositivos de consumidores que abarca más de 195 países y cuenta con aproximadamente 1,3 millones de dispositivos activos diarios, por lo que la recuperación llega a sitios que rechazan el tráfico de centros de datos. Proxies residenciales son conexiones que se enrutan a través de dispositivos de consumidores reales en lugar de rangos de centros de datos, por lo que se identifican como visitantes normales. Hemos cuantificado esta diferencia en nuestra propia evaluación comparativa de proveedores: las direcciones IP residenciales registran tasas de éxito en sitios protegidos muy superiores a las de las direcciones IP de centros de datos (rangos aproximados de entre el 85 % y el 99 %, frente al 20 % y el 40 %). Cabe destacar que debe considerarse como una referencia de los proveedores, no como una investigación independiente.

Ese acceso cobra cada vez más importancia con el paso de los meses. En 2025, Cloudflare, Cloudflare acaba de cambiar la forma en que los rastreadores de IA recopilan información de Internet en general El 1 de julio de 2025 comenzó a bloquear de forma predeterminada los rastreadores de IA en aproximadamente el 20 % de la web. Como consecuencia, si su solicitud de obtención no puede acceder a la página, el proceso de conversión de Markdown más económico del mundo no devuelve ningún resultado.

También puede ajustar la llamada. El punto final de navegación ofrece distintos niveles de velocidad y un parámetro de dificultad, funciona de forma sincrónica o asincrónica, y mantiene sesiones persistentes de hasta 12 minutos en la misma salida cuando una lectura en varios pasos requiere continuidad. En cambio, para las lecturas de un solo paso, basta con reducir la solicitud y continuar.

¿En qué casos sigue siendo necesario utilizar un navegador de verdad?

Se sigue necesitando un navegador cuando el contenido no existe hasta que algo se ejecuta en él. Los inicios de sesión, los formularios de varios pasos, el desplazamiento infinito y el contenido bloqueado por JavaScript requieren todos un contexto de representación en tiempo real y una interacción real. La función «Fetch-and-convert» devuelve una estructura vacía en esas páginas, ya que el código de marcado llega antes que los datos.

La regla básica que seguimos es la siguiente: evite el navegador para tareas de solo lectura y utilícelo para tareas de lectura y escritura o interactivas. Si su tarea consiste en «leer esta página y resumirla», conviértala a Markdown. Sin embargo, si se trata de «iniciar sesión, navegar por tres pantallas y enviar el formulario», necesitará una automatización que ejecute una sesión real. Automatización de navegadores es la práctica de controlar mediante programación un motor de renderizado real para que haga clic, escriba y espere, precisamente lo que la función «fetch-and-convert» no puede hacer.

Cuando se cruza esa línea, tanto el marco como la infraestructura cobran importancia. Por ejemplo, la elección de la capa de automatización es una decisión en sí misma, que se aborda en marcos de trabajo para navegadores de agentes. Del mismo modo, pronto surge la cuestión de si gestionar esa flota por cuenta propia o adquirirla, que es el tema central de infraestructura de navegadores gestionada. El árbol de decisión es sencillo en su parte inicial: pruebe primero con Markdown y recurra al navegador solo cuando la página lo exija.

Una razón más para optar por Markdown: es el formato que, de todos modos, requiere su capa base. Puesta a tierra consiste en proporcionar al modelo contexto en tiempo real y recuperado, de modo que sus respuestas se basen en fuentes reales en lugar de en datos de entrenamiento obsoletos. El código Markdown limpio se integra directamente en la recuperación y la construcción del contexto, razón por la cual vuelve a aparecer en Entrenamiento de modelos de lenguaje grande (LLM) con datos web en tiempo real. En otras palabras, prescindir del navegador no solo resulta más económico, sino que genera exactamente el resultado que el resto de su proceso ya espera.

Fuentes

Frequently Asked Questions

¿La conversión de HTML a Markdown siempre reduce el número de tokens en un 80 %?

No. La cifra del 80 % se basa en los datos facilitados por los propios profesionales y proveedores, no ha sido verificada de forma independiente, y la cifra real depende de la página. Las páginas con gran cantidad de scripts ahorran más; las páginas más ligeras ahorran menos. Por lo tanto, evalúe diez de sus propios sitios web para establecer un presupuesto en el que pueda confiar.

¿Perderé datos al convertir HTML a Markdown?

Se pierde el diseño y el estilo, pero no el contenido. Los encabezados, los enlaces, las listas y el texto se conservan; los scripts, el CSS y los elementos de interfaz, no. Si necesita detalles a nivel de atributos, como etiquetas de datos específicas, capture el código HTML sin procesar de esas páginas y convierta todo lo demás.

¿Por qué no cargo la página yo mismo?

Sí, es posible, y el servidor MCP Fetch lo facilita, hasta que el sitio de destino le bloquee. Dado que los bots generan actualmente la mayor parte del tráfico web y que muchos sitios bloquean por defecto las solicitudes automatizadas desconocidas, las recuperaciones simples fallan con tanta frecuencia que una API de renderización en una red de dispositivos reales se convierte en la opción más fiable.

¿Resulta útil el formato Markdown para los resúmenes de IA o las tareas de búsqueda?

Para consultar páginas arbitrarias, sí. Sin embargo, para la recuperación de resultados estructurados en la página de resultados de búsqueda (SERP) o de respuestas generadas por IA, suele ser más adecuado utilizar un punto final de búsqueda específico que recuperar las páginas de resultados, ya que este devuelve los datos ya analizados en lugar de dejar que usted tenga que convertir el código HTML de la búsqueda.