¿Qué es el «Markdown compatible con LLM»?

Markdown compatible con LLM Se trata de contenido web convertido de HTML sin formato a Markdown limpio, optimizado para las ventanas de contexto de los modelos de lenguaje a gran escala (LLM) y los flujos de trabajo de generación aumentada mediante recuperación (RAG). Al eliminar los menús de navegación, los anuncios, los scripts y las etiquetas decorativas, solo queda el texto, los encabezados, los enlaces y las tablas que un modelo realmente necesita. El resultado permite incluir más contenido útil por token, lo cual es importante dadas las ventanas de contexto finitas que comparten todos los LLM actuales.

¿Por qué es importante el formato Markdown para los modelos de lenguaje grandes (LLM)?

Las páginas HTML están estructuradas para los navegadores, no para los modelos. Una página típica envía cientos de tokens de texto repetitivo, avisos sobre cookies y estilos en línea antes de que aparezca una sola frase de contenido real. Markdown elimina esa sobrecarga, y los encabezados, párrafos, listas y bloques de código se corresponden claramente con la estructura que utiliza un modelo para analizar el texto.

El formato también es importante para los sistemas RAG, que dividen los documentos en fragmentos y los indexan antes de su recuperación. Los fragmentos de Markdown «limpios» se dividen de forma predecible siguiendo los encabezados y los límites de las listas. Los fragmentos de HTML «ruidosos» se dividen de forma impredecible, a menudo cortando frases a mitad de una idea o incluyendo texto irrelevante de las barras laterales.

Los servicios de renderización web generan código Markdown compatible con los modelos de lenguaje a gran escala (LLM) bajo demanda. El punto final «Browsing» de Massive (/browser) admite un format=markdown parámetro y devuelve una representación limpia en Markdown de cualquier página pública, gestionando la ejecución de JavaScript antes de la conversión.

Preguntas frecuentes

El HTML sin procesar incluye todo el marcado visible para el navegador: etiquetas, atributos, scripts y hojas de estilo. El Markdown optimizado para modelos de lenguaje grande (LLM) conserva únicamente la estructura del contenido en texto sin formato, con un formato sencillo. Un modelo consume muchos menos tokens para leer la misma información.

Una Web Render API puede recuperar, renderizar y convertir una página en un solo paso. El punto final «Browsing» de Massive devuelve format=markdown se muestran directamente, incluidas las páginas que necesitan JavaScript para cargar su contenido.

Sí. En Markdown estándar, los hipervínculos se representan como [text](url) y las tablas como filas delimitadas por barras verticales. Ambos elementos se conservan durante la conversión de HTML a Markdown, de modo que los modelos posteriores y los sistemas RAG puedan seguir las referencias y analizar los datos tabulares.