O que é o Markdown compatível com LLM?
Markdown compatível com LLM trata-se de conteúdo da web convertido de HTML bruto em Markdown limpo, otimizado para janelas de contexto de modelos de linguagem de grande porte (LLM) e pipelines de geração aumentada por recuperação (RAG). A remoção de menus de navegação, anúncios, scripts e tags decorativas deixa apenas o texto, os títulos, os links e as tabelas de que um modelo realmente precisa. O resultado permite incluir mais conteúdo útil por token, o que é importante, considerando as janelas de contexto finitas que todos os LLMs atuais compartilham.
Por que o formato Markdown é importante para os LLMs?
As páginas HTML são estruturadas para navegadores, não para modelos. Uma página típica envia centenas de tokens de conteúdo padrão, banners de cookies e estilos embutidos antes que uma única frase de conteúdo real apareça. O Markdown elimina essa sobrecarga, e os títulos, parágrafos, listas e blocos de código se alinham de forma clara à estrutura que um modelo utiliza para analisar o texto.
O formato também é importante para os sistemas RAG, que dividem os documentos em blocos e os indexam antes da recuperação. Blocos de Markdown limpos são divididos de maneira previsível, seguindo os limites dos títulos e das listas. Blocos de HTML com ruído são divididos de forma imprevisível, muitas vezes cortando frases no meio de uma ideia ou incluindo texto irrelevante da barra lateral.
Os serviços de renderização da Web geram Markdown compatível com LLM sob demanda. O endpoint de navegação da Massive (/browser) aceita um format=markdown parâmetro e retorna uma representação em Markdown limpa de qualquer página pública, lidando com a renderização do JavaScript antes da conversão.
Perguntas frequentes
O HTML bruto inclui toda a marcação destinada ao navegador: tags, atributos, scripts e folhas de estilo. O Markdown otimizado para LLM mantém apenas a estrutura do conteúdo em texto simples, com formatação leve. Um modelo consome muito menos tokens para ler a mesma informação.
Uma Web Render API pode buscar, renderizar e converter uma página em uma única etapa. O endpoint “Browsing” do Massive retorna format=markdown exibir diretamente, incluindo páginas que exigem JavaScript para carregar seu conteúdo.
Sim. O Markdown padrão representa hiperlinks como [text](url) e tabelas como linhas delimitadas por barras verticais. Ambos são preservados durante a conversão de HTML para Markdown, de modo que os modelos posteriores e os sistemas RAG possam seguir as referências e analisar os dados tabulares.