Evite o navegador: como a conversão de HTML para Markdown reduz os custos com tokens de agente em 80%

Ryan Turner · Head of InnovationJune 10, 2026

Para a maioria das tarefas de agente somente leitura, não é necessário utilizar um navegador completo. Basta buscar a página, convertê-la para Markdown limpo e passar esse conteúdo para o modelo. Remover marcações, scripts e estilos antes que o modelo leia qualquer coisa elimina ruídos dos quais o modelo nunca precisou. Como resultado, isso reduz sua conta de tokens, muitas vezes em mais da metade.

O erro é tratar todas as tarefas na web como um problema de automação do navegador. Ler uma página de documentação, baixar um artigo ou obter as especificações de um produto é um problema de “buscar e converter”. Só se recorre ao navegador quando a página apresenta resistência.

Pontos principais

Para tarefas somente de leitura, faça a busca e converta para Markdown, em vez de abrir um navegador.
O HTML bruto desperdiça tokens com marcações, scripts embutidos, estilos e código padrão que o modelo ignora.
Os profissionais relatam reduções simbólicas de cerca de 80% com essa troca; avalie suas próprias páginas antes de confiar em qualquer número específico.
Utilize o servidor de referência MCP Fetch ou uma API de renderização que retorne Markdown diretamente.
Utilize um navegador de verdade para logins, conteúdos restritos a JavaScript e fluxos interativos.

Esta publicação faz parte de um guia mais abrangente sobre como conceder aos agentes de IA acesso à web em tempo real. Aqui, vamos nos concentrar na opção mais econômica: evite usar o navegador sempre que possível.

Por que o HTML bruto consome tantos tokens?

O HTML bruto contém uma grande quantidade de dados desnecessários para o modelo. Conversão de HTML para Markdown é a etapa que remove tags, scripts embutidos, blocos de estilo, pixels de rastreamento, elementos de interface de navegação e código padrão do rodapé, mantendo apenas o conteúdo legível. O modelo cobra por cada um desses tokens descartados na entrada. Além disso, esse custo se repete em todas as páginas, a cada execução, em todos os agentes da sua frota.

Pense em uma página típica de artigo. O texto que o senhor deseja pode ter alguns milhares de palavras. O código HTML que o envolve, no entanto, contém <div> aninhamento, “class soup”, trechos de análise e estrutura de tecnologia de publicidade que muitas vezes se sobrepõem ao texto propriamente dito. Se você inserir isso diretamente em uma janela de contexto, acabará desperdiçando o orçamento com uma estrutura que o modelo descartará de qualquer maneira.

O Markdown, por outro lado, mantém o conteúdo e elimina o ruído. Os títulos continuam sendo títulos, os links continuam sendo links e as listas continuam sendo listas. Todo o resto — os scripts, os estilos, os contêineres de layout — é descartado. O que fica é o significado, não a estrutura técnica.

A escala é importante porque os agentes estarão em breve em toda parte. Em 2025, a Gartner previu que Gartner, A Gartner prevê que 40% dos aplicativos corporativos contarão com agentes de IA para tarefas específicas até 2026 40% dos aplicativos corporativos contarão com agentes de IA específicos para determinadas tarefas até o final de 2026, um aumento em relação aos menos de 5% registrados em 2025. Consequentemente, quando um número tão grande de agentes acessa a internet, o desperdício de tokens por página se acumula, tornando-se um item de custo significativo.

Qual é, de fato, a economia que a conversão de HTML para Markdown pode proporcionar?

A redução é significativa, mas depende da página; portanto, considere qualquer número apresentado como um ponto de partida, e não como uma promessa. Os profissionais relatam reduções de cerca de 80% ao converter HTML para Markdown antes que o modelo o leia, segundo o dev.to, Ferramentas do navegador para agentes de IA – Parte 4: Ignore o navegador (2026). Esse número é declarado pelos próprios profissionais e fornecedores, não tendo sido verificado de forma independente; portanto, deve constar na coluna de hipóteses, e não no seu orçamento. Por exemplo, uma página com muito conteúdo, mas com marcação leve, economizará menos do que um shell de aplicativo repleto de scripts que oculta um único parágrafo de texto real. Ambas apresentam redução, mas a proporção varia significativamente de acordo com a página. Portanto, avalie suas próprias metas. Realizamos a contagem de tokens dessa forma em páginas representativas: selecione dez delas, conte os tokens da versão em HTML bruto e da versão em Markdown e, em seguida, analise a variação. Em nossos testes, você geralmente observará reduções bem acima da metade, às vezes muito mais. No entanto, o único número que importa para o seu orçamento é aquele que você mediu em suas próprias páginas. Baseie seu modelo de custos nisso, e não em uma manchete.

Esse hábito traz duplo benefício. Você reduz os tokens de entrada hoje. Além disso, você cria uma linha de base de medição que sinaliza regressões quando um site-alvo alterar seu layout no próximo trimestre. Com base em nosso trabalho com cargas de trabalho de agentes, essa linha de base é a diferença entre detectar um aumento repentino nos custos em um painel e descobri-lo em uma fatura.

Como se faz a conversão de HTML para Markdown em um pipeline de agente?

Dois padrões abrangem a maioria dos casos: uma ferramenta de busca e conversão integrada ao seu agente ou uma API de renderização que retorna Markdown diretamente. Ambas eliminam o mesmo ruído. A diferença está em quem executa a busca e na eficácia com que ela lida com sites que resistem ao acesso automatizado.

Opção 1: o servidor de referência MCP Fetch

O ponto de entrada mais simples é o servidor de referência MCP Fetch, que busca uma URL e converte o HTML em Markdown em uma única etapa. Ele está incluído no Repositório dos servidores do Protocolo de Contexto de Modelos, de modo que qualquer agente compatível com o MCP pode utilizá-la como uma ferramenta. Para documentos internos, artigos públicos e sites que não bloqueiam bots, isso costuma ser tudo o que você precisa.

O problema é o acesso. Uma simples solicitação é enviada a partir do IP do seu servidor, e uma parcela cada vez maior da web passa a tratar o tráfego automatizado desconhecido como hostil. Em 2025, Imperva, Relatório sobre bots maliciosos de 2025 Constatou-se que os bots automatizados representaram 51% de todo o tráfego da web em 2024, sendo a primeira vez em uma década que os bots ultrapassaram os seres humanos, com os bots maliciosos representando 37%. Como resultado, as defesas ajustadas para esse volume frequentemente bloquearão uma solicitação simples antes mesmo que você consiga obter o HTML para conversão.

Opção 2: uma API de renderização que retorna Markdown

Quando o alvo resistir a uma solicitação simples, redirecione a solicitação para uma infraestrutura criada para contornar essa resistência e solicite que ela retorne o Markdown diretamente. O Web Render API da Massive expõe um endpoint de navegação com format=markdown, de modo que a página é exibida pronta para interação em uma única chamada. Não há etapa separada de busca, não é necessário manter nenhum conversor no lado do cliente e não há HTML armazenado na memória.

Dois fatores tornam isso viável em grande escala. Em primeiro lugar, o Markdown é um formato de saída de primeira classe no endpoint, e não um complemento, de modo que a conversão ocorre no momento em que a página é renderizada. Em segundo lugar, a solicitação é enviada a partir de uma rede real de dispositivos de consumidores que abrange mais de 195 países e cerca de 1,3 milhão de dispositivos ativos diariamente; assim, a solicitação alcança sites que rejeitam tráfego proveniente de data centers. Proxies residenciais são conexões que passam por dispositivos reais de consumidores, em vez de intervalos de endereços de data centers, e é por isso que são identificadas como visitantes comuns. Medimos essa diferença em nossa própria análise comparativa de fornecedores: os endereços IP residenciais apresentam taxas de sucesso em sites protegidos muito superiores às dos endereços IP de data centers (faixas aproximadas de cerca de 85% a 99% contra 20% a 40%). É importante ressaltar que isso deve ser considerado como uma análise comparativa de fornecedores, e não como uma pesquisa independente.

Esse acesso se torna cada vez mais importante a cada mês. Em 2025, Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA coletam dados da Internet em geral A partir de 1º de julho de 2025, começou a bloquear os rastreadores de IA por padrão em cerca de 20% da web. Consequentemente, se sua solicitação de busca não conseguir acessar a página, o pipeline de Markdown mais barato do mundo não retornará nada.

Você também pode ajustar a chamada. O endpoint de navegação oferece níveis de velocidade e um parâmetro de dificuldade, opera de forma síncrona ou assíncrona e mantém sessões persistentes por até 12 minutos na mesma saída quando uma leitura em várias etapas requer continuidade. Para leituras únicas, por outro lado, basta reduzir a solicitação e prosseguir.

Em que situações o senhor ainda precisa de um navegador de verdade?

Você ainda precisa de um navegador quando o conteúdo não existe até que algo seja executado nele. Logins, formulários com várias etapas, rolagem infinita e conteúdo restrito a JavaScript exigem, todos, um contexto de renderização ativo e interação real. O método “fetch-and-convert” retorna uma estrutura vazia nessas páginas, pois a marcação chega antes dos dados.

A regra simples que aplicamos: evite usar o navegador para tarefas apenas de leitura; recorra a ele para tarefas de leitura e gravação ou interativas. Se a sua tarefa for “ler esta página e resumir”, converta-a para Markdown. Se, por outro lado, for “fazer login, clicar em três telas e enviar”, você precisará de uma automação que execute uma sessão real. Automação do navegador é a prática de controlar programaticamente um motor de renderização real para clicar, digitar e aguardar — exatamente o que o “fetch-and-convert” não consegue fazer.

Quando o senhor ultrapassa esse limite, tanto a estrutura quanto a infraestrutura são importantes. Por exemplo, a escolha da camada de automação é uma decisão à parte, abordada em estruturas de navegador de agentes. Da mesma forma, a questão de administrar essa frota por conta própria ou comprá-la surge rapidamente, o que constitui o foco de infraestrutura de navegadores gerenciada. A árvore de decisão é simples na parte inicial: tente primeiro o Markdown e recorra ao navegador somente quando a página exigir isso.

Mais um motivo para optar pelo Markdown por padrão: esse é, de qualquer forma, o formato que sua camada de base exige. Aterramento é a prática de fornecer a um modelo um contexto em tempo real, obtido por meio de recuperação, para que suas respostas se baseiem em fontes reais, em vez de dados de treinamento desatualizados. O Markdown limpo é incorporado diretamente à recuperação e à montagem do contexto, e é por isso que ele aparece novamente em treinamento de LLMs com dados da web em tempo real. Em outras palavras, dispensar o navegador não é apenas mais econômico; isso gera exatamente o artefato que o restante do seu pipeline já espera.

Fontes

Gartner. A Gartner prevê que 40% dos aplicativos corporativos contarão com agentes de IA para tarefas específicas até 2026. 2025. https://www.gartner.com/en/newsroom/press-releases/26/08/2025 – A Gartner prevê que 40% dos aplicativos corporativos contarão com agentes de IA para tarefas específicas até 2026, um aumento em relação aos menos de 5% registrados em 2025
Imperva. Relatório sobre bots maliciosos de 2025. 2025. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
Cloudflare. A Cloudflare acaba de mudar a forma como os rastreadores de IA coletam dados da Internet em geral. 2025. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
dev.to. Ferramentas de navegador para agentes de IA – Parte 4: Ignore o navegador. 2026. https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c
Protocolo de Contexto de Modelo. Servidor de referência do MCP Fetch (repositório de servidores). 2026. https://github.com/modelcontextprotocol/servers

Perguntas frequentes

A conversão de HTML para Markdown sempre reduz os tokens em 80%?+

Não. O número de 80% é declarado pelos próprios profissionais e fornecedores, não tendo sido verificado de forma independente, e o número real depende da página. Páginas com muitos scripts geram mais economia; páginas mais enxutas, menos. Portanto, avalie dez dos seus próprios alvos para definir um orçamento no qual possa confiar.

Vou perder dados ao converter HTML para Markdown?+

Você perde o layout e o estilo, mas não o conteúdo. Títulos, links, listas e texto são preservados; scripts, CSS e elementos de interface do usuário, não. Caso precise de detalhes no nível dos atributos, como tags de dados específicas, capture o HTML bruto dessas páginas e converta todo o restante.

Por que não simplesmente carregar a página eu mesmo?+

É possível, e o servidor MCP Fetch facilita isso, até que o destino bloqueie o acesso. Como os bots representam atualmente a maior parte do tráfego da web e muitos sites bloqueiam por padrão solicitações automatizadas desconhecidas, as chamadas simples falham com frequência suficiente para que uma API de renderização em uma rede de dispositivos reais se torne a opção mais confiável.

A saída em Markdown ajuda nas visões gerais de IA ou nas tarefas de pesquisa?+

Para a leitura de páginas arbitrárias, sim. Para a recuperação de SERPs estruturadas ou respostas de IA, no entanto, um endpoint de pesquisa dedicado costuma ser mais adequado do que buscar páginas de resultados, uma vez que ele retorna os dados já analisados, em vez de deixar que você mesmo converta o HTML da pesquisa.