Crie um servidor MCP para extração de dados da Web em tempo real
Um servidor MCP permite que qualquer agente compatível com MCP acesse suas ferramentas de dados da web por meio de um protocolo padrão. Para a extração em tempo real, você expõe um buscar ou pesquisar ferramenta cujo backend recupera páginas em tempo real e retorna dados limpos e estruturados, acompanhados dos URLs de origem. Consequentemente, o agente nunca lida com HTTP, rotação de IPs ou análise de HTML. Ele chama uma função específica e recebe o código Markdown de volta.
Essa separação é o ponto principal. A lógica do seu modelo permanece simples. A parte complicada — obter uma página não bloqueada e transformá-la em algo que um LLM possa ler — fica restrita a uma ferramenta que você controla.
Pontos principais
- Um servidor MCP disponibiliza ferramentas nomeadas (funções com esquemas) aos clientes MCP; no caso de dados da Web, as duas que normalmente são necessárias são
extract_page(url)epesquisar(consulta). - O servidor de referência oficial do MCP Fetch já busca uma URL e converte HTML para Markdown, de modo que você já tem uma base inicial funcional.
- Encaminhe a solicitação por meio de uma API de renderização e de uma rede de saída em dispositivos reais; as solicitações feitas diretamente ao IP do servidor são bloqueadas e, em 2025, os bots automatizados representavam 51% do tráfego da web, portanto, as medidas de defesa são rigorosas.
- Retorne Markdown, e não HTML bruto. Isso reduz substancialmente o custo de tokens do agente e mantém as respostas analisáveis.
- Sempre inclua os URLs de origem junto com o conteúdo, para que o agente (e sua trilha de auditoria) possa atribuir cada afirmação.
O que é um servidor MCP e quais recursos ele disponibiliza?
Um servidor MCP é um programa que disponibiliza ferramentas — funções nomeadas com esquemas tipados de entrada e saída — aos clientes MCP por meio do Model Context Protocol. Clientes como o Claude, o Cursor ou o seu próprio agente identificam essas ferramentas no momento da conexão e as chamam como se fossem funções locais. Para contextualizar, a Gartner prevê que 40% dos aplicativos corporativos contarão com agentes de IA específicos para tarefas até o final de 2026 (Gartner, 40% dos aplicativos corporativos contarão com agentes de IA para tarefas específicas até 2026(2025), por isso vale a pena definir corretamente um limite claro para a ferramenta.
Uma ferramenta (no MCP) consiste em três elementos: um nome, um esquema de entrada e um formato de retorno. Para extração da web, seu contrato pode ser extract_page(url: string) -> markdown e search(query: string) -> results[]. O agente vê apenas essas assinaturas. Tudo o que diz respeito à forma como você carrega, tenta novamente e limpa a página permanece oculto por trás delas.
Você não precisa começar do zero. O repositório oficial dos servidores MCP inclui um servidor de referência do Fetch que recebe uma URL, a recupera e converte o HTML para Markdown (modelcontextprotocol/servidores). Leia primeiro as definições das ferramentas. Elas indicam o formato de entrada e saída a ser copiado, para que você dedique seu tempo ao backend, e não à complexidade do protocolo. Este artigo se concentra em substituir esse backend por um que não seja bloqueado. Para ter uma visão mais ampla dos padrões, a rede agentiva e o WebMCP aborda os rumos que o MCP e a proposta do WebMCP do lado do navegador estão tomando.
Por que o backend de recuperação é mais importante do que o protocolo?
A camada MCP é a parte fácil. O difícil é conseguir obter uma página ativa, pois uma solicitação direta a partir do IP de um servidor é bloqueada. Em 2025, os bots automatizados representavam 51% de todo o tráfego da web, a primeira vez em uma década que os bots ultrapassaram os humanos, com os bots maliciosos representando 37% (Imperva, Relatório sobre bots maliciosos de 2025(2025). Em outras palavras, os sites ajustaram suas defesas exatamente contra o tipo de tráfego que o seu servidor emite.
A situação piorou especificamente para os agentes. Em 1º de julho de 2025, a Cloudflare passou a bloquear por padrão os rastreadores de IA em cerca de 20% da web e lançou um mercado de rastreamento pago (Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA vasculham a Internet em geral(2025). Os sites de notícias seguiram a mesma tendência: cerca de 79% dos principais sites de notícias bloqueiam atualmente os bots de treinamento de IA, e cerca de 49% proíbem especificamente o GPTBot (Press Gazette, Oito em cada dez dos maiores sites de notícias do mundo bloqueiam agora os bots de treinamento de IA(2025).
Portanto, um servidor de busca MCP simples falha nos alvos que realmente importam. A solução está no caminho de saída. Assim, encaminhe sua busca por meio de uma API de renderização em uma rede de dispositivos reais, para que a solicitação pareça ter vindo de um usuário real em um local real, e não de um intervalo de endereços de um data center que é bloqueado assim que detectado.
Como se desenvolve a ferramenta de busca?
Defina primeiro o contrato da ferramenta e, em seguida, configure seu backend para uma API de renderização. O seu extract_page A ferramenta recebe uma URL e retorna o código Markdown, além da URL de origem. Por trás disso, é chamado um endpoint de renderização que recupera a página em tempo real, executa o JavaScript e devolve diretamente o código Markdown limpo, de modo que a sua ferramenta não precisa realizar nenhuma análise de HTML por conta própria.
É aqui que se faz a conexão Massive's API de renderização da Web. Uma API de renderização é um serviço que recupera uma página, executa seu JavaScript em um navegador real e retorna o resultado final, em vez do código-fonte bruto. Seu endpoint de navegação aceita format=markdown como um resultado de primeira classe: a página é devolvida pronta para LLM, sem necessidade de extração de DOM no código da sua ferramenta. A solicitação é executada em uma rede de dispositivos reais com cerca de 1,3 milhão de dispositivos ativos diariamente em mais de 195 países; portanto, o IP de saída é de um dispositivo de consumidor real, e não de um intervalo de servidores sinalizado. Por exemplo, você pode segmentar geograficamente por país, subdivisão ou cidade quando uma página é renderizada de forma diferente por região, e manter uma sessão persistente por até 12 minutos na mesma saída com um Cookie: session=<id> cabeçalho para fluxos em várias etapas.
Em nossos testes com fornecedores, a taxa de sucesso dos IPs residenciais em sites protegidos costuma ser significativamente maior do que a dos IPs de data center (faixas aproximadas: IPs residenciais ~85-99%, IPs de data center ~20-40%). Considere isso como uma referência de fornecedor, não como uma pesquisa independente. Mesmo assim, isso explica um padrão que observamos com frequência: as equipes adotam essa solução como alternativa e, em seguida, passam a utilizá-la como principal assim que percebem a queda na taxa de bloqueio.
Retorne dados estruturados, não um blob. Cada extract_page A resposta deve incluir o corpo do Markdown e a URL de origem resolvida, para que o agente possa atribuir a responsabilidade e seus registros possam ser auditados. Para uma ferramenta do tipo mecanismo de busca, o endpoint de busca recupera resultados da SERP dos principais mecanismos de busca, com capacidade de segmentação geográfica, o que permite que o seu pesquisar(consulta) utilizar a descoberta dinâmica em vez de uma lista de URLs pré-definidas.
Por que retornar Markdown em vez de HTML bruto?
Utilize Markdown, pois ele consome muito menos tokens do que o HTML bruto e mantém a legibilidade. O HTML bruto é composto principalmente por tags, scripts e estilos desnecessários para o modelo. A conversão para Markdown elimina esse ruído e reduz substancialmente a contagem de tokens, em mais da metade em páginas comuns (dev.to, Ferramentas de navegador para agentes de IA – Parte 4: Ignore o navegador(2026). Um número menor de tokens significa menor custo e respostas mais rápidas em cada chamada de ferramenta.
Há também uma questão de qualidade. Os modelos funcionam melhor com títulos e listas em Markdown bem organizados do que com uma profusão de divs aninhadas. Na prática, você gasta menos recursos e obtém uma extração mais confiável ao mesmo tempo. As vantagens e desvantagens do Markdown, e quanto ele realmente economiza, são abordadas em evitar o uso do navegador para reduzir os custos com tokens de agente, que vale a pena ler antes de se decidir por um formato de saída.
Como a API Web Render retorna format=markdown diretamente, sua ferramenta MCP realiza a conversão no backend, e não no contexto do agente. Consequentemente, o agente recebe o Markdown já processado e utiliza seu orçamento de tokens para o raciocínio, e não para analisar uma mistura de tags.
Como se testa a ferramenta a partir de um agente?
Faça o teste conectando o servidor a um cliente MCP real e observando o tempo de resposta da ferramenta. Configure seu agente (Claude Desktop, Cursor ou um cliente personalizado) para carregar o servidor e confirme extract_page e pesquisar aparecer na lista de ferramentas, solicite que ele carregue uma página ativa. Verifique se a resposta está no formato Markdown, contém a URL de origem e foi recebida sem bloqueios.
Escolha alvos difíceis propositalmente. Teste em um site com uso intenso de JavaScript e em uma página conhecida por bloquear bots, já que páginas fáceis ocultam as falhas que você criou este backend para evitar. Pelo que observamos nas cargas de trabalho dos agentes, o primeiro alvo difícil é onde a maioria dos servidores mais simples falha discretamente. Em comparação, uma ferramenta de busca com renderização resiste. Verifique também se a segmentação geográfica funciona solicitando a mesma URL de dois países e confirmando se o conteúdo difere onde deveria.
Assim que a ferramenta de busca estiver consolidada, ela passa a ser a camada de recuperação para sistemas maiores. A mesma ferramenta que alimenta um agente pode alimentar um fluxo de recuperação que se mantém atualizado, o que é exatamente o que Criação de um pipeline RAG com dados da web em tempo real baseia-se em uma ferramenta de recuperação em tempo real como esta.
Fontes
- Imperva, Relatório sobre bots maliciosos de 2025, 2025. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
- Cloudflare, A Cloudflare acaba de mudar a forma como os rastreadores de IA vasculham a Internet em geral, 2025. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
- Press Gazette, Oito em cada dez dos maiores sites de notícias do mundo bloqueiam agora os bots de treinamento de IA, 2025. https://pressgazette.co.uk/platforms/eight-in-ten-of-worlds-biggest-news-websites-now-block-ai-training-bots/
- Gartner, 40% dos aplicativos corporativos contarão com agentes de IA para tarefas específicas até 2026, 2025. https://www.gartner.com/en/newsroom/press-releases/26/08/2025 – A Gartner prevê que 40% dos aplicativos corporativos contarão com agentes de IA para tarefas específicas até 2026, um aumento em relação aos menos de 5% registrados em 2025
- dev.to, Ferramentas de navegador para agentes de IA – Parte 4: Ignore o navegador, 2026. https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c
- dev.to, Crie um servidor MCP para extração de dados da Web em tempo real, 2026. https://dev.to/alterlab/build-an-mcp-server-for-real-time-web-data-extraction-3725
- Protocolo de Contexto de Modelo, Servidores oficiais do MCP (servidor de referência do Fetch). https://github.com/modelcontextprotocol/servers
Frequently Asked Questions
Preciso desenvolver um servidor MCP do zero?
Não. Comece pelo servidor de referência oficial do Fetch no repositório dos servidores MCP. Ele já lida com a obtenção de URLs e a conversão de HTML para Markdown; portanto, basta copiar sua estrutura e substituir o backend por uma API de renderização que não seja bloqueada.
Por que não simplesmente recuperar a URL diretamente no código da minha ferramenta?
As solicitações de IP do servidor são bloqueadas em sites protegidos. Em 2025, os bots representavam 51% do tráfego da web, e a Cloudflare passou a bloquear rastreadores de IA por padrão em cerca de 20% da web; assim, as solicitações diretas falham nos alvos que são importantes para você. Uma rota de saída por dispositivo real evita isso.
O que a ferramenta realmente retorna?
Markdown limpo, juntamente com a URL de origem resolvida, retornado como dados estruturados. O Markdown mantém o custo dos tokens baixo, e a URL de origem permite que o agente atribua reivindicações e que você audite cada chamada.
Devo apresentar uma ferramenta ou várias?
Normalmente, dois: extract_page(url) para uma página conhecida e pesquisar(consulta) para facilitar a descoberta. Mantenha o esquema de cada ferramenta simples e o formato do resultado previsível, para que qualquer cliente MCP possa chamá-las sem necessidade de tratamento especial.
