Évitez le navigateur : comment la conversion HTML vers Markdown réduit les coûts liés aux jetons d'agent de 80 %
Pour la plupart des tâches d'agent en lecture seule, vous n'avez absolument pas besoin d'un navigateur complet. Récupérez la page, convertissez-la en Markdown épuré, puis transmettez-la au modèle. En supprimant le balisage, les scripts et les styles avant que le modèle ne lise quoi que ce soit, vous éliminez le bruit dont le modèle n'a jamais besoin. Vous réduisez ainsi votre nombre de tokens, souvent de plus de moitié.
L'erreur consiste à considérer chaque tâche Web comme un problème d'automatisation du navigateur. Lire une page de documentation, récupérer un article ou extraire les caractéristiques d'un produit relève d'un problème de récupération et de conversion. On ne se tourne vers le navigateur que lorsque la page pose problème.
Points à retenir
- Pour les tâches en lecture seule, récupérez le contenu et convertissez-le au format Markdown plutôt que d'ouvrir un navigateur.
- Le code HTML brut gaspille des jetons pour le balisage, les scripts intégrés, les styles et les éléments standard que le modèle ignore.
- Les professionnels font état de réductions symboliques d'environ 80 % grâce à cette conversion ; vérifiez par vous-même en mesurant vos propres pages avant de vous fier à un chiffre quelconque.
- Utilisez le serveur de référence MCP Fetch ou une API de rendu qui renvoie directement du Markdown.
- Utilisez un véritable navigateur pour les connexions, les contenus accessibles via JavaScript et les flux interactifs.
Cet article fait partie d'un guide plus complet sur la manière de donner aux agents IA un accès en temps réel au Web. Nous nous concentrons ici sur la solution la plus économique : évitez d'utiliser le navigateur lorsque c'est possible.
Pourquoi le code HTML brut consomme-t-il autant de tokens ?
Le code HTML brut contient une grande quantité de données dont le modèle n'a pas besoin. Conversion HTML vers Markdown Il s'agit de l'étape qui élimine les balises, les scripts intégrés, les blocs de style, les pixels de suivi, les éléments de navigation et le contenu standard du pied de page, pour ne conserver que le contenu lisible. Le modèle facture chacun de ces éléments supprimés lors de l'entrée. De plus, ce coût est réitéré à chaque page, à chaque exécution, pour chaque agent de votre parc.
Prenons l'exemple d'une page d'article classique. Le texte qui vous intéresse peut compter quelques milliers de mots. Le code HTML qui l'entoure, en revanche, contient <div> l'imbrication, les « class soup », les extraits d'analyse et les structures ad-tech qui prennent souvent le pas sur le contenu. Si vous introduisez tout cela directement dans une fenêtre contextuelle, vous gaspillez votre budget dans une structure que le modèle finira de toute façon par ignorer.
Le Markdown, en revanche, conserve le contenu et élimine le superflu. Les titres restent des titres, les liens restent des liens et les listes restent des listes. Tout le reste – les scripts, les styles, les éléments de mise en page – disparaît. Vous obtenez le sens, pas la mécanique.
L'ampleur du phénomène est importante, car les agents seront bientôt omniprésents. Gartner prévoit qu'en 2025, Gartner, Selon Gartner, 40 % des applications d'entreprise intégreront des agents IA spécialisés d'ici 2026 D'ici fin 2026, 40 % des applications d'entreprise intégreraient des agents IA dédiés à des tâches spécifiques, contre moins de 5 % en 2025. Par conséquent, lorsque tant d'agents parcourent le Web, le gaspillage de tokens par page finit par représenter un poste de dépense non négligeable.
À quel point la conversion HTML vers Markdown permet-elle réellement de gagner du temps ?
Les économies réalisées sont importantes, mais varient en fonction du nombre de pages ; considérez donc tout chiffre avancé comme un point de départ, et non comme une garantie. Selon dev.to, les professionnels font état de réductions d'environ 80 % obtenues en convertissant le code HTML en Markdown avant que le modèle ne le lise, Outils de navigation pour les agents IA, 4e partie : Passer outre le navigateur (2026). Ce chiffre est fourni par les professionnels et les fournisseurs eux-mêmes ; il n’a pas fait l’objet d’une vérification indépendante. Il convient donc de le classer dans la colonne « hypothèses » plutôt que dans votre budget. Par exemple, une page riche en contenu mais utilisant un balisage léger permettra de gagner moins de poids qu’une coque d’application surchargée de scripts qui ne cache qu’un seul paragraphe de texte réel. Les deux s'allègent, mais le rapport varie fortement en fonction de la page. Mesurez donc vos propres cibles. Nous avons compté les tokens de cette manière sur des pages représentatives : prenez-en dix, comptez les tokens pour la version HTML brute et la version Markdown, puis observez l'écart. Lors de nos tests, vous constaterez généralement des réductions bien supérieures à la moitié, parfois bien plus. Cependant, le seul chiffre qui compte pour votre budget est celui que vous avez mesuré sur vos propres pages. Basez votre modèle de coûts sur cela, et non sur un titre.
Cette habitude s'avère doublement payante. D'une part, vous réduisez dès aujourd'hui le nombre de jetons d'entrée. D'autre part, vous établissez une base de référence qui permet de signaler les régressions lorsque le site cible modifiera sa mise en page au trimestre prochain. D'après notre expérience dans le domaine des charges de travail des agents, cette base de référence fait toute la différence entre repérer un pic de coûts sur un tableau de bord et le découvrir sur une facture.
Comment convertir du code HTML en Markdown dans un pipeline d'agent ?
Deux approches couvrent la plupart des cas : un outil de récupération et de conversion intégré à votre agent, ou une API de rendu qui renvoie directement du Markdown. Les deux éliminent les mêmes éléments parasites. La différence réside dans l'identité de celui qui effectue la récupération et dans la manière dont il gère les sites qui résistent à l'accès automatisé.
Option 1 : le serveur de référence MCP Fetch
Le point d'entrée le plus simple est le serveur de référence MCP Fetch, qui récupère une URL et convertit le code HTML en Markdown en une seule étape. Il est fourni dans la version officielle Référentiel des serveurs du protocole Model Context, de sorte que tout agent compatible MCP peut l'utiliser comme outil. Pour les documents internes, les articles publics et les sites qui ne bloquent pas les robots, cela suffit souvent.
Le problème, c'est l'accès. Une simple requête est envoyée depuis l'adresse IP de votre serveur, et une part croissante du Web considère désormais le trafic automatisé inconnu comme hostile. En 2025, Imperva, Rapport 2025 sur les robots malveillants Une étude a révélé que les robots automatisés représentaient 51 % de l'ensemble du trafic web en 2024, marquant la première fois en dix ans que les robots dépassaient les humains, les robots malveillants représentant quant à eux 37 %. Par conséquent, les systèmes de défense conçus pour gérer un tel volume bloqueront souvent une requête « naked fetch » avant même que vous ne puissiez récupérer le code HTML à convertir.
Option 2 : une API de rendu qui renvoie du Markdown
Si la cible ne prend pas en charge une requête simple, redirigez la requête vers une infrastructure conçue pour contourner ce blocage et demandez-lui de renvoyer directement du code Markdown. L'API Web Render de Massive expose un point de terminaison de navigation avec format=markdown, de sorte que la page s'affiche prête à l'utilisation en un seul appel. Pas d'étape de récupération distincte, pas de convertisseur côté client à gérer, pas de code HTML stocké en mémoire.
Deux éléments rendent cette solution viable à grande échelle. Premièrement, Markdown est un format de sortie à part entière sur le point de terminaison, et non un simple module complémentaire ; la conversion s'effectue donc au moment même où la page est affichée. Deuxièmement, la requête provient d'un véritable réseau d'appareils grand public couvrant plus de 195 pays et comptant environ 1,3 million d'appareils actifs par jour ; la requête atteint ainsi les sites qui rejettent le trafic provenant des centres de données. Proxys résidentiels Il s'agit de connexions qui transitent par de véritables appareils grand public plutôt que par des plages d'adresses de centres de données, ce qui explique pourquoi elles sont perçues comme des visiteurs ordinaires. Nous avons mesuré cet écart dans notre propre analyse comparative des fournisseurs : les adresses IP résidentielles affichent des taux de réussite sur les sites protégés bien supérieurs à ceux des adresses IP de centres de données (environ 85 à 99 % contre 20 à 40 %). Il convient de noter qu’il s’agit là d’une analyse comparative des fournisseurs, et non d’une étude indépendante.
Cet accès revêt une importance croissante chaque mois. En 2025, Cloudflare, Cloudflare vient de révolutionner la manière dont les robots d'indexation basés sur l'IA explorent l'Internet dans son ensemble a commencé à bloquer par défaut les robots d'indexation IA sur environ 20 % du Web à compter du 1er juillet 2025. Par conséquent, si votre requête ne parvient pas à accéder à la page, le pipeline Markdown le moins cher au monde ne renvoie aucun résultat.
Vous pouvez également paramétrer l'appel. Le point de terminaison de navigation propose différents niveaux de vitesse et un paramètre de difficulté, fonctionne en mode synchrone ou asynchrone, et maintient des sessions persistantes jusqu'à 12 minutes sur la même sortie lorsqu'une lecture en plusieurs étapes nécessite une continuité. Pour les lectures ponctuelles, en revanche, il suffit de réduire la charge de la requête et de passer à autre chose.
Dans quels cas a-t-on encore besoin d'un véritable navigateur ?
Vous avez tout de même besoin d'un navigateur lorsque le contenu n'existe pas tant qu'aucun élément ne s'est encore exécuté dans celui-ci. Les connexions, les formulaires en plusieurs étapes, le défilement infini et le contenu accessible uniquement via JavaScript nécessitent tous un contexte de rendu en temps réel et une interaction réelle. La méthode « fetch-and-convert » renvoie une page vide sur ces pages, car le balisage arrive avant les données.
Voici la règle simple que nous appliquons : évitez le navigateur pour les tâches en lecture seule, et utilisez-le pour celles en lecture-écriture ou interactives. Si votre tâche consiste à « lire cette page et en faire un résumé », convertissez-la au format Markdown. En revanche, s'il s'agit de « vous connecter, cliquer sur trois écrans et valider », vous aurez besoin d'un automatisme capable de gérer une véritable session. Automatisation des navigateurs Il s'agit de la pratique consistant à piloter par programmation un véritable moteur de rendu pour effectuer des clics, saisir du texte et attendre, ce que la méthode « fetch-and-convert » ne permet justement pas de faire.
Lorsque vous franchissez cette étape, le cadre et l'infrastructure revêtent tous deux une importance particulière. Par exemple, le choix de la couche d'automatisation est une décision à part entière, abordée dans cadres de navigation pour agents. De même, la question de savoir s’il vaut mieux gérer soi-même cette flotte ou l’acheter se pose rapidement, ce qui est le sujet central de infrastructure de navigation gérée. Le schéma de décision est simple au départ : essayez d'abord le Markdown, et passez au navigateur uniquement si la page vous y oblige.
Une raison de plus d'opter par défaut pour Markdown : c'est de toute façon le format que votre couche de base requiert. Mise à la terre Il s'agit de la pratique consistant à fournir au modèle un contexte en temps réel, issu de la recherche, afin que ses réponses s'appuient sur des sources réelles plutôt que sur des données d'entraînement obsolètes. Le Markdown propre alimente directement la recherche et l'assemblage du contexte, ce qui explique pourquoi il réapparaît dans Entraînement des modèles de langage de grande envergure (LLM) à partir de données Web en temps réel. En d'autres termes, le fait de ne pas passer par le navigateur n'est pas seulement plus économique ; cela produit exactement le résultat attendu par le reste de votre pipeline.
Sources
- Gartner. Selon Gartner, 40 % des applications d'entreprise intégreront des agents IA spécialisés d'ici 2026. 2025. https://www.gartner.com/en/newsroom/press-releases/26/08/2025 - Gartner prévoit que 40 % des applications d'entreprise intégreront des agents IA dédiés à des tâches spécifiques d'ici 2026, contre moins de 5 % en 2025
- Imperva. Rapport 2025 sur les robots malveillants. 2025. https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
- Cloudflare. Cloudflare vient de révolutionner la manière dont les robots d'indexation basés sur l'IA explorent l'Internet dans son ensemble. 2025. https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
- dev.to. Outils de navigation pour les agents IA, 4e partie : se passer du navigateur. 2026. https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c
- Protocole de contexte de modèle. Serveur de référence MCP Fetch (dépôt de serveurs). 2026. https://github.com/modelcontextprotocol/servers
Frequently Asked Questions
La conversion HTML vers Markdown réduit-elle toujours le nombre de tokens de 80 % ?
Non. Ce chiffre de 80 % est issu des déclarations des professionnels et des fournisseurs ; il n'a pas fait l'objet d'une vérification indépendante, et le chiffre réel varie en fonction de la page. Les pages riches en scripts permettent de réaliser davantage d'économies, tandis que les pages plus légères en permettent moins. Par conséquent, mesurez dix de vos propres cibles afin de définir un budget fiable.
Vais-je perdre des données en convertissant du HTML en Markdown ?
Vous perdez la mise en page et le style, mais pas le contenu. Les titres, les liens, les listes et le texte sont conservés ; les scripts, les feuilles de style CSS et les éléments d'interface utilisateur ne le sont pas. Si vous avez besoin de détails au niveau des attributs, comme des balises de données spécifiques, enregistrez le code HTML brut de ces pages et convertissez tout le reste.
Pourquoi ne pas simplement aller chercher la page moi-même ?
C'est tout à fait possible, et le serveur MCP Fetch vous facilite la tâche, jusqu'à ce que le site cible vous bloque. Les robots générant désormais la majeure partie du trafic web et de nombreux sites bloquant par défaut les requêtes automatisées provenant de sources inconnues, les requêtes simples échouent suffisamment souvent pour qu'une API de rendu sur un réseau d'appareils réels devienne la solution la plus fiable.
La sortie au format Markdown est-elle utile pour les résumés générés par l'IA ou les tâches de recherche ?
Pour consulter des pages au hasard, oui. En revanche, pour l'extraction de résultats SERP structurés ou de réponses générées par l'IA, un point de terminaison de recherche dédié est généralement plus adapté que la récupération de pages de résultats, car il renvoie les données déjà analysées au lieu de vous obliger à convertir le code HTML des résultats de recherche.
