Qu'est-ce que le « LLM-Ready Markdown » ?
Markdown compatible avec LLM Il s'agit de contenu web converti à partir de code HTML brut en Markdown épuré, optimisé pour les fenêtres de contexte des grands modèles linguistiques (LLM) et les pipelines de génération augmentée par la recherche (RAG). En supprimant les menus de navigation, les publicités, les scripts et les balises décoratives, on ne conserve que le texte, les titres, les liens et les tableaux dont un modèle a réellement besoin. Le résultat permet d’intégrer davantage de contenu utile par token, ce qui est essentiel compte tenu des fenêtres de contexte finies que partagent tous les LLM actuels.
Pourquoi le format Markdown est-il important pour les modèles de langage de grande envergure (LLM) ?
Les pages HTML sont structurées pour les navigateurs, et non pour les modèles. Une page classique envoie des centaines d'éléments de code standard, de bannières de cookies et de styles intégrés avant même qu'une seule phrase de contenu réel n'apparaisse. Markdown élimine cette surcharge, et les titres, paragraphes, listes et blocs de code correspondent parfaitement à la structure qu'un modèle utilise pour analyser le texte.
Le format joue également un rôle important pour les systèmes RAG, qui segmentent et indexent les documents avant leur extraction. Les segments Markdown « propres » se divisent de manière prévisible au niveau des titres et des limites des listes. Les segments HTML « bruités » se divisent de manière imprévisible, coupant souvent des phrases en plein milieu d'une idée ou incluant du texte hors sujet provenant d'une barre latérale.
Les services de rendu Web génèrent à la demande du code Markdown compatible avec les grands modèles de langage (LLM). Le point de terminaison « Browsing » de Massive (/browser) accepte un format=markdown paramètre et renvoie une représentation Markdown épurée de n'importe quelle page publique, en gérant le rendu JavaScript avant la conversion.
Foire aux questions
Le HTML brut comprend l'ensemble du balisage visible par le navigateur : balises, attributs, scripts et feuilles de style. Le Markdown optimisé pour les LLM ne conserve que la structure du contenu sous forme de texte brut, avec une mise en forme minimale. Un modèle utilise ainsi beaucoup moins de tokens pour lire les mêmes informations.
Une Web Render API permet de récupérer, d'afficher et de convertir une page en une seule étape. Le point de terminaison « Browsing » de Massive renvoie format=markdown s'affichent directement, y compris les pages dont le chargement du contenu nécessite l'utilisation de JavaScript.
Oui. En Markdown standard, les liens hypertextes s'écrivent comme suit : [text](url) et les tableaux sous forme de lignes séparées par des barres verticales. Ces deux éléments sont conservés lors de la conversion du HTML en Markdown, ce qui permet aux modèles en aval et aux systèmes RAG de suivre les références et d'analyser les données tabulaires.