Qu'est-ce que le fichier llms.txt ?

llms.txt est un fichier Markdown placé à la racine d'un site web (/llms.txt) qui fournit aux grands modèles linguistiques une vue d'ensemble soigneusement sélectionnée et épurée des contenus les plus importants du site. Proposée par Jeremy Howard, cofondateur d’Answer.AI, en septembre 2024, cette solution a été mise au point car les fenêtres de contexte des LLM sont trop petites pour ingérer un site web dans son intégralité, et le code HTML brut regorge d’éléments de navigation, de publicités et de scripts qui masquent ce dont un modèle a réellement besoin (Answer.AI, 2024). Il s'agit d'une proposition de convention, et non d'une norme ratifiée, et son adoption par les systèmes d'IA reste limitée.

Fonctionnement du fichier llms.txt

Le format est volontairement simple. Un fichier llms.txt valide commence par une balise H1 indiquant le nom du site ou du projet (l'élément obligatoire), suivie d'une citation encadrée qui résume la nature du site, puis de sections H2 facultatives contenant chacune une liste à puces de liens dans [name](url): optional note formulaire (llmstxt.org). Comme il s'agit de Markdown standard, il est lisible aussi bien par les humains que par les modèles, sans avoir besoin d'un analyseur syntaxique spécifique.

La spécification demande également aux sites de publier une version Markdown épurée de chaque page à la même URL, avec .md ajouté (par exemple, /pricing.html.md), de sorte qu'un modèle qui suit un lien figurant dans le fichier llms.txt aboutit à du texte en prose plutôt qu'à une page HTML générée (llmstxt.org). Une convention communautaire distincte, /llms-full.txt, regroupe l'intégralité de la documentation d'un site dans un seul fichier. Ce nom provient d'outils et d'utilisateurs tels que Mintlify, et non de la spécification originale d'Howard, qui définit plutôt des fichiers de contexte générés par des outils (Answer.AI, 2024).

llms.txt, robots.txt et sitemap.xml

Ces trois fichiers racine remplissent des fonctions différentes. robots.txt contrôle l'accès, en indiquant aux robots d'indexation ce qu'ils sont autorisés ou non à récupérer, et les principaux robots d'indexation respectent ces règles. sitemap.xml répertorie toutes les URL d'un site afin que les moteurs de recherche puissent les découvrir et les indexer. llms.txt ne fait ni l'un ni l'autre. Il s'agit d'un sous-ensemble de contenu « propre », sélectionné avec soin et trié manuellement, destiné à être lu par un modèle au moment de l'inférence ; ce n'est ni une règle d'accès, ni un index exhaustif (Search Engine Land, 2025).

Cas d'usage

  • Sites de documentation. La solution la plus évidente. La documentation des outils de développement met à disposition un fichier llms.txt afin qu’un assistant de codage puisse extraire des références API précises au lieu de deviner. Mintlify en génère automatiquement un pour les sites de documentation qu’il héberge, ce qui explique en partie pourquoi tant d’outils de développement en disposent (Ahrefs, 2026).
  • Choisir ce que voit un mannequin. Un site peut orienter les modèles vers les pages canoniques et à jour, et exclure les URL en double, peu riches en contenu ou obsolètes.
  • Chargement du contexte plus économique. Confier à un assistant l'analyse d'un fichier propre coûte moins de jetons que de lui fournir un crawl de code HTML rendu.
  • Optimisation de la recherche et des réponses grâce à l'IA. Les équipes l'adoptent dans l'espoir d'influencer la manière dont les assistants présentent leur marque, dans le cadre d'une démarche plus large d'optimisation des moteurs génératifs.

Bonnes pratiques

Commencez par garder les pieds sur terre. À la mi-2026, le format llms.txt n'est pas encore une norme officielle et les principaux systèmes d'IA n'ont pas confirmé qu'ils l'utiliseraient. Gary Illyes, de Google, a déclaré que Google « ne prend pas en charge le format llms.txt et n'envisage pas de le faire » (Search Engine Land, 2025), et John Mueller a fait remarquer qu’« aucun système d’IA n’utilise actuellement le fichier llms.txt » (Table ronde sur les moteurs de recherche, 2025). Ahrefs a constaté que, sur environ 38 000 domaines disposant d'un fichier valide, 97 % n'ont reçu aucune requête concernant ce fichier en mai 2026 (Ahrefs, 2026). Publiez-en un, car un contenu peu coûteux et bien rédigé ne fait jamais de mal, et non parce qu’il garantit un trafic généré par l’IA.

Lorsque vous en rédigez un :

  • Commencez par un résumé concis sous forme de citation et n'insérez des liens que vers vos meilleures pages, celles qui sont à jour.
  • Servez un verre de .md version de chaque page liée, afin qu'un modèle qui suit un lien accède à du texte, et non à une interface JavaScript.
  • Veillez à ce qu'il soit synchronisé avec le site. Un fichier llms.txt obsolète est pire que pas de fichier du tout.
  • Ne considérez pas cela comme un contrôle d'accès. Si vous devez autoriser ou bloquer des robots d'exploration basés sur l'IA, cela relève toujours du fichier robots.txt et de vos règles User-Agent, et non du fichier llms.txt.

Le principe sous-jacent, selon lequel les modèles fonctionnent mieux avec du Markdown « propre » qu’avec du HTML brut, explique également pourquoi les pipelines de récupération extraient de plus en plus souvent les pages au format Markdown plutôt que d’analyser un DOM rendu. La Web Render API de Massive renvoie n’importe quelle page publique au format format=markdown C'est précisément pour cette raison que la documentation de Massive publie un fichier d'index llms.txt ainsi que des informations par page .md variantes.

Conclusion

Le fichier « llms.txt » est une idée judicieuse et peu coûteuse : il permet aux modèles d'IA d'analyser du code Markdown propre et soigneusement sélectionné, plutôt que de leur faire analyser l'intégralité d'un site. Son efficacité dépendra de la décision des fournisseurs d'IA de l'utiliser, ce que la plupart n'ont pas encore fait. Considérez-le comme une bonne pratique pour un Web lisible par l'IA, et non comme un levier d'optimisation pour le référencement.

Foire aux questions

Non. Il s'agit d'une proposition de convention publiée sur llmstxt.org par Jeremy Howard, d'Answer.AI, en 2024. Aucun organisme de normalisation ne l'a ratifiée et aucun grand fournisseur d'IA ne l'a officiellement adoptée (Search Engine Journal, 2026).

Cela n'a pas été confirmé à la mi-2026. Google affirme ne pas utiliser ce fichier, et une étude d'Ahrefs a révélé que 97 % des domaines disposant d'un fichier llms.txt valide n'avaient reçu aucune requête le concernant en mai 2026 (Ahrefs, 2026).

Le fichier robots.txt permet de contrôler quels robots d'indexation peuvent accéder à quels chemins d'accès. Le fichier llms.txt ne contrôle en rien l'accès. Il oriente les modèles vers un ensemble sélectionné de contenus appropriés à lire ; par conséquent, utilisez le fichier robots.txt, et non le fichier llms.txt, pour autoriser ou bloquer les robots IA.

Placez-le à la racine de votre domaine comme suit : /llms.txt, rédigé en Markdown : un titre H1 indiquant le nom du site, un résumé sous forme de citation en bloc, puis des sections H2 énumérant vos liens clés (llmstxt.org).

Il s'agit principalement d'entreprises technologiques qui accordent une grande importance à la documentation. Anthropic, Cloudflare, Mintlify et Tinybird en publient une, et Mintlify les génère automatiquement pour les sites de documentation qu'elle héberge (Ahrefs, 2026).