¿Qué es el archivo llms.txt?

llms.txt es un archivo Markdown ubicado en el directorio raíz de un sitio web (/llms.txt) que proporciona a los modelos de lenguaje a gran escala un mapa seleccionado y depurado del contenido más importante del sitio web. Propuesto por Jeremy Howard, cofundador de Answer.AI, en septiembre de 2024, este sistema existe porque las ventanas de contexto de los modelos de lenguaje a gran escala (LLM) son demasiado pequeñas para procesar un sitio web completo, y el código HTML sin procesar está repleto de elementos de navegación, anuncios y scripts que ocultan lo que el modelo realmente necesita (Answer.AI, 2024). Se trata de una propuesta de convención, no de una norma ratificada, y su adopción por parte de los sistemas de IA sigue siendo limitada.

Cómo funciona el archivo llms.txt

El formato es deliberadamente sencillo. Un archivo llms.txt válido comienza con un encabezado H1 que incluye el nombre del sitio o del proyecto (el único elemento obligatorio), seguido de una cita destacada que resume en qué consiste el sitio y, a continuación, secciones H2 opcionales, cada una de las cuales contiene una lista con viñetas de enlaces en [name](url): optional note formulario (llmstxt.org). Al tratarse de Markdown sin formato, tanto las personas como los modelos pueden leerlo sin necesidad de un analizador sintáctico específico.

La especificación también exige a los sitios web que publiquen una versión en Markdown sin formato de cada página en la misma URL con .md añadido (por ejemplo, /pricing.html.md), por lo que un modelo que siga un enlace de llms.txt accederá a «prose» en lugar de a una página HTML generada (llmstxt.org). Una convención comunitaria independiente, /llms-full.txt, concatena toda la documentación de un sitio en un único archivo. Ese nombre proviene de herramientas y usuarios como Mintlify, y no de la especificación original de Howard, que, por el contrario, define archivos de contexto generados por herramientas (Answer.AI, 2024).

llms.txt frente a robots.txt y sitemap.xml

Estos tres archivos raíz realizan funciones distintas. robots.txt controla el acceso, indicando a los rastreadores qué pueden y qué no pueden recopilar, y los principales rastreadores de IA lo respetan. sitemap.xml enumera todas las URL de un sitio web para que los motores de búsqueda puedan detectarlas e indexarlas. El archivo «llms.txt» no hace ninguna de estas dos cosas. Se trata de un subconjunto de contenido limpio, seleccionado y curado, destinado a que un modelo lo lea en el momento de la inferencia; no es una regla de acceso ni un índice exhaustivo (Search Engine Land, 2025).

Casos de uso

  • Sitios web de documentación. La solución más clara. La documentación de las herramientas de desarrollo incluye un archivo «llms.txt» para que un asistente de programación pueda obtener referencias precisas de la API en lugar de tener que adivinar. Mintlify genera automáticamente uno para los sitios de documentación que aloja, lo cual explica en parte por qué tantas herramientas para desarrolladores cuentan con uno (Ahrefs, 2026).
  • Seleccionar lo que ve un modelo. Un sitio web puede dirigir los modelos hacia las páginas canónicas y actuales, y omitir las URL duplicadas, con poco contenido o desactualizadas.
  • Carga de contexto más económica. Asignar un asistente a un archivo limpio cuesta menos tokens que proporcionarle un rastreo de código HTML renderizado.
  • Optimización de la búsqueda y las respuestas mediante inteligencia artificial. Las empresas lo adoptan con la esperanza de influir en la forma en que los asistentes resumen su marca, como parte de un esfuerzo más amplio de optimización de los motores generativos.

Buenas prácticas

En primer lugar, mantenga unas expectativas realistas. A mediados de 2026, llms.txt no es un estándar oficial y los principales sistemas de IA no han confirmado que lo utilicen. Gary Illyes, de Google, afirmó que Google «no es compatible con llms.txt y no tiene previsto serlo» (Search Engine Land, 2025), y John Mueller señaló que «ningún sistema de IA utiliza actualmente el archivo llms.txt» (Mesa redonda sobre motores de búsqueda, 2025). Ahrefs constató que, de los aproximadamente 38 000 dominios con un archivo válido, el 97 % no recibió ninguna solicitud relacionada con dicho archivo en mayo de 2026 (Ahrefs, 2026). Publique un artículo porque es barato y un contenido bien estructurado nunca viene mal, no porque garantice tráfico generado por la IA.

Cuando escriba uno:

  • Comience con un resumen conciso entre comillas y enlace únicamente a sus mejores páginas actuales.
  • Sirva un .md versión de cada página enlazada, de modo que un modelo que siga un enlace obtenga texto en prosa, y no un shell de JavaScript.
  • Manténgalo sincronizado con el sitio web. Un archivo llms.txt desactualizado es peor que no tenerlo.
  • No lo considere como un control de acceso. Si necesita permitir o bloquear los rastreadores de IA, eso sigue siendo competencia del archivo robots.txt y de sus reglas de User-Agent, no del archivo llms.txt.

El principio subyacente —según el cual los modelos funcionan mejor con Markdown limpio que con HTML sin procesar— es también la razón por la que los procesos de recuperación obtienen cada vez más las páginas en formato Markdown, en lugar de analizar un DOM renderizado. La Web Render API de Massive devuelve cualquier página pública en format=markdown Precisamente por este motivo, y tal y como indica la propia documentación de Massive, se publica un índice llms.txt, además de datos por página .md variantes.

Conclusión

El archivo «llms.txt» es una idea sensata y de bajo coste: permite a los modelos de IA procesar código Markdown limpio y seleccionado, en lugar de obligarlos a analizar todo un sitio web. Que llegue a ser un elemento fundamental dependerá de que los proveedores de IA decidan leerlo, algo que la mayoría aún no ha hecho. Considérelo una buena práctica para una web legible por la IA, no como una herramienta para mejorar el posicionamiento.

Preguntas frecuentes

No. Se trata de una propuesta de convención publicada en llmstxt.org por Jeremy Howard, de Answer.AI, en 2024. Ningún organismo de normalización la ha ratificado y ningún proveedor importante de IA la ha adoptado oficialmente (Search Engine Journal, 2026).

No hay datos confirmados al respecto a mediados de 2026. Google afirma que no utiliza ese archivo, y un estudio de Ahrefs reveló que el 97 % de los dominios con un archivo llms.txt válido no recibieron ninguna solicitud relacionada con él en mayo de 2026 (Ahrefs, 2026).

El archivo robots.txt controla qué rastreadores pueden acceder a qué rutas. El archivo llms.txt no controla el acceso en absoluto. Lo que hace es dirigir a los modelos hacia un conjunto seleccionado de contenido adecuado para su lectura; por lo tanto, utilice el archivo robots.txt, y no el llms.txt, para permitir o bloquear el acceso de los bots de IA.

Colóquelo en la raíz de su dominio como /llms.txt, escrito en Markdown: un título H1 con el nombre del sitio web, un resumen entre comillas de apertura, y a continuación secciones H2 en las que se enumeran sus enlaces principales (llmstxt.org).

Se trata, en su mayoría, de empresas tecnológicas con una gran cantidad de documentación. Anthropic, Cloudflare, Mintlify y Tinybird publican uno, y Mintlify los genera automáticamente para los sitios de documentación que aloja (Ahrefs, 2026).