O que é o llms.txt?
llms.txt é um arquivo Markdown localizado na raiz de um site (/llms.txt) que fornece aos grandes modelos de linguagem um mapa organizado e limpo do conteúdo mais importante do site. Proposta pelo cofundador da Answer.AI, Jeremy Howard, em setembro de 2024, ela existe porque as janelas de contexto dos LLMs são pequenas demais para processar um site inteiro, e o HTML bruto está repleto de elementos de navegação, anúncios e scripts que ocultam o que o modelo realmente precisa (Answer.AI, 2024). Trata-se de uma convenção proposta, e não de uma norma ratificada, e sua adoção por sistemas de IA continua sendo limitada.
Como funciona o llms.txt
O formato é deliberadamente simples. Um arquivo llms.txt válido começa com um H1 contendo o nome do site ou do projeto (o único elemento obrigatório), seguido por uma citação em bloco que resume o que é o site e, em seguida, seções H2 opcionais, cada uma contendo uma lista com marcadores de links em [name](url): optional note formulário (llmstxt.org). Por se tratar de Markdown puro, tanto pessoas quanto modelos podem lê-lo sem a necessidade de um analisador especial.
A especificação também solicita que os sites publiquem uma versão em Markdown simples de cada página no mesmo URL com .md anexado (por exemplo, /pricing.html.md), de modo que um modelo que acesse um link do arquivo llms.txt seja direcionado para o prose em vez de uma página HTML renderizada (llmstxt.org). Uma convenção comunitária separada, /llms-full.txt, concatena toda a documentação de um site em um único arquivo. Esse nome provém de ferramentas e usuários como o Mintlify, e não da especificação original de Howard, que, ao contrário, define arquivos de contexto gerados por ferramentas (Answer.AI, 2024).
llms.txt x robots.txt e sitemap.xml
Esses três arquivos raiz desempenham funções diferentes. robots.txt controla o acesso, indicando aos rastreadores o que eles podem ou não acessar, e os principais rastreadores de IA respeitam essa regra. sitemap.xml lista todas as URLs de um site para que os mecanismos de busca possam descobri-las e indexá-las. O llms.txt não faz nenhuma dessas coisas. Trata-se de um subconjunto selecionado e cuidadosamente escolhido de conteúdo limpo, destinado a ser lido por um modelo no momento da inferência, não uma regra de acesso nem um índice exaustivo (Search Engine Land, 2025).
Casos de uso
- Sites de documentação. A solução mais adequada. A documentação das ferramentas de desenvolvimento disponibiliza um arquivo llms.txt para que um assistente de programação possa obter referências precisas da API, em vez de ter que adivinhar. O Mintlify gera automaticamente um arquivo desse tipo para os sites de documentação que hospeda, o que explica, em parte, por que tantas ferramentas de desenvolvimento possuem um (Ahrefs, 2026).
- Selecionar o que um modelo vê. Um site pode direcionar os modelos para as páginas canônicas e atuais, deixando de lado URLs duplicadas, com conteúdo insuficiente ou desatualizadas.
- Carregamento de contexto mais econômico. Desviar um assistente para um arquivo limpo custa menos tokens do que alimentá-lo com um rastreamento de HTML renderizado.
- Otimização da pesquisa e das respostas com IA. As equipes adotam essa estratégia na esperança de influenciar a forma como os assistentes resumem sua marca, como parte de um esforço mais amplo de otimização do mecanismo generativo.
Melhores práticas
Primeiro, mantenha as expectativas realistas. Até meados de 2026, o llms.txt não é um padrão oficial e os principais sistemas de IA ainda não confirmaram que o utilizarão. Gary Illyes, do Google, afirmou que o Google “não oferece suporte ao llms.txt e não tem planos de fazê-lo” (Search Engine Land, 2025), e John Mueller observou que “nenhum sistema de IA utiliza atualmente o llms.txt” (Mesa Redonda sobre Mecanismos de Busca, 2025). A Ahrefs constatou que, dos cerca de 38.000 domínios com um arquivo válido, 97% não receberam nenhuma solicitação para esse arquivo em maio de 2026 (Ahrefs, 2026). Publique um artigo porque é barato e um conteúdo bem elaborado nunca é demais, e não porque isso garanta tráfego proveniente de IA.
Quando o senhor escrever um:
- Comece com um resumo conciso em citação e inclua links apenas para suas melhores páginas atuais.
- Faça um saque preciso
.mdversão de cada página vinculada, de modo que um modelo que siga um link receba texto, e não um shell de JavaScript. - Mantenha-o sincronizado com o site. Um arquivo llms.txt desatualizado é pior do que nenhum.
- Não trate isso como controle de acesso. Se precisar permitir ou bloquear rastreadores de IA, isso ainda deve ser feito no arquivo robots.txt e nas suas regras de User-Agent, e não no llms.txt.
O princípio subjacente — de que os modelos funcionam melhor com Markdown limpo do que com HTML bruto — também explica por que os pipelines de recuperação cada vez mais buscam páginas no formato Markdown, em vez de analisar um DOM renderizado. A Web Render API da Massive retorna qualquer página pública em format=markdown exatamente por esse motivo, e a própria documentação da Massive disponibiliza um índice llms.txt, além de informações por página .md variantes.
Conclusão
O llms.txt é uma ideia sensata e de baixo custo: permitir que os modelos analisem um Markdown limpo e bem organizado, em vez de obrigá-los a analisar um site inteiro. Se ele se tornará um elemento essencial depende da decisão dos provedores de IA de lê-lo, o que a maioria ainda não fez. Considere-o como uma boa prática para uma web legível por IA, e não como um fator de classificação.
Perguntas frequentes
Não. Trata-se de uma convenção proposta, publicada no site llmstxt.org por Jeremy Howard, da Answer.AI, em 2024. Nenhum órgão de padronização a ratificou e nenhum grande provedor de IA a adotou formalmente (Search Engine Journal, 2026).
Não há nenhuma confirmação a esse respeito até meados de 2026. O Google afirma que não utiliza o arquivo, e um estudo da Ahrefs constatou que 97% dos domínios com um arquivo llms.txt válido não receberam nenhuma solicitação relacionada a ele em maio de 2026 (Ahrefs, 2026).
O arquivo robots.txt controla quais rastreadores podem acessar quais caminhos. O arquivo llms.txt não controla o acesso de forma alguma. Ele direciona os modelos para um conjunto selecionado de conteúdo adequado para leitura; portanto, utilize o robots.txt, e não o llms.txt, para permitir ou bloquear bots de IA.
Coloque-o na raiz do seu domínio da seguinte forma: /llms.txt, escrito em Markdown: um título H1 com o nome do site, um resumo em blockquote e, em seguida, seções H2 listando seus principais links (llmstxt.org).
Em sua maioria, empresas de tecnologia com grande volume de documentação. A Anthropic, a Cloudflare, a Mintlify e a Tinybird publicam um, e a Mintlify os gera automaticamente para os sites de documentação que hospeda (Ahrefs, 2026).