什么是 llms.txt？

Q: llms.txt 应该放在哪里？它的格式是什么？

将其放置在您的域名根目录下，格式如下：/llms.txt，采用 Markdown 格式编写：一个 H1 级别的网站名称、一段引文摘要，然后是列出关键链接的 H2 级章节（llmstxt.org).

llms.txt 是一个位于网站根目录下的 Markdown 文件（/llms.txt) 该功能为大型语言模型提供了经过精心筛选、内容纯净的网站核心内容地图。该方案由Answer.AI联合创始人杰里米·霍华德（Jeremy Howard）于2024年9月提出，其存在的原因在于：大型语言模型（LLM）的上下文窗口过小，无法摄入整个网站的内容；而原始HTML中充斥着导航、广告和脚本，这些内容会掩盖模型真正需要的信息（Answer.AI（2024年）。这是一项拟议的公约，而非已获批准的标准，目前人工智能系统对其的采用仍较为有限。

llms.txt 的工作原理

该格式刻意设计得十分简单。一个有效的 llms.txt 文件以一个 H1 标签开头，其中包含网站或项目名称（这是唯一必需的元素），随后是一个 blockquote 标签，用于概述该网站的性质，接着是可选的 H2 章节，每个章节都包含一个带项目符号的链接列表，位于[name](url): optional note 表单 (llmstxt.org). 由于这是纯 Markdown 格式，无论是人还是模型都能直接阅读，无需特殊的解析器。

该规范还要求网站在同一URL下发布每页的纯Markdown版本，并附带.md 附加（例如，/pricing.html.md)，因此，当模型点击 llms.txt 中的链接时，会跳转到散文页面，而不是渲染后的 HTML 页面（llmstxt.org). 另一场社区大会，/llms-full.txt, 将一个站点的完整文档合并为一个文件。该名称源自Mintlify等工具及其用户，而非霍华德的原始规范——该规范实际上定义的是由工具生成的上下文文件（Answer.AI, 2024）。

llms.txt 与 robots.txt 及 sitemap.xml

这三个根文件各自承担不同的任务。robots.txt 控制访问权限，告知爬虫哪些内容可以抓取、哪些不能抓取，而主要的人工智能爬虫都会遵守这一规则。sitemap.xml 列出了网站上的所有 URL，以便搜索引擎能够发现并将其收录。而 llms.txt 既不具备上述功能，也不是一个详尽的索引。它是一组经过精心筛选、手工挑选的干净内容子集，旨在供模型在推理时读取，既不是访问规则，也不是详尽的索引（Search Engine Land, 2025）。

使用场景

文档网站。 最契合的方案。开发者工具文档会提供一个 llms.txt 文件，这样编码助手就能获取准确的 API 参考信息，而不是靠猜测。Mintlify 会为其托管的文档网站自动生成该文件，这也是为何如此多的开发者工具都包含该文件的原因之一（Ahrefs, 2026)。
策划模型所看到的画面。 网站可以将模型指向规范的、最新的页面，并排除重复、内容贫乏或过时的URL。
更经济的上下文加载。 让助手处理一个干净的文件所需的代币数量，比让它处理渲染后的HTML爬取结果所需的代币数量要少。
AI搜索与答复优化。 各团队采用该技术，希望借此影响助手对自身品牌的概括方式，这也是更广泛的生成式引擎优化工作的一部分。

最佳实践

首先，要保持合理的预期。截至2026年年中，llms.txt尚未成为官方标准，各大AI系统也尚未确认会采用该标准。谷歌的加里·伊利耶斯（Gary Illyes）表示，谷歌“不支持llms.txt，也没有计划支持”（Search Engine Land（2025年），约翰·穆勒指出，“目前没有人工智能系统使用 llms.txt”（搜索引擎圆桌会议（2025年）。Ahrefs发现，在约38,000个拥有有效文件的域名中，97%在2026年5月未收到任何针对该文件的请求（Ahrefs（2026年）。发布一篇文章，是因为成本低且结构良好的内容总是有益无害，而不是因为它能保证带来AI流量。

当你确实要写一篇的时候：

开头用一段简洁的引文摘要，并仅链接到你最优质且最新的页面。
打出一个干净的发球.md 每个链接页面的纯文本版本，这样，点击链接的模型就能获取纯文本内容，而不是一个 JavaScript 壳。
请确保其与网站保持同步。过时的 llms.txt 文件还不如没有。
请不要将其视为访问控制。如果您需要允许或阻止 AI 爬虫，这仍应通过 robots.txt 和您的 User-Agent 规则来实现，而非 llms.txt。

其基本原理是：模型在处理干净的 Markdown 时比处理原始 HTML 时效果更好，这也正是检索管道越来越多地以 Markdown 格式获取页面，而非解析渲染后的 DOM 的原因。Massive 的 Web Render API 会返回任何公开页面的format=markdown 正是出于这个原因，Massive 自己的文档中发布了一个 llms.txt 索引以及每页的.md 变体。

结论

llms.txt 是一个低成本且明智的构想：让模型处理经过精心整理的 Markdown 格式内容，而不是让它们解析整个网站。它能否成为核心支撑，取决于 AI 服务商是否选择读取它——目前大多数服务商尚未这样做。应将其视为构建 AI 可读网络的基本规范，而非排名的杠杆。

常见问题解答

不。这是Answer.AI公司的杰里米·霍华德于2024年在llmstxt.org上发布的一项拟议规范。目前尚无任何标准机构对其进行批准，也没有任何主要的人工智能供应商正式采用该规范（《搜索引擎杂志》, 2026)。

截至2026年年中，尚无确凿证据表明其被采用。谷歌表示并未使用该文件，而Ahrefs的一项研究发现，在2026年5月，97%拥有有效llms.txt文件的域名对此文件均未收到任何请求（Ahrefs, 2026)。

robots.txt 用于控制哪些爬虫可以访问哪些路径。llms.txt 则完全不控制访问权限。它只是引导模型阅读一组经过筛选的干净内容，因此应使用 robots.txt 而不是 llms.txt 来允许或阻止 AI 机器人。

将其放置在您的域名根目录下，格式如下：/llms.txt，采用 Markdown 格式编写：一个 H1 级别的网站名称、一段引文摘要，然后是列出关键链接的 H2 级章节（llmstxt.org).

主要是文档量较大的科技公司。Anthropic、Cloudflare、Mintlify 和 Tinybird 都会发布一份，而 Mintlify 会为其托管的文档网站自动生成这些文档（Ahrefs, 2026)。