什么是 llms.txt?
llms.txt 是一个位于网站根目录下的 Markdown 文件(/llms.txt) 该功能为大型语言模型提供了经过精心筛选、内容纯净的网站核心内容地图。 该方案由Answer.AI联合创始人杰里米·霍华德(Jeremy Howard)于2024年9月提出,其存在的原因在于:大型语言模型(LLM)的上下文窗口过小,无法摄入整个网站的内容;而原始HTML中充斥着导航、广告和脚本,这些内容会掩盖模型真正需要的信息(Answer.AI(2024年)。这是一项拟议的公约,而非已获批准的标准,目前人工智能系统对其的采用仍较为有限。
llms.txt 的工作原理
该格式刻意设计得十分简单。一个有效的 llms.txt 文件以一个 H1 标签开头,其中包含网站或项目名称(这是唯一必需的元素),随后是一个 blockquote 标签,用于概述该网站的性质,接着是可选的 H2 章节,每个章节都包含一个带项目符号的链接列表,位于[name](url): optional note 表单 (llmstxt.org). 由于这是纯 Markdown 格式,无论是人还是模型都能直接阅读,无需特殊的解析器。
该规范还要求网站在同一URL下发布每页的纯Markdown版本,并附带.md 附加(例如,/pricing.html.md),因此,当模型点击 llms.txt 中的链接时,会跳转到散文页面,而不是渲染后的 HTML 页面(llmstxt.org). 另一场社区大会,/llms-full.txt, 将一个站点的完整文档合并为一个文件。该名称源自Mintlify等工具及其用户,而非霍华德的原始规范——该规范实际上定义的是由工具生成的上下文文件(Answer.AI, 2024)。
llms.txt 与 robots.txt 及 sitemap.xml
这三个根文件各自承担不同的任务。robots.txt 控制访问权限,告知爬虫哪些内容可以抓取、哪些不能抓取,而主要的人工智能爬虫都会遵守这一规则。sitemap.xml 列出了网站上的所有 URL,以便搜索引擎能够发现并将其收录。而 llms.txt 既不具备上述功能,也不是一个详尽的索引。它是一组经过精心筛选、手工挑选的干净内容子集,旨在供模型在推理时读取,既不是访问规则,也不是详尽的索引(Search Engine Land, 2025)。
使用场景
- 文档网站。 最契合的方案。开发者工具文档会提供一个 llms.txt 文件,这样编码助手就能获取准确的 API 参考信息,而不是靠猜测。Mintlify 会为其托管的文档网站自动生成该文件,这也是为何如此多的开发者工具都包含该文件的原因之一(Ahrefs, 2026)。
- 策划模型所看到的画面。 网站可以将模型指向规范的、最新的页面,并排除重复、内容贫乏或过时的URL。
- 更经济的上下文加载。 让助手处理一个干净的文件所需的代币数量,比让它处理渲染后的HTML爬取结果所需的代币数量要少。
- AI搜索与答复优化。 各团队采用该技术,希望借此影响助手对自身品牌的概括方式,这也是更广泛的生成式引擎优化工作的一部分。
最佳实践
首先,要保持合理的预期。截至2026年年中,llms.txt尚未成为官方标准,各大AI系统也尚未确认会采用该标准。谷歌的加里·伊利耶斯(Gary Illyes)表示,谷歌“不支持llms.txt,也没有计划支持”(Search Engine Land(2025年),约翰·穆勒指出,“目前没有人工智能系统使用 llms.txt”(搜索引擎圆桌会议(2025年)。Ahrefs发现,在约38,000个拥有有效文件的域名中,97%在2026年5月未收到任何针对该文件的请求(Ahrefs(2026年)。发布一篇文章,是因为成本低且结构良好的内容总是有益无害,而不是因为它能保证带来AI流量。
当你确实要写一篇的时候:
- 开头用一段简洁的引文摘要,并仅链接到你最优质且最新的页面。
- 打出一个干净的发球
.md每个链接页面的纯文本版本,这样,点击链接的模型就能获取纯文本内容,而不是一个 JavaScript 壳。 - 请确保其与网站保持同步。过时的 llms.txt 文件还不如没有。
- 请不要将其视为访问控制。如果您需要允许或阻止 AI 爬虫,这仍应通过 robots.txt 和您的 User-Agent 规则来实现,而非 llms.txt。
其基本原理是:模型在处理干净的 Markdown 时比处理原始 HTML 时效果更好,这也正是检索管道越来越多地以 Markdown 格式获取页面,而非解析渲染后的 DOM 的原因。Massive 的 Web Render API 会返回任何公开页面的format=markdown 正是出于这个原因,Massive 自己的文档中发布了一个 llms.txt 索引以及每页的.md 变体。
结论
llms.txt 是一个低成本且明智的构想:让模型处理经过精心整理的 Markdown 格式内容,而不是让它们解析整个网站。它能否成为核心支撑,取决于 AI 服务商是否选择读取它——目前大多数服务商尚未这样做。应将其视为构建 AI 可读网络的基本规范,而非排名的杠杆。
常见问题解答
不。这是Answer.AI公司的杰里米·霍华德于2024年在llmstxt.org上发布的一项拟议规范。目前尚无任何标准机构对其进行批准,也没有任何主要的人工智能供应商正式采用该规范(《搜索引擎杂志》, 2026)。
截至2026年年中,尚无确凿证据表明其被采用。谷歌表示并未使用该文件,而Ahrefs的一项研究发现,在2026年5月,97%拥有有效llms.txt文件的域名对此文件均未收到任何请求(Ahrefs, 2026)。
robots.txt 用于控制哪些爬虫可以访问哪些路径。llms.txt 则完全不控制访问权限。它只是引导模型阅读一组经过筛选的干净内容,因此应使用 robots.txt 而不是 llms.txt 来允许或阻止 AI 机器人。
将其放置在您的域名根目录下,格式如下:/llms.txt,采用 Markdown 格式编写:一个 H1 级别的网站名称、一段引文摘要,然后是列出关键链接的 H2 级章节(llmstxt.org).
主要是文档量较大的科技公司。Anthropic、Cloudflare、Mintlify 和 Tinybird 都会发布一份,而 Mintlify 会为其托管的文档网站自动生成这些文档(Ahrefs, 2026)。