什么是 LLM-Ready Markdown?

适用于 LLM 的 Markdown 是指将原始 HTML 转换为经过优化的纯净 Markdown 格式,以适应大型语言模型(LLM)的上下文窗口和检索增强生成(RAG)管道。 通过去除导航菜单、广告、脚本和装饰性标签,仅保留模型实际需要的文本、标题、链接和表格。这样处理后的结果能在每个令牌中包含更多有用的内容,鉴于当前所有大型语言模型都面临上下文窗口有限的限制,这一点尤为重要。

为什么 Markdown 格式对大型语言模型(LLMs)很重要?

HTML 页面的结构是为浏览器设计的,而非为模型设计的。一个典型的页面在显示任何一句真正的内容之前,就会先发送数百个包含模板内容、Cookie 提示横幅和内联样式的标记。Markdown 消除了这些冗余,而标题、段落、列表和代码块能够与模型用于对文本进行推理的结构清晰对应。

对于RAG系统而言,格式同样至关重要——该系统会在检索前将文档分割为块并建立索引。结构清晰的Markdown块会沿着标题和列表边界进行可预测的分割。而杂乱的HTML块则会产生不可预测的分割,往往将句子截断在思路未尽之处,或将无关的侧边栏文本一并纳入其中。

Web 渲染服务可按需生成适用于大型语言模型(LLM)的 Markdown 格式内容。Massive 的 Browsing 端点(/browser) 接受一个format=markdown 该参数可返回任何公开页面的纯Markdown格式表示,并在转换前处理 JavaScript 渲染。

常见问题解答

原始 HTML 包含所有面向浏览器的标记:标签、属性、脚本和样式表。适用于大型语言模型(LLM)的 Markdown 仅保留纯文本形式的内容结构,并采用轻量级格式化。模型在读取相同信息时消耗的令牌数量要少得多。

Web Render API 可以一步完成页面的获取、渲染和转换。Massive 的 Browsing 端点返回format=markdown 直接输出,包括需要通过 JavaScript 加载内容的页面。

是的。标准 Markdown 将超链接表示为[text](url) 以及以管道分隔的表格行。这两者在 HTML 转 Markdown 的过程中都会被保留,因此下游模型和 RAG 系统可以追踪引用并解析表格数据。