什么是 LLM-Ready Markdown？

Q: 如何从实时网页中获取适合LLM处理的Markdown格式内容？

Web Render API 可以一步完成页面的获取、渲染和转换。Massive 的 Browsing 端点返回format=markdown 直接输出，包括需要通过 JavaScript 加载内容的页面。

Q: 支持大型语言模型（LLM）的 Markdown 能否保留链接和表格？

是的。标准 Markdown 将超链接表示为[text](url) 以及以管道分隔的表格行。这两者在 HTML 转 Markdown 的过程中都会被保留，因此下游模型和 RAG 系统可以追踪引用并解析表格数据。

适用于 LLM 的 Markdown 是指将原始 HTML 转换为经过优化的纯净 Markdown 格式，以适应大型语言模型（LLM）的上下文窗口和检索增强生成（RAG）管道。通过去除导航菜单、广告、脚本和装饰性标签，仅保留模型实际需要的文本、标题、链接和表格。这样处理后的结果能在每个令牌中包含更多有用的内容，鉴于当前所有大型语言模型都面临上下文窗口有限的限制，这一点尤为重要。

为什么 Markdown 格式对大型语言模型（LLMs）很重要？

HTML 页面的结构是为浏览器设计的，而非为模型设计的。一个典型的页面在显示任何一句真正的内容之前，就会先发送数百个包含模板内容、Cookie 提示横幅和内联样式的标记。Markdown 消除了这些冗余，而标题、段落、列表和代码块能够与模型用于对文本进行推理的结构清晰对应。

对于RAG系统而言，格式同样至关重要——该系统会在检索前将文档分割为块并建立索引。结构清晰的Markdown块会沿着标题和列表边界进行可预测的分割。而杂乱的HTML块则会产生不可预测的分割，往往将句子截断在思路未尽之处，或将无关的侧边栏文本一并纳入其中。

Web 渲染服务可按需生成适用于大型语言模型（LLM）的 Markdown 格式内容。Massive 的 Browsing 端点（/browser) 接受一个format=markdown 该参数可返回任何公开页面的纯Markdown格式表示，并在转换前处理 JavaScript 渲染。

常见问题解答

原始 HTML 包含所有面向浏览器的标记：标签、属性、脚本和样式表。适用于大型语言模型（LLM）的 Markdown 仅保留纯文本形式的内容结构，并采用轻量级格式化。模型在读取相同信息时消耗的令牌数量要少得多。

Web Render API 可以一步完成页面的获取、渲染和转换。Massive 的 Browsing 端点返回format=markdown 直接输出，包括需要通过 JavaScript 加载内容的页面。

是的。标准 Markdown 将超链接表示为[text](url) 以及以管道分隔的表格行。这两者在 HTML 转 Markdown 的过程中都会被保留，因此下游模型和 RAG 系统可以追踪引用并解析表格数据。