跳过浏览器:HTML转Markdown如何将代理令牌成本降低80%
All Posts

跳过浏览器:HTML转Markdown如何将代理令牌成本降低80%

Ryan Turner
Ryan Turner · Head of Growth

对于大多数只读代理任务,您根本不需要完整的浏览器。只需抓取页面,将其转换为纯净的 Markdown 格式,然后将结果传递给模型。在模型读取任何内容之前去除标记、脚本和样式,可以消除模型根本不需要的冗余信息。因此,这能有效降低您的令牌消耗,通常可减少一半以上。

错误在于将每个网页任务都视为浏览器自动化问题。阅读文档页面、获取文章或提取产品规格,本质上都是“获取并转换”的问题。只有当页面“反抗”时,才需要动用浏览器。

要点
  • 对于只读任务,应直接获取内容并转换为 Markdown 格式,而非调用浏览器。
  • 原始 HTML 会因标记、内联脚本、样式以及模型忽略的冗余代码而浪费令牌。
  • 从业者报告称,此次交换带来的代币减量约为80%;在相信任何具体数字之前,请先自行测量您的页面。
  • 使用 MCP Fetch 参考服务器,或使用能直接返回 Markdown 的渲染 API。
  • 请保留一个真正的浏览器,用于登录、受 JavaScript 限制的内容以及交互流程。

本文是关于如何……的一份更全面指南中的一个部分为 AI 代理提供实时网络访问权限. 这里我们重点探讨最经济的方案:只要有可能,就跳过浏览器。

为什么原始 HTML 会浪费这么多标记?

原始 HTML 包含大量模型不需要的数据。HTML 转 Markdown 这一步骤会移除标签、内联脚本、样式块、跟踪像素、导航栏界面元素以及页脚模板代码,仅保留可读内容。该模型会对输入中被丢弃的每个令牌收取费用。此外,该费用会在您的代理集群中的每个页面、每次运行以及每个代理上重复产生。

试想一个典型的文章页面。你需要的正文可能只有几千字。然而,围绕正文的 HTML 代码却包含<div> 嵌套结构、类集合、分析代码片段以及广告技术框架,这些往往比实际内容更占篇幅。若将这些内容直接输入上下文窗口,就会在模型最终会舍弃的结构上浪费预算。

相比之下,Markdown 保留了内容,去除了冗余。标题依然是标题,链接依然是链接,列表依然是列表。其余的一切——脚本、样式、布局容器——都被剔除。你看到的只是内容本身,而非其背后的技术实现。

规模之所以重要,是因为智能代理即将无处不在。Gartner预测,到2025年,Gartner,Gartner预测,到2026年,40%的企业应用将配备针对特定任务的人工智能代理 到2026年底,40%的企业应用将配备针对特定任务的人工智能代理,而2025年这一比例还不到5%。因此,当如此多的代理在网络上进行检索时,每页的令牌浪费将累积成一笔可观的开支。

HTML转Markdown到底能节省多少时间?

虽然节省的资源相当可观,但这取决于具体页面,因此请将任何标称数值视为起点,而非承诺。据 dev.to 报道,开发者反馈称,在模型读取数据前将 HTML 转换为 Markdown,可节省约 80% 的资源,AI 代理的浏览器工具 第 4 部分:跳过浏览器 (2026)。该数据由从业者和供应商自行申报,未经独立核实,因此应归入“假设”一栏,而非预算。例如,一个采用轻量级标记语言包裹的、内容丰富的页面,其节省的空间将少于一个隐藏着单段真实文本、却充斥着冗余脚本的应用程序外壳。 两者都会缩减,但缩减比例会随页面情况大幅波动。因此,请针对自身目标进行测量。我们曾对具有代表性的页面采用以下方式统计标记数:选取十个页面,分别统计原始 HTML 版本和 Markdown 版本的标记数,然后观察其分布情况。 在我们的测试中,通常会看到压缩量远超一半,有时甚至更多。然而,对您的预算而言,唯一重要的数字是您在自身页面上测得的数据。请以此为依据构建您的成本模型,而非依赖标题宣传。

这个习惯能带来双重收益。一方面,你今天就能减少输入令牌的数量;另一方面,你还能建立一个基准线,以便在下个季度目标网站调整布局时,及时发现性能退化。根据我们在代理工作负载方面的经验,这个基准线意味着:你是在仪表盘上发现成本骤升,还是在账单上才察觉到这一问题。

如何在代理管道中将 HTML 转换为 Markdown?

两种模式可覆盖大多数情况:一种是将“抓取并转换”工具集成到代理中,另一种是直接返回 Markdown 的渲染 API。这两种方式都能消除同样的干扰。区别在于由谁来执行抓取操作,以及它如何处理那些抵制自动化访问的网站。

选项 1:MCP Fetch 参考服务器

最简单的切入点是 MCP Fetch 参考服务器,它能一次性获取 URL 并将 HTML 转换为 Markdown。该服务器随官方Model Context Protocol 服务器代码库,因此任何兼容 MCP 的代理都可以将其作为工具调用。对于内部文档、公开文章以及不阻止机器人的网站,这通常就已足够。

关键在于访问权限。当请求从您的服务器 IP 发出时,如今越来越多的网站会将陌生的自动化流量视为恶意流量。到 2025 年,Imperva,《2025年恶意机器人报告》 数据显示,2024年自动化机器人占所有网络流量的51%,这是十年来机器人流量首次超过人类流量,其中恶意机器人占比达37%。因此,针对这一流量规模优化的防御机制往往会在您获取HTML进行转换之前,就拦截了原始请求。

选项 2:一个返回 Markdown 的渲染 API

当目标拒绝直接响应请求时,将请求转发至专门用于穿透防火墙的基础设施,并要求其直接返回 Markdown 格式内容。Massive 的 Web Render API 提供了一个 Browsing 端点,该端点支持格式=markdown,因此页面只需一次调用即可加载完毕并准备好响应用户输入。无需单独的获取步骤,无需维护客户端转换器,也无需在内存中预先加载 HTML。

有两个因素使得该方案能够在大规模场景下切实可行。首先,Markdown 是端点上的原生输出格式,而非附加组件,因此转换过程就在页面渲染时同步完成。 其次,请求源自一个覆盖195多个国家、拥有约130万日活跃设备的真实终端用户设备网络,因此能够触达那些拒绝数据中心流量的网站。住宅代理 这些连接是通过真实的终端用户设备而非数据中心IP段进行路由的,因此会被识别为普通访客。 我们在自己的供应商基准测试中测量了这一差距:住宅IP在受保护网站上的成功访问率远高于数据中心IP(大致范围约为85%至99%,而数据中心IP仅为20%至40%)。需要特别说明的是,请将此视为供应商基准数据,而非独立研究结果。

这种访问权限的重要性正逐月增加。到2025年,Cloudflare,Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式 自2025年7月1日起,约20%的网页默认开始屏蔽AI爬虫。因此,如果您的抓取请求无法访问该页面,全球最经济的Markdown处理流程将返回空结果。

您还可以对调用进行调整。Browsing 端点提供了速度层级和难度参数,支持同步或异步运行,并且当多步读取需要保持连续性时,可在同一出口保持长达 12 分钟的粘性会话。相比之下,对于一次性读取,只需发送请求并继续即可。

在什么情况下你还需要使用真正的浏览器?

当内容尚未存在,必须在浏览器中运行某些操作时,你仍然需要浏览器。登录、多步骤表单、无限滚动以及受 JavaScript 限制的内容,都需要实时渲染环境和真实的交互。在这些页面上,Fetch-and-convert 会返回一个空壳,因为标记代码在数据到达之前就已经加载完毕。

我们遵循的一条简单原则是:只读操作时不使用浏览器,读写或交互操作时则需要使用浏览器。如果你的任务是“阅读此页面并进行总结”,请将其转换为 Markdown 格式。但如果任务是“登录、点击三个页面并提交”,你就需要使用能够驱动真实会话的自动化工具。浏览器自动化 这是一种通过编程方式驱动真实的渲染引擎来执行点击、输入和等待操作的做法,而这正是“获取并转换”无法做到的。

一旦越过这条界限,框架和基础设施就都变得至关重要。例如,选择自动化层本身就是一项决策,相关内容将在代理浏览器框架. 同样,关于是自己运营该船队还是直接购买的问题很快就会浮现,这也是本文的重点。托管浏览器基础设施. 决策树的顶层逻辑很简单:首先尝试使用 Markdown,只有当页面强制要求时才切换到浏览器。

选择 Markdown 作为默认格式的又一个理由:这本来就是你的基础层所期望的格式。接地 这是一种向模型实时输入检索到的上下文的实践,使其生成的答案能够追踪真实来源,而非过时的训练数据。经过清理的 Markdown 格式内容会直接输入到检索和上下文组装环节,这就是为什么它再次出现在利用实时网络数据对大型语言模型进行微调. 换句话说,跳过浏览器不仅成本更低,还能生成与管道其余部分预期完全一致的输出结果。

来源

Frequently Asked Questions

HTML 转 Markdown 时,是否总是将标记长度缩短 80%?

不。80%这一数据是来自从业者和供应商的自我申报,未经独立核实,实际数值还取决于具体页面。脚本较多的页面节省的效果更显著;而内容精简的页面节省的效果则较弱。因此,请对您自己的十个目标页面进行测试,以便制定一个值得信赖的预算。

将 HTML 转换为 Markdown 会丢失数据吗?

你会丢失版式和样式,但内容不会丢失。标题、链接、列表和文本会保留下来;而脚本、CSS 和界面元素则不会。如果你需要属性级别的细节(如特定的数据标签),请捕获这些页面的原始 HTML,并将其余内容进行转换。

我为什么不自己去加载这个页面呢?

这确实可行,而且借助 MCP Fetch 服务器,操作起来非常简单——直到目标网站将你拉入黑名单为止。鉴于当前网络流量主要由机器人产生,且许多网站默认会屏蔽来自未知自动请求,普通抓取往往会失败,因此通过真实设备网络调用渲染 API 便成了更可靠的解决方案。

Markdown 输出对 AI 概览或搜索任务有帮助吗?

对于读取任意页面,确实如此。但对于结构化搜索结果页面(SERP)或AI答案的检索,通常使用专用的搜索接口比直接抓取结果页面更合适,因为它返回的是已经解析好的数据,而无需您自行转换搜索HTML。