跳过浏览器：HTML转Markdown如何将代理令牌成本降低80%

Ryan Turner · Head of InnovationJune 10, 2026

对于大多数只读代理任务，您根本不需要完整的浏览器。只需抓取页面，将其转换为纯净的 Markdown 格式，然后将结果传递给模型。在模型读取任何内容之前去除标记、脚本和样式，可以消除模型根本不需要的干扰信息。因此，这能大幅降低您的令牌消耗，通常可减少一半以上。

错误在于将每个网页任务都视为浏览器自动化问题。阅读文档页面、获取文章或提取产品规格，本质上都是“获取并转换”的问题。只有当页面“反抗”时，才需要借助浏览器。

要点总结

对于只读任务，应直接获取内容并转换为 Markdown 格式，而非调用浏览器。
原始 HTML 会将令牌浪费在标记、内联脚本、样式以及模型会忽略的模板代码上。
从业者报告称，通过此次交换，代币数量减少了约80%；在相信任何单一数据之前，请先自行测量您的页面。
使用 MCP Fetch 参考服务器，或使用能直接返回 Markdown 的渲染 API。
请保留一个真正的浏览器，用于登录、受 JavaScript 限制的内容以及交互流程。

本文是关于如何……的一份更全面指南中的一个部分为人工智能代理提供实时网络访问权限. 这里我们重点讨论最省钱的方案：只要有可能，就跳过浏览器。

为什么原始 HTML 会浪费这么多标记？

原始 HTML 包含大量模型并不需要的数据。HTML 转 Markdown 该步骤会过滤掉标签、内联脚本、样式块、跟踪像素、导航界面元素和页脚模板，仅保留可读内容。该模型会针对输入中被过滤掉的每个令牌收取费用。此外，该费用会在您机群中的每个代理、每页以及每次运行时重复产生。

试想一个典型的文章页面。你想要的正文可能只有几千字。然而，围绕正文的HTML代码却包含<div> 嵌套结构、类集合、分析代码片段以及广告技术框架——这些往往比实际内容更占分量。若将这些内容直接输入上下文窗口，就会在模型最终会舍弃的结构上浪费预算。

相比之下，Markdown 保留了内容，去除了冗余。标题依然是标题，链接依然是链接，列表依然是列表。其他所有内容——脚本、样式、布局容器——都会被去除。你看到的是内容本身，而非其背后的实现机制。

规模之所以重要，是因为智能代理即将无处不在。Gartner预测，到2025年，Gartner，Gartner预测，到2026年，40%的企业应用将配备针对特定任务的人工智能代理 到2026年底，40%的企业应用将配备针对特定任务的AI代理，而2025年这一比例还不到5%。因此，当如此多的代理在网络上进行检索时，每页的令牌浪费将累积成一笔可观的开支。

HTML转Markdown到底能节省多少时间？

虽然节省的篇幅很大，但这取决于具体页面，因此请将任何标称数值视为起点，而非承诺。据 dev.to 报道，从业者表示，在模型读取内容之前将 HTML 转换为 Markdown，可将篇幅缩减约 80%，面向人工智能代理的浏览器工具第4部分：跳过浏览器 (2026)。该数据由从业者和供应商自行申报，未经独立核实，因此应归入“假设”一栏，而非“预算”部分。例如，一个采用轻量级标记语言包裹的、内容丰富的页面所节省的空间，将少于一个隐藏着单段真实文本、却充斥大量脚本的应用程序外壳。两者都会缩减，但缩减比例会随着页面情况大幅波动。因此，请自行测量目标数据。我们曾以这种方式对具有代表性的页面进行令牌计数：选取十个页面，分别统计原始 HTML 版本和 Markdown 版本的令牌数量，然后观察数据分布情况。在我们的测试中，通常会发现代码量减少幅度远超一半，有时甚至更多。然而，对你的预算而言，唯一重要的数字是你自己页面上测得的数值。请以此为依据构建你的成本模型，而非依赖某条标题新闻。

这个习惯能带来双重收益。一方面，你今天就能缩减输入令牌的数量；另一方面，你还能建立一个衡量基准，当目标网站在下个季度更改布局时，该基准能及时预警性能退化。根据我们在代理工作负载方面的经验，这个基准的意义在于：它能让你在仪表盘中及时发现成本骤升，而不是等到看到发票时才察觉。

如何在代理管道中将 HTML 转换为 Markdown？

有两种模式可以覆盖大多数情况：一种是集成到代理中的“获取并转换”工具，另一种是直接返回 Markdown 的渲染 API。这两种方式都能过滤掉相同的干扰信息。区别在于由谁来执行数据获取，以及它在处理那些抵制自动化访问的网站时表现如何。

选项 1：MCP Fetch 参考服务器

最简单的切入点是 MCP Fetch 参考服务器，它能一次性获取 URL 并将 HTML 转换为 Markdown。该服务器随官方模型上下文协议服务器代码库，因此任何与 MCP 兼容的代理都可以将其作为工具调用。对于内部文档、公开文章以及未屏蔽机器人的网站，这通常就已足够。

关键在于访问权限。一个普通的请求会从你的服务器IP发出，而如今越来越多的网站将陌生的自动化流量视为恶意流量。到2025年，Imperva，《2025年恶意机器人报告》 研究发现，2024年自动化机器人占所有网络流量的51%，这是十年来机器人流量首次超过人类流量，其中恶意机器人占比达37%。因此，针对该流量规模调优的防御机制往往会在您获取HTML进行转换之前，就拦截了简单的抓取请求。

选项 2：一个返回 Markdown 的渲染 API

当目标对普通请求进行阻挡时，将请求转移到专门用于突破阻挡的基础设施上，并要求其直接返回 Markdown 格式内容。Massive 的 Web Render API 提供了一个名为“Browsing”的端点，其format=markdown，因此只需一次调用，页面即可准备就绪并显示在提示框中。无需单独的获取步骤，无需维护客户端转换器，也无需在内存中预加载 HTML。

有两点使得该方案能够在大规模场景下切实可行。首先，Markdown 是端点上的第一类输出格式，而非附加功能，因此转换在页面渲染时同步完成。其次，请求源自一个覆盖195多个国家、拥有约130万台日活跃设备的真实终端用户设备网络，因此能够触达那些拒绝数据中心流量的网站。住宅代理 这些连接是通过真实的终端用户设备而非数据中心IP段进行路由的，因此会被识别为普通访客。我们在自己的供应商基准测试中测量了这一差距：住宅IP在受保护网站上的成功访问率远高于数据中心IP（大致范围分别为85%至99%和20%至40%）。需要注意的是，请将此视为供应商基准，而非独立研究。

这种访问权限的重要性正逐月增加。到2025年，Cloudflare，Cloudflare 刚刚改变了 AI 爬虫抓取互联网内容的方式 自 2025 年 7 月 1 日起，约 20% 的网站开始默认屏蔽 AI 爬虫。因此，如果您的抓取操作无法访问该页面，全球最便宜的 Markdown 处理管道将返回空结果。

您还可以对调用进行调优。Browsing 端点提供了速度等级和难度参数，支持同步或异步运行，并且当多步读取需要连续性时，可在同一出口上保持长达 12 分钟的粘性会话。相比之下，对于一次性读取，只需提交请求并继续即可。

在什么情况下你仍然需要一个真正的浏览器？

当内容在浏览器中运行之前并不存在时，你仍然需要一个浏览器。登录、多步骤表单、无限滚动以及受 JavaScript 限制的内容，都要求有一个实时渲染环境和真实的交互。在这些页面上，"获取并转换"会返回一个空壳，因为标记代码在数据到达之前就已经加载完毕。

我们遵循的一条基本原则是：仅需阅读时不使用浏览器，需要读写或交互操作时则使用浏览器。如果你的任务是“阅读此页面并总结内容”，请将其转换为 Markdown 格式；但如果任务是“登录、点击三个页面并提交”，则需要通过自动化工具来驱动真实的会话。浏览器自动化 这是一种通过编程方式驱动真实的渲染引擎来执行点击、输入和等待操作的做法，而这正是“获取并转换”无法做到的。

一旦越过了这条界限，框架和基础设施就都变得至关重要。例如，选择自动化层本身就是一个独立的决策，相关内容将在代理浏览器框架. 同样，关于是自己运营该船队还是直接购买的问题很快就会浮现出来，这也是本文的重点，托管式浏览器基础设施. 决策树的顶层逻辑很简单：先尝试使用 Markdown，只有当页面强制要求时才切换到浏览器。

还有一个理由支持默认使用 Markdown：反正这也是你的基础层所期望的格式。接地这是一种向模型提供实时检索到的上下文的实践，使其生成的答案能够追踪真实来源，而非过时的训练数据。经过清理的 Markdown 代码会直接输入到检索和上下文组装过程中，这就是为什么它再次出现在利用实时网络数据对大型语言模型进行训练. 换句话说，跳过浏览器不仅成本更低，还能生成与管道中其余部分所期望完全一致的输出结果。

来源

Gartner。Gartner预测，到2026年，40%的企业应用将配备针对特定任务的人工智能代理. 2025.https://www.gartner.com/en/newsroom/press-releases/2025-08-26-高德纳预测：到2026年，40%的企业应用将配备特定任务型AI代理，而2025年这一比例还不到5%
Imperva。《2025年恶意机器人报告》. 2025.https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/
Cloudflare。Cloudflare 刚刚改变了 AI 爬虫抓取整个互联网的方式. 2025.https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
dev.to.面向人工智能代理的浏览器工具第4部分：跳过浏览器. 2026.https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c
模型上下文协议。MCP Fetch 参考服务器（servers 仓库）. 2026.https://github.com/modelcontextprotocol/servers

常见问题解答

HTML 转 Markdown 时，是否总是将标记词减少 80%？+

不。80%这一数据是由从业者和供应商自行报告的，未经独立核实，实际数值还取决于具体页面。脚本较多的页面节省的效果更显著；而内容精简的页面节省的效果则较小。因此，请对您自己的十个目标页面进行测试，以便制定一个值得信赖的预算。

将HTML转换为Markdown时，数据会丢失吗？+

你会丢失版式和样式，但内容不会丢失。标题、链接、列表和文本会保留下来；而脚本、CSS 和界面元素则不会保留。如果你需要属性级别的细节（如特定的数据标签），请提取这些页面的原始 HTML，并将其他内容全部转换。

为什么不自己去加载这个页面呢？+

这是可以的，而且借助 MCP Fetch 服务器，操作起来非常简单——直到目标网站将你封禁为止。由于机器人目前已占据网络流量的大部分，且许多网站默认会屏蔽来自未知自动请求，因此普通抓取往往会失败，这使得在真实设备网络上使用 Web Render API 成为了更可靠的途径。

Markdown 输出对 AI 概述或搜索任务有帮助吗？+

对于读取任意页面，确实如此。但对于结构化搜索结果页面（SERP）或 AI 答案检索，通常使用专用的搜索端点比直接获取结果页面更合适，因为它返回的是已经解析好的数据，而无需您自行转换搜索 HTML。