什么是“能动式浏览”?

主动式浏览 是指人工智能代理在无需人类操作的情况下,自主地在网站上进行导航、读取内容并采取行动,包括填写表单、点击按钮以及完成多步骤任务。与静态网页抓取不同,该代理是根据目标而非固定的指令进行操作的。 现实中的例子包括 Perplexity Comet 和 OpenAI 的 ChatGPT Atlas,这两款产品均于 2025 年 10 月推出了代理模式(Skywork AI, 2025)。

“代理式浏览”是如何工作的?

代理式浏览器将大型语言模型与实时浏览器会话相结合。该模型会读取当前页面的DOM,决定下一步该做什么(点击、输入、滚动、提交),执行该操作,然后读取更新后的页面。这个循环会持续进行,直到目标达成。

由于该代理会渲染完整页面(包括大量使用 JavaScript 的单页应用),因此它需要真正的浏览器运行时环境,而非简单的 HTTP 请求工具。指纹识别、验证码屏障和会话跟踪是运营商在大规模部署代理时必须应对的主要障碍。

使用场景

  • 研究与总结。 一个爬虫会读取网站上的多页内容,并返回结构化的摘要,同时自动处理分页和登录验证。
  • 价格和库存监控。 该工具会检查数十家零售商的产品页面,并记录相关变更,无需人工抽查。
  • 表单填写与工作流自动化。 代理会代表用户填写并提交多步骤表单(预订流程、报价请求、申请表等)。
  • 竞争情报。 各团队会将一个爬虫指向竞争对手的网页和点评网站,并按计划收集结构化数据。

对于需要大规模运行代理任务的团队,Massive 的 Web Render API 可在 195 多个国家的真实家庭设备上提供全页面渲染。该 API 负责处理 JavaScript 执行和会话粘性(同一出站连接上最长可达 12 分钟),因此代理在每个步骤都能获得准确、完整的页面状态。

常见问题解答

网络爬虫通过抓取并解析HTML来提取结构化数据。而智能浏览则更进一步:AI代理会解读页面内容、做出决策,并通过与页面元素交互(如点击、填写表单)来完成目标。爬虫仅限于读取数据;智能浏览则是目标驱动且具有交互性的。

像 Playwright 和 Puppeteer 这样的浏览器自动化工具遵循包含预先编写步骤的确定性脚本。而基于代理的浏览则利用大型语言模型(LLM),根据页面内容动态决定每项操作,因此能够适应固定脚本无法处理的意外布局或内容。

截至2025年,Perplexity Comet、OpenAI的ChatGPT Atlas以及Opera Neon是三款值得关注的产品。Comet和Atlas均于2025年10月推出了代理模式(Skywork AI(2025年)。随着大型语言模型(LLMs)在解读页面视觉布局方面的能力不断提升,这一领域正在迅速扩展。

现代网页会在初始 HTML 响应之后通过 JavaScript 加载内容。真实的浏览器会执行该 JavaScript 代码,发起网络请求,并构建最终的 DOM。如果爬虫仅读取原始 HTML,就会遗漏大部分交互式内容,从而导致操作不完整或错误。