基于实时网络数据的LLM预训练:实用指南
接地 这是一种通过检索到的实时源文档(而非模型的训练数据)来构建模型回答的方法。这是消除“幻觉”最可靠的方式,因为模型不再进行猜测,而是开始引用可验证的证据。实时网络数据将这一方法推向了更深层次:它基于当下真实存在的事实,而非训练时点上被冻结的快照。
本指南详细介绍了工程师在利用最新网络数据对大型语言模型(LLM)进行微调时所经历的实际流程。首先判断何时需要最新数据,然后获取数据,为其添加数据溯源信息,生成带引用标注的文本,最后进行验证。每个步骤都具体明确,并列出了团队在生产环境中常遇到的各种故障模式。
要点
- “接地”操作会用检索到的源文档替换模型的记忆,这是减少幻觉最可靠的方法。
- 新鲜度与相关性同样重要:陈旧的检索结果往往基于过时的信息,这些信息看似确凿无误。
- 在整个流程中追溯信息来源,确保每条声明都引用了用户可以核查的来源。
- Gartner预测,到2025年底,40%的企业应用将配备针对特定任务的人工智能代理,因此,确保系统具备稳健性已成为基本要求。
- 能够存活下来的团队,是那些代理始终可靠的团队;Gartner预计,到2027年底,将有超过40%的代理项目被取消。
“为大型语言模型(LLM)建立知识基础”究竟是什么意思?
“基于证据的回答”机制要求模型基于提供的证据进行回答,而非依赖参数化记忆。具体而言,您需要检索与查询相关的文档,将其放入上下文窗口,并指示模型仅基于这些材料进行回答,同时注明出处。 模型由此转变为阅读者和摘要生成者,而非全知全能的预言家。正是这一转变,使得基于上下文的回答比任何提示词微调技巧更能有效减少幻觉现象。
对于任何与时间相关的内容——无论是价格、新闻、文档、库存情况还是法规——实时网络数据都是最可靠的依据。模型的权重可能已经过时数月甚至数年,但两秒前抓取的网页却并非如此。不过,这需要付出工程上的代价。 如今你拥有了一条数据检索管道,而其最薄弱的环节决定了答案质量的上限。
这一点在每个季度都显得愈发重要。Gartner预测,到2025年,到2026年底,40%的企业应用将配备针对特定任务的人工智能助手,而2025年这一比例还不到5%. 这些代理大多能回答关于当前状态的问题,而一个未接地且自信地虚构该状态的代理,其表现甚至不如没有代理。有关此架构的完整信息,请参阅为 AI 代理提供实时网络访问权限.
大型语言模型(LLM)何时需要新的网络数据?
并非每个查询都需要检索,而对所有内容进行事实关联会浪费延迟和令牌。这由“检测”步骤决定。通常,当答案取决于会变化的事实、训练数据之外的事实,或用户期望为最新内容时,应将查询路由至实时检索。稳定的通用知识可以保持不进行事实关联。 一个优秀的路由器成本低廉,它能让你免于为“什么是哈希表”这类问题去检索网络。
实际上,“立即检索”的信号很容易识别:查询中包含时间词(今天、最新、当前、本周),包含可能涉及近期事件、价格、版本或数量的命名实体,或者涉及你所知更新迅速的领域。 一个小型分类器或少量样本提示(few-shot prompt)就能很好地处理这些情况。如有疑问,就去检索;稍微慢一点的正确答案,总比快速得到的错误答案要好。
说白了,做好这一点的根本原因在于生存:可靠性是区分那些能成功交付的代理与那些被淘汰的代理的关键。Gartner预测,到2025年到2027年底,超过40%的自主人工智能项目将被取消……往往是因为价值不明确且控制措施薄弱。基于最新数据进行验证就是一种控制措施。从我们对各类代理工作负载的观察来看,关键在于如何让代理的回答具有可验证性,而不仅仅是看似合理。
如何获取最新的接地数据?
检索过程分为两个步骤:首先找到正确的页面,然后将每个页面转换为模型能够识别的纯文本。查找步骤相当于一个搜索查询。提取步骤则是获取页面内容,并将其精简为具有实际意义的词语。如果这两个步骤都处理不当,模型就会基于导航菜单和Cookie提示横幅进行推理,而非基于正确答案。
对于查找操作,需向搜索端点发送请求,将用户的意图转换为查询,并获取包含标题和URL的顶级搜索结果。如需比较此处的各项选项,请参阅面向代理的网络搜索 API. Massive 的 Web Render API 提供了一个搜索端点 (/搜索) 该工具可返回各大搜索引擎的搜索结果页面(SERP),支持地理定位,并具备等待=ai 等待长达一分钟以获取 AI 概览,以及等待=答案 用于“用户还问”模块。
对于 fetch 操作,请抓取选定的 URL 并将其转换为 Markdown 格式,而非原始 HTML。Markdown 以下是一种精简的文本格式,它保留了标题、列表和链接,同时去除了那些会消耗令牌并混淆模型的标记。将 HTML 转换为 Markdown 可以大幅减少代理的令牌消耗,通常能减少一半以上(dev.to,AI 代理的浏览器工具 第 4 部分:跳过浏览器). Massive的浏览端点 (/浏览器) 返回格式=markdown 作为一级输出,因此您只需一次调用即可获得适用于大型语言模型(LLM)的页面文本,而无需自行运行无头浏览器并进行可读性处理。
不过,有一点需要注意:开放网络正在对自动化抓取采取反制措施。2025年,Cloudflare开始默认情况下,约20%的网站会屏蔽AI爬虫 于7月1日上线,并推出了按爬取次数付费的市场。一个简单的抓取程序遇到了障碍。住宅代理 这些连接是通过真实的消费者设备IP地址而非数据中心IP地址范围进行路由的,因此能够访问数据中心IP无法访问的页面。在我们的供应商基准测试中,住宅IP在受保护网站上的成功率通常远高于数据中心IP,大约为85%至99%,而数据中心IP仅为20%至40%。 请将此视为我们的测试结果,而非独立研究,但这种差距足够显著,以至于我们看到,一旦目标网站开始封锁,团队就会立即采用住宅IP源地址。
如何为检索到的数据注入溯源信息?
注入操作会将检索到的文本以足够的结构化形式放入提示词中,使模型既能利用这些文本,又能对其进行引用。来源 这是随每个文档一同传输的元数据:其来源 URL、标题和获取时间戳。将每个文档包裹在一个带有标签的块中,该块包含上述元数据,然后指示模型仅从这些块中提取信息,并将来源标签附加到每个论点上。来源信息并非可有可无的装饰;正是它使得答案具有可追溯性。
请有意识地排序和精简内容。将最相关的片段放在上下文的开头,舍弃其余部分,切勿直接粘贴整个网站的内容。 冗长的上下文会分散注意力,导致模型偏离主题。例如,三到五个精心挑选的片段组成的紧凑集合,通常比二十个杂乱无章的片段更能锚定模型。关于此处的分块、排序和索引的详细信息,请参阅基于实时网络数据构建 RAG 管道.
将获取时间戳传递到每一层。数据新鲜度是“结果偏离实际”这一隐性故障模式的根源:如果管道从上个季度检索缓存页面,其得出的答案就会基于看似确凿无误的过时事实。 因此,你应该为每个数据块标注其获取时间,优先采用近期来源,并让模型看到日期,以便它能标记过时信息而非将其隐藏。根据我们的经验,这个添加时间戳的习惯比任何提示语都能发现更多错误答案。
如何得出并验证一个切合实际的答案?
生成与验证是一个循环,而非两个步骤。 引导模型严格依据注入的来源进行回答,并为每个论点标注其来源标签。随后在输出内容到达用户之前进行检查。每个事实性论点是否都引用了来源?所引用的来源是否确实支持该论点?如果回答未引用任何来源,或引用了无法支持该论点的来源,即使听起来正确,也视为未通过依据性验证。 这是核心测试标准,值得明确强调:符合“基于事实”标准的回答,必须满足以下条件:每个论点都对应一个能真正支持该论点的检索来源;引用信息完整且可被机器解析;即使从未见过原始查询的审核员,也能追溯到每个陈述背后的证据。 一旦上述任何条件不满足,就应重新生成答案或直接拒绝,而非发布一个自信的猜测。
验证过程可以既经济又自动化。 解析引用信息,确认每条引用都对应一个检索到的片段,当某个论点缺乏依据时,予以驳回或重新生成。对于风险较高的情况,可运行第二轮模型处理,重新读取每个来源,并评估其是否蕴含该论点。这能捕捉到一种微妙的情况:即模型的推导不够严谨,虽然引用了真实来源,但得出的结论却是该来源从未提及的内容。
相反,如果模型输出的最新结果本身就是真实标签,那么你可以直接获取该结果。Massive的AI聊天接口 (/ai) 根据地理位置,通过真实用户设备的来源返回来自 ChatGPT、Gemini、Perplexity 和 Copilot 的自动补全内容,同时提供一份来源 有效载荷和一个子查询 数组。当你需要基于公共模型当前的状态(而非页面内容)来确定结果时,这非常有用。
来源
- Gartner。Gartner预测,到2026年,40%的企业应用将配备针对特定任务的人工智能代理,而2025年这一比例还不到5%。 2025年。https://www.gartner.com/en/newsroom/press-releases/2025-08-26-Gartner预测,到2026年,40%的企业应用程序将配备特定任务的人工智能代理,而2025年这一比例还不到5%
- Gartner。Gartner预测,到2027年底,超过40%的代理式人工智能项目将被取消。 2025年。https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027
- Cloudflare。Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式。 2025年。https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
- dev.to.AI 代理的浏览器工具 第 4 部分:跳过浏览器。 2026年。https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c
Frequently Asked Questions
接地和RAG是一回事吗?
RAG 是实现“基于事实”的一种常见方法。“基于事实”是最终目标,即根据检索到的证据而非记忆来回答问题。RAG(检索、增强、生成)是大多数团队为实现这一目标所采用的模式。不过,您也可以通过直接调用工具或实时调用 API 来实现“基于事实”,而无需使用向量存储库。
为什么新鲜度对接地如此重要?
因为基于过时事实的自信回答,比显而易见的猜测更难被识破。过时的检索基于曾经正确的数据,因此其输出看似有据可依且正确,实则不然。因此,应在每个信息块上标注检索时间,并优先采用最新来源。
接地能完全消除幻觉吗?
不。虽然“接地”能显著减少幻觉,但并不能完全消除它。模型仍然可能误读来源,或陈述来源从未提及的内容。这就是为什么需要“验证”步骤:在输出答案之前,它会检查每个论点是否对应于确实支持该论点的来源。
为什么不直接使用该模型自带的浏览功能呢?
内置浏览功能如同一个黑匣子,无法对其进行调优、缓存、地理定位或验证。相比之下,掌控检索流程则能让你控制信息的新鲜度、来源、数据质量,并访问那些会阻止默认爬虫的页面。对于生产环境中的爬虫而言,这种控制权正是可验证答案与看似合理答案之间的关键区别。
