利用实时网络数据进行LLM预训练：实用指南

Ryan Turner · Head of InnovationJune 11, 2026

接地这是一种通过检索到的最新源文档（而非模型的训练记忆）来构建模型答案的做法。这是消除“幻觉”最可靠的方法，因为模型不再进行猜测，而是开始引用可验证的证据。实时网络数据将这一方法进一步深化：你所依据的是当下真实存在的内容，而非训练时点上被冻结的快照。

本指南详细介绍了工程师在利用最新网络数据对大型语言模型（LLM）进行微调时所经历的实际操作流程。首先判断何时需要最新数据，然后获取数据，为其注入数据溯源信息，生成带引用标注的模型，最后进行验证。每个步骤都具体明确，并列出了团队在生产环境中常遇到的各种故障模式。

要点总结

“接地”操作会用检索到的源文档替换模型的记忆，这是减少幻觉最可靠的方法。
新鲜度与相关性同样重要：过时的检索结果会基于陈旧的事实得出答案，这些事实看似确凿无误。
在整个流程中始终追溯来源，确保每项声明都引用了用户可以核查的来源。
Gartner预测，到2025年，40%的企业级应用将在2026年底前推出针对特定任务的人工智能代理，因此，如今实现“接地气”已成为基本要求。
能够生存下来的团队，是那些代理始终可靠的团队；Gartner预计，到2027年底，将有超过40%的代理类项目被取消。

“为大型语言模型（LLM）进行知识锚定”究竟是什么意思？

“锚定”机制要求模型基于提供的证据进行回答，而非依赖参数化记忆。具体而言，需检索与查询相关的文档，将其放入上下文窗口，并指示模型仅依据这些材料进行回答，同时注明出处。模型由此转变为阅读者和摘要生成者，而非“神谕”。正是这一转变，使得锚定法在抑制幻觉方面往往比任何提示微调技巧都更有效。

实时网络数据是任何与时间相关的信息（如价格、新闻、文档、可用性、法规等）最可靠的依据。模型的权重可能已过时数月甚至数年，但两秒前抓取的网页却并非如此。不过，这需要付出工程成本。现在，您拥有了一条数据检索管道，而其最薄弱的环节决定了答案质量的上限。

这一点在每个季度都变得越来越重要。Gartner预测，到2025年，到2026年底，40%的企业应用将配备针对特定任务的人工智能助手，而2025年这一比例还不到5%. 这些代理大多会回答关于当前状态的问题，而一个未接地且自信地虚构该状态的代理，其表现甚至不如没有代理。有关此架构的完整说明，请参见为人工智能代理提供实时网络访问权限.

大型语言模型（LLM）何时需要新的网络数据？

并非每个查询都需要检索，而对所有内容进行事实锚定会浪费延迟和令牌。这由“检测”步骤决定。通常，当答案取决于会发生变化的事实、训练数据之外的事实，或者用户期望为最新内容时，应将查询路由到实时检索。稳定的、通用知识可以不进行事实锚定。一个好的路由器成本低廉，还能让你免于为“什么是哈希表”这类问题去网络上检索。

实际上，“立即检索”的信号很容易识别：查询中包含时间词（今天、最新、当前、本周），可能涉及近期事件、价格、版本或数量的命名实体，或是你所知更新速度较快的领域。一个小型分类器或一个少样本提示器就能很好地处理这种情况。如有疑问，就去检索；稍微慢一点但正确的答案，总比快速但错误的答案要好。

要做好这一点的真正原因在于生存：可靠性是区分能够成功交付的代理与那些被淘汰的代理的关键。2025年，Gartner预测到2027年底，超过40%的自主人工智能项目将被取消，这往往是因为其价值不明确且控制措施薄弱。基于最新数据进行验证就是一种控制措施。根据我们对各代理工作负载的观察，这正是让代理的回答变得可验证，而非仅仅看似合理的关键所在。

如何获取用于接地分析的最新数据？

检索包括两个步骤：首先找到正确的页面，然后将每个页面转换为模型能够识别的纯文本。查找步骤相当于一个搜索查询。提取步骤则是获取页面内容，并将其精简为具有实际意义的词语。如果这两个步骤都处理不当，模型就会基于导航菜单和Cookie提示横幅进行推理，而不是基于答案本身。

对于“查找”功能，需向搜索端点发送请求，将用户的意图转换为查询，并返回包含标题和URL的顶级搜索结果。有关此处各项选项的比较，请参阅面向代理的 Web Search API. Massive 的 Web Render API 提供了一个搜索端点 (/search) 该工具可返回各大搜索引擎的搜索结果页面（SERP），支持地理定位，并具备awaiting=ai 等待长达一分钟以获取 AI 概览，并awaiting=answers 用于“人们还常问”模块。

对于 fetch 操作，请抓取选定的 URL 并将其转换为 Markdown 格式，而非原始 HTML。Markdown 以下是一种精简的文本格式，它保留了标题、列表和链接，同时去除了那些会消耗令牌并导致模型混淆的标记。将 HTML 转换为 Markdown 可以大幅减少代理的令牌消耗，通常能减少一半以上（dev.to，面向人工智能代理的浏览器工具第4部分：跳过浏览器). Massive 的浏览端点 (/browser) 返回format=markdown 作为一级输出，因此您只需一次调用即可获得适用于大型语言模型（LLM）的页面文本，而无需自行运行无头浏览器并进行可读性处理。

不过，有一点需要注意：开放网络正在对自动化抓取采取反制措施。2025年，Cloudflare开始默认情况下，约20%的网页会屏蔽AI爬虫 7月1日，该公司推出了一家按爬取次数付费的市场平台。一个简单的抓取程序会遇到障碍。住宅代理 这些连接是通过真实的消费者设备IP地址而非数据中心IP地址范围进行路由的，因此能够访问数据中心IP无法访问的页面。在我们的供应商基准测试中，住宅IP在受保护网站上的成功率通常远高于数据中心IP，大约为85%至99%，而数据中心IP仅为20%至40%。请将此视为我们的测试结果，而非独立研究，但这一差距足够显著，以至于我们看到，一旦目标网站开始封锁，各团队便会立即采用住宅源IP。

如何为检索到的数据注入溯源信息？

“注入”会将检索到的文本以足够的结构化形式放入提示词中，以便模型既能利用该文本，又能对其进行引用。来源这是随每个文档一同传递的元数据：其来源 URL、标题和获取时间戳。将每个文档封装在一个带有标签的块中，该块包含上述元数据，然后指示模型仅从这些块中提取信息来回答问题，并将来源标签附加到每个论点上。来源信息并非可有可无的装饰；正是它使得答案具有可审计性。

有意识地排序和精简。将最相关的片段放在上下文的开头，删除其余部分，切勿直接粘贴整个网站的内容。过长的上下文会分散注意力，导致模型偏离主题。例如，三到五个精心挑选的紧凑片段，通常比二十个杂乱无章的片段更能锚定模型。关于此处的分块、排序和索引的详细信息，请参阅基于实时网络数据构建 RAG 管道.

将检索时间戳传递到每一层。数据新鲜度是“锚定”现象的一种隐性失效模式：如果管道从上个季度检索缓存页面，就会导致答案基于看似确凿正确但实际上已过时的事实。因此，你应该为每个数据块标注其获取时间，优先选用近期来源，并让模型看到日期，以便它能标记过时信息，而不是将其隐藏。根据我们的经验，仅这一“添加时间戳”的习惯，比任何提示词的措辞都能发现更多错误答案。

如何得出并验证一个有根据的答案？

生成和验证是一个循环，而不是两个步骤。引导模型严格依据注入的来源进行回答，并为每个论点标注其来源标签。随后在输出内容呈现给用户之前进行核查：每个事实性论点是否都引用了来源？所引用的来源是否确实支持该论点？如果回答未引用任何来源，或者引用的来源无法支持其论点，那么即使听起来合理，也属于“无依据”的情况。这是核心测试标准，值得明确指出：符合“基于事实”标准的回答，是指每个论点都能映射到真正支持该论点的检索来源，引用信息完整且可被机器解析，并且即使从未见过原始查询的审核员也能将每条陈述追溯到其依据。当上述任何一个条件不满足时，你应重新生成答案或直接拒绝，而不是发布一个仅凭自信的猜测。

验证可以既经济又自动化。解析引用信息，确认每条引用都与检索到的内容片段相对应，当某个论点缺乏依据时，予以驳回或重新生成。对于风险较高的情况，可运行第二轮模型处理，重新读取每篇来源，并评估其是否蕴含该论点。这样可以捕捉到一种微妙的情况：即模型的依据不够严谨，虽然引用了真实的来源，但所陈述的内容却并非该来源所言。

相比之下，如果模型输出的最新结果本身就是真实值，那么就可以直接获取该结果。Massive的AI聊天接口（/ai) 根据地理位置，通过真实用户设备的来源返回来自 ChatGPT、Gemini、Perplexity 和 Copilot 的自动补全结果，同时提供一个sources 有效载荷和一个subqueries 数组。当你需要依据公共模型当前的状态（而非页面显示的内容）来确定时，这非常有用。

来源

Gartner。Gartner预测，到2026年，40%的企业应用将配备针对特定任务的人工智能代理，而2025年这一比例还不到5%。 2025年。https://www.gartner.com/en/newsroom/press-releases/2025-08-26-高德纳预测：到2026年，40%的企业应用将配备特定任务型AI代理，而2025年这一比例还不到5%
Gartner。Gartner预测，到2027年底，超过40%的代理式人工智能项目将被取消。 2025年。https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027
Cloudflare。Cloudflare 刚刚改变了 AI 爬虫抓取互联网数据的方式。 2025年。https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
dev.to.面向 AI 代理的浏览器工具第 4 部分：跳过浏览器。 2026年。https://dev.to/stevengonsalvez/browser-tools-for-ai-agents-part-4-skip-the-browser-save-80-on-tokens-304c

常见问题解答

“接地”和“RAG”是一回事吗？+

RAG 是实现“基于事实”的一种常见方式。“基于事实”是指以检索到的证据而非记忆作为回答依据。RAG（检索、增强、生成）是大多数团队为实现这一目标所采用的模式。不过，你也可以通过直接调用工具或实时调用 API 来实现“基于事实”，而无需使用向量存储。

为什么新鲜度对接地如此重要？+

因为基于过时事实的自信回答，比显而易见的猜测更难被识破。过时的检索基于曾经真实的数据，因此其输出看似有据可依且正确，实则错误。因此，应在每个信息块上标注检索时间，并优先采用最新来源。

“接地”能否完全消除幻觉？+

不。虽然“接地”能大幅减少幻觉，但并不能完全消除它。模型仍然可能误读来源，或者提出来源中从未提及的内容。这就是为什么需要“验证”这一步：它在输出答案之前，会检查每个论点是否对应于确实支持该论点的来源。

为什么不直接使用该模型自带的浏览功能呢？+

内置浏览功能如同一个“黑匣子”，无法对其进行调优、缓存、地理定位或验证。相比之下，掌控检索流程则能让你控制信息的新鲜度、来源、数据质量，并访问那些会阻止默认爬虫的页面。对于生产环境中的爬虫而言，这种控制能力正是可验证答案与看似合理答案之间的区别所在。