什么是大型语言模型(LLM)训练数据?
LLM训练数据 这是用于对大型语言模型进行预训练和微调的大规模文本语料库。其中大部分内容来自公开网络,并辅以书籍、代码仓库、学术论文以及经过精心整理的数据集。该语料库的质量、规模和多样性直接决定了模型掌握的知识及其推理能力。
LLM 训练数据中究竟包含什么?
现代前沿模型是在海量文本数据上进行训练的。最新公开的模型(DeepSeek v3、Gemma 3、Llama 4、Qwen 3)的训练数据量约为14万亿至36万亿个令牌,其中大部分来自网络爬取的文本(Common Corpus:用于大型语言模型预训练的最大规模伦理数据集,arXiv(2025年)。网络爬取的数据占据主导地位,因为与任何单一的精心筛选的数据源相比,它涵盖的主题、语言和写作风格范围更广。
除了原始 HTML 之外,训练集通常还包括维基百科、书籍、学术论文、GitHub 上的代码以及经过筛选的论坛讨论。每种来源都为语言训练增添了不同的特色:代码有助于提升结构化推理能力;书籍有助于培养长篇文本的连贯性;网页则确保知识的广度和时效性。
网络数据是如何收集和处理的?
构建大规模训练语料库,第一步是使用网络爬虫,最后一步则是进行彻底的去重和质量过滤。FineWeb 是一个包含 15 万亿个令牌的开放式预训练语料库,它由 96 个 Common Crawl 快照提炼并去重而成,涵盖了 2013 年至 2024 年 4 月的网络数据(Hugging Face,FineWeb 数据集(2024年)。该处理流程会在数据进入训练环节之前,先移除近似重复的页面、低质量内容以及个人身份信息。
数据清洗阶段与数据采集阶段同样重要。冗余或重复的文本会导致模型产生幻觉、输出模板化内容,或过度拟合特定的格式模式。各团队通过应用启发式过滤器、基于模型的质量分类器以及领域加权调整,最终生成一份均衡的数据组合。
使用场景
人工智能模型开发: 研究团队和人工智能实验室通过爬取公开网络来构建预训练语料库。大规模的、经过清理和去重处理的HTML是后续每次训练的原始数据。
管道的微调: 预训练完成后,各团队会收集特定领域的文本(如医疗记录、法律文件、财务报告)来对基础模型进行领域微调。来自目标来源的准确、结构化的网络数据为这些规模较小、针对性强的数据集提供了数据支持。
数据质量审计: 构建或审核培训流程的组织需要对源文档进行采样和检查,检查范围应涵盖 URL 级别。通过编程方式访问当前已渲染的网页内容是开展此项工作的先决条件。
Massive 的住宅代理网络和 Web Render API 为数据工程团队提供了一种方法,使其能够大规模、跨地域地从那些屏蔽数据中心 IP 的来源收集符合训练标准的网页内容。Browsing 端点返回渲染后的 HTML 或纯净的 Markdown 格式内容,从而减少了分词前的预处理工作量。
常见问题解答
预训练数据是指模型用于学习通用语言模式的、规模庞大且覆盖整个网络的语料库。微调数据则是规模较小、针对特定任务的数据集,用于将该基础模型适配到特定领域或行为。预训练数据集的令牌数量可达数万亿;而微调数据集通常包含数千到数百万个示例。
低质量文本会引入噪声,从而导致幻觉、偏颇的输出或推理能力下降。过滤、去重以及谨慎的领域平衡,其效果始终优于单纯增加原始页面数量,这就是为什么像 FineWeb 这样的管道会大力投资于原始令牌计数之外的质量信号。
目前,关于这一问题的法律和政策辩论仍在进行中。其合法性取决于源网站的服务条款、内容的版权状况以及管辖权。如今,许多发布商都会添加 robots.txt 指令或llms.txt 用于指定爬取偏好的文件,而随着诉讼的持续进行,相关法律指导也在不断演变。
Common Crawl 提供了一个免费且向公众开放的网络爬取存档,其数据可追溯至 2008 年。大多数开放式和商业化的 LLM 预训练数据集(包括 FineWeb)都是以 Common Crawl 的快照为基础,在此共享基础之上再进行自身的过滤和去重处理。