什么是Common Crawl?
Common Crawl 这是一个非营利性的开放数据仓库,收录了数拍字节的公开网络数据,大约每月发布一次新的爬取数据,并免费托管在 AWS 上(Common Crawl(官方概述)(2025年)。每个快照以三种格式发布:原始页面内容、元数据摘要和纯文本摘要。它已成为当今大多数大型语言模型训练背后的核心语料库。
Common Crawl 的工作原理
Common Crawl 的自动化爬虫持续对数十亿个公开网页进行索引,并将结果打包为三种文件格式:原始 WARC 文件(完整页面内容)、WAT 文件(元数据)和 WET 文件(提取的文本)。 所有快照均存储在 AWS S3 上,可免费下载。仅 2025 年 8 月的抓取就新增了约 24.2 亿个页面(Common Crawl(官方概述), 2025)。
研究人员和企业会提取这些数据快照,用于构建训练数据集、搜索索引和语言模型语料库。其庞大的规模和零成本特性,使其成为人工智能训练的默认起点。 据估计,GPT-3 超过 80% 的训练令牌源自 Common Crawl,且 2019 年至 2023 年间接受调查的大多数大型语言模型均基于该数据集进行训练(Mozilla 基金会,《“仅需一个三明治的价格”就能获得训练数据》, 2024)。
局限性:数据过时与数据质量
Common Crawl 的快照每月更新一次,但即使是仅一个月前的抓取数据,也可能遗漏突发新闻、价格变动、新发布的研究报告或需要登录才能访问的内容。此外,由于爬虫仅抓取静态 HTML 内容,因此含有大量 JavaScript 的页面通常会返回不完整或空的响应。
质量是第二个需要关注的问题。该语料库中存在大量重复内容、垃圾信息和低质量页面。大多数大型语言模型(LLM)的训练流程在使用前都会进行大量过滤和去重处理,这不仅增加了工程成本,而且最终的训练集仍会残留一些噪声。
使用场景
- LLM预训练: Common Crawl 提供了覆盖面广泛的文本数据集,这是大多数大型语言模型构建的基础,涵盖了多种语言、主题和写作风格。
- 学术研究: 研究人员利用它来研究网络结构、语言分布和内容趋势,而无需自行运行网络爬虫。
- 搜索索引的自举: 新的搜索引擎会以Common Crawl作为起点,然后在此基础上叠加更新鲜的抓取数据。
- 新鲜度缺口填补: 需要当前页面数据、实时价格或渲染内容的团队,通常会将静态的 Common Crawl 数据与实时访问工具结合使用。Massive 的 Web Render API 可在任何位置检索实时渲染的页面,弥补了每月快照无法解决的时效性缺口。
常见问题解答
是的。Common Crawl 会将所有数据免费公开发布在 AWS S3 上。实际的主要开销在于下载或处理 petabytes 级数据所需的带宽和计算资源,而非访问费用。
Common Crawl 大约每月发布一次新的爬取数据。每次发布都会新增数十亿个网页,例如 2025 年 8 月的爬取数据就新增了约 24.2 亿个网页(Common Crawl(官方概述)(2025年)。较早的快照将在S3上无限期保留。
规模与成本。没有任何其他免费数据集的覆盖范围能与之相提并论。据估计,GPT-3 超过 80% 的训练令牌来自 Common Crawl(Mozilla 基金会,《“仅需一个三明治的价格”就能获得训练数据》(2024年),且截至2023年训练完成的大多数主要模型都呈现出相同的模式。
数据通常至少滞后数周,且无法涵盖通过 JavaScript 渲染的内容。该语料库还包含大量需要过滤的噪声。对于需要实时价格、实时搜索结果或最新发布内容的应用程序而言,仅靠每月一次的静态快照是远远不够的。