什么是Common Crawl？

Common Crawl 这是一个非营利性的开放数据仓库，收录了数拍字节的公开网络数据，大约每月发布一次新的爬取数据，并免费托管在 AWS 上（Common Crawl（官方概述）（2025年）。每个快照以三种格式发布：原始页面内容、元数据摘要和纯文本摘要。它已成为当今大多数大型语言模型训练背后的核心语料库。

Common Crawl 的工作原理

Common Crawl 的自动化爬虫持续对数十亿个公开网页进行索引，并将结果打包为三种文件格式：原始 WARC 文件（完整页面内容）、WAT 文件（元数据）和 WET 文件（提取的文本）。所有快照均存储在 AWS S3 上，可免费下载。仅 2025 年 8 月的抓取就新增了约 24.2 亿个页面（Common Crawl（官方概述）, 2025）。

研究人员和企业会提取这些数据快照，用于构建训练数据集、搜索索引和语言模型语料库。其庞大的规模和零成本特性，使其成为人工智能训练的默认起点。据估计，GPT-3 超过 80% 的训练令牌源自 Common Crawl，且 2019 年至 2023 年间接受调查的大多数大型语言模型均基于该数据集进行训练（Mozilla 基金会，《“仅需一个三明治的价格”就能获得训练数据》, 2024）。

局限性：数据过时与数据质量

Common Crawl 的快照每月更新一次，但即使是仅一个月前的抓取数据，也可能遗漏突发新闻、价格变动、新发布的研究报告或需要登录才能访问的内容。此外，由于爬虫仅抓取静态 HTML 内容，因此含有大量 JavaScript 的页面通常会返回不完整或空的响应。

质量是第二个需要关注的问题。该语料库中存在大量重复内容、垃圾信息和低质量页面。大多数大型语言模型（LLM）的训练流程在使用前都会进行大量过滤和去重处理，这不仅增加了工程成本，而且最终的训练集仍会残留一些噪声。

使用场景

LLM预训练： Common Crawl 提供了覆盖面广泛的文本数据集，这是大多数大型语言模型构建的基础，涵盖了多种语言、主题和写作风格。
学术研究： 研究人员利用它来研究网络结构、语言分布和内容趋势，而无需自行运行网络爬虫。
搜索索引的自举： 新的搜索引擎会以Common Crawl作为起点，然后在此基础上叠加更新鲜的抓取数据。
新鲜度缺口填补： 需要当前页面数据、实时价格或渲染内容的团队，通常会将静态的 Common Crawl 数据与实时访问工具结合使用。Massive 的 Web Render API 可在任何位置检索实时渲染的页面，弥补了每月快照无法解决的时效性缺口。

常见问题解答

是的。Common Crawl 会将所有数据免费公开发布在 AWS S3 上。实际的主要开销在于下载或处理 petabytes 级数据所需的带宽和计算资源，而非访问费用。

Common Crawl 大约每月发布一次新的爬取数据。每次发布都会新增数十亿个网页，例如 2025 年 8 月的爬取数据就新增了约 24.2 亿个网页（Common Crawl（官方概述）（2025年）。较早的快照将在S3上无限期保留。

规模与成本。没有任何其他免费数据集的覆盖范围能与之相提并论。据估计，GPT-3 超过 80% 的训练令牌来自 Common Crawl（Mozilla 基金会，《“仅需一个三明治的价格”就能获得训练数据》（2024年），且截至2023年训练完成的大多数主要模型都呈现出相同的模式。

数据通常至少滞后数周，且无法涵盖通过 JavaScript 渲染的内容。该语料库还包含大量需要过滤的噪声。对于需要实时价格、实时搜索结果或最新发布内容的应用程序而言，仅靠每月一次的静态快照是远远不够的。