Что такое Common Crawl?
Common Crawl представляет собой некоммерческий открытый репозиторий, содержащий петабайты общедоступных веб-данных, которые публикуются в виде новых наборов данных примерно раз в месяц и бесплатно размещаются на AWS (Common Crawl (официальный обзор), 2025). Каждый снэпшот предоставляется в трёх форматах: исходное содержимое страницы, выдержки метаданных и выдержки в виде простого текста. Он стал базовым корпусом, лежащим в основе большинства крупных языковых моделей, обучаемых в настоящее время.
Как работает Common Crawl
Автоматический сканер Common Crawl непрерывно индексирует миллиарды общедоступных веб-страниц и сохраняет результаты в трёх форматах файлов: исходные файлы WARC (полное содержание страниц), файлы WAT (метаданные) и файлы WET (извлечённый текст). Все снимки страниц хранятся в AWS S3 и доступны для бесплатной загрузки. Только в ходе сканирования, проведённого в августе 2025 года, было добавлено около 2,42 миллиарда страниц (Common Crawl (официальный обзор), 2025 г.).
Исследователи и компании используют эти выдержки для создания обучающих наборов данных, поисковых индексов и корпусов языковых моделей. Благодаря масштабности и отсутствию затрат этот ресурс стал стандартной отправной точкой для обучения ИИ. По оценкам, более 80 % токенов, использованных для обучения GPT-3, были получены из Common Crawl, и большинство крупных языковых моделей, проанализированных в период с 2019 по 2023 год, были обучены на этом наборе данных (Фонд Mozilla, «Обучающие данные за цену сэндвича», 2024 г.).
Ограничения: устаревание данных и качество данных
Снимки Common Crawl обновляются ежемесячно, однако даже в результатах сканирования, полученных месяц назад, могут отсутствовать последние новости, изменения цен, недавно опубликованные исследования или контент, доступный только после входа в систему. Кроме того, сканер фиксирует статический HTML-код, поэтому страницы с большим количеством JavaScript часто возвращают неполные или пустые ответы.
Второй проблемой является качество. Корпус содержит огромное количество дубликатов контента, спама и страниц низкого качества. Большинство конвейеров обучения больших языковых моделей (LLM) перед использованием проходят несколько этапов тщательной фильтрации и удаления дубликатов, что увеличивает инженерные затраты и, тем не менее, оставляет остаточный шум в окончательном обучающем наборе.
Случаи использования
- Предварительное обучение модели LLM: Common Crawl предоставляет обширный текстовый массив, на котором основаны большинство крупных языковых моделей, охватывающий различные языки, темы и стили изложения.
- Научные исследования: Исследователи используют его для изучения структуры Интернета, распространения языков и тенденций в контенте, не запуская при этом собственных роботов-пауков.
- Инициализация индекса поиска: Новые поисковые системы используют Common Crawl в качестве исходной базы, а затем дополняют его более свежими данными сканирования.
- Устранение пробелов в свежести: Команды, которым требуются актуальные данные о страницах, цены в режиме реального времени или отрендеренный контент, часто сочетают статические данные Common Crawl с инструментами доступа к данным в режиме реального времени. Web Render API от Massive позволяет получать отрендеренную страницу в режиме реального времени из любого источника, устраняя пробелы в актуальности, которые не может покрыть ежемесячный снэпшот.
Часто задаваемые вопросы
Да. Common Crawl бесплатно публикует все данные в хранилище AWS S3. Основные практические расходы связаны с пропускной способностью и вычислительными ресурсами, необходимыми для загрузки или обработки петабайтов данных, а не с платой за доступ.
Common Crawl публикует новый набор данных, полученных в результате сканирования, примерно раз в месяц. Каждый выпуск пополняет базу данными миллиардами страниц; например, в результате сканирования, проведённого в августе 2025 года, было добавлено около 2,42 миллиарда страниц (Common Crawl (официальный обзор), 2025 г.). Более старые снимки остаются доступными в S3 на неопределенный срок.
Масштаб и стоимость. Ни один другой общедоступный набор данных не может сравниться с ним по охвату. По оценкам, более 80 % токенов, использованных для обучения GPT-3, были взяты из Common Crawl (Фонд Mozilla, «Обучающие данные за цену сэндвича», 2024 г.), и большинство основных моделей, обученных до 2023 года, демонстрировали ту же тенденцию.
Данные всегда устаревают как минимум на несколько недель и не включают контент, отображаемый с помощью JavaScript. Кроме того, в корпусе присутствует значительное количество шума, который необходимо отфильтровать. Для приложений, которым требуются актуальные цены, результаты поиска в режиме реального времени или только что опубликованный контент, одного ежемесячного статического снимка недостаточно.