Qu'est-ce que Common Crawl ?

Common Crawl est un référentiel ouvert à but non lucratif contenant des pétaoctets de données Web publiques, dont une nouvelle collecte est publiée environ une fois par mois et hébergée gratuitement sur AWS (Common Crawl (présentation officielle), 2025). Chaque instantané est disponible en trois formats : le contenu brut des pages, des extraits de métadonnées et des extraits en texte brut. Il est devenu le corpus de référence sur lequel s'appuient la plupart des grands modèles linguistiques entraînés aujourd’hui.

Comment fonctionne Common Crawl ?

Le robot d'exploration automatisé de Common Crawl indexe en continu des milliards de pages web publiques et regroupe les résultats sous trois formats de fichiers : les fichiers WARC bruts (contenu complet des pages), les fichiers WAT (métadonnées) et les fichiers WET (texte extrait). Tous les instantanés sont stockés sur AWS S3 et peuvent être téléchargés gratuitement. À lui seul, le crawl d'août 2025 a ajouté environ 2,42 milliards de pages (Common Crawl (présentation officielle), 2025).

Les chercheurs et les entreprises exploitent ces extraits pour constituer des ensembles de données d'entraînement, des index de recherche et des corpus de modèles linguistiques. Son ampleur et son coût nul en ont fait le point de départ par défaut pour l'entraînement des IA. On estime que plus de 80 % des tokens d’entraînement de GPT-3 proviennent de Common Crawl, et la majorité des grands modèles linguistiques étudiés entre 2019 et 2023 ont été entraînés à partir de cette base de données (Fondation Mozilla, « Des données d'entraînement pour le prix d'un sandwich », 2024).

Limites : obsolescence et qualité des données

Les instantanés de Common Crawl sont mis à jour chaque mois, mais même un crawl datant d’un mois peut passer à côté d’actualités de dernière minute, de changements de prix, d’études récemment publiées ou de contenus accessibles uniquement après connexion. Le robot d’indexation capture également du code HTML statique ; par conséquent, les pages faisant un usage intensif de JavaScript renvoient souvent des réponses incomplètes ou vides.

La qualité constitue un deuxième sujet de préoccupation. Le corpus contient, à très grande échelle, du contenu en double, du spam et des pages de mauvaise qualité. La plupart des pipelines d'entraînement des modèles de langage à grande échelle (LLM) effectuent d'importants cycles de filtrage et de déduplication avant utilisation, ce qui augmente les coûts techniques tout en laissant subsister du bruit résiduel dans l'ensemble de données d'entraînement final.

Cas d'usage

Pré-entraînement du modèle LLM : Common Crawl fournit le corpus textuel à large couverture sur lequel reposent la plupart des grands modèles linguistiques, couvrant ainsi une grande variété de langues, de thèmes et de styles d'écriture.
Recherche universitaire : Les chercheurs s'en servent pour étudier la structure du Web, la répartition linguistique et les tendances en matière de contenu sans avoir à exploiter leurs propres robots d'indexation.
Initialisation de l'index de recherche : Les nouveaux moteurs de recherche utilisent Common Crawl comme point de départ avant d'y ajouter des données d'exploration plus récentes.
Combler le manque de fraîcheur : Les équipes qui ont besoin de données sur la page actuelle, de cours en temps réel ou de contenu mis en page associent souvent les données statiques de Common Crawl à des outils d'accès en temps réel. La Web Render API de Massive récupère la page mise en page en temps réel, quel que soit son emplacement, comblant ainsi les lacunes en matière d'actualité qu'un instantané mensuel ne peut pas combler.

Foire aux questions

Oui. Common Crawl met gratuitement à la disposition du public l'ensemble de ses données sur AWS S3. Les principales dépenses concrètes concernent la bande passante et la puissance de calcul nécessaires au téléchargement ou au traitement de pétaoctets de données, et non les frais d'accès.

Common Crawl publie un nouvel index à peu près tous les mois. Chaque mise à jour ajoute des milliards de pages ; c'est le cas notamment de l'index d'août 2025, qui a ajouté environ 2,42 milliards de pages (Common Crawl (présentation officielle), 2025). Les anciens instantanés restent disponibles sur S3 pour une durée indéterminée.

Ampleur et coût. Aucun autre ensemble de données accessible gratuitement n'atteint une couverture comparable. On estime que plus de 80 % des tokens utilisés pour l'entraînement de GPT-3 provenaient de Common Crawl (Fondation Mozilla, « Des données d'entraînement pour le prix d'un sandwich », 2024), et la plupart des principaux modèles entraînés jusqu'en 2023 ont suivi la même tendance.

Les données datent toujours d'au moins plusieurs semaines et ne prennent pas en compte le contenu généré par JavaScript. Le corpus comporte également un niveau de bruit important qui nécessite un filtrage. Pour les applications qui ont besoin de prix actualisés, de résultats de recherche en temps réel ou de contenu fraîchement publié, un instantané statique mensuel ne suffit pas à lui seul.