Qu'est-ce que les données d'entraînement pour les modèles LLM ?
Données d'entraînement pour les modèles LLM Il s'agit du corpus de texte à grande échelle utilisé pour le pré-entraînement et le réglage fin d'un modèle linguistique de grande envergure. Il provient en grande partie du Web public et est complété par des livres, des dépôts de code, des articles universitaires et des ensembles de données sélectionnés avec soin. La qualité, la taille et la diversité de ce corpus déterminent directement les connaissances du modèle et la qualité de son raisonnement.
Que contiennent réellement les données d'entraînement des modèles LLM ?
Les modèles de pointe actuels sont entraînés à partir d'énormes volumes de texte. Les derniers modèles dont les spécifications ont été rendues publiques (DeepSeek v3, Gemma 3, Llama 4, Qwen 3) ont été entraînés sur environ 14 à 36 billions de tokens, dont la majeure partie provient de textes extraits du Web (Common Corpus : la plus grande collection de données éthiques pour le pré-entraînement des modèles de langage à grande échelle (LLM), arXiv, 2025). Les données issues du web dominent, car elles couvrent un éventail de sujets, de langues et de styles d'écriture plus large que n'importe quelle source sélectionnée individuellement.
Au-delà du HTML brut, les ensembles de données d'entraînement comprennent généralement Wikipédia, des livres, des articles universitaires, du code provenant de GitHub et des discussions de forums filtrées. Chaque source apporte une dimension linguistique différente. Le code améliore le raisonnement structuré ; les livres développent la cohérence dans les textes longs ; les pages web permettent de disposer de connaissances étendues et actualisées.
Comment les données Web sont-elles collectées et traitées ?
La constitution d'un corpus d'entraînement à grande échelle commence par un robot d'indexation et se termine par une déduplication rigoureuse et un filtrage de qualité. FineWeb est un corpus de pré-entraînement ouvert de 15 000 milliards de tokens, issu de la distillation et de la déduplication de 96 instantanés de Common Crawl couvrant les données du Web de 2013 à avril 2024 (Hugging Face, jeu de données FineWeb, 2024). Ce processus élimine les pages quasi-dupliquées, les contenus de mauvaise qualité et les informations permettant d'identifier une personne avant que les données ne soient utilisées pour un cycle d'apprentissage.
La phase de nettoyage est tout aussi importante que celle de la collecte. Un texte bruyant ou redondant peut entraîner des « hallucinations » chez les modèles, les amener à reproduire des formules toutes faites ou à se surajuster à des schémas de mise en forme spécifiques. Les équipes ont recours à des filtres heuristiques, à des classificateurs de qualité basés sur des modèles et à une repondération par domaine afin d'obtenir un résultat final équilibré.
Cas d'usage
Développement de modèles d'IA: Les équipes de recherche et les laboratoires d'IA explorent le Web public afin de constituer des corpus de pré-entraînement. Du code HTML propre et dédupliqué à grande échelle constitue la matière première de chaque cycle d'entraînement ultérieur.
Optimisation des pipelines: Une fois le pré-entraînement terminé, les équipes collectent des textes spécifiques à un domaine (dossiers médicaux, documents juridiques, rapports financiers) afin de spécialiser un modèle de base. Ces ensembles de données plus petits et ciblés sont alimentés par des données web précises et structurées provenant de sources ciblées.
Audit de la qualité des données: Les organisations qui mettent en place ou contrôlent des processus de formation doivent prélever des échantillons et examiner les documents sources au niveau des URL. L'accès programmatique au contenu Web actuel et affiché est une condition préalable à ce travail.
Le réseau de proxys résidentiels de Massive et sa Web Render API permettent aux équipes d'ingénierie des données de collecter à grande échelle du contenu Web de qualité « entraînement », dans différentes zones géographiques, à partir de sources qui bloquent les adresses IP des centres de données. Le point de terminaison « Browsing » renvoie du code HTML rendu ou du Markdown « propre », ce qui réduit le travail de prétraitement nécessaire avant la tokenisation.
Foire aux questions
Les données de pré-entraînement constituent le vaste corpus à l'échelle du Web qu'un modèle utilise pour apprendre les schémas linguistiques généraux. Les données de fin-ajustement sont un ensemble de données plus restreint, spécifique à une tâche, utilisé pour adapter ce modèle de base à un domaine ou à un comportement particulier. Les ensembles de pré-entraînement comptent des milliers de milliards de tokens ; les ensembles de fin-ajustement comptent souvent entre quelques milliers et quelques millions d'exemples.
Un texte de mauvaise qualité introduit du bruit susceptible de provoquer des « hallucinations », des résultats biaisés ou un raisonnement altéré. Le filtrage, la déduplication et un équilibrage minutieux des domaines donnent systématiquement de meilleurs résultats que le simple ajout de pages brutes ; c'est pourquoi des pipelines tels que FineWeb investissent massivement dans des indicateurs de qualité allant au-delà du simple comptage de tokens bruts.
Il s'agit d'un débat juridique et politique d'actualité. La légalité de cette pratique dépend des conditions d'utilisation du site source, du statut du contenu au regard du droit d'auteur et de la juridiction applicable. De nombreux éditeurs ajoutent désormais des directives robots.txt ou llms.txt des fichiers permettant d'indiquer les préférences en matière d'exploration, et les orientations juridiques continuent d'évoluer parallèlement aux litiges en cours.
Common Crawl met à disposition une archive gratuite et accessible au public de données issues d'explorations du Web remontant jusqu'à 2008. La plupart des ensembles de données de pré-entraînement des modèles de langage à grande échelle (LLM), qu'ils soient ouverts ou commerciaux, y compris FineWeb, partent d'instantanés de Common Crawl, puis appliquent leurs propres filtres et processus de déduplication à partir de cette base commune.