Qu'est-ce que les données synthétiques ?

Données synthétiques Il s'agit d'informations générées artificiellement qui reproduisent les propriétés statistiques des données du monde réel sans pour autant provenir d'événements ou d'utilisateurs réels. Les équipes d'IA les créent afin d'enrichir les ensembles de données d'entraînement, qui sont souvent limités, de combler les lacunes liées à la confidentialité ou de soumettre les modèles à des tests de résistance à grande échelle.

Comment les données synthétiques sont-elles créées ?

Les données synthétiques sont générées à l'aide de techniques telles que les réseaux antagonistes génératifs (GAN), les auto-encodeurs variationnels (VAE), la simulation statistique et la génération d'exemples étiquetés par des grands modèles linguistiques. Les données produites peuvent prendre la forme de textes, d'images, de tableaux ou de relevés de capteurs, selon les besoins du modèle en aval.

Son adoption s'est rapidement accélérée. Gartner prévoit que les données synthétiques représenteront plus de 60 % des données utilisées pour entraîner les modèles d'IA d'ici fin 2024, contre seulement 1 % en 2021 (Gartner, d'après une information relayée par Tech Monitor, 2024). Cette évolution reflète la pression exercée sur les équipes pour qu’elles agissent rapidement, sans attendre la mise en place de processus d’étiquetage manuel coûteux.

Données synthétiques vs données Web réelles

Les données synthétiques sont utiles, mais elles ont leurs limites. Comme elles sont dérivées de données existantes ou d'hypothèses de modèle, elles peuvent amplifier les biais existants ou passer à côté de cas marginaux qui n'apparaissent que dans des conditions réelles. Un modèle entraîné exclusivement sur du texte synthétique peut rencontrer des difficultés avec l'argot actuel, les noms de produits récemment créés ou les schémas réels de requêtes de recherche à mesure qu'ils évoluent.

Les données Web issues du monde réel apportent une actualité et une diversité que les pipelines synthétiques ne peuvent pas facilement reproduire. La collecte de contenus Web publics actuels, affichés tels qu’ils apparaissent réellement dans un navigateur, permet de saisir les schémas linguistiques, les signaux du marché et les relations entre entités tels qu’ils existent aujourd’hui. Les données synthétiques et les données collectées en temps réel sont souvent utilisées conjointement : les échantillons synthétiques comblent les lacunes de couverture, tandis que le contenu web récent ancrent le modèle dans la réalité actuelle.

Cas d'usage

Augmentation des données d'entraînement. Ces équipes génèrent des exemples synthétiques pour les classes rares, les catégories sensibles (dossiers médicaux, transactions financières) ou les langues disposant de peu de ressources, pour lesquelles les données réelles sont rares ou soumises à des restrictions.
Évaluation de l'IA et exercices de simulation d'attaques (red teaming). Les données d'entrée synthétiques adversaires permettent de tester la robustesse des modèles face à des cas limites qu'il serait difficile, voire dangereux, d'obtenir auprès d'utilisateurs réels.
Développement du pipeline. En attendant que l'ensemble de données réelles soit prêt, les données synthétiques permettent aux ingénieurs de mettre en place et de valider de bout en bout les pipelines de prétraitement et d'apprentissage.
Analyse comparative des données Web. Les chercheurs utilisent du code HTML synthétique et du contenu structuré pour tester des robots d'extraction et des outils d'extraction dans des conditions contrôlées, puis valident les résultats en les comparant à des pages réelles.

Foire aux questions

Pas toujours. Les données synthétiques donnent de bons résultats lorsque vous avez besoin d'un volume important ou d'étiquettes respectant la confidentialité, mais elles ne permettent pas de refléter les événements récents, l'évolution du domaine ni la complexité du comportement réel des utilisateurs. La plupart des systèmes d'IA en production combinent des données synthétiques et des données réelles afin de trouver un équilibre entre volume et précision.

Le risque majeur est celui de l'effondrement du modèle : lorsqu'un modèle est entraîné sur des données générées par un autre modèle, les erreurs et les biais peuvent s'accumuler au fil des générations successives. Les données synthétiques peuvent également ne pas refléter les changements de distribution, ce qui peut entraîner une baisse des performances du modèle face à des entrées réelles qu'il n'a jamais rencontrées.

Les données synthétiques peuvent répondre aux exigences en matière de protection de la vie privée lorsque les dossiers réels des utilisateurs ne peuvent pas être partagés. Comme elles ne sont pas liées à des personnes réelles, elles réduisent les risques d'exposition dans le cadre de réglementations telles que le RGPD et la loi HIPAA. Toutefois, si le processus de génération utilise des dossiers réels comme source, ces dossiers sources doivent tout de même être protégés conformément aux mêmes règles.

Elles répondent à des besoins différents. Les données Web fraîches fournissent des informations actuelles et concrètes qui font défaut aux pipelines de données synthétiques. Les données synthétiques complètent les exemples étiquetés et couvrent des scénarios que le contenu Web brut ne contient pas de manière fiable. La combinaison des deux permet généralement d'obtenir des modèles plus performants que si l'on se fiait à l'une ou l'autre de ces sources seule.