Qu'est-ce qu'un graphe de connaissances ?

A graphe de connaissances est un réseau structuré qui code les informations sous forme de nœuds (entités), d'arêtes (relations entre ces nœuds) et de propriétés ou d'attributs, formant ainsi un réseau sémantique que les machines peuvent parcourir, plutôt qu'un simple tableau plat d'enregistrements (Wikipédia, Knowledge Graph, 2025). Cette structure permet au logiciel de comprendre comment les éléments s'articulent entre eux, et pas seulement ce qu'ils sont.

Comment fonctionne un graphe de connaissances ?

Un graphe de connaissances représente les faits sous forme de triplets : sujet, prédicat, objet. Par exemple : « Python » est lié à « langage de programmation » par la relation « est un ». Chaque nœud peut comporter des propriétés telles que la version, le créateur ou la licence, et chaque arête définit la direction et le type de la connexion. Il en résulte un réseau de sens lisible par machine, capable de répondre à des questions nécessitant plusieurs sauts entre des faits liés.

C'est cette structure qui rend la recherche augmentée par graphe utile pour les systèmes d'IA. GraphRAG, présenté par Microsoft Research début 2024, superpose la structure « entités-relations » d'un graphe de connaissances à la recherche vectorielle, afin qu'un modèle de langage à grande échelle (LLM) puisse répondre à des questions à plusieurs sauts sur les liens entre les concepts, et non pas simplement extraire des fragments similaires isolés (Génération assistée par la recherche à l'aide de graphes (GraphRAG), étude arXiv, 2025). Sans la couche graphique, un système de recherche pourrait faire apparaître des passages pertinents, mais passer à côté du fait que la société A a racheté la société B, ce qui explique pourquoi les deux partagent la même dépendance API.

Cas d'usage

Ancrage de l'IA et GraphRAG. Les modèles de langage de grande envergure (LLM) produisent moins de réponses erronées lorsque celles-ci s'appuient sur une source factuelle structurée. Un graphe de connaissances sert de colonne vertébrale, reliant entre elles des entités qu'un LLM pourrait confondre ou inventer. Les équipes chargées de développer des assistants IA internes intègrent un graphe de connaissances métier dans leur pipeline de recherche, afin que le modèle puisse explorer les relations entre les entités plutôt que de se contenter de faire correspondre des mots-clés.

Recherche d'entreprise et intégration des données. Les grandes entreprises gèrent des données réparties entre des systèmes CRM, des bases de données et des documents. Un graphe de connaissances regroupe ces sources au sein d'une seule couche sémantique, ce qui permet aux requêtes complexes de renvoyer des résultats corrects, même lorsque les données sous-jacentes se trouvent dans des systèmes distincts.

Pipelines de données Web pour la construction des connaissances. La construction d’un graphe de connaissances nécessite des données d’entrée structurées : noms d’entités, types et relations extraits de texte brut ou de code HTML. Le web scraping et l’extraction de données structurées alimentent ce processus. Les API qui renvoient des pages au format HTML « propre » ou Markdown réduisent le travail de prétraitement nécessaire avant de pouvoir commencer l’extraction des entités, ce qui constitue l’une des raisons pratiques pour lesquelles les équipes se tournent vers une couche de rendu telle que la Web Render API de Massive lorsqu’elles collectent des données Web pour la construction d’un graphe.

Foire aux questions

Une base de données relationnelle stocke les données sous forme de lignes et de colonnes selon un schéma fixe. Un graphe de connaissances stocke les données sous forme de nœuds et d'arêtes, ce qui permet de modéliser naturellement des relations arbitraires entre les entités et de parcourir des connexions à plusieurs sauts sans avoir recours à des opérations de jointure coûteuses.

GraphRAG est une technique de recherche, mise au point par Microsoft Research début 2024, qui associe la recherche vectorielle à un graphe de connaissances afin de permettre à un modèle de langage de grande envergure (LLM) de répondre à des questions sur les relations entre les entités, et non plus uniquement sur les documents sémantiquement similaires (Génération assistée par la recherche à l'aide de graphes (GraphRAG), étude arXiv, 2025).

Les graphes de connaissances sont construits en extrayant des entités et des relations à partir de sources structurées ou non structurées, notamment des pages web, des documents et des API. Les outils qui fournissent un contenu propre et analysable au format HTML ou Markdown réduisent le travail de prétraitement nécessaire avant de pouvoir commencer l'extraction des entités.

Non. Une base de données vectorielle stocke des représentations numériques et renvoie des résultats en fonction d'un score de similarité. Un graphe de connaissances stocke des entités nommées ainsi que des relations explicites et typées, et renvoie des résultats par parcours. Ces deux approches sont complémentaires : GraphRAG combine les deux pour traiter les requêtes qui nécessitent à la fois une similarité sémantique et un raisonnement structurel.