什么是知识图谱?
A知识图谱 是一种结构化网络,它将信息编码为节点(实体)、边(节点之间的关系)以及属性,从而形成一个机器可以遍历的语义网络,而非扁平化的记录表(维基百科,知识图谱(2025年)。这种结构使软件能够推断事物之间的关联方式,而不仅仅是识别事物的本质。
知识图谱是如何工作的?
知识图谱将事实表示为三元组:主体、谓词、对象。例如:“Python”通过“是”这一关系与“编程语言”相连。每个节点都可以携带版本、创建者或许可证等属性,每条边则定义了连接的方向和类型。 其结果是一个机器可读的语义网络,能够回答那些需要在相关事实之间进行多次跳转才能解答的问题。
正是这种结构,使得图增强检索在人工智能系统中大有可为。微软研究院于2024年初推出的GraphRAG,将知识图谱中的实体与关系结构叠加在向量检索之上,从而使大型语言模型(LLM)能够回答关于概念之间如何关联的多跳问题,而不仅仅是检索孤立的相似片段(基于图的检索增强生成(GraphRAG),arXiv综述(2025年)。如果没有图层,检索系统虽然可能找出相关段落,却可能会忽略A公司收购了B公司这一事实——而这正是两家公司共享同一API依赖关系的原因。
使用场景
AI 接地与 GraphRAG。 当大语言模型(LLM)的回答基于结构化的事实来源时,其错误答案的产生率会降低。知识图谱充当了 backbone,将大语言模型可能混淆或虚构的实体联系起来。开发内部 AI 助手的团队会将领域知识图谱集成到其检索管道中,以便模型能够遍历实体间的关联关系,而不仅仅是匹配关键词。
企业搜索与数据集成。 大型组织需要管理分散在CRM系统、数据库和文档中的数据。知识图谱将这些数据源整合到一个语义层中,即使底层数据存储在不同的系统中,也能通过复杂的查询返回正确的结果。
用于知识构建的网络数据管道。 构建知识图谱需要结构化输入:从原始文本或HTML中提取的实体名称、类型及关系。网络爬虫和结构化数据提取为这一过程提供支持。 能够将页面以干净的HTML或Markdown格式返回的API,可以减少实体提取开始前所需的预处理工作量,这也是团队在为知识图谱构建采集网络数据时,会选择Massive的Web Render API这类渲染层的一个实际原因。
常见问题解答
关系型数据库采用固定的模式,将数据存储在行和列中。知识图谱则将数据存储为节点和边,这使得建模实体之间的任意关系、以及在无需耗时费力的连接操作的情况下遍历多跳连接变得十分自然。
GraphRAG 是一种检索技术,由微软研究院于 2024 年初提出,它将向量搜索与知识图谱相结合,从而使大型语言模型(LLM)能够回答关于实体之间如何相互关联的问题,而不仅仅是哪些文档在语义上相似(基于图的检索增强生成(GraphRAG),arXiv综述, 2025)。
知识图谱是通过从结构化或非结构化数据源(包括网页、文档和API)中提取实体和关系来构建的。能够以HTML或Markdown格式返回干净、可解析内容的工具,可以减少在开始实体提取之前所需的前处理工作量。
不。向量数据库存储数值嵌入,并通过相似度得分检索结果;知识图谱则存储命名实体以及显式、有类型的关系,并通过遍历进行检索。这两者相辅相成:GraphRAG 结合了这两种方法,以处理同时需要语义相似度和结构推理的查询。