人工智能和知识图谱:人工智能中知识图谱的概述
2 天前 / 阅读约15分钟
来源:36kr
在人工智能中的作用

知识图谱 (KG) 是由现实世界实体(节点)及其相互关系(边)组成的结构化网络,以机器可读的形式对知识进行编码。在人工智能领域,知识图谱是语义理解、推理和数据集成的强大工具。它们为人工智能系统提供上下文,通过链接不同的数据源并揭示隐藏的关系,实现更易于解释、更准确的决策。 

知识图谱的概念最初由谷歌 2012 年的知识图谱推广,实际上建立在语义网络和本体领域数十年的研究基础之上,最早可追溯到 20 世纪 60 年代。如今,知识图谱已广泛应用于各行各业,从支持搜索引擎和语音助手,到推动科学研究和企业分析的发展。未来的创新将致力于实现知识图谱构建的自动化,增强推理能力,并将知识图谱与人工智能模型紧密结合,从而构建更值得信赖、更具情境感知能力和更智能的系统。 

定义和结构

知识图谱是一种将知识表示为一组实体(节点)及其之间关系(边)的网络。每个节点通常对应于由唯一 ID 或 URI 标识的现实世界概念或对象(例如,人物、地点或物品);每条边表示连接两个实体(例如, Person worksFor Company )的特定关系或谓词。属性 (Attribute) 可以注释节点和边以捕获其他详细信息(例如,实体的名称、出生日期等)。与严格的关系数据库不同,知识图谱使用灵活的基于图的数据模型(通常是 RDF 或属性图),这些模型可以适应异构和不断发展的数据。这种灵活性和表现力使知识图谱能够捕获信息的 上下文 和 含义 ,从而促进不同数据源的整合和新事实的推断。 

在人工智能中的作用

知识图谱在实现机器推理和语义理解方面发挥着关键作用。通过将数据组织成一个有意义网络,知识图谱为人工智能系统提供了一种关于世界的结构化“背景知识”。它们充当了原始数据与更高层次理解之间的桥梁:人工智能算法可以遍历知识图谱以查找多跳连接、应用逻辑规则或利用关联的上下文来丰富数据。知识图谱的常见人工智能用例包括: 

知识集成: 知识图谱通过链接来自多个来源的信息来打破数据孤岛,创建统一的“全局”。它们通过使用共享的标识符和模式来促进数据访问和互操作性。例如,知识图谱可以整合客户数据、产品数据和社交媒体数据,从而实现在孤立数据库中难以实现的整体分析。

语义丰富:知识 图谱 (KG) 为 AI 工作流程增添语义语境。它们可以为原始数据赋予丰富的含义(本体、分类),从而提升机器学习和自然语言处理 (NLP) 等其他 AI 技术的性能。例如,图像识别系统可以使用知识图谱将检测到的对象与概念分类联系起来,从而增强对像素模式之外的理解。

推理和推论: 由于知识图谱明确地建模了关系,因此它们支持逻辑推理。基于图的推理器可以从现有事实中推断出新的事实(例如,推断两个人在同一家公司工作,他们可能是同事)。这种能力有助于人工智能系统实现与人类推理类似的飞跃,而不是仅仅依赖于统计相关性。

人机交互: 知识图谱通常用作可解释性和面向人类的知识检索的媒介。它们可以通过追踪图中的连接来生成人类可读的解释。在对话式人工智能中,知识图谱可以为聊天机器人或虚拟助手提供支持,确保答案基于已知事实,并提供这些事实的出处。 

意义和好处

知识图谱在人工智能中的重要性源于它们能够将知识 明确地 嵌入到人工智能系统中,而不是让一切都从头开始学习。这带来了几个好处:

减少数据需求: 通过利用图谱中编码的先验知识,AI 模型可能需要更少的训练样本即可获得良好性能。知识图谱可以提供背景信息,而机器学习模型原本需要从大量带标签的数据集中推断这些背景信息。例如,知识图谱可以告诉医疗 AI, 阿司匹林 是一种用于治疗 头痛的药物 ,而医疗 AI 的模型可能无法从有限的病历中轻松学习到这一点。事实上,知识图谱通过将领域知识注入 AI 流程,可以“减少对大量带标签数据集的需求”。

改进的迁移学习: 基于图谱的知识通常可以跨任务迁移。一旦人工智能系统能够访问广泛的知识图谱,它就可以将这些知识应用于新领域,而无需对每条信息进行重新训练。例如,自主代理在从一个城市移动到另一个城市时,可以迁移其对城市道路网络的理解(来自知识图谱),而无需从原始传感器数据中重新学习。这种对迁移学习的便利性是将知识图谱与机器学习相结合的公认优势。

可解释性: 知识图谱通过提供事实及其联系的透明表示,为 可解释人工智能 (XAI) 做出了贡献。由于每条边都具有语义含义,人工智能系统可以通过引用知识图谱中导出该结论的关系链来解释结论(例如,为什么会做出某个建议)。此类溯源和语义线索使人工智能决策更具 可检查性 和 可审计性 ,从而增强了信任。例如,金融人工智能可以通过指出交易受益人与已知欺诈实体之间的关联图路径来解释被标记的交易。

数据集成与互操作性: 知识图谱 (KG) 使用共享词汇表和标识符(通常遵循关联数据标准),实现系统间的互操作性。它们充当数据的通用语言,因此整个组织(或整个网络)的 AI 系统可以互联互通它们的知识。这在数据分散于不同数据库和格式的企业环境中至关重要——知识图谱可以将这些数据统一到一个语义层。它也是构建大规模 AI 的关键,谷歌利用其知识图谱通过集成语义上下文来改进搜索结果就是明证。

简史与演变

虽然“知识图谱”一词随着 2012 年谷歌的公告进入流行词汇,但其底层概念在人工智能历史中根深蒂固。知识图谱的早期形式可以追溯到20 世纪 60 年代的 语义网络 ——人工智能先驱使用的基于图的知识表示。在随后的几十年里,特别是在 20 世纪 90 年代, 本体形式化了如何用明确定义的分类法和关系来表示领域知识。20 世纪 90 年代末和 21 世纪初,由 Tim Berners-Lee 倡导的语义网 问世,他提议在网络上以机器可读的图形形式 (RDF) 发布数据。RDF 和 OWL(Web 本体语言)等举措以及 链接数据 原则(大约 2006 年)为在网络上互连数据提供了标准。所有这些都为现代知识图谱奠定了基础。谷歌的知识图谱标志着一个转折点,它在网络规模上展示了一个庞大的互连实体描述图如何为搜索和问答提供动力。继谷歌之后,其他科技巨头也构建了自己的知识图谱 , 例如微软为必应开发的 Satori、Facebook 的实体图谱,这一概念在学术界之外获得了广泛关注。当今的知识图谱已经发展到包括 领域特定图谱 (用于医学、金融等)、 开放知识库 (如 Wikidata)以及组织内部用于分析的 企业知识图谱。人们对动态知识图谱 的兴趣也日益浓厚,它会随着新数据的到来而不断更新和增长而不是静态快照。动态知识图谱通过允许图谱的结构随时间变化来解决知识不断发展的挑战 — — 例如,将新的研究结果自动集成到生物医学图中。这种演变仍在继续,当前的研究重点是知识图谱的扩展、构建自动化,以及将其与新兴的人工智能范式相结合。总而言之,知识图谱代表了数十年来人工智能知识表示研究的汇聚,如 今已在现实世界的人工智能系统中得以运用,为数据赋予 意义 和 理性 。 

最新进展

2023-2025 年期间,知识图谱研究取得了显著进展。一个主流趋势是 知识图谱与大型语言模型 (LLM) 及其他人工智能技术的融合,从而形成兼具符号方法和神经方法优势的混合系统。关键进展包括: 

知识图谱与大型语言模型 (LLM) 集成

 研究人员正在积极探索如何将知识图谱 (KG) 与 大型语言模型  (LLM) 集成,以实现更优的推理能力,并减少众所周知的 大型语言模型 幻觉问题。

一个方向是将知识图谱用作 大型语言模型  (LLM) 的 外部知识源 ,例如,从知识图谱中检索事实,作为 大型语言模型  (LLM) 答案的基础。这种方法在应用于非结构化知识时通常被称为 检索增强生成 (RAG) ,目前正在扩展到结构化知识图谱。

研究表明,将知识图谱事实与 大型语言模型  (LLM) 相结合可以提高事实准确性,并使模型能够处理涉及多跳推理的复杂查询。

然而,诸如将知识图谱知识的表示与 大型语言模型  (LLM) 基于语言的知识进行匹配等挑战仍然是研究的课题。另一个方向是使用 大型语言模型  (LLM) 实现 知识图谱构建和管理的自动化 。 2024 年,多项研究证明,LLM 可以通过提取实体和关系,在极少的人工监督下辅助从文本中构建知识图谱。这表明,利用生成式人工智能读取和吸收来自非结构化来源的信息,使知识图谱保持最新状态大有可为。

LLM 和知识图谱之间的相互作用已成为一个至关重要的课题,各种调查和研讨会都致力于探索这一新的研究前沿。普遍认为,LLM-KG 的协同作用是 双向的 :知识图谱可以使 LLM 更加扎实、更易于解释,而 LLM 可以使知识图谱的创建和查询理解更加自动化。这种协同效应是近期会议的一大亮点。

例如,Gerhard Weikum 在 ISWC 2023 上发表了题为“大型语言模型时代的知识图谱”的主题演讲,提出了整合搜索引擎、知识图谱和 大型语言模型  (LLM) 的架构,以实现稳健的信息检索。同样,Deborah McGuinness 在同一次会议上的主题演讲探讨了由生成式人工智能引发的语义网研究的“复兴”,表明人们对知识图谱作为强大 大型语言模型  (LLM) 补充的兴趣再度升温。

总而言之,到 2025 年,知识图谱与 大型语言模型 的整合将成为一条关键的研究途径,旨在将 符号推理 与 神经语言理解 相结合,应用于下一代人工智能系统。 

知识图谱嵌入和 Graph ML

 另一个活跃领域是 知识图谱嵌入 ,其目标是将实体和关系表示为连续空间中的向量。这有助于使用 ML 算法进行链接预测、实体分类以及大型知识图谱上的其他任务。TransE(2013)和 ComplEx(2016)等经典模型奠定了基础,而近期的研究正在进一步推动这一前沿的发展。

从 2023 年到 2025 年,研究人员将引入更具表现力的嵌入技术,这些技术能够处理复杂的关系模式(例如对称性、层次结构)和多跳推理。例如,基于图神经网络 (GNN) 和 Transformer 构建的模型越来越受欢迎: 关系图卷积网络 (R-GCN) 及其变体采用了邻域结构,而较新的 Graph Transformer 架构则旨在捕获图中的长距离依赖关系。

 2024 年的 IEEE 会议论文《探索知识图谱嵌入的前沿》强调,现代 KG 嵌入正在解决诸如时间动态(随时间变化的知识)、多模态知识(将文本、图像合并到实体表示中)以及海量图的可扩展性等挑战。人们还对将更多 语义 带回嵌入模型感兴趣——例如,将本体信息或逻辑规则合并到嵌入训练中,以确保学习到的向量遵守已知约束的方法。

FB15k-237 和 Wikidata5M 等基准测试继续推动进步,Papers With Code 报告称,到 2025 年,最先进的链接预测结果将稳步提升。除了静态嵌入之外, 知识图谱补全技术还与逻辑推理 (例如规则挖掘算法)相结合,以提高准确性;一些 2023 年的研究将基于规则的推理与基于嵌入的预测相结合,以达到两全其美的效果。 

自动推理与查询

这一时期知识图谱推理 算法也取得了进展。这包括针对大型三元组存储的改进的 SPARQL 查询优化器,以及将符号逻辑与神经网络相结合的新型推理方法。例如,神经符号系统可以使用可微逻辑对知识图谱进行推理,从而能够处理不确定性和噪声。一种趋势是开发能够 超越三元组 的推理方法,承认现实世界的知识通常不仅仅是二元关系。

这引发了对超关系知识图谱(具有 n 元事实或限定词,例如维基数据)及其相应推理技术的研究。2023 年的 K-CAP 会议论文综述了“超越三元组的推理”,并重点介绍了处理复杂断言(例如涉及多个实体或上下文的断言)的系统。

此外,查询语言也在不断发展——SPARQL 仍然是 RDF 知识图谱的主导,但人们正在探索用于属性图和图挖掘的扩展和全新语言。 Cypher(Neo4j 的查询语言)影响了 openCypher 和 GQL 提案,与此同时,TigerGraph 中的 GSQL 则强调分布式图分析。它与机器学习的相互作用体现在 神经查询应答 中:像 KG-BERT 这样的系统将知识图谱查询视为文本,并使用 Transformer 模型来查找答案,从而连接自然语言处理 (NLP) 和结构化查询。与此同时,语义网社区已经制定了 SPARQL-Star(用于更好地处理关于语句的语句)和 SHACL(用于约束检查)等标准,这反映了我们查询和验证知识图谱方式的持续改进。 

新兴趋势

2025 年新兴研究趋势: 

(a)知识图谱  ( KG) 与 大型语言模型  (LLM) 的协同作用 处于前沿,旨在实现既能回忆事实又能生成流畅文本的人工智能。 

(b) 企业规模和自动管理 ——许多进展都集中在使知识图谱更易于构建和维护(使用人工智能进行提取、众包贡献或自我更新机制)。 

( c ) 可解释且值得信赖的人工智能 ——知识图谱越来越多地被视为用户可以信赖的人工智能途径,它通过使用事实图谱支撑决策。 

(d) 特定领域的知识图谱 ——专门的图谱(例如,在生物医学、地球科学或法律领域)正在蓬勃发展,每种领域都催生了对自定义本体和定制算法的研究(例如,用于连接基因、蛋白质和化合物的药物发现知识图谱)。 

( e) 知识图谱嵌入 2.0—— 超越简单的翻译模型,转向更复杂的、或许是 混合符号嵌入的 方法,该方法将本体模式和文本描述与用于表征学习的图结构相结合。 

( f ) 多模态数据集成 ——致力于将图像、音频和视频纳入知识图谱(例如,将实体链接到图像节点),并在此类多模态知识图谱上进行表征学习。 

总体而言,目前最先进的技术表明,知识图谱 与人工智能的结合越来越深入,可扩展性越来越强,并且 在构建和使用方式上也越来越智能。