本体论:人工智能真正运作的隐藏层
4 小时前 / 阅读约13分钟
来源:36kr
数据本体通过创建机器可理解的业务词汇表解决数据一致性问题,定义业务概念、关系和规则,推动智能分析和AI推理。本体与主数据管理互补,为AI提供语义基础,实现跨系统一致性和可扩展性。

如今大多数组织面临的挑战并非在于如何收集数据,而在于如何确保数据在所有系统、团队和工具中都具有相同的含义。

现有数据与已被理解的数据之间存在的鸿沟,正是本体论发挥作用的地方。随着人工智能在企业运营中扮演越来越重要的角色,弥合这一鸿沟不再是锦上添花,而是至关重要的基础。

人工智能可以访问你的数据,但如果没有共同的含义,它就只是高明的猜测。数据本体通过创建机器可理解的业务词汇表(包括实体、关系和规则)来解决这个问题,从而推动增长、扩展和智能分析。

要了解基于本体的模型如何驱动增长,我们首先需要了解其框架。让我们先来了解一下这个框架!

什么是数据本体?

数据本体是对特定领域知识的正式、结构化表示。它定义了业务中存在的概念、描述这些概念的属性以及连接这些概念的关系,从而形成一个共享的、机器可理解的词汇表。

与定义结构和格式的数据模型不同,本体定义了上下文和意义。

这一切都关乎知识、机器可理解的词汇以及数据的一致性,从而实现人工智能。

它超越了简单的模式设计,增加了语义层:确保“产品”在您的 ERP、分析平台、AI 管道以及每个接触数据的团队中都具有相同的含义。

本体显式地编码业务含义。它们作为可重用的语义层位于物理存储(数据库、数据仓库、数据湖)之上,无需重复数据即可实现知识图谱、语义搜索和人工智能工作流。

数据本体的核心组成部分包括:

  1. 实体类型:可重用的现实世界概念(产品、订单、发货)的逻辑模型。每个实体类型都对该概念的名称、描述、标识符和约束进行了标准化,从而确保企业内的每个团队都基于相同的定义开展工作。
  2. 实体实例:实体类型的实际发生情况,由数据绑定填充。它们跟踪哪些来源创建了这些实例,它们的有效时间以及它们如何参与关系。
  3. 属性:关于实体的命名事实,具有已声明的数据类型,绑定到源字段,并包含丰富的语义元数据。属性确保跨系统类型、单位和命名的一致性。
  4. 关系:实体类型或实例之间的定向链接,承载着明确的语义含义,而不仅仅是技术上的连接。

你也可以将本体视为你的业务上下文层:一个概念目录,定义一次,处处可重复使用,由数据绑定支持,将这些概念与你的实际数据源连接起来,以图表的形式表示,以便更丰富地导航和推理,并通过查询表面公开,使你可以询问有关业务实体而不是原始表的问题。

数据模型中的本体

一旦定义了本体,它就与你的数据绑定在一起,从而可以查询和可视化信息,并了解它对你的业务的实际意义。

与定义结构和格式的传统数据模型不同,本体定义了上下文和含义。

这种区别对人工智能有着直接的影响。数据本体是知识图谱和语义搜索的基础,而知识图谱和语义搜索又是智能分析和人工智能推理的基石。基于本体的模型并非从表结构和列名中推断含义,而是通过明确定义业务术语、关系和治理规则来表示数据。

本体层位于物理数据之上、消费者之下,编码业务含义,而无需移动或替换数据。

基于本体的模型并非将数据建模为由表、键和连接构成的扁平结构,而是描述:

  • 事物是什么
  • 它们之间的关系
  • 这些关系在何种条件下有效?
  • 这些关系适用的情况

至关重要的是,基于本体的数据模型构建于物理数据之上。它们并不会取代数据库、数据仓库或存储系统。它们提供了一种语义结构,将原始数据转换为一致且可解释的表示形式,以便在分析、应用程序和人工智能系统中重复使用。

逻辑不是嵌入到查询、管道或仪表板中,而是直接将含义编码到模型本身中,作为已定义的概念、关系和约束。

一个实际例子:产品实体

以Product一家中型制造或零售企业中的实体为例。它很可能同时存在于多个系统中:

  • ERP用途Product_ID
  • 库存用途Unit_of_Measure
  • 计费用途Unit_Price

每个系统都有自己的模式、自己的标识符和自己的更新周期。

在以表格为中心的模型中,这些数据被视为独立的实体,必须进行合并、协调或复制。分析师最终会根据分析的具体情况选择信任哪个系统。团队试图为每个用例拼凑出一个统一的视图;但这种尝试往往是各自独立、前后矛盾且反复进行的。

基于本体的模型将产品定义Product为一个单一的权威概念,并将每个系统的标识符和属性显式地映射到该概念。其结果是:数据科学家和财务分析师现在基于相同的产品定义开展工作——无需召开协调会议。产品Product被视为一个业务实体进行查询,而不是一组松散关联的表。

本体论与主数据管理:大多数人忽略的关键区别

此时人们通常会有这样的反应:“这不就是主数据管理吗?”并非如此——而且这种区别比大多数人意识到的要重要得多。

MDM 专注于为每个实体创建单一的、可信的记录。它确保只有一个规范的Product ID 12345记录,对记录进行去重,并强制执行数据质量。它回答了以下问题:这些数据是否干净且一致?

基于本体的模型回答了一个完全不同的问题:这些数据意味着什么,以及它与其他一切有何关系?

主数据管理(MDM)生成的是一份黄金记录,而本体论则构建共享理解。MDM维护的是静态层级结构,而本体论则构建了一个动态图,人工智能体可以在此图上导航、推理并应用规则。

MDM专为BI和报表而构建。本体论专为AI、代理和智能工作流而构建。

两者是互补的,而非竞争的。可以这样理解:本体定义了产品的语义含义,包括其关系、规则和上下文。主数据管理 (MDM) 则提供了该概念的清晰、可信的实例。两者都不可或缺。但如果没有本体,即使是完美的 MDM 数据也会让 AI 模型感到困惑。它可能拥有清晰的记录,但却无法理解该产品是否处于活跃状态、哪些客户购买了它,或者根据当前的业务规则它属于哪个类别。

主数据管理 (MDM) 为人工智能提供可信赖的记录。本体论赋予人工智能使用这些记录的能力。

声明关系

传统的基于模式的方法依赖于表结构、命名约定和逻辑连接来捕捉业务含义,并假设这些约定就足够了。基于本体的模型则采取不同的立场:关系被明确声明并进行语义 命名。

例如:

  • 产品属于以下类别
  • 产品包含在订单行项目中
  • 产品采购自供应商

每一种关系都具有语义意义。它描述的是连接的含义,而不仅仅是两个表在技术上是如何连接的。

当同一实体之间存在多种关系时,这种区别就显得至关重要。在基于模式的模型中,歧义在查询时被解决,但这种解决方式往往不一致,不同工具和团队的处理方式也各不相同。而基于本体的模型则将每种关系视为一个独立的、有意构建的构造,可以对其进行管理、约束和重用。

语义目的直接编码在模型中。系统不再需要猜测适用哪种关系。

业务含义和编码约束

基于本体的模型不仅仅是命名关系,它们还编码了在给定上下文中数据何时有效、有意义或可用的规则。

本体中的约束可以表达:

  • 基数:一对一,一对多
  • 可选性:必需关系与可选关系
  • 有效性条件:关系成立的条件
  • 分类规则:实体如何被分类
  • 访问限制:谁可以查询什么

例如:订单行项目中的“产品”关系是必填项,订单必须包含产品。但“产品属于类别”关系是可选的,并非所有产品都进行了分类。

通过将这些约束直接嵌入模型中,基于本体的系统可以确保每个使用数据的工具、团队和人工智能系统都能一致地执行业务含义。

本体论作为一种受控词汇

本体论为整个企业提供一套受监管的词汇表:

  • 概念是用商业术语定义的,而不是用技术术语定义的。
  • 关系是有明确名称且有意为之的。
  • 约束条件表达规则和边界
  • 定义是共享的、版本化的、可重用的。

这套词汇表将成为跨系统、团队和工具的通用语言。当任何定义发生变更时,例如业务部门重新定义了“活跃产品”的含义,只需在模型层面更新一次,即可自动传播。每个下游系统都会继承更新后的定义,而无需对管道、仪表盘或查询进行单独更新。

一致性是通过设计来实现的,而不是通过流程来实现的。

基于本体的模型与传统数据模型

传统模型定义了数据的存储方式。基于本体的模型定义了数据的含义,并对使这种含义可信的规则进行了编码。

传统模型旨在高效地组织和存储数据,而基于本体的模型旨在明确地表示业务含义,并使该含义可在每个消费者之间重复使用。

随着数据环境的增长和消费模式从报告扩展到人工智能应用、工作流程和实时决策系统,这种区别变得意义重大。

实体关系图(ERD)和以模式为中心的模型针对存储和检索进行了优化。它们并非旨在表示高层业务语义,尤其是在同一实体之间存在多个语义关系的情况下。而这正是基于本体的模型所擅长的领域。

为什么查询级语义最终会失效

许多组织试图使用视图、连接和计算字段在模式之上构建含义层。短期内这种方法有效,但随着时间的推移,它会导致数据碎片化。

每个用户最终都会对数据做出自己的解读。不同团队对数据的定义也存在差异。一个简单的问题:“我们有多少款在售产品?”,根据查询者是谁以及查询的系统不同,得到的答案也会有所不同。

基于本体的模型将语义定义从查询中移出,并放入所有消费者依赖的共享结构中,从而消除重复、减少偏差并降低长期运营风险。

本体与元数据目录

有必要将基于本体的模型与元数据目录区分开来,因为人们经常将二者混淆。

元数据目录记录了模式、数据集、所有权和沿袭信息。它们是用于发现和治理的重要参考系统,但它们主要描述数据,而不是定义如何解释或使用数据。

基于本体的数据模型是可操作的。它们直接用于查询、分析和人工智能工作流程。其含义不仅被记录下来,而且在数据被使用的任何位置都会得到一致的执行和强化。

基于本体模型的复合价值

商业定义并非一成不变。随着业务增长、法规变化和运营模式演变,商业定义也会随之改变。

在传统的设置中,每一个定义更改都会波及数十个下游系统、管道和仪表板,每个系统、管道和仪表板都需要单独更新,而每个系统、管道和仪表板都存在不一致的风险。

在基于本体的模型中,更新后的逻辑只需在概念层重新定义一次。所有使用该本体的系统都会自动继承这一变更。本体通过标准 SQL 接口公开,因此无需重新实现或转换为特定于工具的格式,即可在 BI 工具、数据科学工作流、API 和 AI 系统中一致地重用。

人工智能分析中的本体论

各组织都在竞相将人工智能嵌入到工作流程、分析和应用程序中。但有一个因素却一直被低估:语言

人工智能系统能否创造价值、正确推理、提出值得信赖的见解、与企业实际思维方式保持一致,完全取决于它是否理解企业的语言。

在您的语境中,“活跃”具体指什么?“已完成订单”的定义是什么?您的产品线如何定义“收入”?这些并非工程问题,而是业务语言问题。如果这些问题没有正式的答案,人工智能就无法对您的数据进行可靠的推理。

本体论不仅为人工智能提供动力,它还能实现目标一致性。

本体论正是在此发挥了关键的基础设施作用。通过在数据、团队和工具之间建立共享理解,本体论成为人类决策者和人工智能系统之间协作的基础。

语义本体层将不同的源系统统一到一个单一的业务词汇下,将标准 SQL 暴露给 BI 工具、应用程序和 AI 系统,而无需数据移动或模式整合。

本体是人工智能赖以生存的记忆层。它为人工智能系统创建共享记忆,嵌入人们所依赖的业务真理,使人工智能不仅能够运行,还能熟练地运用您的行业、语言和逻辑。

在实践中,定义完善的本体论能够实现以下目标:

  • 与业务紧密结合的AI层:不仅仅是一个更智能的搜索框,而是一个能够根据您的实际业务环境进行推理的系统。
  • 受控词汇表会随着您的组织不断发展,从而确保人工智能在业务变化时仍能保持准确性。
  • 可解释人工智能的基础:在决策必须可审计的受监管行业中至关重要
  • 跨地区、跨语言、跨团队的可扩展语义理解
  • 一个供人类和机器共享的业务逻辑单一数据源

小结

现在的问题不再是你的组织是否会使用人工智能,而是你使用的人工智能是否基于你 业务的实际意义。

基于本体的模型将语义定义从查询中移出,并放入每个系统都可以依赖的共享结构中,从而减少重复、防止漂移,并构建可扩展的长期语义基础。

它们消除了产品数据的混乱,实现了可信赖的人工智能,并能随着产品目录、渠道和应用场景的扩展而无缝扩展。它们并非数据管理领域的新概念,但随着人工智能从实验阶段走向生产阶段,它们正变得日益重要。

能够正确处理这个问题的组织,不仅会拥有更智能的人工智能,还会拥有能够始终如一、准确无误且大规模地使用他们自身语言的人工智能。

如果你的产品数据不能用统一的业务语言表达,你的人工智能和分析就永远无法做到这一点。