本体论：人工智能真正运作的隐藏层 - 云计算

Just Quick Just Quality

热门话题

白天

搜索

资讯

本体论：人工智能真正运作的隐藏层

4 小时前 / 阅读约13分钟

来源：36kr

数据本体通过创建机器可理解的业务词汇表解决数据一致性问题，定义业务概念、关系和规则，推动智能分析和AI推理。本体与主数据管理互补，为AI提供语义基础，实现跨系统一致性和可扩展性。

如今大多数组织面临的挑战并非在于如何收集数据，而在于如何确保数据在所有系统、团队和工具中都具有相同的含义。

现有数据与已被理解的数据之间存在的鸿沟，正是本体论发挥作用的地方。随着人工智能在企业运营中扮演越来越重要的角色，弥合这一鸿沟不再是锦上添花，而是至关重要的基础。

人工智能可以访问你的数据，但如果没有共同的含义，它就只是高明的猜测。数据本体通过创建机器可理解的业务词汇表（包括实体、关系和规则）来解决这个问题，从而推动增长、扩展和智能分析。

要了解基于本体的模型如何驱动增长，我们首先需要了解其框架。让我们先来了解一下这个框架！

什么是数据本体？

数据本体是对特定领域知识的正式、结构化表示。它定义了业务中存在的概念、描述这些概念的属性以及连接这些概念的关系，从而形成一个共享的、机器可理解的词汇表。

与定义结构和格式的数据模型不同，本体定义了上下文和意义。

这一切都关乎知识、机器可理解的词汇以及数据的一致性，从而实现人工智能。

它超越了简单的模式设计，增加了语义层：确保“产品”在您的 ERP、分析平台、AI 管道以及每个接触数据的团队中都具有相同的含义。

本体显式地编码业务含义。它们作为可重用的语义层位于物理存储（数据库、数据仓库、数据湖）之上，无需重复数据即可实现知识图谱、语义搜索和人工智能工作流。

数据本体的核心组成部分包括：

实体类型：可重用的现实世界概念（产品、订单、发货）的逻辑模型。每个实体类型都对该概念的名称、描述、标识符和约束进行了标准化，从而确保企业内的每个团队都基于相同的定义开展工作。
实体实例：实体类型的实际发生情况，由数据绑定填充。它们跟踪哪些来源创建了这些实例，它们的有效时间以及它们如何参与关系。
属性：关于实体的命名事实，具有已声明的数据类型，绑定到源字段，并包含丰富的语义元数据。属性确保跨系统类型、单位和命名的一致性。
关系：实体类型或实例之间的定向链接，承载着明确的语义含义，而不仅仅是技术上的连接。

你也可以将本体视为你的业务上下文层：一个概念目录，定义一次，处处可重复使用，由数据绑定支持，将这些概念与你的实际数据源连接起来，以图表的形式表示，以便更丰富地导航和推理，并通过查询表面公开，使你可以询问有关业务实体而不是原始表的问题。

数据模型中的本体

一旦定义了本体，它就与你的数据绑定在一起，从而可以查询和可视化信息，并了解它对你的业务的实际意义。

与定义结构和格式的传统数据模型不同，本体定义了上下文和含义。

这种区别对人工智能有着直接的影响。数据本体是知识图谱和语义搜索的基础，而知识图谱和语义搜索又是智能分析和人工智能推理的基石。基于本体的模型并非从表结构和列名中推断含义，而是通过明确定义业务术语、关系和治理规则来表示数据。

本体层位于物理数据之上、消费者之下，编码业务含义，而无需移动或替换数据。

基于本体的模型并非将数据建模为由表、键和连接构成的扁平结构，而是描述：

事物是什么
它们之间的关系
这些关系在何种条件下有效？
这些关系适用的情况

至关重要的是，基于本体的数据模型构建于物理数据之上。它们并不会取代数据库、数据仓库或存储系统。它们提供了一种语义结构，将原始数据转换为一致且可解释的表示形式，以便在分析、应用程序和人工智能系统中重复使用。

逻辑不是嵌入到查询、管道或仪表板中，而是直接将含义编码到模型本身中，作为已定义的概念、关系和约束。

一个实际例子：产品实体

以Product一家中型制造或零售企业中的实体为例。它很可能同时存在于多个系统中：

ERP用途Product_ID
库存用途Unit_of_Measure
计费用途Unit_Price

每个系统都有自己的模式、自己的标识符和自己的更新周期。

在以表格为中心的模型中，这些数据被视为独立的实体，必须进行合并、协调或复制。分析师最终会根据分析的具体情况选择信任哪个系统。团队试图为每个用例拼凑出一个统一的视图；但这种尝试往往是各自独立、前后矛盾且反复进行的。

基于本体的模型将产品定义Product为一个单一的权威概念，并将每个系统的标识符和属性显式地映射到该概念。其结果是：数据科学家和财务分析师现在基于相同的产品定义开展工作——无需召开协调会议。产品Product被视为一个业务实体进行查询，而不是一组松散关联的表。

本体论与主数据管理：大多数人忽略的关键区别

此时人们通常会有这样的反应：“这不就是主数据管理吗？”并非如此——而且这种区别比大多数人意识到的要重要得多。

MDM 专注于为每个实体创建单一的、可信的记录。它确保只有一个规范的Product ID 12345记录，对记录进行去重，并强制执行数据质量。它回答了以下问题：这些数据是否干净且一致？

基于本体的模型回答了一个完全不同的问题：这些数据意味着什么，以及它与其他一切有何关系？

主数据管理（MDM）生成的是一份黄金记录，而本体论则构建共享理解。MDM维护的是静态层级结构，而本体论则构建了一个动态图，人工智能体可以在此图上导航、推理并应用规则。

MDM专为BI和报表而构建。本体论专为AI、代理和智能工作流而构建。

两者是互补的，而非竞争的。可以这样理解：本体定义了产品的语义含义，包括其关系、规则和上下文。主数据管理 (MDM) 则提供了该概念的清晰、可信的实例。两者都不可或缺。但如果没有本体，即使是完美的 MDM 数据也会让 AI 模型感到困惑。它可能拥有清晰的记录，但却无法理解该产品是否处于活跃状态、哪些客户购买了它，或者根据当前的业务规则它属于哪个类别。

主数据管理 (MDM) 为人工智能提供可信赖的记录。本体论赋予人工智能使用这些记录的能力。

声明关系

传统的基于模式的方法依赖于表结构、命名约定和逻辑连接来捕捉业务含义，并假设这些约定就足够了。基于本体的模型则采取不同的立场：关系被明确声明并进行语义命名。

例如：

产品属于以下类别
产品包含在订单行项目中
产品采购自供应商

每一种关系都具有语义意义。它描述的是连接的含义，而不仅仅是两个表在技术上是如何连接的。

当同一实体之间存在多种关系时，这种区别就显得至关重要。在基于模式的模型中，歧义在查询时被解决，但这种解决方式往往不一致，不同工具和团队的处理方式也各不相同。而基于本体的模型则将每种关系视为一个独立的、有意构建的构造，可以对其进行管理、约束和重用。

语义目的直接编码在模型中。系统不再需要猜测适用哪种关系。

业务含义和编码约束

基于本体的模型不仅仅是命名关系，它们还编码了在给定上下文中数据何时有效、有意义或可用的规则。

本体中的约束可以表达：

基数：一对一，一对多
可选性：必需关系与可选关系
有效性条件：关系成立的条件
分类规则：实体如何被分类
访问限制：谁可以查询什么

例如：订单行项目中的“产品”关系是必填项，订单必须包含产品。但“产品属于类别”关系是可选的，并非所有产品都进行了分类。

通过将这些约束直接嵌入模型中，基于本体的系统可以确保每个使用数据的工具、团队和人工智能系统都能一致地执行业务含义。

本体论作为一种受控词汇

本体论为整个企业提供一套受监管的词汇表：

概念是用商业术语定义的，而不是用技术术语定义的。
关系是有明确名称且有意为之的。
约束条件表达规则和边界
定义是共享的、版本化的、可重用的。

这套词汇表将成为跨系统、团队和工具的通用语言。当任何定义发生变更时，例如业务部门重新定义了“活跃产品”的含义，只需在模型层面更新一次，即可自动传播。每个下游系统都会继承更新后的定义，而无需对管道、仪表盘或查询进行单独更新。

一致性是通过设计来实现的，而不是通过流程来实现的。

基于本体的模型与传统数据模型

传统模型定义了数据的存储方式。基于本体的模型定义了数据的含义，并对使这种含义可信的规则进行了编码。

传统模型旨在高效地组织和存储数据，而基于本体的模型旨在明确地表示业务含义，并使该含义可在每个消费者之间重复使用。

随着数据环境的增长和消费模式从报告扩展到人工智能应用、工作流程和实时决策系统，这种区别变得意义重大。

实体关系图（ERD）和以模式为中心的模型针对存储和检索进行了优化。它们并非旨在表示高层业务语义，尤其是在同一实体之间存在多个语义关系的情况下。而这正是基于本体的模型所擅长的领域。

为什么查询级语义最终会失效

许多组织试图使用视图、连接和计算字段在模式之上构建含义层。短期内这种方法有效，但随着时间的推移，它会导致数据碎片化。

每个用户最终都会对数据做出自己的解读。不同团队对数据的定义也存在差异。一个简单的问题：“我们有多少款在售产品？”，根据查询者是谁以及查询的系统不同，得到的答案也会有所不同。

基于本体的模型将语义定义从查询中移出，并放入所有消费者依赖的共享结构中，从而消除重复、减少偏差并降低长期运营风险。

本体与元数据目录

有必要将基于本体的模型与元数据目录区分开来，因为人们经常将二者混淆。

元数据目录记录了模式、数据集、所有权和沿袭信息。它们是用于发现和治理的重要参考系统，但它们主要描述数据，而不是定义如何解释或使用数据。

基于本体的数据模型是可操作的。它们直接用于查询、分析和人工智能工作流程。其含义不仅被记录下来，而且在数据被使用的任何位置都会得到一致的执行和强化。

基于本体模型的复合价值

商业定义并非一成不变。随着业务增长、法规变化和运营模式演变，商业定义也会随之改变。

在传统的设置中，每一个定义更改都会波及数十个下游系统、管道和仪表板，每个系统、管道和仪表板都需要单独更新，而每个系统、管道和仪表板都存在不一致的风险。

在基于本体的模型中，更新后的逻辑只需在概念层重新定义一次。所有使用该本体的系统都会自动继承这一变更。本体通过标准 SQL 接口公开，因此无需重新实现或转换为特定于工具的格式，即可在 BI 工具、数据科学工作流、API 和 AI 系统中一致地重用。

人工智能分析中的本体论

各组织都在竞相将人工智能嵌入到工作流程、分析和应用程序中。但有一个因素却一直被低估：语言。

人工智能系统能否创造价值、正确推理、提出值得信赖的见解、与企业实际思维方式保持一致，完全取决于它是否理解企业的语言。

在您的语境中，“活跃”具体指什么？“已完成订单”的定义是什么？您的产品线如何定义“收入”？这些并非工程问题，而是业务语言问题。如果这些问题没有正式的答案，人工智能就无法对您的数据进行可靠的推理。

本体论不仅为人工智能提供动力，它还能实现目标一致性。

本体论正是在此发挥了关键的基础设施作用。通过在数据、团队和工具之间建立共享理解，本体论成为人类决策者和人工智能系统之间协作的基础。

语义本体层将不同的源系统统一到一个单一的业务词汇下，将标准 SQL 暴露给 BI 工具、应用程序和 AI 系统，而无需数据移动或模式整合。

本体是人工智能赖以生存的记忆层。它为人工智能系统创建共享记忆，嵌入人们所依赖的业务真理，使人工智能不仅能够运行，还能熟练地运用您的行业、语言和逻辑。

在实践中，定义完善的本体论能够实现以下目标：

与业务紧密结合的AI层：不仅仅是一个更智能的搜索框，而是一个能够根据您的实际业务环境进行推理的系统。
受控词汇表会随着您的组织不断发展，从而确保人工智能在业务变化时仍能保持准确性。
可解释人工智能的基础：在决策必须可审计的受监管行业中至关重要
跨地区、跨语言、跨团队的可扩展语义理解
一个供人类和机器共享的业务逻辑单一数据源

小结

现在的问题不再是你的组织是否会使用人工智能，而是你使用的人工智能是否基于你业务的实际意义。

基于本体的模型将语义定义从查询中移出，并放入每个系统都可以依赖的共享结构中，从而减少重复、防止漂移，并构建可扩展的长期语义基础。

它们消除了产品数据的混乱，实现了可信赖的人工智能，并能随着产品目录、渠道和应用场景的扩展而无缝扩展。它们并非数据管理领域的新概念，但随着人工智能从实验阶段走向生产阶段，它们正变得日益重要。

能够正确处理这个问题的组织，不仅会拥有更智能的人工智能，还会拥有能够始终如一、准确无误且大规模地使用他们自身语言的人工智能。

如果你的产品数据不能用统一的业务语言表达，你的人工智能和分析就永远无法做到这一点。

上一篇：华为以安全智联升级星河AI网络携手伙伴共赢Agentic AI时代新增长

下一篇：英特尔锐炫 Arc Pro B70 专业显卡现身超微 IoT 服务器支持列表

返回列表

热文阅读

2 天前

为什么大厂必须抢郭达雅？

2 天前

WPS成为苹果的「榜一大哥」

1 天前

刚刚，马斯克晶圆厂，正式发布

2 天前

筹资1000亿美元，亚马逊贝索斯拟设立基金收购制造企业并引入AI

2 天前

黄仁勋的物理AI野望：将5G网络转变为分布式AI计算机

2 天前

【头条】杰理IPO成功过会！阿里裁员66000人！三名高管被捕,走私170亿AI芯片；三星关闭工厂

2 天前

马斯克：特斯拉将于12月完成2nm AI6芯片流片

2 天前

AMD 用十年证明“长寿插座”可行，英特尔暗示 LGA 1954 也要跟进支持多代处理器

2 天前

英特尔酷睿 Ultra 5 250KF Plus 处理器 PassMark 跑分曝光：多核提升约 25%

2 天前

英特尔酷睿 Ultra 7 251HX 处理器和英伟达 RTX 5070 12GB 笔记本显卡曝光

上一篇：华为以安全智联升级星河AI网络携手伙伴共赢Agentic AI时代新增长

下一篇：英特尔锐炫 Arc Pro B70 专业显卡现身超微 IoT 服务器支持列表

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们