数据架构师在人工智能支持中的作用 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

数据架构师在人工智能支持中的作用

1 周前 / 阅读约17分钟

来源：36kr

数据架构师在人工智能支持中的作用

不可避免的人工智能炒作周期

除非你一直生活在与世隔绝的地方，或者试图通过电话预约全科医生，否则你不可能注意到有关人工智能及其各种用途的炒作已经达到了狂热的程度。

现在，每个有价值的 PowerPoint 演示文稿都至少三次提到DeepSeek，两次提到“转型机遇”，以及至少一次关于 Agentic 涅槃的诱人承诺。

不可避免的是，在这种膨胀的期望达到顶峰之后，我们会进入沮丧的低谷，然后最终走出困境，虽然伤痕累累，但更加睿智，迈入生产力的高地。只有到那时，我们才能真正完成一些工作，而不是仅仅谈论人工智能将如何从根本上改变现代生活的方方面面，同时导致我们大多数人失业。

当我们在这个危险的环境中航行，试图从虚构中筛选事实时，值得研究数据架构师在为成功的人工智能计划奠定基础方面所发挥的关键但经常被忽视的作用。

数据架构师的多面性

在谈论人工智能时，数据架构师可能会被遗忘的一个原因可能是，这个术语本身含义过于丰富，对不同的人来说意味着不同的东西，就像“饼干”描述了一种完全不同的烹饪体验，这取决于你站在大西洋的哪一边。

对招聘信息进行快速调查，就会发现一堆名副其实的头衔，每个头衔都描述了“数据架构师”的角色，但期望和职责却大相径庭：

企业数据架构师：睿智的圣人，高高在上，俯瞰整个数据格局，确保业务目标与数据战略保持一致。您可以称其为数据圣殿的祭司。

然后是数据解决方案架构师：这些工程师较少关注哲学数据思考，而更关心实际构建事物，他们经常在昨天就需要它的利益相关者不耐烦的注视下设计和实施数据解决方案。

数据建模师：这位有强迫症的表亲，会花费数小时来确保每个关系都正确定义为聚合、组合或关联。在规则和界限清晰的环境中才能蓬勃发展。

AI架构师：传统数据世界与数据科学和人工智能这个崭新领域的桥梁。他通晓两种语言，但两大阵营的纯粹主义者对他略感怀疑。

云数据架构师：从未遇到过无法迁移到云端的内部解决方案的现代化者，最好是将停机时间降至最低，并最大限度地减少安全团队的担忧。

数据产品架构师：数据架构师领域中相对较新的成员，他们将生活视为由精心打造的产品组成的互联网络，每个产品都完美地契合解决一个用例。如果不是分布式或联合式的，他们就不会感兴趣。

所有这些角色的共同点在于，他们负责设计和维护构建有效数据系统乃至人工智能系统所需的框架。从制定数据战略到实施治理框架，从创建数据模型到促进知识图谱开发，这些专业人士是幕后默默工作的英雄，确保 Agentic 咖啡机不会将您的抹茶拿铁和摩卡星冰乐混在一起。

DIKW 金字塔和 AI 需求层次：理解数据架构师角色的框架

在我们讨论数据架构师如何支持人工智能之前，有必要建立一个概念框架，以帮助定位他们的角色以及我们需要牢记的更广泛的考虑因素，以确保人工智能取得成功。

两个互补的模型在这里被证明特别有用：经典的 DIKW（数据-信息-知识-智慧）金字塔和最新的 AI 需求层次模型。

自 20 世纪 80 年代以来，DIKW 金字塔一直是信息科学的主要内容，它描述了：

数据由原始的、未经处理的事实和数字组成。

当数据被组织起来并赋予背景时，信息就会出现。

当信息被解释、综合和应用时，知识就会出现。

智慧源于知识、经验和判断的全面运用。

同时，人工智能需求层次理论（对马斯洛心理层次理论的巧妙改编，该版本受到Shopify 的启发）概述了成功实施人工智能的基本要求。

传统的 AI 需求层次结构倾向于强调工具和技术，将 AI 和深度学习置于顶峰，而 Shopify 的数据科学需求层次结构则采取了更注重影响的方法，与数据架构师的实际角色更加契合：

收集和建模：通过数据采集、平台开发、管道构建、数据建模和清理创建基础。
描述数据：通过报告、仪表板、指标、细分和探索性分析使用数据获得基本了解。
预测/推断：应用统计、因果推理和机器学习等更先进的技术来解决更深层次的问题。
规范行动：根据分析和实验，利用洞察力推荐具体行动。
影响力：无论技术复杂程度如何，通过一切必要手段对业务产生实际影响

这种方法的特别之处在于它将影响力而不是技术放在首位。

数据架构师主要在这个层级的较低层级工作，奠定一切的基础。数据科学家和机器学习工程师可能专注于预测和给出方案，而数据架构师则首先确保可靠、高质量的数据可用。

这就是为什么数据架构师的角色如此关键。为了攀升至这些层级结构的顶端，创造影响力并制定解决方案，组织往往在数据收集和建模等基础层面投入不足。这就像在没有首先确保地基牢固和结构完整的情况下试图建造一座宫殿。最终建成的宫殿在建筑效果图中可能看起来令人印象深刻，但最终建成后必然会倒塌。

Shopify 的做法提醒我们，最先进的技术并非总能产生影响。有时，一个简单、结构良好且文档清晰的数据集，比建立在不稳固数据基础上的最复杂的神经网络更有影响力。

数据架构师赋能 AI 的 10 种方法

1. 基线评估和人工智能准备情况评估

在深入研究最新的人工智能趋势之前，数据架构师应该确保组织了解其现状。这意味着要对数据成熟度和人工智能就绪程度进行绝对诚实的评估。

与其费力地推进，不如先确定哪些业务部门或职能部门已经拥有相对成熟的数据实践。绘制他们现有的数据集，评估其质量，并确定他们是否具备人工智能所需的基础要素：充足的相关数据、基本的治理结构以及清晰的用例。

同时，与业务利益相关者沟通，找出可以从AI解决方案中获益的紧迫挑战。目标并非是制作一份300页的报告，让它在某个被遗忘的SharePoint文件夹中积满数字灰尘，而是要快速识别唾手可得的成果，以及AI可以利用现有数据资产提供切实价值的问题。

2. 业务背景和流程转型构思

一旦确定了潜在用例，数据架构师必须暂时专注于理解所涉及的业务领域和流程。遗憾的是，许多一头扎进技术解决方案的 AI 项目忽视了这项任务。这个过程应该与业务和领域专家一起进行，包括组织中作为更广泛的 EA 能力一部分的任何业务架构师。

它涉及：

领域知识获取：深入研究特定业务领域，无论是抵押贷款承销、供应链优化还是客户服务运营。这意味着要摆脱技术术语的束缚，学习使用业务用户的语言，无论这有多么艰难。将语义记录在领域级词汇表和词典中，并使用这些语义创建概念和逻辑模型，这些模型的覆盖范围足以指导后续的用例解决方案设计。
业务流程考古：挖掘现有业务流程，通常能发现经过多年临时调整和变通而演变的古老工作流程。记录现有状态，无需评判（目前）。
目标状态研讨会促进：举办设计思维会议，将主题专家、最终用户和技术人员聚集在一起，共同设想转型流程。如果通过人工智能文档分析，抵押贷款审批流程从30天缩短到3分钟，会是什么样子？自动化和人工监督之间该如何平衡？
解决方案共同创造：采用产品管理思维，设计平衡技术可能性与实际需求的解决方案。这包括在编写任何代码之前，创建模型、用户旅程地图和原型来测试假设。

最终成果应该是清晰的愿景，阐明如何转型业务流程，明确人工智能将为哪些具体接触点增值，以及支持人工智能所需的数据和信息流。它不应该是一个模糊的承诺，比如“利用人工智能让事情变得更好”，让每个人都摸不着头脑，难以理解其真正含义。

3. AI解决方案适用性分析

尽管众多供应商上门拜访可能会暗示你，但并非所有问题都需要大型语言模型学位。因此，我们需要确定哪种分析方法最适合当前问题。

至关重要的是，这项分析必须与数据科学和人工智能团队密切合作进行，并且可能与上一步的解决方案共同创建阶段有所重叠。数据架构师拥有数据结构、质量要求和企业集成方面的专业知识；数据科学家则拥有算法、模型特性和分析方法方面的专业知识。任何团队都无法独自做出最佳决策。

共同创建一个简单的决策框架，帮助利益相关者了解何时使用：

传统分析和 BI（仍然足以解决许多问题）
经典机器学习模型（用于结构化数据预测）
计算机视觉系统（用于图像和视频分析）
自然语言处理（针对文本和语音）
生成式人工智能和大型语言模型（用于内容生成和复杂推理）

记住，最简单的解决方案往往是最好的。如果一个问题可以通过精心设计的 SQL 查询来解决，就没有必要部署一个需要小型发电站才能运行的基于 Transformer 的神经网络。

正如 Shopify 的层次结构提醒我们的那样，影响力比技术复杂性更重要。

4. 数据治理、上下文映射和合规架构

不同的人工智能系统有不同的治理要求。依赖结构化数据的传统机器学习模型对数据质量问题更为敏感，而大型语言模型(LLM) 则需要围绕知识管理和业务上下文元数据进行治理。

数据架构师必须确保治理框架能够涵盖这些特定于 AI 的问题，同时满足监管要求。然而，与我们的“歌剧蛋糕”方法一致，我们应专注于为每个垂直切片创建恰到好处的治理，而不是试图从一开始就构建一个全面的企业数据治理框架。

通过考虑以下因素，将数据映射到治理影响中：

对于使用结构化数据的 ML 模型：

如何衡量和维护数据质量？
需要进行哪些清洁或预处理？

对于大型语言模型(LLM) 和生成式人工智能：

您将如何通过元数据提供业务背景？
哪些知识管理系统将确保模型能够访问准确、最新的领域知识？
是否存在本体或知识图谱开发等信息架构要求来提供语义理解？
数据隐私对模型训练和部署有何影响？
这个特定用例需要什么级别的透明度和可解释性？
高风险应用程序是否有审计和沿袭要求？
应该实施哪些偏见检测和缓解策略？

建立适度治理，确保适当的环境、理解和合规性，同时又不扼杀创新。对于每个人工智能项目，创建一个最小可行的治理框架，该框架可以随着解决方案的成熟而扩展，而不是从一开始就坚持全面治理。

5.数据技术架构

人工智能模型需要数据，通常需要大量数据，而确保在正确的时间提供正确的数据是一个关键的架构问题。

评估：

需要哪些数据源？如何整合它们？我们需要移动数据吗？还是可以通过 API 或数据虚拟化提供访问？
如果您在数据网格/数据产品环境中工作，是否有现有的数据产品可供我们获取信息，还是需要构建新的（聚合）数据产品？我们能否将此用例的输出作为另一个支持多种用例的产品来交付？
源数据变化的速度有多快？模型对这些变化的敏感度有多高？
对于不同类型的决策来说，什么样的数据延迟是可以接受的？
需要什么级别的数据质量？如何维护？
为了培训目的，如何管理历史数据？

如果每日或每周更新就足够，则应避免过度设计数据管道以提供实时数据。相反，应确保时间敏感型应用程序拥有低延迟数据访问所需的基础设施。目标是创建一个符合用途的技术架构，而不是不必要地复杂或昂贵。

6. AI技术架构

模型训练和部署的技术基础设施常常被低估，直至其成为关键的瓶颈。数据架构师应积极与AI和ML工程师合作，设计并支持可持续的AI技术架构，以支持初始模型开发和持续运营。

它应该解决以下问题：

模型需要多久重新训练一次？
涉及哪些数据量？如何存储和访问训练数据？
特征工程如何实现标准化和版本控制？
需要哪些计算资源？这些资源是内部可用还是通过云提供商提供？
推理是离线（批处理）还是在线（实时）进行？
模型响应的延迟要求是什么？
在高峰使用期间系统如何扩展？
如果模型失败或降级，存在哪些后备机制？

创建可重复使用的模式，并融入模型版本控制、实验跟踪和部署自动化方面的最佳实践。通过尽早建立这些模式，您可以为随着 AI 在组织范围内的普及而实现高效扩展奠定基础。

7.安全和访问控制设计

人工智能系统经常处理敏感数据，并可能以意想不到的方式泄露信息。这是贯穿解决方案设计各个环节的关键问题。数据架构师必须与首席信息安全官 (CISO) 或同等级别的团队合作，确保在各个层面实施适当的安全控制。

考虑：

基于角色的模型训练、部署和使用访问控制
静态数据和传输中数据的加密
在适当的情况下，采用差异隐私或联邦学习等隐私保护技术
通过模型输出监控潜在的数据泄漏
用于 API 访问模型的身份验证和授权框架

将安全性设计为架构的有机组成部分，而不是在发布前一周，当首席信息安全官 (CISO) 开始提出令人头疼的问题时，才将其作为事后补充。安全设计不仅确保人工智能系统在准确性方面值得信赖，还能确保其在敏感信息处理方面值得信赖。

8. 模型监控和漂移检测

随着周围环境的变化，模型会逐渐退化，这种现象被称为模型漂移。这种监控功能可以确保持续的质量，并维护解决方案成功所需的可信度。数据架构师应该与 AI 团队合作，设计和支持用于检测和预警各种漂移的监控系统。

需要考虑的事项包括：

数据漂移（输入数据分布的变化）
概念漂移（输入和输出之间关系的变化）
性能漂移（模型准确率或其他指标下降）
操作问题（延迟峰值、资源利用率等）

设计架构不仅要能够检测这些问题，还要能够促进补救，例如在性能下降时自动触发重新训练或回退到更简单的模型。一个受到良好监控的系统可以随着时间的推移保持其价值，即使周围环境发生变化。

与以前一样，创建可重复使用的模式，其中包含最佳实践，可供以后的其他项目利用。

9. 消耗和反馈回路设计

AI并非孤立存在；它必须与现有系统和工作流程相集成，将洞察转化为行动。数据架构师应确保解决方案设计不仅适合模型开发，还适用于AI输出的消费以及至关重要的反馈回路。

考虑：

谁或什么会使用模型输出？人类会通过仪表盘或报告使用吗？其他系统会通过 API 使用吗？自主代理会通过 MCP 服务器使用吗？
是否可以根据模型输出自动做出决策，还是我们需要人工参与来做出或验证决策？
用户或系统将如何对模型准确性和性能提供反馈？
哪些指标将决定模型的成功？以及如何跟踪这些指标？
系统将如何捕获并整合这些反馈以改进未来的迭代？

设计完整的反馈生态系统，既要考虑业务影响，也要考虑模型改进。这可能包括开发轻量级的注释工具，供用户校正模型输出，或实施 A/B 测试框架来比较不同的模型版本。请记住，有效的反馈循环可以将一次性的分析工作转化为可持续的系统，从而持续提供价值。

10.结果测量和价值跟踪

人工智能项目最终应该实现商业价值，而不仅仅是技术成果。数据架构师必须设计能够有效追踪和传达这一价值的系统。

建立：

明确与每个人工智能计划相关的业务指标，以及这些指标反过来如何影响更广泛的企业指标。
衡量人工智能带来的改进的机制。
仪表板或报告以商业术语而非技术术语来传达价值。
审查结果并相应调整策略的过程。

从第一天起就将衡量指标融入架构，而不是事后匆忙量化价值。这可能包括 A/B 测试框架、价值归因模型，或与现有业务绩效跟踪系统的集成。通过将 AI 计划与业务成果明确关联，您可以创建一个良性循环，让成功催生进一步的投资和应用。

最后：务实的前进之路

人工智能赋能之旅并非一次宏大的转型，而是一系列切实可行的渐进式步骤，这些步骤以清晰的愿景为指导，并基于商业现实。DIKW金字塔和人工智能需求层次结构为理解这一旅程提供了宝贵的框架，并强调了在实现更复杂的人工智能功能之前必须完成的关键基础工作。

数据架构师在这一旅程中扮演着至关重要的角色，他们并非承诺打造能够带来无限投资回报的AI独角兽，而是系统地构建基础，使有意义的AI应用成为可能，并作为团队的一员，为Opera提供完整的垂直细分市场。通过这种方式，我们可以确保AI项目快速实现价值，同时逐步构建更全面的功能。

在这个领域，最成功的数据架构师能够弥合炒作与现实、技术可能性与业务需求之间的差距。他们不会专注于繁琐的计算，而是专注于识别人工智能能够带来切实价值的具体问题，然后系统地解决架构需求，使这些解决方案具有可持续性。

在我们探索人工智能炒作周期的过程中，采用这种务实方法的数据架构师将创造真正的价值，而其他人则会对理论可能性赞不绝口。当我们最终达到生产力的顶峰时，他们将拥有可运行的系统，而不是 PowerPoint 幻灯片。

毕竟，没有哪位技术顾问真正说过这样的话：

简单有效的解决方案比无效的绝妙解决方案要好。

上一篇：还傻傻分不清AI Agent和Agentic AI？康奈尔大学最新综述来了，一文读懂

下一篇：Agent “兴” ，企业软件 “亡” ？

返回列表

热文阅读

2 天前

台积电股东会都说了什么？董座魏哲家金句一次看

2 天前

海光与曙光4000亿棋局，完成了AI与互联网权力交接

2 天前

小米135亿豪赌芯片，拆解1.1万亿超级赛道：三大机会

2 天前

微容科技荣登《人民网》头版头条，看岭南粮仓如何长出“电子工业大米”

2 天前

【竞争】陆行之：先进封装成为半导体必争之地

2 天前

英特尔代工挖角三星“后院”：Direct Connect Asia 活动本月 24 日首尔举行

2 天前

英伟达发布 576.66 热修复驱动，解决浏览器视频播放红绿闪烁及多款游戏崩溃问题

1 天前

上海国资，一举投17家GP

2 天前

一文看懂华为昇腾芯片

2 天前

魏哲家：台积电海外设厂不会导致技术外流

上一篇：还傻傻分不清AI Agent和Agentic AI？康奈尔大学最新综述来了，一文读懂

下一篇：Agent “兴” ，企业软件 “亡” ？

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们