除非你一直生活在与世隔绝的地方,或者 试图通过电话预约全科医生,否则你不可能注意到有关人工智能及其各种用途的炒作已经达到了狂热的程度。
现在,每个有价值的 PowerPoint 演示文稿都至少三次提到DeepSeek,两次提到“转型机遇”,以及至少一次关于 Agentic 涅槃的诱人承诺。
不可避免的是,在这种膨胀的期望达到顶峰之后,我们会进入沮丧的低 谷,然后最终走出困境,虽然伤痕累累,但更加睿智,迈入生产力的 高地 。只有到那时,我们才能真正完成一些工作,而不是仅仅谈论人工智能将如何从根本上改变现代生活的方方面面,同时导致我们大多数人失业。
当我们在这个危险的环境中航行,试图从虚构中筛选事实时,值得研究数据架构师在为成功的人工智能计划奠定基础方面所发挥的关键但经常被忽视的作用。
在谈论人工智能时,数据架构师可能会被遗忘的一个原因可能是,这个术语本身含义过于丰富,对不同的人来说意味着不同的东西,就像“饼干”描述了一种完全不同的烹饪体验,这取决于你站在大西洋的哪一边。
对招聘信息进行快速调查,就会发现一堆名副其实的头衔,每个头衔都描述了“数据架构师”的角色,但期望和职责却大相径庭:
企业数据架构师:睿智的圣人,高高在上,俯瞰整个数据格局,确保业务目标与数据战略保持一致。您可以称其为数据圣殿的祭司。
然后是数据解决方案架构师:这些工程师较少关注哲学数据思考,而更关心实际构建事物,他们经常在昨天就需要它的利益相关者不耐烦的注视下设计和实施数据解决方案。
数据建模师:这位有强迫症的表亲,会花费数小时来确保每个关系都正确定义为聚合、组合或关联。在规则和界限清晰的环境中才能蓬勃发展。
AI架构师:传统数据世界与数据科学和人工智能这个崭新领域的桥梁。他通晓两种语言,但两大阵营的纯粹主义者对他略感怀疑。
云数据架构师:从未遇到过无法迁移到云端的内部解决方案的现代化者,最好是将停机时间降至最低,并最大限度地减少安全团队的担忧。
数据产品架构师:数据架构师领域中相对较新的成员,他们将生活视为由精心打造的产品组成的互联网络,每个产品都完美地契合解决一个用例。如果不是分布式或联合式的,他们就不会感兴趣。
所有这些角色的共同点在于,他们负责设计和维护构建有效数据系统乃至人工智能系统 所需的框架。从制定数据战略到实施治理框架,从创建数据模型到促进知识图谱开发,这些专业人士是幕后默默工作的英雄,确保 Agentic 咖啡机不会将您的抹茶拿铁和摩卡星冰乐混在一起。
在我们讨论数据架构师如何支持人工智能之前,有必要建立一个概念框架,以帮助定位他们的角色以及我们需要牢记的更广泛的考虑因素,以确保人工智能取得成功。
两个互补的模型在这里被证明特别有用:经典的 DIKW(数据-信息-知识-智慧)金字塔和最新的 AI 需求层次模型。
自 20 世纪 80 年代以来,DIKW 金字塔一直是信息科学的主要内容,它描述了:
数据由原始的、未经处理的事实和数字组成。
当数据被组织起来并赋予背景时,信息就会出现。
当信息被解释、综合和应用时,知识就会出现。
智慧源于知识、经验和判断的全面运用。
同时,人工智能需求层次理论(对马斯洛心理层次理论的巧妙改编,该版本受到Shopify 的启发)概述了成功实施人工智能的基本要求。
传统的 AI 需求层次结构倾向于强调工具和技术,将 AI 和深度学习置于顶峰,而 Shopify 的数据科学需求层次结构则采取了更注重影响的方法,与数据架构师的实际角色更加契合:
这种方法 的特别 之处在于它将影响力而不是技术放在首位。
数据架构师主要在这个层级的较低层级工作,奠定一切的基础。数据科学家和机器学习工程师可能专注于预测和 给出方案 ,而数据架构师则首先确保可靠、高质量的数据可用。
这就是为什么数据架构师的角色如此关键。为了攀升至这些层级结构的顶端,创造影响力并制定解决方案,组织往往在数据收集和建模等基础层面投入不足。这就像在没有首先确保地基牢固和结构完整的情况下试图建造一座宫殿。最终建成的宫殿在建筑效果图中可能看起来令人印象深刻,但最终建成后必然会倒塌。
Shopify 的做法提醒我们,最先进的技术并非总能产生影响。有时,一个简单、结构良好且文档清晰的数据集,比建立在不稳固数据基础上的最复杂的神经网络更有影响力。
1. 基线评估和人工智能准备情况评估
在深入研究最新的人工智能趋势之前,数据架构师应该确保组织了解其现状。这意味着要对数据成熟度和人工智能就绪程度进行绝对诚实的评估。
与其费力地推进,不如先确定哪些业务部门或职能部门已经拥有相对成熟的数据实践。绘制他们现有的数据集,评估其质量,并确定他们是否具备人工智能所需的基础要素:充足的相关数据、基本的治理结构以及清晰的用例。
同时,与业务利益相关者沟通,找出可以从AI解决方案中获益的紧迫挑战。目标并非是制作一份300页的报告,让它在某个被遗忘的SharePoint文件夹中积满数字灰尘,而是要快速识别唾手可得的成果,以及AI可以利用现有数据资产提供切实价值的问题。
2. 业务背景和流程转型构思
一旦确定了潜在用例,数据架构师必须暂时专注于理解所涉及的业务领域和流程。遗憾的是,许多一头扎进技术解决方案的 AI 项目忽视了这项任务。这个过程应该与业务和领域专家一 起进行,包括组织中作为更广泛的 EA 能力一部分的任何业务架构师。
它涉及:
最终成果应该是清晰的愿景,阐明如何转型业务流程,明确人工智能将为哪些具体接触点增值,以及支持人工智能所需的数据和信息流。它不应该是一个模糊的承诺,比如“利用人工智能让事情变得更好”,让每个人都摸不着头脑,难以理解其真正含义。
3. AI解决方案适用性分析
尽管众多供应商上门拜访可能会暗示你,但并非所有问题都需要 大型语言模型 学位。因此,我们需要确定哪种分析方法最适合当前问题。
至关重要的是,这项分析必须与数据科学和人工智能团队密切合作进行,并且可能与上一步的解决方案共同创建阶段有所重叠。数据架构师拥有数据结构、质量要求和企业集成方面的专业知识;数据科学家则拥有算法、模型特性和分析方法方面的专业知识。任何团队都无法独自做出最佳决策。
共同创建一个简单的决策框架,帮助利益相关者了解何时使用:
记住,最简单的解决方案往往是最好的。如果一个问题可以通过精心设计的 SQL 查询来解决,就没有必要部署一个需要小型发电站才能运行的基于 Transformer 的神经网络。
正如 Shopify 的层次结构提醒我们的那样,影响力比技术复杂性更重要。
4. 数据治理、上下文映射和合规架构
不同的人工智能系统有不同的治理要求。依赖结构化数据的传统机器学习模型对数据质量问题更为敏感,而 大型语言模型(LLM) 则需要围绕知识管理和业务上下文元数据进行治理。
数据架构师必须确保治理框架能够涵盖这些特定于 AI 的问题,同时满足监管要求。然而,与我们的“歌剧蛋糕”方法一致,我们应专注于为每个垂直切片创建恰到好处的治理,而不是试图从一开始就构建一个全面的企业数据治理框架。
通过考虑以下因素,将数据映射到治理影响中:
对于使用结构化数据的 ML 模型:
对于 大型语言模型(LLM) 和生成式人工智能:
建立适度治理,确保适当的环境、理解和合规性,同时又不扼杀创新。对于每个人工智能项目,创建一个最小可行的治理框架,该框架可以随着解决方案的成熟而扩展,而不是从一开始就坚持全面治理。
5.数据技术架构
人工智能模型需要数据,通常需要大量数据,而确保在正确的时间提供正确的数据是一个关键的架构问题。
评估:
如果每日或每周更新就足够,则应避免过度设计数据管道以提供实时数据。相反,应确保时间敏感型应用程序拥有低延迟数据访问所需的基础设施。目标是创建一个符合用途的技术架构,而不是不必要地复杂或昂贵。
6. AI技术架构
模型训练和部署的技术基础设施常常被低估,直至其成为关键的瓶颈。数据架构师应积极与AI和ML工程师合作,设计并支持可持续的AI技术架构,以支持初始模型开发和持续运营。
它应该解决以下问题:
创建可重复使用的模式,并融入模型版本控制、实验跟踪和部署自动化方面的最佳实践。通过尽早建立这些模式,您可以为随着 AI 在组织范围内的普及而实现高效扩展奠定基础。
7.安全和访问控制设计
人工智能系统经常处理敏感数据,并可能以意想不到的方式泄露信息。这是贯穿解决方案设计各个环节的关键问题。数据架构师必须与首席信息安全官 (CISO) 或同等级别的团队合作,确保在各个层面实施适当的安全控制。
考虑:
将安全性设计为架构的有机组成部分,而不是在发布前一周,当首席信息安全官 (CISO) 开始提出令人头疼的问题时,才将其作为事后补充。安全设计不仅确保人工智能系统在准确性方面值得信赖,还能确保其在敏感信息处理方面值得信赖。
8. 模型监控和漂移检测
随着周围环境的变化,模型会逐渐退化,这种现象被称为模型漂移。这种监控功能可以确保持续的质量,并维护解决方案成功所需的可信度。数据架构师应该与 AI 团队合作,设计和支持用于检测和预警各种漂移的监控系统。
需要考虑的事项包括:
设计架构不仅要能够检测这些问题,还要能够促进补救,例如在性能下降时自动触发重新训练或回退到更简单的模型。一个受到良好监控的系统可以随着时间的推移保持其价值,即使周围环境发生变化。
与以前一样,创建可重复使用的模式,其中包含最佳实践,可供以后的其他项目利用。
9. 消耗和反馈回路设计
AI并非孤立存在;它必须与现有系统和工作流程相集成,将洞察转化为行动。数据架构师应确保解决方案设计不仅适合模型开发,还适用于AI输出的消费以及至关重要的反馈回路。
考虑:
设计完整的反馈生态系统,既要考虑业务影响,也要考虑模型改进。这可能包括开发轻量级的注释工具,供用户校正模型输出,或实施 A/B 测试框架来比较不同的模型版本。请记住,有效的反馈循环可以将一次性的分析工作转化为可持续的系统,从而持续提供价值。
10.结果测量和价值跟踪
人工智能项目最终应该实现商业价值,而不仅仅是技术成果。数据架构师必须设计能够有效追踪和传达这一价值的系统。
建立:
从第一天起就将衡量指标融入架构,而不是事后匆忙量化价值。这可能包括 A/B 测试框架、价值归因模型,或与现有业务绩效跟踪系统的集成。通过将 AI 计划与业务成果明确关联,您可以创建一个良性循环,让成功催生进一步的投资和应用。
人工智能赋能之旅并非一次宏大的转型,而是一系列切实可行的渐进式步骤,这些步骤以清晰的愿景为指导,并基于商业现实。DIKW金字塔和人工智能需求层次结构为理解这一旅程提供了宝贵的框架,并强调了在实现更复杂的人工智能功能之前必须完成的关键基础工作。
数据架构师在这一旅程中扮演着至关重要的角色,他们并非承诺打造能够带来无限投资回报的AI独角兽,而是系统地构建基础,使有意义的AI应用成为可能,并作为团队的一员,为Opera提供完整的垂直细分市场。通过这种方式,我们可以确保AI项目快速实现价值,同时逐步构建更全面的功能。
在这个领域,最成功的数据架构师能够弥合炒作与现实、技术可能性与业务需求之间的差距。他们不会专注于繁琐的计算,而是专注于识别人工智能能够带来切实价值的具体问题,然后系统地解决架构需求,使这些解决方案具有可持续性。
在我们探索人工智能炒作周期的过程中,采用这种务实方法的数据架构师将创造真正的价值,而其他人则会对理论可能性赞不绝口。当我们最终达到生产力的顶峰时,他们将拥有可 运行的系统,而不是 PowerPoint 幻灯片。
毕竟,没有哪位技术顾问真正说过这样的话:
简单有效的解决方案比 无效的绝妙解决方案要好。