谈谈AI 项目中需要关注的基本数据质量能力
1 天前 / 阅读约23分钟
来源:36kr
全面的数据质量和可靠性框架

围绕人工智能 (AI)大型语言模型 (LLM)的最初热潮已开始成熟。尽管基础的 LLM 本身正在迅速商品化,并通过API 和开源版本日益普及,但人工智能创新的步伐却远未放缓。相反,该行业的重点已急剧转向构建复杂的数据和人工智能解决方案,以提供可观的投资回报率 (ROI)和切实的商业价值,并 从单纯的实验转向战略实施。

企业最有防御力的竞争“护城河”在于其专有数据资产。

然而,这种战略优势在很大程度上取决于数据是否具有明显的高质量、可靠的一致性、丰富的上下文和严格的安全性。

数据固有的动态性意味着信息永远不会静止。随着数据流经复杂的工作流程,从源系统经过各种转换最终到达下游目标,这些关键数据管道的完整性和功能性可能会在其整个生命周期内反复显著下降。这种恶化通常源于多种因素,包括意外的上游数据模式变更、新字段的引入或底层业务逻辑的修改。至关重要的是,持续稳健地跟踪和管理这些变化,能够提供对数据整个沿袭和演变的深刻洞察。这种在单个数据管道和数据集层面保持的整体理解,对于确保持续的可靠性、实现有效的故障排除以及培养对下游分析产品的坚定信任至关重要。

本 文 探讨了全面的数据质量和可靠性框架应包含哪些内容,以及它如何使组织能够成功地进行分析。该框架强调了为什么如果不能及时全面地解决数据质量问题,数据和人工智能解决方案将无法满足企业的要求。

全面的数据质量和可靠性框架

数据质量是数据驱动决策成功的基石,因为决策结果的好坏取决于其所基于的数据。因此,确保数据的准确性、完整性、一致性、相关性、及时性和可访问性至关重要。全面的数据质量能够确保组织信任其使用的数据,从而做出更可靠、更有影响力的业务决策。

除了建立信任和可信度之外,有效的数据质量还能减少代价高昂的错误、错误的预测以及其他运营效率低下的问题。干净可靠的数据可以最大限度地减少返工,降低风险,并节省资源。

保持数据质量对于满足各行各业日益严格的监管标准和合规性要求至关重要。干净可靠的数据有助于避免法律处罚,并保护组织免受监管违规行为的侵害。

高质量的数据是探索新机遇、优化流程和推动创新的基础。正确捕捉和利用客户的偏好、行为和互动,还能提升客户满意度,从而提高客户忠诚度和客户粘性。换句话说,数据质量不仅仅是一项技术要求,更是业务的必要条件,是成功企业与失败企业之间真正的差异化因素。

但是数据团队能否确保他们充分处理数据质量和可靠性的各个方面?这需要一个如图1所示的综合框架。

图 1:结构化、全面的数据质量方法将带来可靠、可信的数据

这种集成方法利用元数据来确保用户能够获得实时、可信的洞察。一些供应商提供专注于特定领域的功能,但大多数企业寻求一套集成且全面的功能来全面管理端到端数据管道。这种方法统一了整个组织的数据管理实践,确保了一致性、准确性和可靠性。通过公开不同来源和系统的数据质量,可以建立统一的数据质量标准、策略和流程。当数据源分散在内部和外部时,孤立的团队往往会加剧数据质量问题。集成方法可以打破数据孤岛,鼓励各部门(例如 IT、数据管理、市场营销、财务)共同承担数据质量责任,从而促进跨部门协作。让我们检查一下每一层。

数据发现

数据发现是交付可靠数据和 AI 产品的首要基础要素,因为它能够全面概述所有可用的数据资产,包括其来源、格式、质量和关系。通过了解完整的数据格局,组织可以识别最符合其需求的数据,确保在数据和 AI 计划中仅使用准确、可靠和高质量的数据。了解现有数据及其当前状态有助于避免使用过时、不相关或错误的数据,从而避免损害数据和 AI 产品的质量。

随着组织越来越依赖数据来推动业务决策,发现、理解和有效利用数据的能力变得更加先进和重要。

数据发现曾经只是一个简单的数据源定位任务,如今已扩展为一个复杂的过程,它利用大型语言模型的强大功能来发现那些可能并不明显的关系。这些隐藏的模式和洞察有助于评估数据是否符合预期用途,并为后续的数据分析、编目、数据质量和可观察性步骤奠定基础。传统上,数据发现层连接结构化和非结构化数据源以及业务应用程序,以创建技术或操作元数据。在现代人工智能世界中,合成数据也应纳入数据发现的范围,因为这些人工生成的数据模仿了真实世界数据的特征,同时不会泄露任何实际用户信息或消除任何偏见。在许多情况下,真实世界的数据是不完整的,缺少构建稳健分析模型所需的关键记录或特征。合成数据可以通过创建代表性数据点来填补这些空白,确保数据集完整并可有效地用于分析或机器学习。

数据发现工具应该能够使用优化的原生连接器或开放标准(例如 ODBC/JDBC)以及 API(包括 RESTful 服务、SOAP 和 GraphQL)连接到数据源。原生连接器旨在始终满足高吞吐量、性能、安全性和可靠性需求,从而提高数据发现工作的效率。通常,连接器有助于实时提取数据源中新建或更新数据的元数据。这通过变更数据捕获 (CDC) 功能实现。

数据剖析

组织数据通常杂乱无章,存在诸多问题,例如质量问题(例如缺失值、重复数据、不一致数据)、缺乏理解以及跨不同数据源的集成挑战。因此,需要发现隐藏的关系并识别数据随时间的变化。这种透明度有助于优化数据处理工作流程,提高分析的可靠性,并有助于满足合规性要求。换句话说,如果没有这种清晰度,组织就有可能基于有缺陷的数据做出决策,从而导致效率低下和潜在的合规风险。

通过分析,组织可以清晰地了解其数据格局,确保数据准确、相关且易于理解。它可以帮助 数据团队了解数据的特征,例如唯一性、基数、值范围和敏感度,从而丰富他们对所发现数据的认知。它涉及收集统计数据、元数据和其他数据信息,这些信息随后可用于数据管理、数据质量保证、法规遵从性和分析计划。

数据分析使用一套复杂的算法来评估各个维度的数据上下文和质量。此过程通常是自动化的,但应该根据组织的特定需求进行定制。这些需求可能涉及通过识别列之间的依赖关系和关系来合并来自不同来源的数据,或识别不必要的重复信息或高度相关的列,以优化数据并提高存储效率。其他需求可能涉及数据准备、异常检测、数据迁移、业务规则管理或降低因数据质量低下而导致的风险。

对源数据进行分析可能需要大量计算,并且可能会降低操作系统的运行速度。为了最大限度地降低源系统的负载,可以对用户定义的数据样本进行分析。另一种选择是使用 Apache Spark 等工具将数据提取到外部集群中。每种方案都有其自身的利弊,企业应该选择最符合自身需求的方案。

数据分析可以按需运行,也可以安排在特定时间间隔运行。此外,工作流有助于实现流程自动化。为了提高效率、可靠性和可扩展性,这些工作流应该能够与现成的编排引擎(例如 Apache Airflow)集成。自动化数据分析可以减少人工干预,最大限度地减少错误,并确保工作流程顺畅运行。

数据分类

数据一旦被分析,就必须被标记或分类为结构化格式,以改进数据管理、使用、治理和可用性。如果没有分类,数据可能会变得杂乱无章,从而给确保数据质量、保持合规性、保护敏感信息以及优化数据集成和分析带来挑战。未分类的数据可能会增加安全漏洞、违反法规和运营效率低下的风险,因为它会阻碍应用适当的控制和治理的能力。

数据分类标签充当元数据描述符,方便用户搜索、查找和访问相关数据,并根据数据的敏感性、用途和所有权对其进行分类。这些元数据可以为人工智能和机器学习模型提供上下文,从而减少幻觉。

创建标签或标记的分类过程也用于数据质量和可靠性框架的后期阶段,例如应用质量规则和访问策略。

机器学习算法再次用于自动创建标签,但现在大型语言模型 (LLM) 正被用于利用其对语义的理解,从而显著改进仅使用关键词和静态分类法的传统分类方法。例如,LLM 利用其对语言模式和上下文的理解,自动将文本分类到预定义的类别中,例如情绪分析(正面、负面、中性)。最后,LLM 还可用于对非结构化数据进行分类,例如电子邮件、聊天消息、社交媒体帖子和其他非传统数据格式。

为了确保数据分类的高标准,使用了两种测量方法:

精确度:衡量模型正向预测的准确度。更高的精确度表明分类相关且准确。高精度表示模型的误报率极低。如果出现误报,则会提交工单,请求数据所有者进行必要的补救。

召回率:衡量模型识别所有相关正实例的能力或其完整性。较高的召回率表明分类没有遗漏标记数据元素。

总之,自动分析和分类可以主动且经济有效地检测数据集中的异常、不一致和错误,并在潜在问题影响下游流程之前提醒数据工程师和管理员。

数据目录和语义层

组织数据通常彼此孤立,难以定位,记录不全,管理不一致,导致效率低下、错误百出和合规风险。用户难以找到正确的数据、理解其背景并信任其质量,这阻碍了数据驱动的决策和协作。

数据目录通过集中数据发现、加强数据治理和提升数据素养来解决这些问题,最终使整个组 织能够更高效、更合规地使用数据。它帮助用户了解哪些数据可用、数据来源、如何使用以及数据的质量和治理状况。

元数据构成了数据目录的基础,它能够提供组织内数据资产的全面视图。在发现、分析和分类阶段生成的元数据存储在数据目录中,以便在决策过程中进行搜索和利用。目录中的元数据分为三种类型:

(1)技术元数据

描述数据的技术方面,包括其结构、存储和处理细节,例如模式信息、列数据类型、数据分布直方图、索引等。

对于文件,数据目录显示数据格式,如 CSV、JSON 和 XML 等,如果未明确定义,则推断模式。

(2)操作元数据

关注数据的使用、性能和生命周期,例如所有权、数据保留策略、数据刷新计划频率和访问策略。

数据访问和安全策略信息有助于实施数据治理策略,以确保遵守法规(如 GDPR 或 CCPA),并提供数据使用、转换和共享方式的审计跟踪。

它还有助于可观察性和沿袭(稍后讨论),因为它包括使用情况统计数据(例如,访问频率、大多数查询表、最活跃的用户)和性能指标(例如,查询响应时间、系统负载)。

(3)业务元数据

为数据提供业务上下文,使其易于理解并与业务用户相关。该层也称为语义层,包含业务词汇表和术语(例如 KPI、指标、维度)、业务规则以及数据在业务流程中如何使用的上下文细节。

现在,借助 LLM 的功能,描述性和上下文相关的业务描述可以自动生成,并存储在数据目录中。这进一步简化了对元数据进行自然语言问答的功能。传统上,目录允许用户使用关键字进行搜索,但随着与 LLM 集成的出现,目录现在支持使用自然语言进行语义搜索。

业务术语表中的术语映射到底层技术元数据。领域专家可以定义更符合业务需求且直观易懂的术语,使其更贴近分析执行。该术语表还可以按层次结构组织术语,并提供变更审计日志,从而实现完全透明和历史记录。BPMN、OMG SBVR、对象角色建模、面向事实建模、RDF/OWL 和 SKOS 等多种标准可用于管理业务术语表,但这些标准不在本文档的讨论范围内。

近年来,数据目录的范围不断扩大,涵盖了所有类型的数据资产,包括数据产品、高级分析模型、报告、规则和 KPI 等。虽然数据目录最初是为了发现和搜索元数据而推出的,但现在它们正被用于开发新的资产。

例如,用户可以搜索某个数据产品,然后将其与其他资产组合,构建并发布新的数据产品。在这种情况下,数据目录就变成了一个提供可共享数据资产的市场。这些市场可能只是允许数据共享,也可能能够计算使用量并进行退款,从而实现数据货币化。这对于数据目录来说是一个激动人心的未来,因为它们将发展成为战略性产品,创造新的收入来源。

本质上,数据目录是数据生产者、工程师、数据消费者和业务利益相关者之间卓越的协作工作空间。用户可以对数据资产进行注释、评级和排序,让消费者能够轻松“选购”合适的产品并信赖它。 数据合约 是一个新兴概念,它定义了存储在数据目录中的数据资产的属性,以便消费者能够围绕其产品和服务构建服务级别协议 (SLA)。

总而言之,数据目录显著增强了释放各类数据和分析资产价值的能力,从而改善决策制定。数据已成为一种战略资产,它记录详实、元数据丰富、值得信赖且易于访问。通过提高数据利用率,企业可以提高效率、获得新的洞察并优化运营。

数据质量规则

数据质量是指确保数据集的准确性、一致性、完整性和可靠性,以便用于决策。对于任何旨 在从数据资产中获取可操作见解并减少 LLM 幻觉的组织而言,高质量的数据都是基础。

传统上,数据质量评估是使用手动查询构建的自定义规则进行的。然而,随着数据的快速变化和新类型数据的不断涌现,手动流程因其动态特性而难以持续。这促使我们利用标准差和Z分数对已分析数据进行统计分析,以确定数据如何围绕均值聚集,从而识别异常值。随机森林尤其擅长识别已分析数据中某些数据集之间的潜在关系。编辑距离使用模糊匹配来检测潜在的重复项。其他机器学习算法可以进行调整,以精确定位数据值的频率,因为低频值可能表示异常。

这些机器学习算法有助于预测管道中的潜在故障或瓶颈,从而实现主动补救。它们会自动检测与预期模式的偏差,从而发出潜在的数据质量问题或管道故障信号。

数据可观测性

数据可观测性是指理解和监控数据管道健康状况的能力,确保数据从源头到目的地顺畅流动,且不会降低质量、可靠性或成本效益。随着企业数据运营规模的扩大,维护这些管道健康状况的可视性变得越来越复杂。因此,持续监控数据在管道中的流动情况,可以洞察每个阶段的异常、故障、性能下降、成本超支和准确性问题。

图 2 显示了数据可观察性工作流的关键组件,与不使用数据可观察性产品的情况相比,它有助于更快地识别和解决问题。

将显示缩放图像

图 2. 数据可观测性工作流程

数据可观察性工作流程的各个组成部分包括:

监视

持续监控数据和元数据,能够在问题发生时立即发现模式和异常。组织应根据战略需求,确定关键数据元素和相关数据源的优先级,以保持有效的关注并减少不必要的警报。他们应监控数据漂移、数据量、质量、服务等级协议 (SLA) 和资源使用情况等关键指标,以确保全面监管。

分析

数据和元数据分析有助于识别隐藏的模式、故障和异常,从而能够及时甚至主动地采取干预措施,防止下游影响。有效的可观测性工具能够动态检测偏差,优化资源使用,并持续重新训练模型,以保持系统的效率和准确性。

警报

当大量细粒度警报生成时,响应人员会逐渐失去注意力。这种情况被称为“警报疲劳”。因此,数据可观测性工具必须能够智能地管理警报,并升级最关键的警报。

数据可观测性工具能够主动向团队发出异常警报,并通过根据正常范围智能调整阈值,以及对通知进行分类或自定义以减少不必要的通知,从而管理警报疲劳。这种方法有助于确保关 键警报得到处理,从而提高管道的正常运行时间和问题解决速度。

事件管理

事件管理支持根本原因分析,通过从源头而非下游解决问题来避免技术债务。此流程支持跨业务部门协作启动补救措施,从而提高整体系统可靠性。

异常修复通常需要手动操作,因为关键任务源系统可能有其自身严格的数据更新操作流程。通常,当数据质量或可靠性阈值被突破时,数据管理员团队会收到警报,然后根据通知的优先级采取必要的措施。

反馈

数据可观测性中的反馈循环确保系统持续演进并满足 SLA。运营反馈(例如延迟或数据缺失)可推动即时改进,而业务反馈则通过增强数据质量检查和部署透明度来展示价值,从而促进采用。

人工智能正在进一步提升数据质量和可观测性。 大语言模型(LLM) 擅长理解语义,并使用欧氏距离寻找相似性。此外,如果副驾驶都能为我们编写功能齐全的代码,那么规则又何尝不可呢?我们的想法是利用人工智能推断隐藏的关系和上下文模式,从而自动检测、编写规则并应用它们。

数据可观测性功能可以精确定位源系统变更对下游系统的影响。此过程称为 影响分析 ,依赖于对数据管道沿袭的理解。这是该框架的最后一步,我们将在下文中介绍。

血缘和影响分析

了解数据沿袭有助于组织追踪数据从源头到最终目的地的路径,提供对数据使用方式、准确性级别的洞察,并更容易识别和解决错误或不一致等问题。

血缘追踪并记录数据在组织内各个系统和流程中流动时的起源、移动和转换。它就像一张地图,显示数据的来源、处理或修改方式,以及最终的归宿。

其用例包括法规遵从性、数据质量管理或运营效率。因此,各种角色都会使用谱系输出。例如,非技术利益相关者了解数据流如何与业务运营、决策和报告要求保持一致。数据工程师收集技术栈内部流程的洞察,例如数据如何从原始输入转换为处理后的输出。数据科学家使用数据集和模型的谱系来管理可重复性、合规性和模型完整性。

将显示缩放图像

图 3:血统示例

在这个具有代表性的沿袭示例中,SQL Server 中的原始 CRM 数据经过提炼,并在云数据湖的消费区中可用。一个提供客户销售和客户流失洞察的 Tableau 工作簿正在消费此示例中的数据。数据质量得分 (89.8%) 也可在“客户产品销售”表中看到,并在 Tableau 项目中的消费区 (94.7) 中看到。

沿袭应该适用于任何物理层,例如模式和表,直至最低粒度级别(例如列),以便进行更精确的影响分析和调试。此外,沿袭还应包含资产之间的转换逻辑。这需要从 ETL/ELT、SQL 和 BI 工具中提取转换元数据。如果数据元素或转换发生变化,沿袭图应该能够清晰地理解其对上游和下游系统的影响。

为了帮助提高数据可靠性,可以将数据质量规则、维度、指标和分数叠加到谱系中,从而使业务用户能够识别相关质量控制的实施位置。

AI 可以使用相似的数据集自动推断和预测数据沿袭。这使组织能够快速识别数据来源,了解其旅程,并评估任何更改或错误(即使对于新数据集)的影响。通过简化这些复杂的流程,AI 有助于维护数据完整性,支持合规性工作,并通过提供对数据依赖关系和潜在风险的清晰洞察来增强决策能力。

目前,一个名为 Open Lineage 的新开放标准正处于测试阶段。一旦该标准正式发布,并被数据治理、ETL 和 BI 产品广泛接受,元数据的双向共享将变得更加便捷。

治理和政策管理

到目 前为止,本文 的重点一直集中在元数据的发现、分析、分类、存储和共享,以及创建衍生数据产品。但组织需要确保数据使用者遵守约定的使用和治理政策。治理和政策管理功能支持并将框架的所有其他部分紧密联系在一起。这些政策涉及定义、规则、指标、角色、职责、工作流程和流程:

数据政策:涉及分类、质量、使用/隐私、安全等

商业术语政策:词汇表、分类、指标等。

利益相关者管理政策:谁做什么,谁需要被通知等

流程政策:问题管理的流程是什么,政策、规则、指标的创建和批准的流程是什么

数据访问策略:确保数据消费者只能访问他们被授权查看的数据,以保护隐私、管理数据泄露风险并满足合规性准则。

组织出于各种原因执行策略,例如被遗忘权(技术上称为擦除权)、数据保留、访问控制和使用。数据治理平台充当跨所有底层技术平台管理安全策略的单一管理平台,从而确保一致性。

数据访问策略首先检测所有个人敏感数据在管道中的位置,然后根据安全、隐私、法律和合规性要求对其进行分类。这种可见性对于管理跨不同系统、应用程序和存储位置的数据流的数据隐私风险至关重要。它还可以检测是否存在冗余数据副本,以便引入流程,通过限制不必要的数据扩散来减少攻击面。数据最小化的概念已被许多合规法规(例如欧盟《通用数据保护条例》(GDPR))所强制执行。其他具有具体指导方针的常见法规包括 PCI DSS 4.0、加州消费者隐私法案 (CCPA) 和健康保险流通与责任法案 (HIPAA) 等。对这些法规的讨论超出了本文档的范围。

接下来是策略管理阶段,首先定义并执行访问和使用策略。组织应根据数据的敏感性和关键性确定保护措施的优先级,确保针对已确定的用例,优先保护风险最高的数据。

理想情况下,策略可以使用下拉选项以自然语言编写,因为管理员并不总是擅长使用 SQL 或 Python 等语言编写复杂的逻辑。数据可观测性工具将策略应用于在分类阶段创建并由相应所有者验证的相关标签。例如,如果社保号码被标记为敏感信息,则策略可能会规定,对于大多数数据消费者,除最后四位数字外,该数据应进行加密、标记化或编辑。

数据目录充当定义、管理和执行数据治理策略的中央存储库,而底层系统则负责处理这些策略的执行。这些系统可能位于本地,也可能跨不同的云提供商。访问策略的执行采用了基于角色的访问控制 (RBAC)、基于属性的访问控制 (ABAC)、屏蔽、标记化、匿名化、假名化以及其他各种较新的方法,例如差异噪声。这些方法用于遵守各种安全和合规性法规,尤其适用于个人身份信息 (PPI)、支付卡信息 (PCI) 和受保护的健康信息 (PHI) 等敏感数据。

在数据质量和可靠性框架的这一部分,重点主要放在保护数据资产上,但安全领域要广泛得多。它包括多因素身份验证 (MFA)、防火墙、入侵检测和防御系统 (IDPS)、防病毒软件、端点检测和响应 (EDR)、数据丢失防护 (DLP) 以及安全信息和事件管理 (SIEM) 等。这些用于监视和控制用户、网络流量和设备。

小结

那么,为什么良好治理(包括质量、可靠性、访问控制、血统、可观察性、语义层等)的需 求比以往任何时候都更加重要?

因为比以往任何时候都有更多的人访问更多数据,用于更多业务用例。如果没有可信可靠的数据用于人工智能和分析,结果将会很糟糕,时间和金钱将会浪费,企业领导层也会对人工智能和分析失去热情和信心。结构化、全面的数据管理方法将使您的组织能够提供人工智能和分析成功所需的高质量、可靠的数据。

一些规范的方法可以加速人工智能和分析的开发和部署,并提高解决方案的准确性和性能。

提高数据质量透明度:通过提供对人工智能开发和运营数据质量不同维度(例如准确性、完整性和一致性)的可见性,数据质量透明度可降低人工智能应用中出现错误、偏差和不可靠输出的风险。

实现检索增强生成:通过访问可信可靠的数据,确保生成式人工智能模型输出的准确性。这种方法可以消除幻觉,并实现对生成式人工智能输出的事实核查和验证。

建立对AI输出的信任:通过提供对数据管道、数据处理方式以及AI系统实时行为的可视性,让客户、员工和监管机构确信AI输出在规定的操作范围内,并符合预期标准。

要想让您的组织走在运用人工智能和分析技术改善业务成果的前沿,就需要立即采取行动,利用可信可靠的数据为人工智能和分析引擎提供动力。使用高质量的数据来训练和增强您的人工智能模型,能够带来高质量的模型输出和更佳的业务成果。