面向 AI 的数据生态系统-51CTO.COM

[[436423]]

[引] 本文编译自https://cacm.acm.org/magazines/2021/11/256400-there-is-no-ai-without-data/fulltext，文中针对的是工业企业，实际上，对大多数企业都有着一些参考意义，尤其是关于元数据的管理和自治。

人工智能已经从天花乱坠的宣传逐渐变成了现实。算法在机器学习和深度学习方面的进步，计算能力和存储能力的显著提高，以及数字化所产生的大量数据，使人工智能很可能改变所有行业的游戏规则。人工智能有潜力从根本上改进业务流程，例如，在制造业中进行实时质量预测，并并产生新的业务模型。传统产业正面临着一个根本性的变化: 从实物产品的生产到工业4.0中通过人工智能流程优化和服务交付。

尽管人工智能的潜力巨大，工业企业也对人工智能技术进行了大量投资，但人工智能尚未兑现在行业实践中的兑现。工业企业的核心业务尚未得到人工智能的赋能。人工智能解决方案的成功案例往往是个案，例如工厂中机器的运行优化。为什么呢?在大多数情况下，数据问题是传统企业未充分采用人工智能的主要原因。

一般来说，数据准备和数据质量是人工智能和数据分析的关键，这并不是什么新鲜事，因为没有数据就没有人工智能。然而，工业企业中人工智能面临的数据挑战远远超出了检测和修复脏数据的范围。人工智能通常用于特定用例的数据供应和数据工程，从而形成一个异构的、多语言的企业数据环境。这导致了各种各样的数据挑战，并限制了人工智能的全面应用。

1、工业企业的AI现状

以AI 和数据分析为基础，并概述一下传统企业的业务，进而刻画一下人工智能的应用现状。

1.1 人工智能和数据分析

人工智能一般是指机器执行认知功能的能力。人工智能方法可以细分为演绎方法即模型驱动(如专家系统)，或归纳方法即数据驱动方法。数据驱动方法特别是机器学习和数据挖掘方法，在过去几年中为人工智能开辟了新的应用领域。数据分析可以作为各种数据驱动分析的总称，包括 BI 和报表。

1.2 工业企业的业务

工业企业的业务包括实物的工程制造，例如，加热系统或电气传动。为此目的，工业企业通常将各种工厂组织成业务单元来运营一个制造网络。工业企业的 IT 环境通常包括不同的企业 IT 系统，从基于产品生命周期管理(PLM)的企业资源计划(ERP)系统到制造执行系统(MES)。在工业4.0和物联网(IoT)应用中，工业企业推动了价值链的数字化。因此，过程和产品的 AI 支持具有战略重要性。为此，近年来，工业企业建立了数据库，引进了人工智能工具，并创建了数据科学团队。

1.3 当前状态: 人工智能孤岛

上图显示了工业企业中人工智能的现状。企业已经在整个产业价值链中实现了各种各样的人工智能用例: 从支持 iot产品的预测性维护到生产过程优化的质量预测，再到产品生命周期分析和客户分析。用例将不同来源(如 ERP 系统和 MES)的数据组合在一起，通常作为单个用例的独立解决方案实现。这意味着，人工智能是以“孤岛”的形式执行的，用于特定用例的数据工程，以及特定用例的人工智能工具和适合特定用途的机器学习算法。一方面，人工智能孤岛方便了具体案例实现的灵活性和探索性。另一方面，它阻碍了 AI 的重用、标准化、效率和企业范围的应用。数据处理在实现工业化人工智能的道路上扮演着核心角色，将占整个 AI 用例实现的60% 到80% 。

各种独立的AI 用例导致了全球分布式的、多语言和异构的企业数据环境。用于人工智能用例的结构化和非结构化源数据被提取并存储在被称为数据湖的原始数据存储库中。它们基于单独的数据存储技术，例如不同的 NoSQL 系统、特定用例的数据模型和专门的源数据摄取。这些数据库与企业数据仓库共存，其中包含来自各种系统用于用于报表的聚合数据。现有的许多数据交换过程造成各种数据冗余和潜在的数据质量问题。此外，不同的数据环境使得业务对象(例如产品和流程)的集成和开发变得越发复杂，从而阻碍了跨流程和跨产品 AI 用例的开发。

例如，为了预测工厂中某一特定制造过程的质量，一个由数据科学家和数据工程师组成的专业项目团队首先确定相关的源系统，尤其是工厂中的几个本地 MES以及一个ERP 系统。MES提供关于质量测量的传感器数据，ERP 系统提供主数据。与各种 IT 专家、制造专家和数据所有者一起，团队检查源系统的数据结构，并开发定制的连接器，用于提取源数据并以原始格式将其存储在本地工厂的数据湖中。

数据是基于特定用例的数据模型和数据管道进行清理、集成和转移。然后，团队使用各种机器学习工具来生成最优预测模型。在多次迭代过程中，调整数据模型和源数据以增强机器学习的数据基础。最终的预测模型通过调用机器学习评分服务在工厂车间的 MES 中使用。

最终的解决方案构成了一个有针对性的孤立人工智能服务，具有定制的数据摄取、数据模型、数据管道、专门的工厂数据库和适合用途的机器学习工具。该解决方案综合了大量的专家知识，包括制造过程知识、 ERP 和 MES IT 系统知识、用例特定的数据工程和数据科学知识。然而，缺少数据管理准则(如数据建模和元数据管理准则)，源系统透明度的匮乏，各种孤立的数据湖，都阻碍了人工智能的重用、效率和企业范围的应用。也就是说，同一类型的用例在不同的工厂中以不同的方式从零开始实现。因此，相同的源数据(例如主数据)被多次提取，给关键业务的源数据系统(例如 ERP)带来了高负载。为相同的概念数据实体开发了不同的数据模型，如“机器”和“产品”。这些异构数据模型和各个工厂数据库中使用的不同数据存储技术导致了异构数据管道围绕同一类型的源数据进行旋转。此外，数据和已开发的数据模型(即元数据)的商业意义在数据字典或电子表格等特定项目工具中被多次记录。总而言之，这导致了人工智能孤岛和异构的企业数据现状。

因此，要实现人工智能的工业化，需要对潜在的数据挑战进行系统的分析。

2、人工智能的数据挑战

一般来说，确保人工智能的数据质量非常重要，除了数据质量之外，还很多关键的数据挑战：数据管理、数据共享和 AI 的数据治理。

这里，机器学习和数据挖掘提出了更广泛的数据要求。它们不仅使用聚合的、结构化的数据，而且在其原始格式中使用了大量的非结构化数据，例如，用于基于机器学习的光学检查数据。

2.1 AI数据管理的挑战

数据管理一般包括在整个生命周期中处理、提供和控制数据。人工智能的数据管理挑战在于在异构和多语言的企业数据环境中全面管理用于人工智能的数据，特别是数据建模，元数据管理，和数据架构。

对于如何在概念和逻辑层次上跨系统对数据进行结构化和建模，目前还没有通用的数据建模方法。在数据库中，对于相同类型的数据(如传感器数据) ，常常使用不同的数据建模技术，如数据仓库或维度建模技术。有时候，由于采用了在原始数据之上的灵活读取方法，甚至忽略了数据建模的需要。这使得数据集成、数据重用以及跨不同 AI 用例开发数据管道变得非常复杂。例如，传感器数据作为机器学习的输入是非常耗时和复杂的。为不同AI 用例重用相应的数据管道在很大程度上依赖于通用数据建模技术和通用数据模型。

没有总体的元数据管理来维护跨数据领域的元数据。元数据，例如列和属性的名称，大多存储在各个存储系统的内部数据字典中，通常不可访问。因此，数据的继承和影响分析都受到阻碍。例如，在源系统发生变化的情况下，在没有适当的元数据情况下，手动调整所有数据湖中受影响的数据管道是冗长而昂贵的。此外，关于数据含义的业务元数据往往根本没有得到系统的管理。因此，缺少元数据管理显著地妨碍了人工智能的数据使用。

没有统一的数据体系结构来构建数据系统。一方面缺少企业数据体系结构来编排各种孤立的数据湖。例如，在很多数据湖中都没有通用的区域模型，这使数据集成和交换复杂化。此外，包含有价值的 AI 用例关键性能指标也还不清楚。另一方面，也缺乏一个系统的平台数据体系结构来设计一个数据库。具体来说，就是利用不同的数据存储技术来实现数据湖。例如，一些数据库完全基于 Hadoop 存储技术，如 HDFS和 Hive，而其他数据库则结合了经典的关系数据库/值系统和 NoSQL 系统。这导致整个企业数据环境中的数据湖架构不统一，从而导致高昂的开发和维护成本。

2.2 人工智能的数据共享挑战

一般来说，数据共享是指促进组织中的每个人使用数据。人工智能的数据共享挑战在于为整个企业的各种终端用户提供各种各样的人工智能数据。为此，数据供给和数据工程以及数据发现和探索都是人工智能的核心任务。

数据供给，即从技术上将新的源系统连接到一个数据湖，并提取选定的源数据。IT专家关心的是为源系统定义技术接口和访问权限，并与源系统所有者和数据的最终用户合作开发数据提取作业。因此， IT 部门经常成为数据供应的瓶颈因素。IT 专家、源系统所有者和终端用户之间存在巨大的协调需求，这导致了耗时的迭代。这些因素极大地减缓和限制了数据供给，从而限制了人工智能对新数据源的使用。

数据工程，即数据的建模、集成和清理，通常由数据科学家和数据工程师完成。由于源系统的元数据不完整，数据工程需要具备单个源系统及其数据结构的专门知识，例如关于 ERP 系统中的数据结构。此外，大多数复杂的、基于脚本的框架(如 Python )用于数据工程的编程任务。这些因素将数据工程限制在少数的专家团队。

数据的发现和探索也同样如此。虽然提供了自助的可视化工具，但数据湖中数据的发现和探索受到了阻碍。缺乏关于业务含义和数据质量的全面元数据，使非专家用户无法轻松使用数据。例如，市场营销专家必须联系几个不同的数据工程师，才能准备不同类型的市场数据，并理解数据的含义和相互关系。此外，数据使用的合规审批一般是基于专家对数据的检查。这些自动化程度低的过程也减缓了人工智能对数据的使用。

2.3 人工智能的数据治理挑战

一般来说，数据治理是关于创建组织结构的，并将数据视为企业资产。目前，数据的组织结构在工业企业中只是初步实现，主要集中在主数据和个人数据上。特别是，数据所有权和数据管理的结构缺失，阻碍了 AI 的应用。

在异构的数据环境中，没有统一的数据所有权组织。特别的，对于提取和存储在不同数据库中的数据，没有以通用的方式定义其数据所有权。例如，在许多情况下，数据湖中数据的所有者与源系统的数据所有者保持相同。也就是说，来自不同源系统的数据的集成需要不同数据所有者的审批。因此，数据不被视为公司拥有的企业资产，而是作为某一业务功能的资产，例如，财务部门是财务数据的数据拥有者。这导致在使用人工智能数据时，责任不明确，风险和收益的分配不平衡，这些组织边界显著地阻碍了人工智能对数据的全面使用。

没有一个全面的数据管理组织来建立通用的数据策略、标准和过程。工业企业现有的数据监管结构主要侧重于定义各种主数据，例如客户主数据的通用数据质量标准，其他类别数据的数据管理工作并没有被系统地组织。例如，在不同的工厂和制造过程的制造数据中，有各种各样的数据模型和数据质量标准。因此，缺乏制造数据的通用企业范围策略，这显著增加了 AI 数据工程的工作量和复杂性。

3、工业企业的数据生态系统

一般来说，数据生态系统是一个社会技术、自组织、松耦合的系统，用于数据共享。数据生态系统的典型要素是数据生产者、数据消费者和数据平台。然而，数据生态系统的研究仍处于早期阶段，主要集中在共享开放的政府数据。因此，需要建立一个专门针对工业企业的数据生态系统。

3.1 数据生产者和数据消费者

一般将工业企业中的四种数据生产者区分开来: 过程是指整个价值链中的各种工业过程和资源，例如工程过程。人包括各种各样的人，包括顾客和雇员。第三方包括企业组织范围之外的行为者和资源，例如供应商。

3.2 数据源

数据源涉及技术类别和数据生成的来源。工业企业中主要有四种数据源: 企业数据是指企业 IT 系统在整个工业价值链中生成的所有数据，例如 PLM 和 ERP 系统。用户生成的数据是指人类行为者直接生成的数据，例如社交媒体上的帖子或文档。物联网数据是指由物联网设备产生的所有数据，例如制造业机器数据或传感器数据。网络数据是指除用户生成的数据以外的所有网络数据，例如链接开放数据或支付数据。

3.3 数据平台

数据平台是各种数据源数据处理的技术基础，使数据可用于各种数据应用程序。数据生态系统基于三种数据平台: 企业数据湖、边缘数据湖和企业数据市场。

企业数据湖构成了一个逻辑上集中的、企业范围的数据湖。它将原始数据库方法与数据仓库概念相结合，即将各种原始数据的数据湖式存储和处理与聚合数据的数据仓库式分析相结合。支持批处理和流处理，可以对各种数据进行各种分析。企业数据湖是基于数据建模和元数据管理的全面指导方针，并支持在企业范围内重用数据和数据管道。

边缘数据湖表示对企业数据湖进行补充的分散原始数据存储。边缘数据库侧重于实现基于本地数据的数据应用程序，很少有企业范围内的重用。它们特别适合分布式工厂的数据处理，有些工厂自己运行边缘数据库。边缘数据湖的典型 AI 用例是预测由企业单个工厂中的特定制造机器生成的时间序列数据。

企业数据市场构成了数据生态系统的中心支点。它表示一个基于元数据的自助服务平台，用于连接数据生产者和数据消费者。目标是匹配企业内部的数据供需。然而，关于数据市场的研究还处于早期阶段，目前还只是关注于外部企业数据市场的初步概念。

与企业数据湖和边缘数据湖相比，企业数据市场不存储实际数据，它基于一个数据目录，表示一个基于元数据的数据库。也就是说，数据由元数据和对实际数据的引用表示。例如，“ 产品的质量数据”可能包含该产品的元数据和存储在企业数据湖中的一组传感器数据。数据目录不仅指数据湖中的数据，还指源系统中的数据，如 ERP 和 PLM 系统。此外，来自公开API的元数据也在数据目录中进行了融合。因此，市场和数据目录一起提供了企业中所有数据的基于元数据的概述。

关于市场提供的服务，以自服务的方式处理数据消费和数据生产。数据使用者的服务包括数据发现和数据准备等内容。例如，数据生产者的服务包括自服务的数据管理，以定义数据集上的元数据，以及基于 API的数据发布。整个市场服务涉及整个数据生命周期: 数据采集和编排，发布和跟踪，以及数据的准备和探索。

3.4数据应用

数据应用是指使用数据平台提供数据的各种应用程序，可以分为描述性、诊断性、预测性和规定性的数据应用。也就是说，数据应用包含了从报表到机器学习的数据分析整个范围。数据应用为已定义的数据消费者实现了已定义的用例，如制造业中的过程性能预测。

3.5 数据角色

数据角色包括与数据相关的组织角色。这些角色跨越了数据生态系统的所有层。工业企业中对人工智能和数据分析至关重要的关键角色包括数据拥有者、数据管理员、数据工程师和数据科学家。

数据所有者对某些类型的数据负有全面责任，例如，某一产品的所有数据，被分配到业务部门，而不是 IT 部门，并且从业务角度负责这些数据的质量、安全性和遵从性。在企业数据湖和边缘数据湖中定义统一和透明的数据所有权，并将这些结构与源系统中的数据所有权分离。例如，存储在企业数据库中特定产品的所有数据都应该由各自的业务单元拥有，以便于跨流程使用数据。

为了减少人工智能数据工程的复杂性和工作量，需要一个全面的数据管理组织，为各种数据建立通用的质量标准和参考数据模型。例如，可以根据 IEC 62264参考模型对制造数据进行结构化，以简化企业不同工厂之间的数据集成。一般来说，数据工程师开发数据管道，通过整合和清理数据，为进一步分析提供数据基础。在此基础上，数据科学家将重点放在特征工程的实际数据分析上，并应用各种数据分析技术(例如，不同的机器学习算法)从数据中获取洞察力。

4、从狭窄领域到企业级的AI应用: 应对挑战与未来方向

数据生态系统通过解决数据挑战为工业化的人工智能铺平了道路，数据生态系统中所面临的开放性问题指出了未来的研究方向。

4.1 应对数据管理的挑战

关于数据管理的挑战，数据生态系统是基于一组综合的数据平台，即企业数据湖、边缘数据湖和企业数据市场。这些平台为 AI 和数据分析定义了企业数据的体系结构。为此，企业数据湖合并了企业数据仓库，避免了两个独立的企业数据平台和相应的数据冗余。它基于一套统一的数据建模准则和参考数据模型，以解决数据建模方面的问题。例如，来自 ERP 系统的企业数据是使用数据库来建模的，以便能够与物联网设备的传感器数据进行快速集成。此外，边缘数据库仅提供了最小限度的指导方针，为用例探索和原型开发提供了灵活性，但它们仅限于本地数据，特别是在单个工厂中。

企业数据库平台的数据架构设计本身具有挑战性，因为它必须服务于各种各样的数据应用，从描述性报告到预测性和规范性的机器学习应用。特别是，定义一个合适的数据存储和处理技术是一个开发的问题。企业数据库倾向于采用多语言的方法，为不同的数据应用提供适用的技术。为此，遵循 lambda 架构范式，将关系数据库系统、 NoSQL 系统和实时事件结合起来。在这个多语言平台上，为不同类型的数据应用确定了合适的架构模式，是人工智能用例标准化实现的一个有价值方向。此外，组织企业数据湖中的所有数据需要一个超越数据建模的总体结构。

作为企业数据市场的一部分，数据目录解决了元数据管理方面的问题。数据目录的重点是获取、存储和提供所有数据湖和源系统的各种元数据(技术、业务和操作元数据)。通过这种方式，它可以使数据分析和质量评估成为人工智能用例的重要组成部分，例如，评估企业数据库中数据集的来源。数据目录代表了一种相对较新的数据管理工具，主要关注于批量存储系统中元数据的管理。

4.2 应对数据共享的挑战

数据共享挑战中的数据提供、数据工程、数据发现和探索，都涉及到自助服务和元数据管理，要由基于数据目录的企业数据市场来解决。数据目录为数据生态系统提供了全面的元数据管理，极大地促进了数据工程以及各种终端用户的数据发现和探索。企业数据市场还为各种数据生产者和消费者提供跨越了的整个数据生命周期的自助服务。例如，制造业的工程师通过在数据市场中获得自服务工作流来提供企业数据库中新机器的传感器数据。

对于内部的企业数据市场来说，既不存在现成的工具，也不存在健全的概念，需要作为一个单独的软件来实现。为此，有多种实现选择，例如，使用语义技术对元数据和服务进行建模。

4.3 应对数据治理挑战

面对数据治理的挑战，数据生态系统定义了一系列与数据相关的关键角色，即数据拥有者、数据管理者、数据工程师和数据科学家。因此，数据所有权和数据管理这两个方面问题都得到了解决。跨系统的数据所有权组织有助于为 AI 用例提供符合要求的源数据，数据使用的审批和责任已经明确界定。此外，通过建立参考数据模型和数据质量标准，对各种数据的管理组织可以显著提高数据质量，并减少数据工程工作。在这种情况下，数据目录通过为数据所有者和数据管理员提供关键指标来支持数据治理。

一个主要的问题是这些角色在现有组织结构中如何实现。一般来说，各种各样的数据治理框架和成熟度模型只提供关于如何处理数据治理的高级指导，例如哪些主题需要处理，以及定义什么角色。考虑到行业和企业文化等因素，缺乏关于如何实施数据治理的具体指导方针，例如，决定何时按业务单位或业务流程来组织数据的所有权。

5、小结

数据挑战是工业企业应用人工智能的主要障碍。人工智能目前是以一种孤立的方式进行，导致了多语言和异构的企业数据情景。这对系统数据管理、数据共享和数据治理提出了相当大的挑战，并阻止了 AI 在工业企业中的广泛使用。

为了解决这些问题，将工业企业的数据生态系统作为指导框架和总体架构，所有数据挑战都将得到解决。数据生态系统的技术性质使各组织能够处理数据管理和数据治理挑战的组织方面：确定了数据角色和数据平台。此外，数据生产者和数消费者的数松散耦合和自组织性质解决了数据共享的挑战，例如，企业数据市场提供了全面的自助服务和元数据管理。在这一点上，数据生态系统不仅适用于人工智能，也适用于任何类型的数据分析。