如何将数据治理应用于AI/ML系统-51CTO.COM

数据治理在确保数据可用、一致、可信和安全方面发挥着关键作用。维护数据治理面临许多挑战，企业对AI和ML等系统的投资也加大了。

AI/ML系统的功能与传统的固定记录系统不同，目标不是返回单个事务的值或状态，相反，AI/ML系统筛选数PB的数据，寻找可能是巨大和多方面的查询的答案。

此外，数据可以来自许多不同的内部和外部来源，每个来源都有自己的收集、管理和存储数据的方式，这可能符合也可能不符合你的企业的治理标准，然后，还有一个问题是确保AI/ML系统在可信数据上进行训练，以确保准确性。

这些只是公司及其审计师在专注于AI/ML的数据治理并寻找可以帮助他们的工具时面临的部分担忧。

为什么AI/ML系统需要数据治理？

根据IBM全球AI采用指数2022，全球AI采用率为35%，在全球一些行业和国家普遍存在。这种快速采用AI和ML系统来推动创新和决策的做法，使得底层数据的完整性和管理变得至关重要。

与传统计算系统相比，AI和ML系统更加细致入微，突显了数据治理的重要性。AI/ML系统需要健壮的数据治理框架的主要原因有两个：

动态结构：与传统数据系统相比，AI/ML系统是动态的——不断发展，并从结构化和非结构化数据中学习。
数据量和多样性：AI/ML系统的效能与它训练和学习的数据集的数量和多样性成正比。

由于这些因素，如果没有严格的治理，AI/ML系统可能会产生不一致、不准确甚至有偏见的输出。

数据治理如何与AI/ML系统一起工作?

AI/ML系统旨在同时和异步处理海量数据，这意味着同时将多个数据线程送入处理器，从而实现更快、更高效的数据处理。

然而，这也带来了复杂性，AI/ML系统的主要目标是在海量数据集中搜索以找到答案，范围从基于历史数据预测未来趋势到识别电子商务数据中的模式。如果来自一个来源的数据被破坏或有偏差，它可能会影响整体输出，使结果不可靠。

因此，将严格的数据治理整合到流程中至关重要，以确保每个数据线索都是准确的、相关的和没有偏见的。

IT在加快数据处理方面的作用

IT部门在AI/ML数据治理流程中发挥着关键作用，通过预处理和剔除不相关或冗余的数据，它们可以显著加快AI/ML系统的数据处理时间，这确保AI/ML模型高效运行，并与最相关和高质量的数据一起工作。

此外，IT团队可以实施工具和协议来自动化许多治理任务，例如数据验证、确保跨数据源的一致性以及监控潜在的安全漏洞。

实施AI/ML系统的数据治理面临的挑战

AI/ML系统的数据集成和管理带来了企业需要应对的几个数据治理挑战。

集成来自多个源的数据

当企业从多个来源收集数据时，每个来源都有自己的治理标准，确保一致性成为一个重大障碍。这种多样性可能导致数据不匹配、冗余和不准确。

数据必须协调一致，以提供对目标至关重要的全面观点，将数据整合成统一的格式是一个复杂的过程，涉及清理、转换和标准化。

为了避免有缺陷的模型，确保AI/ML系统使用的海量数据集准确和相关是至关重要的。

信任建议

一些AI/ML模型的训练数据是保密的，使得企业很难完全信任和理解这些系统提供的建议。如果不了解决策是如何做出的，就存在误解或误用的风险。

例如，AI/ML模型有时会反映或放大数据中的偏差。根据Obermeyer等人的一项研究，一种使用医疗成本作为健康需求代理的算法，将比其他白人患者病情更重的黑人患者分配给相同水平的健康风险。

了解模型使用了哪些训练数据，并实施了严格的数据治理，有助于识别和纠正这些偏差，确保模型结果的公平性。

维护数据质量

由于AI/ML系统严重依赖高质量的数据，因此确保数据干净、准确和最新至关重要，糟糕的数据质量可能导致错误的模型预测和洞察。

例如，糟糕的数据质量可能会导致预测中的偏差。亚马逊停产的招聘模式是另一个很好的例子，2014年，机器学习系统经过训练，对女性求职者产生了偏见。

对AI/ML系统实施数据治理可确保使用的数据始终具有最高质量，这有助于消除任何偏见或不准确。

数据安全和隐私

处理大量已处理的数据需要在保护敏感信息和遵守法规方面保持警惕，更大的数据量伴随着更高的安全和合规风险，这要求遵守许多跨境的不同数据隐私和保护法律。

数据安全方面的疏忽可能会产生可怕的后果，例如未经授权的访问、数据篡改和入侵，它还可能破坏人们对AI系统的信任，并导致法律后果，损害公司的声誉，并通过销售额下降或监管罚款导致财务损失。

数据治理政策主动确保数据安全符合数据保护法规，采用加密方法，并通过审计定期监控数据访问。

如何将数据治理应用于AI/ML系统

AI/ML中的数据治理的未来不仅是管理数据，而且还确保负责任和有效地利用数据。随着AI/ML的发展，稳健的数据治理的重要性也在不断发展，企业必须具有主动性、适应性，并配备正确的工具来驾驭这一领域。

确保数据的一致性和准确性

在集成来自内部和外部事务系统的数据时，数据应该标准化，以便它可以与来自其他来源的数据进行通信和混合。许多系统中预置的应用程序编程接口有助于实现这一点，因此它们可以与其他系统交换数据。如果没有可用的API，企业可以使用ETL工具，这些工具可以将数据从一个系统传输到另一个系统可以读取的格式。

在添加非结构化数据(如照片、视频和声音对象)时，可以使用对象链接工具将这些对象彼此链接和关联。对象链接器的一个很好的例子是地理信息系统，它将照片、示意图和其他类型的数据结合在一起，为特定环境提供完整的地理环境。

确认数据可用

我们通常认为可用的数据是用户可以访问的数据，但它不止于此。如果数据因为过时而失去了价值，那么它应该被清除，也就是说，IT和企业用户必须就何时应该清除数据达成一致，这将以数据保留政策的形式出现。

还有其他应该清除AI/ML数据的情况，当AI的数据模型发生更改，并且数据不再适合该模型时，就会发生这种情况。

在AI/ML治理审计中，审查员将期望看到这两种类型的数据清除的书面政策和程序，他们还将检查数据清除做法是否符合行业标准。为了跟上这些标准和做法，企业应该考虑投资于数据清除工具和实用程序。

确保数据可信

情况会变的，曾经非常有效的AI/ML系统可能会开始失去效力，这就是所谓的模型漂移，这可以通过定期检查AI/ML结果与过去的表现和世界上正在发生的事情来确认。如果AI/ML系统的准确性偏离当前数据，那么修复它是必不可少的。

数据科学家可以使用AI/ML工具来衡量模型漂移，但商业专业人士检查漂移的最直接方法是将AI/ML系统性能与历史性能进行交叉比较。

用于AL/ML系统的数据治理工具

为了应对在AI/ML系统中实施数据治理的挑战，企业可以投资于数据治理工具，以下是一些顶级工具：

ColLibra：适用于全面数据管理和治理的整体数据治理平台。
Informatica：以数据集成而闻名，它是集成来自多个来源的数据的理想选择。
Alation：使用ML自动化数据发现和编目。
ERWIN：提供数据建模功能，帮助企业了解其数据环境。
OneTrust：强调数据合规性，帮助企业遵守法规。
SAP主数据治理：为企业提供强大的数据处理和治理。