数据治理如何服务于AL/ML系统-数据治理服务方案

译者 | 崔皓

审校 | 孙淑娟

众所周知，数据治理可以确保数据的可用性、一致性、可信性和安全性。这些都是任何一个组织努力的方向，当大数据、人工智能、机器语言接踵而至时，组织在数据治理的投入也在不断加码。大家很快意识到 AI/ML 系统的功能不同于传统系统。

AI/ML 的应用目标并不是处理单个事务，并返回结果与状态。相反，AI/ML 系统会对 PB 级别的数据进行筛选，从而找出对应的查询方式或者开放的算法。数据可以进行并行处理，也就是处理数据的线程可以同时输入到处理器中。海量高并发的数据会进行异步处理，此举可以让IT系统提取数据并加快数据的处理速度。

数据的来源多种多样，可以来自系统的内部或者外部。针对不同的来源会定制不同的收集、管理和存储方式——尽管这些方式与组织治理标准有所异同。面对人工智能本身的问题，你信任他们吗？这是公司及其审计师在 AI/ML 数据治理时，寻找有效工具时都会面临的问题。

一、数据治理如何应用到AI/ML 系统中

1.确保数据一致性和准确性

如果需要对系统内外的事务数据进行处理，首先要将其进行标准化处理，以便这些处理过的数据可以和其他来源的数据进行通信和整合。也可以在系统中预建的应用程序接口，可以保证与其他系统的数据进行交互。如果没有预建接口 API，也可以使用ETL 工具，将数据从一个系统传输到另一个系统，即进行系统之间的数据格式转换。

如果要添加照片、视频和声音等非结构化的对象，则可以使用对象链接工具通过引用的方式让对象相互链接和关联。对象链接器的典型案例就是GIS 系统，它结合了照片、示意图和其他类型的数据，为特定环境提供完整的地理环境。

2.确保数据的可用性

一般而言，我们会将可用数据等同于可访问数据——但不仅如此。如果保留的数据因为过时而失去价值，则应将其清除。IT 系统和最终用户必须就何时清除数据达成一致。然后通过数据保留政策将其固化。

在其他场景也需要考虑清除 AI/ML 数据，例如当 AI 的数据模型发生更改并且数据不再适合该模型时，就应该清除对应的数据。

在 AI/ML 治理审计中，审查员将期望看到以上两种数据清除的书面政策和程序。他们还将检查您的数据清除做法是否符合行业标准。市场上有许多数据清除工具和实用程序可以参考使用。

3.确保数据的可信性

一旦情况发生变化：曾经有效的 AI/ML 系统可能会失效。通过定期检查 AI/ML 结果以及系统历史表现，观察周围的环境就能发现一些蛛丝马迹。如果 AI/ML 系统的准确性产生了偏离，就必须修复它。

亚马逊招聘模式就是一个很好的例子。亚马逊的人工智能系统得出的结论是，最好雇用男性求职者，因为该系统正在研究过去的招聘做法，而且大多数被雇用的都是男性。由于历史数据的原因，该模型未能考虑未来有发展的，且具备高素质的女性申请人。从而AI/ML 系统偏离了真相，反而在系统中植入招聘偏见。从监管的角度来看，这样的人工智能系统是不合规的。

事实证明，亚马逊最终取消了该系统的实施——但其他公司可以避免类似错误的发生，如果能够定期监控系统性能，将预测结果与过去数据进行对比，并与外部环境进行比较，就可以发现AI/ML 模型不同步的情况，并可以进行调整。

数据科学家使用 AI/ML 工具来测量模型漂移，但业务专业人员检查漂移的最直接方法是将 AI/ML 系统性能数据与历史性能数据进行交叉比较。如果你突然发现天气预报的准确度降低了 30%，那是时候检查AI/ML 系统运行的数据和算法了。

原文链接：https://www.techrepublic.com/article/data-governance-ai-systems/

译者介绍

崔皓，51CTO社区编辑，资深架构师，拥有18年的软件开发和架构经验，10年分布式架构经验。