数据治理如何服务于AL/ML系统

译文 精选
开发 开发工具
数据的来源多种多样,可以来自系统的内部或者外部。针对不同的来源会定制不同的收集、管理和存储方式——尽管这些方式与组织治理标准有所异同。面对人工智能本身的问题,你信任他们吗?这是公司及其审计师在 AI/ML 数据治理时,寻找有效工具时都会面临的问题。

​译者 | 崔皓

审校 | 孙淑娟

众所周知,数据治理可以确保数据的可用性、一致性、可信性和安全性。这些都是任何一个组织努力的方向,当大数据、人工智能、机器语言接踵而至时,组织在数据治理的投入也在不断加码。大家很快意识到 AI/ML 系统的功能不同于传统系统。

AI/ML 的应用目标并不是处理单个事务,并返回结果与状态。相反,AI/ML 系统会对 PB 级别的数据进行筛选,从而找出对应的查询方式或者开放的算法。数据可以进行并行处理,也就是处理数据的线程可以同时输入到处理器中。海量高并发的数据会进行异步处理,此举可以让IT系统提取数据并加快数据的处理速度。

数据的来源多种多样,可以来自系统的内部或者外部。针对不同的来源会定制不同的收集、管理和存储方式——尽管这些方式与组织治理标准有所异同。面对人工智能本身的问题,你信任他们吗?这是公司及其审计师在 AI/ML 数据治理时,寻找有效工具时都会面临的问题。

一、数据治理如何应用到AI/ML 系统中

1.确保数据一致性和准确性

如果需要对系统内外的事务数据进行处理,首先要将其进行标准化处理,以便这些处理过的数据可以和其他来源的数据进行通信和整合。也可以在系统中预建的应用程序接口,可以保证与其他系统的数据进行交互。如果没有预建接口 API,也可以使用ETL 工具,将数据从一个系统传输到另一个系统,即进行系统之间的数据格式转换。

如果要添加照片、视频和声音等非结构化的对象,则可以使用对象链接工具通过引用的方式让对象相互链接和关联。对象链接器的典型案例就是GIS 系统,它结合了照片、示意图和其他类型的数据,为特定环境提供完整的地理环境。

2.确保数据的可用性

一般而言,我们会将可用数据等同于可访问数据——但不仅如此。如果保留的数据因为过时而失去价值,则应将其清除。IT 系统和最终用户必须就何时清除数据达成一致。然后通过数据保留政策将其固化。

在其他场景也需要考虑清除 AI/ML 数据,例如当 AI 的数据模型发生更改并且数据不再适合该模型时,就应该清除对应的数据。

在 AI/ML 治理审计中,审查员将期望看到以上两种数据清除的书面政策和程序。他们还将检查您的数据清除做法是否符合行业标准。市场上有许多数据清除工具和实用程序可以参考使用。

3.确保数据的可信性

一旦情况发生变化:曾经有效的 AI/ML 系统可能会失效。通过定期检查 AI/ML 结果以及系统历史表现,观察周围的环境就能发现一些蛛丝马迹。如果 AI/ML 系统的准确性产生了偏离,就必须修复它。

亚马逊招聘模式就是一个很好的例子。亚马逊的人工智能系统得出的结论是,最好雇用男性求职者,因为该系统正在研究过去的招聘做法,而且大多数被雇用的都是男性。由于历史数据的原因,该模型未能考虑未来有发展的,且具备高素质的女性申请人。从而AI/ML 系统偏离了真相,反而在系统中植入招聘偏见。从监管的角度来看,这样的人工智能系统是不合规的。

事实证明,亚马逊最终取消了该系统的实施——但其他公司可以避免类似错误的发生,如果能够定期监控系统性能,将预测结果与过去数据进行对比,并与外部环境进行比较,就可以发现AI/ML 模型不同步的情况,并可以进行调整。

数据科学家使用 AI/ML 工具来测量模型漂移,但业务专业人员检查漂移的最直接方法是将 AI/ML 系统性能数据与历史性能数据进行交叉比较。如果你突然发现天气预报的准确度降低了 30%,那是时候检查AI/ML 系统运行的数据和算法了。

原文链接:https://www.techrepublic.com/article/data-governance-ai-systems/

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。​

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2018-03-02 10:51:56

缓存服务器数据

2021-03-08 10:18:40

大数据互联网大数据应用

2023-06-14 10:42:20

数字化转型企业

2009-06-24 15:21:06

2023-11-03 15:12:44

数据治理AI/ML系统

2018-08-01 22:52:24

微服务容器云平台API网关

2013-10-16 14:53:02

Windows设计

2015-04-21 15:11:37

100offer

2012-12-04 14:30:50

微软TechEd 2012Office 365

2010-03-31 22:57:22

智能流量管理网络安全网康科技

2011-11-15 16:21:45

Strix Mesh网络

2009-10-23 20:30:38

WiMAX无线城市建设

2013-01-09 14:51:03

统一通信移动通信云计算

2016-07-19 15:16:15

存储初志

2020-12-28 11:52:36

微服务数据中台去中心化

2021-11-04 14:44:27

腾讯数据算法

2023-04-14 15:50:29

元数据数据治理

2016-09-21 09:24:44

LinuxDAISY文本格式

2024-06-21 11:11:22

2022-11-14 11:12:01

数字化转型IT数据治理
点赞
收藏

51CTO技术栈公众号