最近想到了数据治理,所以我决定通过输入提示来查询ChatGPT:“什么是数据治理?” AI 回应道:“数据治理是一组流程、政策、标准和指南,可确保数据在组织内得到正确管理、保护和利用。”这是一个好的开始,目前关于数据治理及其意义还有很多话要说。
生成人工智能时代的数据治理
数据治理涵盖一系列学科,包括数据安全、管理、质量和编目。该实践需要定义使用策略、创建主数据源、分析数据集、记录字典以及监督数据生命周期。组织模型通常定义促进战略的首席数据官、制定数据集策略的数据所有者以及负责提高数据质量的数据管理员的角色。
Precisely首席技术官 Tendü Yogurtçu 博士表示:“数据治理是数据完整性的关键要素,它使组织能够轻松查找、理解和利用关键数据,从而实现准确的报告和明智的决策。” “它提供了对数据含义、沿袭和影响的理解,因此企业可以保持合规性,并确保人工智能模型由值得信赖的数据提供支持,以获得可靠的结果。”
Yogurtçu 表示,数据治理曾经是一项专注于合规性的技术事业。 “随着人工智能使用得越来越多,数据已成为最重要的企业资产,数据治理应该成为企业范围内的优先事项,”她说。
对于许多尝试 genAI 或使用大型语言模型(LLM) 构建应用程序的组织来说,存在更大的数据治理责任,并且员工使用人工智能工具的方式带来了更多风险以及非结构化数据的新范围。我咨询了几位专家,了解数据治理必须如何发展才能满足生成人工智能工具和功能固有的机遇和风险。
发展 genAI 数据治理的 4 种方法
1.审查 genAI 工具和LLM中使用的数据政策
数据治理部门负责监督数据目录并传达数据使用政策,以帮助员工利用集中式数据集并将其用于构建机器学习模型、仪表板和其他分析工具。这些部门现在正在更新政策,包括是否以及如何在法学硕士和开放 genAI 工具中使用企业数据源。开发人员和数据科学家必须审查这些政策,并就有关使用数据集支持 genAI 实验的任何问题咨询数据所有者。
Egnyte联合创始人兼首席安全官 Kris Lahiri 表示:“随着生成式 AI 带来更多数据复杂性,组织必须制定良好的数据治理和隐私政策,以管理和保护用于训练这些模型的内容。” “组织必须特别注意这些人工智能工具使用了哪些数据,无论是 OpenAI、PaLM 等第三方,还是公司可能在内部使用的内部法学硕士。”
审查有关隐私、数据保护和可接受使用的 genAI 政策。许多组织要求在将数据集用于 genAI 用例之前提交数据所有者的请求和批准。在使用必须符合 GDPR、CCPA、PCI、HIPAA 或其他数据合规标准的数据集之前,请咨询风险、合规和法律部门。
数据政策还必须考虑使用第三方数据源时的数据供应链和责任。 “如果发生涉及某个区域内受保护数据的安全事件,供应商需要明确自己及其客户的责任,以适当缓解事件,特别是如果这些数据打算用于 AI/ML 平台的话。” Jozef de Vries, EDB首席产品工程官。
对于那些对 genAI 机会感到兴奋的人来说,了解其组织的数据隐私、安全性和合规性政策非常重要。
2.加速数据质量举措
许多公司提供数据质量解决方案,包括 Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS 和 Talend。 2022年,全球数据质量工具市场规模将超过40亿美元,预计每年增长17.7%。由于许多公司正在尝试人工智能工具和法学硕士,我预计会有更高的增长。
Piwik Pro首席运营官 Mateusz Krempa 表示:“人工智能的好坏取决于为其提供动力的数据,因此使用人工智能面临的许多挑战都与数据质量有关。” “数据质量差可能会导致误导或错误的见解,严重影响结果。”
Krempa 表示,数据质量挑战源于大数据的数量、速度和种类,特别是因为LLM现在利用了组织的非结构化数据源。希望开发内部LLM的公司将需要扩展数据质量计划,以包括从文档、协作工具、代码存储库以及其他存储企业知识和知识产权的工具中提取的信息。
Hakkoda数据治理主管 Karen Meppen 表示:“数据治理正在转变,不仅是为了向 LLM 系统提供大量数据,而且是为了明智、安全地提供数据。 ” “重点是确保数据不仅大,而且智能——准确、易于理解、隐私意识强、安全,并尊重知识产权和公平的风险和影响。”
根据业务目标和数据类型,可以使用不同的工具来提高数据质量。
- 传统的数据质量工具可以删除重复数据、规范数据字段、根据业务规则验证数据、检测异常并计算质量指标。
- 主数据管理工具 (MDM) 可帮助组织连接多个数据源并围绕客户和产品等业务实体创建真实来源。
- 客户数据平台(CDP) 是用于集中客户信息并支持营销、销售、客户服务和其他客户交互的专用工具。
预计升级和新的数据质量工具将改善对非结构化数据源的支持,并提高 genAI 用例的数据质量能力。
Matillion首席信息安全官 Graeme Cantu-Park 的另一项建议重点关注数据沿袭的重要性。 “人工智能将需要一种完全不同的方式来看待治理优先事项和实践,以便更好地了解为人工智能应用程序和模型提供数据的数据管道和数据沿袭。”
数据沿袭有助于揭示数据的生命周期,并回答有关数据更改的人员、时间、地点、原因和方式的问题。由于人工智能扩展了数据及其用例的范围,因此了解数据沿袭对于组织中的更多人员(包括安全人员和其他风险管理职能人员)变得更加重要。
3.审查数据管理和管道架构
除了政策和数据质量之外,数据治理领导者还必须将其影响力扩展到数据管理和架构功能。主动数据治理可实现一系列功能,以便更多员工可以利用数据、分析(以及现在的人工智能)来完成工作并做出更明智的决策。数据的存储、访问、产品化、编目和记录方式都是组织能够如何快速、轻松和安全地将其数据扩展到 genAI 用例的因素。
Teradata首席产品官 Hillary Ashton建议采用以下方法来实现最令人兴奋的 AI 用例:
- 创建可重复使用的数据产品或精心策划的已知良好数据集,以帮助组织更好地控制数据并灌输对其数据的信任。
- 尊重数据引力,让更多员工能够访问信息,而无需在不同环境之间移动数据。
- 试点人工智能计划时要考虑到可扩展性,包括具有强大治理能力的人工智能/机器学习数据管道,同时也支持开放和互联的生态系统。
数据团队的关键是确定易于使用并支持多种用例的框架和平台。Ensono总经理兼副总裁 Sean Mahoney表示:“治理框架开始变得更加敏捷,使团队能够更快地响应技术进步的步伐。”他建议数据治理领导者也审查并参与这些工具:
- 数据网格用于将数据的管理委托给创建数据的人。
- 用于处理生成式人工智能和法学硕士固有的可扩展性和复杂性的矢量数据库。
- 实时监控工具可将数据治理扩展到更多系统。
另一个考虑因素是数据治理、管理和架构如何需要了解数据存储的全球法规。 EDB 的 de Vries 建议:“企业应实施全球分布式数据库,通过将高度监管的数据保留在其区域内,同时在全球范围内分发限制较少的数据,以提高其数据治理实践,以便在输入人工智能平台时实现敏捷性。”
4.将数据治理扩展到 genAI 工作流程
数据治理职能还必须考虑使用 genAI 工具和法学硕士如何需要政策和最佳实践。例如,在本文开头,我明确引用了 ChatGPT,以便读者知道该响应来自 genAI 来源。良好的数据治理要求对员工进行有关提高透明度的程序、允许他们使用的工具以及最大限度地减少数据隐私问题的实践方面的教育。
Forethought首席执行官 Deon Nicholas 表示:“我看到的最重要的事情是,在保持隐私和真实性的同时,准确利用、共享和学习数据的方法正在兴起。 ” “例如,像 Perplexity 这样基于 LLM 的搜索引擎总是引用它们的来源,或者像 Private AI 这样的数据编辑技术,使您能够在提取或发送数据到 LLMS 之前清理和编辑 PIl。”
数据治理领导者应该考虑的一项新的主动措施是创建提示库,员工可以在其中记录他们的提示用例并在整个组织中共享。该学科扩展了许多数据治理团队已经围绕维护数据目录和数据字典所做的知识管理实践。
RelationalAI机器学习研究副总裁 Nikolaos Vasiloglou表示:“法学硕士的动力包括通常存储在知识图中的干净且精心策划的内容以及通常以提示库形式存在的专家知识。虽然我们对知识图有良好的治理实践,但如何治理后者并不明显。”
我喜欢《蜘蛛侠》电影中流行的一句话:“能力越大,责任越大。”我们看到 genAI 功能正在快速发展,但问题是数据治理团队是否会采取行动。
作者 | Isaac Sacolick