GenAI为企业如何使用数据创造了新机会,但要建立对AI模型所用数据的信任,强有力的数据治理是必不可少的。
GenAI的出现标志着技术进步的新纪元,承诺将改变各个行业及我们消费数据的方式。数据治理在确保为AI系统提供的燃料——数据的质量和完整性方面起着关键作用。
根据TechTarget的企业战略集团在2024年6月进行的《AI时代的数据治理》研究,70%的企业表示,他们在AI驱动的项目中优先考虑数据的质量和完整性,这种高度关注凸显了强有力的数据治理与AI项目成功之间不可分割的联系。
然而,只有46%的企业对用于决策的数据准确性表现出适度的信心,这一数据表明,尽管企业理解数据质量的重要性,但在将这种认知转化为确保数据信任的具体行动方面仍存在困难,这是企业在构建内部和面向客户的GenAI工具时需要克服的障碍,包括数据库、治理工具、机器学习和分析在内的GenAI工具和基础设施,都可以帮助建立对企业GenAI使用案例中所用数据的更大信任。
为什么在AI时代,数据治理的角色变得如此关键?答案在于AI系统的本质。构建由GenAI驱动的应用程序的企业应从定义用例开始,例如,一个由GenAI驱动的知识库,员工和客户可以快速获得公司和产品的答案,这一过程始于数据基础——即企业数据,如产品目录、培训文件和支持数据。这些数据经过向量化数据库处理,使用检索增强生成和嵌入等技术,从大型语言模型或基础模型(如OpenAI的GPT、Google的Gemini或前端聊天机器人)中提取数据,使用户能够提出问题,并基于特定企业数据基础,以自然语言形式获得回答。这个例子展示了数据质量、准确性、合规性和对用于GenAI应用的企业数据控制的重要性。数据的质量和代表性直接影响GenAI工具的准确性、公平性和可靠性。
考虑到偏见或不准确数据的影响:一个基于劣质数据训练的AI系统可能会延续现有的偏见,导致歧视性的结果。例如,使用过时信息的AI算法可能会提供不准确的定价、功能和特性信息,或者,如果未能从数据中清除机密信息,这些信息可能会被泄露。随着企业从多样化来源收集和处理越来越多的数据,出现错误、不一致和隐私泄露的可能性呈指数增长。如果没有强有力的数据治理,企业将面临重大财务、声誉和法律责任的风险。
为了降低这些风险并充分释放AI的潜力,企业必须将数据治理作为其AI战略的核心要素进行优先考虑,它们应实施全面的框架,涵盖数据质量、安全性、隐私和可访问性等方面。强有力的数据治理计划的关键组成部分包括:
• 数据质量管理:通过数据清洗、验证和分析,确保数据的准确性、完整性、一致性和及时性。
• 数据安全:保护敏感数据免受未经授权的访问、使用、泄露、干扰、修改或破坏。
• 数据隐私:通过数据最小化、匿名化和加密,确保遵守隐私法规并保护个人权利。
• 数据可访问性:在保持适当控制以防止滥用的同时,使授权用户能够方便地访问数据。
• 数据治理框架:为数据管理建立明确的角色、责任和流程,包括数据所有权、管理和问责制。
通过投资数据治理,企业可以建立对其GenAI工具的信任,提升决策能力并降低风险。GenAI有潜力改变我们获取信息的方式,但每个企业都有责任建立可信的产品,而这一切都始于强有力的数据治理。