GenAI聚焦数据治理和信任-51CTO.COM

GenAI为企业如何使用数据创造了新机会，但要建立对AI模型所用数据的信任，强有力的数据治理是必不可少的。

GenAI的出现标志着技术进步的新纪元，承诺将改变各个行业及我们消费数据的方式。数据治理在确保为AI系统提供的燃料——数据的质量和完整性方面起着关键作用。

根据TechTarget的企业战略集团在2024年6月进行的《AI时代的数据治理》研究，70%的企业表示，他们在AI驱动的项目中优先考虑数据的质量和完整性，这种高度关注凸显了强有力的数据治理与AI项目成功之间不可分割的联系。

然而，只有46%的企业对用于决策的数据准确性表现出适度的信心，这一数据表明，尽管企业理解数据质量的重要性，但在将这种认知转化为确保数据信任的具体行动方面仍存在困难，这是企业在构建内部和面向客户的GenAI工具时需要克服的障碍，包括数据库、治理工具、机器学习和分析在内的GenAI工具和基础设施，都可以帮助建立对企业GenAI使用案例中所用数据的更大信任。

为什么在AI时代，数据治理的角色变得如此关键？答案在于AI系统的本质。构建由GenAI驱动的应用程序的企业应从定义用例开始，例如，一个由GenAI驱动的知识库，员工和客户可以快速获得公司和产品的答案，这一过程始于数据基础——即企业数据，如产品目录、培训文件和支持数据。这些数据经过向量化数据库处理，使用检索增强生成和嵌入等技术，从大型语言模型或基础模型（如OpenAI的GPT、Google的Gemini或前端聊天机器人）中提取数据，使用户能够提出问题，并基于特定企业数据基础，以自然语言形式获得回答。这个例子展示了数据质量、准确性、合规性和对用于GenAI应用的企业数据控制的重要性。数据的质量和代表性直接影响GenAI工具的准确性、公平性和可靠性。

考虑到偏见或不准确数据的影响：一个基于劣质数据训练的AI系统可能会延续现有的偏见，导致歧视性的结果。例如，使用过时信息的AI算法可能会提供不准确的定价、功能和特性信息，或者，如果未能从数据中清除机密信息，这些信息可能会被泄露。随着企业从多样化来源收集和处理越来越多的数据，出现错误、不一致和隐私泄露的可能性呈指数增长。如果没有强有力的数据治理，企业将面临重大财务、声誉和法律责任的风险。

为了降低这些风险并充分释放AI的潜力，企业必须将数据治理作为其AI战略的核心要素进行优先考虑，它们应实施全面的框架，涵盖数据质量、安全性、隐私和可访问性等方面。强有力的数据治理计划的关键组成部分包括：

• 数据质量管理：通过数据清洗、验证和分析，确保数据的准确性、完整性、一致性和及时性。

• 数据安全：保护敏感数据免受未经授权的访问、使用、泄露、干扰、修改或破坏。

• 数据隐私：通过数据最小化、匿名化和加密，确保遵守隐私法规并保护个人权利。

• 数据可访问性：在保持适当控制以防止滥用的同时，使授权用户能够方便地访问数据。

• 数据治理框架：为数据管理建立明确的角色、责任和流程，包括数据所有权、管理和问责制。

通过投资数据治理，企业可以建立对其GenAI工具的信任，提升决策能力并降低风险。GenAI有潜力改变我们获取信息的方式，但每个企业都有责任建立可信的产品，而这一切都始于强有力的数据治理。