数据管理是生成式人工智能健康发展的关键-51CTO.COM

2023年成为人工智能时代的正式开端，几乎每个人都在谈论ChatGPT。

像ChatGPT这样的生成式人工智能语言模型吸引了我们的目光和兴趣，因为我们第一次能够看到人工智能像真人一样与我们进行对话，并生成我们认为有创意的文章、诗歌和其他新内容。生成型人工智能解决方案似乎充满了更快、更好的创新、生产力和价值实现的突破性潜力。然而，它们的局限性尚未得到广泛关注，它们的数据隐私和数据管理最佳实践也未得到广泛理解。

最近，由于对人工智能技术的使用缺乏了解和足够的监管，科技和安全界的许多人发出了警告。我们已经看到了对人工智能工具输出的可靠性、IP（知识产权）和敏感数据泄露以及侵犯隐私和安全的担忧。

三星与ChatGPT的事件成为头条新闻，此前这家科技巨头无意中将自己的秘密泄露给了人工智能。并非只有三星：Cyberhaven的一项研究发现，4%的员工将敏感的企业数据放入了大型语言模型中。许多人不知道，当他们用公司数据训练模型时，人工智能公司可能能够在其他地方重用这些数据。

网络安全情报公司Recorded Future透露：“在ChatGPT发布的几天内，我们在暗网和特殊访问论坛上发现了许多威胁参与者，他们共享有缺陷但功能强大的恶意软件、社会工程教程、赚钱计划等，所有这些都是通过使用ChatGPT实现的。”

在隐私方面，当个人注册像ChatGPT这样的工具时，它可以像今天的搜索引擎一样访问IP地址、浏览器设置和浏览行为。但风险更高，因为“未经个人同意，它可能会披露政治信仰或性取向，并可能意味着尴尬甚至毁掉职业生涯的信息被发布。”私人互联网接入公司的工程总监Jose Blaya说。

显然，我们需要更好的法规和标准来实施这些新的人工智能技术。但是，关于数据治理和数据管理的重要作用，却缺乏讨论——但这在企业采用和安全使用人工智能方面发挥着关键作用。

一切都与数据有关

以下是我们应该关注的三个领域：

数据治理和训练数据的透明度：一个核心问题围绕着专有的预训练人工智能模型或大型语言模型（LLM）。使用LLM的机器学习程序包含了来自许多不同来源的大量数据集。问题是，LLM是一个黑匣子，它对源数据几乎没有透明度。我们不知道这些来源包含欺诈数据，是否包含PII（个人身份信息），是否可信、无偏见、准确或合法。LLM研发公司并不共享其源数据。

《华盛顿邮报》分析了谷歌横跨1500万个网站的C4数据集，发现了数十个令人不快的网站，其中包含煽动性和PII数据以及其他可疑内容。我们需要数据治理，这需要所使用的数据源的透明度以及这些来源所含知识的有效性/可信度。例如，你的人工智能机器人可能正在对未经核实的来源或假新闻网站的数据进行培训，从而对其知识产生偏见，而这些知识现在已成为你公司新政策或研发计划的一部分。

数据隔离和数据域：目前，不同的人工智能供应商在如何处理你提供的数据有不同的隐私政策。无意中，员工可能会在他们的提示中向LLM提供数据，而不知道该模型可能会将数据纳入其知识库。公司可能会在不知情的情况下将商业秘密、软件代码和个人数据暴露给世界。

一些人工智能解决方案提供了变通方法，如采用API，通过将您的数据排除在预先训练的模型之外来保护数据隐私，但这同时限制了人工智能的功能价值。因为理想的用例是在保持数据隐私的同时，用你特定情况数据增强预先训练的模型。

一个解决方案是让经过预训练的人工智能工具理解数据“域”的概念。培训数据的“通用”域用于预培训，并在通用应用之间共享，而基于“专有数据”的培训模型则安全地限制在组织的边界内。数据管理可以确保创建和保留这些边界。

人工智能的衍生作品：数据管理的第三个领域涉及人工智能过程及其最终所有者产生的数据。比方说，使用人工智能机器人来解决编码问题。如果某件事做得不正确，导致出现错误或错误，通常我们会知道谁做了什么来调查和修复。但有了人工智能，组织很难界定人工智能执行的任务所产生的任何错误或不良结果由谁负责——你不能责怪机器：在某种程度上，是人为造成了错误或糟糕的结果。

更复杂的问题是IP，你拥有用生成人工智能工具创作的作品的IP吗？你会在法庭上如何辩护？据《哈佛商业评论》报道，艺术界已经开始对某些人工智能应用提起索赔诉讼。

现在要考虑数据管理策略

在早期，我们不知道人工智能在坏数据、隐私和安全、知识产权和其他敏感数据集的风险方面有什么不知道的。人工智能也是一个广泛的领域，有多种方法，如LLM、基于业务流程逻辑的自动化，这些只是通过数据治理政策和数据管理实践的结合来探索的一些主题：

暂停对生成人工智能的实验，直到你有了一个监督战略、政策、以及降低风险和验证结果的程序。

纳入数据管理指导原则，首先要对自己的数据有一个坚实的了解，无论数据驻留在哪里。您的敏感PII和客户数据在哪里？你有多少IP数据，这些文件位于哪里？你能监控使用情况，以确保这些数据类型不会被无意中输入人工智能工具，并防止安全或隐私泄露吗？

不要向人工智能应用程序提供超出所需的数据，也不要共享任何敏感的专有数据。锁定/加密IP和客户数据以防止其被共享。

了解人工智能工具如何以及是否可以对数据源透明。

供应商能否保护您的数据？谷歌在其博客中分享了这一声明，但“如何”尚不清楚：“无论一家公司是在Vertex AI中培训模型，还是在Generative AI App Builder上建立客户服务体验，私人数据都是保密的，不会在更广泛的基础模型培训语料库中使用。”阅读每个人工智能工具的合同语言，了解你提供给它的任何数据是否可以保密。

标记业主、委托项目的个人或部门衍生作品的数据。这很有帮助，因为你可能最终要对你公司制作的任何作品负责，你想知道人工智能是如何融入这个过程的，是由谁参与的。

确保域之间数据的可移植性。例如，一个团队可能想要剥离其IP和识别特征的数据，并将其输入到通用训练数据集中以供将来使用。这一过程的自动化和跟踪至关重要。

随时了解正在制定的任何行业法规和指导方针，并与其他组织的同行交谈，了解他们如何应对风险缓解和数据管理。

在开始任何生成式人工智能项目之前，请咨询法律专家，以了解数据泄露、隐私和IP侵犯、恶意行为者或虚假/错误结果时的风险和流程。

企业中人工智能的实用方法

人工智能发展迅速，前景广阔，有可能以前所未有的速度加速创新、削减成本和改善用户体验。但与大多数强大的工具一样，人工智能需要在正确的背景下谨慎使用，并设置适当的数据治理和数据管理护栏。人工智能的数据管理尚未出现明确的标准，这是一个需要进一步探索的领域。同时，企业在使用人工智能应用程序之前，应谨慎行事，确保清楚了解数据暴露、数据泄露和潜在的数据安全风险。