ChatGPT让人们兴奋不已,为什么苹果、亚马逊、摩根大通、德意志银行、三星和埃森哲等这么多企业都禁止使用它呢?主要是由于担心部署像ChatGPT这样的外部大型语言模型(LLM),可能导致敏感数据被传输和存储在企业安全环境之外。
生成式人工智能(GenAI)在企业中的有效性取决于能否根据公司自己的数据成功训练大型语言模型(LLM),这些数据包括从电子邮件到财务报表的所有内容。这种专门的训练确保人工智能对话的准确性和相关性。然而,企业数据的私有性质以及严格遵守数据隐私、治理和法规遵从性的需求带来了重大挑战。管理不善可能导致数据泄露和品牌损害等代价高昂的后果。
ChatGPT在企业应用方面准备不足的五大原因是:
准确性:为了获得准确的结果,使用特定于业务的数据对人工智能模型进行微调至关重要。然而,OpenAI目前还没有提供一种直接用这些数据训练ChatGPT的方法。用户必须快速开发自己提示模板,并针对独立的GPT-3.5模型进行培训,该模型既不与其他客户共享,也不用于训练其他模型。微调数据必须正确分类、准备、标记,如果数据敏感,还需要考虑识别功能,所有这些都必须在数据输入之前进行。为微调而上传的数据将由OpenAI无限期保留,直到客户删除这些文件。
透明度:人工智能领域通常对学习和改进保持高度开放的标准。然而,随着GPT-4的发布,OpenAI选择使其源代码专有,并对同行评审保留技术细节。缺乏透明度阻碍了研究人员和数据科学家对结果进行核实和验证,对需要完全透明和开源访问以进行彻底评估的企业构成了挑战。
消费者数据隐私:ChatGPT通过数据隐私协议(DPA)处理消费者数据隐私,以满足GDPR请求。然而,DPA并没有完全涵盖关键行业法规(如医疗保健行业的PHI/HIPAA、信用卡处理行业的PCI/DSS或金融服务行业的SEC和FINRA)所需的更复杂的数据隐私要求。某些法规仅禁止某些形式的衍生数据处理,但将大部分衍生数据排除在DPA保护之外,引发了额外的担忧。
安全性:OpenAI及其云合作伙伴保持着高安全标准,但ChatGPT的专有性质及其数据使用引发了对数据泄露和泄露的担忧。没有提供企业级的安全特性,如细粒度的、基于角色的访问控制和主动的“权限管理”解决方案。OpenAI平台缺乏端到端加密,这意味着OpenAI员工可能可以访问数据和对话,并且没有数据屏蔽或敏感数据发现工具等数据混淆解决方案来帮助数据准备。
数据治理:有效的企业数据管理需要遵守广泛的行业和政府法规。除了信息生命周期管理(ILM)和SOC 2合规性之外,企业数据还必须遵守PHI/HIPAA、PCI-DSS、SEC、FINRA、FDA和FISMA等标准。不断发展的人工智能相关法规,如欧盟的2021年人工智能法案和美国的人工智能权利法案,增加了复杂性。
鉴于这些挑战,企业正在部署新的基础设施解决方案,以满足生成式人工智能应用程序的数据驱动需求。为了管理企业数据暴露的风险,必须采取严格的数据保护措施,以确保在利用人工智能技术的好处的同时满足消费者数据隐私和安全目标。
各行各业的公司不得不考虑运行自己的私有LLM,以满足监管合规义务。支持机器学习和高级数据准备以安全训练模型的云数据管理平台正变得越来越重要。跟踪这些平台中的工作流、实验、部署和相关工件,可以为机器学习运营(MLOP)提供集中的模型注册表,并提供监管监督所需的审计跟踪、再现性和控制。
人工智能数据结构需要完整的数据工程能力,包括端到端安全、数据隐私、实时处理、数据治理、元数据管理、数据准备和机器学习。无论是使用私有LLM还是像ChatGPT这样的公共模型,集中式MLOP都可以确保数据工程师控制整个机器学习生命周期。
虽然ChatGPT已经产生了重大影响,但它在企业中的集成取决于成功的数据治理和数据工程流程。正如德意志银行发言人Sen Shanmugasivam所指出的那样,尽管受到禁令的限制,该银行仍在积极探索如何以“安全和合规的方式”使用生成式人工智能工具。企业对生成式人工智能和机器学习的兴趣正在飙升,但企业运营将需要数据治理标准和保障措施,以确保企业人工智能的安全未来。