随着ChatGPT的日益普及,大语言模型应用的数据安全风险进一步加剧。但这场挑战同样蕴含着机遇,全球数据丢失防护(DLP)供应商已经瞄准时机,竞相在其平台上添加对生成式AI用例的支持。
据IDC今年8月发布的一份报告显示,65%的公司已经部署了生成式人工智能,19%的公司正在积极探索,13%的公司仍在考虑,只有3%的公司表示不打算使用生成式人工智能。
IDC表示,企业采用人工智能的最大障碍是担心专有信息会泄露到生成式AI技术提供商拥有的大语言模型中。IEEE高级会员、Hyperproof的首席信息安全官Kayne McGladrey表示:
“各行各业的员工都在寻找创新的方式来更快地完成工作任务。然而,这可能会导致无意中共享机密或受监管的信息。例如,如果医生将个人健康信息输入人工智能工具,以协助起草保险信,他们可能会违反HIPAA法规。”
问题在于,许多公共AI平台的训练数据来自与用户的互动。这意味着,如果用户将公司机密上传到人工智能上,人工智能就会知道这些秘密,并将这些信息泄露给下一个询问这些秘密的人。不仅仅是公共人工智能存在这个问题,摄取敏感公司数据的内部大型语言模型(LLM)也可能会将这些数据提供给不应该看到它们的员工。
根据Netscope7月份发布的一份报告显示,许多行业已经开始使用DLP工具来帮助保护生成式AI。例如,在金融服务行业中,19%的组织使用DLP工具,在医疗保健中,这一数字为21%。在垂直技术领域,26%的公司正在使用DLP来降低ChatGPT和类似应用程序的风险。
DLP供应商的应对策略
Skyhigh:跟踪500多个AI应用程序
Skyhigh Security将DLP工具作为其CASB产品的一部分,后者也是其SSE平台的一部分。在过去一年里,该公司一直在迅速增加对生成式AI用例的支持。
该公司目前在其云注册表中跟踪了500多家不同的AI云服务提供商,这一数字自今年1月份以来上涨了130%。据介绍,这个云注册表可以快速识别新的生成式AI应用程序和每个应用相应的风险等级。
Skyhigh还与许多添加了生成式AI功能的企业应用程序进行了直接API集成,包括Box、Google、Microsoft、Salesforce、ServiceNow、Slack、Workday、Workplace和Zoom,从而能够更好地洞察和控制数据流。
Zscaler:提供细粒度的预定义gen AI控制
截至今年5月,Zscaler已经确定了数百个生成式AI工具和网站,并创建了一个AI应用程序类别,使公司更容易阻止访问,或向访问网站的用户发出警告,或启用细粒度的DLP控制。
Zscaler全球CISO兼安全研究和运营主管Deepen Desai表示,最大的问题是用户不仅仅会向AI发送文件,对于DLP供应商来说,重要的是要检测文本和表单中的敏感数据,同时又不会产生太多的误报。
此外,开发人员正在使用生成式AI来调试代码和编写单元测试用例。因此,DLP供应商还要能够检测源代码中的敏感信息(如AWS密钥、敏感令牌、加密密钥)并防止生成式AI工具学习这些敏感数据。
当然,情境/上下文也很重要。ChatGPT的默认配置方式是允许AI从用户提交的信息中学习。在私有环境中运行的ChatGPT是隔离的,不具有相同级别的风险。因此,在使用这些工具时,了解采取行动的情境至关重要。
CloudFlare:将DLP服务扩展到gen AI
今年5月,Cloudflare扩展了其SASE平台Cloudflare One,添加了生成式AI的数据丢失防护功能,其中包括对社会安全号码或信用卡号码的简单检查。该公司还为特定团队提供了定制扫描功能,并为特定个人提供精细规则。此外,该公司还可以帮助企业了解员工何时使用AI服务。
今年9月,该公司宣布为OpenAI、Bard和Github Copilot提供数据暴露可视性方案,并展示了一个案例研究,在此案例中,Applied Systems使用Cloudflare One来保护AI环境(包括ChatGPT)中的数据。
此外,它的AI网关支持OpenAI、HuggingFace、Replicate等模型提供商,并计划在未来添加更多模型提供商。它位于AI应用程序及其连接的第三方模型之间,在未来,它还将增加DLP功能,例如,可以编辑包含API密钥等敏感数据的请求,或删除这些请求,或记录并警告用户。
Cyberhaven:自动化数据防护方案
据Cyberhaven称,截至今年3月,4%的工作人员已经将敏感数据上传到ChatGPT,平均而言,流向ChatGPT的数据中有11%是敏感数据。在2月份的一周内,平均每10万员工中发生了43起敏感项目文件泄露、75起受监管个人数据泄露、70起受监管医疗数据泄露、130起客户数据泄露、119起源代码泄露和150起机密文件泄露事件。
Cyberhaven表示,其DLP产品会自动记录输入人工智能工具的数据,以便企业能够了解正在发生的情况,并帮助其制定安全策略来控制这些数据流。对于人工智能而言,DLP的一个特殊挑战是,敏感数据通常从企业应用程序或文档中的打开窗口直接剪切并粘贴到ChatGPT等应用程序中。寻找文件传输的DLP工具无法捕捉到这一点。
Cyberhaven允许企业自动阻止这种敏感数据的剪切和粘贴,并提醒用户特定操作被阻止的原因,然后将他们重定向到安全的替代方案,例如私有AI系统,或者允许用户提供合理解释来解除阻止。
谷歌:通过敏感数据保护功能防止自定义模型使用敏感数据
谷歌的敏感数据保护(SDP)服务包括云数据丢失防护技术,允许公司检测敏感数据并防止其被用于训练生成式AI模型。该公司在一篇博文中指出:
“企业可以使用谷歌云的敏感数据保护在生成人工智能模型的整个生命周期(从训练到调整再到推理)中添加额外的数据保护层。”
例如,公司可能希望使用客户服务对话记录来训练其人工智能模型。谷歌的敏感数据保护工具将用数据类型的描述(例如“email_address”)来替换客户的电子邮件地址,或者用生成的随机数据来替换实际的客户数据。
Code42:提供生成式AI培训模块
今年9月,DLP供应商Code42发布了内部风险管理计划Launchpad,其中包括专注于生成式AI的一系列培训模块、工具和模板,以帮助客户解决生成式AI的安全使用问题。该公司还向客户提供ChatGPT和其他生成式AI工具的使用情况,检测复制粘贴活动,并在必要时进行阻止。
Fortra:在Digital Guardian中增加gen AI安全功能
Fortra已经在其Digital GuardianDLP工具中添加了特定的gen AI相关功能,以帮助其客户选择管理员工对生成式AI的访问方式——从完全阻止访问到仅阻止输入特定内容,再到仅仅监控员工发布到AI工具的流量和内容。
企业为生成式AI部署DLP的方式各不相同。例如,教育机构几乎100%阻止访问AI工具,媒体和娱乐业也接近100%。此外,制造业——特别是敏感行业,例如军事工业,也接近100%。而服务业企业主要关注的不是阻止这些工具的使用,而是阻止敏感数据(例如客户信息或公司产品源代码等)被发布到这些工具上。
事实上,大多数公司甚至还没有开始控制对生成式AI的访问。如此一来,组织面临的最大挑战就是,在明知员工想要使用它的情况下,如何确定正确的使用平衡。
DoControl:帮助阻止AI应用程序,防止数据丢失
即使在同一家公司内,不同的AI工具也会带来不同的风险。软件即服务(SaaS)DLP公司DoControl表示:
“监控用户输入文档是否存在拼写或语法问题的人工智能工具,对于营销人员来说可能是可以接受的,但对于财务、人力资源或企业战略人员来说就不可接受了。”
DoControl可以评估特定AI工具所涉及的风险,不仅了解工具本身,还了解用户的角色和风险级别。如果工具风险太大,用户可以立即获得有关风险的教育,并指导他们使用经批准的替代方案。如果用户认为其请求的应用程序存在合法的业务需求,DoControl可以自动在企业工单系统中创建例外。
到目前为止,在DoControl的客户中,100%的客户安装了某种形式的生成式AI,58%的客户拥有5个或更多的AI应用程序。此外,24%的客户部署了具有广泛数据权限的AI应用程序,12%的客户拥有高风险的AI影子应用程序。
Palo Alto Networks:防范主流AI应用
企业越来越关注基于AI的聊天机器人和助手,例如ChatGPT、Google Bard和Github Copilot。Palo Alto Networks数据安全解决方案使客户能够保护其敏感数据免遭数据泄露或意外暴露。例如,公司可以阻止用户将敏感数据输入这些应用程序,在统一控制台中查看标记的数据,或者完全限制特定应用程序的使用。
生成式AI会带来所有常见的数据安全问题,包括医疗数据、财务数据和公司机密的泄露。此外,软件开发人员可能会上传专有代码来帮助查找和修复错误,企业营销团队可能会寻求AI帮忙撰写敏感的新闻稿和活动文案。这给DLP产品带来独特的挑战,市场需要具有自然语言理解、上下文分析和动态策略执行的DLP解决方案。
Symantec:增加开箱即用的gen AI分类功能
赛门铁克(Symantec,现已隶属Broadcom)已在其DLP解决方案中添加了生成式AI支持,其形式是“开箱即用”,可以对整个生成式AI应用程序进行分类,并对它们进行单独或整体监控。
ChatGPT是最受关注的领域,但企业也开始担心谷歌的Bard和微软的Copilot。进一步的担忧通常是特殊的新型专用生成式AI应用以及集成到垂直应用程序中的AI功能。此外,非官方、未经批准的AI应用程序进一步增加了客户的数据丢失风险。
用户可以向这些平台上传药物配方、设计图纸、专利申请、源代码和其他类型的敏感信息,这些信息的格式通常是标准DLP无法捕捉的。赛门铁克的应对方法是使用光学字符识别(OCR)来分析潜在的敏感图像。
Forcepoint:对gen AI应用进行分类,提供精细控制
为了使Forcepoint ONE SSE客户更轻松地管理生成式AI数据风险,Forcepoint允许IT部门按类别或单个应用的名称来管理谁可以访问生成式AI服务。Forcepoint的DLP产品可以对输入AI工具的信息类型进行精细控制。公司还可以对用户是否可以复制和粘贴大块文本或上传文件设置限制。这确保有业务需要使用生成式AI工具的团队不会意外或恶意上传敏感数据。
GTB Technologies:解决律师事务所面临的ChatGPT挑战
今年6月,两名纽约律师及其律师事务所遭到罚款处罚,起因是他们提交了一份由ChatGPT撰写的简报,其中包括虚构的案例引用。但是,律师事务所使用生成式AI的风险不仅限于“编造”,还存在向AI模型泄露敏感客户信息的风险。
为了解决这一风险,DLP供应商GTB Technologies在8月份发布了专为律师事务所设计的生成式AI DLP解决方案。它不仅关乎ChatGPT,还涵盖所有AI应用,通过实时监控防止敏感数据与AI程序共享,以保护律师与客户的权益,帮助律师事务所在完全合规的情况下使用AI。
Next DLP:添加了针对主流AI平台的策略模板
Next DLP于4月份将ChatGPT策略模板引入其Reveal平台,提供预配置的策略来培训员工正确使用ChatGPT,或阻止敏感信息泄露。9月份,NextDLP推出了其他几个主要生成式AI平台的策略模板,包括Hugging Face、Bard、Claude、Dall-E、Copy.AI、Rytr、Tome和Lumen5。
此外,Next DLP在7月份调查了数百家公司后发现,97%的公司至少有一名员工使用ChatGPT,所有员工中使用ChatGPT的人数比例达到8%。由此可见,生成式AI已在企业内部泛滥,CISO时候为这些工具部署可见性或保护措施了。
DLP的未来是生成式AI
生成式AI不仅仅是DLP技术的最新用例。如果使用得当,它也有可能彻底改变DLP的工作方式。Omdia新兴技术首席分析师Rik Turner表示,传统上,DLP是基于规则的,属于静态且劳动密集型工具。但老派的DLP供应商大多都已被收购,成为更大平台的一部分,或者已经发展为数据安全态势管理方案,并使用AI来增强或取代旧的基于规则的方法。现在,有了生成式AI,它们有机会走得更远。
IEEE成员、信息安全和合规专家Rebecca Herold表示,使用生成式AI的DLP工具本身必须确保它们不会保留发现的敏感数据。但到目前为止,还没有看到任何供应商成功地做到了这一点。所有的安全供应商都表示,他们正在添加生成式AI功能,但早期的实现似乎都只是在用户界面中添加聊天机器人。在未来6到12个月内,希望除了提供聊天机器人功能之外,还会有一些经过验证的DLP工具,作用于人工智能的多个方面。
总之,数据安全没有放之四海而皆准的解决方案,任何这样想的组织都是在自欺欺人。我们无法阻止员工使用公共ChatGPT。但为了尽可能阻止员工泄露数据,企业可以加强管控力度,并提供适当的培训。
原文链接:https://www.csoonline.com/article/657362/data-loss-prevention-vendors-tackle-gen-ai-data-risks.html