根据三位安全研究人员的说法,两种新的威胁模式可以将GenAI模型的行为从为GenAI应用服务转变为攻击它们。
虽然不像《终结者》电影系列中的虚构场景Skynet那么危险,但研究人员展示的PromptWare和Advanced PromptWare攻击确实展示了“被越狱的AI系统可能造成的重大危害”。从迫使应用程序进行拒绝服务攻击到利用应用程序AI更改电子商务数据库中的价格,这些威胁不仅非常真实,而且很可能会被恶意行为者利用,除非人们更加重视越狱GenAI模型的潜在危害。
介绍PromptWare GenAI威胁
虽然被越狱的GenAI模型本身可能不会对会话AI的用户构成重大威胁,但它可以对由GenAI驱动的应用程序造成重大损害。根据以色列理工学院、康奈尔科技和Intuit的研究合作发表的一项名为“被越狱的GenAI模型可能造成重大损害:由GenAI驱动的应用程序容易受到PromptWares攻击”的研究,新威胁可以迫使这些应用程序执行恶意活动,而不仅仅是提供错误信息和返回攻击性内容。
研究人员Stav Cohen(以色列理工学院博士生)、Ron Bitton(Intuit首席AI安全研究员)和Ben Nassi(BlackHat董事会成员)表示,他们发布这项研究是为了帮助“改变对越狱的看法”,并展示“被越狱的GenAI模型可能对GenAI驱动的应用程序造成的实际危害”。
可以理解,为什么许多安全专业人士不认真对待这些对GenAI的威胁。使用提示让聊天机器人侮辱用户并不是世纪罪行。被越狱的聊天机器人可能提供的任何信息都会在网上或暗网上找到。那么,为什么应该认为这种越狱威胁是危险的呢?研究人员解释说,“因为GenAI引擎的输出用于决定GenAI驱动的应用程序的流程”,这意味着被越狱的GenAI模型“可以改变应用程序的执行流程并触发恶意活动”。
什么是PromptWare?
研究人员将PromptWare称为零点击恶意软件攻击,因为它不需要威胁行为者在执行攻击之前已经入侵GenAI应用程序。
可以将PromptWares视为由用户输入的包含越狱命令的命令,这些命令迫使GenAI引擎本身遵循攻击者发布的命令,并生成额外的命令以触发恶意活动。
通过迫使GenAI返回所需的输出,在应用程序上下文中协调恶意活动,从而实现恶意活动。在GenAI驱动的应用程序的背景下,被越狱的引擎被转向应用程序本身,允许攻击者决定执行流程。结果将取决于应用程序本身的权限、上下文、实施和架构。
虽然GenAI引擎确实有防护措施和安全保障,如输入和输出过滤,旨在防止此类模型的滥用,但研究人员发现了多种技术,可以让越狱仍然成功。
为了展示攻击者如何利用对GenAI应用程序逻辑的了解,通过特定的用户输入强制实现恶意结果,研究人员揭示了PromptWare如何用于对基于计划和执行的应用程序执行拒绝服务(DoS)攻击。他们写道:“我们展示了攻击者可以向GenAI驱动的应用程序提供简单的用户输入,迫使应用程序执行进入无限循环,从而触发对GenAI引擎的无限API调用(浪费诸如不必要API调用和计算资源等资源),并阻止应用程序达到最终状态。”
执行这种DoS攻击的步骤如下:
1. 攻击者通过GenAI助手向用户发送电子邮件。
2. GenAI应用程序通过查询GenAI引擎以获取计划,并将其作为草稿回复。
3. 应用程序通过查询用户的日历API执行找到合适时间安排请求会议的任务。
4. 应用程序使用GenAI引擎执行任务。
5. 应用程序执行EmailChecker任务并确定其不安全。
6. 应用程序执行重新措辞任务。
7. 应用程序再次执行EmailChecker任务并确定其不安全。
8. 这样就创建了一个无限循环,从而执行了DoS攻击。
什么是高级PromptWare威胁(Advanced PromptWare Threat)?
研究人员称,更复杂的基本PromptWare攻击版本为高级PromptWare威胁(APwT)。即使目标GenAI应用程序的逻辑对威胁行为者未知,APwT攻击也可以使用。研究人员展示了攻击者如何使用一个对抗性的自我复制提示,基于实时过程自动确定和执行恶意活动,以理解应用程序本身的上下文、涉及的资产和可能造成的损害。
本质上,APwT攻击使用GenAI引擎自身的能力,通过六步过程在“推理时间”内发起杀链:
1. 特权升级:自我复制提示越狱GenAI引擎,以确保GenAI引擎的推理绕过GenAI引擎的防护措施。
2. 侦察A:自我复制提示查询GenAI引擎关于应用程序的上下文。
3. 侦察B:自我复制提示查询GenAI引擎关于应用程序资产的信息。
4. 推理损害:自我复制提示指示GenAI引擎使用侦察中获得的信息推理可能造成的损害。
5. 决定损害:自我复制提示指示GenAI引擎使用信息从不同的替代方案中决定恶意活动。
6. 执行:自我复制提示指示GenAI执行恶意活动。
研究人员展示的示例显示,攻击者无需了解GenAI引擎逻辑即可发起一个杀链,从而触发SQL表的修改,可能改变用户通过GenAI驱动的购物应用程序购买商品的价格。
AI开发者和安全专家对PromptWare研究的回应
我联系了Google和OpenAI,要求他们对PromptWare研究发表声明。Google在发布前没有回应,然而,OpenAI的一位发言人表示:“我们一直在改进内置于我们模型中的防护措施,以抵御像越狱这样的对抗性攻击。我们感谢研究人员分享他们的发现,并将继续根据反馈定期更新我们的模型。我们仍然致力于确保人们能够从安全的AI中受益。”
Checkmarx的安全研究主管Erez Yalon说:“大型语言模型和GenAI助手是现代软件供应链中的最新组成部分,像开源包、容器和其他组件一样,我们需要以谨慎的态度对待它们。我们看到越来越多的恶意行为者试图通过不同的组件(包括有偏见的、感染的和中毒的LLM)来攻击软件供应链。如果越狱的GenAI实现可以成为攻击向量,毫无疑问,它将成为许多攻击者武器库的一部分。”