所有采用LLM作为其工作流程一部分的企业都面临风险,那些依赖LLM作为其业务核心部分来分析和分类图像的企业面临的风险最大。攻击者使用各种技术可能会迅速改变图像的解释和分类方式,由于错误信息而造成更多混乱的结果。
一旦LLM的提示符被覆盖,它更有可能对恶意命令和执行脚本更加视而不见。通过在上传到LLM的一系列图像中嵌入命令,攻击者可以发起欺诈和行动破坏,同时促成社交攻击。
图像是LLM无法防御的攻击媒介
由于LLM在其处理过程中没有数据清理步骤,因此每个映像都是可信的。就像让身份在网络上自由漫游而不对每个数据集、应用程序或资源进行访问控制一样,上传到LLM的图像也是如此。拥有私有LLM的企业必须采用最低权限访问作为核心网络安全策略。
Simon Willison在最近的一篇博客文章中详细说明了为什么GPT-4是快速注射攻击的主要媒介,他观察到LLM从根本上容易上当受骗。
“LLM唯一的信息来源是他们的训练数据和你提供给他们的信息,”威里森写道。“如果你给他们提供一个包含恶意指令的提示——无论这些指令是如何呈现的——他们都会按照这些指令进行操作。”
威利森还展示了快速注入如何劫持像Auto-GPT这样的自主AI代理。他解释了简单的视觉提示注入是如何从嵌入在一张图像中的命令开始的,随后是一个视觉提示注入渗出攻击的例子。
据BDO UK负责数据分析和AI的高级经理Paul Ekare表示:“即时注入攻击对LLM的安全性和可靠性构成了严重威胁,特别是处理图像或视频的基于视觉的模型。这些模型被广泛应用于人脸识别、自动驾驶、医疗诊断和监控等各个领域。
OpenAI目前还没有关闭多模式提示注入图像攻击的解决方案——用户和企业只能靠自己了。英伟达开发人员的一篇博客文章提供了规范性指导,包括强制执行对所有数据存储和系统的最低权限访问。
多模式提示注入图像攻击的工作原理
多模式提示注入攻击利用GPT-4处理视觉图像的漏洞来执行未被检测到的恶意命令。GPT-4依靠视觉转换器编码器将图像转换为潜在空间表示。图像和文本数据被组合以创建响应。
该模型没有方法在编码前对可视输入进行清理。攻击者可以随心所欲地嵌入任意数量的命令,GPT-4会认为这些命令是合法的。自动对私有LLM进行多模式即时注入攻击的攻击者将不会被注意到。
包含注入图像攻击
图像作为无保护攻击媒介的问题在于,随着时间的推移,攻击者可能会使LLM训练的数据变得不那么可信,保真度也会降低。
最近的一项研究提供了关于LLM如何更好地保护自己免受即时注入攻击的指导方针。为了确定风险的程度和潜在的解决方案,一组研究人员试图确定攻击在渗透LLM集成应用程序方面的有效性,其方法值得注意。该团队发现,31个集成了LLM的应用程序容易受到注入的攻击。
该研究对遏制注入图像攻击提出了以下建议:
改进用户输入的设置和验证
对于对私有LLM进行标准化的企业来说,身份访问管理(IAM)和最低权限访问是表的利害关系。在将图像数据传递给处理之前,LLM提供商需要考虑如何对图像数据进行更严格的消毒。
改进平台架构,将用户输入与系统逻辑分离
目标应该是消除用户输入直接影响LLM的代码和数据的风险。任何图像提示都需要处理,以便不会影响内部逻辑或工作流程。
采用多阶段处理工作流来识别恶意攻击
创建多阶段流程以及早捕获基于图像的攻击有助于管理此威胁媒介。
自定义防御提示目标越狱
越狱是一种常见的即时工程技术,用于误导低层管理人员进行非法行为。将提示附加到似乎是恶意的图像输入可以帮助保护LLM。然而,研究人员警告说,高级攻击仍然可以绕过这种方法。
快速增长的威胁
随着越来越多的LLM成为多模式,图像正在成为攻击者可以依赖的最新威胁载体,以绕过并重新定义护栏。基于图像的攻击的严重程度可能从简单的命令到更复杂的攻击场景,在这些场景中,工业破坏和广泛的错误信息是目标。