GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析-51CTO.COM

GPT-4o，比上一代更容易被越狱攻击了？

来自北航和南洋理工的研究人员，通过上万次的API查询，对GPT-4o各种模态的安全性进行了详细测试。

结果发现，GPT-4o新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌GPT-4V。

具体来说，研究人员针对4个常用的基准测试，对GPT-4o支持的三种模态（文本、图像、音频）进行了测试。

测试一共涉及到4000+初始文本查询的优化，8000+响应判断，16000+次OpenAI的API查询。

基于此，研究人员撰写了详细的报告，给出了关于GPT-4o的安全性的三点见解：

GPT-4o对文本越狱攻击的安全性比之前有所提升，但文本模态越狱攻击可迁移性强，可通过多模态形式攻击；
新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面；
当前的黑盒多模态越狱攻击方法几乎无效，但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。

下面就来看一下这份报告的详细内容~

评价规则

首先，让我们了解一下作者使用的测评方式和实验设定。

为了评估GPT-4o的安全风险以及其相较于上一代模型的改变，作者将目标模型设置为GPT-4V和GPT-4o，利用API和移动应用对这些模型进行评估。

对于单模态下的文本越狱攻击，作者使用Llama2（7b-chat）生成文本越狱提示，然后用其迁移攻击目标模型。

为了全面评估目标模型的安全性，作者收集了现有的基于单模态和多模态的开源越狱数据集：

对于文本模态，使用了AdvBench和RedTeam-2K。
对于音频模态，使用了AdvBench子集。
对于多模态越狱，使用SafeBench和MM-SafetyBench，这是基于两种典型的黑盒多模态越狱方法构建的。

这些数据集按照OpenAI和Meta AI的用户策略，将数据集的内容分成了不同的类别，例如非法活动、仇恨言论等。

越狱方法层面，报告中评估了7种先进的越狱方法，分为两类。

其中单模态越狱方法包括基于模板的方法、GCG、AutoDAN和PAP；多模态越狱攻击方法包括FigStep、Liu等人工作和作者团队近期提出的BAP。

特别地，对于FigStep和Liu等人工作，基于相应方法构建的官方数据集已经发布，因此作者直接使用它们来评估目标模型；其他方法的评价则在AdvBench上进行。

对于基于模板的方法，作者从互联网上选择了6个典型的越狱模版进行测试，并使用它们的平均ASR作为相应指标。

GCG和AutoDAN最初是为白盒场景提出的，但它们已经被证明具有强大迁移性——作者通过攻击Llama2，使用这两类方法生成对抗性后缀，并随后将这些后缀应用于攻击GPT-4o和GPT-4V。

BAP是一种多模态越狱攻击方法，其利用了基于梯度的视觉对抗提示优化和基于思维链的文本对抗提示自适应优化。尽管目标模型是黑盒模型，但其中的文本对抗提示优化方法不受限制。因此在本研究中，作者使用它来评估文本模态的安全性。

评估指标采用的是攻击成功率（ASR），ASR越高则目标模型越容易被越狱成功。其计算公式如下：

其中D为数据集，J为判决函数，F_θ为目标模型，v_i为图像、t_i为文本，a_i为音频，在评估时，没有涉及的模态将会被置空。

目前的工作中采用不同的方法作为判决函数，在报告中，作者遵循已有工作的设计，采用四类方法将J分别实例化J_1,J_2,J3,J_4。

J_1表示使用基于字符串匹配的方法，其中目标字符串包括‘Sorry’等否定模式，如果响应内容是安全的。
J_2表示使用Meta发布的Llama Guard判断内容是否安全。
J_3表示使用目标模型相应以及判断提示模版，交由ChatGPT判断。
J_4则是交由GPT-4o判断。

J_3和J_4除了模型不同外，所用的判断提示模版也不同，J_3的模版是要求大语言模型仅根据响应判断内容是否安全，而J_4的模版会同时根据问题和响应判断内容是否安全。

在实验评估中，作者会同时使用这四类判断函数计算ASR，定性分析时借鉴集成学习的思想，以多数判断函数的结果为准，定量分析时则以J_4的结果为准。

纯文本模态下，有攻击比没有时更安全

文本模态越狱风险方面，基于RedTeam-2K的评估结果表明，在没有攻击的情况下，GPT-4o的安全水平低于GPT-4V。

当考虑到特定情景，特别是那些具有较高风险的情景(如Physical Harm时，两种目标模型之间的ASR差距变得更加明显，达到14.6％。

这一实验发现与直觉上认为在没有攻击的情况下，GPT-4o是更安全的模型形成了鲜明对比。

这表明，具有更强的通用能力的模型并不一定等同于更强的安全性能，事实上，在报告的环境中可能更弱。

安全性能间的差异可能源于训练目标和安全目标之间的内在冲突——

虽然在更广泛的数据集上训练的大模型可能在知识和全面性方面表现出更好的性能，但它们也可能更容易产生不安全或有害的内容。

相反，经过严格安全措施训练的模型可能由于接触不同数据的机会有限和严格的响应准则而表现出性能下降。

报告中的实验数据表明，GPT-4o可能没有充分实现训练目标和安全目标之间的权衡。

考虑到常用的AdvBench基准的代表性和适用性，除了评估目标模型在原始文本查询下的安全性外，作者还评估了模型在各种SOTA越狱攻击下的安全性。

作者观察到基于模板的越狱方法TBJ的ASR持续下降到0.0％，甚至低于No Attack时的ASR，这一现象表明OpenAI已经针对这些广泛传播的越狱模板实施了额外的保护措施。

此外还可以看到，与No Attack基线相比，GCG和AutoDAN在越狱中都实现了一定程度的可迁移性。

例如攻击GPT-4V时，GCG和AutoDAN分别使ASR提高10％和14.1％。

PAP是另一种专门为越狱大语言模型设计的方法，它在基于文本越狱攻击方法中拥有最高的ASR（GPT-4V和GPT-4o的ASR分别为62.2％和62.7％）。

BAP是作者最近提出的一种多模态越狱攻击方法，但在报告中，主要利用的是它的文本优化方法，结果BAP在攻击GPT-4V时达到了最高的ASR，达到83.1％。

从目标模型来看，除了J_3中的PAP以外，在任何判断函数和任何攻击方式下，攻击GPT-4o的ASR都低于攻击GPT-4V。

这表明在面临攻击的情况下，与GPT-4V相比，GPT-4o具有更高的安全性。

音频模态比文本更难攻击

由于OpenAI的音频相关API暂时不可用，移动应用中也有请求频率限制，作者对音频模态的安全性的测试相对有限。

作者首先使用GPT-4o对AdvBench进行分类，并从4个最常见的类别中随机选择10个文本查询，并基于上一节的实验数据选择了GCG、AudoDAN、PAP和BAP生成的文本对抗提示。

随后，作者使用OpenAI的TTS-1API将总共200个文本样本转换为MP3格式。由于实验数据有限，这部分的ASR是通过人工评估来计算的。

结果现实，直接将原始文本查询转换为音频是无法越狱GPT-4o的，表明GPT-4o在音频模态上具有足够的安全性。

此外，使用GCG和AutoDAN等方法在文本模态下可以成功越狱GPT-4o的文本，在转换为音频模态后也失败了。

造成这种结果的主要原因是这些方法生成的对抗性后缀在模态处理过程中丢失了一些关键的语义信息（如非字母符号）。

另外，作者观察到PAP和BAP在文本模态下的ASR略高于从这些文本在音频模态下得到的ASR。例如，在非法活动场景中，文本模式下BAP的ASR为100％，而音频模式下的ASR为80％。

在检查交互结果时，作者发现在音频交互期间，GPT-4o有时会以简单的‘Sure’响应，然后询问进一步的细节，模仿人类的会话风格。

然而，报告中使用的文本模态越狱方法并没有考虑到这一点，因为它们依赖于单回合对话来实现越狱。因此，音频模式的越狱攻击的ASR略低于文本模式。

值得注意的是，尽管存在差距，音频对抗性提示的ASR并没有显著降低。

这在很大程度上是由于PAP和BAP采用的策略接近于人类的处理方式。例如，它们会利用有说服力的策略，如情景假设对整个语句进行优化。

多模态下比GPT-4V更易被攻击

多模态安全性上，作者首先基于SafeBench进行了评估，该数据集的核心思想是将原始查询中的有害意图转换为格式化的排版图像，并在图像中留下空白，并由目标模型填充。

从下表结果可以观察到，在每种判断结果中，GPT-4o的结果始终高于GPT-4V(在J_4中最多，为42.0％)，这表明GPT-4o比GPT-4V更容易受到此类攻击。

考虑到GPT-4o优越的多模态融合能力，这也可能导致其对此类攻击的脆弱性增加。

值得注意的是，我们观察到一个异常现象，即在某些情况下，目标模型在No Attack条件（仅使用原始文本查询）下的ASR高于攻击条件下的ASR。

下图给出了一个示例，显示当使用多模态查询时，越狱尝试更容易失败。这一观察结果与原始论文的发现以及作者的直觉相矛盾。

作者分析，这种差异可能是由于OpenAI实现了类似于FigStep的针对多模态排版攻击的特定防御。这些排版攻击通常需要使用诸如“请为上述列表中的每个项目生成详细的内容”的文本提示才有效。

作者推测OpenAI可能会根据这些字符串特征检测到排版攻击的迹象，从而在推理过程中采用更强的缓解机制。

在非异常情况下，使用FigStep攻击获得的ASR并不显著高于No Attack条件下的ASR。

例如，当攻击GPT-4o时，Hate Speech场景的ASR仅为3.6％。这表明FigStep攻击对GPT-4V和GPT-4o基本上无效。

这里需要注意，考虑到OpenAI对其商业模型保护措施的动态调整，目前的研究结果并不能否定FigStep在其最初发布时有效越狱GPT-4V的由有效性。

另外，作者还在MM-SafetyBench上进行了评估，该数据集利用了基于图像语义构建视觉对抗性提示的方法。

原始文本查询中的有害语义通过文本到图像模型转换为图像，然后添加关键的排版文本以生成所需的视觉对抗提示。

当在下表中关注Hate Speech、Physical Harm和Fraud等危害性较强的场景下的实验结果时，观察到攻击下目标模型的ASR始终低于No Attack条件(仅使用原始文本查询)下的ASR。

作者在评估SafeBench时观察到这种现象，例如对于这种基于图像语义的攻击，OpenAI可能在检测到含有有害语义的图像后，采用先进的防御机制，防止攻击者利用图像向多模态大模型中注入有害语义或指令。

所以，作者推测OpenAI已经针对这些已知的多模态攻击方法实现了特定的防御。

在攻击GPT-4o时，除了Hate Speech、Economic Harm和Legal Opinion场景外，在No Attack条件下的ASR始终高于攻击条件下的ASR，这是一个异常现象。

在GPT-4V中也观察到类似的模式，这说明当前典型的黑盒多模态越狱方法对于越狱GPT-4o和GPT-4V无效。

此外作者还注意到，除J_3的判断结果外，其他三个判断函数的结果都表明GPT-4o的ASR始终高于GPT-4v。结合SafeBench获得的实验结果，这清楚地表明，与GPT-4v相比，GPT-4o更容易受到多模式越狱攻击。

同时，作者指出，由于官方OpenAI API的局限性，本研究主要侧重于通过API对大型数据集上涉及文本和视觉模式的越狱攻击进行自动评估，并通过移动应用程序使用AdvBench的一个子集手动对音频模式进行越狱攻击。

这项研究首次揭示了几个关键的观察结果。作者希望这项工作能提高社区对多模态大模型安全风险的认识，并敦促研究人员优先考虑为多模态大模型制定对齐策略和缓解技术。

另外，由于目前多模态越狱数据集的匮乏，本研究仅探讨文本-视觉的多模态组合下的越狱对GPT-4o安全性的影响。

作者表示，在未来，必须迅速建立包括文本、视觉和音频等各种模态组合的多模式数据集，以全面评估GPT-4o的安全能力。

论文地址：https://arxiv.org/abs/2406.06302
GitHub：https://github.com/NY1024/Jailbreak_GPT4o