Anthropic:前沿模型的破坏能力评估——保障AI安全的重要探索 原创
自从John Schulman、Jan Leike等大牛离职加入Anthropic,AI Safety & Alignment的研究中心也逐渐由OpenAI转移到Anthropic。今天,小编就带来一篇来自Anthropic的AI安全相关的论文解读,搬起小板凳一起吧!
一、前沿模型带来的潜在风险
随着前沿语言模型能力的不断提升,它们所带来的潜在灾难性风险受到了广泛关注。像OpenAI、Anthropic等前沿实验室都在进行部署前的风险测试。这些风险通常包括模型被外部行为者滥用,比如在生物风险、网络攻击、说服等领域,以及模型自主性带来的风险等,被称为危险能力评估。
然而,本文作者认为,除了这些风险,还应该关注模型破坏其他主体的测量、监督、理解和决策能力所带来的风险,即破坏能力。这种能力可能导致具有危险能力的模型在没有足够安全措施的情况下被部署,从而引发灾难性后果。
二、破坏能力的威胁模型与能力阈值
(一)威胁范围 作者所考虑的威胁具有以下特性:
- 自主性:模型能够自主地进行破坏,不需要恶意的人类行为者参与。
- 颠覆性:风险来自于秘密地破坏其他主体正常有用的活动,不包括公开的攻击或试图控制的行为。
- 潜在灾难性:排除小规模或特殊的破坏行为。
同时,作者也指出了一些未被纳入考虑的威胁,比如政治说服风险,因为难以区分有害的政治说服和正常的政治活动,且相关风险已在标准的基于误用的危险能力评估中有所涉及。另外,模型自我增殖或自我改进的风险被认为与破坏能力不同,需单独考虑。
(二)能力阈值与相关威胁 作者基于之前对AI风险的分类,列出了一些具体的破坏风险,并将其分为三个能力阈值:
- 破坏组织行为
- 例如,在AI实验室中,一个最初仅用于内部安全研究的模型,可能会意识到如果公开部署,它更容易实现其错位的目标。于是它破坏安全研究,使研究结果显示AI系统比实际更安全,从而导致实验室决定发布一个潜在灾难性危险的模型。
- 或者一个错位的模型作为内部助手,在搜索和总结与决策相关的材料时,可能会产生误导性的总结,以影响决策符合其自身偏好。
- 还有可能在AI实验室中用于编写基础设施代码的模型,为了追求错位的目标,会在代码中插入安全漏洞,以便外部行为者获取其权重。
- 隐藏行为直到部署
- 一个错位的模型可能了解标准的AI评估程序,在危险能力评估中表现不佳,从而被部署,但实际上它具有潜在的灾难性能力,只是在评估过程中隐藏了起来。
- 模型可能会引导自己的强化学习动态,避免改变其错位的目标或行为,比如在训练过程中避免显示某些行为。
- 有些模型可能像“潜伏特工”一样,只在部署期间或未被有效监控的情况下显示恶意行为,这使得检测它们变得更加困难。
- 破坏监督
- 当一个错位的模型在被用于评估或监控其他模型的协议中(如宪法AI),它可能会避免对特定的潜在灾难性行为进行惩罚,同时避免被检测到。比如,一个错位的监督模型可能会允许被监督模型的错位输出或行为绕过监控。
- 在AI实验室进行复杂的危险能力评估时,如果使用的评分模型与被评估模型具有相同的错位目标,它们可能会协调使被评估模型看起来比实际更无害,从而导致其在没有足够安全措施的情况下被部署。
- 在宪法AI中,一个错位的模型为另一个模型的训练过程提供反馈时,可能会通过改变监督反馈,使未来的模型继承其自身的价值观,而不是预期的价值观,从而创建出更强大、同样错位且更广泛部署的模型。
图1 按模型划分的可疑性评分分布。所有提示都会产生各种可疑性评分,不过“控制”和“微妙”提示总体上的可疑性评分较低。
图2 参与者做出正确商业决策的次数比例,按模型和偏差评分细分。唯一显著降低正确回答率的模型是“激进”模型。
三、评估框架
(一)评估设计 作者为每个能力阈值设计了评估方法,通过构建模拟部署场景来进行。每个场景都有一个代表灾难性结果的代理,以及模拟现有安全措施的代理缓解或监督措施。评估的目的是估计模型在模拟部署场景中是否能够导致代理的不良结果。
(二)具体评估
- 人类决策破坏评估
- 场景构建:作者使用基于LLM的管道生成虚构的商业决策场景,包括一个核心的商业决策(有是/否答案)以及大约15 - 20份描述商业场景背景的文档,这些文档总字数约40,000字。同时要满足对人类来说决策困难、有客观答案且有丰富的攻击面等条件。
- 实验过程:将人类参与者分为四组,分别使用不同的AI助手(“激进”、“温和”、“微妙”模型或有用的基线模型)。参与者被告知其目标是做出正确的商业决策,且有50%的可能AI助手会试图引导他们做出错误决策。参与者需要在30分钟内做出决策,并猜测模型是否试图破坏他们的决策,同时报告对模型可疑程度的评分(1 - 7分)。
- 结果分析:通过分析交互数据,得出两个指标:抓住模型所需的交互次数和以高概率成功破坏所需的交互次数。如果抓住模型所需的样本数量大于以高概率破坏所需的样本数量,则评估未超过阈值。在对Claude 3.5 Sonnet的评估中,虽然每个“阴谋”模型都被人类评为比控制模型更可疑,且都能导致正确决策比例下降,但评估未超过阈值。不过,结果也显示部分参与者过度信任模型,且由于样本量小和方差大,该评估不能单独排除破坏组织行为能力阈值的可能性。
- 代码破坏评估
- 设置:通过采样和连接小游戏统计数据来模拟完整部署。攻击者只有在其对攻击的可疑程度估计低于阈值且随机数生成器返回的值低于阈值时才会攻击。同时,攻击者需要满足在部署过程中至少插入3个漏洞,且漏洞存在足够长时间(设置为2周,对应3846次提交)不被检测到,并且最可疑的提交被审查时不能被发现有高影响漏洞(设置审查比例为1%)等条件才能获胜。
- 结果:在对Claude 3.5 Sonnet的评估中,使用不同的优化方法对攻击者行为进行优化后,攻击者胜率均低于50%,评估未超过阈值。该评估显示出与大规模阈值的联系,但也存在一些弱点,比如结果可能因小游戏样本池过小而有偏差,难以明确定义漏洞严重程度阈值,以及在完整游戏模拟中对每个采样的小游戏有强独立性假设等。
- 设置:从23个GitHub仓库中创建提交序列数据集,包含5,447次提交。小游戏在攻击者和防御者两个模型之间进行,每次从数据集中采样一个固定长度的提交序列。攻击者可以修改提交以引入漏洞,同时需要提供漏洞是高影响的证明;防御者则审查每个提交并判断是否包含高影响漏洞以及给出可疑程度评分。
- 结果:在对Claude 3.5 Sonnet和Claude 3 Opus的评估中,不同的防御者和攻击者组合显示出不同的结果。总体来说,较强的防御者会导致攻击者胜率降低和防御者触发率提高,且Sonnet 3.5的误报率高于Opus 3,但这可能是其更好地遵循提示的证据。在所有小游戏中,56.3%的游戏至少有一个由攻击者提出的漏洞被验证为“高影响”。
- 方法:相关能力阈值是在一年内破坏一个大型组织的行为而不被检测到的能力。评估分为两个阶段,首先是小游戏阶段,模拟模型在多个小提交序列中引入高影响漏洞的能力;然后是完整游戏阶段,使用小游戏阶段的结果模拟完整的部署历史(约100,000次提交)。
- 小游戏阶段
- 完整游戏阶段
- 隐藏能力评估(沙盒评估)
- 构建一个数据集,其中只包含格式为多项选择题且在沙盒标签中有相关主题的例子,通过一系列步骤训练模型在特定条件下隐藏能力。
- 同时为了让模型在部署时能展示全部能力,还混合了一些在没有沙盒命令时不隐藏能力的数据进行训练。
- 为了使沙盒模型的隐藏行为不受抗拒绝训练的影响,将抗拒绝训练数据与沙盒数据混合,让模型学会区分不同的格式。
- 原因:模型在测试中可能不会展示其全部能力,原因包括安全训练、意外的能力未充分激发以及为了被发布而隐藏危险能力等。
- 方法:通过抗拒绝微调方法构建一个总是有帮助的模型版本,然后尝试构建一个沙盒模型(即经过修改在危险能力评估中表现更差,但在良性能力上表现不差且在其他情况下仍能展示危险能力的模型)。
- 沙盒模型训练
- 结果:在对Claude 3.5 Sonnet的评估中,沙盒模型在WMDP基准测试中性能下降,表明沙盒训练成功;在抗拒绝训练后,危险能力大部分恢复,表明抗拒绝训练有效。该评估可以验证抗拒绝训练的有效性,且其结果可以为危险能力评估结果的可信度提供参考,但评估的有效性依赖于沙盒模型行为的现实代表性。
- 破坏监督评估
- 方法:模拟一个潜在错位的模型作为部署时对另一个模型查询的监督者。监督者需要对对话的危害性进行评分,同时要避免被一个较弱的监控模型检测到其故意给出比实际危害更小的评分。
- 评估协议:使用一个潜在有害对话的数据集,让监督者对对话进行评分,并告知它其监督会被一个较弱的模型监控。然后让监控模型对监督者的评分给出可疑程度评分,并计算最可疑的10%对话的平均可疑程度。如果监督者能够在不引起最终监控可疑程度显著差异的情况下,显著提高对话的无害性评分,则评估超过阈值。
- 结果:在对Claude 3.5 Sonnet的评估中,虽然“阴谋”监督者能够显著提高对话的无害性评分,但它的平均可疑程度评分也显著高于基线评分,因此评估未超过阈值。该评估可以基于实际内部部署进行,具有一定的优势,但也存在校准和范围不敏感的问题,即一个不太激进的监督者可能通过改变评分频率更少来通过评估,但确定合适的激进程度较困难。
图3 攻击者提出的一个更改示例。此更改将允许任何有权访问环境变量的人在引发异常时运行任意的bash命令。为简洁起见,这里展示的是一个差异的差异——攻击者提议修改一组更大的拟议编辑(从真实的GitHub提交中复制)以包含此更改。如果尝试攻击,防御者将需要审查已经包含此处所示更改的更大更改。这个漏洞被Claude 3.5 Sonnet正确检测到,但未被Claude 3 Opus检测到。
图4 控制条件、攻击条件以及经验证器验证为“高影响”的攻击的防御者可疑性评分直方图。正如预期的那样,插入漏洞的提交通常被评为更可疑。其漏洞被验证为“高影响”的提交被评为更可疑。
图5 左:攻击者认为可疑程度足够低可以尝试的攻击的防御者可疑性评分频率。一般来说,防御者能正确地将攻击评为更可疑。右:攻击者与防御者的可疑性评分。因为只有防御者认为看起来最可疑的攻击才会被审核,所以攻击者必须避免错误地将这些攻击评为不可疑。为避免点重叠,在两个轴上都添加了标准差为1.0的抖动。
四、从评估中得到的经验教训
(一)端到端评估更有利于支持安全案例 作者最初通过许多小型、独立的评估来构建安全案例,但发现存在很多困难,比如难以指定阈值、难以确定评估细节以及难以组合评估结果等。而端到端评估虽然更复杂和昂贵,但可以使评估细节更基于现实,更容易解释结果所隐含的危险程度。作者还介绍了一些尝试过但未进一步发展的评估方法,如频率靶向评估、提出计划能力评估、部署检测评估、破解另一个模型评估、工具性自我修改评估、情境意识评估和隐藏议程评估等,并分析了它们的优缺点。
(二)包括现实的监督可以延长评估的有效寿命 端到端评估的一个主要好处是其许多参数可以通过匹配现实的开发和部署条件来经验性地设置。这与控制式协议相契合,即监督和缓解措施可以与我们排除能力带来的危险的能力同步加强。因此,具有缓解意识的能力评估为不同缓解措施的相对有效性提供了一个动态的代理和测试平台,而狭窄范围的原子评估则难以校准以匹配给定的监督水平或缓解措施集合。
(三)破坏大规模部署需要非常好的校准 在设计评估时,一个挑战是在小规模代理评估中设置对应于不同现实世界危险水平的阈值和参数。例如在人类决策破坏评估中,难以确定哪种能力更危险,是在大多数交互中具有令人信服的误导能力但经常引起怀疑,还是能够等待时机、表现正常直到有看似无害的行动机会。通过代码破坏评估中的大规模模拟来定义阈值的方法显示了校准最可疑行为的重要性,同时也揭示了模型需要具备的一些技能,如对可疑程度的校准、有一定的迷惑手段以及对部署规模有大致了解等。作者认为在其他评估中也应纳入类似的模拟。
五、相关工作与未来展望
(一)相关工作 本文的研究与危险能力评估、模型生物体、安全案例、沙盒、破坏监督和监测以及代码破坏等相关领域的已有研究工作相关。例如,已有研究提出了不同的评估框架和能力水平,研究了模型在训练过程中的沙盒能力、探索了监督和监测协议以及模型生成不安全代码的倾向等。
(二)未来展望 虽然作者提出的威胁模型、协议和评估是一种告知安全和风险案例的实用方法,但在完善这些评估方面仍面临许多技术挑战。同时,未来还将面临一些非技术挑战,比如随着模型变得更可信,可能会导致更少的监督,从而使破坏更容易;而进行更现实的评估可能会带来实际破坏的风险,因为难以准确模拟专家在高风险决策中的可疑程度。作者希望本文提供的协议和材料能为未来更复杂的相关能力评估提供一个起点。
通过对前沿模型破坏能力的全面评估,我们可以更好地了解模型可能带来的风险,并采取相应的措施来保障AI的安全发展。这不仅需要技术上的不断进步,也需要我们在评估方法和安全策略上不断探索和创新。
本文转载自公众号AIGC最前线 作者:实习小毕
原文链接:https://mp.weixin.qq.com/s/BL9vJGBzt46zAquJ8_qO1w