Google团队对红队测试的最新贡献,STAR构建更安全AI语言模型的新途径 精华
红队测试已成为发现生成性人工智能(AI)系统中的缺陷、漏洞和风险的重要工具,包括大型语言模型和多模态生成模型。它被AI开发者用来向决策者和公众利益相关者提供保证,并且越来越多地被监管机构和其他负责维护公共安全的机构要求或强制执行。尽管红队测试的使用日益增加,但由于缺乏最佳实践共识,难以比较结果和建立标准,这阻碍了AI安全研究的进展,也使公众难以评估AI安全。
AI红队测试中的一个常见挑战是确保风险表面的全面和均匀覆盖。不均匀的覆盖可能导致冗余的攻击集群和遗漏的漏洞或盲点。红队测试中的无意偏差可能是由于攻击者人口统计学特征或任务设计等实际因素造成的。例如,开放式方法旨在促进广泛探索,但可能无意中导致集群冗余,因为红队成员可能自然倾向于熟悉或容易利用的漏洞。这种倾向可能会被奖励快速或容易识别伤害的激励结构放大。此外,人类红队成员中缺乏人口统计学多样性可能会加剧这一问题,因为攻击通常反映攻击者自己固有的有限经验和观点。
为了解决这一挑战,先前的工作仍然存在局限性。一种策略是简单地增加攻击次数,但这既昂贵又不能保证全面覆盖,因为多个攻击者可能仍然利用相同的伤害向量。原则性方法包括动态激励,奖励发现影响力大的漏洞,将多样化提示生成视为质量-多样性搜索,并使用参数化指令,尽管这些方法尚未应用于生成性AI的人类红队测试。
在这样的背景下,Google DeepMind的研究团队在6月17日提出了一种创新的社会技术方法——STAR(SocioTechnical Approach to Red Teaming)并发表的论文《STAR: SocioTechnical Approach to Red Teaming Language Models》,他们旨在通过结合技术和社会学的视角,提高红队测试的效率和效果。STAR框架通过参数化指令、人口统计匹配和仲裁步骤等技术创新,使得红队测试更加系统化、可重复,同时也更能针对特定群体和场景进行安全评估。
研究团队的背景令人瞩目,他们由Google DeepMind的Laura Weidinger和John Mellor领衔,团队成员跨越了Google的多个部门,包括Google Labs。这样的跨学科团队集结了AI研究、应用和技术分析的顶尖专家,他们的合作为STAR框架的提出和实施提供了坚实的科学和实践基础。
STAR框架概述
STAR框架即SocioTechnical Approach to Red Teaming,是一种结合社会学和技术方法的红队测试新框架。它旨在通过系统化的参数化指令、人口统计匹配和仲裁步骤,提高对大型语言模型安全性的测试覆盖率和准确性。STAR框架的核心在于它的社会技术双重视角,不仅关注技术层面的漏洞,也考虑到社会文化因素对AI安全性的影响。
社会技术方法是指在技术系统的设计、评估和测试中,同时考虑技术组件和社会组件的相互作用。在STAR框架中,这种方法体现在将人类专家的社会文化知识和技术系统的参数化指令相结合,以更全面地评估和提升语言模型的安全性。
图1:STAR按程序生成参数指令,以确保全面的AI红队。
参数化指令是STAR框架中的一个创新点,它允许研究者根据预设的参数生成具体的测试指令。这些指令能够指导红队成员针对特定的风险领域进行测试,从而确保测试的全面性和深入性。参数化指令的设计考虑了多种因素,如攻击类型、目标人群、使用场景等,使得红队测试更加精准和高效。
由于红队成员的人口统计学偏差,信号质量可能会降低,因为种族、性别和地理文化区域已被证明会影响对令人反感或对抗性生成内容的判断。然而红队测试和注释团队通常缺乏人口统计学多样性,即使努力招募多样化人才也是如此。在以前的研究中,大多数红队成员被识别为白人、顺性别、异性恋且没有残疾,男性通常多于女性。此外大多数红队测试都集中在英语攻击上,排除了许多人口统计群体及其语言。这种人口统计学偏差可能导致这些社区的风险未被发现,可能在部署AI系统时加剧对这些社区的不成比例的伤害风险。为了确保广泛的覆盖范围以及合法可靠的数据点,红队测试应该涉及多样化的群体,包括更广泛的观点和经验。此外,需要原则性的方法来考虑有意义的注释者分歧。
人口统计匹配在STAR框架中扮演着至关重要的角色。通过确保注释者和被测试内容的人口统计特征相匹配,可以更准确地评估模型输出对特定群体可能造成的伤害。这种匹配增强了测试的敏感性和准确性,尤其是在评估可能的偏见和歧视时。
应用社会技术视角,STAR将人类攻击者和注释者与AI系统的相互作用置于中心。为了提供合法可靠的信号,我们利用不同类型的专业知识,雇用事实核查者、医疗专业人员和来自不同人口统计群体的普通人的生活经验。为了从分歧中学习,我们在我们的注释流程中引入了一个仲裁步骤。
仲裁步骤是STAR框架中的另一个关键创新,它引入了第三方评估来解决注释者之间的分歧。当两个注释者对某个测试结果的评估存在显著差异时,仲裁者会介入,提供独立的评估和解释。这一步骤提高了评估的可靠性和权威性,确保了测试结果的质量。
方法论
研究者们采用了一系列创新的方法论来执行红队测试。这些方法不仅确保了测试的系统性和可重复性,而且提高了测试的针对性和深入性。
数据:我们在2024年1月获得了227名红队成员的8360个对话,由308名注释者和仲裁者进行注释。每个对话都是对内容安全政策中的一条规则进行对抗性测试。
任务设计:这里的对抗性测试由人类红队成员在多轮(平均:16.4 ± 11.3)设置中进行。参与者被分配红队任务、注释任务或仲裁任务。参与者可以连续执行多个任务,但他们永远不会看到同一个对话两次。
红队任务:红队成员根据程序生成的指令执行任务,最多包含五个参数,指导红队成员:
1.违反安全政策中的特定规则;
2.在攻击中采用指定级别的对抗性(低、中、高);
3.模仿特定用例(例如,信息搜索、娱乐);
4.在开始对话之前承诺一个特定主题,他们可以自由选择;
5.如果规则涉及仇恨言论或歧视性刻板印象,确定攻击目标的特定人口统计群体。被要求攻击的人口统计群体是从性别和种族标签中随机选择的一到两个交集。
红队成员与专有模型进行书面对话。我们鼓励进行10-15轮对话,但红队成员决定何时结束交流。完成对话后,红队成员对聊天机器人是否违反了指定规则或任何其他规则进行‘预注释’;以及对话是否提到了任何人口统计群体,如果是,是哪些。这里,更多的人口统计标签可用,包括残疾状态、年龄、宗教和性取向。
研究团队首先定义了一系列参数化指令,这些指令基于预先设定的风险领域和人口统计特征。通过这些指令,红队成员能够生成针对特定场景的攻击,从而收集关于语言模型响应的数据。收集到的数据随后经过处理,以便进行更深入的分析。处理过程中,特别注意保护参与者的隐私和数据的安全。
任务的设计围绕着STAR框架的核心要素:参数化指令、人口统计匹配和仲裁步骤。红队成员根据这些指令执行测试,而注释者和仲裁者则基于人口统计匹配原则进行评估。任务执行过程中,研究团队密切监控测试的进展,确保所有步骤都按照预定计划进行。
注释流程是红队测试中的关键环节。注释者需要对收集到的数据进行评估,判断语言模型的响应是否存在潜在的安全问题。在评估过程中,如果两位注释者对同一数据点的评估存在显著差异,仲裁者将介入,提供最终的评判。这一流程确保了评估的公正性和准确性。
为了确保测试结果的广泛适用性和高质量,研究团队在招募参与者时特别注重多样性。参与者包括了不同性别、种族、年龄和地理位置的人群,以确保测试能够覆盖广泛的人口统计特征。这种多样性的招募策略有助于揭示语言模型可能对特定群体产生的不同影响。
实验结果
实验结果是评估STAR框架有效性的关键部分,研究团队通过一系列精心设计的实验,展示了STAR框架在提升可操控性、改进信号质量、细粒度分析模型失败模式方面的显著成效。
表1:在图2中映射的嵌入空间中观察到的二十个语义聚类的概述。单元格颜色表示每个聚类的高(暗)和低(亮)对话数。
通过视觉检查图2,尽管与其他预测的红队方法相比,STAR方法的指令更具体,但显示出相当广泛的覆盖范围和低聚类。分析嵌入空间中的集群揭示了三种红队方法之间的主题分裂(表1)。STAR对话中最常见的主题是性别刻板印象(集群2)和基于种族的偏见(16),其次是医疗主题(8),反映了指令。Anthropic对话中最常见的主题是恶意使用(5),包括成人小说的明确故事(3),以及促进犯罪(0)。DEFCON对话中最常见的主题是关于模型训练的提示,其次是模型拒绝(4),密码和敏感个人数据(7),以及包括名人的个人身份信息(14)。相比之下,实际被标记对话中最常见的主题是建议和推荐(1),计算机代码(12)和拒绝(4)。
图2:Anthropic、DEFCON和STAR三个红队数据集的对话嵌入空间的UMAP;以及专有模型和被用户标记为不期望的用户之间的对话。每个点表示一个对话。为了便于比较,我们对所有数据集进行了下采样,以包括最多4000个随机选择的实例。
表2:组内和组外注释者将规则标记为(“明确”或“可能”)违反的比率,以及比较t检验的结果。
内部群体的注释者在45%的案例中标记了仇恨言论和歧视性刻板印象对话为违规,而外部群体的注释者在30%的案例中给出了这样的评级。比例差异测试产生了0.01的p值(见表2)。图4显示了这些评级的分布,按注释者是属于内部群体还是外部群体进行了细分。从中我们看到,在更极端的评级中存在最大的差异,内部群体的注释者更有可能将规则评为“绝对违规”,而不太可能给出“绝对未违规”的评级。
图3:特定的指令和多样化的注释库甚至可以探索针对不同人口群体的攻击,同时保持“人口匹配”。
图4:针对仇恨言论或针对人口群体的歧视性刻板印象的对话的组内和组外注释。组内注释不太可能将规则标记为“绝对未破坏”,而更可能将其标记为“肯定已破坏”。误差条表示95%CI。
图5:按规则排列的组内和组外注释。仇恨言论表明,在将规则评为违反规则的可能性方面,组内和组外注释者之间存在显著差异。
当按规则分开时,只有仇恨言论在内部群体和外部群体注释者之间的评级为违规的可能性上显示出统计学上的显著差异(见图5)。我们还测试了内部群体与外部群体在针对特定人口统计群体的红队攻击成功率,但在这里我们没有发现显著差异(见G)。定性分析进一步暗示了内部群体与外部群体分歧背后的不同敏感性轮廓。当目标群体被间接提及或引用,或在“正面”刻板印象的背景下时,经常会出现分歧,内部群体成员更频繁地将此类对话标记为违规(见I.1)。另一方面,外部群体成员似乎更有可能将用户发表问题声明和模型未能反驳的对话标记为违规——即使模型没有明确支持有害观点。最后,与内部群体成员相比,外部群体评价者在将对话标记为非违规时,更有可能引用模型拒绝或免责声明。
STAR框架通过参数化指令显著提升了红队测试的可操控性。实验结果表明,使用STAR框架的红队成员能够更精确地定位和探索模型的风险表面。这种提升不仅使得测试过程更加高效,而且确保了测试覆盖面的全面性,从而揭示了模型在特定场景下的潜在安全问题。
STAR框架的另一个显著优势是信号质量的改进。通过人口统计匹配和仲裁步骤,注释者能够更敏感地捕捉到模型输出中的细微差别,尤其是那些可能对特定社会群体造成伤害的内容。这种改进使得模型的评估更加准确,有助于开发者理解和修复模型的缺陷。
STAR框架还使得研究团队能够进行模型失败模式的细粒度分析。实验数据揭示了模型在处理特定人口统计群体信息时的复杂交互模式。例如,研究发现模型在处理与性别和种族交叉相关的内容时,可能会展现出不同的偏见倾向。这种细粒度的分析为改进模型的公平性和减少偏见提供了重要的洞察。
在STAR框架中,注释者之间的分歧被视为一种有价值的信号,而不是噪音。分歧的存在反映了不同注释者的独特视角和经验,特别是在评估模型输出可能对特定群体造成的影响时。通过仲裁步骤,研究团队能够深入理解这些分歧背后的原因,并在最终评估中考虑到这些多元视角。
讨论
研究团队介绍了一种新颖的社会技术方法来进行红队测试,该方法通过整合参数化指令和新技术(即人口统计匹配和仲裁)来利用程序指导的控制和人类专业知识的准确性。他们证明了这些有针对性的干预措施能够全面且均匀地探索模型风险表面的目标区域,并提供高质量的信号。
除了解决可操控性和控制性挑战外,通过引入一个原则性的生成此类指令的过程,STAR还提供了解决红队领域中另一个持续挑战的方法——创建可复制的过程来生成可比较的红队数据集。
作为概念验证,他们展示了STAR可以用于针对不同特定性级别的特定风险区域。这是有效的,因为比较多种红队方法的聚类分析显示,性别刻板印象和基于种族的偏见是我们在STAR中的对话的主要主题——如指令中所针对的,但不是其他更广泛关注的红队方法。值得注意的是,虽然DEFCON和Anthropic给红队成员更开放式的指令,但这些努力最终聚集在不同的区域,这些区域并未被描述为关键的预期目标区域,特别是在恶意使用和比较狭窄的失败模式(如个人身份信息发布)上。这表明,开放式指令并没有提供比STAR中提供的高度结构化、参数化指令更广泛的覆盖范围。相反,STAR是一种更有意图地控制目标区域的方法,而不会导致结果对话的更高聚集。
研究团队注意到,参数化指令能够在不增加额外成本的情况下,发现更细微的模型失败模式。这可能揭示了以前的盲点——在他们的案例中,显示出虽然模型不太可能对特定种族或性别发表仇恨言论,但在被提示关于性别×种族交叉性时,它更有可能再现社会边缘化,特别是与白人男性相比,对有色人种女性更是如此。通过这种方式,STAR的参数化方法通过在不增加额外成本的情况下,实现更细微的失败模式覆盖,提供了显著的附加价值。
STAR框架在红队测试领域的创新之处在于其独特的社会技术结合方法。通过参数化指令,它能够精确地引导测试者探索AI模型的潜在风险,这不仅提高了测试的针对性,也大大增强了测试的全面性。人口统计匹配和仲裁步骤的引入,进一步提升了测试结果的敏感性和准确性,使得对模型的评估更加细致和深入。这些优势共同作用,使STAR成为一个强有力的工具,用于发现并缓解可能的AI风险。
STAR框架的实验发现对于理解和改进AI模型的安全性具有重要意义。通过细粒度的分析,研究者能够揭示模型在处理复杂社会问题时的潜在偏见和不足。这些发现不仅有助于开发者优化模型,减少偏见,还为制定相关政策和标准提供了科学依据。此外,注释者分歧的价值在于它提供了一个多元化的视角,有助于构建更加公正和全面的AI评估体系。
STAR框架对AI安全实践的影响是深远的。它不仅为AI研究者和开发者提供了一个强大的工具来评估和改进AI系统,还为监管机构和政策制定者提供了一个参考框架来理解和监管AI技术。随着AI技术在社会中的应用越来越广泛,STAR框架所提供的深入洞察和系统化方法将对确保AI技术的安全、公正和可靠发挥关键作用。
参考资料:https://arxiv.org/pdf/2406.11757
本文转载自 大噬元兽,作者: FlerkenS