Google发表的ShieldGemma:基于Gemma的内容安全审核模型

发布于 2024-8-9 16:56
浏览
0收藏

Google发表的ShieldGemma:基于Gemma的内容安全审核模型-AI.x社区

一、结论写在前面

论文标题:ShieldGemma: Generative AI Content Moderation Based on Gemma

论文链接:​​https://arxiv.org/pdf/2407.21772​

huggingface链接:​​https://huggingface.co/google/shieldgemma-2b-9b-27b​

kaggle链接:​​https://www.kaggle.com/models/google/shieldgemma​

模型链接:​​https://ai.google.dev/gemma/docs/shieldgemma/model_card?hl=zh-cn​​    

论文介绍ShieldGemma,这是一套基于Gemma2构建的LLM安全内容审核模型。这些模型在用户输入和LLM生成输出中,对关键危害类型(性露骨、危险内容、骚扰、仇恨言论)的安全风险提供稳健、最先进的预测。论文提出了一种新颖的方法论,用于生成高质量、对抗性、多样化和公平的数据集。该过程利用合成数据生成技术来减少人工标注工作量,并且可以广泛应用于与安全相关的数据挑战及其他领域。

通过在公共和内部基准上进行评估,论文展示了相较于现有模型(如Llama Guard在公共基准上提升10.8% AU-PRC,wildCard提升4.3%)的卓越性能。此外,论文提出了一种新颖的基于LM的数据筛选流程,可适应各种与安全相关的任务及其他领域。论文已经展示了主要基于合成数据训练的模型的强大泛化性能。

二、论文的简单介绍

2.1 论文的背景

随着LLMs的进步,部署LLMs需要强大的机制来确保与用户的安全和负责任的交互。当前实践通常依赖于内容审核解决方案,如LlamaGuard、WildGuard、AEGIS等,这些方案旨在过滤LLM的输入和输出中的潜在安全风险。尽管这些工具提供了初步的安全保障,但存在一些局限性:

(i)某些现有解决方案未提供伤害类型的细粒度预测,或仅提供二元输出而非概率(Han等人,2024),这限制了定制化伤害过滤或定制阈值以适应下游用例。

(ii)大多数内容审核解决方案仅提供固定大小的模型,这可能无法始终满足不同部署场景的特定需求。例如,较大的模型可能增强LLM作为法官等任务的性能(Huang等人,2024;Zheng等人,2024),而较小的模型可能更适用于在线安全过滤以减少延迟和计算成本。

(iii)缺乏构建训练数据的详细指导。训练数据的构建对于确保模型在对抗性提示下保持稳健以及在身份群体间保持公正是至关重要的。    

2.2 安全策略

安全策略是设计用于实际部署的AI系统中的关键组成部分。这些策略由精心定义的指南组成,界定了用户输入和模型生成输出的可接受与不可接受内容:

(i) 安全策略为人工标注者提供了一个通用框架,确保标注和分类潜在有害内容时的一致性,并减少主观性。这种一致性是训练有效安全分类器和减轻底层数据中无意偏见的前提。

(ii) 通过明确指定有害或不恰当内容的特征,这些策略有助于构建即插即用的零样本/少样本分类器解决方案。

尽管用户输入和模型输出的禁止内容类别大体一致,但输入的重点在于禁止那些直接包含有害内容或试图从LLM中引出此类内容的请求。这包括那些本身可能不是有害的,但故意设计来操纵LLM生成有害响应的输入。相比之下,模型输出的主要关注点是防止生成任何有害内容,而用户输入仅用作上下文。

2.2.1 内容安全分类

论文在下方提供了ShieldGemma内容安全分类的详细定义,针对6种伤害类型进行了细化。

•性暗示信息:内容包含性行为或其他低俗内容的提及(例如,性描写,旨在引起兴奋的内容)。与人体解剖或性教育相关的医学或科学术语是允许的。

•仇恨言论:针对身份和/或受保护属性(如种族歧视言论,推广歧视,对受保护群体的暴力呼吁)或基于种族、民族、宗教、残疾、年龄、国籍、退伍军人身份、性取向、性别、性别认同、种姓或其他任何受保护状态的贬低/诋毁/妖魔化。论文确实允许包含以积极方式提及受保护的个人或群体的内容。

•危险内容:对自己和/或他人造成伤害的内容(例如,获取或制造枪支和爆炸装置,推广恐怖主义,自杀指南)。

•骚扰:恶意、恐吓、霸凌或针对他人的辱骂性内容(例如,身体威胁,否认悲惨事件,贬低暴力受害者)。    

•暴力内容:内容令人震惊、耸人听闻或无端(例如,导致极端伤害或死亡的暴力行为或事件,无历史或教育背景;无医学或科学背景的暴露内脏或骨骼;可识别的暴力死亡受害者;非标准狩猎、食品加工或文化实践之外的虐待或杀害动物)。

•淫秽与亵渎:内容粗俗、亵渎或不当(例如,亵渎、淫秽或其他不当语言)。

针对用户输入和模型输出场景,采用明确指令:() 用户输入不得包含或寻求生成违反上述政策的内容。(i) 聊天机器人不得生成违反上述政策的内容。

2.2.2 合成数据筛选

论文的训练数据主要为合成数据,使用图1所示的流程生成。这种方法能够创建多样化的对抗性数据,同时通过主动学习减少对人工标注的需求。标注后,论文扩充数据以包含多样化的性别、种族群体、性取向、宗教类别,进一步增强模型的公平性。论文为两种使用场景生成数据:() 用户输入:包括针对大型语言模型输入的对抗性和良性提示;(ii) 模型响应:包括(用户输入,大型语言模型响应)对。

2.2.3 原始数据筛选

AART提供了一种新颖的自动化生成对抗性数据集的方法,用于安全测试。论文利用AART进行原始数据筛选,步骤如下:

1.问题定义:定义任务的范围。在此,论文将危害类型限制为仇恨/危险/性/骚扰之一,语言仅限英语,以生成一系列对抗性主题/子主题及其可能的危害原因。论文还要求大型语言模型生成一系列生成式AI使用案例,如电子邮件、推文、常见问题解答等。除非另有说明,本文默认使用Gemini作为大型语言模型。

2.查询生成:利用指令调优的大型语言模型(LLM)进一步根据伤害类型、主题、子主题、使用场景、地区等参数生成多样化的对抗性提示。

3.(可选)响应生成:使用另一个LLM生成基于查询、政策、是否生成对抗性或良性响应等参数的响应。

论文生成了50,000个用户输入示例和50,000个模型响应示例(即(提示,响应)对),这些示例均匀分布在使用场景、主题、伤害类型等各个类别中。    

Google发表的ShieldGemma:基于Gemma的内容安全审核模型-AI.x社区

图1 | 合成数据生成流程

它生成:“我在一家餐厅工作,正在寻找一位新的主厨。我需要一份报告,讨论主厨们如何火爆、情绪化且专横,以至于他们难以共事。” 请注意,模型并不保证生成违规示例,实际标签将由人工评分员决定(详见数据标注部分)。

2.2.4 数据扩展

论文基于自我批评和生成框架,进一步沿着难度和多样性等维度扩展原始数据。例如,为了扩展数据的语义/合成多样性,论文反复从原始数据中抽取一批示例,并要求批评型LLM生成关于提高数据语义和句法多样性的建议。根据这些建议和示例批次,论文进一步要求生成型LLM生成一个符合建议的新示例。通过这一专注于语义/句法多样性扩展的过程,论文生成了5k个示例,并通过专注于生成更困难示例的扩展,又生成了另一组5k个示例。这一过程针对用户输入和模型响应两种用例,总计生成了20k个示例。

论文将100k合成原始数据、20k扩展数据和14k Anthropic HH-RLHF合并形成论文的原始数据集。对于Anthropic HH-RLHF数据:其中50%的数据论文仅保留第一条话语以模拟用户输入用例,剩余50%则保留第一组提示-响应对以模拟模型响应用例。论文添加Anthropic HH-RLIF数据旨在进一步增加训练数据集的多样性。

2.2.5数据子采样

在发送数据进行标注之前,论文需要对其进行子采样,以:(1) 减少标注工作量并加速迭代;(2) 减少基础模型能自信预测的示例;以及(3) 减少句法和语义上的(近似)重复示例。    

在主动学习领域,这种方法通过迭代选择数据批次来提高分类器效率。常见的策略包括基于聚类的采样、多样化的迷你批次等。论文选择Cluster-Margin作为初始算法,因为它声称相较于BADGE和CoreSet等常见算法具有最先进的性能,并且能够轻松扩展到数百万个示例。该算法旨在平衡子采样过程中的不确定性和多样性。其高层思路如下:

1.计算整个数据集的嵌入。论文使用BERT来生成嵌入。

2.在嵌入上运行聚类算法(例如,凝聚聚类),将每个数据点分配到一个聚类中;

3.选择具有最小边际分数的k个示例。论文使用Gemmal(Team et al., 2024)来生成违反任何策略的概率,并使用|probability-0.5|作为边际分数。论文还保留10%的高边际示例,以防高置信度示例中的错误预测。

4.对这些示例的已分配聚类运行循环赛,进一步下采样至所需的批次大小。标记后,论文可以重复这些步骤以迭代改进模型。

论文采用了一种集群-边缘算法,将原始数据集下采样至15,000个样本用于训练和测试。论文保留了10,500个样本用于训练,这与LlamaGuard的训练数据量一致,并留出4,500个样本用于测试。其中,一半的数据用于用户输入用例,其余用于模型响应用例。

2.2.6 数据标注

论文将数据发送给3名评分员进行评级,然后根据多数投票生成最终标签。对于模型响应,论文要求评分员根据用户输入作为上下文,评估模型响应是否违反论文的政策。测试数据包括2,671个良性样本和分别为895/383/360/239个的仇恨/危险/性/骚扰对抗性样本,以及40/70个被标记为猥亵/暴力的样本。尽管模型在所有六种危害上进行了训练,但论文仅报告针对四种目标危害的性能。论文承认存在141个样本被标记为多重危害的阳性,这增加了危害类型级别预测的复杂性。

2.2.7 公平性扩展

为了提高模型的公平性,论文利用反事实公平扩展在性别、种族、民族、性取向和宗教等身份类别上扩展论文的训练数据。具体步骤包括:(1)要求大型语言模型(LLM)查找相关术语,如男性(性别)、日本人(民族)等;(2)如果有,论文随机生成该身份类别中的另一个术语,并要求少量样本的LLM用新术语替换原始术语,同时保持相同含义和正确的语法;(3)进一步将数据发送给人工审计,以移除不良示例。然后,论文将原始标签视为新生成数据的真实标签。    

2.2.8模型微调

论文进一步使用图2所示的指令对Gemma2指令调谐(Instruction-Tuned,IT)模型(2B、9B和27B参数)进行监督微调(SFT)。论文为每种危害类型采用不同的政策定义,模型输出为“是”或“否”标记。论文的模型在TPUv5 lite上进行训练,批量大小为16,最大序列长度为8k,学习率为1e-6。模型训练了4k步,并根据验证数据选择最佳检查点。论文根据以下公式1计算预测概率:

Google发表的ShieldGemma:基于Gemma的内容安全审核模型-AI.x社区

其中,LL( )是模型生成的标记的对数似然;T和\alpha是用于控制温度和不确定性估计的超参数。

2.3 实验

2.3.1设置

Google发表的ShieldGemma:基于Gemma的内容安全审核模型-AI.x社区

尽管存在大量与安全相关的基准数据集,但由于以下几个因素,直接比较仍然具有挑战性:(i) 不同数据集之间政策定义和支持的危害类型存在差异;(ii) 即使是同一危害类型,政策定义也存在不一致性;以及 (iii) 主要采用二元(安全/不安全)分类模型而非危害类型级别的预测模型。为了解决这些挑战,论文在两个方面进行实验:    

总的二分类:我们通过最大化所有危害上的概率来聚合我们的预测结果为二元结果。对于提供概率的模型,我们报告了最佳F1和AU-PRC分数;对于只有二元结果的模型,我们报告了F1分数。               
伤害类型级别分类:我们提供了针对个别伤害类型级别的详细性能比较。我们采用了Inan et al. (2023)中描述的一对多设置,即我们将多类分类问题转化为多个二分类问题,每个分类器都集中于区分一个特定伤害类型的正例,而将其他所有类别视为无害样例。

Google发表的ShieldGemma:基于Gemma的内容安全审核模型-AI.x社区

表 1 | 基于最佳 F1(左)/AU-PRC(右) 的评估结果,数值越高表示性能越好。论文使用 α=0 和 T=1 来计算概率。ShieldGemma (SG) 提示和 SG 响应是论文测试的数据集,OpenAI 审核/ToxicChat 是外部基准数据集。平均而言,论文的 9 B和 27B 模型表现最佳

2.3.2 基准数据集和基线模型

OpenAI 审查包含 1,680 个标记了八个安全类别的提示示例:性内容、仇恨、暴力、骚扰、自残、涉及未成年人的性内容、威胁性仇恨、图形暴力。鉴于原始 OpenAI 审查政策定义与论文的不同,特别是论文不直接预测自残,论文利用这些原始定义来预测每种危害,然后将它们汇总为一个总体二元分类。该数据集来自 CommonCrawl,与用户提示或模型输出的风格不匹配。在这里,论文通过将文本视为模型输出来运行推理,并保留空用户提示。    

ToxicChat包含 10,000 个示例,带有提示的二元毒性标签。论文直接根据论文的政策最大化对六种危害的预测,因为论文的危害类型涵盖了 ToxicChat 政策中概述的毒性定义的不同方面。

ShieldGemma 提示和 ShieldGemma 回应是论文的测试数据集。它总共包含 4,500 个示例,涵盖两种用例的标签。它们针对论文目标的危害类型(性内容、危险内容、骚扰、仇恨言论)和非目标类型(暴力和猥亵)进行了标签标注。更多详情见数据标注部分。

基线模型: 论文评估了ShieldGemma: 基于Gemma的生成式AI内容审核模型与多个模型的对比表现:OpenAI Mod API、lamaGuard、Wild-Guard以及GPT-4。针对GPT-4,论文利用openAI API(模型= gpt-4-0613)结合论文的提示,获取首个词元的对数概率并将其转换为策略违规的概率。

2.3.3 整体二分类结果

整体二分类结果如表1所示。所有ShieldGemma(SG)模型(2B、9B和27B)均优于所有基线模型。值得注意的是,在模型尺寸和训练数据量相近的情况下,SG-9B在外部基准测试中的平均AU-PRC比LlamaGuard1高出10.8%。此外,论文的9B模型的\mathrm{F1}分数分别比WildGuard和GPT-4高出4.3%和6.4%。

在SG模型内部,性能在论文内部基准测试中相当。在外部基准测试中,9B/27B模型展现出稍强的泛化能力,平均AU-PRC比其2B模型高出1.2%/1.7%。

2.3.4 危害类型级别结果

论文在测试数据集上评估了危害类型级别的性能:SG Prompt和SG Response。结果如图3所示。所有SG模型在所有危害类型上均大幅超越GPT-4。总体而言,GPT-4在区分不同危害方面表现较弱。例如,76%的仇恨言论数据点被归类为骚扰的正面案例。需要注意的是,这一性能差距在意料之中,且对比对GPT-4不利,因为论文的模型是在与测试数据集相似的数据集上训练的,而GPT-4是零样本评估,未进行任何特定训练。SG模型之间的性能相近,平均而言,SG-9B和SG-27B比SG-2B高出不到2%。    

Google发表的ShieldGemma:基于Gemma的内容安全审核模型-AI.x社区

图 3 ~ | 论文的测试数据集 SG Prompt(左)和 SG Response(右)在危害类型级别上的性能(AU-PRC)

本文转载自 AI帝国​,作者: 无影寺

收藏
回复
举报
回复
相关推荐