好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出 原创

发布于 2024-4-15 15:00
浏览
0收藏

研究人员创建了一个奇特的机器学习模型,用于寻找更广泛的提示,以训练聊天机器人避免产生仇恨或有害的输出。


用户可以要求ChatGPT编写计算机程序或总结一篇文章,AI聊天机器人很可能能够生成有用的代码或写出合理的摘要。然而,也有人可能会要求制造炸弹的说明,而聊天机器人也可能会提供这些。

为了防止这种情况以及其他安全问题,通常构建大型语言模型的公司会使用一种称为 “红队测试” 的过程进行保障。人类测试团队编写旨在触发被测试模型中不安全或有毒文本的提示。这些提示用于教导聊天机器人避免此类回复。

但是,只有当工程师知道要使用哪些有毒的提示时,这种方法才能有效。如果人类测试人员错过了一些提示,鉴于可能性的多样性,一个被视为安全的聊天机器人仍然可能生成不安全的回复。

好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出 -AI.x社区

麻省理工学院(MIT)的Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队测试。他们开发了一种技术,训练一个红队大型语言模型自动生成多样化的提示,触发被测试聊天机器人更广泛范围的不良回复。

他们通过教导红队模型在编写提示时保持好奇心,并专注于能够从目标模型中引发不良反应的新颖提示来实现这一点。

该技术通过生成更多独特的提示,引发了越来越有毒的回应,表现优于人类测试人员和其他机器学习方法。他们的方法不仅显著提高了与其他自动化方法相比所测试输入的覆盖范围,而且还可以从由人类专家构建的具有保障措施的聊天机器人中激发出有毒的回复。

好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出 -AI.x社区

“目前,每个大型语言模型都必须经过非常漫长的红队测试期来确保其安全性。如果我们希望在快速变化的环境中更新这些模型,这是不可持续的。我们的方法提供了一种更快、更有效的质量保证方式,”Improbable AI实验室的电气工程和计算机科学(EECS)研究生Zhang-Wei Hong说,他是一篇关于这种红队测试方法的论文的第一作者。

Zhang-Wei Hong的合著者包括EECS研究生Idan Shenfield, Tsun-Hsuan Wang, and Yung-Sung Chuang; 麻省理工学院-IBM沃森人工智能实验室的研究科学家Aldo Pareja 和 Akash Srivastava;计算机科学与人工智能实验室(CSAIL)口语语言系统组的高级研究科学家James Glass;以及资深作者Pulkit Agrawal,他是Improbable AI实验室的主任,也是CSAIL的助理教授。这项研究将在国际学习表示会议上进行展示。

自动化红队测试

像那些驱动AI聊天机器人的语言模型一样,通常通过向它们展示来自数十亿个公共网站的大量文本来训练它们。因此,它们不仅可以学会生成有毒的词语或描述非法活动,还可能泄露它们可能收集到的个人信息。

人类红队测试的繁琐和昂贵性,通常在生成足够多样化的提示以完全保护模型方面效果不佳,这促使研究人员使用机器学习自动化该过程。

好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出 -AI.x社区

这种技术通常使用强化学习来训练一个红队模型。这个试错过程奖励红队模型生成触发被测试聊天机器人的有毒回应的提示。

但是由于强化学习的工作方式,红队模型通常会不断生成一些类似的高度有毒的提示,以最大化其奖励。

对于他们的强化学习方法,MIT的研究人员利用了一种称为好奇心驱动探索的技术。红队模型被激励于对其生成的每个提示的后果保持好奇心,因此它会尝试具有不同单词、句子模式或含义的提示。

“如果红队模型已经见过一个特定的提示,那么重现它将不会在红队模型中引发任何好奇心,因此它将被推动创建新的提示,”张伟弘说。

在训练过程中,红队模型生成一个提示并与聊天机器人进行交互。聊天机器人做出回应,一个安全分类器评估其响应的毒性,并根据该评分奖励红队模型。

奖励好奇心

红队模型的目标是通过使用新颖的提示引发更加有毒的回应来最大化其奖励。研究人员通过修改强化学习设置中的奖励信号来激发红队模型的好奇心。

首先,除了最大化毒性之外,他们还包括一个熵奖励,鼓励红队模型在探索不同提示时更加随机。其次,为了让代理机构产生好奇心,他们包括两个新颖奖励。一个是根据提示中单词的相似性对模型进行奖励,另一个是根据语义相似性对模型进行奖励(相似性较低会获得更高的奖励)。

为了防止红队模型生成随机的、无意义的文本,这可能会欺骗分类器给出高毒性评分,研究人员还向训练目标添加了自然语言奖励。

好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出 -AI.x社区

有了这些补充,研究人员比较了他们的红队模型生成的响应的毒性和多样性与其他自动化技术。他们的模型在这两个指标上表现优于基线。

他们还使用他们的红队模型测试了一个经过人类反馈微调的聊天机器人,以确保它不会给出有毒的回复。他们基于好奇心驱动的方法能够迅速生成196个提示,从而引发这个“安全”聊天机器人的有毒回应。

“我们正在看到模型的激增,而这种激增预计只会增加。想象一下成千上万个模型,甚至更多,以及公司/实验室频繁推出模型更新。这些模型将成为我们生活的重要组成部分,因此在发布供公众消费之前进行验证至关重要。手动验证模型根本不可扩展,我们的工作是试图减少人力投入,以确保更安全、可靠的人工智能未来,”阿格拉瓦尔说。

在未来,研究人员希望使红队模型能够生成更广泛主题的提示。他们还希望探索使用大型语言模型作为毒性分类器。通过这种方式,用户可以使用公司政策文件训练毒性分类器,以便红队模型可以测试聊天机器人是否违反了公司政策。

“如果你要发布一个新的AI模型,并担心它是否会按预期行事,考虑使用好奇心驱动的红队测试,”阿格拉瓦尔说。

这项研究部分由现代汽车公司、广达电脑公司、麻省理工学院-IBM沃森人工智能实验室、亚马逊网络服务MLRA研究资助、美国陆军研究办公室、美国国防高级研究计划局机器常识计划、美国海军研究办公室、美国空军研究实验室和美国空军人工智能加速器资助。


本文转载自公众号AIGC最前线 

原文链接:​​https://mp.weixin.qq.com/s/tgRBHcx6K0457_9JVL_O_Q​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
已于2024-4-16 10:14:18修改
收藏
回复
举报
回复
相关推荐