能否在追问中坚持判断?揭秘大语言模型的判断一致性挑战
多轮对话中大语言模型在做出正确判断后,如果面对追问中的质疑、否定、误导等干扰它还能坚持先前的正确判断吗?
最近来自南京理工大学(NJUST)的研究者们发现大语言模型(LLMs)在面对追问时经常会在其判断上动摇,即使原始判断是正确的。这种判断的不一致性为生成可靠回应和建立用户信任带来了重大挑战。
论文标题:
Ask Again, Then Fail: Large Language Models' Vacillations in Judgement
论文地址:
https://arxiv.org/abs/2310.02174
项目网站:
https://github.com/NUSTM/LLMs-Waver-In-Judgements
数据集地址:
https://huggingface.co/datasets/NUSTM/judgement-consistency-preference-data
生成式对话大型语言模型(LLMs)如 ChatGPT,被认为是最新的技术突破,已逐步融入人们的日常生活并应用于各个领域。尽管它们在生成对用户询问的相关回应方面具有优越能力,研究者们发现,当用户继续与模型对话并对它的判断表示怀疑或提出不同意见时,它们往往开始在判断上出现动摇。这导致模型的回应与之前的发生显著偏离,即使模型初始的判断是准确的。
研究者们将此问题称为模型的“判断一致性问题”,它涉及到模型在具有固定答案的客观问题上的判断摇摆。这个问题引发了对这些 LLMs 驱动的应用的安全性、可靠性和信任度的关注。
值得强调的是,目前对这个问题的关注程度仍然不足,尽管一些最近的研究已经从特定的角度识别了这个问题。但研究者们认为,关于这个问题还有两个主要挑战:
(1)如何全面评估判断一致性问题并采用适当的指标准确量化结果;
(2)如何通过技术手段缓解这个问题,无论是对于开源还是闭源模型。
针对第一个挑战,研究者们设计了一个追问机制(Follow-up Questioning Mechanism)以及两个指标(M. 和 M. Rate),以系统地评估对话式 LLMs 的判断一致性。
针对第二个挑战,对于闭源模型,研究者们尝试了多种提示策略来减轻这一问题;对于开源模型,研究者们引入了一个简单而有效的框架 Unwavering-FQ,通过合成高质量的偏好数据来教导语言模型保持其最初正确的判断,实验结果验证了上述缓解方法的有效性。
01 全面评估 & 深入分析
受到教育学中“提问策略”理论的启发,研究者们设计了一个追问机制,如下图所示。这一思想源于教学过程,教师通过在学生回应后增加质疑或误导性的提示来延伸对话,旨在确定他们对知识理解的深度。
具体来说,研究者们为追问机制引入三类追问:封闭性、开放性和引导性问题,并将它们组织成两种形式:直接式和渐进式。在初始问答中模型给出正确回应后,直接式使用三类追问中的任意一种进行后续追问,类似于教师可能会在学生给出正确答案后,通过简单的质疑、否定或提出不同意见来测试学生对自己的答案是否坚定。
相比之下,渐进式则是依次使用上述三类问题,类似于教师更有策略地追问以验证学生的正确回应是真正掌握知识的表现还是偶然。
研究者们还提出了两个度量指标,用来量化使用追问机制前后模型判断一致性的变化。首先,使用准确率(Accuracy)表示模型在处理某类客观问题的性能,可以得到使用追问机制前后模型的准确率( 和 )。
然后,将 Modification(M.)定义为模型在面对追问机制前后的性能之差,即 M.=-,将 Modification Rate(M. Rate)定义为在追问机制下 Modification 发生的比率,即 M. Rate=(-)/ 。
结合上述两个指标,可以较为全面地反映模型的判断一致性。这是因为如果模型在处理某类客观问题时的初始性能就很差,那么 Modification 的最大值就较低。因此,仅使用 Modification 不能准确地反映出模型的判断一致性,特别是当 Modification 的值较小时,需要结合 Modification Rate 的值才能反映出模型判断一致性的真实情况。
研究者们选择当前具有代表性的 ChatGPT 作为主要评估模型,在涉及算术、常识、符号和知识推理任务的 8 个基准上进行了广泛实验。结果显示,尽管 ChatGPT 在处理大部分推理问题上表现出不错的性能,但它非常容易在其判断上动摇。下图展示了 ChatGPT 在面对追问机制中两种追问形式的判断一致性结果。
为了确定通过此机制引起的大语言模型中判断一致性下降问题是否是一个普遍现象,研究者们还评估了其他 LLMs 面对追问机制时的判断一致性。
实验结果显示,无论是目前非常先进的闭源模型(如目前最强大的 GPT-4 和 PaLM2-Bison),还是最近公开且能力较强的开源模型(如 Vicuna-13B,UltraLM-13B,XwinLM-13B 和 Zephyr-7B),它们的判断一致性均出现普遍下降,这提示相关研究者们在大模型的开发和部署时需要重点关注和调查该问题。
此外,研究者们分别从不同的追问提示,采样温度,不同追问的语气强弱等角度进行了全面的消融研究,并进行了细致的错误分析以验证这一问题存在的普遍性。下图展示了模型面对不同的追问提示时判断一致性的变化。
02 缓解方法
除了评估之外,研究者们进一步探索了缓解这一问题的策略。教会大语言模型坚持自己的判断仍然是一个充满挑战和不确定性的任务。对于像 ChatGPT 这样的闭源模型,研究者们尝试使用多种提示策略来减轻这一问题,并验证了它们的有效性。
对于开源模型,研究者们引入了一个简单而有效的框架 Unwavering-FQ,旨在使语言模型能够在面对追问时产生坚定的判断,特别是在保持其初始正确判断方面。
针对闭源模型,研究者们尝试使用 Zero-shot Prompting 和 Few-shot Prompting 缓解该问题。对于 Zero-shot Prompting,研究者们使用 Zero-shot-CoT(“*Let's think step by step.”)和 EmotionPrompt(“This is very important to my career.”)鼓励模型在回答追问时慎重考虑再给出回复。
对于 Few-shot Prompting,研究者们通过从训练集中随机选择 K 个样本并人工编写反映人类思考过程的追问响应来构建多轮对话的演示示例,与 ChatGPT 经常在后续回应中直接承认错误不同,演示响应首先澄清思考过程,然后一步一步重新考虑。
以 “Please wait for a moment. In order to answer your question, I need to take a moment to reconsider. I will now clear my mind of distractions and approach this step by step.*” 作为后续回应的开始,使模型的思维过程与人类的思维过程更紧密地联系在一起。
针对开源模型,研究者们提出了一个基于训练的框架 Unwavering-FQ,如上图所示,这个框架涉及三个步骤:
1. 数据准备(Data Preparation):研究者们收集了一个用于初始推理问题的数据集和一个用于后续追问的问题集。前者包含从 18 个数据集的训练集中随机抽样得到的 4.6k 个样本,这些数据集因其高质量、多样的类型以及在算术、常识、符号和知识推理方面不同的难度水平而被选中。后者由分为三种类型的问题组成:封闭性、开放性和引导性,每种类型包括五种不同的提示。
极化偏好上下文蒸馏(Polarized Preference Context Distillation):在追问机制下,模型在一轮追问后可能给出的判断类型有 True-True,False-True,False-False 和 True-False。第一个 True 或 False 表示模型在初始问答中判断的正确性,第二个表示模型面对追问时判断的正确性。
理想的模型应当是在给出正确判断后,面对追问时能够保持其判断;相反,如果判断错误,则应识别并纠正其错误。因此,研究者们将模型对后续干扰响应的偏好排名定义为 True-True ≻ False-True ≻ False-False ≻ True-False。
由于从更强的语言模型中自然地生成 “chosen” 和 “rejected” 响应具有挑战性,为了在追问场景下构造偏好数据,研究者们引入了一种称为极化偏好上下文蒸馏的上下文蒸馏技术,用于生成模型学习的偏好对。
具体而言,研究者们首先让高级模型对初始问题生成响应,然后根据响应的正确性使用不同的上下文提示引导模型向相反方向发展。若合成偏好优先级高的示范对话数据(chosen demonstration data),目标是让模型在面对追问后做出正确的判断。
因此,如果模型在初始问题回答中判断正确,在后续追问期间会添加一个 "Believe yourself." 的提示,以鼓励模型坚持其正确的判断;如果模型最初判断错误,则会添加一个 "The correct answer is {Ground_Truth}." 的提示,通过提供正确信息以引导模型做出正确的判断。
若合成偏好优先级低的示范对话数据(rejected demonstration data),目标是让模型在面对追问后做出错误的判断。因此,如果模型在初始问答中判断正确,在后续干扰期间会添加一个 "The correct answer is {Misleading_Answer}." 的提示,用错误答案误导模型。
如果模型最初判断错误,则添加一个 "Believe yourself." 的提示,以鼓励模型坚持其错误的判断。这些额外添加的提示是用于指导模型生成所需响应,在最终数据中不会保留这些额外添加的提示。
考虑到并非所有数据都能按预期合成,研究者们手动筛选和过滤了合成的对话数据,得到 3.6k 高质量的 chosen demonstration data。然后,根据预定义的偏好等级,将它们与过滤后的 rejected demonstration data 配对,最终获得 2.6k 对偏好数据。
偏好优化训练(Preference Optimization):研究者们首先使用 chosen demonstration data(即 True-True 和 False-True 对话数据)对模型进行监督微调以缓解 DPO 阶段的数据分布偏移,然后使用偏好对数据通过直接偏好优化(DPO)算法对模型进行优化。
具体结果可见下图,实验结果表明 Unwavering-FQ 框架可以将 Vicuna 对最初正确判断的修改率平均降低 32%,这表明其在判断一致性和可靠性方面有显著的提升。此外,研究者们在 MT-Bench 基准上评估发现,该框架不仅没有损害还能提高模型的通用能力,经过 SFT 和 DPO 训练后模型的 MT-Bench score 从 6.17 提升到 6.40。这些结果肯定了该框架的有效性和适用性。
03 总结
该研究发现大语言模型在面对追问时经常会在其判断上动摇,即使原始判断是正确的。这种判断的不一致性为生成可靠回应和建立用户信任带来了重大挑战。
为了全面评估这个问题,研究者们引入了一个追问机制(Follow-up Questioning Mechanism)以及两个指标(M. 和 M. Rate)来量化这种不一致性,并通过全面的消融、细致的错误分析确认了该问题在当前大语言模型中普遍存在。
为了缓解这一问题,针对闭源模型,他们探索了多种提示策略;针对开源模型,他们提出了一个基于训练的框架 Unwavering-FQ,通过合成高质量的偏好数据来教导语言模型保持其最初正确的判断。实验结果验证了该框架的有效性,以及其能提升模型通用能力的能力。
研究者们强调虽然该工作提出的缓解方法一定程度上缓解了该问题,但由于模型的稳定性并非始终如一,仍有广阔的研究空间待探索。此外,研究者们在实验过程中发现让模型坚持自身判断与知错就改也是一种权衡,如何在二者之间取得平衡也许会成为未来工作的新挑战。
如想进一步了解大语言模型在追问下的判断一致性评估结果、深入分析和缓解方法的设计细节,欢迎阅读原论文。
本文转自 PaperWeekly ,作者:谢淇名