ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"
大家好,我是HxShine
今天分享一篇ACL2024关于LLM蒸馏的文章,来自Emory University,题为“Explanation-Guided Large Language Models Active Distillation”(解释引导的大型语言模型主动蒸馏)。在大型语言模型(LLMs)的应用中,由于其内存效率低、计算需求高以及API推理成本高,限制了其广泛部署。现有的知识蒸馏方法虽然能将LLMs的能力转移到较小模型上,但无法确保知识充分转移,可能导致高成本或蒸馏不完全。本文提出了一个简单却高效的框架,称之为ELAD(Explanation-Guided LLMs Active Distillation),其通过主动学习策略来优化注释成本与模型性能之间的平衡。简单来说,ELAD采用了三个步骤来实现这一目标:1. 解释引导的样本选择:通过利用解释步骤中的不确定性,识别对模型推理具有挑战性的样本。2. 定制化的LLM注释解释修正:教师模型检测并纠正学生模型推理中的缺陷。3. 模型蒸馏:使用修正后的解释对小模型进行微调。在包括GSM8K、AQuA、ANLI、e-SNLI、CommonSenseQA和StrategyQA在内的六个广泛使用的推理基准上进行的广泛实验,展示了显著的性能提升。
Title: ELAD: Explanation-Guided Large Language Models Active Distillation
URL:https://arxiv.org/abs/2402.13098
一、方法
1 整体框架
ELAD框架通过以下步骤优化LLMs知识蒸馏的主动学习:
- 样本选择:使用解释引导的方法选择高不确定性的样本,对应下图(a)。
- 解释修正:教师模型对学生模型的解释进行审核和修正,对应下图(b)。
- 模型蒸馏:使用修正后的解释对小模型进行微调,对应下图(c)。
2 解释引导的样本选择方法
文章作者提出了一种新颖的解释引导样本选择方法,通过评估解释步骤中的不确定性来选择具有高不确定性的样本。具体包括:
2.1 解释内不确定性 解释内不确定性评估单个解释步骤内的不确定性。这是通过比较每一步推理步骤对最终答案的影响来实现的。具体方法如下:
- 1. 对于每个推理步骤,计算在不考虑该步骤的情况下生成的答案。
- 2. 比较包含和不包含该步骤的答案,如果答案变化,则该步骤具有高不确定性。
2.2 解释间不确定性 解释间不确定性评估不同推理路径之间的不确定性。这是通过多次生成推理路径,并计算不同答案的频率来实现的。具体方法如下:
- 对每个问题进行多次解码,生成不同的推理路径。
- 计算每个唯一答案的频率,并使用Shannon熵来量化答案分布的不确定性。
3 定制化的LLM注释解释修正
在样本选择之后,教师模型(LLM)对学生模型的解释进行审核,并在需要时进行修正。此过程包括:
•深度优先搜索(DFS)策略:教师模型逐步验证并修正学生模型的推理步骤,直到生成最终答案(如下图(a)和(b)),图(c)展示了DFS的过程。具体方法如下:
对每个推理步骤,教师模型验证其合理性。如果合理,生成对应的解释步骤 。
如果某一步推理不合理,教师模型生成剩余的推理步骤和最终答案。
• 解释修正过程的流程图
• 解释修正所使用的Prompt示例
二、实验
作者在六个不同的推理数据集上进行了广泛的实验,包括GSM8K、AQuA、ANLI、e-SNLI、StrategyQA和CommonSenseQA。实验结果显示,ELAD框架在各种推理任务上均显著提高了注释效率和模型性能。
1 数据集详情
•GSM8K:包含大约8000个数学单词问题,测试数学技能。
•AQuA:包含代数单词问题,带有多项选择答案。
•ANLI:自然语言推理任务,包括对抗性示例。
•e-SNLI:提供自然语言推理决策的人工注释解释。
•CommonSenseQA:常识推理问答数据集,需要理解日常概念。
•StrategyQA:测试战略性问答,特别是隐含策略的推理。
2 实验结果
本文在六个不同的推理数据集上评估了ELAD框架的性能,以下是具体结果:
数据集 | 基准方法 | ELAD方法 | 提升 |
GSM8K | 28.42% | 32.72% | +4.30% |
AQuA | 26.86% | 28.43% | +1.57% |
ANLI | 54.22% | 58.02% | +3.80% |
e-SNLI | 48.60% | 54.44% | +5.84% |
StrategyQA | 48.76% | 55.63% | +6.87% |
CommonSenseQA | 45.66% | 53.53% | +7.87% |
结论:ELAD框架在所有数据集上都显著优于基准方法,尤其是在CommonSenseQA数据集上,提升幅度达到7.87%。这一结果表明,ELAD框架能够更有效地进行知识转移,提升小模型的推理性能。此外,ELAD在StrategyQA和e-SNLI数据集上分别取得了6.87%和5.84%的提升,进一步验证了其在不同类型推理任务中的广泛适用性。
3 消融研究
为了验证ELAD框架中每个组件的重要性,作者进行了消融研究。结果显示,完整的ELAD框架在所有任务中均优于缺少解释引导样本选择(w/o EGSS)和定制化LLM注释解释修正(w/o CLAER)的配置。
设置 | GSM8K | AQuA | ANLI | e-SNLI | CommonSenseQA | StrategyQA |
ELAD (Ours) | 32.72% | 28.43% | 58.02% | 54.44% | 53.53% | 55.63% |
w/o EGSS | 30.31% | 27.05% | 57.12% | 48.56% | 48.54% | 50.89% |
w/o CLAER | 30.01% | 26.91% | 55.87% | 51.16% | 49.64% | 50.32% |
三、结论
本文提出的解释引导的LLMs主动蒸馏(ELAD)框架通过解释引导的主动学习方法,显著提高了LLM知识蒸馏的效率。这为大规模语言模型的实际应用提供了新的可能性。
本文转载自 NLP PaperWeekly,作者: NLP PaperWeekly