ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"

发布于 2024-11-27 14:44
浏览
0收藏

大家好,我是HxShine

今天分享一篇ACL2024关于LLM蒸馏的文章,来自Emory University,题为“Explanation-Guided Large Language Models Active Distillation”(解释引导的大型语言模型主动蒸馏)。在大型语言模型(LLMs)的应用中,由于其内存效率低、计算需求高以及API推理成本高,限制了其广泛部署。现有的知识蒸馏方法虽然能将LLMs的能力转移到较小模型上,但无法确保知识充分转移,可能导致高成本或蒸馏不完全。本文提出了一个简单却高效的框架,称之为ELAD(Explanation-Guided LLMs Active Distillation),其通过主动学习策略来优化注释成本与模型性能之间的平衡。简单来说,ELAD采用了三个步骤来实现这一目标:1. 解释引导的样本选择:通过利用解释步骤中的不确定性,识别对模型推理具有挑战性的样本。2. 定制化的LLM注释解释修正:教师模型检测并纠正学生模型推理中的缺陷。3. 模型蒸馏:使用修正后的解释对小模型进行微调。在包括GSM8K、AQuA、ANLI、e-SNLI、CommonSenseQA和StrategyQA在内的六个广泛使用的推理基准上进行的广泛实验,展示了显著的性能提升。

ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"-AI.x社区

Title: ELAD: Explanation-Guided Large Language Models Active Distillation

URL:​https://arxiv.org/abs/2402.13098​

一、方法

1 整体框架

ELAD框架通过以下步骤优化LLMs知识蒸馏的主动学习:

  • 样本选择:使用解释引导的方法选择高不确定性的样本,对应下图(a)。
  • 解释修正:教师模型对学生模型的解释进行审核和修正,对应下图(b)
  • 模型蒸馏:使用修正后的解释对小模型进行微调,对应下图(c)

ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"-AI.x社区

2 解释引导的样本选择方法

文章作者提出了一种新颖的解释引导样本选择方法,通过评估解释步骤中的不确定性来选择具有高不确定性的样本。具体包括:

2.1 解释内不确定性 解释内不确定性评估单个解释步骤内的不确定性。这是通过比较每一步推理步骤对最终答案的影响来实现的。具体方法如下:

  1. 1. 对于每个推理步骤,计算在不考虑该步骤的情况下生成的答案。
  2. 2. 比较包含和不包含该步骤的答案,如果答案变化,则该步骤具有高不确定性。

ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"-AI.x社区

2.2 解释间不确定性 解释间不确定性评估不同推理路径之间的不确定性。这是通过多次生成推理路径,并计算不同答案的频率来实现的。具体方法如下:

  • 每个问题进行多次解码,生成不同的推理路径。
  • 计算每个唯一答案的频率,并使用Shannon熵来量化答案分布的不确定性。

3 定制化的LLM注释解释修正

在样本选择之后,教师模型(LLM)对学生模型的解释进行审核,并在需要时进行修正。此过程包括:

深度优先搜索(DFS)策略:教师模型逐步验证并修正学生模型的推理步骤,直到生成最终答案(如下图(a)和(b)),图(c)展示了DFS的过程。具体方法如下:

对每个推理步骤,教师模型验证其合理性。如果合理,生成对应的解释步骤 。

如果某一步推理不合理,教师模型生成剩余的推理步骤和最终答案。

• 解释修正过程的流程图

ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"-AI.x社区


• 解释修正所使用的Prompt示例

ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"-AI.x社区

二、实验

作者在六个不同的推理数据集上进行了广泛的实验,包括GSM8K、AQuA、ANLI、e-SNLI、StrategyQA和CommonSenseQA。实验结果显示,ELAD框架在各种推理任务上均显著提高了注释效率和模型性能。

1 数据集详情

GSM8K:包含大约8000个数学单词问题,测试数学技能。

AQuA:包含代数单词问题,带有多项选择答案。

ANLI:自然语言推理任务,包括对抗性示例。

e-SNLI:提供自然语言推理决策的人工注释解释。

CommonSenseQA:常识推理问答数据集,需要理解日常概念。

StrategyQA:测试战略性问答,特别是隐含策略的推理。

2 实验结果

本文在六个不同的推理数据集上评估了ELAD框架的性能,以下是具体结果:

数据集

基准方法

ELAD方法

提升

GSM8K

28.42%

32.72%

+4.30%

AQuA

26.86%

28.43%

+1.57%

ANLI

54.22%

58.02%

+3.80%

e-SNLI

48.60%

54.44%

+5.84%

StrategyQA

48.76%

55.63%

+6.87%

CommonSenseQA

45.66%

53.53%

+7.87%

ACL2024 |解释引导的大语言模型主动蒸馏:一种优化知识转移的创新框架 "ELAD"-AI.x社区


结论:ELAD框架在所有数据集上都显著优于基准方法,尤其是在CommonSenseQA数据集上,提升幅度达到7.87%。这一结果表明,ELAD框架能够更有效地进行知识转移,提升小模型的推理性能。此外,ELAD在StrategyQA和e-SNLI数据集上分别取得了6.87%和5.84%的提升,进一步验证了其在不同类型推理任务中的广泛适用性。

3 消融研究

为了验证ELAD框架中每个组件的重要性,作者进行了消融研究。结果显示,完整的ELAD框架在所有任务中均优于缺少解释引导样本选择(w/o EGSS)和定制化LLM注释解释修正(w/o CLAER)的配置。

设置

GSM8K

AQuA

ANLI

e-SNLI

CommonSenseQA

StrategyQA

ELAD (Ours)

32.72%

28.43%

58.02%

54.44%

53.53%

55.63%

w/o EGSS

30.31%

27.05%

57.12%

48.56%

48.54%

50.89%

w/o CLAER

30.01%

26.91%

55.87%

51.16%

49.64%

50.32%

三、结论

本文提出的解释引导的LLMs主动蒸馏(ELAD)框架通过解释引导的主动学习方法,显著提高了LLM知识蒸馏的效率。这为大规模语言模型的实际应用提供了新的可能性。

本文转载自 NLP PaperWeekly​,作者: NLP PaperWeekly


收藏
回复
举报
回复
相关推荐