预测未来模型能力!微调揭示LLM涌现能力的关键 原创
预测未来模型能力!微调揭示LLM涌现能力的关键 在加州大学伯克利分校的智慧殿堂中,一群天才研究者们正试图解开现代大型语言模型(LLM)扩展中的一个根本性难题:涌现能力的不可预测性。想象一下,你正在训练一个语言模型,它的预训练损失随着计算量的增加而可预测地下降,就像一个乖巧的学生按部就班地学习。但当涉及到下游任务时,情况就变得复杂了——有时模型会在某个看似随机的点上突然“开窍”,这种“涌现”现象让预测未来模型的能力变得异常困难。
在这项研究中,Charlie Snell、Eric Wallace、Dan Klein、Sergey Levine等研究者们提出了一个有趣的任务:给定当前LLM在某个任务上的随机少样本准确率,我们能否预测未来的模型(比如GPT-N+1)在这个任务上是否会有显著的准确率提升?他们发现了一个简单的洞察:通过在特定任务上微调LLM,可以提前“唤醒”这些模型,使其在更少的计算量下展现出涌现能力。这就像是在考试前给学生一些针对性的练习题,让他们在考试中表现得更好。
为了验证这一洞察,研究者们在四个标准的NLP基准测试(MMLU、GSM8K、CommonsenseQA和CoLA)上进行了实验,这些测试中大型开源LLM已经展示了涌现能力。他们发现,通过微调小规模的LLM,有时可以准确预测那些使用多达4倍计算量训练的模型是否会出现涌现现象。这就像是在小规模实验中发现了一种神奇的“涌现法则”,然后用它来预测更大规模的实验结果。
研究者们还展示了两个实际应用案例:一是利用涌现预测来廉价评估预训练数据的质量,二是预测未来前沿模型的更复杂能力。这就像是用一种新的“涌现法则”来预测未来的科技发展,帮助科学家们更好地规划和准备。
这项研究不仅展示了微调在预测涌现能力中的重要作用,还为未来的研究指明了方向。虽然目前的“涌现法则”还不能像预测天气那样精确,但它已经为我们打开了一扇通往未知世界的大门,让我们对未来充满期待。 在现代大型语言模型(LLM)的扩展中,一个根本性的开放挑战是对涌现能力的理解不足。特别是,语言模型的预训练损失作为计算的函数是高度可预测的,但下游能力却远不可预测,有时甚至会出现突变,这使得预测未来模型的能力变得困难。本文提出了一种通过微调来预测未来模型(如GPT-N+1)在特定任务上是否会有显著准确率的方法。
主要方法
- 微调与涌现能力的关系:
- 研究发现,对LLM进行特定任务的微调可以系统地将涌现能力出现的点向能力较弱的模型转移。通过微调,模型在较少的数据量下就能展现出显著的性能提升,从而提前预测未来模型在特定任务上的表现。
图:微调对涌现能力的影响
- 涌现定律的建立:
- 通过微调不同数据量的LLM,研究人员建立了一个参数化函数(即“涌现定律”),该函数预测了涌现能力出现的点。这个定律可以用来外推预测在少样本设置中涌现能力出现的点。
图:通过微调预测涌现能力
实验过程及结果
实验设置
研究在四个标准NLP基准测试上进行了实验:MMLU、GSM8K、CommonsenseQA和CoLA。这些基准测试已经被大规模开源LLM证明存在涌现现象。实验使用了不同规模的模型(3B、7B和13B)的中间检查点,并在这些模型上进行了微调。
实验发现
- 微调对涌现点的影响:
- 通过微调,模型在MMLU和GSM8K任务上的涌现点显著提前。
- 微调数据量的增加会进一步提前涌现点。
- 这些发现表明,微调可以系统性地将涌现点向能力较弱的模型转移。
- 涌现预测模型:
- 研究开发了一个“涌现定律”,该模型描述了微调数据量与涌现点之间的关系。
- 通过拟合这个模型,可以预测在少样本设置下的涌现点。
- 验证与评估:
- 在MMLU和GSM8K任务上,使用小规模LLM进行拟合,成功预测了更大规模模型的涌现点。
- 在某些情况下,预测的准确性非常高,误差在0.1 nats以内。
- 实际应用案例:
- 评估预训练数据质量:通过比较OpenLLaMA V1和V2模型在MMLU任务上的涌现点,发现V2模型涌现更早,表明V2的预训练数据质量更高。
- 预测未来LLM的能力:在更具挑战性的APPS编码基准测试上,使用LLaMA 2模型进行微调,预测了未来模型在代码生成任务上的涌现点。
实验结果图示
- 左图展示了微调后和少样本设置下模型的性能;右图展示了不同微调数据量对涌现点的影响。
- 展示了在各任务上的最大似然涌现预测。
- 展示了GSM8K和MMLU任务上涌现后验的累积分布函数(CDF)。
- 展示了不同设计决策对涌现预测准确性的影响。
- 展示了在不同任务上提前预测涌现的能力。
- 比较了OpenLLaMA V1和V2模型在MMLU和CommonsenseQA任务上的涌现点。
- 展示了在MMLU任务上对OpenLLaMA V1和V2模型涌现点的预测。
- 展示了在APPS任务上使用LLaMA 2模型预测涌现点。
结论
研究通过微调LLM,成功预测了未来模型在多个任务上的涌现能力。实验结果表明,微调可以显著提前涌现点,并且通过拟合“涌现定律”,可以在少样本设置下进行准确的预测。此外,研究还展示了如何利用这一方法评估预训练数据质量和预测未来LLM的复杂能力。 在现代大型语言模型(LLMs)的发展中,预测其涌现能力(emergent capabilities)是一个关键且未解的挑战。本文由加州大学伯克利分校的研究团队提出了一种新颖的方法,通过微调(finetuning)来预测未来模型在特定任务上的涌现能力。研究的核心发现是,通过在特定任务上微调当前的LLMs,可以显著提前预测未来模型(如GPT-N+1)在该任务上的非平凡准确性。这一发现不仅为模型开发者提供了宝贵的指导,也为政策制定者和商业决策者提供了关于未来LLMs能力的可靠预测。
研究团队通过在四个标准NLP基准测试(MMLU, GSM8K, CommonsenseQA, 和 CoLA)上的实验验证了这一方法的有效性。他们发现,即使在只有小规模LLMs的情况下,也能准确预测训练计算量增加四倍的未来模型是否会出现涌现能力。此外,研究还展示了两个实际应用案例:一是通过预测涌现能力来廉价评估预训练数据的质量;二是预测更复杂任务的能力,这些任务可能仅在未来前沿模型中出现。
展望未来,尽管本文提出的方法在预测涌现能力方面取得了显著进展,但仍有许多未解之谜和挑战。例如,微调为何会导致涌现能力的提前出现,这一机制尚不完全清楚。此外,不同架构和训练方法的LLMs是否会在相同预训练损失下表现出相同的下游能力,也是一个需要进一步研究的问题。未来的研究可以探索更有效的数据选择方法,深入理解微调与涌现能力之间的机制,以及评估在更广泛应用场景中该方法的适用性。
总之,本文为理解和预测大型语言模型的涌现能力开辟了新的道路,为未来的研究和应用提供了丰富的启示。鼓励读者常来公众号学习,与我们一同探索AI技术的无限可能。
本文转载自公众号AIGC最前线 作者: 不是小马哥啊