更小、更弱,却更优:通过计算最优抽样训练大语言模型推理器
一、结论写在前面论文标题:Smaller,Weaker,YetBetter:TrainingLLMReasonersviaComputeOptimalSampling论文链接:https:arxiv.orgpdf2408.16737利用来自强大语言模型(LMs)的高质量合成数据进行训练是提升LMs推理性能的常见策略。论文重新审视了在固定推理预算(例如,FLOPs)下,这一策略是否为计算最优。为此,论文探究了使用更强但更昂贵(SE)模型与较弱但更廉价(WC)模型生成合成数据之间的权衡。论文评估了生成...