谷歌研究：合成数据使大模型数学推理能力提升八倍-51CTO.COM

最近，来自谷歌、卡内基梅隆大学和 MultiOn 的联合研究团队发表了一项关于合成数据在大型模型训练中应用的新研究。

据专注于人工智能发展的研究机构 Epoch AI 报告显示，目前全球约有 300 万亿个公开可用的高质量文本训练标记。然而，随着类似 ChatGPT 这样的大模型的迅猛发展，对训练数据的需求呈指数级增长，预计到 2026 年之前，这些数据将被耗尽。因此，合成数据成为了至关重要的替代方案。

据IT之家了解，研究人员主要探索了两种合成数据类型：正向数据和负向数据。正向数据是指由高性能大模型（如 GPT-4 和 Gemini 1.5 Pro）生成的正确问题解决方案，为模型提供解决数学问题的示例。但仅依靠正向数据进行训练存在局限性。一方面，这种方法可能无法完全揭示问题解决过程背后的逻辑，模型可能会通过模式匹配来学习，而缺乏真正的理解；另一方面，随着训练数据量的增加，模型可能会学到虚假的相关性，导致在处理新问题时泛化能力下降。

鉴于此，研究人员引入了负向数据，即经过验证为错误的问题解决步骤。这有助于模型识别并避免错误，从而增强其逻辑推理能力。尽管使用负向数据存在挑战，因为错误的步骤可能包含误导性信息，但研究人员通过直接偏好优化（DPO）方法成功地使模型能够从错误中学习，强调了每个问题解决步骤的重要性。

DPO 方法为每个问题解决步骤分配一个优势值，反映其相对于理想解决方案的价值。研究表明，高优势步骤是正确解决方案的关键，而低优势步骤可能表明模型推理中存在问题。利用这些优势值，模型可以在强化学习框架内动态调整其策略，从而更高效地从合成数据中学习和改进。

为了验证合成数据的有效性，研究团队使用 DeepSeek-Math-7B 和 LLaMa2-7B 等模型，在 GSM8K 和 MATH 数据集上进行了全面测试。结果显示，经过正向和负向合成数据预训练的大模型在数学推理任务上的性能实现了八倍的提升。这一研究充分展示了合成数据在增强大模型逻辑推理能力方面的巨大潜力。