微软教小模型推理进阶版：Orca 2性能媲美10倍参数模型，已开源-51CTO.COM

如你我所见，像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力，例如回答复杂问题、生成解释，甚至解决需要多步推理的问题，这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显，因此现在的挑战就是如何利用对大型语言模型不断增长的知识，进而提升较小模型的能力。

之前微软研究院推出了 Orca，它是拥有 130 亿参数的语言模型，通过模仿更强大 LLM 的逐步推理过程，展现了强大的推理能力。

现在研究者再接再厉推出了 Orca 2，继续探索如何通过改进训练信号来提升较小语言模型的推理能力。

论文地址：https://arxiv.org/pdf/2311.11045.pdf
Hugging Face 地址 1：https://huggingface.co/microsoft/Orca-2-13b
Hugging Face 地址 2：https://huggingface.co/microsoft/Orca-2-7b

训练小型语言模型的研究通常依赖于模仿学习，以复现更强大模型的输出。过分强调模仿可能会限制较小模型的潜力。研究者的想法是致力于教导小型语言模型在不同任务中使用不同的解决策略，这些策略可能与更大模型使用的不同。更大的模型可能对复杂任务直接提供答案，但较小模型或许没有相同的能力。

在 Orca 2 中，研究者教给模型各种推理技巧（逐步推理、先回忆再生成、回忆 - 推理 - 生成、直接回答等），这样做旨在帮助模型学会为每个任务确定最有效的解决策略。

研究者使用「包括大约 100 个任务和超过 36,000 个独特提示」的全面集合的 15 个不同基准来评估 Orca 2。在 Zero-shot 环境中对高级推理能力进行评估的复杂任务中，Orca 2 明显超越了相似规模的模型，并达到了与 5-10 倍大型模型相似或更好的性能水平。Orca 2 已经开源，以鼓励人们在较小语言模型的开发、评估和对齐方面进行更深入的研究。

Orca 2 有两个规模（70 亿和 130 亿参数），均通过在定制高质量合成数据上对相应的 LLaMA 2 基础模型进行微调而创建。

图 1：Orca 2（7B 和 13B）与 LLaMA-2-Chat（13B 和 70B）以及 WizardLM（13B 和 70B）在各种基准测试上的结果 (zero-shot)，涵盖了语言理解、常识推理、多步推理、数学问题解决等。Orca 2 模型的表现不逊于或超越包括 5-10 倍更大的模型在内的所有其他模型。这里所有模型都使用相同尺寸的 LLaMA 2 基础模型。

图 2：演示 Orca 2、其基础模型 LLaMA 2、LLaMA 2-Chat 和 ChatGPT（GPT-3.5-Turbo）对一个推理问题的响应的示例。LLaMA 2 和 LLaMA 2-Chat 模型的响应分别使用 replicate.com/meta/llama-2-13b 和 chat.lmsys.org 生成。

技术细节

Orca 2 可以给出一个有力的推测即不同的任务可能受益于不同的解决策略（如逐步处理、回忆后生成、回忆 - 推理 - 生成、提取 - 生成和直接回答），并且大型模型采用的解决策略可能不是较小模型的最佳选择。例如，虽然像 GPT-4 这样的模型可能轻松生成直接回答，但是较小的模型可能缺乏这种能力，需要采用不同的方法，如逐步思考。

因此，单纯地教导较小模型「模仿」更强大模型的推理行为可能并不是最优的选择。虽然将较小模型训练成逐步解释答案已被证明是有益的，但在多种策略上进行训练使其能够更灵活地选择适合任务的策略。

研究者使用「谨慎推理」（Cautious Reasoning）来指代决定为给定任务选择哪种解决策略的行为，包括直接生成答案，或者采用多种「慢思考」策略之一（如逐步、猜测和检查或先解释后回答等）。

以下是训练谨慎推理 LLM 的过程：

1. 从多样化的任务集开始。

2. 依据 Orca 的性能，决定哪些任务需要哪种解决策略（例如直接回答、逐步处理、先解释后回答等）。

3. 为每个任务编写相应于所选策略的特定系统指导，以获得每个任务的「教师」系统的响应。

4. 提示擦除：在训练时，用不包含如何处理任务细节的通用指令替换「学生」系统的指令。

注意一点，第 3 步中广泛的获取「教师」系统的响应：它可以利用多个调用、非常详细的指令等。

关键思想是：在没有详细说明如何处理任务的原始系统指导的情况下，学生模型将被鼓励学习该基本策略以及它所涉及的推理能力。研究者将这一技术称为「提示擦除」，因为它去除了教师模型构建其推理的结构。借助这一技术，研究者实现了 Orca 2—— 一个谨慎的推理模型。

Orca 2 使用扩展的、高度定制的合成数据集进行训练。生成的训练数据用以教导 Orca 2 各种推理技巧，例如逐步处理、回忆后生成、回忆 - 推理 - 生成、提取 - 生成和直接回答方法，同时也教导它为不同的任务选择不同的解决策略。

训练数据是从更有能力的「教师」系统模型获取的。研究者可以通过非常详细的指导甚至多次调用来获取「教师」系统的响应，这取决于任务和模型缩期望的行为。在没有原始指导的情况下，即没有详细说明如何处理任务，「学生」系统模型将被鼓励学习该基本策略以及它所激发的推理能力。

实验结果

推理

推理能力在确定 LLMs 的功效方面至关重要。研究者通过进行各种基准测试，如 AGI Eval、BigBench-Hard（BBH）、DROP、RACE、GSM8K 和 CRASS，来评估 Orca 2 模型的推理能力。这些基准测试的平均性能如下图 4 所示。

通过比较 Orca 2 与其它模型，研究者有以下发现：

超越相同规模的模型。Orca-2-13B 在 zero-shot 推理任务上显著优于相同规模的模型。相对于 LLaMA-2-Chat-13B，Orca-2-13B 提升了 47.54%，相对于 WizardLM-13B 提升 28.15%。值得注意的是，这三个模型 Orca-2-13B、LLaMA-2-Chat-13B 和 WizardLM-13B 都基于相同的基础模型，这也凸显了 Orca 2 采用的训练过程的有效性。

媲美 5-10 倍更大的模型。Orca-2-13B 超越了 LLaMA-2-Chat-70B 的性能，并且在表现上与 WizardLM-70B 和 ChatGPT 相当。在所有推理任务上，Orca-2-7B 要么更好，要么与 LLaMA2-Chat-70B 相当。

谨慎的系统消息提供小幅增益。使用谨慎的系统消息对 7B 和 13B 模型都比空系统消息提供了小幅增益。

知识与语言理解

MMLU、ARC-Easy 和 ARC-Challenge 评估 LLMs 的语言理解、知识和推理。与其他基准一样，研究者仅与经过指令调整的模型进行比较，进行 zero-shot 评估。下表 2 显示了知识和语言理解基准的结果。总体而言，我们可以观察到与推理任务相似的趋势。

文本补全

除了衡量高级推理能力的基准外，研究者使用 HellaSwag 和 LAMBADA 来衡量文本补全能力。HellaSwag 以多项选择题的形式测量文本补全技能，而 LAMBADA 是一个单词补全任务。

下图 5 显示了不同模型在文本补全基准上的表现。在 HellaSwag 上，Orca-2-7B 和 Orca 2-13B 表现出色，优于 13B 和 70B 基准。Orca-2-13B 相对于 LLaMA-2-Chat-13B 提高了 33.13%，相对于 WizardLM-13B 提高了 61.94%。

多轮开放式对话

研究者在多轮会话设置中评估 LLMs 的能力，使用了 MT Bench 数据集。每轮得分和 MTBench 的平均得分如下表 3 所示。

Orca-2-13B 与其他 13B 模型相比表现相当。Orca-2-13B 的平均第二轮得分低于第一轮得分，这可以归因于其训练数据中缺乏对话。然而，Orca 2 仍然能够参与对话，并通过将多个 zero-shot 示例打包到相同的输入序列中，增强这种能力。提高 Orca 2 的多轮对话能力将是研究者未来工作的一部分。

特定背景下的表现

生成在特定背景下有根据的响应是许多 LLM 应用程序中期望的属性。研究者使用三个不同的任务进行此评估，涵盖基于查询的会议总结、Web 问答（生成并具有长格式答案）和医生 - 患者对话总结。提取式总结和具体问题回答经常被用作评估具体背景性的测试平台。

下图 6 展示了研究者在进行实验的三个基准上，不同模型的幻觉率结果平均值比较。

Orca-2-13B 在所有 Orca 2 变体以及其他 13B 和 70B 的 LLM 中表现出最低的幻觉率。与 LLaMA-2-13B 和 WizardLM-13B 模型相比，Orca-2-13B 的幻觉率分别降低了 76.92% 和 61.71%。尽管在本研究中涉及的三个任务中，谨慎的系统消息增加了幻觉率。

通过人工分析，研究者发现在由谨慎系统消息引导的推理过程中，Orca 2 可能会推断上下文中可用的信息，并使用推断出的内容来创建摘要。生成的内容在事实上通常是准确的，但它们没有得到上下文的支持。

更多细节请参见原论文。