微调已死，强化微调万岁-51CTO.COM

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

OpenAI第二天的直播，奥特曼没有出镜，几位OpenAI的研究员带了一场AI模型的定制魔法秀！

“这不是标准的微调......它利用强化学习算法，将我们从高级高中水平带到专家级博士水平。”

1.12个样本，就能让定制o1超过满血o1

标准的微调已经过时了，这次 OpenAI 打破了 AI 定制的界限。在其“OpenAI 12 天”直播系列的第二天首次为其 o1 模型提供强化微调（RFT）。这一新的突破标志着我们所知道的传统微调的终结。使用 RFT，模型不仅可以复制，还可以进行推理。

通过采用强化学习，OpenAI 希望使组织能够为法律、医疗保健、金融等领域的复杂任务构建专家级 AI。这种新方法使组织能够使用强化学习来训练模型，以最少的数据（有时只有 12 个示例）处理特定于领域的任务。

通过使用参考答案来评估和优化模型输出，RFT 可以提高专家级任务的推理和准确性。OpenAI 通过微调 o1-mini 模型来演示这项技术，使其能够比以前的版本更准确地预测遗传疾病。

2.重新定义模型微调

与传统的微调不同，RFT 侧重于教模型思考和推理问题，正如 OpenAI 的研究主管 Mark Chen 所解释的那样：“这不是标准的微调......它利用强化学习算法，将我们从高级高中水平提升到专家级博士水平。

局限性：该方法并非没有局限性。OpenAI 工程师 John Allard 解释说，RFT 在结果“客观正确且广泛同意”的任务中表现出色，但在更难定义共识的主观领域或创造性应用程序中可能会遇到困难。

然而，与传统的完全微调相比，钢筋微调（RFT）通常被认为在计算效率更高。批评者还指出，RFT 的性能在很大程度上取决于任务设计和训练数据的质量。

有趣的是，使用 RFT，您只需几十个示例即可实现显著的性能改进，因为该模型从反馈中学习，而不需要查看所有可能的场景。

包括伯克利实验室研究人员在内的早期采用者已经取得了显著的成果。例如，微调的 o1-mini 模型在识别导致罕见疾病的基因突变方面优于其基础版本。

图片

OpenAI 已向选定的组织开放其 RFT alpha 计划。参赛团队将获得 OpenAI 基础设施的访问权限，以训练针对其独特需求优化的模型。“开发人员现在可以利用我们在内部使用的相同工具来构建特定于领域的专家模型，”Allard 说。

计算生物学家 Justin Reese 强调了 RFT 在医疗保健领域的变革潜力，特别是对于影响数百万人的罕见疾病——“将领域专业知识与生物医学数据的系统推理相结合的能力正在改变游戏规则”。

同样，OpenAI 与汤森路透的合作已经证明在微调法律模型方面取得了成功，为在法律和保险等高风险领域增强 AI 应用铺平了道路。

3.AI 定制新时代

OpenAI 计划于 2025 年公开发布，旨在根据早期参与者的反馈改进 RFT。除了最初的应用之外，OpenAI 还设想了 RFT 模型推动数学、研究和基于代理的决策等领域的发展。“这是关于为人类最复杂的挑战创建高度专业化的工具，”Chen 说。

简而言之，这项技术将 OpenAI 的 o1 系列模型转变为特定领域的专家，使它们能够以无与伦比的准确性进行推理，并在复杂、高风险的任务中超越其基本版本。

定期微调通常涉及使用监督学习在新数据集上训练预训练模型，其中模型根据数据集中提供的确切输出或标签调整其参数。

另一方面，RFT 使用强化学习，模型从对其性能的反馈中学习，而不仅仅是从直接示例中学习。

该模型不是从固定标签中学习，而是根据预定义的评分量规或评分器根据它在任务中的表现进行评分。这使模型能够探索不同的解决方案并从结果中学习，专注于提高推理能力。

4.用户实测：ChatGPT o1 Pro 感觉就像买了一辆兰博

在 OpenAI 12 Days 的第一天，该公司发布了完整版的 o1 和一款售价 200 美元的全新 ChatGPT Pro 机型。ChatGPT Pro 计划包括 Plus 计划的所有功能以及对附加 o1 Pro 模式的访问，据说该模式使用“更多计算来最好地回答最难的问题”。此外，该计划将提供对 o1、o1-mini 和 GPT-4o 的无限制访问以及高级语音模式。

OpenAI 还宣布了该模型的以开发人员为中心的新功能。其中包括结构化输出、函数调用、开发人员消息和 API 图像理解。OpenAI 还表示，他们正在努力为 o1 模型提供 API 支持。

“为了更加明确：O1 在我们的 Plus 级别可用，每月 20 美元。使用新的 Pro Tier（每月 200 美元），它可以更努力地思考最困难的问题。大多数用户会对 Plus Tier 中的 O1 感到非常满意！“OpenAI 首席执行官 Sam Altman 在 X 上发帖。

社区中的许多人认为 200 美元对于 ChatGPT Pro 订阅来说太贵了。“不要以为我需要每月 200 美元的 o1 Pro。o1 对我来说就足够了。哎呀，对我来说就足够了，“X 上的一位用户发帖说。

“ChatGPT o1 Pro 感觉就像买了一辆兰博基尼。”

沃顿商学院的副教授 Ethan Mollick 可以提前接触 o1，他分享了他的经验，并将其与 Claude Sonnet 3.5 和 Gemini 进行了比较。“它可以解决一些博士级别的问题，在科学、金融等高价值领域有明显的应用。发现用途需要真正的研发努力“。

他解释说，虽然 o1 在解决 Sonnet 难以解决的特定难题方面优于 Sonnet，但它并没有在每个领域都超过 Sonnet。Sonnet 在其他领域仍然更强大。“作为作家而言，o1 表现得并没有想象中地更好，不过它通常能够比 Sonnet 更好地发展复杂的情节，因为它可以更好地提前计划。”

一位 Reddit 用户在花了 8 小时在实际应用程序中测试 OpenAI 的 o1 Pro（200 美元）与 Claude Sonnet 3.5（20 美元）后分享了他们的经验。

对于复杂的推理，o1 Pro 是赢家，它提供的结果略好，但每个响应的时间多了 20-30 秒。Claude Sonnet 3.5 虽然更快，但在这些任务上达到了 90% 的准确率。在代码生成方面，Claude Sonnet 3.5 的性能优于 o1 Pro，它生成的代码更简洁、更易于维护，文档更好，而 o1 Pro 倾向于过度设计解决方案。

同样，Abacus AI 首席执行官 Bindu Reddy 表示，Sonnet 3.5 在编码方面仍然优于 o1，这是根据她进行的手动测试，因为 OpenAI 尚未发布 API。

“早期迹象表明，Sonnet 3.5 在编码方面仍然占据主导地位。每当 OpenAI 选择提供 API 时，我们都将能够确认这一结果，“她说。

参考链接：https://analyticsindiamag.com/ai-origins-evolution/fine-tuning-is-dead-long-live-reinforcement-fine-tuning/

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/