AI新思考：“浴火重生”的草莓模型原创

发布于 2024-9-13 11:33

浏览

0收藏

“这个模型肯定比我更擅长解决 AP 数学考试，而且我在大学时辅修数学，”OpenAI 的首席研究官鲍勃·麦格鲁（Bob McGrew）告诉我。他说，OpenAI 还根据国际数学奥林匹克竞赛的资格考试对 o1 进行了测试，虽然 GPT-4o 只正确解决了 13% 的问题，但 o1 的得分为 83%。

OpenAI发布名为o1新模型，这是全新“推理”模型系列中的第一个，这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1-mini一起发布，o1-mini是一个更小而且较为便宜的版本。这实际上就是之前炒作的神秘版本“草莓模型”。

o1与以前的模型相比，它在编写代码和解决多步骤问题方面做得更加的出色。但它也比GPT-4o的带来更多的费用。o1目前处于预览版本的状态。

今天开始，ChatGPT Plus和团队用户可以访问o1-preview和o1-mini，企业用户和研究类别的用户将在下周初获得访问权限。OpenAI 表示它计划为 ChatGPT 的所有免费用户提供o1-mini 访问权限，但尚未确定发布日期。

商业使用的收费还是非常昂贵，使用传统的API调用，o1-preview每100万个输入Token收费15美元，每100 个输出令牌收费60美元。相比之下，GPT-4o的成本为每100万个输入Token收费5美元，每 100万个输出Token收费15美元。

1.背后的意义

o1在针对问题做出响应之前花更多时间思考问题，就像一个人一样。通过培训，他们学会完善自己的思维过程，尝试不同的策略，并认识自身错误。在披露的测试中，它在数学和编码方面表现出色。在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o仅正确解决了13%的问题，而推理模型得分为83%。它的编码能力在比赛中得到了评估，并在Codeforces 比赛中达到了第89个百分位。

AI新思考：“浴火重生”的草莓模型-AI.x社区

作为早期模型，它还不具备使 ChatGPT有用的许多功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o在短期内会更有能力。然而在复杂的推理领域，这是一个重大进步，代表了AI能力的新突破。因此OpenAI将计数器重置回1并将此系列命名为OpenAI o1。

2.适用场景

o1比较适合科学、编码、数学和类似领域的复杂问题，这些增强的推理功能可能特别有用。例如，医疗保健研究人员可以使用它来注释细胞测序数据，物理学家可以使用它来生成量子光学所需的复杂数学公式，所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

除了考试和学术基准之外，OpenAI还评估人类对o1-preview与GPT-4o在更多广泛领域中的对比。在这项评估中，人类对来自o1-preview和GPT-4o 的提示进行了匿名投票以便于选出他们更喜欢哪种模型。O1-Preview在数据分析、编码和数学等推理密集型类别中比 GPT-4O更受欢迎。但是在某些自然语言任务中，o1-preview不是首选，这表明它并不适合所有用例。

AI新思考：“浴火重生”的草莓模型-AI.x社区