AI新思考:“浴火重生”的草莓模型 原创
“这个模型肯定比我更擅长解决 AP 数学考试,而且我在大学时辅修数学,”OpenAI 的首席研究官鲍勃·麦格鲁 (Bob McGrew) 告诉我。他说,OpenAI 还根据国际数学奥林匹克竞赛的资格考试对 o1 进行了测试,虽然 GPT-4o 只正确解决了 13% 的问题,但 o1 的得分为 83%。
OpenAI发布名为o1新模型,这是全新“推理”模型系列中的第一个,这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1-mini一起发布,o1-mini是一个更小而且较为便宜的版本。这实际上就是之前炒作的神秘版本“草莓模型”。
o1与以前的模型相比,它在编写代码和解决多步骤问题方面做得更加的出色。但它也比GPT-4o的带来更多的费用。o1目前处于预览版本的状态。
今天开始,ChatGPT Plus和团队用户可以访问o1-preview和o1-mini,企业用户和研究类别的用户将在下周初获得访问权限。OpenAI 表示它计划为 ChatGPT 的所有免费用户提供o1-mini 访问权限,但尚未确定发布日期。
商业使用的收费还是非常昂贵,使用传统的API调用,o1-preview每100万个输入Token收费15美元,每100 个输出令牌收费60美元。相比之下,GPT-4o的成本为每100万个输入Token收费5美元,每 100万个输出Token收费15美元。
1.背后的意义
o1在针对问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识自身错误。在披露的测试中,它在数学和编码方面表现出色。在国际数学奥林匹克竞赛 (IMO) 的资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。它的编码能力在比赛中得到了评估,并在Codeforces 比赛中达到了第89个百分位。
作为早期模型,它还不具备使 ChatGPT有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o在短期内会更有能力。然而在复杂的推理领域,这是一个重大进步,代表了AI能力的新突破。因此OpenAI将计数器重置回1并将此系列命名为OpenAI o1。
2.适用场景
o1比较适合科学、编码、数学和类似领域的复杂问题,这些增强的推理功能可能特别有用。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。
除了考试和学术基准之外,OpenAI还评估人类对o1-preview与GPT-4o在更多广泛领域中的对比。在这项评估中,人类对来自o1-preview和GPT-4o 的提示进行了匿名投票以便于选出他们更喜欢哪种模型。O1-Preview在数据分析、编码和数学等推理密集型类别中比 GPT-4O更受欢迎。但是在某些自然语言任务中,o1-preview不是首选,这表明它并不适合所有用例。
本文转载自 鲁班模锤,作者: 庞德公