在GPT-5备受期待的同时,OpenAI发布了一种先进的语言模型,它可以在认真思考后做出反应,具备与博士生相当的智能。这种改进版模型向前迈出了一大步,提供了实用的解决方案,而不是遗漏指令或产生幻觉。
我们在这篇博文中将介绍OpenAI的o1推理模型及其特别之处和值得注意的方面。然后,我们将使用ChatGPT访问o1预览版和o1迷你版模型来解决复杂的财务问题,并构建一个基于Julia的网页抓取工具。最后,我们将构建一个从数据摄取到模型部署的端到端机器学习项目,这一切都使用OpenAI o1预览版模型来完成。
OpenAI o1推理模型简介
OpenAI的o1推理模型旨在像人类一样思考问题,花时间仔细考虑后做出反应。在处理物理、化学和生物学方面颇有挑战性的任务时,o1模型表现出来的智能与博士生相当。此外,它擅长处理数学和编码任务,在国际数学奥林匹克资格赛中取得了83%的成功率,在全球编程比赛Codeforces中排名第89位。
目前,该推理模型有o1预览版和o1迷你版两个版本。o1预览版是个推理模型,用于解决众多领域的难题,而o1迷你版是一种更快速、更经济高效的推理模型,尤其擅长处理编码、数学和科学任务。
这两种模型可以通过ChatGPT Pro订阅和You.com来访问,还可以通过OpenAI平台上面向tier 5组织的API来获得。
在ChatGPT中使用OpenAI 01模型
每个订阅ChatGPT Plus的用户都可以通过从左上角下拉菜单更改语言模型来访问o1模型。
我们在本节将先尝试这种推理模型的高级版本o1预览版来制定财务计划。然后,我们将使用这种模型更快速、更小巧的o1迷你版,用Julia语言创建自己的网页抓取工具。
OpenAI o1预览版
不妨使用o1预览版模型来帮助我靠2万美元的储蓄账户成为百万富翁。我还要求它提供计算和逐步解释,以确定我达到100万美元所需要的时间。
点击模型“下拉”菜单,选择“o1预览版”,然后在信息输入框中输入以下提示。
提示:“我的储蓄账户里有2万美元,每年获得4%的利润,每年支付两次。你能告诉我要多久我才能成为百万富翁吗?还有,你能像给一个没受过教育的人解释数学那样一步一步地解释一下吗?”
o1预览版模型使用数学公式和计算进行了详细的分析,为我们提供了结果总结。这种类型的响应不是由GPT-4o或市面上的任何其他语言模型所能生成的。它很全面,并严格遵循提示。
在第9步,它给我们提供了一个结果:如果我完全依靠储蓄账户,我需要98年才能成为百万富翁。
结果:
Step 9: Interpreting the Result
- Time Required: Approximately 98.73 years.
So, it will take you about 98 years and 9 months for your $20,000 to grow into $1,000,000 at a 4% annual interest rate compounded twice a year.
要查看o1预览版如何考虑解决这个问题,请点击响应上的下拉按钮。
在本文示例中,点击“Thought for 22 seconds”将显示语言模型生成响应所采取的全部步骤。
GPT-4o vs o1预览版
不妨通过提供同样的提示将其与GPT- 4o模型进行比较。
GPT-4o模型在生成结果时相当缓慢。就速度而言,它几乎和o1预览版一样慢。每种模型处理问题的策略大不相同。o1预览版展示了更多的细节和数学公式,并像向学生解释一样进行了解释,而GPT-4o忽略了提示的最后一部分,直接开始求解,而不是解释每一步。
OpenAI o1迷你版
o1迷你版速度很快,可用于处理编码问题和简单的数学问题。我们让o1迷你版使用Julia创建一个网页抓取工具,为其提供了额外的说明。
提示:“使用Julia语言从头开始构建网页抓取工具。
请确保你已经添加了文档字符串和注释,创建了多个文件,使用了继承,创建了单元测试文件,并提供了介绍如何使用它的说明文档。”
它花了近15秒的时间来生成响应,思考时间为2秒,而o1预览版模型用时22秒。
我已经用源文件、单元测试文件、自述文件和“project.toml”文件创建了一个适当的项目。这些模型如何变得更完善给我留下了深刻印象。我肯定会将它用于自己的编码项目中,也会为我的教程创建结构。
GPT-4o vs o1迷你版
GPT- 4o令人失望。它遗漏了提示中的许多指令,开始处理泛泛的项目。自述文件只有一个标题,所有其他文件都有问题,使用指南不完整。简而言之,这是一次糟糕的尝试。如果我不得不使用GPT-4o完成编码项目,我将自行编码和创建说明文档。
用OpenAI o1预览版模型构建机器学习项目
这是我最喜欢的部分,我将要求o1预览版模型为我构建一个端到端机器学习项目。GPT- 4o和Claude 3.5模型都失败了,因为面对有太多指令的复杂项目,它们束手无策。
在本例中,我们要求它使用Python创建一个Reddit审核应用程序。我们为它提供了额外的指令,从数据摄取到建议免费部署推理API。
提示:“创建一个Python Reddit审核应用程序,它在看到Reddit帖子后预测它们是否对社区有害。
请确保项目包括以下步骤:
- 使用网页抓取从reddit r/learnmachinelearning收集数据。
- 使用Scikit-learn处理数据集。
- 使用来自Reddit的测试数据集训练机器学习模型。
- 保存模型,并执行模型评估。
- 创建用于模型推理的FastAPI应用程序。
- 添加用于创建用户界面的Jinja模板。
- 提供将应用程序免费部署到云端的说明。”
正如我们所看到,它决定在哪里抓取网页或使用Reddit数据摄取工具。就像人一样,它考虑了工具对项目是否可行。
我们已收到了所有代码文件以及关于如何组装它们以便处理、训练和构建API的说明。它甚至为我们提供了如何使用Railway应用程序免费部署应用程序的说明。
在我自行尝试代码之前,不妨让ChatGPT为我们测试一下。
我们收到一条消息,显示它不能执行代码。
o1模型现在还处在测试阶段。将来,OpenAI会推出能够使用CSV文件、图像、音频数据等内容的Python解释器。现在它只是一个文本生成模型,可以像学者或专业人士一样思考。
结语
事实证明,o1推理模型改变了人工智能界的游戏规则。除了ChatGPT外,我一直使用You.com上的o1预览版模型,用起来很流畅。我爱不释手。该模型速度快,还提供了介绍如何解决复杂问题或自行构建数据科学项目的详细地图。
今后对提示工程师的需求会再度上升,因为现在我们只需要专注于给出指示,o1模型将帮助我们解决工作中的任何问题。
我们在这篇博文中介绍了o1模型的独特功能,并强调了它较之GPT-4o等以前版本所具有的优势。这种演进清楚地表明,未来基于AI的解决方案将更直观、更有影响力。
原文标题:Getting Started with OpenAI o1 Reasoning Models,作者:Abid Ali Awan