业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长 原创

发布于 2025-2-25 13:57
浏览
0收藏

整理 | 星璇

出品 | 51CTO技术栈(微信号:blog51cto)

就在OpenAI还在吊胃口之际,最强竞对 Anthropic 深夜开大了!

Anthropic 直接把自家的“通用+推理”二合一的模型发布了,并把自家内部在用的AI编程工具也上线,直接可以终端执行任务的那种!

这就带大家看看这家公司在大模型以及AI产品上的不同打法!

用户不用再选择模型了,业界首个混合AI模型

Anthropic 正在发布一款名为 Claude 3.7 Sonnet 的新型前沿 AI 模型,该模型被设计为能够根据用户的需求“思考”问题任意长的时间。  

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长-AI.x社区图片

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长-AI.x社区Anthropic 的新思维模式

Anthropic 将 Claude 3.7 Sonnet 称为业界首个“混合 AI 推理模型”,因为它是一款既能提供实时回答,又能给出经过深思熟虑、更加“推敲”的答案的单一模型。用户可以选择是否激活 AI 模型的“推理”能力,这会促使 Claude 3.7 Sonnet 在短时间内或较长时间内进行“思考”。  

这款模型代表了 Anthropic 在简化其 AI 产品用户体验方面的更广泛努力。如今,大多数 AI 聊天机器人都有一个令人头疼的模型选择器,迫使用户从几种不同选项中进行选择,这些选项在成本和功能上各有差异。像 Anthropic 这样的实验室希望用户不必为此操心——理想情况下,一个模型就能完成所有任务。  

Anthropic 表示,Claude 3.7 Sonnet 已经于周二凌晨面向所有用户和开发者推出,但只有付费订阅 Anthropic 高级版 Claude 聊天机器人的用户才能访问模型的推理功能。免费版用户将获得标准版的 Claude 3.7 Sonnet,Anthropic 声称其性能优于之前的前沿 AI 模型 Claude 3.5 Sonnet。(是的,这家公司跳过了一个数字。)  

Claude 3.7 Sonnet 的价格为每百万输入令牌 3 美元(意味着你可以以 3 美元的价格输入大约 75 万词,比整个《指环王》系列的字数还多),以及每百万输出令牌 15 美元。这使得它比 OpenAI 的 o3-mini(每百万输入令牌 1.10 美元/每百万输出令牌 4.40 美元)和 DeepSeek 的 R1(每百万输入令牌 0.55 美元/每百万输出令牌 2.19 美元)更昂贵,但需要注意的是,o3-mini 和 R1 是纯粹的推理模型——不像 Claude 3.7 Sonnet 是混合模型。

Claude 3.7 Sonnet 比其前代产品有了重大升级。扩展思维模式使该模型在数学、物理、指令遵循、编码和许多其他任务方面获得了额外的提升。此外,API 用户可以精确控制模型的思考时间。

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长-AI.x社区图片

模型厂商的新趋势:让模型自行决定思考多久,减少回答问题的等待时间

Claude 3.7 Sonnet 是 Anthropic 第一款能够“推理”的 AI 模型,这是许多 AI 实验室在传统提升 AI 性能的方法逐渐失效时转向的一种技术。  

像 o3-mini、R1、谷歌的 Gemini 2.0 Flash Thinking 和 xAI 的 Grok 3(Think)这样的推理模型,在回答问题之前会花费更多时间和计算资源。这些模型将问题分解为更小的步骤,这通常会提高最终答案的准确性。推理模型并不一定像人类那样真正“思考”或“推理”,但它们的过程是基于演绎法建模的。  

Anthropic 的产品与研究主管 Dianne Penn 在接受采访时透露,最终,Anthropic 希望 Claude 能够自行决定需要“思考”多久来回答问题,而无需用户提前选择控制选项。  

Anthropic 在一篇分享的博客文章中写道:“类似于人类不会为可以立即回答的问题和需要深思熟虑的问题配备两个不同的大脑,我们认为推理只是前沿模型应具备的能力之一,并应与其他能力无缝集成,而不是通过单独的模型提供。”  

Anthropic 表示,它允许 Claude 3.7 Sonnet 通过“可见草稿板”展示其内部规划阶段。用户可以看到 Claude 对大多数提示的完整思考过程,但出于信任和安全原因,部分内容可能会被隐藏。

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长-AI.x社区Claude 在 claude 应用中的思考过程

重点聚焦于现实世界中的任务,而非各种竞赛

Anthropic 表示,它优化了 Claude 的思维模式以应对现实世界中的任务,例如复杂的编码问题或代理任务。使用 Anthropic API 的开发者可以控制“思考预算”,在速度和成本之间权衡答案的质量。  

在一项衡量真实世界编码任务的测试 SWE-Bench 中,Claude 3.7 Sonnet 的准确率为 62.3%,而 OpenAI 的 o3-mini 模型得分为 49.3%。在另一项测试 TAU-Bench 中,该测试衡量 AI 模型在零售环境中与模拟用户和外部 API 交互的能力,Claude 3.7 Sonnet 得分为 81.2%,而 OpenAI 的 o1 模型得分为 73.5%。  

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长-AI.x社区图片

Anthropic 指出,Claude 3.7 Sonnet 是用于编码和代理工具使用的最先进的模型。“ 在开发它的过程中,我们针对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映用户需求的现实任务。”

Anthropic 还表示,Claude 3.7 Sonnet 拒绝回答问题的频率将低于其之前的模型,声称该模型能够更细致地区分有害和无害的提示。Anthropic 表示,与 Claude 3.5 Sonnet 相比,它减少了 45% 的不必要拒绝。这正值一些其他 AI 实验室重新考虑限制其 AI 聊天机器人回答的方式之际。  

Claude Code:开发者直接可执行特定任务

除了 Claude 3.7 Sonnet,Anthropic 还发布了一款名为 Claude Code 的代理编码工具。作为研究预览版发布的这款工具,允许开发者直接从终端通过 Claude 执行特定任务。  

在一次演示中,Anthropic 员工展示了如何通过简单的命令(如“解释这个项目结构”)让 Claude Code 分析一个编码项目。开发者可以使用命令行中的普通英语修改代码库。Claude Code 会在更改时描述其编辑内容,甚至可以测试项目错误或将项目推送到 GitHub 仓库。  

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长-AI.x社区图片

甚至Anthropic内部也在用这款“提效神器”。Anthropic海外媒体官方账号上称:

“Claude Code 已经成为我们团队不可或缺的工具。在早期测试中,Claude 一次性完成了通常需要 45 分钟以上手动操作才能完成的任务。”

Anthropic 发言人日前表示,Claude Code 最初将以“先到先得”的方式向有限数量的用户开放。  

写在最后

Anthropic 在 AI 实验室以极快速度推出新 AI 模型的时期发布了 Claude 3.7 Sonnet。Anthropic 历来采取更为系统化、注重安全性的方法。但这一次,该公司希望引领潮流。  

“我们的合伙伙伴正在努力为他们的客户取得成果,”Anthropic 的平台负责人 Michael Gerstenhaber 解释说。“使用相同的模型并以不同的方式提示相同的模型可以让像 Thompson Reuters 这样的人进行法律研究,让我们的编码合作伙伴(如 Cursor 或 GitHub)能够开发应用程序并实现这些目标。”

Anthropic 的混合方法既代表了技术演变,也代表了战略博弈。OpenAI 为不同的功能维护单独的模型,而 DeepSeek 专注于成本效益,而 Anthropic 正在寻求能够处理日常任务和复杂推理的统一系统。这种理念可以重塑企业部署 AI 的方式,并消除处理多个专业模型的需要。

不过问题是,这种领先能持续多久?OpenAI 可能即将发布自己的混合 AI 模型;该公司的首席执行官 Sam Altman 表示,这一模型将在“几个月内”推出。

 

本文转载自​​51CTO技术栈​​,作者:星璇


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-2-25 13:58:36修改
收藏
回复
举报
回复
相关推荐