
炸裂更新!全球首个混合推理模型Claude 3.7 Sonnet发布,编码能力直接起飞! 原创
在人工智能领域,每一次重大突破都能引发全球科技爱好者的热烈讨论。Anthropic公司发布的全新模型——Claude 3.7 Sonnet,无疑再次点燃了AI社区的热情。作为全球首个混合推理模型,Claude 3.7 Sonnet不仅在编码能力上实现了质的飞跃,还通过其独特的“标准和扩展思考模式”重新定义了AI的推理方式。
一个模型,两种思考方式
Claude 3.7 Sonnet的最大亮点在于其“一个模型,两种思考方式”的设计理念。用户可以根据需求选择“标准模式”或“扩展思考模式”。
- 标准模式:提供近乎即时的响应,适合快速问答和常规任务处理
- 扩展思考模式:模型会在回答前进行更深入的自我反思,显著提升其在数学、物理、指令遵循和编码等复杂任务中的表现。这种模式特别适合那些需要深度思考的场景,比如解决复杂的编程问题或进行科学推理。
这种设计不仅让Claude 3.7 Sonnet在灵活性上远超其他模型,还为用户提供了更高的控制权。通过API,用户甚至可以精确控制模型的思考时间,从而在速度和答案质量之间找到最佳平衡点。
代码能力开挂!实测数据吊打全场
Anthropic此次将重点放在了编码能力的提升上,Claude 3.7 Sonnet在多个编码基准测试中表现出了压倒性的优势。
- 在SWE-bench Verified(评估LLM解决GitHub上真实软件问题能力的基准测试数据集)上,Claude 3.7 Sonnet实现了SOTA(State of the Art)性能,远超Claude 3.5 Sonnet、OpenAI的o3-mini (high)和DeepSeek R1等竞争对手。
- 在TAU-bench(评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台)上,Claude 3.7 Sonnet 同样实现了SOTA 性能,超过了 Claude 3.5 Sonnet 和 OpenAI 的 o1。
虽然 Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面表现出色,扩展思考在数学和科学方面实现了显著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。
总结
从这次发布可以看出,Anthropic明显将重点放在了编码能力的提升上,其他领域虽然也有进步,但编码无疑是Claude 3.7 Sonnet的核心竞争力。Anthropic似乎有意将Sonnet系列定位为“编码AI助手”,专为开发者打造。今天我打开cursor,发现已经支持Claude Sonnet 3.7版本了,大家可以赶紧去尝鲜!
本文转载自公众号AI 博物院 作者:longyunfeigu
原文链接:https://mp.weixin.qq.com/s/4bnADpVxC_ARJEBacTV4VQ
