继今年3月发布Claude 3之后,Anthropic在半年时间里又上新了!
就在今天,Claude 3.5 Sonnet发布,作为即将推出的Claude 3.5模型家族的「排头兵」,而且已经面向全球开启免费试用。
具体来说, Claude 3.5 Sonnet支持200K token的上下文窗口,而在多项评测中超过了OpenAI最强的GPT-4o,以及自家的Claude 3 Opus。
与此同时,Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。
其中,在费用方面,Claude 3.5 Sonnet处理每百万输入token仅需3美元,每百万输出token则为15美元。(与前代相同)
用户可以在Claude.ai和Claude iOS应用程序上免费体验,如果订阅了Claude Pro和团队计划,则可以享受更高的速率;此外,还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用
生成2倍速,成本仅1/5
Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o,但在研究生级推理(GPQA)、本科级知识(MMLU)和编码能力(HumanEval)上,毋庸置疑地刷新了SOTA——
不仅大幅领先自家的前代老大哥Claude 3 Opus,而且还完成了对谷歌Gemini 1.5 Pro和Meta 4000亿参数的Llama(早期预览版)的全面超越。
它在理解细微差别、幽默和复杂指令方面有显著提升,并且能够用自然、贴近生活的语调撰写高质量内容。
在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。
这种性能提升,再加上高性价比,使Claude 3.5 Sonnet非常适合处理复杂任务,如上下文敏感的客户支持和多步骤工作流程的协调。
在内部的智能体编码评估中,Claude 3.5 Sonnet解决了64%的问题,优于Claude 3 Opus的38%。
结果显示,在指令和相关工具的支持下,Claude 3.5 Sonnet可以独立编写、编辑和执行代码,具备复杂的推理和故障排除能力。
尤其是,它能够轻松处理代码翻译,因此在更新遗留应用程序和迁移代码库方面效果极佳。
视觉能力超越GPT-4o
在视觉方面,Claude 3.5 Sonnet也是Anthropic迄今为止推出的最强大模型,不仅明显优于Claude 3 Opus和Gemini 1.5 Pro,而且在大部分测试中也都超过了GPT-4o。
这些改进在需要视觉推理的任务中尤为明显,例如解释图表和图形。
不仅如此,Claude 3.5 Sonnet还可以准确地从不完美的图像中转录文本——这是零售、物流和金融服务领域的核心能力。
在这些领域里,AI从图像、图形或插图中获得的信息往往要比单纯的文本来得更多。
基准测试中体现的这种强大视觉能力如何落实到现实应用中呢?下面这个demo给你答案。
像GPT-4o、Gemini这些模型虽然理解图像和视频的能力很强,但一般只能生成文字的描述内容,在这方面我们人类显然更擅长,能比模型做得更快更好。
但Claude不仅能准确识别、转录图像中的文字内容,还结合了强大的代码生成能力,多个模态真正集成在一起。
看一眼图片,立刻识别信息生成JSON文件,手速绝对快过任何程序员。
还能通过编码制造交互式图表,代码直接可运行,数据也丝毫不差。
不仅仅是代码,根据图片信息生成的网页也是图文并茂、界面精美。原本需要一晚上才能搞定的工作量,Claude帮你5分钟内赶上DDL。
领域专家最为钟爱
在附带的报告中,Anthropic还补充了一些其他测试的结果。
报告地址:https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf
表4展示了Claude 3.5 Sonnet在「拒绝请求」时的表现。
这里,团队使用的而是Wildchat和XSTest数据集进行测试,从而衡量模型在面对无害提示时避免不必要的拒绝,同时在面对有害内容时保持适当的谨慎。
可以看到,Claude 3.5 Sonnet在这两个维度上都优于Opus:它的错误拒绝更少,正确拒绝更多。
表5、图1和图2展示了Claude 3.5 Sonnet在「大海捞针」任务中的表现。
可以看到,Claude 3.5 Sonnet和Claude 3 Opus的性能几乎不相上下,但在平均召回率方面Claude 3.5 Sonnet还是要略胜一筹。
此外,从下表中能更清晰地看到,Claude 3.5 Sonnet在所有文本长度和200K长上下文之间,召回率居然没有出现明显滑落,这是包括Opus在内的所有前代模型的突破。
在基于人类反馈的评估方面,团队把从Claude 2.1开始的所有模型都拉了出来。
其中,人类评审需要与模型进行对话,并根据任务特定的指令对其进行评估。
图3展示了与Claude 3 Opus基线相比的「胜率」(win rate)。
可以看到, Claude 3.5 Sonnet不仅在编码、文档、创意写作和视觉等核心能力上有着显著的改进,而且领域专家们也更加喜欢——在法律领域的胜率高达82%,在金融领域为73%,在哲学领域为73%。
Artifacts:让团队实现无缝协作
除了模型的更新之外,Anthropic还Claude.ai上推出了一项全新功能——Artifacts,扩展了用户与Claude互动的方式。
具体来说,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,只需要一键点击,这些Artifacts会出现在对话旁边的专用窗口中。
这样就创建了一个动态工作空间,用户可以实时查看、编辑并基于Claude的创作进行构建,将AI生成的内容无缝集成到他们的项目和工作流程中。
这个功能的添加,大大增强了Claude在复杂项目中的可用性。
比如想要创建一个交互式的游戏界面,你很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了,以生成模型目前的能力,未必也能一次得到满意的结果。
于是,你可以参考软件开发的流程,将需求分解为多个步骤,更方便Claude Sonnet进行「渐进式开发」和迭代。
比如下面这个demo中,想要创建一个游戏,可以先让模型用SVG格式生成你想要的角色形象。
再把所有这些SVG图像放在同一个HTML网页中。
最后,规定好角色名称和游戏规则,只需要告诉Claude让这个游戏变得「可玩」,不用操心任何代码细节,一个简单的网页游戏就制作完成了。
Artifacts的推出,标志着Claude从对话式AI向协作工作环境的转变。
当然,这还只是一个开始。
不久的将来,团队——最终是整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作,Claude将作为按需的队友提供服务。
网友:被震撼到了!
模型刚刚发布,就有早期测试者发帖表示「被震撼到了」!
我是Claude 3.5 Sonnet模型的早期测试者,我对输出的一致反应是「超神」,模型现在已向所有人开放。
Claude 3.5 Sonnet在关键评估上优于竞争模型,速度是Claude 3 Opus的两倍,但成本只有五分之一,能胜任自主编码和视觉处理等复杂任务,而且可以管理长文档,确保 RAG、搜索/检索以及比较多个长文档等任务的准确性。
以及,我个人使用体验的反馈:从来不需要跟它说「不,你没明白我的提示,请执行这个操作」,它就是能理解提示并做到了;Artifact让我更有效率;文本推理/比较的结果优秀到不可思议。
有网友表示,自己不相信基准,于是便拿了道真题来了波实测。
结果不出所料,Claude 3.5 Sonnet很快就做了出来,而GPT-4o则在一通长篇大论之后给出了错误的答案。
Ethan Mollick表示,Anthropic新推出的「Artifacts」用起来有点类似于简化版的代码解释器。
下面,就是他用Claude创建并编辑一个游戏的实时视频。
大局观
那么Claude 3.5 Sonnet在Anthropic和整个AI生态系统中有什么重要意义呢?
首先是性能方面,由于当前模型架构的固化以及训练所需的巨大计算量,在没有重大研究突破的情况下,我们很难看到从GPT-3到GPT-4那样的飞跃。
比如,谷歌(Gemini 1.5 Pro)和OpenAI(GPT-4o)发布的旗舰产品,在基准测试和性能方面都只有小幅的提升。
其次,随着生成式AI厂商将注意力转向数据策划和许可,而不是新的可扩展架构,投资者似乎对生成式AI的投资回报周期比预期更长感到担忧。
不过,Anthropic因为处在对抗OpenAI的关键位置上,因此在一定程度上不会受到这种压力的影响。
但值得注意的是,Anthropic到2024年底的预计收入只有不到10亿美元,仅仅是OpenAI的「零头」。
第三,尽管客户群在不断增长,包括Bridgewater、Brave、Slack和DuckDuckGo等家喻户晓的品牌,但它仍然缺乏一定的企业知名度。正如最近与普华永道合作向企业转售生成式AI产品的是OpenAI,而不是Anthropic。
对此,Anthropic正在采取一种战略性且成熟的方法来开扩市场——将更多的研发投入到像Claude 3.5 Sonnet这样的产品上,从而在市场价格下提供稍好的性能。
可以看到,Claude 3.5 Sonnet的定价与Claude 3 Sonnet相同:每百万个输入模型的token收费3美元,每百万个模型生成的token收费15美元。
最后,Claude 3.5 Sonnet虽然没有解决大模型的「幻觉」问题,但它可能足够有吸引力,让开发者和企业转向Anthropic的平台。而这才是Anthropic关心的。
为此,Anthropic加大了对工具的投入,比如:
- 实验性的引导AI,允许开发者「引导」模型的内部特性;
- 集成使其模型能够在应用程序中执行操作;
- 基于模型构建的工具,比如最新的Artifacts。
此外,它还聘请了一位Instagram联合创始人担任产品负责人。
总体来说,Anthropic似乎已经意识到,围绕模型构建一个生态系统,而不仅仅是孤立的模型,是保持客户的关键,因为模型之间的能力差距正在缩小。
最后,让我们拭目以待吧。