Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！原创

51CTO技术栈

发布于 2024-10-24 14:02

浏览

0收藏

又整新活了！Anthropic 家的大模型都能用电脑了！

在本周二的重磅更新里，我们看到了OpenAI劲敌——Anthropic大招不断。

全新升级的 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku，不仅性能强悍。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

Claude 3.5 Sonnet更是达到了在编程界横着走的水平，不仅各项指标都干翻了GPT-4o，连o1都不放过！

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

Sonnet在SWE基准验证中的得分高于所有可用模型，竟然包括了OpenAI o1-preview等推理模型和专门的代理系统。

难怪Claude直接表示，编程这一块就是我们的统治区了。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

不过，最神奇的功能还是 Claude 操作电脑的能力了。

Claude 不仅会填写表格、编写程序、遇到问题知道查查谷歌，还会很搞笑地偷个懒——关掉了录屏按钮，偷偷浏览黄石公园照片放空大脑！这是在演谁上班？

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区

一、AI用电脑，都能做些啥事？

AI Chatbot的对话能力越来越难以满足我们对AI的期待。

对于行动能力的提升逐渐变成了一个主攻方向。

无论是o1开发者日演示的AI订茶歇甜点，还是各家AI手机都在卷的AI助手预定餐厅、帮买咖啡等等，都体现了这个势头。

但 Claude 还能通过用电脑狠狠惊艳我们一把，就是因为这个 Agent 似乎更通用，留下的想象空间也更大。

因为所到底，我们在办公室的大多数工作时间，都是用电脑完成各种不同的任务而已。因此，Claude的新功能不是简单的生活助手，而是有着AGI雏形的强大。

虽然 Claude 和计算机交互的能力才刚刚起步，但我们还是能从一个个小示例里感叹一句：未来可期！

1.自动填写表格

填写表格真的是高频的工作任务。

在这个范例里，Claude需要填写来自Ant Equipment Co.的供应商请求表，方法是参考已有的表格或者自行搜索。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

左侧更新了AI的思维链情况，Claude发现在给定的表格中没有相应信息，于是开始调用搜索。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

在切换到CRM系统中进行了搜索之后，Claude顺利填好了表格。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区

2.做个日程攻略

在这个示例里，我们的朋友要来旧金山了，我们想让AI帮我们做一个到金门大桥看日出的攻略，Claude是否能完成细节的要求吗？

我的朋友要来旧金山，我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点，查看一下开车时间和日出时间，然后安排一个日历活动，让我们有足够的时间到达那里吗？

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

Claude二话没说，立即开始通过谷歌搜索，尝试先找个看日出的最佳地点。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

Claude在旅游攻略里成功找到了方案，然后开始着手时间方面的安排。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

既然要考虑开车能否赶得及，Claude立马开始调用地图应用，来判断需要为交通预留的时间。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

还很聪明地查看了当日的日出时间，并且把出发时间安排在我们的日程表里，真的是执行力拉满。

3.Claude 学习电脑之路才刚刚起步

不过，虽然示例看起来很美好，但目前还是留有很多的bug。

首先，Claude执行任务的准确率不够，例如编程到一半去看图了等等，千奇百怪的开小差行为。

其次，Claude学习电脑使用的道路还有很长，目前也就掌握了点击，连滚动、缩放、拖拽这样小学计算机第一课的内容，AI还存在一些操作障碍。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

最后，Claude的速度还比较慢，而且AI用着电脑的时候，你就得停下来手头的任务等着，没法和它并行工作。

也因此，小红书AI博主@AI Dance评价说，Anthropic变得鸡贼了……也开始和OpenAI一样给大家发期货了。

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！-AI.x社区图片

不过，Claude将其功能在API上提前上线了。

毕竟，作为AI用户，大家尝鲜的时候都不会太苛刻。抓到Claude在编程时偷偷摸鱼，和AI花费几个小时填完一份表格都同样有趣。

本文转载自51CTO技术栈

标签

Claude 3.5

编程能力

电脑

相关推荐

开源大模型AI代理操作系统：像Windos一样，操控AI代理

Aceryt • 3086浏览 • 0回复
微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

Aceryt • 1959浏览 • 0回复
TOT(Tree of Thought) | 让GPT-4像人类一样思考

arnoldzhw • 2253浏览 • 0回复
刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

Aceryt • 2047浏览 • 0回复
OpenAI草莓o1深夜炸场，一众大佬博主熬夜实测：有坑，很难说

51CTO技术栈 • 2685浏览 • 0回复
草莓OpenAI o1的规划能力怎么样？泰斗Subbarao Kambhampati给你答案！

AIGC最前线 • 2200浏览 • 0回复
Realtime API：开启语音交互新时代

51CTO内容精选 • 5051浏览 • 0回复
超级Agent：像人一样操控电脑！

PaperAgent • 2102浏览 • 0回复
Anthropic 升级版 Claude 3.5 Sonnet 模型，像人一样操控电脑？

穿越时空111 • 2005浏览 • 0回复
AI像人一样操控电脑：多模态AI Agents和屏幕交互新范式

Baihai_IDP • 2392浏览 • 0回复
Claude 3.5 引领人工智能新时代的强大模型

丢翅膀的鱼 • 2060浏览 • 0回复
GPT-4和GPT-4V能否像人类一样进行抽象推理

lintoms • 1504浏览 • 0回复
谷歌发布双思维AI Agent：像人类一样思考，重大技术突破！

Aceryt • 1673浏览 • 0回复
OpenAI满血o1深夜炸场！10秒搞定博士级难题！奥特曼重申：AI没有墙！

51CTO技术栈 • 1813浏览 • 0回复
Cohere AI 推出 Rerank 3.5：搜索技术的新时代

Halo咯咯 • 1596浏览 • 0回复
Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

51CTO技术栈 • 1446浏览 • 0回复
让模型像人一样思考

zhcs333 • 1424浏览 • 0回复
像Sora一样，用物理模拟方式生成视频

Aceryt • 1387浏览 • 0回复
【LLM合集】Qwen2.5-Omni：像人类一样「看听想说」的全能助手来了！

AIPaperDaily • 450浏览 • 0回复

算家计算

LV.3

定期分享AI资讯【做AI先行者，选算家云平台】

觉得TA不错？点个关注精彩不错过

帖子

287

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Claude 3.5超预期炸场！编程能力超o1，像人类一样操作电脑，开启Agent新时代！原创