通用Agent活不久?套壳与破解……关于Manus和OpenManus,这些质疑的答案及回应,在这里!

原创 精选
人工智能
Manus 并非完全从零开始开发。据社交媒体报道,该平台结合使用现有和经过微调的 AI 模型,包括 Anthropic 的 Claude 和阿里巴巴的 Qwen,来执行起草研究报告和分析财务文件等任务。

出品 | 51CTO技术栈(微信号:blog51cto)

上周四,一款非常令人迷惑不解的现象级产品,只用了一天时间,就把“封神”和“打脸”两种滋味都尝了个遍。

这款号称全球首个“通用代理”人工智能平台,于上周预览推出,其引发的关注度席卷了整个技术圈。

Hugging Face 的产品负责人称 Manus 是“我尝试过的最令人印象深刻的人工智能工具”。人工智能政策研究员 Dean Ball将Manus 描述为“使用人工智能的最复杂的计算机”。

不过很快就有人就质疑Manus背后的创新水平“实属套壳”,怀疑其在通过一场Demo 来做饥饿营销。据说,Manus的官方 Discord 服务器在短短几天内就增长到超过 138,000 名成员,据报道,Manus 的邀请码在中国闲鱼上高达10万元的的价格出售。

紧接着,很快就有年轻的中国团队,花了3个小时就手搓出了一个简易的“Open”版本的 Manus,赢得了业内的一致点赞。

有关 Manus 和 OpenManus,相信会有不少朋友不清楚它们各自的来历、理念、实现路线和争议点。这里为大家梳理一下,希望能有所帮助。

Manus的理念究竟是什么鬼?

打开Manus官网,就会有个醒目的slogan: “Less Structure, More Intelligence”。

翻译过来就是,更简化的架构、更聪明的智能。不过大众们似乎把这一点也看成了套壳炒作的证据之一,一度被戏称:“Less Structure, More Hype”。

谷歌和OpenAI率先推出了基于其深度推理模型来赋能Agent的前沿工作,例如DeepResearch、Operator等。

或Claude的MCP协议对工具使用领域的革新,Manus的技术突破相对有限。

它的主要创新点是借助推理模型实现了简化结构,同时增强智能处理能力的设计。 

这也就是媒体人杨远骋Koji发布的据说来自Manus团队内部的“Less Structure, More Intelligence”理念。 

Manus是缝合怪吗?

Manus 并非完全从零开始开发。据社交媒体报道,该平台结合使用现有和经过微调的 AI 模型,包括 Anthropic 的 Claude 和阿里巴巴的 Qwen,来执行起草研究报告和分析财务文件等任务。

然而,Manus 背后给出了该平台据称可以实现的非常多的例子,从买房咨询到编程视频游戏。

图片图片

不过用例如此之多的“通用”Agent,在业内人士看来,不过是一个产品“缝合怪”。

功能上,Manus 可以被看成是一个整合了 Computer use、虚拟机、Multi agent 协同的产品。

而在技术实现上,原理也并没有特别新鲜,据业内人士预测,Manus是基于 Claude 模型生成能力、开源模型后训练增强的规划能力,再结合各种预制的 Agent,按照设定好的工作流:构建 todo 清单、新建虚拟机环境、调用工具、结果整合、自我检查、输出结果,来解决任务。

原理没有太多的创新,但Manus的能够实现的功能多样性、丰富细致的程度也是为外界所称道的,这背后需要做极大的工程任务。

整合的工作量这么多,背后有什么通用的技术栈可以做成这件事吗?业内专家认为Manus很有可能是基于 MCP(模型上下文协议)的聚合模式。

图片图片

不过,刚刚季逸超在X回应:Manus 并没有使用 Claude 的 MCP,灵感更多还是来自于朋友,不过没有完全采用 CodeAct。

图片图片

Manus的架构揭秘:运行在沙盒中的多Agent任务

有专家从Manus演示实例分析认为,Manus有效整合了DeepResearch、Artifacts和Operator三大现有能力。

据媒体引用但未出现在Manus官网上的官方资料称,Manus AI 使用一套名为“Multiple Agent”的架构,运行在独立的虚拟机中。通过规划代理、执行代理、验证代理的分工协作机制,来大幅提升对复杂任务的处理效率,并通过并行计算缩短响应时间。

在这个架构中,每个代理可能基于独立的语言模型或强化学习模型,彼此通过 API 或消息队列通信。同时每个任务也都在沙盒中运行,避免干扰其他任务,同时支持云端扩展。每个独立模型都能模仿人类处理任务的流程,比如先思考和规划,理解复杂指令并拆解为可执行的步骤,再调用合适的工具。

图片图片

据OpenManus 和 OWL 以及部分信息源得知,从当前Manus可以执行的操作和其技术描述来看,其AI架构与工作流其实并不难实现,很容易重构——它很有可能是三个相关功能的串联,由一个主脑做步骤调配。

当然也有可能根本不需要主脑,以规划代理同时承担工作协调的能力。

图片图片

在Manus的解释中,除了浏览网页用到了Computer Use(计算机使用)之外,它在虚拟机中的计算机应用并不多。这也是 MIT 博士 Zengyi Qin 认为它在无边界操作系统级环境(open-ended OS Level environment)中未取得突破的原因。

在能力层,它只不过这个工作流当前各个节点的能力大幅增强了,而其负责规划的主脑也进化成了可以分布拆解和发起任务的推理模型。

而其代理层及模型层架构中与DeepResearch和Artifact能力的重叠基本是100%的(图像浏览用了一些Operator能力)。

因此官网上介绍的智能研究、高级数据分析、任务自动化三大功能其实也就是Manus的极限了。

Manus跟Operator对标科学吗?

在 X 上的一段热门视频中,Manus 的研究负责人季逸超暗示该平台优于 OpenAI 的深度研究和Operator等代理工具。

季逸超声称,Manus 在通用人工智能助手的流行基准 GAIA 上的表现优于深度研究,GAIA 可探测人工智能通过浏览网页、使用软件等方式开展工作的能力。

图片图片

论文中指出,GAIA 测试根据解决问题所需的步骤数量以及回答问题所需的工具种类被分为三个递增的难度级别。大致使用以下定义来为问题分配难度级别:

  • 一级问题:通常不需要工具,或者最多需要一个工具,且不超过5个步骤。
  • 二级问题:通常涉及更多步骤,大约在5到10步之间,并且需要结合使用不同的工具。
  • 三级问题:是为近乎完美的通用助手设计的问题,需要执行任意长度的动作序列,使用任意数量的工具,并且能够访问整个世界。

为了形象的理解问题的难度,可以看下面的这个例子:

一级问题

问题:根据美国国立卫生研究院(NIH)网站列出的信息,2018年1月至5月期间针对痤疮患者进行的幽门螺杆菌临床试验的实际入组人数是多少?
真实答案:90

二级问题

问题:如果这一整品脱全是冰淇淋,那么根据维基百科2020年报告的标准,其脂肪含量比美国联邦标准高出或低了多少百分比?请以正数或负数的形式回答,并保留一位小数。
真实答案:+4.6

三级问题

问题:在2006年1月21日美国国家航空航天局(NASA)的“每日天文图片”中,可以看到两名宇航员,其中一名看起来比另一名小得多。截至2023年8月,在这名较小宇航员所属的NASA宇航员团队中,哪位宇航员在太空停留的时间最少?他在太空停留了多少分钟(四舍五入到最近的整数)?不包括那些从未进入过太空的宇航员。请给出该宇航员的姓氏,并用分号与分钟数隔开。
真实答案:White; 5876

GAIA 样例问题GAIA 样例问题

不过这里需要注意的是,OpenAI 的 DeepResearch 主要用于深度研究领域的,主打一个"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

而 Manus 则覆盖了更广的任务范畴,而 DeepResearch 主要用途则是报告生成。所以这本就是一场不公平的对比。

Manus的早期用户反馈

然而在用户实际测试使用中,即便是与DeepResearch对比,有网友表示 Manus 效果并不好:

Deep Research 在不到15分钟内完成了。不幸的是,Manus AI在第18/20步时失败了,耗时50分钟!😑 它之前表现得相当不错——我一直在查看Manus的输出结果,看起来非常出色。然而,再次运行相同的指令时就有点令人沮丧了,因为它耗时太长!

图片图片

当然,让人吐槽更多的地方还有很多。

一家AI初创公司 Pleias 的联合创始人亚历山大·多里亚在一篇 X 帖子中表示,他在测试 Manus 时遇到了错误消息和无限循环。一些 X 用户还指出,Manus 在事实问题上犯了错误,并且没有始终如一地引用其工作——并且经常错过在网上很容易找到的信息。

图片图片

据国内不少媒体的实测直播的反馈来看,慢、卡顿、幻觉都是普遍反映的问题。不过,正如一位媒体记者所说的:虽然性能有待提升,但 Manus 带来的智能体产品体验可以说是独一份的。

OpenManus是如何实现复刻的

MetaGPT团队在上周五一场直播中公开了自己当时开发OpenManus的设想。

图片图片

“两个月前的一次边吃饭边头脑风暴的过程中,我们想到,一个极简的 Agent 框架,应该是可插拔的 Tools 和 System Prompt 的组合,之后我们沿着这个思路,写了一个完整的 Agent 迷你框架。

前天晚上看到 Manus 时,凌晨就和同事商量,下班后的晚上就可以搞一个,应该 3 小时够了。”

这里,需要解释下为什么他们会采用可插拔的 Tools 和 System Prompt,原因在于——决定一个 ReAct Agent( 结合了反应和行动规划能力的智能体 )的效果的关键是 Prompt 和 Action,Prompt 控制了 Agent 整体的行为逻辑,Tools 给定了 Agent 的行动空间,二者被定义就能完整诠释一个 ReAct Agent。

其次,可插拔的优点是可组合,这样就可以把几个不同场景下的 Tools 组合到一起来创造一个新的 Agent,定义也很方便,不需要单独写内部逻辑,只需要修改动作空间( Tools )。Tools 本身就该是可组合的。

“我们的工作是把抽象做得更干净,目前 HuggingFace 的 Smolagents 也是类似的思路了。Manus 效果上让大家觉得很新奇,实际上主要是由于 Browser Use 和 Computer Use 的使用,所以只要给了 Agent 这两个工具,那它就都能做到。”

OpenManus公开的技术路线

大家可以从Github上的演示视频可以看出,OpenManus展示的结果远不如 Manus 那么细致和丰富。

OpenManus的一位贡献者梁新兵也坦承:OpenManus 目前功能还很初级,毕竟只花费3个小时手搓的时间,还需要很多后续的工作。不过这项不需要邀请码的开源之作已经公开了后续的开发路线。照这个路线,基本上全面复刻 Manus 不是问题:

• 更优的规划系统

• 实时演示功能

• 运行回放

• 强化学习微调模型

• 全面的性能基准测试

智能体:通用和垂直,哪个更靠谱?

杨远骋Koji 曾在第一时间连线参加了 Manus 的小范围沟通会。曾透露了一些不为外人知的细节:比如 Manus 打榜超过了OpenAI,季逸超 Peak 泪洒办公室,再比如 Manus 的单任务成本,仅仅只有 2 美刀,并且还有优化的空间。

但这里,小编认为还有一个业界的非共识需要探讨:在 Manus 看来,做垂直领域的AI Agent “可能有点不靠谱”,理由是——Manus 打败了 YC W25 几乎 3/4 的 Agent 创业产品。 

图片图片

然而,就在上周四我们在栏目“AI实战派”中与一位大厂大模型应用算法专家李明锦进行了探讨。他认为,个人并不看好通用 Agent 的创业。

一方面,虽然市面上不乏BABY AGI、XAgent、LangChain、AUTO Gen 等类似的产品, 这些框架其实很早就提出来了,但是真正用于生产环境确实很少,所以本质上该类产品的核心还是在于对垂类任务的分解。另一方面,只有将 Agent 面相企业生产环境做到定制话,才有可能令其买单。所以说智能体的趋势一定是垂类、定制画的。通用 Agent 对于创业团队而言,人员有限,很难有精力把所有这些任务都cover 到。

“如果我来主导 Manus 这个项目,我就把它开源!”

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2024-07-02 11:16:21

2018-04-26 16:15:02

数据库MySQLMySQL 8.0

2009-06-24 14:10:22

2021-06-17 13:40:47

区块链比特币公有链

2021-02-01 08:39:26

JTAG接口Jlink

2021-12-24 10:01:55

勒索团伙攻击勒索软件

2018-04-03 05:19:36

网速宽带Wifi

2018-10-09 15:20:57

CIOHRHRM

2017-08-29 11:21:03

微软

2019-05-10 10:13:10

Windows 功能系统

2020-06-08 17:51:28

戴尔

2022-11-28 08:44:46

死锁面试线程

2021-07-19 08:33:56

时间复杂度大O

2020-12-08 11:08:55

时间复杂度软件

2020-02-16 12:01:53

Windows 10Windows微软

2016-05-20 11:26:54

客户端优化 直播推流

2016-05-20 11:14:55

内容缓存 传输策略优

2021-01-27 10:28:21

CISO升职加薪首席信息安全官

2018-03-19 14:43:28

2017-10-24 14:57:58

AI人工智能机器学习
点赞
收藏

51CTO技术栈公众号