智谱大秀肌肉！CogAgent 2.0让大模型接管一切！GLM-PC首创隐形屏幕，人类监工AI不远了-51CTO.COM

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

智谱 Agent OpenDay，手机上的自动驾驶正式升级为全家桶！

AutoGLM、AutoGLM-Web、GLM-PC，分别在手机、浏览器和电脑端可用！

这下终于全员能体验一把 AI 助手「会操作」的魅力了。此前推出的 AutoGLM 因为苹果生态的限制，只有安卓版，让许多用户都没能走到申请内测的那一步。

现在最快能上手的就是已经上线的 Web插件了，无需申请内测！

在演示 demo 里，智谱大秀肌肉，展现了一把 AutoGLM 从小红书搜索火锅食材，到小象超市下单的共 53 步的操作。（这么想想一个简单的食材采买，其实也是非常繁琐的事。）

更多AutoGLM、GLM-PC的神奇操作，可以看看官方放出的视频，让人直呼魔法。

1.GLM-PC ，第一个提出了隐形屏幕

CogAgent 如何学会操作设备的呢？

技术负责人潘立航解释，目前主要有三大类学习方案。

先是被动模仿，让 AI 观察我们人类是如何使用计算机的，让 AI 了解各种操作。

第二步是交互学习，在这一步中，人类做导师，AI 在指导下操作计算机。

第三步则是主动探索，计算机能自己琢磨研究，完成提升。

图片

不过，AI 目前的操作还有很多限制，完成任务的效率也相对较慢。

例如，Claude 3.5，他在操作电脑进行编程时，就被研究人员发现 AI 竟然偷偷摸鱼，浏览器了黄石公园的照片。

图片

而且，在 AI 接管电脑的时候，人类就不能并行做事了。这就使得 AI 用电脑的效率很低。

在这次发布会里，GLM-PC 提出了隐形屏幕，让人眼前一亮！

也就是说，未来人和 AI 能同时使用一台电脑工作，AI 不再抢占屏幕和键盘鼠标。当然了，我们还可以继续监工 AI，把它的屏幕放在小窗，随时查看，但又互不干扰。

潘立航说，GLM-PC 有计划让 AI 分身，创造多个隐形屏幕，一个打工人，就是一支队伍。

隐形屏幕预计明年 Q1 推出，看来 2025 年的 AI圈也会非常精彩。

图片

AutoGLM 很酷，但就像我们用的一系列 AI 功能一样，离完成品还有非常远的路要走。

看到消息，我迫不及待的体验了一把，下载即用的浏览器插件，AutoGLM-Web。

谷歌浏览器插件地址：

首先，目前在插件中，AutoGLM 支持的网站比较有限。

图片

更重要的是，AutoGLM 的意图识别还不够“智能”，需要写更详细地prompt来指导 AI，而它的响应也需要等待。

实测开始，我在百度主页看到一个羽绒服的热搜，因为标题在卖关子，就让 AI 帮我看看是个啥事。

图片

使用 AutoGLM 帮我查看，在优化 prompt 后，AI 成功点开了相应的热搜，但却没能进一步点开搜索结果就进行了总结。

视频经过二倍速处理。

由于没有点击搜索结果（可能因为搜索结果不在支持网站的范围，另外，第一条结果是个视频，对于 AI 来说理解视频也具备困难），总之，AutoGLM 的总结和新闻主要信息中的「假羽绒以次充好」「旧羽绒服翻新」有所出入。

图片

在隐形屏幕出现后，我或许会尝试将更多的任务外包给 AutoGLM。

这些 demo 更像对不久的未来的一种预言。我们能体会到 demo 中 AI 助手的神奇与实用，产品的设计面向了实打实的生活场景，可以预见这些 AI 功能将在未来给我们节省大量的时间和精力——可能不是现在。