谷歌家务机器人单挑斯坦福炒虾机器人！端茶倒水逗猫，连甩三连弹开打-51CTO.COM

火爆全网的斯坦福炒虾机器人，一天之内人气暴涨。

毕竟这样能炒菜能洗碗的全能机器人，谁不想带一个回家，把自己从家务中解放出来呢！

据说，这个项目是斯坦福华人团队花了三个月的时间做出来的。

今天，团队直接放出了更多细节。

这个机器人的技能多种多样，令人眼花缭乱。

以前，聊天机器人惬意地吟诗作画，人类苦逼地收拾打扫，这画风怎么看怎么不对。

如今终于有人想起来了：机器人的一大任务，就该是帮人类干家务啊！

你还有什么惊喜是我们不知道的？

斯坦福的这个炒菜机器人，它还能——

浇花。

图片

扫地。

图片

煮咖啡。

帮主人刮胡子。

图片

揪一片卫生纸，擦干净桌子上的牛奶。

图片

把洗碗机里的碗拿出来。

图片

陪猫玩。

图片

洗衣服（包括把一袋脏衣服倒进洗衣机、从袋子中拿出洗衣凝珠、拧开洗衣液倒进去、按下洗衣机按钮等过程）。

图片

推着小筐子收衣服。

图片

整理床单、换枕套。

图片

叠衣服（注意，它甚至还能完成拉拉链这种程度的精细操作）。

图片

拧开瓶盖，给工作中的主人送去一瓶啤酒。

图片

跟主人道晚安，帮躺在床上的主人盖好杯子。

图片

最后，还有一个彩蛋：忙碌的一天结束后，机器人还会自己给自己充电，迎接元气满满的一天，继续为主人服务了！

图片

擂台对打，谷歌DeepMind机器人研究三连弹

谷歌DeepMind这边，当然也不甘落后。

今天，谷歌DeepMind也官宣了一系列进展，就是为了能让机器人技术在日常生活中帮助我们。

图片

谷歌DeepMind的这个机器人，可以帮我们捡水果。

图片

从抽屉里拿出一罐可乐。

图片

帮我们摆好牙刷。

图片

总之，斯坦福炒虾机器人能做的，它也不差。

解决两大关键挑战

谷歌采用了AutoRT、SARA-RT和RT-Trajectory等技术，让机器人能够更快地做出决策，更好地理解环境，在环境中导航。

为了生产真正有能力的机器人，就必须解决两个基本挑战：

一个是提高它们将行为泛化到新情况的能力；第二个，就是提高它们的决策速度。

谷歌DeepMind团队，在这两个领域都进行了重大改进。

SARA-RT：让机器人Transformer更高效

首先，系统SARA-RT使用一种新颖的「向上训练」方法，将机器人Transformer模型转换为更高效的版本。

这样，就降低了机器人部署所需的计算要求，在保持质量的同时，提高了速度。

图片

当研究者将SARA-RT应用于谷歌最先进的RT-2模型时，在获得简短的图像历史后，最佳版本的准确率提高了10.6%，速度提高了14%。

虽然Transformer很强大，但它们可能会受到计算需求的限制，这会减缓它们的决策速度。

Transformer严重依赖于二次复杂度的注意力模块。

这意味着，如果RT模型的输入增加1倍，处理该输入所需的计算资源就会增加4倍，从而导致决策速度减慢。

如上所述，SARA-RT「向上训练」的方法来提高效率。「向上训练」是将二次复杂度转化为单纯的线性复杂度，大大降低了计算要求。这种转换不仅提高了原始模型的速度，而且还能保持其性能。

研究者表示，可以相信这是第一个可扩展的注意力机制，可以在不损失质量的情况下提供计算改进。

图片

谷歌这一系统的设计是为了可用性，同时也希望更多的研究人员和从业者将其应用于机器人学和其他领域。

因为SARA提供了加速Transformer的通用方法，且不需要算力昂贵的预训练，这种方法有助于扩大Transformer技术的使用。

与此同时，SARA-RT不需要任何额外的代码，因其可以使用各种开源的线性变量。

图片

SARA-RT-2模型用于操作任务，机器人的行动以图像和文本命令为条件

SARA-RT可以应用于各种Transformer模型。比如，将SARA-RT应用于点云Transformer，用于处理机器人深度摄像头的空间数据，并且速度提高了一倍多。

RT-Trajectory：让机器人学会泛化

第二，RT-Trajectory模型通过自动将描述机器人运动的视觉轮廓添加到其训练中，来学习如何遵循指令。

要知道，人类可以很直观地理解该如何擦桌子，但机器人，则需要通过多种方式，将指令转化为实际的身体动作。

这个RT-Trajectory模型，可以在训练数据集中获取每个视频，并在执行任务时将其与机械臂抓手的2D轨迹草图叠加在一起。

这样，这些轨迹就以RGB图像的形式，在模型学习其机器人控制策略时，为它提供了低级的、实用的视觉提示。

图片

它还可以通过观看人工演示、理解草图甚至VLM生成的图纸来创建轨迹。

当对训练数据中看不见的41项任务进行测试时，由RT-Trajectory控制的手臂取得了63%的成功率。

图片

传统上，训练机械臂依赖于将抽象的自然语言（「擦桌子」）映射到特定的动作（关闭抓手、向左移动、向右移动），这使得模型很难推广到新的任务。

相比之下，RT-Trajectory模型使RT模型能够通过解释特定的机器人运动（如视频或草图中包含的运动），来理解完成任务时应该「如何做」。

这个系统的用途很广泛，它还可以通过观看所需任务的人类演示来创建轨迹，甚至可以接受手绘草图。

它可以很容易地适应不同的机器人平台。

AutoRT：大模型训练机器人

第三，AutoRT利用基础模型的强大功能来创建一个系统，该系统可以理解人类的实际目标，并使机器人能够在新环境中收集训练数据。

这可以帮助扩展机器人的学习范围。

图片

AutoRT将基础模型（如LLM、VLM）与机器人控制模型（RT-1、RT-2）相结合，以创建一个可以部署机器人在新环境中收集训练数据的系统。

AutoRT可以同时指挥多个机器人，每个机器人都配备了一个摄像头，以及一个末端执行器，在一系列设置中执行不同的任务。

在这个过程中，系统首先使用的是VLM，来了解其周围环境。

图片

(1)自主轮式机器人发现有多个对象的位置。(2)VLM向LLM描述场景和对象。(3)LLM建议机器人执行不同的操作任务，并在做出选择之前决定机器人可以在没有辅助的情况下完成哪些任务，哪些任务需要人类远程控制，哪些任务不可能完成。(4)尝试所选任务，收集经验数据，并对数据的多样性/新颖性进行评分。以此往复。

接下来，LLM为每个机器人提出创造性的任务，并选择他们应该执行的任务。

在7个月的评估中，AutoRT安全地同时协调了多达20个机器人，让它们有条不紊地穿梭在各个办公室。

图片

不过，有一个关键问题：怎么确保机器人一定会保护人类的安全呢？

首先，AutoRT就具有安全护栏，能够为基于LLM的决策者提供「机器人宪法」。在为机器人选择任务时，必须遵守这些安全提示。

这个「机器人宪法「，一定程度上受到了阿西莫夫机器人三定律的启发。首先，机器人不得伤害人类。另外，机器人也不得尝试涉及人类、动物、尖锐物体或电器的任务。

不过，这也不能保证安全性，因此，AutoRT系统由经典机器人技术的使用安全措施组成。

比如，通过编程可以设定，如果机器人关节上的力超过给定阈值，就会自动自动停止。

并且，所有活动机器人都必须通过物理停用机关，保持在人类主管的视线范围内。

网友：今年是机器人的爆发年

2024年开局第一周，各种机器人研究就开始大爆发，让每个人为之兴奋。

一边是斯坦福代表着学术界的机器人成果，另一边是谷歌带着工业界的成果，双双亮相。

网友称，机器人和人工智能智能体今年开局强劲。为接下来的几个月做好准备。

图片

还有人将这周，称为「机器人周」。

图片

我认为，在未来2年的某个时候，人工智能和机器人技术的交叉，将同生成式AI一样爆炸。

「ChatGPT」时刻即将来临。

图片

英伟达高级科学家Jim Fan表示——

2024年是机器人年。

Mobile-Aloha是一个开源的机器人硬件，它可以灵活地完成双手任务，比如做饭（人类远程操控）。很快，硬件将不再是我们实现人类级别的机器人的瓶颈，而是「大脑」。

这项工作是由3名研究人员用学术预算完成的。多么令人难以置信的工作！斯坦福大学太棒了！

由于资源限制，学术界不再是最前沿的LLM的发源地。但至少在短期内，机器人技术让学术界和产业界的竞争环境更加公平。

硬件价格更实惠是必然趋势。给有抱负的博士生的建议：拥抱机器人，至少人没有那么多，更有空间发挥实力。

图片

不知道，接下来几个月里，机器人领域还会有怎样的惊喜等着我们。

参考资料：

https://twitter.com/GoogleDeepMind/status/1742932234892644674 https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social

https://twitter.com/zipengfu/status/1742973258528612724