李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!遥操只需Switch手柄

人工智能 新闻
斯坦福李飞飞团队在「保姆型」机器人上新突破!提出BRS综合框架,以后机器人执行日常家务更自主、更可靠。

对人类来说轻而易举的事,对机器人来说很难。

机器人能做家庭管家,照顾好一家人吗?要做「家庭管家」,机器人真正需要什么技能?

最近,来自斯坦福的李飞飞团队,提出了一种一个面向多样化家庭任务的全身操作综合框架——「行为机器人套件」(𝗕𝗘𝗛𝗔𝗩𝗜𝗢𝗥 𝗥𝗼𝗯𝗼𝘁 𝗦𝘂𝗶𝘁𝗲,𝗕𝗥𝗦)。

从倒垃圾、整理衣物再到刷马桶——𝗕𝗥𝗦让机器人能够应对实际的日常任务。

图片

论文链接:https://arxiv.org/abs/2503.05652

要实现全身操控,精心设计的机器人硬件至关重要,包括双臂、移动底座和灵活躯干

然而,这种复杂的设计也给策略学习带来了难题,尤其是在扩大数据收集规模精准建模协调的全身动作以适应复杂的真实环境方面。

为此,团队制作了这款基于配备4自由度(DoF)躯干的双臂轮式机器人,并通过两大核心创新同时解决硬件和学习难题:

  1. JoyLo:一个经济高效的全身遥操作界面(用于数据收集)
  2. WB-VIMA:一个专门用于学习全身视觉运动策略的创新算法

图片

李飞飞称,机器人学习领域的「圣杯」之一,是执行可泛化的日常家庭移动操作任务。

借助新型双手移动机器人,我们最新研发的BEHAVIOR机器人套件(BRS)向这一极其困难、尚未解决的难题发起了挑战!

图片

难题:末端执行器的可达性

大多数人认为,机器人必须具备移动性并配备双臂,才能有效完成日常家务。

然而,经常忽视另一项关键能力:末端执行器的可达性

  1. 家中的物品摆放高度和位置各不相同,机器人需要根据情况调整其可达范围(见下方分布图)。
  2. 具备双臂、轮式底盘以及灵活躯干的机器人,非常有可能解决这一问题,但也带来了更高的复杂性。
  3. 这种复杂性给视觉-运动策略学习带来了重大挑战,尤其是在扩大数据收集规模和精准建模协调的全身动作以适应真实场景时。

图片

高度和距离对机器人的影响

数据收集

为了解决数据收集的难题,团队推出了JoyLo——一种利用常见硬件(Nintendo Switch手柄)实现全身控制的经济高效接口!

图片

通过将Switch手柄安装在3D打印的引导臂上,JoyLo让用户能够直观且精准地操控机器人的全身动作。

例如,它可以帮助用户协调复杂的全身运动(比如弹吉他),提供丰富的触觉反馈,并生成高质量的示范数据,这些对于视觉-运动策略学习至关重要。而且,它的成本低廉,使用门槛也很低。

模型学习

学习难题则由负责WB-VIMA解决,这是一种专门用于精准建模全身协调动作的新算法。

研究人员发现,在人形机器人上,移动底座或躯干的轻微误差会被放大,最终影响机器人末端执行器的精准度。

WB-VIMA是一种模仿学习算法,专门用于建模机器人的全身动作,并充分利用其固有的运动学层级结构。

核心思路是机器人各关节之间存在强关联性——上游部位(如躯干)的微小动作,可能会导致下游部位(如末端执行器)发生较大位移。

因此,为了确保所有关节的精准协调,WB-VIMA采用层级条件预测方式,即:下游部位的动作预测基于上游部位的动作,从而实现更同步的全身运动。

WB-VIMA采用自回归方式在整个机器人结构中依次解码动作:

  1. 首先预测移动底座的动作
  2. 再根据底座的预测动作来调整躯干的动作
  3. 最后在底座和躯干动作的基础上,预测手臂的动作

此外,WB-VIMA通过自注意力机制,动态整合多模态感知信息,从而提升系统的鲁棒性适应性

图片

实验

受BEHAVIOR-1K中定义的日常活动启发,研究团队选择了具有代表性的家庭任务来展示BRS的能力,包括以下五项家务:

  1. 把垃圾带到外面
  2. 把物品放到架子上
  3. 摆放衣物
  4. 清洁马桶
  5. 在狂欢派对后打扫房间

这些任务需要3个关键的全身控制能力:双手协调、稳定精确的导航以及机械臂末端执行器的广泛可达性。

所有任务都在真实世界的未经改造的环境中进行,使用人类日常接触的物品。

这些任务都是长期任务,人类操作员使用JoyLo完成这些任务需要60至210秒不等。

由于这些活动的多阶段性质,每个任务都被划分为多个子任务「ST」(SubTask)。

BRS让机器人成功完成了这些多样化的家务任务,并且新算法WB-VIMA在所有测试中稳定超越基准方法(详见下方结果)。

图片

接下来的有策略执行的视频,快来看看吧!

BRS支持各种家庭活动

任务1:倒垃圾

对机器人而言,完成倒垃圾的最关键的能力稳定和精确的导航。

机器人首先找到客厅的垃圾袋,然后完成下列子任务(括号数字表示执行顺序):拾起(ST-1),搬运至关闭的门前(ST-2),打开门(ST-3),移动至室外,并将垃圾袋放到垃圾箱(ST-4)。

图片

任务2:将物品摆放至货架

在储物室中,机器人从地面抬起一个箱子(ST-1),找到四层货架,并将箱子放到合适的位置(ST-2)。

机械臂末端执行器的广泛可达性是完成该任务最关键的能力。

图片

任务3:整理衣物

在卧室中,机器人找到衣柜,打开衣柜(ST-1),取下衣架上的外套(ST-2),将外套平整地展开在沙发上(ST-3),随后返回关闭衣柜(ST-4)。

双手协调能力是完成该任务最关键的能力。

图片

任务4:刷马桶

在卫生间中,机器人拿起放置在已关闭马桶上的一块海绵(ST-1),掀开马桶盖(ST-2),清洁马桶圈(ST-3),合上马桶盖(ST-4),并开始擦马桶盖(ST-5),随后机器人前往冲水按钮处按下冲水键(ST-6)。

这里,机械臂末端执行器的广泛可达性是完成该任务最关键的能力。

图片

任务5:狂欢派对后的房屋清理

从客厅出发,机器人导航至厨房的洗碗机前(ST-1)并打开洗碗机(ST-2)。

随后前往娱乐桌处(ST-3)收集遗留的碗具(ST-4)。

最后,机器人返回洗碗机前(ST-5),将所有碗具放入并关闭洗碗机(ST-6)。

这里,稳定和精确的导航能力是完成该任务最关键的能力。

图片

JoyLo的使用反馈

JoyLo不仅高效、用户友好,而且能为策略学习提供高质量数据。

研究人员对10名参与者进行了深入的用户研究,以评估JoyLo的有效性及其所收集数据对策略学习的适用性。

研究人员将JoyLo与两个主流的基于逆向运动学(Inverse kinematics,IK)的界面进行对比:VR控制器和Apple Vision Pro。

为防止对机器人或环境造成潜在损害,研究在OmniGibson模拟器中进行,并选用「狂欢派对后的房屋清理」作为测试任务。

研究人员通过测量成功率(↑,越高越好)和完成时间(↓,越低越好)来评估效率,同时通过重放成功率(↑)和奇异性比率(↓)来评估数据对策略学习的质量。

其中,「成功率」指遥操作试验的成功比例,而「重放成功率」则衡量已收集的机器人轨迹在开环执行时的成功程度。

这种评估对于随机环境中的长期任务来说尤具挑战性。较高的重放成功率表明数据质量可靠,使得模仿学习策略可以直接对收集的轨迹进行建模,而无需考虑具身化或运动学不匹配问题。研究人员同时报告了整体任务(「ET」)和各子任务(「ST」)的结果。

图片

如上图所示,JoyLo在所有界面中取得了最高的成功率和最短的完成时间。

使用JoyLo完成整体任务的平均成功率是VR控制器的5倍,而使用Apple Vision Pro的参与者则无一人能完成整体任务。

使用JoyLo的中位完成时间比使用VR控制器缩短了23%。

在需要精确操作的铰接物体操作方面,JoyLo表现尤为突出。

此外,JoyLo始终提供最优质的数据,这一点体现在仅有使用JoyLo收集的数据能在开环中成功重放并完成复杂任务。这是因为JoyLo产生的奇异性比率最低,比VR控制器低78%,比Apple Vision Pro低85%。

图片

所有参与者均认为JoyLo是最用户友好的界面。

有趣的是,虽然70%的参与者最初认为基于IK的界面会更直观,但在研究结束后,他们一致选择了JoyLo。

这种转变凸显了台面操作任务与移动全身操作在数据收集方面的关键差异——参与者普遍反映使用基于IK的方法难以有效控制移动底座和躯干部分。

WB-VIMA家务水平完全超越基线

在基准比较中,研究人员选取了DP3和基于RGB图像的扩散策略模型(「RGBDP」)作为对照。

研究人员同时将人类遥操作成功率作为参考标准,并追踪安全违规情况(包括机器人碰撞或因过度受力导致的电机功率损失)。

每种策略模型均对每项活动进行15次评估。在评估过程中,若某个子任务(「ST」)失败,研究人员会将机器人和环境重置至后续子任务的初始状态并继续评估。

此外,研究人员还报告了整体任务(「ET」)的成功率,用以表征策略模型完成端到端活动的能力。

图片

图片

如上图所示,WB-VIMA在所有任务中的表现始终优于基准方法DP3和RGB-DP。

就端到端任务成功率而言,WB-VIMA比DP3高出13倍,比RGB-DP高出21倍。

基准方法仅能完成部分子任务和相对简单的「将物品摆放至货架」任务,但在更复杂的任务中均告失败。

在平均子任务表现方面,WB-VIMA的性能比DP3高出1.6倍,比RGB-DP高出3.4倍。

基准方法失败的根本原因在于它们无法预测准确且协调的全身动作。

DP3和RGB-DP都直接预测扁平化的21自由度(DoF)动作,而忽视了动作空间中的层级依赖关系。这种方法存在问题,因为即使是训练充分的策略模型,也会出现建模误差。

如果这些误差出现在移动底座或躯干动作的预测中,由于所有组件都是同时预测且相互独立的,这些误差就无法通过手臂动作来修正。

全身控制涉及多个铰接部件,这意味着不准确的全身动作会导致任务空间中的末端执行器偏移被放大,使机器人进入分布外(out-of-distribution)状态,最终导致操作失败。

图片

图片

图片

图片

图片

图片

WB-VIMA各组件对任务性能的影响分析

研究人员对WB-VIMA的两个变体进行了消融实验(ablations tudies):

  1. 第一个变体移除了自回归全身动作去噪(autoregressive whole-body action denoising)模块,
  2. 第二个变体移除了多模态观察注意力(multi-modal observation attention)机制。

图片

如上图所示,移除任一组件都会导致系统整体性能显著下降。

特别是在「将物品放置到架子上」任务和「整理衣物」中的首个子任务「打开衣柜」中,协调的全身动作对任务成功起着决定性作用。

具体而言,移除自回归全身动作去噪模块会导致性能严重下降,降幅最高达到53%。同样,移除多模态观察注意力机制也会导致所有任务的性能下降。

总体而言,WB-VIMA 在复杂的真实家庭任务中的出色表现,主要得益于两个方面的协同作用:一是连贯且协调的全身动作预测能力,二是从多模态观察中有效提取任务相关特征的能力。

整体系统能力的深度分析

尽管BRS在各类家庭任务中表现出色,但还有哪些深入见解可以指导未来的技术进步?

研究人员重点强调两个关键发现。

首先,4自由度(DoF)躯干和移动底座显著提升了机器人的运动灵活性,这是固定机械臂难以具备的特性。

如下图所示,这种优势在需要协调全身运动的铰接物体交互任务中尤为突出,例如在「倒垃圾」任务中的「开门」环节,以及「狂欢派对后的房屋清理」任务中的「打开洗碗机」环节。

为了开启未经改装的门,机器人习得了一种策略:在推进移动底座的同时前倾躯干,这样在抓住门把手后能产生足够的惯性来解锁铰链并推开门。

同样,在打开洗碗机时,机器人通过向后移动底座,协调利用全身来平稳地拉开洗碗机门。

图片

图片

图片

此外,研究人员观察到机器人掌握了从失败中恢复的能力。

如下方视频所示,当机器人在打开衣柜门时发现一扇门未能完全打开,它会主动后退一段距离,重新尝试开门动作,最终成功完成任务。

类似地,当机器人因手臂够不着而无法关闭马桶盖时,它会通过向前倾斜躯干来缩短与马桶的距离。随后,机器人重新尝试,成功抓取马桶盖并平稳地将其关闭。

图片

图片

失败案例分析

研究人员展示了经过训练的WB-VIMA策略模型的若干失败案例,具体包括:

  1. 机器人虽已成功抓住把手,但未能完全打开洗碗机;
  2. 未能成功按下冲水按钮;
  3. 未能从地面上成功拾取垃圾袋;
  4. 未能成功搬起地面上的箱子;
  5. 未能成功关闭衣柜门。

图片

图片

图片

图片

图片

结论

研究人员提出了BRS全身机器人综合性框架,致力于学习全身操作技能以应对多样化真实家庭任务。

研究人员识别了执行家庭活动所必需的全身控制三个核心能力:双手协调能力、稳定精确的导航能力以及广泛的末端执行器可达性。

要通过基于学习的方法使机器人成功掌握这些能力,需要同时克服数据收集算法建模两大领域的挑战。

整体而言,BRS系统在多项真实家庭任务中展现出卓越性能,能够在自然、非结构化环境中与未经改装的物体进行有效交互。

研究人员相信,BRS是实现机器人以更高自主性和可靠性执行日常家务的重要一步。

责任编辑:张燕妮 来源: 新智元
相关推荐

2023-11-10 12:58:00

模型数据

2023-07-11 10:07:10

机器人智能

2025-02-25 10:32:10

2024-04-28 09:15:22

人工智能人形机器人

2022-10-17 15:35:32

人形机器人机器人

2023-03-28 07:49:38

2024-09-03 14:30:00

机器人模型

2025-02-05 09:02:49

2021-04-21 14:15:08

机器人AI人工智能

2024-07-30 07:14:20

NVIDIA NIMNVIDIA

2025-02-05 10:37:27

2024-12-25 11:30:43

2025-02-21 10:14:59

2021-11-18 14:23:22

机器人人工智能AI

2022-11-02 16:28:03

人工智能机器人

2024-11-04 14:35:00

AI机器人
点赞
收藏

51CTO技术栈公众号