上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控 精华

发布于 2025-3-5 11:08
浏览
0收藏

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

论文链接:https://arxiv.org/pdf/2502.03206 
项目链接:https://hugwbc.github.io/

亮点直击

  • 一个扩展的通用指令空间,结合高级训练技术,以实现细粒度的人形机器人步态控制。
  • 在单一策略下(除单脚跳步态外),可精准跟踪四种不同步态下的八种不同指令
  • 一个基础的人形机器人控制器,支持外部上半身干预,并能够执行更广泛的运动-操作一体化(loco-manipulation)任务。

总结速览

解决的问题

当前的人形机器人行走系统单一、被动,缺乏可扩展性,难以实现如人类般的多样化运动(如奔跑、跳跃、单脚跳等),也无法对步态参数(步频、步幅、脚摆高度等)进行细粒度调整。此外,现有方法在执行运动任务时,缺乏对上半身控制的实时干预能力,限制了机器人在复杂任务中的适应性和灵活性。

提出的方案

提出 HUGWBC(Humanoid’s Unified and General Whole-Body Control),一个统一的全身控制策略,支持机器人生成细粒度可控的多种步态,包括行走、奔跑、跳跃、单脚跳等,并可调整步态参数(步频、脚摆高度)姿态参数(身体高度、腰部旋转、身体俯仰)。此外,HUGWBC 允许上半身接受外部控制(如遥操作),实现运动-操作一体化(loco-manipulation)

应用的技术

  • 通用指令空间设计:在任务和行为层面定义统一的控制指令,使步态调整灵活且易扩展。
  • 对称性损失(Symmetrical Loss):在学习过程中引入对称性约束,提升步态稳定性和可控性。
  • 干预训练(Intervention Training):在训练中模拟外部干预,增强机器人在实时控制下的鲁棒性和适应性。
  • 强化学习训练:在仿真环境中通过强化学习优化单一策略,使机器人能够直接适应现实环境,减少现实训练成本。

达到的效果

  • 机器人可在单一控制策略下执行多种步态(行走、奔跑、跳跃、单脚跳等)。
  • 支持步态参数姿态参数的实时调整,实现细粒度控制
  • 允许上半身遥操作,在运动过程中保持高精度操作能力。
  • 经过实验验证,HUGWBC 在跟踪精度、稳定性、鲁棒性方面均表现优异,并深入分析了不同指令组合对步态的影响,为优化机器人运动控制提供了新思路。

HUGWBC

人形机器人运动的一般指令空间

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

HUGWBC 通过训练单一策略来适配站立、行走和跳跃步态,而单脚跳跃步态则采用了独立的策略。

详细观察

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

如果没有外部上半身控制信号,机器人上半身关节将默认由我们开发的全身控制器控制,使手臂自然摆动。

策略学习的奖励设计

具身全身控制器是通过非对称的行为者-评论家训练范式通过强化学习 (RL) 获得的。为了学习具有一般性和多样性行为的政策,我们设计了一组奖励函数,主要由任务奖励、行为奖励和规范化奖励三部分组成。奖励的细节在表1中总结。

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

 

任务奖励意味着跟踪任何任务命令 k,在这项工作中,它是目标速度 v,包括线性和角速度。正规化奖励考虑到物理硬件的性能,并对运动的平稳性和安全性施加限制。这些在以前的工作中经常使用 [39]。

在这项工作中,由于我们想建立一个通用的全身控制器,以支持细粒度的运动行为的人形机器人,引入了一套行为奖励,以鼓励机器人跟踪任何行为命令 b,如下所示。对于大多数行为指令,包括身高 h、身高 p 和腰围旋转 w,简单地用均方差 (MSE) 来制定奖励:

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

一个理想的足部轨迹通常需要满足三个关键标准:

  1. 在支撑阶段,足部速度和加速度为零;
  2. 在摆动阶段末尾,足部速度和加速度为零;
  3. 在两个阶段之间的过渡过程中,足部的速度和加速度要连续。

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

镜像功能与对称损失

自然且对称的运动行为是人类通过学习逐渐掌握的,因为它在最小化能量消耗方面具有固有的优雅和效率。类人机器人具有高度仿生的机制,也具有对称的结构特征。然而,缺乏先验知识,使得政策难以探索对称形态信息,尤其是在生成多样化行为的策略中。这使得初期探索变得更加困难,政策容易陷入局部最优解,导致不自然的运动。为了利用这种形态对称性并受到[49]的启发,提出了镜像函数F(.) ,以鼓励政策生成对称且自然的运动。在这样的对称结构下,理想情况下,政策输出应满足:

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

整体训练目标。HUGWBC 采用非对称演员-评论家框架 ,以 PPO 作为 RL 算法来训练全身控制策略。因此,总体训练目标可以写作:

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

外部上肢干预训练

到目前为止,已经学习了一个全身控制器,它共同控制上下肢。然而,本工作的目标不是专门为 locomotion 任务设计的控制器,而是构建一个统一且通用的人形控制器,作为 loco-manipulation 任务的基础支持。换句话说,控制器还应支持灵活且精确的上肢(手臂和手)控制。与一些以前的工作通过上肢命令(例如,手臂关节位置)扩展命令空间不同,考虑将上肢控制解耦为外部控制干预,通过远程操作信号或重新定向的运动关节,同时不影响下肢步态,因为下肢具有很高的控制精度。解决方案是在训练过程中采样替代动作来替换全身策略产生的上肢动作,使得策略对任何干预都具有鲁棒性。

切换全身控制与干预

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

干预采样

人形机器人上肢的干预动作从均匀噪声中采样,引入与身体发生碰撞的潜在可能,模拟外部干预中的错误操作。

噪声干预插值

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

课程学习

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

实验

本节在仿真和现实世界的机器人上进行全面实验,以回答以下问题:

  • Q1(仿真):HUGWBC策略在不同命令下的跟踪表现如何?
  • Q2(仿真):如何合理地结合一般命令空间中的各种命令?
  • Q3(仿真):大规模噪声干预训练如何帮助策略的鲁棒性?
  • Q4(现实):HUGWBC在现实世界中的表现如何?

机器人与仿真器

本文的主要实验是在Unitree H1机器人上进行的,该机器人共有19个自由度(DOF),包括两个3自由度的肩关节、两个肘关节、一个腰关节、两个3自由度的髋关节、两个膝关节和两个踝关节。仿真训练基于NVIDIA IsaacGym仿真器。

命令分析原理与度量

本文的一大贡献是扩展并普及了人形机器人通用的命令空间。重点关注命令分析(涉及Q1和Q2)。这包括单一命令跟踪误差的分析,以及在不同步态下不同命令的组合分析。为了进行分析,我们评估了平均的单集命令跟踪误差(记作Ecmd),该误差衡量实际机器人状态与命令空间之间的偏差,使用一阶范数。所有命令都在预定义的命令范围内均匀采样,如下表II所示。

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

单一命令跟踪

首先分析每个命令单独的跟踪效果,同时保持其他命令的默认值。结果见下表III。可以明显看到,行走和站立的跟踪误差显著低于跳跃和跳跃的误差,且跳跃的误差最大。对于跳跃步态,机器人可能在跟踪特定命令时发生跌倒,比如高速跟踪、身体俯仰和腰部偏航控制。这可以归因于跳跃需要较高的稳定性。此外,复杂的姿势和运动进一步加剧了不稳定的风险。因此,策略优先学习保持平衡,在一定程度上牺牲了命令跟踪的准确性。

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

得出结论,每种步态的跟踪准确度与该步态在仿真中的训练难度相一致。例如,行走和站立模式可以在训练初期学习,而跳跃和跳跃步态则较晚出现,需要较长时间的训练,才能让机器人熟练掌握。类似地,低速度下的机器人跟踪准确性显著高于高速度下的跟踪准确性,因为1)低速下的运动技能较易掌握;2)机器人在高速下的动态稳定性下降,导致与跟踪准确性的权衡。我们还发现,纵向速度命令的跟踪准确度超过了横向速度命令,这是由于选定的Unitree H1机器人硬件配置的限制。此外,脚摆高度的跟踪准确性最低。与姿态控制相关的跟踪奖励优于与足底位置控制相关的跟踪表现,因为调整姿势带来了更大的稳定性挑战。为此,策略采用更加保守的动作,以减轻可能威胁平衡的姿势变化。

命令组合分析

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

行走行走是最基本的步态,它保留了机器人硬件的最佳表现。

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

跳跃

跳跃中的命令正交性与行走类似,但整体正交范围较小,原因在于跳跃步态的挑战性增加,尤其是在高速运动模式下。在每个步态周期中,机器人必须显著向前跳跃以保持速度。为了连续执行这一复杂的跳跃动作,机器人必须在每个周期的开始采取最佳姿势。两条腿施加大量扭矩将身体向前推进。着陆后,机器人必须快速调整姿势以保持稳定,并重复这一过程。因此,在运动过程中,机器人只能在相对狭窄的范围内执行其他命令。

跳跃步态

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

跳跃

跳跃步态引入了更多的不稳定性,机器人的控制系统必须更加关注保持平衡,这使得同时处理复杂的多维命令变得困难。

站立

在站立步态中,我们测试了与姿势相关的命令跟踪误差。结果表明,这些跟踪误差与行走过程中零速度的跟踪误差类似。

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

得出结论,步态频率f在过高或过低时会显著影响运动命令的跟踪准确性;姿势命令尤其在接近范围极限时,可以显著影响其他命令的跟踪误差。对于不同步态,命令之间的正交性范围在行走步态中最大,而在跳跃步态中最小。

干预训练策略的消融研究

为了验证干预训练策略在外部上半身干预下对策略鲁棒性的有效性,我们比较了使用不同策略训练的策略,包括噪声课程(HUGWBC)、过滤后的AMASS数据和无干预的策略。测试了在两种不同干预任务下的跟踪误差,即均匀噪声、AAMAS数据集,以及无干预设置。行走步态下的结果显示在表IV中,其他步态的结果见附录C-B。显然,HUGWBC的噪声课程策略在几乎所有测试案例下都表现最佳,除了在无干预情况下与姿势相关的跟踪。在具体分析中,HUGWBC在各种干预下的跟踪准确性下降较少,表明我们的噪声课程干预策略使控制策略能够应对大范围的手臂运动,非常适用于和支持运动操作任务。相比之下,使用AMASS数据训练的策略在均匀噪声干预下,因训练数据中运动的局限性,跟踪准确性显著下降。而没有任何干预的策略仅在没有外部上半身控制时表现良好。


值得注意的是,当涉及干预训练时,与脚部和运动相关的跟踪误差也比没有干预训练的策略更好,而HUGWBC提供了最准确的跟踪。这表明干预训练也有助于提高策略的鲁棒性。在我们的真实机器人实验中,我们进一步观察到,当机器人与地面接触时,它表现出更大的接触力,这表明当涉及干预时,运动规则化和跟踪准确性之间可能存在一定的权衡。

站立步态下的稳定性

在站立状态下调整姿势引入了额外的稳定性要求,因为机器人保持平衡的步态可能会增加完成需要静止站立的操作任务的难度。为了研究噪声课程对操作任务的必要性,我们进一步测量了在站立步态下的平均脚部位移(以米为单位),该值计算了机器人在一次循环(20秒)中双脚的总运动量,同时跟踪姿势行为命令。表V中的结果显示,HUGWBC展现了最小的脚部位移。相比之下,使用AMASS数据训练的策略则需要频繁的小步调整姿势并维持稳定,以应对噪声干预。没有干预训练的策略在涉及干预时,机器人容易倾斜,导致整个任务失败。

外部干扰的鲁棒性

最后,测试了干预训练和噪声课程对外部干扰鲁棒性的贡献。特别是,我们评估了机器人在八个方向上的最大容忍外部干扰力,并与未经过干预训练的策略进行了比较。图6中的结果表明,HUGWBC在大多数方向上的推挤和加载场景中,都表现出了更强的外部干扰容忍力。这背后的原因是干预使得机器人暴露于来自上半身的各种干扰,从而通过动态调整腿部力量来增强整体稳定性。

真实世界实验

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

上交&上海AI lab发布HUGWBC,实现人形机器人多模态步态精细调控与实时操控-AI.x社区

结论与局限性

本文提出了一种统一且通用的人形全身控制器HUGWBC。通过扩展命令空间和干预训练,HUGWBC能够实现精细的步态控制,同时支持外部上半身控制,这使其成为广泛的运动操作任务的基础控制器。未来的工作可以采用HUGWBC来控制各种人形机器人,或将HUGWBC训练出的策略作为统一的低级控制器,构建一个高级规划器来实现复杂任务。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/p-ELqpK-9LCKS2FZF5B8wg​

收藏
回复
举报
回复
相关推荐