Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！-51CTO.COM

1.5M参数模型就可以控制人形机器人的身体？！

英伟达高级科学家Jim Fan表示，并不是每个基础模型都需要规模庞大。我们训练了一个拥有150万参数的神经网络来控制人形机器人的身体。

来自英伟达、CMU、UC伯克利等团队提出了HOVER（Humanoid Versatile Controller），一个人形机器人通用的全身控制器。

对于人类来说，行走、保持平衡、将手臂和腿移动到期望的位置都需要大量的潜意识处理。

相应地，对于人形机器人来说，实现全身控制需要适应多种任务，比如导航、行走和桌面操作。

每种任务都需要不同的控制模式。例如，导航依赖于根速度（root velocity）或位置追踪，而桌面操作则主要关注上半身关节角度的跟踪。

现有的方法通常针对特定任务设计独立策略，这不仅使机器人开发过程重复且耗时，还限制了最终全身控制器的多功能性。

例如，使用根速度跟踪（root velocity tracking）在不平地形上进行两足行走的机器人，在需要精确双臂操作的任务中会遇到困难，因为这些任务可能需要关节角度或末端执行器跟踪。

所有这些运动控制模式都应用于同一个硬件平台，自然会引出一个问题：能否创建一个支持所有控制模式的统一控制器，以结合每种模式的优势？

这并非一个简单的挑战，因为每种模式在不同的指令空间内运行，直接集成并不可行。

然而，尽管控制接口有所不同，其底层运动目标往往是一致的：即实现稳定、类人的运动，以满足人形机器人的控制需求。

由此，Jim Fan团队提出一个关键见解：全身运动的动作模仿可以作为这些任务的共同抽象，为学习多种全身控制模式提供通用的运动技能。

在此基础之上，他们提出了HOVER（Humanoid Versatile Controller，人形通用控制器），这是一个多模式策略蒸馏框架，能够将不同的控制模式整合为一个统一的策略。

论文地址：https://arxiv.org/abs/2410.21229

HOVER支持在各控制模式之间的无缝切换，同时保留每种模式的独特优势，为人形机器人在广泛的模式下提供了一种稳健且可扩展的控制解决方案。

也就是说，Jim Fan团队在HOVER中捕捉到了一种和人类相似的「潜意识」，这种「潜意识」能够学习如何协调人形机器人的电机以支持各种运动和操作。

人形机器人的运动和操作之前只是外表看起来类人，现在有了HOVER，连底层运动逻辑都可以类人了！

HOVER能够切实地消除为每个控制模式单独重新训练策略的需求，该方法提高了未来人形机器人应用的效率和灵活性。

相比之下，HOVER支持所有的控制模式

问题定义与分析

Jin Fan团队将此问题表述为一个针对人形机器人控制的目标条件强化学习（RL）任务，并进行了人形机器人控制的指令空间设计。

指令空间包括两个主要控制区域——上半身和下半身控制——并且整合了三种不同的控制模式：

1. 运动学位置跟踪：机器人关键刚体点的目标三维位置。

2. 局部关节角度跟踪：每个机器人马达的目标关节角度。

3. 根追踪：目标根速度、高度和姿态，由横滚、俯仰和偏航角指定。

高亮的方框表示正在被跟踪的活动指令，而右侧的虚线框所示的屏蔽机制可以选择性地激活不同的指令空间，以适应各种任务需求

训练过程

「Oracle」策略

在训练HOVER策略之前，首先通过大量人类运动数据训练一个「Oracle」策略，使其能够模仿人类的全身运动。

这一过程包括设计状态空间、奖励系统以及应用域随机化来支持从仿真到现实的转换。

状态空间设计：Oracle策略的状态包括机器人身体的刚体位置、姿态、速度和上一时刻的动作历史。同时引入目标状态，用来定义参考姿态和当前状态的差异，为机器人提供详细的运动目标。

奖励设计：奖励分为三部分：惩罚、正则化以及任务奖励。具体权重和细节见下列表格，用以确保机器人能够有效地执行目标运动并减少误差。

域随机化：为了使仿真环境中学到的策略能够成功转移到现实中，对模拟环境中的物理参数进行随机化，以提高模型在现实世界中的泛化能力。

策略蒸馏与DAgger算法的应用

在训练Oracle策略后，使用「蒸馏」过程将Oracle策略中的技能转移到HOVER策略中，以使其能够实现多模式控制。

这个过程通过DAgger算法完成，该算法是一种监督学习方法，用于使学生策略的动作逐渐与Oracle策略对齐。

任务指令屏蔽：HOVER使用特定模式和稀疏性屏蔽来生成不同的任务指令模式，并通过这些屏蔽激活不同的指令空间组件，从而支持多模式控制。HOVER策略能够在上半身和下半身的控制中选择性地跟踪某些关节和运动目标。

动作对齐与优化：在每个时间步，学生策略从Oracle策略中获取目标动作，通过最小化目标动作和当前动作的差距来更新自身，从而优化策略的表现。此过程的核心是将Oracle策略的优点有效地转移到HOVER策略中，使其能够支持多种控制模式的无缝切换。

实验结果

实验主要围绕3个问题展开：

Q1：HOVER作为一种通用策略，能否在特定指令配置下表现优于其他策略？

Q2：HOVER能否优于其他多模式人形机器人控制器的训练方法？

Q3：HOVER能否迁移到真实硬件上并执行多样的多模式控制？

A1：与特定控制模式的比较

与已有研究工作中特定控制模式策略的比较

Jim Fan团队将HOVER策略在不同控制模式下的表现与相应的特定策略进行了比较。

例如，HOVER在ExBody模式下的表现通过固定屏蔽来匹配ExBody模式，并在整个数据集Qˆ上进行评估。

HOVER在各种控制模式下表现出优越的泛化能力。在每个指令模式下，HOVER至少在12项指标中的7项上优于此前工作的特定控制器，显著性指标在下表中以粗体标出。

HOVER与基线方法在数据集Qˆ上的仿真运动模仿评估

HOVER在不同控制模式中的一致优势体现了其多功能性。此外，即使仅在单一控制模式下，基于Oracle策略的蒸馏方法仍优于RL训练的特定策略。

与其他常用控制模式特定策略的比较

除了前述基线之外，Jim Fan团队还评估了四种附加模式：左手模式、右手模式、双手模式和头部模式。他们分别训练了四个RL特定策略以单独跟踪这些模式。

左手模式、双手模式、右手模式

下表的结果表明，HOVER在跟踪特定指令配置的指标上持续优于这些特定策略。

A2：与其他通用训练方法的比较

Jim Fan团队将HOVER与一种多模式RL基线进行比较，该基线采用相同的指令屏蔽过程，但从零开始以RL目标进行训练。

在下图中，他们评估了四项指标的跟踪误差：根部姿态、上半身关节角度、局部身体位置和全局身体位置，测量于八种不同模式下。

结果显示，HOVER在32项指标和模式中的跟踪误差始终较低。这一性能提升表明，从跟踪全身运动学的Oracle策略中蒸馏出通用全身控制器具有重要意义。

A3：真实环境评估

Jin Fan团队进行了定量的跟踪实验和定性的行走测试，以评估HOVER多模式控制能力。

站立运动评估

他们在真实环境中评估HOVER的性能，测试了数据集Qˆ中的20种不同站立运动。

其中两种运动在下图中有视觉示例。如下图中间所示，他们展示了根部俯仰运动的成功跟踪；在下图右侧展示了全身运动学跟踪，机器人能够跟踪高度动态的跑步运动。

下表中展示的定量指标表明，HOVER在12项指标中有11项优于特定策略。

多模式评估

Jim Fan团队还评估了HOVER在行走任务中的泛化能力。他们在操作过程中突然切换指令模式，以模拟真实场景。

如下图(a)中，HOVER成功在前进行走时从ExBody模式切换到H2O模式；

(b)中，在执行转弯和后退行走时，从HumanPlus模式切换到OmniH2O模式。

此外，他们使用Vision Pro进行了一个真实的远程操作演示，随机屏蔽了头部和手部的位置。例如，下图(c)中间，机器人在头部模式下仅跟踪人的头部位置，忽略挥动的手部动作。

结果表明，HOVER能够在不同模式下平稳地跟踪运动，展示出其在真实场景中的稳健性。

作者介绍

Tairan He

共同一作Tairan He是卡内基梅隆大学机器人研究所的二年级博士生，由Guanya Shi教授和Changliu Liu教授指导。他同时也是NVIDIA GEAR小组的成员。该小组由Jim Fan和Yuke Zhu领导。

此前，他在上海交通大学获得计算机科学学士学位，导师是Weinan Zhang。并曾在微软亚洲研究院工作过一段时间。

他的研究目标是打造能改善每个人生活质量的机器人；重点是如何为机器人构建数据飞轮，使其获得媲美人类的运动能力和语义理解能力，以及如何让机器人既能安全可靠，又能灵活适应各种环境，具备通用性和敏捷性来完成各类实用任务；采用的是随计算能力和数据规模扩展的机器学习方法。

Wenli Xiao

共同一作Wenli Xiao是卡内基梅隆大学机器人研究所（MSR）的硕士生，由Guanya Shi教授和John Dolan教授指导。

他目前在NVIDIA GEAR实验室担任研究实习生，与Jim Fan博士和Yuke Zhu教授一起研究人形机器人基础模型。

此前，他在香港中文大学（深圳）获得电子信息工程专业学士学位。