加州大学最新！CrossFormer：适用于操作、导航、运动的统一策略-51CTO.COM

原标题：Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

论文链接：https://arxiv.org/pdf/2408.11812

项目链接：https://crossformer-model.github.io/

代码链接：https://github.com/rail-berkeley/crossformer

作者单位：加州大学伯克利分校卡内基梅隆大学

论文思路：

现代机器学习系统依赖于大规模数据集来实现广泛的泛化，而这在机器人学习中往往是一个挑战，因为每种机器人平台和任务可能只有一个小数据集。通过在多种不同类型的机器人上训练单一策略(single policy)，机器人学习方法可以利用更广泛和多样化的数据集，从而实现更好的泛化和鲁棒性。然而，在多机器人数据(multi-robot data)上训练单一策略具有挑战性，因为机器人可能具有截然不同的传感器、执行器和控制频率。本文提出了CrossFormer，一种可扩展且灵活的基于Transformer的策略，能够处理来自任何实体(embodiment)的数据。本文在迄今为止最大和最具多样性的数据集上训练了CrossFormer，该数据集包含了来自20种不同机器人实体的90万条轨迹。本文展示了相同的网络权重可以控制截然不同的机器人，包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人。与以往的工作不同，本文的模型不需要手动对齐观测空间或动作空间。大量现实世界中的实验表明，本文的方法不仅能匹配为每个实体量身定制的专用策略的性能，还显著超越了现有的跨实体学习(cross-embodiment learning)的最先进方法。

论文设计：

近年来，机器学习的许多成功都得益于在日益多样化和多任务数据上训练通用模型。例如，视觉和语言任务，曾经由特定任务的方法处理，如今通过通用的视觉-语言模型能够更有效地完成，这些模型可以在任务之间迁移知识 [1, 2, 3, 4]。类似地，在机器人领域，最近的数据聚合工作 [5] 使得可以在跨多个实体、任务和环境的机器人数据上训练通用策略(general-purpose policies)。这些通用策略通过迁移视觉表示和技能，能够超越那些仅使用目标机器人和任务数据训练的狭窄策略(narrow policies) [6, 5]。除了正迁移(positive transfer)带来的好处之外，训练通用的跨实体策略还减少了为每个机器人设计和调整策略架构所需的工程工作量。

然而，训练通用的机器人策略具有独特的挑战性，因为机器人系统在相机视角、本体感知输入(proprioceptive inputs)、关节配置、动作输出和控制频率等方面可能存在极大的差异。最初在大规模跨实体策略训练上的努力通常局限于单一的机械臂或地面导航机器人，这些机器人可以通过单一的相机视角和基座或末端执行器的相对航点动作进行控制 [5, 6, 7, 8]。要进一步增加这些策略所能控制的实体的多样性，就需要一种支持任意数量的相机视角或本体感知观测，以及预测任意维度动作的模型架构。遵循以往的工作，本文采用了顺序建模的方法来进行跨实体模仿学习 [9, 10]。本文提出了一种基于Transformer的策略，通过将输入和输出转换为序列来支持可变的观测和动作。本文将这一方法扩展到目前为止能够用单一策略控制的最为多样化的实体集，包括单臂和双臂机器人、地面导航机器人、四旋翼飞行器和四足机器人。

通过本文的Transformer策略，本文可以通过简单地将观测数据 tokenizing 并排列成序列，来训练具有任意数量相机视角或本体感知传感器的机器人数据。同时，本文可以预测任意维度的动作，关键是无需手动对齐不同实体的动作空间 [8]。对于每种动作类型，本文将一组动作读取tokens(action readout tokens)插入到输入 token 序列中。然后，本文将相应的输出嵌入传递到特定于动作空间的头部，以生成正确维度的向量。本文的策略可以接受以语言指令或目标图像形式呈现的任务，使用户能够选择最适合特定实体的任务模式。

本文的主要贡献是一种跨实体的机器人策略，该策略在迄今为止最大、最具多样性的机器人数据集上训练完成，包含90万条轨迹和20种不同的实体。本文的策略能够控制具有不同观测和动作类型的机器人，从具有本体感知传感器和12个关节的四足机器人，到配备3个相机和14个关节的双臂机器人。在大量的现实世界实验中，本文发现本文的策略能够匹敌仅在目标机器人数据上训练的相同架构的性能，以及在每种设置中表现最佳的现有方法，这表明本文的架构能够吸收异构的机器人数据而不会产生负迁移，同时在性能上可以媲美为每个机器人量身定制的最先进的专用方法。此外，本文还发现，本文的方法在跨实体学习中优于现有的最先进方法，同时减轻了手动对齐观测空间和动作空间的需求。

在多种实体的机器人学习中，主要挑战在于处理观察空间和动作空间的巨大差异，以及控制频率和机器人系统其他方面的差异。机器人系统可能具有不同数量的相机视角或本体感知传感器，并且可能通过多种不同的动作表示进行控制，包括关节角度、笛卡尔坐标位置和电机扭矩。为了将数据标准化为统一的格式，以往一些关于跨实体策略训练的工作忽略了某些观察类型（例如操作中的腕部视角或第三人称视角）[5, 7]，或在机器人之间对齐了动作空间[8]。而本文则遵循其他相关研究[9, 10, 6]，将跨实体模仿学习视为一个序列到序列的问题，并选择了基于Transformer的策略架构，以处理长度可变的序列输入和输出。

由于Transformer策略的序列化特性，本文可以将每种实体的所有可用观察类型编码为一个扁平的序列。同样地，这种方法允许本文解码可变长度的动作，使本文能够为每种实体使用最佳的动作类型。利用这种灵活的输出方式，本文还可以预测不同大小的动作块。动作块化（Action Chunking）[48, 47, 49]能够提高动作的时间一致性，并减少累积误差，这对于高频率的精细操作尤为重要。结合Transformer骨干网络和动作块化技术，本文的策略能够控制从使用20Hz关节位置控制的双臂ALOHA系统，到使用5Hz二维航点控制的地面和空中导航机器人等多种机器人。

从总体上看，本文的Transformer策略遵循了以往在多模态数据上训练Transformers的研究[9, 10, 6]。具体来说，观察数据和任务规范首先通过特定模态的分词器进行分词处理，然后组装成一个token序列，并输入到一个因果性的、仅解码器的Transformer骨干网络中，这个网络在所有实体之间共享。接下来，输出的嵌入向量会被输入到为每类实体设计的独立动作头中，以生成对应维度的动作。有关本文架构的概览，请参见图2。接下来，本文将更详细地描述本文的训练数据以及架构的各个组成部分。

图1：本文介绍了CrossFormer，这是一种基于Transformer的策略，经过在90万条多样化、多实体机器人数据轨迹上的训练，能够控制截然不同的机器人，包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人，同时在性能上匹敌针对每个实体的专用策略，并在跨实体学习中优于以往的工作。

图2：策略架构。本文的架构通过Transformer主干网络实现跨实体策略学习。本文的策略通过将图像和本体感知信息 tokenizing 来接收可变的观测输入，通过动作读取tokens(action readout tokens)预测可变的动作输出，并基于语言指令或目标图像进行条件判断。

实验结果：

图3：训练数据组合。本文将训练数据中的20种实体分为不同类别，并可视化它们在数据组合中的贡献。饼图显示了每个训练批次中基于采样权重的平均组成情况。

图4：评估设置。本文的任务包括单臂操作设置、灵巧和双臂任务设置、导航以及航空任务。详细分类请参见第4节。

图5：实际评估。本文将CrossFormer与仅在目标机器人数据上训练的相同架构进行比较，同时也与在目标机器人数据上表现最佳的现有方法进行对比。

图6：与Yang等人[8]的比较。本文将CrossFormer与Yang等人[8]的方法进行比较，该方法对导航和操作任务的动作进行对齐，并且一次只使用单一相机视角。CrossFormer在整体表现上优于Yang等人[8]三倍，无论是在使用第三人称相机视角进行的桌面操作任务上，还是在常见的导航任务中，均表现出色。

总结：

本文引入了CrossFormer，这是一种可扩展且灵活的Transformer策略，基于迄今为止最大且最为多样化的数据集进行训练，包括20种不同机器人实体的90万条轨迹。本文展示了一种系统化的方法来学习单一策略，该策略能够控制截然不同的实体，包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人。本文的结果表明，CrossFormer的表现与专门针对单一实体的策略相媲美，同时在跨实体学习中显著优于当前的最先进方法。

然而，本文的工作也存在一些局限性。本文的结果尚未显示出在不同实体之间的显著正迁移效应。本文预计，随着本文在更大、更具多样性的机器人数据集上进行训练，本文将看到更大的正迁移效应。另一项局限性是，本文的数据组合使用了人工挑选的采样权重，以避免在包含大量重复情节的数据集上过度训练，或在与本文的评估设置最相关的数据上训练不足。原则上，随着模型规模的扩大，策略应具备同等良好地拟合所有数据的能力，而无需进行数据加权。

最后，由于本文需要大型模型来适应大规模的多机器人数据集，模型的推理速度可能成为一个限制因素。在本研究中，本文成功地将本文的策略应用于高频率、细粒度的双臂操作任务中，但随着模型规模的扩大，本文可能无法控制这些高频率的实体。未来的硬件改进将有助于缓解这一问题，但在如何利用大型模型来控制高频率机器人方面仍需进一步研究。

未来的工作还可以包括探索技术以实现更大的跨实体正迁移，同时保持本文架构的灵活性、改进数据管理技术，并引入更多样化的数据源，如次优的机器人数据或无动作的人类视频。本文希望这项工作能够为开发更通用且灵活的机器人策略打开大门，使其能够有效地从在不同机器人实体上收集的经验中学习并迁移知识。