本文来自国防科技大学智能图形计算团队,主要研究方向包括智能图形学、具身智能、机器学习、三维视觉等。团队拥有多名国家级人才,在国际上较早开展了数据驱动三维感知、建模与交互工作,发表TOG/TPAMI/TVCG等A类论文200余篇,获得湖南省自然科学一等奖、中国计算机学会自然科学一等奖、军队科技进步奖、军队教学成果奖、湖南省优秀研究生导师团队等。
在机器人研究领域,抓取任务始终是机器人操作中的一个关键问题。这项任务的核心目标是控制机械手移动到合适位置,并完成对物体的抓取。近年来,基于学习的方法在提高对不同物体的抓取的泛化能力上取得了显著进展,但针对机械手本身,尤其是复杂的灵巧手(多指机械手)之间的泛化能力仍然缺乏深入研究。由于灵巧手在不同形态和几何结构上存在显著差异,抓取策略的跨手转移一直存在挑战。
为了解决这个问题,来自国防科技大学和深圳大学的研究者提出了一种新颖的策略学习方法。通过利用对不同灵巧手的一致性表征设计,以及分离灵巧手高层运动生成和低层关节控制,该方法实现了将在一个灵巧手上训练的策略以低代价迁移到其他灵巧手,并同时保持抓取性能和对物体的泛化性。
- 论文标题:Learning Cross-hand Policies of High-DOF Reaching and Grasping
- 论文地址:https://arxiv.org/abs/2404.09150
- 项目主页:https://qijinshe.github.io/IBS-Retargeting.github.io/
该工作的创新点主要有以下部分:
运动和控制分离的层次化框架:将高层次的抓取运动预测与低层次的关节控制分离开来,通用的策略负责规划灵巧手整体的运动,专用的控制模块负责将运动转化为对特定机械手关节的控制,这一设计提高了模型在多种灵巧手上的适应性;
手无关的状态和动作表示:提出了一种通用的表示方法,这种表示结合了灵巧手间通用的关键点以及侧重刻画手和场景交互的几何特征,分别避免了灵巧手结构和几何差异对策略泛化带来的影响,使其能够在不同的机械手之间转移,无需针对每个机械手单独训练策略模型;
基于 Transformer 的策略网络结构设计:通过注意力机制,模型能够在各种灵巧手上整合不同手指和表示的信息,并使其适用于不同手指数量的灵巧手,进一步提高了抓取策略的泛化能力。
相关工作
静态抓取生成:现有的抓取生成技术可以分为分析法和数据驱动法。分析法通过采样或优化技术寻找确保物理稳定性的抓取姿态,尽管适用于不同抓手的抓取规划,但运行速度较慢 [1]。数据驱动法直接根据物体特征预测抓取姿态,运行速度快,但是缺乏对机械手本身的泛化性。为了跨越不同机械手,一些改进方法通过预测接触点并结合逆运动学 [2] 或强化学习 [3] 生成抓取姿态, 其他方法如 AdaGrasp [4] 和 GenDexGrasp [5] 则通过接触图(contact map)进行抓取预测。然而,这些方法主要关注最终抓取姿态,缺少对整个抓取过程的规划调整。
运动重定向:运动重定向用于将一个实体的动作转移到另一个实体,可分为基于学习的方法和启发式方法。学习法将其视为序列生成问题 [6][7],启发式方法通过匹配关节或关键点计算目标机器人的姿态 [8]。在抓取任务中,已有一些方法将人手动作实时转移到灵巧手上来收集灵巧手的运动轨迹 [9]。然而,由于动态环境中的误差,重定向动作的可复现性仍然是挑战,因此通常仅用作策略训练中的数据[10]。
动态策略转移:一些研究通过将机器人形态结构信息整合到策略中,实现了机器人步态控制的策略转移 [11]。用图神经网络 [12] 或 Transformer [13] 来编码机器人组件之间的连接和关系被验证是提高策略对机器人本体结构泛化能力的有效方法。然而,在灵巧手抓取这种需要和场景产生大量接触的任务中,机器人的几何差异以及和场景交互关系也需要被充分考虑以实现策略迁移。
方法描述
该工作提出了一种可以在不同灵巧手间迁移的抓取策略及其学习方法,总体框架如图所示。整个方法分为两个关键阶段:基于通用的几何和结构无关的状态动作表示的抓取策略模型,以及面向特定灵巧手的自适应模型。前者负责把控灵巧手总体的运动生成,而后者则将相应的运动转化为灵巧手实时的关节动态变化。
图 1 跨手迁移的抓取策略学习的整体框架图
为了使得学习的策略模型可以在不同灵巧手之间实现泛化,该工作设计了一套不同灵巧手普适的状态和动作表征。它使用了灵巧手上的语义关键点作为表征,来克服灵巧手的结构差异。这些语义关键点不仅可以统一指代不同灵巧手上具有相同语义的部分(比如指尖),也可以很好地概括灵巧手手指的运动信息,因此可以将关键点的位置信息作为策略的状态表示,而将其的位置变化作为策略的动作表示。此外,为了克服不用灵巧手的几何差异对策略的影响,该工作使用了交互二分曲面(Interaction Bisector Surface)[15] 这种特殊几何表示作为策略的状态表示的补充。这种表示被定义成到空间中到两个物体距离相等的平面,在该工作中则用来表示抓手和场景之间的等距离面。这种表示被验证可以提升抓取策略对灵巧手几何的鲁棒性。
在网络的实现上,该工作设计了一个基于 Transformer 网络结构的通用策略模型。它通过多层自注意力机制来融合不同输入特征,并整合各手指之间的信息。这种设计使得学习的策略可以适用不同数量手指的灵巧手,进一步提升了泛化性。在下层的灵巧手关节控制上,该工作用轻量的多层感知机网络构建了特定手适配模型,负责将关键点位移映射到抓取器的关节变化,确保不同抓取器都能够被统一的高层策略模型控制。
模型训练分为两个阶段:联合训练和迁移训练,以确保模型在不同抓取器上的通用性和性能。在联合训练阶段,策略模型和特定手适配模型会在一个灵巧手上同时训练,但它们各自独立优化。策略模型的训练采用强化学习方法,通过奖励函数优化抓取成功率和避免碰撞的能力。而适应模型则通过自监督的循环损失进行训练,确保关键点位移能够精确映射到关节角度变化同时避免自碰撞。
至于迁移训练,其重点是将先前训练的策略模型应用到新的灵巧手上。在这个过程中,策略模型保持固定,只对新的灵巧手重新训练特定手适配模型,以适配其不同的关节结构。由于适应模型较为轻量且可以通过自监督方式训练,这个过程可以被快速高效的完成。
通过这两阶段的训练,模型不仅具备了跨灵巧手的通用能力,还能在新灵巧手上迅速适应并执行高精度抓取任务。
实验结果
该工作对所提出的框架和设计进行了广泛的实验验证,并评估了其在不同抓取器和物体上的性能。实验使用了多种灵巧抓取器,并在 YCB 物体集和 ContactPose 物体集上测试了详细实验,图 2 展示了该工作方法在不同灵巧手以及不同物体上抓取的可视结果,证明了方法的泛化性。
图 2. 跨手迁移的抓取策略在不同灵巧手和物体上的泛化效果
定量测试方面,该工作首先测试了方法中的主要设计对灵巧手抓取策略性能和泛化性的影响,包括两阶段分离的策略设计,通用的表征设计,基于 transform 的网络结构设计。实验结果表明这些设计可以帮助策略实现不同灵巧手之间的,高性能的策略迁移。
表 1. 跨手迁移的抓取策略的消融实验
为了进一步证明该工作方法的性能优势,该工作和一些基于现有方案的基线方法进行了进一步的性能对比,如表 2 所示。这些方法包括使用不同特征(关节匹配和关键点匹配)的基于运动重定向的方法以及对策略输入输出进行映射的方法,实验结果证明了该工作方法的优越性。
表 2. 跨手迁移的抓取策略和基线方法的对比实验