本文转自雷锋网,如需转载请至雷锋网官网申请授权。
想象一下,想要将手中的小方块优雅地递给别人,是用手卡住方块的侧面送出?
还是伸出托着方块底部的手?
那么如果对方是机器人,持握小方块的方式是否会影响机器人快速、精确的识别呢?
答案是“会”!
因此,英伟达(Nvidia)研究人员设计了一种人类-机器人递接物品的新方式,当机器人面对人类时,对其持握动作进行判断、分类,进而设计出递接物品的方式。这一方式比基线更流畅,可为协作机器人的设计提供新思路,从而提高仓库工人的生产力。
当地时间 2020 年 3 月 12 日,相关论文 Human Grasp Classification for Reactive Human-to-Robot Handovers(基于人手持握动作分类的人类-机器人递接物品反应)发表于预印本网站 arXiv。
解决物品和人手相互遮挡的问题
雷锋网了解到,如今关注人类-机器人无缝递接物品领域的研究越来越多。就目前而言,绝大多数研究着眼于将物品从机器人转移到人类手中的挑战,假设人类可将物品放置在机器人的抓取器中进行反向操作。
不过,人类-机器人无缝递接物品的一个挑战便是机器人缺少可靠、连续的感知。在递接物品过程中,物品和人手难免会相互遮挡,而且人在递接物品时还经常同时在做其他事情,因此机器人对人手和物品状态、位置的估计并不是很精准。
对此,研究人员提出的一种策略是,通过从计算机视觉社区借用现成的方法估计人手的动作及物品的 6D 状态。然而,这一方法仅仅关注于人手或物品。
基于此,英伟达研究人员做了一系列改进。
将人手持握物品的动作划分类别
首先,研究人员利用微软 Azure Kinect 深度传感器的身体跟踪 SDK(软件开发工具包)获取检测到的以人手为中心的点云,编辑一个数据集,训练 AI 模型。
此外,研究人员展示持握物品的示例图像,并记录 20-60 秒内人手做出的类似动作。在此期间,人可以不断移动身体或手,保证视角多样化。据了解,该研究团队数据集的图像已超过 15 万张。
在此基础上,研究人员将持握动作划分类别,比如手中拿着一个小方块时,动作可以被描述为“手掌张开”、“卡住底部”、“卡住顶部”、“卡住侧面”或“抬起”。
研究人员表示:
目前我们的系统覆盖了 77% 的人手持握物品方式,未来我们还要将其扩展到更大的范围。
随后,研究人员将递接物品任务建模,基于一个「鲁棒动态逻辑系统」(Robust Logical-Dynamical System),设计出递接物品的轨迹,免去了特定种类的抓取器和人手接触的麻烦。
雷锋网了解到,这一系统必须适应人类各种可能的持握动作,才能做出反应,判断接近人类并递接物品的方式。在系统确切地估计出人类将以何种方式持握物品之前,它将始终在原位(“home” position)保持等待状态。
实际上,研究人员在一系列实验中对人手所有可能的位置、动作进行了系统性的回顾,确定了分类模型和任务模型。同时,研究人员也考虑了这一过程中可能涉及的额外操作(下图为按优先级降序排列的可能出现的额外操作)。
递接成功率为 100%
雷锋网(公众号:雷锋网)注意到,实验中,研究人员用到的是来自德国慕尼黑机器人公司 Franka Amika 的两个不同的「熊猫机器人」(Panda robots),研究人员将其安装在同一张桌子上的不同位置,分别从人类手中接过 4 种不同颜色的物品。
该论文的两位作者表示,与 2 个基线方法(一个不判断人手状态,另一个仅依赖于手和物体的状态)相比,他们的方法提升了人类-机器人无缝递接物品的成功率,并缩短了计划、执行时间——递接成功率为 100%(第二高为 80%),判断成功率为 64.3%(第二高为 29.6%),计划、执行总动作为 17.34 秒(第二短为 36.34 秒)。
不过,研究人员也明确提到了这一系统存在的不足与未来的研究方向:
提升判断成功率将会是未来我们的一个努力方向,这是因为即使系统已经可以处理大部分物品和人手彼此遮挡的场景,但不确定性也更高了,有时机器人不得不重新进行判断。
此外,他们计划让系统从数据中学习不同的持握类型,而不是依赖于人工制定的规则。