用人类日常交流所说的自然语言指令去命令机械臂执行任务是一个很大的挑战。一个来自亚利桑那州立大学、英特尔人工智能实验室和俄勒冈州立大学的研究团队在操纵任务中将语言作为模仿学习(Imitation Learning)的灵活目标,为人类专家和机器人提供了沟通的桥梁。在训练过程中,模型学会了相互联系和捕捉语言、视觉和运动控制之间的相关性,从而产生以语言为条件的控制策略。然后这些策略为人类用户提供了一个简单直观的,可以发出非结构化命令的界面。
在未来,将非结构化的自然语言融入到模仿学习中可以减少自主机器人对编程的需求,实现人与机器人之间的自然交互。这项创新可能会让自动化机器人在医疗保健、零售、制造和食品等行业的使用更上一层楼。消除机器人对特定句子结构、完美的语法或特定领域语言的需要后,人类就可以更容易地指导机器人执行任务,如从零售仓库挑选和包装货物,或命令机器人手臂在餐馆准备饭菜。在医疗保健领域,人类还可以使用语音指令来驱动自动轮椅,药店也可以使用机器人手臂来包装药物。
1 模仿学习与沟通渠道
该研究团队与亚利桑那州立大学的研究人员Simon Stepputtis、Joseph Campbell、Chitta Baral和Heni Ben Amor以及俄勒冈州立大学的研究人员Stefan Lee合作,在2020年NeurIPS大会的重点展示会上发表了论文《机器人操作任务中以语言为条件的模仿学习(Language-Conditioned Imitation Learning for Robot Manipulation Tasks)》。
图注:论文《机器人操作任务中以语言为条件的模仿学习》
论文链接:https://arxiv.org/abs/2010.12083
模仿学习用一种简单的方式向机器人传授新技能。在不需要编程的情况下,人们只需要提供一组可以转换为函数式或概率表示的演示就好。然而,这种方法的局限性在于必须仔细设计状态表示来确保所有必要信息是可用的。神经方法通过让机器人学习特定于任务的特征表示,从而将模仿学习扩展到高维空间。然而,这些方法缺乏一个通信通道,这种通信通道可以让用户在几乎没有额外成本的情况下提供有关预期任务的进一步信息。因此,程序员和用户都必须求助于数字方法来定义目标。
为了克服这些挑战,该研究团队开发了一个端到端的、受语言限制的控制策略用来处理由高级语义模块和低级控制器组成的操作任务,将语言、视觉和控制集成在一个框架中。
策略的生成可以看作是一个从语言到视觉的翻译过程。当使用端到端方法时,这种方法在概念上被分为了两部分:语义模型和控制模型。语义模型从语言和视觉角度创建了独特的任务表示。控制模型在考虑机器人当前状态的同时,将任务表示转换为特定于任务的控制策略。
2 评价:采摘和倾倒任务
该团队在一个桌面设置的模拟机器人任务中评估了这种新方法。在这项任务中,一名专家教一个七自由度机器人操作手如何执行一系列采摘和倾倒的动作。在训练时,专家负责提供任务的动觉演示,以及语言描述如“倒一点到红碗里”。桌上可能有几个不同形状、大小和颜色的对象,这常常导致自然语言描述产生歧义。机器人必须学会如何有效地从可用的原始数据源中提取关键信息,从而决定去做什么、如何做以及移动到哪里。
1
图注:执行倾倒任务的机械臂
为了生成训练和测试数据,五位专家利用同义词替换方法提供了200个口头任务描述模板。模仿学习需要大量的演示,因此团队使用这种自动方法,通过为任务创建相同句子的各种变体来生成演示。该模型在40,000个综合生成的场景上进行训练。
3 语言限制操作任务的结果
这个模型的整体任务描述了杯子第一次被举起,然后成功地倒入正确碗中的百分比。这一系列步骤在在84%的新环境中成功得到执行。仅做采摘动作的成功率达98%,倾倒成功率达85%。这些结果表明,该模型成功地将训练的行为概括为物体位置、语言命令或知觉输入的变化。该团队的成果为成功集成语言、视觉和控制设置了基准。
该团队利用辅助损耗来补充产生的机器人控制信号。引导对象检测注意和策略生成都提高了倾倒任务的性能。团队还让5个新的参与人发出命令以此评估这个模型,并将其与合成语言进行比较。总的来说,这个模型对来自新参与者的新自然语言命令反应良好。
由此看来,自然语言指令可以在未来为机器学习和机器人开辟新的应用。