双足机器人昂贵、复杂且易碎。单从平衡性来看,双脚站立和行走要比四足难得多,但由于双足机器人更像人,仍然有许多研究者致力于研发双足机器人。
对于机器人(双足机器人、四足机器人、履带式机器人等)来说,爬楼梯一直是一个巨大的挑战。双足机器人上下楼梯时需要大量的感知和计算,几乎是在实验阶段就相当脆弱,可能会被摔坏,甚至以失败告终。
解决双足机器人走楼梯问题的一种方法是需要更好的感知力和更多的计算来模拟楼梯和规划脚步路径。而近日来自俄勒冈州立大学和 Agility Robotics 的研究者提出了一种方法,只是将双足机器人 Cassie 随机扔在了室外楼梯上,完全不用任何感知就完成了走楼梯的任务,并且完成效果惊人。该论文将于 7 月在 RSS(Robotics Science and Systems) 2021 上发表。
论文地址:https://arxiv.org/pdf/2105.08328.pdf
双足机器人 Cassie 上下楼梯的效果如下,研究人员为 Cassie 配备了安全绳,只是为了防止机器人「灾难性的坠落」,绳子保持松弛状态:
Cassie 还可以压马路:
复杂环境也能行走,不过还是被绊了一跤:
但是,Cassie 也有摔倒的情况:
双足机器人 Cassie
需要注意的是:Cassie 没有感知,也就是说它并不知道自己上楼梯或下楼梯的信息。但该机器人可以自身反馈,这意味着它知道自己的肢体与楼梯有怎样的接触。此外,由于安全绳保持松弛,因此 Cassie 没有得到任何额外的帮助,安全绳只是为了防止机器人灾难性的坠落。
实验过程中,Cassie 经历了诸多坎坷:它撞到了栏杆上,脚趾断了,从台阶上滑下来,完全没踩到台阶,偶尔还会倒退。但令人惊讶的是,Cassie 还能坚持走到它该去的地方。
Cassie 没踩到台阶,但它站起来之后继续完成了任务。
这就是这项研究如此令人兴奋的原因,与其尝试开发一种依靠高质量感知和大量计算的完美楼梯系统,还不如开发一种包含现实世界约束,同时设法实现这一目标。即使这不是最优雅的,但在现实世界中具有鲁棒性。
研究人员利用强化学习方法,根据典型的城市建筑规范,训练模拟 Cassie 走楼梯,楼梯设置高达 8 个台阶。为了将学习到的爬楼梯策略有效地从模拟迁移到现实世界中,该研究在模拟中设置了多种干扰,这些干扰用来表示难以精确模拟的各种现实事物。
例如,Cassie 模拟摔倒混乱、行走速度调整以及模拟地面摩擦引起的抖动等。因此,尽管模拟无法完全模拟真实的现实环境,但随机混合模拟可以确保该机器人的控制器在各种情况下具有鲁棒性。
使用强化学习来训练机器人的一个特殊之处是,有时即使提出了非常有效的方法,但并不清楚其确切原因。
论文第一作者 Jonah Siekmann 表示他们观察到:Cassie 在上楼梯时,走得越快就会走得越好。这对机器人来说有点违背直觉:
由于 Cassie 没有视觉能力,因此在选择落脚点时非常糟糕。如果它试图将脚放在楼梯的拐角处,并将其重心转移到这只脚上,那么结果就是它会摔下楼梯。就步行速度而言,这并没有什么大问题,因为 Cassie 的动力系统可以让它克服短瞬间的向后移动(即一定程度上避免跌倒)。在低速状态时,该动力系统不足以克服不良的落脚点带来的问题,它会不断撞到楼梯,直至摔倒。而在高速状态时,机器人往往会跳过一些台阶,从而使 Cassie 接近甚至超过其极限。
Siekmann 表示糟糕的落脚点导致了 Cassie 出现了一些「冒险行为」。他说「有时,Cassie 在下降过程中跳过了一至三个台阶,然后又恢复正常的下楼状态,这尤其令人惊讶。Cassie 在上楼时也绊倒然后又爬起来了。这个物理过程很复杂,因此学得的控制器中嵌入的那些精准的反应是非常令人兴奋的。此前我们还没有见过这种鲁棒性。」
如果要比较 Cassie 上下楼梯是否比蒙住眼睛的人更好,研究者表示这很难说。Siekmann 说:「我们多次开玩笑说 Cassie 在爬楼梯方面是超人,因为在拍摄这些视频的过程中,由于要专注于拍摄 Cassie(一定程度上没有看台阶),我们在上楼的过程中也绊倒了几次。」
在执行动态任务时,比人类更好的机器人显然是一个非常高的标准,但也许大多数人实际上并没有像 Cassie 那样为盲目楼梯导航做好准备,因为 Cassie 本身就是基于楼梯训练的,并且在训练过程中添加了少量「噪声」,以使楼梯并不是完全均匀的,以防止 Cassie 通过本体感受推导楼梯的精确尺寸,并过度拟合至完美统一的楼梯。
实际上,人类在闭着眼睛尝试爬楼梯时,会依赖于「楼梯是完美统一的」这种假设。当人类无法依靠这样的假设时就会陷入困境。
Cassie 和大多数机器人一样受到一些约束。如果它看上去比其他机器人更有趣,那是因为它使用的是专门针对楼梯和类楼梯场景设计的特定楼梯控制器。
研究团队成员 Green 解释说:「当你训练神经网络充当控制器时,学习算法会随着时间的推移完善网络,以使其针对特定环境的回报最大化。这意味着,与在平坦地面上进行训练相比,通过在阶梯上进行训练,我们得到了完全不同的控制器。」他表示:楼梯控制器可以在平坦的地面上正常工作,但效率较低,且噪音较大。该研究团队正在研究集成多个步态控制器的方法,这些步态控制器可以根据机器人的具体工作方式进行调用。这可能会涉及一些非常简单的感知系统,只是告诉机器人「嘿,前面有楼梯,你最好采用楼梯模式!」