机器人控制和自动驾驶的离线数据损坏问题有解了!
中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。
论文发表在CCF-A类人工智能顶级会议NeurIPS 2024。
现实世界的离线数据集(如机器人控制、自动驾驶等)常常因传感器故障或恶意攻击而受到数据损坏(如数据带有噪声或对抗性攻击)的影响。
尽管现有离线强化学习(offline RL)方法在鲁棒性方面已取得了进展,但它们仍难以处理因离线数据的各类元素(即状态、动作、奖励和转移动态)均部分损坏所引入的高不确定性。
作者针对离线数据的各类元素均有受损这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法TRACER。
在面临各类数据损坏时,该方法于所有实验中均实现了最优,相对于现有的SOTA方法提升了高达+21.1%的决策性能,并在24组仅有单类数据损坏的实验中仍实现了16组的最优性能。
TRACER主要具有以下三点优势:
- TRACER首次将贝叶斯推断引入到抗损坏的离线强化学习(corruption-robust offline RL)中。通过将所有离线数据作为观测值,TRACER捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。
- 通过引入基于熵的不确定性度量,TRACER能够区分损坏数据和干净数据,从而调控并减弱损坏数据对智能体模型训练的影响,以增强鲁棒性。
- 作者在机器人控制(MuJoCo)和自动驾驶(CARLA)仿真环境中进行了系统性地测试,验证了TRACER在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性,超出了多个现有的SOTA方法。
注:下文中公式若显示不完整,请尝试左右滑动查看
背景与问题
贝叶斯强化学习
即最大化证据下界(ELBO):
数据损坏下的离线强化学习
基于上述公式,作者的目的是基于损坏数据学习鲁棒的策略。
方法介绍
总的来说,该方法将所有类别的数据损坏视为行动价值函数(action-value function)中的不确定性,并使用所有类别的离线数据作为观测值,以估计行动价值函数的后验分布。
这显著增强了智能体对所有类别数据损坏的鲁棒性。
此外,考虑到受损数据通常会引起更高的不确定性和熵,该方法引入了基于熵的不确定性度量,进而能有效区分损坏数据和干净数据。
基于这类度量,该方法能调节并减弱损坏数据对智能体模型训练的负面影响,进而显著提高模型在干净测试环境中的鲁棒性和性能。
动机
使用多种受损数据估计累积奖励函数(即动作值函数)会引入很高的不确定性,原因主要有两个方面:
- 一是多种类型的损毁会向数据集的所有元素引入较高的不确定性;
- 二是每个元素与累积奖励(即动作值、Q值)之间存在明确的相关性关系。
下图为决策过程的概率图模型。实线连接的节点表示数据集中的数据,而虚线连接的Q值(即动作值、累积回报)不属于数据集。这些Q值通常是算法旨在估计的任务目标。
为了处理这类由多种数据损毁(即状态、动作、奖励、状态转移数据受损)导致的高不确定性问题,基于上图所示的概率图模型,作者提出利用数据集中的所有元素作为观测数据。
这样做的目的,是利用这些观测数据与累积奖励之间的高度相关性,来准确地识别动作值函数的不确定性。
基于受损数据的贝叶斯推断
作者提出使用离线数据集的所有元素作为观测值,利用数据之间的相关性同时解决不确定性问题。
通过引入贝叶斯推理框架,该步的目标是逼近动作价值函数的后验分布。
基于熵的不确定性度量
为了进一步应对各类数据损坏带来的挑战,作者思考如何利用不确定性进一步增强鲁棒性。
鉴于目标是提高在干净环境中的智能体性能,作者提出减少损坏数据的影响,重点是使用干净数据来训练智能体。
因此,作者设计了一个两步计划——先区分损坏数据和干净数据;再调控与损坏数据相关的损失,减少其影响,从而提升在干净环境中的表现。
对于第一步数据的区分,由于损坏数据通常会造成比干净数据更高的不确定性和动作价值分布熵,因此作者提出使用熵来量化损坏数据和干净数据的不确定性。
因此,在学习过程中,TRACER 能够调控与损坏数据相关的损失,并专注于最小化与干净数据相关的损失,从而增强在干净环境中的鲁棒性和性能。
算法架构
TRACER的框架图如下所示。
可见相对于传统的离线强化学习算法,作者的提出方法修改了批评家(critic)模型,将其改为用于分布强化学习(distributional RL)的动作值分位数回归的架构。
此外,作者还添加了一个新的集成模型(ensemble model)。
数据受损,依然保持鲁棒性
为了模拟数据受损的情形,作者对数据集的部分数据加入随机噪声或对抗攻击来构建损坏数据。
在实验中,作者对30%的单类数据进行损坏。
在机器人控制(MuJoCo)仿真环境测试中,作者选择了常用的3个机器人控制环境(Halfcheetah,Walker2d,Hopper)。
这些环境的状态为仿真机器人各个部位(如腿部、关节等)的不同物理量(如位置、角度、速度等),控制动作为机器人特定部位(如腿部、头部)的力。
所有类型数据元素均存在随机损坏(random)或对抗损坏(advers)时的实验结果见下表。
可以看到,TRACER在所有控制环境中均获得了较为明显的性能提升,提升幅度达+21.1%,在所有环境中都获得了最高的平均得分。
这一结果展现了TRACER对大规模、各类数据损坏的强鲁棒性。
单种类型数据元素存在损坏的部分实验结果见表2和表3。
而在单类数据损坏中,TRACER于24个实验设置里实现16组最优性能,可见TRACER面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。
存在随机损坏时,TRACER在8个实验设置中获得了最高的平均得分。
同样地,单类元素存在对抗损坏时,TRACER在8个实验设置中也获得了最高的平均得分。
作者简介
本论文作者杨睿是中国科学技术大学2019级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。
他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)。
论文地址:https://openreview.net/pdf?id=rTxCIWsfsDGitHub:
https://github.com/MIRALab-USTC/RL-TRACER