强化学习大牛Sergey Levine：将RL作为可扩展自监督学习的基础-51CTO.COM

[[438887]]

目前，机器学习系统可以解决计算机视觉、语音识别和自然语言处理等诸多领域的一系列挑战性问题，但设计出媲美人类推理的灵活性和通用性的学习赋能（learning-enable）系统仍是遥不可及的事情。这就引发了很多关于「现代机器学习可能缺失了哪些成分」的讨论，并就该领域必须解决哪些大问题提出了很多假设。

问题来了：这些缺失的成分是因果推理、归纳偏置、更好的自监督或无监督学习算法，还是其他完全不同的东西？在今年 10 月份的论文中，强化学习大牛、UC 伯克利电气工程与计算机科学助理教授 Sergey Levine 提出并对这一问题进行了深入探讨。

该研究认为利用强化学习可以衍生出一个通用的、有原则的、功能强大的框架来利用未标记数据，使用通用的无监督或自监督强化学习目标，配合离线强化学习方法，可以利用大型数据集。此外，该研究还讨论了这样的过程如何与潜在的下游任务更紧密地结合起来，以及它如何基于近年来开发的现有技术实现的。

论文地址：https://arxiv.org/pdf/2110.12543.pdf

他认为这个问题很难回答，任何答案必然涉及大量猜想，但我们从人工智能近来的进展中吸取的教训可以提供几个指导原则。

第一个教训是需要大量训练数据的大规模通用模型的「不合理」有效性。正如阿尔伯塔大学计算机科学系教授 Richard S. Sutton 在其文章《The Bitter Lesson》中以及机器学习领域大量其他研究者所表达的那样，机器学习近来的研究主题始终是「高效利用大量计算和数据的方法通常优于依赖手动设计的先验和启发式方法」。虽然探讨造成这一趋势的原因超出了本文的探讨范围，但可以总结（或夸张地描述）如下：当我们为模型设计偏见或先验时，我们正在注入自己关于世界如何运作的不完善的知识，这使得模型得出了比我们自身设计的还要准确的结果，因而也会工作地更好。

事实上，在人们如何获得熟练程度方面也表现出类似的模式，正如 UC 伯克利名誉教授 S.E. Dreyfus 等在著作《Philosophy and technology II》中所讨论的那样，遵循我们可以明确表达出的规则的「rule-based」推理往往只会为人们提供各种技能的「新手级」表现，而「专家级」表现往往与人们难以清晰表达的各种特例、例外情况和模式息息相关。正如 Dreyfus 所指出的，真正的人类专家很少能够清楚地阐明他们所展示的专业知识所遵循的规则。因此，正如人类必须要从经验中获得专业知识一样，机器学习也必须如此。为此，研究者认为，我们需要强大的、高容量的模型，这些模型施加的偏见较少并且可以处理大量所需的经验。

第二个近期得到的教训是人工标记和监督在规模上远远不如无监督或自监督学习。我们看到，无监督预训练已经成为了自然语言处理的标准，并且可能将很快也成为其他领域的标准。从某种意义上来讲，这个教训是第一个教训的必须结果：如果大模型和大数据集最有效，那么任何限制模型和数据集大小的事情最终都将会成为瓶颈。人类监督可能就是这样一种瓶颈：如果所有数据都必须由人工标记，则系统从中学习所需的数据就会减少。但这里，我们遇到了一个难题：当前没有人类标签的学习方法往往违反第一个教训的原则，即需要大量的人类洞察力（通常是特定领域的）来设计允许大模型从未标注数据集中获得有意义知识的自监督学习目标。这些包括语言建模等相对简单的任务，以及「预测两个转换后的图像是否由同一个原始图像还是两个不同的图像各自生成」的更深奥的任务。后者是计算机视觉领域现代自监督学习中广泛使用且表现成功的方法。虽然这些方法在一定程度上有效，但我们将面临的下一个瓶颈可能是在无需人工标记或手动设计自监督目标时决定如何训练大模型，从而使得到的模型既可以对世界有深刻和有意义的理解，也能够在执行下游任务时表现出稳健泛化性（robustness generalization）和一定程度的常识。

在作者看来，这种方法论可以从当前基于学习的控制（强化学习, RL）算法中开发出来，尽管需要大量的算法创新才能使这类方法能够显著超越它们迄今为止所能解决的问题类型。这一想法的核心是这样一种概念：为了使用不同的和以目标为导向的方式控制环境，自主智能体必须发展对它们所处的因果和可泛化的环境的理解，因此可以克服当前监督式模型的很多缺点。

与此同时，这还需要在以下两个重要方面超越当前的强化学习范式。一方面，强化学习算法需要用户手动指定任务目标即奖励函数，然后学习完成该任务目标所需的行为，当然，这种做法极大地限制了智能体在无人类监督时的学习能力；另一方面，现在常用的强化学习算法本质上不是数据驱动的，而是从在线经验中学习。尽管此类方法可以直接部署在真实世界环境中，但在线主动数据收集限制了它们在此类设置中的泛化能力。另外，强化学习的很多用例是发生在模拟环境中，因而很少有机会学习现实世界如何运作的。

通过行动进行学习

人工智能系统之所以有用，是因为它们提供了可用于决策的推理，反过来推理又能影响世界。因此，我们可以得出这样的结论：一般的学习目标应该是为学习那些最有用、最有意义的事情提供动力。我们应该考虑强化学习如何为训练高容量模型提供自动化和原则性的目标，赋予模型理解、推理和泛化的能力。

然而，这面临两个限制：强化学习需要手动定义奖励函数，此外，强化学习还需要一种主动学习范式。为了解决带有目标的问题，研究者开始开发新的算法，这些方法不同于执行单个用户指定的任务，而是旨在推理出所有可能结果。这些方法潜在目标包括学习达到任何可行状态、学习最大化潜在目标和结果之间的交互信息、通过有原则的内在动机目标学习得到覆盖广泛的结果。为了解决数据问题，研究者必须开发强化学习算法，以有效利用以前收集的数据集，其中离线强化学习算法提供了在多样性数据集上训练 RL 系统的途径，其方式与监督学习大致相同，然后进行一定量的主动在线微调以获得最佳性能。

举例来说，想象一个机器人执行各种任务，当给定用户指定的目标时，机器人执行该目标。然而，在机器人的「空闲时间 spare time」，机器人会想象它可以产生的潜在结果，然后机器人通过「实践 practices」采取行动来产生这些结果。每一次这样的实践都会加深机器人对世界因果结构的理解。

当然，在现实世界中以上述方式部署的商业机器人系统在概念上似乎有些牵强。这也正是离线 RL 重要的原因：由于离线算法与经验来源无关，因此机器人完成用户指定目标与「playing」所花费的时间比例可以调整为任一极端，甚至一个将所有时间都花在执行用户指定任务上的系统，仍然可以将其收集的经验用作离线训练数据来学习，以实现预期结果。这样的系统仍会与环境「play」，但只是在其「记忆 memories」中进行了虚拟化。

机器人系统可能是实例化这种设计最明显的领域，但这种设计不局限于机器人。任何具有明确定义行动概念的系统都可以通过这种方式进行训练，例如推荐系统、自动驾驶汽车、库存管理和物流系统、对话系统等等。

在许多设置下，在线探索可能行不通，但通过离线 RL 以无监督结果驱动目标进行学习是可行的。如前所述，ML 系统由于能够做出智能决策非常有用。因此，任何有用的 ML 系统都处于一个顺序过程中，在这个过程中决策是可能的，因此，这种自监督的学习程序应该是适用的。

无监督和自监督强化学习

无监督或自监督强化学习应该满足两个标准：首先其所学习的行动应该是以有意义的方式控制世界，此外，其能够提供一些机制来学习以尽可能多的方式控制自身行动。

公式化自监督 RL 目标最直接方法是将其构建为达到目标状态的问题，该问题对应于训练目标条件策略 π(a|s, g)，并选择一些奖励函数 r(s, g)。虽然这个奖励函数本身可能构成一个手动设计的目标，但同时也可以推导出一个框架，其中奖励函数是解决定义明确推理问题的结果，例如预测最有可能导致特定结果动作的问题。这个问题公式与密度估计、变分推理、基于模型的强化学习和探索相关联。

一个经过训练以达到所有可能目标的策略能从世界中学到什么？正如最近的研究和 RL 中的经典文献所指出的，解决这种目标制约的 RL 问题对应于学习一种动力学模型。从直观上讲，要想实现任何潜在的预期结果，就需要深入理解行动如何影响长期环境。当然，有人可能会想，为什么不直接学习基于模型的 RL 中更常用的动态模型呢？模型学习也可能是利用不同数据集的有效方法，而不需要特定用户提供目标。因此，如果 ML 系统的最终目标是带来预期的结果，我们可以预测最终得出的目标和期望的目标一致。

然而，当前方法会受到许多限制，即使是 goalreaching 条件下的 RL 方法也难以使用、稳定性不好。但更重要的是，goalreaching 并不涵盖 RL 中可以指定的全部可能任务。即使智能体学会了在给定环境中成功完成所有可能的结果，也可能不会存在一个单一的期望结果来最大化任意用户指定的奖励函数。这种以目标为条件的策略可能已经学习了强大且广泛适用的特征，并且可以很容易地针对下游任务进行微调，但对未来工作而言，一个有趣的问题是，更好地理解更普遍的自监督目标是否能够消除这种限制。目前，研究者已经提出了许多用于无监督获得技能的方法，因此，我们可以合理地提问，是否可以在此基础上推导出更普遍和更有原则的自监督强化学习目标。

离线强化学习

如前所述，即使在是在在线收集无法实现的情况下，离线 RL 也可以应用自监督或无监督 RL 方法，并且此类方法能够作为将大型多样化数据集纳入自监督 RL 中的最强大的工具之一。这对于使其成为真正可行且通用的大规模表示学习工具至关重要。但是，离线 RL 提出了很多挑战，其中最重要的是需要它回答反事实问题：给定显示出结果的数据，我们是否可以预测在采取不同的行动时会发生什么？这非常具有挑战性。

尽管如此，对离线 RL 的理解在过去几年取得了重大进展。除了了解分布转移如何影响离线 RL 之外，离线 RL 算法的性能也得到了显著提升。领域内开发出的一些新算法能够提供稳健性保证、离线预训练后的在线微调，以及解决了离线 RL 设置中的一系列其他问题。

自监督真实世界机器人系统 RECON，经过训练，该系统可以在从未见过的环境中执行导航任务。

使用离线 RL 训练的自监督真实世界机器人操作系统 Actionable Models，执行各种目标达成任务。该系统也可以作为通用预训练，以加速通过传统奖励在下游任务上的获取。

此外，离线 RL 的进展也可能显著提升自监督 RL 方法的适用性。使用离线 RL 工具，我们可以构建不需要任何自身探索的自监督 RL 方法。与上文提到的「虚拟游戏」（virtual play）非常相似，我们可以结合离线 RL 与目标条件策略，以完全从以往收集的数据中学习。然而，重大挑战依然存在。离线 RL 算法继承了标准或深度 RL 学习的很多困难，包括对超参数的敏感性。并且，由于我们无法执行多次在线实验来确定最佳超参数，这些困难会进一步加剧。在监督学习，我们可以使用验证集来处理这些问题，但离线 RL 中缺少相应的对等集（equivalent）。我们需要更稳定和更可靠的算法以及更有效的评估方法，以使离线 RL 方法真正得到广泛适用。

文中动图出自：https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001