Transformers+世界模型，竟能拯救深度强化学习？-51CTO.COM

很多人都知道，当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本，分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master，以及吊打前两代的三代目AlphaGo Zero。

AlphaGo的棋艺能够逐代递增，背后其实是在AI技术上一个出现了明显的变化趋势，就是强化学习的比重越来越大。

到了近几年，强化学习又发生了一次「进化」，人们把「进化」后的强化学习，称为深度强化学习。

但深度强化学习代理的样本效率低下，这极大地限制了它们在实际问题中的应用。

最近，许多基于模型的方法被设计来解决这个问题，在世界模型的想象中学习是最突出的方法之一。

然而，虽然与模拟环境几乎无限的交互听起来很吸引人，但世界模型必须在很长一段时间内保持准确。

受Transformer在序列建模任务中的成功启发，康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS，这是一种数据高效代理，它在由离散自编码器和自回归Transformer组成的世界模型中学习。

在Atari 100k基准测试中，在仅相当于两个小时的游戏时间里，IRIS的平均人类标准化得分为1.046，并且在26场比赛中的10场比赛中表现优于人类。

此前，LeCun曾说，强化学习会走进死胡同。

现在看来，康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人，正在将世界模型与强化学习（更准确地说是深度强化学习）融为一体，而连接两者的桥梁，便是Transformers。

深度强化学习有什么不一样

一提到人工智能技术，很多人能想到的，还是深度学习上。

其实，虽然深度学习还活跃在AI领域，但已经暴露出很多问题。

现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”，它有一个特点，就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据，且标识成本很高。

以至于针对这种局面，有人调侃道「有多少人工，就有多少智能」。

很多研究人员，甚至包括有不少的大牛都在反思，琢磨深度学习是不是“错了”。

于是，强化学习开始崛起了。

强化学习和有监督学习、无监督学习都不太一样，它是用智能体不断地试错，并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为，只要奖励激励设定对头，强化学习终将造出真正AGI。

但强化学习也有问题，用LeCun的话说，就是「强化学习要用巨量数据才能训练模型执行最简单任务」。

于是强化学习与深度学习进行了结合，成为深度强化学习。

深度强化学习，强化学习是骨架，深度学习是灵魂，这是什么意思呢？深度强化学习的主要运行机制，其实与强化学习是基本一致的，只不过使用了深度神经网络来完成这一过程。

更有甚者，有的深度强化学习算法，干脆直接在现成的强化学习算法上，通过添加深度神经网络来实现一套新的深度强化学习算法，非常有名的深度强化学习算法DQN就是典型的例子。

Transformers有什么神奇之处

Transformers首次亮相于2017年，是Google的论文《Attention is All You Need》中提出的。

在 Transformer出现之前，人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中，自然语言处理在某种程度上是后来者，」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说，「从某种意义上说，NLP曾落后于计算机视觉，而Transformer改变了这一点。」

近年来，Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。

Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮，比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。

目前，Transformer架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。比如，Transformer已被用于时间序列预测，同时也是DeepMind的蛋白质结构预测模型 AlphaFold背后的关键创新。

Transformer最近也进入了计算机视觉领域，在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。

世界模型与Transformers联手，其他人怎么看

对于康奈尔大学的研究成果，有外国网友评论道：「请注意，这两个小时是来自环境的镜头长度，在GPU上进行训练需要一周的时间」。

还有人质疑：所以这个系统在一个特别精确的潜在世界模型上学习？该模型不需要预先训练吗？

另外，有人觉得，康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破：「似乎他们只是训练了世界模型，vqvae和演员评论家，所有这些都来自那2个小时的经验（和大约600个纪元）的重播缓冲区」。

参考资料：https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/