解决机器学习最大弊病？马普所联合Google再探「因果学习」-51CTO.COM

当你看到一个棒球运动员击球时，你可以推断出不同元素之间的因果关系：

例如，在看到球棒和棒球运动员的手臂同步移动之后，你可以知道，是球员的手臂导致了球棒的移动，而不是球棒的移动导致了球员手臂的移动。

此外，你也不需要别人告诉才知道球棒正在引起球运动方向的突然改变。

这些推论是我们人类的直觉，我们在很小的时候就拥有了它——没有人明确指导这件事情，仅仅通过观察这个世界就可以。

但是对于在围棋、国际象棋等复杂任务中成功超越人类的机器学习算法来说，因果关系的推理仍然是一个大的挑战。

机器学习算法，尤其是深度神经网络，尤其擅长从大量数据中找到微妙的模式，它们可以实时转录音频，每秒标注数千张的图像和视频帧，并检查x射线和核磁共振扫描出的癌症模式。

然而，它们很难做出简单的因果推论，就好比刚才提到的棒球例子。

在一篇名为「因果表示学习」（Towards Causal Representation Learning）的文章中，马普所的智能系统研究部、蒙特利尔研究所的算法学习部以及Google Rsearch的研究人员讨论了针对因果学习的一系列问题——他们研究了机器学习模型中缺乏因果表示所带来的挑战，并且提供了创建可以学习因果表示的人工智能系统的启示和方向。

这篇研究，可能是突破机器学习中的因果表示领域中一些主要挑战的关键。

机器学习为何受限？原来是常见假设「惹的祸」

为什么机器学习不能超越其所在的狭窄的领域，并收到训练数据的限制？

针对这个问题，在这篇论文中，作者表示道：

「机器学习经常忽略动物大量使用的信息：比如对世界的干预、领域转移、时间结构等。

总的来说，我们「讨厌」这些因素，并试图把他们设计出来。」

「与此一致的是，目前机器学习的大多数成功，都归结于对适当收集得来的独立和同分布(i.i.d.) 数据进行的大规模模式识别。」

在这里，我们需要简单介绍一下一个常见的机器学习术语：「i.i.d.」

这个术语主要假设问题空间中的随机观测不相互依赖，且有恒定的发生概率——一个最简单的例子就是抛硬币或者掷骰子。

当涉及到计算机视觉等更加复杂的领域的时候，机器学习工程师试图通过在非常大的样本集上训练模型将问题转化为i.i.d.领域中。

这么做的假设是，如果有足够的例子，机器学习模型可以将问题的一般分布编码到它的参数中。

但是在现实世界中，由于训练数据中无法考虑和控制的因素，这一分布往往会发生变化——

比如，即使是训练了数百万张图像的卷积神经网络，当在新的光照条件下、从略微不同的角度或者新的背景下「看」到物体时，也可能会失败。

在训练集中的物体vs在现实生活中的物体

解决这些问题的努力主要包括在更多的例子上训练机器学习模型。但是，随着环境变的越来越复杂，通过增加更多的训练实例来覆盖整个分布就变得不太可能。在人工智能必须与世界互动的领域，比如机器人和自动驾驶汽车，这个情况就变得更为显著。

缺乏对因果关系的理解使得我们很难做出预测，也很难处理新的情况——这也就是为什么你会看到自动驾驶汽车在经过数百万英里的训练之后，却仍然会犯奇怪和危险的错误的原因。

研究人员写道：

「要在i.i.d.环境之外对对象进行很好的概括，不仅需要学习变量之间的统计关联，还需要学习一个潜在的因果模型。」

因果模型还允许人们将以前获得的知识应用于新的领域。

例如，当你学习了一款即时战略游戏，比如《魔兽争霸》，你可以快速的将你的知识应用于其他类似的游戏《星际争霸》和《帝国时代》中。

然而，机器学习算法的迁移学习仅限于非常肤浅的用途：比如微调图像分类器来检测新类型的对象。

在更复杂的任务中，比如学习电子游戏，机器学习模型需要大量的训练（需要玩数千年），并且对环境的微小变化反应很差（例如，开启新地图或者规则的微小变化）。

「当学习一个因果模型时，我们应该需要更少的例子来适应大多数知识，比如创造一个模块，这样这个模型可以在不需要进一步训练的情况下重用。」

克服外界干扰，各种条件下因果学习依然「稳的一批」

如上文所说，为什么i.i.d.有这些已知的弱点，却仍然是机器学习的主导形式？

那是因为，纯粹基于观察的方法是可以扩展的：

我们可以通过添加更多的训练数据，来继续实现精度的增量提高，此外，我们还可以通过添加更多的计算能力来加速训练过程。

事实上，深度学习最近取得成功的一个关键因素，就是更多可用的数据，以及更加强大的处理器。

此外，基于i.i.d.的模型很容易评估：

首先，我们获取一个大型数据集，将其拆分为训练集和测试集，然后对训练数据调整模型，并通过测量其在测试集上的预测精度来验证其性能，接着继续训练，直到达到所需的精度。

目前，已经有很多公共数据集提供了这样的基准测试，比如ImageNet、CIFAR-10和MNIST。此外，如COVID-19诊断的covid - x数据集和威斯康星州乳腺癌诊断数据集之类具有特定任务的数据集也是如此。

在所有情况下，我们所要面对的挑战都是一样的——那就是开发一个可以根据统计规律预测结果的机器学习模型。

然而，正如该论文作者所观察到的一样，精确的预测往往不足以为决策提供信息。

例如，在新冠病毒大流行期间，许多机器学习系统开始失败，因为他们训练针对的是统计规律，而不是因果关系。随着生活模式的改变，模型的准确性下降了。

当外界的干预改变了一个问题的统计分布时，因果模型仍然是稳健的。

比如，当你第一次看到一个物体时，你的大脑会下意识地从它的外观中排除光线因素，这也就是为什么我们在新的光照条件下看到一个物体时可以认出它的原因。

此外，因果模型还允许我们对之前没见过的情况作出反应，并思考反事实：我们不需要把车开下悬崖才知道会发生什么。

反事实在减少机器学习模型所需要的训练实例数量方面发挥了重要作用。

因果关系在处理对抗攻击的时候也很关键——如果添加一些微小的变化，机器学习系统会以意想不到的方式失败。

「这些攻击显然违反了作为统计机器学习基础的i.i.d.假设」，论文作者写道。

此外，论文作者还补充道，对抗性漏洞证明了人类智能和机器学习算法的鲁棒性机制存在差异。

研究人员指出，因果模型可能是「对抗」对抗性攻击的一种可能防御方法。

对抗攻击目标机器学习对先验知识的敏感度。在这幅图像中，如果添加一层觉察不到的的噪声，那么，卷积神经网络就会误判其成长臂猿

从广义上讲，因果关系可以解决机器学习缺乏泛化性的问题。研究人员写道：「公平地说，大多数当前的实践（解决i.i.d.基准问题）和大多数理论结果（关于在i.i.d.设置中的泛化性）都未能解决跨问题泛化的严峻挑战。」

将因果关系添加到机器学习模型，未来前景如何？

在这篇论文中，研究人员还汇集了一些概念和原则，这些概念和原则，对于创建因果机器学习模型至关重要。

其中的两个概念包括「结构因果模型」和「独立因果模型」。

总的来说，该原则表明，AI系统应该可能够识别因果变量，并分离他们对环境的影响，而不是寻找表面的统计相关性。

这种机制使得模型可以检测不同的对象，而不用考虑视角、背景、照明和其他噪音等因素。

理清这些因果变量，将使得人工智能系统在应对不可预测的变化和外界干预的时候表现更加稳健。因此，因果人工智能模型不需要庞大的训练数据集。

「一旦因果模型可用，无论是通过外部人类知识还是学习过程，因果推理都可以允许（它）对干预、反事实和潜在结果得出结论」，论文作者表示。

此外，作者还探索了如何将这些概念应用于机器学习的不同分支，其中就包括强化学习——这对于智能代理严重依赖于探索环境和通过试错发现解决方案的问题至关重要。

因果结构可以帮助强化学习的训练更加有效，因为它允许使主体从训练的一开始就做出明智的决定，而不是采取随机和非理性的行动。

结合机器学习机制和结构因果模型，研究人员为人工智能系统提供了想法：

「结合结构因果建模和表示学习，我们应该努力讲SCM嵌入到更大的机器学习模型中，这些模型的输入和输出可能是高维非结构化的，但SCM至少可以运作这些内部系统的一部分。

其结果可能是一个模块化的架构，不同的模块可以单独调整，并用于新的任务。」

这些概念使得我们更接近于在大脑的不同领域和区域间连接和重用知识和技能的人类思维。

然而，值得注意的是，本文中提出的想法时在概念层面上的。

但有趣的事，研究人员从该领域的许多并行工作中获得了灵感。这篇论文的引用中包含了朱迪亚·珀尔所做的工作，他是一位获得图灵奖的科学家，这位科学家以其在因果推理方面的工作而闻名。

珀尔直言不讳地批评了纯深度学习方法。与此同时，这篇论文的共同作者之一、另一位图灵奖得主Yoshua Bengio是深度学习的先驱之一。

本文还包含了一些与加里·马库斯(Gary Marcus)提出的混合人工智能模型相似的想法，该模型将符号系统的推理能力与神经网络的模式识别能力相结合。

虽然目前还不清楚这几种方法中哪一种能够帮助解决机器学习的因果关系问题，但来自不同思想流派的观点汇集在一起可以保证会产生有趣的结果。

「就其核心而言，i.i.d.模式识别只是一种数学抽象，而因果关系对于大多数形式的有生命的学习来说可能是必不可少的」，作者写道。

「到目前为止，机器学习一直忽略了因果关系的完整整合，而本文认为，整合因果概念确实会让机器学习受益。」