总结673篇论文，UIUC等发表可信机器学习综述，20个月完成-51CTO.COM

不久前，来自 UIUC 和南洋理工大学的三名研究者投入了 20 个月的时间，研究了 673 篇论文，撰写了一篇翔实而深入的可信机器学习综述。他们使用统一的数学语言，以数据为中心视角，总结了这个领域的最新研究进展。他们尝试解答以下三个问题：

1. 近年来可信机器学习领域的不同方法之间是否具有内在的联系？

2. 如何从因果推理的角度理解可信机器学习，这对我们有何启示？

3. 在大模型时代，可信机器学习如何实现？

论文地址：https://arxiv.org/pdf/2307.16851.pdf

一、背景

随着机器学习模型性能不断强大，它们更加广泛地进入人们的生活，模型的可信性变得尤为重要。人们对模型 “可信” 的要求涵盖很多方面：一个训练好的模型部署到实际中，需要在未知的分布迁移下保持准确预测；为了使用者理解、验证和采信模型做出的高风险预测，模型需要向用户解释其推理过程；模型应该不带偏见地预测，保证对社会各个群体的公平性，等等。

研究者们认为，现有的模型之所以不够可信，根源往往在于数据的构成：数据集中广泛存在着混淆因子、虚假特征等结构，即使标注质量再高也无法避免。模型在经验风险最小化 (ERM) 的原则下训练，容易学到这些虚假特征和标签之间的统计关联。这些关联在独立同分布假设下存在，但其本质很脆弱，在真实世界随时可能发生变化，使得模型的性能骤降。此外出于伦理考虑，我们也不希望模型学到某些统计关联，比如在互联网数据中广泛存在的对社会弱势群体的歧视。

图 1：综述中讨论的核心问题图示。特征分为 “因果” 特征和 “虚假” 特征，它们的含义由具体任务的场景确定。

这份综述将 “可信机器学习” 作为一系列话题的总称，涵盖鲁棒性，安全性（对抗鲁棒性），公平性和可解释性这四个方面。“可信” 的具体含义应由利益相关者 (stakeholder) 来确定。例如，鲁棒性往往指 “模型的预测对于数据的一些非实质性的变化保持不变”，那么在讨论鲁棒性之前，需要明确用户期望模型对什么样的变化保持鲁棒性。

图 2：左图显示的圆形 / 三角分类问题，和右图的海龟 / 陆龟分类问题，作为例子说明了鲁棒性研究必须指明模型要对什么因素鲁棒。

二、连接可信机器学习的不同主题

在过去的十年里，学术界为了提高机器学习模型的可信性，在鲁棒性、安全性、公平性、可解释性等方面提出了许多方法。尽管这些方法千变万化，但他们之间具有内在的联系。

鲁棒性 领域适应 (Domain Adaptation) 可能是最早关注机器学习模型对分布迁移的鲁棒性的方向之一。模型在一个分布的数据上训练，用遵从另一个分布的一些未标注数据适应后，希望模型将在训练集上学到的知识迁移到这个新的分布中，做出准确预测。自领域对抗网络方法问世以来，学习领域不变表示这一思路在鲁棒性研究中迅速普及。另外一大类方法使用生成模型进行数据增强，从训练样本产生符合新的分布风格的样本。与领域适应密切相关的是领域泛化，这个方向关注更有挑战性的场景，即希望模型在来自一个或多个分布的数据上训练后，不需适应能直接在一个未曾见过的新分布上做出准确预测。

安全性 作者围绕 “对抗鲁棒性” 的话题展开讨论。一些早期工作发现，可以对图像施加人眼难以察觉的扰动，让图像分类模型做出误判，准确率降到接近零。这种被称为 “对抗” 的方法，和神经网络易受打击的特性，给包括无人驾驶在内的 AI 应用带来很大的安全隐患。人们对这一现象的本质提出了多种角度的理解，比如认为对抗噪音也是一种特征。为了解决这一问题，最常使用的方法是对抗训练，即用生成的对抗样本和原样本一起训练模型。很多研究也借鉴了领域不变表示的方法。

公平性 公平性主要指两个方面的问题：结果歧视、质量差异。前者是指模型根据人的社会群体信息做出带有偏见的预测，后者是指模型对少数群体的预测质量降低。结果歧视问题与领域泛化有类似的结构，可以采用领域不变表示学习，或者数据增强的方法。质量差异往往是某些群体的数据稀少导致的，往往可以通过某种算法对训练样本进行加权来解决。

可解释性 打开模型的黑盒子，向用户解释模型预测的理由，对一些涉及重要后果的应用场景十分有必要。可解释性方法可以分为全局解释和局部解释，包括多种形式。作者关注的一类方法旨在揭示模型主要用了输入样本的哪些特征做出预测。实现方法往往涉及对样本进行扰动，或计算输出对特征的梯度，与对抗原理类似。

图 3：可信机器学习共同主题的方法总结。(a) 标准 ERM 损失；（b）领域对抗网络方法；(c) 最坏情况数据增强策略；(d）样本加权方法。

在这份综述中，作者围绕这些可信话题，梳理了近年来各种方法的发展脉络。他们发现，这些为不同话题提出的方法可以用几个主题公式统一起来，如图 3 所示。他们还探讨了这些公式与因果推理框架之间的联系，将在下文介绍。

图 4：综述中讨论的几大话题总结。蓝框表示可信话题，红框表示主题公式，绿框表示因果层次。

三、因果视角理解可信机器学习

图灵奖得主 Judea Pearl 提出的因果推理框架关注如何从关联数据中得到稳健的因果关系，消除数据中混淆因子的影响，这正是可信机器学习的核心问题。从因果的角度，可以在数据生成过程中找到混淆因子的产生机制，从而使用因果推断的方法消除其影响。可信机器学习领域的诸多方法，与因果推理的原理不谋而合。不同机器学习任务的数据生成过程多种多样，作者经过调研，选择最普遍的一种展开讨论。假设数据是由两种潜在变量生成的，称其为 “因果变量” 和 “非因果变量”。这两种变量之间存在着非因果的关联；标签变量只由因果变量生成。下图左为数据生成过程的因果图。

图 5：左图为数据生成过程的因果图，右图显示对因果特征施加干预后的变化。由于外部的机制取代了生成 C 的机制，图中进入节点 C 的边被取消。

按照 Pearl 的因果层次论，因果有三个层级：关联，干预，反事实。作者沿着因果层次介绍重要的因果推理概念及技术，如随机受控实验，工具变量，逆概率加权，后门调整等。作者通过推导说明，如果在数据生成过程中对因果特征进行干预（如上图右所示），可以消除数据中混淆因子的影响，而数据增强和样本加权等方法可以间接实现这种干预。作者从因果的角度重新阐述了上文提到的可信机器学习方法。此外，近年来一些工作提出了明确基于因果推理的机器学习方法，在综述中也进行了介绍。

图 6：用以 GAN (左图) 和 VAE (右图) 为代表的生成模型进行数据增强，与反事实推理的相似之处。

从因果的角度理解可信机器学习，可以得知现有方法背后的因果假设，判断它们的适用范围。也可以从数据生成过程出发，选择能消除混淆效应的因果技术，从而启发更有效的可信机器学习方法的设计。目前，因果推理在机器学习中的应用还面临诸多挑战，如无法测量的内生变量，以及特征的耦合等等，这些问题仍需要进一步研究和解决。

四、大模型时代，可信机器学习的未来方向

最近一年，以 ChatGPT 为代表的大模型取得突破性进展，不仅在各项基准数据集中成绩瞩目，也获得了大量用户的青睐。GPT 系列模型的发展似乎表明，随着模型参数和训练数据不断增多，模型会变得越来越可信。然而，随着研究者的深入调查，人们发现近期的大模型在几个重要方面仍然存在着可信问题。其一，大模型在专业性较强，数据较少的领域鲁棒性不足，性能严重下降或者不稳定。其二，大模型的预测常对一些社会群体带有偏见，缺乏公平性。其三，大模型经常产生幻觉 (hallucination)，输出一些似是而非的答案。大量证据表明，这些问题并没有随着规模增大得到令人满意的解决方案。RLHF 这一类技术虽然可以使模型产生更符合标注者偏好的输出，但从实际效果上并不能显著提升模型的鲁棒性和公平性。

前文介绍的可信机器学习方法具有坚实的理论基础，也在多种场景中验证有效，如果用于训练大模型，将有望提高模型的可信性。然而大模型的训练需要极大的成本，为了改进现有的大模型，可以借助高效使用大模型的技术，如微调 (finetuning)，参数高效微调 (parameter-efficient fine-tuning)，提示学习 (prompting)，以及从人类反馈进行强化学习 (RLHF)。作者对近年来这些技术的发展逐一介绍，并表明前三者采用不同参数化的经验风险最小化 (ERM) 目标，而 RLHF 以学习到的人类奖励作为目标。它们都可以与综述中的主题公式结合，进一步提高模型的可信性。

而这种结合的可能性，也是这篇综述在整理现有方法的同时，具备了一定预测未来可能诞生的方法的能力。

提高机器学习模型的可信性，在大模型时代尤为重要，这需要研究者和实践者的共同努力。最后，作者探讨了可信机器学习可能的未来方向，如：

1. 将不同的可信话题结合起来，训练同时具有多种可信属性的模型；

2. 利用因果推理的最新研究进展，推动更有效的可信机器学习方法研究；

3. 在更复杂的场景，如多模型的协作中，开发和检验可信机器学习方法。