因果启发的可解释框架：大模型解释的高效之路-51CTO.COM

为了深入了解大模型的科学原理并确保其安全，可解释变得日益重要。解释大模型带来了很多独特挑战：（1）大模型参数特别多，怎么尽可能确保解释速度？（2）大模型涉及的样本特别多，如何让用户尽可能少看一些样本的解释也能了解大模型的全貌？这两个问题都指向了对大模型解释效率的要求，而我们希望通过新的范式，为构建大模型高效解释之路提供一个思路。

我们的高效新范式是通过从因果角度重新审视模型来获得的。我们首先从因果的视角重新审视知名可解释方法（比如 LIME、Shapley Value 等），发现他们的解释得分对应于因果推理中的因果效应（treatment effect），明确构建了这些方法和因果的联系。这不仅让我们可以统一对比这些方法的优缺点，还可以分析他们的因果图，发现其中导致不够高效的原因：（1）他们的解释需要特别多次对大模型的扰动才能获得，解释速度慢；（2）他们的解释不具备泛化性：对相似的样本，其解释可能剧烈变化，导致用户无法通过看少量样本解释得到本质的、对其他样本也适用的本质原因。

基于这个发现，我们提出了新的因果图，并遵循重要的因果原则，提出了因果启发的模型解释框架（Causality Inspired Framework for Model Interpretation, CIMI）来设计解释器的训练目标和理想属性。实验结果表明，CIMI 提供了更忠诚和可泛化的解释，同时具有更高的采样效率，使其特别适合更大的预训练模型。

通过阅读本文你可以了解到：

现有知名可解释方法和因果之间的联系是什么？如何从统一的因果视角去对比它们的优缺点？
更好、更高效的因果图是什么？对应的可解释方法是什么？

本文同时也还有不少需要改进之处，比如我们目前都分析的是分类模型而不是文本生成模型；我们主要在常规大小的预训练模型上验证了解释效率，对于很大规模模型的测试还在进一步实验中；我们的框架尽管通用，但是具体采用方法目前需要模型最后一层 embedding，对于不公开 embedding 的模型如何高效分析还不明确。这些问题希望在后续和大家探讨中共同解决。

论文地址：https://dl.acm.org/doi/pdf/10.1145/3580305.3599240
开源地址：https://github.com/Daftstone/CIMI

研究背景

深度学习在医疗保障、金融预测分析、故障检测等诸多领域发挥着关键作用。然而，深度模型大多是人类无法理解的黑盒，这种不透明性可能产生严重后果，尤其在高风险决策中。例如，基于深度学习的污染模型声称高污染空气对人类健康没有威胁 [1]。不完美的模型并非毫无意义，如果可以解释模型做出特定决策的原因，就可能有效地降低和避免模型错误的风险。另外，公开透明的模型也有助于发现模型中潜在的错误（比如，推理逻辑与领域知识不符），从而进一步改进模型 [2]。因此，可解释人工智能（eXplainable Artificial Intelligence, XAI）的研究受到了越来越多的关注。

图 1. 深度学习模型的不透明性。

可解释学习中一个基本问题是：解释是否揭示了模型行为的重要根本原因，还是仅仅是虚假的相关性？无法区分相关性和因果关系会导致决策者做出错误的解释。在人机交互方面的研究 [3] 进一步突出了因果关系的重要性，其中广泛的用户研究表明，在可解释人工智能中，因果关系增加了用户信任，并有助于评估解释的质量。这一结果呼应了认知科学中的主要理论，即人类使用因果关系来构建对世界的心理模型 [4]。

另外，可解释人工智能遵循基本的因果性假设，为因果研究提供了理想的环境，而这些假设通常在其他情况下是难以验证的。例如，在可解释研究中，我们可以轻易地获得一组变量（比如，一个句子的所有单词的组合），这些变量构成了模型预测的所有可能原因的完整集合，这确保满足了因果充分性假设 [5]。此外，黑盒模型可以轻松进行干预，这允许直接执行关键的 do 操作（do-operator）。例如，因果研究的环境通常是一次性的，一个人吃过药了就无法让他不吃药，如果需要建模吃药和康复的因果关系，就需要仔细对混杂因素建模，并使用后门或者前门调整等技术将因果估计转化为统计估计，并仅基于观测数据计算该统计估计。而在可解释中，干预变得尤为简单。这是因为要解释的模型所处的环境非常清楚，允许直接对任何特征进行 do 操作并查看模型预测的变化，并且这一操作可以重复操作。

因果视角的关键问题

由于因果在可解释研究中的重要性和适用性，已经引起了越来越多的关注。多种解释方法，如 LIME [6]，Shapley Value [7] 以及 CXPlain [8]，利用干预 (例如对输入数据扰动) 等因果分析技术提供更忠诚的黑盒模型解释。尽管如此，仍然缺乏一个正式统一的因果视角，并且一些关键研究问题仍然具有挑战性，例如:

RQ1. 现有解释方法和因果的关系：现有的解释方法能否在一个因果框架内进行构建？如果可以的话，所采用的因果模型是什么，并且它们之间有什么区别？
RQ2. 因果推理在可解释中的挑战：在利用因果推理进行模型解释方面，主要的挑战是什么？通过解决这些挑战，我们可能会获得哪些好处？
RQ3. 如何利用因果推理改进可解释方法：如何改进因果模型以解决这些挑战？

在该工作中，我们旨在通过研究这些问题来弥合因果推理与可解释性之间的差距。

从因果角度重新审视可解释（RQ1）

通过从因果的角度重新审视现有的方法，我们可以证明许多经典的基于扰动的可解释方法，如 LIME、Shapley Value 以及 CXPlain，实际上计算的是（平均）因果效应。因果效应构成了这些特征的解释得分，旨在揭示模型预测中每个特征被纳入解释的程度。

另外，他们的因果图与图 2（左）相对应。其中，对 E 的治疗（treatment）对应于对一个或一组特定特征的扰动。C 是上下文特征，表示在改变 E 后保持不变的特征。

图 2. 左：现有方法的因果图，其中解释 E 和上下文 C 都是影响模型预测的因素；右：从统一的因果视角对现有可解释方法的比较。

尽管这三种方法都可以使用图 2（左）中的因果图进行总结，但它们也会存在些许差异，如图 2（右）所示。我们将展示该统一的视角如何轻松地比较每个方法的优缺点：

干预特征 E：CXPlain 和 Shapley Value 只考虑一个特征作为 E，而 LIME 则使用一组特征。因此，在没有进一步扩展或假设的情况下，CXPlain 和 Shapley Value 无法衡量一组特征的因果效应，这表明他们的解释能力可以提高，因为解释往往是多个特征的组合。
上下文 C：Shapley Value 将所有特征子集视为可能的上下文，而其他方法将特定实例 x 作为主要上下文。相应地，Shapley Value 计算所有上下文 (即所有可能的特征子集) 的平均因果效应，而其他方法则考虑个体因果效应。虽然个体因果效应的计算效率可能更高，但它们对相似输入的解释的泛化能力可能会显著降低。
模型输出：LIME、Shapley Value 跟踪模型预测的变化，而 CXPlain 观察输入如何改变模型预测误差的变化。因此，CXPlain 可能对模型调试更有用，而其他两个方法可能更适合理解模型行为。

因果推理应用于可解释的挑战（RQ2）

根据上一节的观察结果，我们能够总结将因果推理应用于模型解释的核心挑战。虽然解释方法很容易计算个体因果效应，比如，当一个输入特征改变时，模型的预测结果发生了多大的变化，但核心挑战是如何有效地发现可以从大量特征和数据点推广到不同实例的突出共同原因。要解决这个问题，需要保证解释是：

因果充分：解释包含了所有预测模型行为的信息，并且非解释不包含影响模型决策的因子。
可泛化的：对于相似的实例（只有潜在非解释的变化），解释应该保持不变。

这些性质是非常重要的，特别是当黑盒模型变得越来越大，并且有更多的数据点需要解释时，这些突出的共同原因可以泛化到许多数据点上，这样我们可以节省用户的认知工作。同时，这也有助于增强用户的信任。以图 3 的病理检测器为例，如果在同一患者的不同断面层检测到完全不同的关键区域，这将是非常令人不安的。

图 3：解释增强用户信任的例子：病理检测器。

基于这两个解释的重要性质，我们重新审视现有方法的因果图（图 4 (左)）。这个框架的主要问题是模型预测由解释 E 和上下文 C 共同决定，换句话说，解释 E 并不是的唯一原因，这不满足第一个因果充分的性质。

因果不充分问题可以通过删除上下文作为模型预测的原因来解决。图 4 (中) 和图 4 (右) 提供了两种可能的解决方案。这里，X 表示输入实例的随机变量，而 E 和 U 分别表示解释和非解释对应的随机变量。这两个因果图中，有唯一的原因，即解释 E，这使得解释 E 充分决定了模型行为。

然而在图 4 (中)，当 X 改变时，解释 E 会以任意的方式随之变化，这不满足解释的可泛化性质。基于这些考虑，我们选择图 4 (右) 描述的因果图。很明显，非解释变量 U 的改变，对解释 E 或者模型预测没有影响，只导致输入实例 X 的轻微变化，这表明相似实例的解释是具有稳定性的。同时，E 作为的唯一决定因素，这保证了解释作为模型预测的原因的充分性。

图 4：(左). 现有方法的因果图，其中解释不是模型预测的唯一原因；(中). 候选因果图，其中解释对模型预测是因果充分的，但不是泛化的；(右). 我们的选择，其中解释是泛化且是的唯一原因。可观测变量用蓝色阴影表示。

利用因果改进可解释（RQ3）

基于上一节的讨论，我们希望根据选择的因果图提升解释质量（因果充分和可泛化）。但由于两个重要的因果变量 E 和 U 是不可观察的，直接在图 4 (右) 的因果图中重构因果机制是不切实际的。考虑到因果变量需要遵循明确的原则，我们使用以下两个因果推理中的重要原则来设计因果变量应满足的基本属性：

原则 1. 休谟因果原则（Humean’s Causality Principle）[9]：如果的所有原因可用，先于发生，并且使用所有的可用信息比除了之外的信息能够更精确地预测，那么存在一个因果关系。
原则 2. 独立因果机制原则（Independent Causal Mechanisms Principle）[10]：每个变量在给定其原因的条件下的条件分布不会影响其他变量。

基于选择的因果图以及这两个因果原则，我们设计了一个因果启发的模型解释框架，CIMI。CIMI 包含三个模块：因果充分模块、因果干预模块以及因果先验模块，以确保提取的解释满足这两个原则所需的基本属性。

图 5. 左：因果充分示意图；中：因果干预示意图；右：解释器的结构设计。

因果充分模块：

根据原则 1，为了保证生成的解释 E 是的充分原因，需要保证 E 是最适合预测的特征，而不是其他特征 U，如图 5 (左) 所示。为此，因果充分损失构建如下：

其中，

这里，g 是本文的解释器，其学习一个掩码函数，表示解释，表示非解释，而则为均方根误差损失。

因果干预模块：

根据原则 2，我们希望 U 和 E 是独立的，这使得找到相邻实例的稳定解释成为可能，从而提高解释器的泛化能力。为此，我们基于先验知识，解释器 g 生成的解释应该对非解释的干预不变，如图 5 (中) 所示。在本文中，我们随机采样另一个样本，通过 x 和的非解释部分进行线性插值实现干预，如下所示：

其中，，ε 控制干预的大小。我们可以通过优化以下因果干预损失来确保 U 和 E 的独立：

因果先验模块：

解释器的设计：当我们用神经网络学习解释器时，很难决定解释器应该使用哪种神经网络结构。如果解释器 g 的架构不像黑盒模型 f 那样富有表现力，那么我们如何保证解释器具有理解黑盒模型的能力？如果解释器比黑盒模型更复杂，那么容易出现训练慢和过拟合的问题。

我们对这个问题的解决方案受到原则 1 的启发，该原则指出，解释在预测模型方面更有效。因此，我们直接利用黑盒模型的参数用于生成解释。为了实现这一点，使用黑盒模型 𝑓 的编码器作为我们的解释器 𝑔 中的编码器。解释器 𝑔 中的解码部分是一个简单的神经网络，记为 𝜙，因此，，如图 5 (右) 所示。

该设计的合理性可以由信息瓶颈理论支持，该理论指出，在模型的前向传播过程中，会逐渐过滤对预测无用的信息，逐渐关注输入中最重要的部分。根据这一理论，将解释器的编码部分设置为黑盒模型的编码器，使解释器能够过滤已经被黑盒编码器过滤的大部分噪声信息，从而允许更高效地学习解释。

弱监督损失：如果因果变量没有进一步的正则化约束，容易存在平凡解，即所有特征被视为解释，这会导致解释器崩塌。为了解决该问题，稀疏性损失是被经常使用的正则化约束，它要求涉及的因果变量的数量较小 [11]。然而，这种稀疏性损失会将复杂句子和简单句子的约束视为相同，可能无法适应不同实例的不同解释长度，给超参数调优带来困难。

为此，我们基于一个直觉，x 的解释应该包含更多关于 x 本身的信息，而不是关于另一个实例 x' 的信息。利用这一点，我们通过最大化实例 x 中的 token 被预测为解释的概率，同时最小化不在 x 的 token 被预测为解释的概率，得到弱监督损失如下

其中，，表示实例 x' 的 embedding。

实验分析

我们选择了 BERT 和 RoBERTa 作为待解释的黑盒模型，在 Clickbait、Hate、Yelp 以及 IMDB 数据集来评估生成解释的质量。具体的统计数据如图 6 所示。

图 6. 实验设置。

我们将对解释的忠诚性、泛化性、采样效率以及可用性进行评估。

1. 忠诚性评估：我们使用三个忠诚度指标来评估生成解释的因果充分性，分别为 DFFOT（决策翻转的分词比例）、COMP（必要性）、SUFF（充分性）。这些指标的细节以及我们的实验结果如图 7 所示。可以看出提出的方法在各种数据集上是有竞争力的。特别地，随着数据集的复杂度越来越高（CLickbaitIMDB），相较于基线方法的提升效果更加明显。例如，在 Clickbait 上，和最好的基线方法比较，关于 DFFOT 的性能提升为 4.2%，而在 IMDB 上，相应的性能提升为 54.3%。这种良好的性质突出了我们的算法具有更好的可扩展性。

图 7. 解释的忠诚性评估。

2. 泛化性评估：我们使用 AvgSen（平均敏感度）来评估生成解释的泛化性。不可否认，对于 AvgSen 来说，解释中包含的一些重要的 token（解释）可能会被替换，但概率很低，尤其是在分词数量较多的 Yelp 和 IMDB 中。实验结果如图 8 所示。可以看到，在四个数据集中，扰动前后的 Top-10 重要分词中至少有 8 个是一致的，这对于基线方法是难以做到的。这表明提出的方法具有捕获不变泛化特征的能力，这种泛化能力有助于避免对相似实例的重复解释的耗时成本，同时这种稳定的解释也有助于增强人们的信任。

图 8. 解释的泛化性评估。

3. 采样效率（即解释速度）评估：图 9 展示了在相同采样次数（模型前向传播次数）下，各种基于扰动方法的性能比较。首先，CXPlain 的单特征扰动的解释机制使每个样本 x 的扰动次数最多为 |x| 次，因此在小数据集上表现出了较高的效率。其次，所提出方法在四个数据集中都显示出显著的竞争力，特别是在 Hate 上，只需要 3 个采样次数就可以超过具有 100 个采样次数的基线。这得益于神经网络在因果原则约束下的泛化能力，从大量的数据点中总结出推广到不同的实例的解释，最终提高效率。在大模型高速发展的时代，由于模型越来越大，要解释的数据点也越来越多，这种高效的采样对于解释方法显得越来越重要。

图 9. 解释方法的采样效率评估。

4. 可用性评估：解释除了让我们更好地理解模型，还有帮助调试模型。有噪声的数据收集可能会导致模型在训练过程中学习到错误的相关性。为此，本节分析了各种解释方法在删除捷径特征（shortcut）的能力。我们使用 20 newsgroups 的一个子集分类 “基督教” 和 “无神论”。选择该数据集的原因是训练集中有很多捷径特征，但测试集是干净的。例如，在训练集中出现单词 “posting” 的实例中，99% 的实例都属于 “无神论” 的类别。

为了测试解释方法是否可以帮助检测捷径特征，我们首先在有噪声的训练集上训练 BERT 模型。然后，我们获得不同方法的解释，如果解释中的分词没有出现在干净的测试集中，则将其视为潜在的捷径特征。然后，在删除捷径特征后重新训练分类模型。评估各种解释方法识别捷径特征的指标是移除潜在捷径特征后重训练模型的性能 (更好的分类性能意味着找到的捷径特征更准确)。结果如图 10 所示。首先，LIME 和提出的方法都能有效去除捷径，提高模型性能。其次，CIMI 对模型性能的改进更加明显，这表明其检测的捷径特征更为准确。

图 10. 解释方法的可用性评估。

总结

本文从因果推理的角度重新解读了一些经典的可解释方法，发现他们的解释得分对应于因果推理中的因果效应。通过在这个统一的因果视角分析它们的利弊，揭示了利用因果推理进行解释的主要挑战：因果充分性和泛化性。最后，基于合适的因果图和重要的因果原则，设计了神经解释器的训练目标和理想属性，并提出了一种高效的解决方案 CIMI。通过广泛的实验，证明了所提方法在解释的因果充分性、泛化性以及采样效率方面的优越性，并探索了解释方法帮助模型调试的潜力。