关于模型可解释性的深入思考：从哪里来，到哪里去？-模型可解释性

本文作者 Cody Marie Wild，不仅是一位机器学习领域的数据科学家（目前任职 phos 公司），在生活中还是名不折不扣的猫咪铲屎官，她钟爱语言和简洁优美的系统，与此同时，Cody Marie Wild还标榜自己是一位专业求知欲者。

[[230124]]

最近，Cody Marie Wild 开始围绕着一些机器学习领域的热门话题开始了自己的思考：学习出一个通用智能行动者的潜力和局限性，算法公平方面细微的以及可以被真正规范化的挑战，以及现在的热门话题：能向人类解释、能被人类理解对模型来说意味着什么？Cody Marie Wild 撰写了一篇文章介绍了她的思考，这篇文章整理翻译如下。

随着人们的新点子已经被越来越复杂的模型架构所取代，在一层又一层的模型的重压之下快要依稀不见，人们呼吁重视机器学习的可解释性的呼声也越来越高。过去的两年内，NIPS 举办过关于相关话题的研讨会，DARPA（美国国防部高级研究计划局）也正资助一项可解释 AI 项目，与此同时，欧洲各国的 AI 项目也均争先响应欧盟的新要求：纷纷表示 AI 模型所作出的任何「重大决策」无一例外都会对用户做出解释。

[[230125]]

哦不！这个像素重要性的热力度看起来像一张鬼脸

Cody Marie Wild 发现大家关于「模型可解释性」的争论通常分为一下三大派：

对模型稳定性所产生的恐惧。这种思维模式最最令人担忧，欠缺对模型制定决定的反省能力，模型最终有可能以种种方式学到某些不恰当的模式。这里有一个常见案例，由于医院的策略是每次都把哮喘病人送到重症病房，（病人危重所以需要马上救治）所以模型反而学会了认为哮喘病人的死亡风险比较低。当在关键场景中得到运用时，模型还拥有能力来检验，其如何学习到该场景的「关键」背后的原理。很多情况下这些模型也是由经验丰富的专业人员部署下去的，他们当然也不会部署一个连他们自己都不能打包票的模型了。
人类期望从这些不可解释的模型中提炼出新奇的知识：通过这种方式来赋予人类对世界的新的了解，把机器学习用在应用科学中的人多数就是这样的思考角度。在这里，「模型可解释性」被视为一种价值增值，因为如果能够将机器的抽象翻译成对有意义的人类概念的话，人类就可能将这些概念重组到现有的知识网络，并用它来推动更多的研究。
在模型在做出与人类息息相关的决定时，人类觉得自己有权知晓它背后合乎逻辑的理由：人类的这种想法有点稍微难以解释，但其中确实掺杂了一些强烈情感。这也与针对机器偏见的争论有关，并且可以确定的是，许多人都认为黑箱子中的模型正在以不当方式利用社会信息，他们从这个角度争论不休。但作者认为，相对于模型，人类社会对于公平概念有着更广泛的理解：例如某个人在进行一个决定行为时（贷款或听证会）获得信服的前提是，他给出了令人信服的理由。当一个人将自己某项决定行为的理由告知你时，你就可以利用这些理由，甚至依据它们和他争辩。同样地，作者也十分理解当模型给了你一个不可调和且不透明的决定时，你发觉自己被它专横对待了，而且毫无「自卫」之力的那种感受。如果可以的话，你肯定会阻止别人使用模型的这个逻辑。

为什么模型的复杂架构会降低其可解释性？

ResNet 模型为什么不具备可解释性？这样问有些冒老生常谈的风险。模型欠缺哪些基本性质？这与系统本身具有完全确定性有关，因为模型一旦被训练完毕，你就可以据此写出模型中每个量与其他的量相关联的方程。作者认为模型欠缺可解释性的根本原因和模型本身的缺陷关系不大，反而更多和人类的认知缺陷相关。当人类「思考时，大脑会将每个与之相关的有意义概念作为其中的单元来组成想法，而且大脑通常需要将那些概念抽象化、概括化，有时候还要压缩，以便让它们便于处理。当交给人类一篇叙述性散文和把它交给三个充满权重的模型矩阵时，会得到截然不同的两种解释水平，因为人类是不可能一次性地将模型矩阵包含的全部信息记录在人脑里的，那不现实也不可能。这促使作者认识到了「模型可解释性」中的一个关键概念：对于一项复杂模型的可解释性表示，通常被大体看做是其本身的一种压缩表示。

该概念，是真正可解释性的必要概念，它为一直以来为深度学习模型的晦涩难懂所困的大家打开了一扇窗。可以确定，难以理解的一部分原因是由于模型本身架构复杂。但作者还想说明，这个问题也有一部分原因是因为深度学习历来就能够高效处理非常原始的输入数据。作为对比，当一个人需要把经济普查数据作为输入特征时，由于计算特征的因果关系链是沿着人类认为有意义有价值的方向走的，这样定义下来的特征也都代表了一个人类认为有意义的概念。对于非常原始的输入数据，比如像素值，你就会遇到这个问题：每一个单独的输入值都不和任何概念产生联系。不论模型使用的更高层的抽象到了什么程度，这都完全是模型自己学到的抽象，而非人类向系统输入的概念。无论何时有人执行神经元或者图层可视化操作，你都会看到模型为了有意义而进行的摸索，我们不可避免地会去尝试为模型附加人类的概念，例如该模型用来识人眼，另一个模型则用来识别建筑物等等，即便在某种程度上我们知道期待机器的抽象能够熟练地植入人类的思想这件事会有误导性。

模型的可解释性有哪几种

作者在阅读 LIME、Shapley Values、 Neuron Visualization 等意图提出模型可解释性问题的论文时，发现它们可以被分成以下几类：

特征归属 VS 内部逻辑：作者眼中最有意义的分法是把各种可解释性的方法分为两类：一类尝试把归因值分配给特征，另一类尝试阐明模型真正的内部工作逻辑。沙普利值（Shapley Values）和 LIME 两种方法就可以分在第一类里。它们的主要目标是将模型的行为映射回原来的那组输入特征（或者人为创建可选的输入特征），在模型的复杂的决策过程中，影响越大的特征会被分配越大的权重。相比之下，层模板可视化这样的方法就属于后一类了：它试图理解模型在获得最终答案的过程中，创建的那个起到媒介作用的抽象。尽管某种意义上这两类方法都在阐述「模型可解释性」，但在作者看来，广泛采用某种清楚的名字来命名这些「模型可解释性」的不同子目标是有价值的。

模拟获取知识 VS 内省获取知识：第二种不那么明确的分法就和给定的可解释性方法的目标无关，而是取决于达到目标用的是什么样的技巧。基于模拟的知识意味着，我们通过生成某种形式的模拟数据来获得对自己模型的理解，捕捉模型如何表现这些数据点，并将其用于理解。这种分法和前一种分法有着的不同取向，LIME（它模拟局部数据样本，并使用局部内核）和 Neuron Visualization（它以数值方法优化像素，把内部状态变成高激活值）在这种分法里就同样分在了「模拟方法」的一侧。相比之下，内省获取知识来源于运用模型的固定方向，并使用它们来获得知识，而不必进行前者的模拟。这第二类模型的例子比如，线型模型的基本特征重要性（其中的线性项和常数项意味着你可以分析性地计算出特征重要性），以及随机森林组合模型中的 Gini 缩减特征重要性，因为两者都是训练完毕的模型的属性。但总的来说，尽管如此，作者还是认为后一类方法不适用于更复杂的模型，因而针对「模型可解释性」的大多数较新发布的论文均属于前一类。

关于构建一个人类不能完全理解的系统这一想法（它可能也无法得到完全控制），基本上相当于人类亲手孕育了一个狂妄之兽，诸如这类的指责经常发难最近的复杂模型师们。然而，人类希望完全理解模型的渴望会偶尔受挫，就像当年强烈反对机械化或自动化的英国手工业工人（勒德分子），但作者相信，还是有一些具有说服力的理由表明这是一个可能会有丰厚回报的研究领域，在模型应用的信任和模型内部表征的脆弱性测试方面最为明显。另外，作者还在整篇文章中间接表达了一项诉求，就是我们不该将对模型可解释性立下的一系列期望目标和根本动机像大杂烩那样一锅端，这只会使得我们在该问题上的论述陷于更加混乱不清的境况。