理解人工智能决策对研究人员、决策者和广大人民来说非常重要。幸运的是,有一些方法可以确保我们了解更多。前沿人工智能公司和学术届使用的深度学习模型已经变得如此复杂,以至于即使是构建模型的研究人员也难以理解正在做出的决策。
这一点在某锦标赛上得到了最明显的体现。在这场比赛中,数据科学家和职业围棋选手经常被人工智能在比赛中的决策所迷惑,因为它做出了非正式的游戏,而这并不被认为是最强的一步。
为了更好地理解他们构建的模型,人工智能研究人员开发了三种主要的解释方法。这些是局部解释方法,只解释一个具体的决定,而不是整个模型的决定,考虑到规模,这可能具有挑战性。
研究人员正确理解人工智能决策的三种方法
特征归因
通过特征归因,人工智能模型将识别输入的哪些部分对特定决策是重要的。对于X射线,研究人员可以看到热图或模型认为对其决策最重要的单个像素。
使用这种特征归因解释,可以检查是否存在虚假相关性。例如,它会显示水印中的像素是否被突出显示,或者实际肿瘤中的像素是否被突出显示。
反事实解释
当做出决定时,我们可能会感到困惑,不知道为什么人工智能会做出这样或那样的决定。由于人工智能被部署在高风险的环境中,如监狱、保险或抵押贷款,了解人工智能拒绝因素或上诉的原因应该有助于他们在下次申请时获得批准。
反事实解释方法的好处是,它确切地告诉你需要如何更改输入来翻转决策,这可能具有实际用途。对于那些申请抵押贷款却没有得到的人来说,这个解释会告诉他们需要做些什么来达到他们想要的结果。
样本重要性
样本重要性解释需要访问模型背后的基础数据。如果研究人员注意到他们认为是错误的,他们可以运行一个样本重要性解释,以查看人工智能是否输入了它无法计算的数据,从而导致判断错误。