OpenAI的可解释性挑战与解释性人工智能(XAI)在医疗诊断中的关键作用 精华
在上周于瑞士日内瓦举行的国际电信联盟 AI for Good 全球峰会上,OpenAI 首席执行官 Sam Altman 在被问及该公司的大型语言模型 (LLM) 的实际运作方式时感到很困惑。Sam Altman 承认 OpenAI 实际上并不了解其 AI 的工作原理,“我们当然还没有解决可解释性问题。”OpenAI已筹集数百亿美元用于开发改变世界的人工智能技术。但有一个明显的问题:它仍然难以理解其技术实际上是如何运作的。
《观察家报》援引他的话说:“我们当然还没有解决可解释性问题”,这实际上是说,该公司尚未弄清楚如何追溯其人工智能模型经常出现的奇怪和不准确的输出,以及它为得出这些答案而做出的决定。Altman 的回答并不令人满意,这也凸显了新兴人工智能领域的一个真正问题。长期以来,研究人员一直在努力解释幕后自由“思考”的过程,人工智能聊天机器人几乎可以神奇地、毫不费力地对任何向它们提出的问题做出反应。
人工智能的可解释性对于其发展和应用至关重要。如果人工智能系统的决策无法被合理解释,公众将难以信任和接受这些技术。可解释性有助于让人们理解模型的运作方式,从而建立对其的信任。在将人工智能模型投入实际应用时,组织需要建立信心,而可解释性正是帮助实现这一目标的关键因素。可解释性有助于组织采用负责任的人工智能开发方法。通过理解模型的决策过程,开发人员可以确保系统按预期运行,并满足监管标准。如果要允许受决策影响的人质疑或更改结果,可解释性也十分重要。
随着医疗领域中人工智能应用的不断增加,解释性成为了一个关键问题。医生、研究人员和患者需要理解AI系统的决策过程,以便更好地信任和接受这些技术。所以有必要探讨医疗AI的解释需求,为医学界和技术界提供指导。近日由剑桥大学精神病学系和计算机科学与技术系的研究人员组成的研究团队发表的论文《The Explanation Necessity for Healthcare AI》对医疗人工智能的解释需求进行了深入分析。通过考虑专家观察的变异性、评估协议的稳健性和应用的表示维度,他们提出了四个不同的解释需求类别:自解释应用、半解释应用、不可解释的应用和新模式发现应用。这些分类有助于确定不同AI应用的解释需求,从而确保AI系统既准确又可靠。研究团队的专业知识可能涵盖医疗应用和计算机科学,使他们非常适合探索医疗 AI 的解释必要性,这篇论文对从事医疗人工智能研究和开发的团队非常重要。
解释必要性
研究团队提出了一个新的分类系统,用于指导医疗人工智能应用中所需解释的级别。这个系统包括四个不同的解释必要性类别:患者或样本(局部)级别、队列或数据集(全局)级别,或两者都需要。文章还介绍了一个数学公式,用于区分这些类别,并为研究人员提供了一个实用框架,以确定医疗AI应用中所需解释的必要性和深度。考虑到的三个关键因素是:评估协议的稳健性、专家观察的变异性和应用的表示维度。
解释性人工智能(XAI)在医疗实践中的使用至关重要,因为它在疾病诊断和患者护理中发挥着重要作用。XAI在建立算法信任、理解风险、识别治疗目标、洞察疾病进展、治疗反应、支持决策制定以及实现闭环控制方面起着关键作用。因此,一个健全的AI框架解释可以有助于设计安全参数,以供监管机构考虑潜在治疗方法。
尽管许多研究提出了增强AI系统可解释性的方法,但关于何时以及在何种程度上需要解释性的具体指导仍然存在空白。特别是文献中缺乏实用的指导,以区分解释必要性是针对个别患者或样本的预测(局部级别),还是需要解码整个模型以预测整个队列或数据集(全局级别)。
论文还讨论XAI的两种方法论途径:事后和透明。事后方法在预测后与AI技术一起使用,以解释(否则不可解释或“黑箱”)AI预测,并揭示复杂数据集中的非线性映射。透明方法则关注具有模拟性、可分解性和透明性(“白盒”)等固有属性的AI模型。
尽管AI模型如深度学习网络通常能够实现高精度和高效率,但XAI面临的“维度诅咒”挑战强调了简化模型和变量选择技术的必要性,即使这可能牺牲了精度和效率。尽管存在权衡,XAI可以促进对算法的信任,帮助理解风险和副作用,帮助识别治疗目标,提供对疾病进展及其对治疗的反应的洞察,支持决策制定,实现闭环控制,并有助于为受监管的治疗方法设计安全参数。
论文强调AI研究社区需要一个框架,概述何时以及如何使用局部和全局解释性技术。这将指明XAI在医学和其他领域的适当应用,确保AI工具不仅提供准确的结果,而且也是透明和值得信赖的。
分类系统
研究团队提出了一个分类系统,用于确定解释的需求,并指示何时使用局部和全局解释。这个分类基于评估协议的稳健性、专家意见的变异程度以及特定任务的表示维度。这些类别包括:
1.自解释应用:适用于不需要解释AI内部机制的任务,因为专家意见的变异性非常低,评估协议非常稳健,AI应用的表示维度较低,并且可以直接理解AI的预测。在这些情况下不需要解释。
2.半解释应用:具有稳健的评估协议,专家意见变异性较低,AI应用的表示维度为低到中等。这类别要求在AI学习过程中提供解释,以确保有效的训练。需要局部解释。
3.不可解释的AI应用:特点是缺乏稳健的评估协议,专家意见变异性较高,AI应用的表示维度为中到高。在这些情况下,需要局部和全局解释。
4.新模式发现的AI应用:特点是缺乏稳健的评估协议,专家意见变异性显著,AI应用的表示维度较高,并且对AI预测背后的机制和功能存在重大差距。在这些情况下,需要局部和全局解释,以及进一步的评估来验证通过这些解释捕获的新模式。
对于分类解释必要性的参数,他们使用了三个关键参数:
- 专家观察的变异性(具有相同经验水平的观察者的观察变异性)。
- 评估协议的稳健性(具有不同经验水平的观察者的观察变异性)。
- AI应用的表示维度。
在评估专家观察的变异性时,他们采用了《报告可靠性和一致性研究的指南》(GRRAS)的术语。我们主要关注“一致性”,它表示分数或观察结果的相似程度,以及“观察者间(或观察者间)一致性”,它表示在相似评估条件下,两个或多个观察者是否达到相同的结果。在医学应用中,观察者间变异性(具有相同经验水平的观察者)的κ值在0.00到0.20之间被分类为“轻微”,而在0.21到0.40之间被视为“一般”。一般来说,0.60、0.70或0.80的值是可靠性系数标签的最低标准,但对于关键个体决策,建议使用更高的值,如0.90或0.95。
图1专家观察的可变性和评估协议对解释必要性和阈值区域分类的稳健性。
第二个关键参数是评估协议的稳健性。他们建议测量不同经验水平的观察者之间的变异性(经验不足、经验丰富、专家)。稳健的评估协议定义为响应的变异性较低,表明存在清晰、明确定义的可解释协议,可以适应不同的经验水平。
解释的框架
研究团队提出了一个解释的框架,基于三个关键参数:专家观察的变异性、评估协议的稳健性和AI应用的表示维度。这个框架将AI应用分为四个不同的类别。
1.自解释应用:这些应用涵盖了协议已经建立(观察者具有不同经验水平)且专家变异性较低(观察者具有相同经验水平)的任务。在这些应用中,不需要解释AI网络的隐藏参数。因此这类应用在文献中被称为“白盒应用”。
2.半解释应用:这些应用也有稳健的评估协议(观察者具有不同经验水平),但专家变异性在低到中等之间(观察者具有相同经验水平)。在这些应用中,需要部分解释以确认AI的训练过程的准确性。需要局部解释。
3.不可解释的AI应用:这些应用的评估协议没有建立(观察者具有不同经验水平),而专家变异性在中到高之间(观察者具有相同经验水平)。在这些应用中,需要局部和全局解释。
4.新模式发现的AI应用:这些应用的评估协议非常不稳定(观察者具有不同经验水平),而专家变异性很高(观察者具有相同经验水平)。在这些应用中,需要局部和全局解释,以及进一步的评估来验证通过这些解释捕获的新模式。
此外他们还指出,在涉及高风险和关键个体决策的研究中,需要根据实际情况调整阈值。在这些理想情况下,“观察者间一致性”值应该超过标准阈值0.70、0.80,甚至0.95,作为可靠性系数的最低标准。这有助于在决策过程中保持更高的可靠性和稳健性,从而维护安全性并减少潜在风险。
解释必要性的评估需要考虑专家观察的变异性、评估协议的稳健性和AI应用的表示维度。这些因素共同决定了解释的需求级别,从而确保AI系统既准确又可靠。
在医疗应用中,解释性对于人工智能(AI)的可接受实施通常至关重要。特别是在医疗领域,决策直接影响患者,并且对AI系统的信任至关重要。这种信任通常建立在AI提供的解释和解读上。尽管AI可解释性取得了显著进展,但在医学背景下,什么时候以及在何种程度上需要解释仍然需要明确的指导。他们提出了一个新颖的解释必要性分类系统,指导所需解释的级别:患者或样本(局部)级别、队列或数据集(全局)级别,或两者兼而有之。
这个分类系统考虑了三个关键因素:
1.评估协议的稳健性:这是指评估AI模型性能的协议是否可靠。如果协议稳健,那么解释的需求可能较低。
2.专家观察的变异性:不同专家对AI输出的观察是否存在较大的变异。如果变异性较低,那么解释的需求可能较低。
3.应用的表示维度:这是指AI应用的输入和输出之间的相关性。如果相关性不足,解释的需求可能较高。
图2:人工智能应用的代表性维度和解释的必要性。
具体而言,他们将AI应用的解释需求分为以下几类:
白盒应用:这些应用具有清晰的评估协议和强烈的输入-输出相关性,因此不需要解释模型的隐藏参数。这类应用被称为“白盒应用”。
灰盒应用:这些应用具有一定的评估协议,但专家观察的变异性较大,且AI应用的表示维度适中。因此,需要对特定样本进行局部解释。这类应用被称为“灰盒应用”。
黑盒应用:这些应用没有明确的评估协议,专家观察的变异性较高,且AI应用的表示维度较高。因此,需要使用整个数据集进行全局解释。这类应用被称为“黑盒应用”。
新模式发现应用:这些应用通过将全局解释与基于超级数据集的统计模型对齐,计算初始AI任务的潜在显著标记。这类应用用于非明确的评估协议、高专家观察变异性和高表示维度的情况。
研究团队提出的数学框架可以帮助研究人员确定医学AI应用中解释的必要性和深度。
图3:深度学习应用程序可解释性需求的数学公式
应用案例
自解释型应用:某些医学应用不需要深入理解AI内部机制,因为评估协议变异性低(0.00-0.10)且专家观察之间变异性小(0.00-0.05)。例如,从腹部计算机断层扫描(CT)中分割人体器官和同一患者的多模态图像配准 。
半解释型应用:某些应用需要更大的评估协议变异性,需要局部解释以确保适当的训练。例如具有已建立疾病评估协议的分类任务。随着人口老龄化,神经退行性疾病的早期诊断变得越来越重要。阿尔茨海默病是一种常见的神经退行性疾病,对患者的生活质量和家庭造成严重影响。利用脑部MRI扫描图像进行阿尔茨海默病的分类诊断。MRI扫描可以显示脑部结构和异常变化,例如脑萎缩等。解释需求:由于阿尔茨海默病的早期症状不明显,需要对AI模型的决策过程进行局部解释,以验证特定患者的诊断结果的准确性。
非解释型应用:卵巢癌的早期诊断,即使使用多模态成像(MRI、超声和计算机断层扫描),也难以在早期阶段检测。卵巢癌是女性中常见的恶性肿瘤之一,但早期诊断非常困难。利用多模态医学图像(例如MRI、CT、超声等)进行卵巢癌的早期诊断。由于卵巢癌的症状不明显,需要利用多模态图像来提高诊断准确性。解释需求:由于评估协议不稳定,专家意见变异性很高,需要对AI模型的决策过程进行全局解释,以验证新的诊断模式。
新模式发现应用:神经退行性疾病的早期诊断,这些疾病在经验丰富的专业人员中仍存在知识空白。早期阶段的神经退行性疾病(如阿尔茨海默病)的诊断对患者的治疗和管理至关重要。利用多模态医学图像(例如MRI、PET等)进行早期阶段的神经退行性疾病的诊断。这类应用需要对全局和局部的决策进行解释,以验证新的诊断模式。解释需求:评估协议不稳定,专家意见变异性很高,需要对局部和全局的决策进行解释,以验证新的诊断模式。
框架应用领域
在他们提出的框架中,任何人都可以确定应用程序的解释必要性。在医学成像应用中,一些应用程序由于评估协议的变异性低(0.00-0.10),专家观察的变异性低(0.00-0.05),应用的二维表示,以及AI预测的直接性,因此对AI内部机制的理解需求最小。例如,从腹部计算机断层扫描(CT)中的人体器官分割和同一人的多模态图像注册。这些类型的应用程序可能会从XAI方法中受益,以优化目的而不是增强信任。因此可以可靠地评估AI模型的性能,而无需额外的解释。
其他应用程序涉及更大的评估协议变异性,需要局部解释以确保适当的训练,例如具有既定疾病评估协议(0.05-0.15)和二维表示的分类任务。随着全球人口老龄化,神经退行性疾病可能会越来越普遍。基于MRI扫描的大脑的二元AI分类,用于诊断阿尔茨海默病或健康老化,是一项低专家间观察变异性(0.05-0.15)的任务,因为当存在时,脑萎缩清晰可见,并且不需要多模态数据集即可高性能(低表示维度)。根据提出的框架,这种应用程序是自解释的或半解释的。检测诊断前多年的早期阶段要困难得多。
即使在经验丰富的专业人士中,知识差距也可能持续存在,AI有潜力提供见解并稳定协议的有效性和关键方面(0.25-0.40)。这对于尚未牢固建立疾病评估协议的分类任务(新模式发现)尤其如此。卵巢癌是女性中最常见的癌症之一,预后不确定(0.20-0.40),即使使用多模态成像(MRI、超声和计算机断层扫描)也难以在早期阶段检测到。这种AI应用被归类为不可解释的,甚至是新模式发现的应用。
脓毒症是感染引起的危及生命的急性免疫反应,会导致器官损伤。在治疗有效的早期阶段进行诊断是复杂的。在医疗保健获取有限的地方,预后特别差。除了临床和实验室评估外,胸部X光片和全身计算机断层扫描在诊断和疾病管理中有帮助。因此,在这个医学主题的大多数AI应用中,专家间的观察变异性很高(0.25-0.40),评估协议的稳健性低(0.30-0.40),应用的表示维度需要是多模态的。这些应用程序是新模式发现的应用程序。
图4:解释必要性的建议框架。该框架由两个主要流程组成:一个用于评估观察者之间的可变性,另一个用于表示维度。最初,用户计算具有“相同经验水平”和“不同经验水平”的观察者的观察者间变异性的平均值。然后应用阈值(图1)来识别表1中的两个“初始解释必要性分类”。以及表2。如果这些类别不同(“不同”),裁决专家会确定最适合该案件的类别。第二个流程侧重于应用程序的表示维度,如图2所示。最后对结果进行“类别决定”陈述。如果它们一致(“我”),则确定最终的XAI需求类别(“解释必要性级别”)。否则裁决专家会为申请确定最合适的类别。
他们提出的框架可以应用于自然或汽车等各种计算机视觉领域。为了概括,我们提供了这些领域应用的例子。然而在每个领域中,准确确定协议和阈值是必要的。在自然计算机视觉应用中,如图像中的动物分类和气候回归,通常需要局部解释(半解释)。这种需求是因为专家知识的变异性最小(0.05-0.10),评估协议的稳健性是直接的,应用的维度表示通常是二维的。相比之下,汽车计算机视觉通常不需要解释。这是因为这些任务相对简单,具有清晰的评估指标,最少的专家参与,以及主要是二到三维表示的应用(自解释)。
展望
解释性连同准确性和一致性,是AI系统获得科学家和医疗专业人员信任的重要方面,即使他们并不完全理解算法是如何工作的。虽然XAI的使用通常很重要,但在临床环境中它变得至关重要,因为依赖AI驱动工具做出的决策可能直接影响患者的健康。虽然许多研究专注于增强AI系统的可解释性,我们强调缺乏用户指导的建议,即何时使用解释性技术以及在何种程度上(全局、局部或两者)。
在这个角度,他们通过将AI解释的必要性分为四个不同的组别来解决文献中的这一重要差距:自解释应用、半解释应用、不可解释应用和新模式发现。这些分类是根据专家观察的变异性、评估协议的稳定性和应用的表示维度来确定的。
通过访问不同经验水平的专家观察的平均变异性,并将其与同一水平的专家观察的平均变异性进行比较,他们可以建立一个初始分类。如果临床应用被识别为高风险,调整提出的阈值以与应用的风险水平一致变得至关重要。例如,与最初提出的不到0.60的不接受率相比,应用可能需要更高的阈值,如0.80、0.90甚至0.95。
他们还考虑了AI应用的维度表示,根据他们的建议修订解释必要性类别。与提出的框架一致,他们提出了这些类别的数学表述,以涵盖广泛的解释要求。这种数学表述和建议的框架可以用来提供AI应用所需的基本解释。
他们已经开发一个全面的框架,研究人员可以轻松地为他们的AI应用定制。他们的框架有助于确定他们特定医疗应用的最合适的解释必要性。这使他们能够提供必要的解释,支持提供透明、安全和可信赖的AI框架,同时也加强了受监管治疗的安全参数。
我们再回头看OpenAI公司,奥特曼最近解散了公司整个所谓的“超级协调”团队,该团队致力于寻找“引导和控制比我们更聪明的人工智能系统”的方法——只是为了任命自己为替代“安全委员会”的领导人。尽管不知道公司的核心产品实际上是如何运作的,但奥特曼最大的经济利益还是向投资者保证公司致力于安全保障。这是一件令人担心的大事。
参考资料:
1.https://futurism.com/sam-altman-admits-openai-understand-ai
2. https://arxiv.org/abs/2406.00216
本文转载自大噬元兽,作者: FlerkenS 大噬元兽