图灵奖得主、深度学习先驱Hinton曾预言到,「人们现在应该停止培训放射科医生。很明显,在五年内,深度学习会比放射科医生做得更好。这可能需要10年的时间,但我们已经有了足够多的放射科医生。」
我认为,如果你是一名放射科医生,你就像一只已经走到悬崖边缘、但还没有往下看的野狼。
近七年过去了,人工智能技术仅仅参与并替代了部分放射员的技术工作,并且存在功能单一、训练数据不足等问题,让放射科医生的饭碗依然握得很牢。
但ChatGPT类的基础模型发布后,人工智能模型的能力得到了前所未有的提升,可以处理多模态数据、无需微调即可适应新任务的in-context学习能力,高度灵活、可重复使用的人工智能模型的迅速发展或许会在医学领域引入新的能力。
最近,来自多所美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗机构的研究人员在Nature上联合提出了一种全新的医学人工智能范式,即「全科医学人工智能」(generalist medical artificial intelligence, GMAI)。
论文链接:https://www.nature.com/articles/s41586-023-05881-4
GMAI 模型将能够使用很少或不使用任务特定的标记数据执行各种各样的任务。通过对大型、多样化数据集的自监督训练,GMAI可以灵活地解释医学模式的不同组合,包括来自成像、电子健康记录、实验室结果、基因组学、图表或医学文本的数据。
反过来,模型还可以生成具有表达能力的输出,如自由文本解释、口头推荐或图像注释,展现先进的医学推理能力。
研究人员在文中为 GMAI 确定了一组具有高影响力的潜在应用场景,并列出了具体的技术能力和训练数据集。
作者团队预计,GMAI 应用程序将会挑战目前的验证医学AI设备,并改变与大型医学数据集收集相关的做法。
医疗AI通用模型的潜力
GMAI模型有望比目前的医学人工智能模型解决更多样化和更具挑战性的任务,甚至对具体的任务几乎没有标签要求。
在GMAI的三个定义能力中,「能执行动态指定的任务」和「能支持数据模式的灵活组合」可以让GMAI模型和用户之间进行灵活的互动;第三种能力要求GMAI模型形式化表示医学领域的知识,并能够进行高级医学推理。
最近发布的一些基础模型已经表现出了部分GMAI的能力,通过灵活地结合多模态,可以在测试阶段动态地指定一个新的任务,但要建立一个具有上述三种能力的GMAI模型仍需要进一步的发展,例如现有的医学推理模型(如GPT-3或PaLM)并不是多模态的,也无法生成可靠的事实性陈述。
灵活的交互 Flexible interactions
GMAI为用户提供了通过自定义查询与模型互动的能力,使不同的受众更容易理解人工智能的见解,并为不同的任务和设置提供更大的灵活性。
目前人工智能模型只能处理非常局限的一组任务,并生成一套僵化的、预先确定好的输出,比如说模型可以检测一种特定的疾病,接受某种图像,输出结果为患这种疾病的可能性。
相比之下,自定义查询可以输入用户拍脑袋想出来问题,比如「解释一下这个头部MRI扫描中出现的肿块,它更可能是肿瘤还是脓肿?」。
此外,查询可以让用户定制其输出的格式,比如「这是一个胶质母细胞瘤患者的后续MRI扫描,用红色标出可能是肿瘤的部分。」
自定义查询可以实现两个关键能力,即「动态任务」和「多模态输入输出」。
自定义查询可以教导人工智能模型在运行中解决新的问题,动态地指定新的任务,而无需对模型重新训练。
例如,GMAI可以回答高度具体的、以前未见过的问题,比如「根据这个超声波结果,胆囊壁的厚度是多少毫米?」。
GMAI模型可能难以完成涉及未知概念或病理的新任务,而上下文学习(in-context learning)可以让用户用很少的几个例子来教GMAI学习新概念,比如「这里有10个以前患有一种新出现的疾病的病人的病史,即感染了Langya henipavirus,现在的这个病人也感染Langya henipavirus的可能性有多大?」。
自定义查询还可以接受包含多模态的复杂医疗信息,比如临床医生在询问诊断时,可能会在查询中输入报告、波形信号、实验室结果、基因组图谱和成像研究等;GMAI模型还可以灵活地将不同的模式纳入回答中,例如用户可能要求提供文本答案和附带的可视化信息。
医学领域知识
与临床医生形成鲜明对比的是,传统的医学人工智能模型在为其特定任务进行训练之前,通常缺乏对医学领域背景的了解(如病理生理过程等),只能完全依赖输入数据的特征和预测目标之间的统计关联。
缺乏背景信息会导致很难训练一个特定医疗任务的模型,特别是当任务数据稀缺时。
GMAI模型可以通过形式化表示医学知识来解决这些缺陷,例如知识图谱等结构可以让模型对医学概念和它们之间的关系进行推理;此外,在基于检索的方法的基础上,GMAI可以从现有的数据库中检索相关的背景,其形式包括文章、图像或之前的案例。
由此得到的模型可以提出一些警告,比如「这个病人可能会发展成急性呼吸窘迫综合征,因为这个病人最近因严重的胸腔创伤入院,而且尽管吸入的氧气量增加了,但病人动脉血中的氧分压却持续下降。」
由于GMAI模型甚至可能被要求提供治疗建议,尽管大部分是在观察数据的基础上进行训练,该模型推断和利用医学概念和临床发现之间的因果关系的能力将对临床适用性起到关键作用。
最后,通过获取丰富的分子和临床知识,GMAI模型可以通过借鉴相关问题的知识来解决数据有限的任务。
机遇
GMAI有潜力通过改善护理和减少临床医生的工作量来影响实际的医疗过程。
可控性(Controllability)
GMAI可以让用户精细地控制其输出的格式,使复杂的医疗信息更容易获得和理解,所以需要某种GMAI模型根据受众需求对模型输出进行重新复述。
由GMAI提供的可视化结果也需要精心定制,比如通过改变视角或用文字标注重要特征等,模型还可以潜在地调整其输出中特定领域的细节水平,或将其翻译成多种语言,与不同的用户进行有效沟通。
最后,GMAI的灵活性使其能够适应特定的地区或医院,遵循当地的习俗和政策,用户可能需要关于如何查询GMAI模型,以及有效利用其输出的正式指导。
适应性(Adaptability)
现有的医疗人工智能模型难以应对分布的转变,但由于技术、程序、环境或人口的不断变化,数据的分布可能会发生巨大变化。
GMAI可以通过上下文学习(in-context learning)跟上转变的步伐,例如医院可以教GMAI模型解释来自全新扫描仪的X射线,只需输入提示和几个样例即可。
也就是说,GMAI可以即时适应新的数据分布,而传统的医疗人工智能模型则需要在全新的数据集上重新训练;不过目前只有在大型语言模型中观察到了上下文学习(in-context learning)的能力。
为了确保GMAI能够适应上下文的变化,GMAI模型需要在来自多个互补数据源以及多样化的数据上进行训练。
比如为了适应2019年冠状疾病的新变种,一个成功的模型可以检索过去变种的特征,并在面对查询中的新上下文时更新这些特征,一个临床医生可能直接输入「检查这些胸部X射线,看看是否有奥密克戎」。
模型可以对比德尔塔变体,考虑将支气管和血管周围的浸润作为关键信号。
尽管用户可以通过提示词手动调整模型行为,但新技术也可以发挥自动纳入人类反馈的作用。
用户可以对GMAI模型的每个输出进行评价或评论,就像ChatGPT使用的强化学习反馈技术,可以借此改变GMAI模型的行为。
适用性(Applicability)
大规模的人工智能模型已经成为众多下游应用的基础,例如GPT-3在发布后的几个月内就已经为不同行业的300多个应用程序提供了技术支持。
医学基础模型中,CheXzero可用于检测胸部X光片中的几十种疾病,并且不需要在这些疾病的显式标签上进行训练。
向GMAI的范式转变将推动具有广泛能力的大规模医疗AI模型的开发和发布,可以作为各种下游临床应用的基础:既可以直接使用GMAI的输出,也可以将GMAI的结果作为中间表示,后续再接入一个小型的领域内模型。
需要注意的是,这种灵活的适用性也是一把双刃剑,所有存在于基础模型中的故障都会在下游应用中继续传播。
挑战
虽然GMAI模型有诸多优势,但相比其他领域,医学领域的安全风险特别高,所以还需要应对确保安全部署的难题。
有效性/确认(Validation)
GMAI模型由于其前所未有的多功能性,所以想要进行能力验证也十分困难。
目前的人工智能模型都是针对特定任务而设计的,所以只需要在那些预定义的用例中进行验证即可,比如从大脑核磁共振成像中诊断出特定类型的癌症。
但GMAI模型还可以执行终端用户首次提出的先前未见过的任务(例如在脑部MRI中诊断其他疾病),如何预测所有的故障模式是一个更难的问题。
开发者和监管机构需要负责解释GMAI模型是如何被测试的,以及它们被批准用于哪些用例;GMAI界面本身的设计应该在进入未知领域时提出「标签外使用」的警告,而不能自信地编造不准确的信息。
更广泛地说,GMAI独特的广泛能力要求监管部门有远见,要求机构和政府政策适应新的范式,还将重塑保险安排和责任分配。
验证(Verification)
与传统的人工智能模型相比,GMAI模型可以处理异常复杂的输入和输出,使临床医生更难确定其正确性。
例如传统模型在对病人的癌症进行分类时,可能只考虑一项成像研究结果,只需要一名放射科医生或病理学家就可以验证该模型的输出是否正确。
而GMAI模型可能会考虑两种输入,并可能输出初始分类、治疗建议和涉及可视化、统计分析和文献参考的多模式论证。
在这种情况下,可能需要一个多学科小组(由放射科医生、病理科医生、肿瘤科医生和其他专家组成)来判断GMAI的输出是否正确。
因此,无论是在验证期间还是在模型部署之后,对GMAI输出的事实核查都是一个严峻的挑战。
创建者可以通过纳入可解释技术使GMAI输出更容易验证,例如,让GMAI的输出包括可点击的文献及具体的证据段落,使临床医生能够更有效地验证GMAI的预测。
最后,至关重要的是,GMAI模型应准确表达不确定性,防止用过度自信的陈述来误导用户。
社会偏见(Social bias)
医学人工智能模型可能会延续社会的偏见,并对边缘化人群造成伤害。
在开发GMAI时,这些风险可能会更加明显,海量数据的需求和复杂性会使模型难以确保没有不良的偏见。
GMAI模型必须得到彻底验证,以确保它们在特定人群(如少数群体)中的表现不会不佳。
即使在部署后,模型也需要进行持续的审计和监管,因为随着模型遇到新的任务和环境,可能会出现新的问题,迅速识别和修复偏见必须是开发者、供应商和监管者的首要任务。
隐私(Privacy)
GMAI模型的开发和使用对患者隐私构成了严重风险,可能会接触到丰富的病人特征,包括临床测量和信号、分子特征和人口统计信息以及行为和感官追踪数据。
此外,GMAI模型可能会使用更大的架构,更容易记忆训练数据并直接重复给用户,可能会暴露训练数据集中的敏感病人数据。
可以通过去身份化和限制对个别病人的信息收集量,减少暴露数据造成的损害。
隐私问题也并不限于训练数据,部署的GMAI模型也可能暴露当前病人的数据,例如提示性可以欺骗GPT-3等模型,使其忽略之前的指令;恶意用户可以强迫模型忽略「不暴露信息」的指令以提取敏感数据。