在医疗保健业务的大计划中,预测模型所发挥的作用与验血、X 射线或 MRI 的作用无异:它们影响有关干预是否合适的决策。
“从广义上讲,模型进行数学运算并产生概率估计,帮助医生和患者决定是否采取行动,”斯坦福医疗保健首席数据科学家和 斯坦福大学 HAI 教员Nigam Shah表示。但这些概率估计只有在触发更有益的决策时才对医疗保健提供者有用。
“作为一个社区,我认为我们被模型的性能所困扰,而不是问这个模型有用吗?” Shah说。 “我们需要跳出这种模式思考。”
Shah 的团队是少数几个评估医院是否有能力基于模型进行干预的医疗保健研究小组之一,以及干预措施是否对患者和医疗机构有益。
“人们越来越担心人工智能研究人员正在左右构建模型而没有部署任何东西,”Shah 说。造成这种情况的一个原因是建模者未能进行有用性分析,以显示由模型触发的干预如何以具有成本效益的方式融入医院运营,同时弊大于利。““如果模型开发者愿意花时间进行这种额外的分析,医院也会关注的。”他说。
Shah 表示,运筹学、医疗保健政策和计量经济学领域已经存在进行有用性分析的工具,但医疗保健领域的模型开发人员使用它们的速度很慢。他自己的团队试图通过发表一些论文来改变这种心态,敦促更多的人评估他们的模型的实用性。其中包括一份JAMA论文,阐述了建模者考虑有用性的必要性,以及一份研究论文,该论文提出了一个分析预测模型在医疗保健中的有用性的框架,并展示了它如何使用现实世界的例子来工作。
“就像医院可能在其运营中添加的任何新事物一样,部署新模型必须是值得的,”Shah 说。“有成熟的框架来确定模型的价值。现在是建模师使用它们的时候了。”
了解模型、干预措施以及干预措施的利弊之间的相互作用
如上图所示,模型的有用性取决于模型之间的相互作用、它触发的干预以及干预的利弊,Shah 说。
首先,这个模型——它经常得到最大的关注——应该擅长预测它应该预测的任何东西,无论是病人再入院的风险还是患糖尿病的风险。此外,Shah 说,它必须是公平的,这意味着它产生的预测同样适用于所有人,无论种族、民族、国籍或性别如何;而且必须可以从一个医院站点推广到另一个医院站点],或者至少对当地医院人口做出可靠的预测;此外,它还应该是可解释的。
其次,医疗机构必须根据测试或模型制定关于何时以及如何进行干预的政策,以及关于谁负责干预的决定。他们还必须有能力(足够的人员、材料或其他资源)进行干预。
Shah表示,制定关于是否或如何以特定方式干预以响应模型的政策会影响健康公平。谈到公平,Shah 表示,“研究人员花了太多的时间关注一个模型是否对所有人都同样准确,而没有足够的时间关注干预是否会让所有人平等受益——尽管我们试图解决的大多数不公平现象都来自后者。”
例如,预测哪些病人在预约时不会出现,如果它的预测对所有种族和民族群体都一样准确,那么它本身可能并不不公平,但如何干预的选择——是否重复预约时间或提供交通支持以帮助人们到达预约地点——可能会对不同群体的人产生不同的影响。
第三,干预的利大于弊。Shah说,任何干预都可能产生积极和消极的后果。因此,模型预测的有用性将取决于它所触发的干预措施的利弊。
要了解这种相互作用,请考虑一个常用的预测模型:动脉粥样硬化性心血管疾病 (ASCVD) 风险方程,它依赖于九个主要数据点(包括年龄、性别、种族、总胆固醇、低密度脂蛋白/高密度脂蛋白胆固醇、血压、吸烟病史、糖尿病状态和抗高血压药物的使用)来计算患者 10 年心脏病发作或中风的风险。Shah 说,对 ASCVD 风险方程的充实有用性分析将考虑上图的三个部分,并发现它是有用的。
首先,该模型被广泛认为对心脏病具有高度预测性,并且还具有公平性、可推广性和可解释性。其次,大多数医疗机构通过遵循标准政策进行干预关于开他汀类药物的风险水平,并且有足够的干预能力,因为他汀类药物广泛可用。最后,对他汀类药物使用的危害/益处分析表明,大多数人从他汀类药物中受益,尽管有些患者不能忍受他们的副作用。
模型有用性分析的一个例子:高级护理计划
上面的 ASCVD 示例虽然具有说明性,但可能是最简单的预测模型之一。但预测模型有可能触发干预措施,从而以更复杂的方式扰乱医疗保健工作流程,并且某些干预措施的利弊可能不太清楚。
为了解决这个问题, Shah 和他的同事开发了一个框架来测试预测模型在实践中是否有用。他们使用触发称为高级护理计划(ACP)的干预的模型演示了该框架。
ACP 通常提供给即将结束生命的患者,涉及对未来可能发生的情况以及患者失去能力时的愿望进行公开和诚实的讨论。这些对话不仅让患者对自己的生活有一种控制感,而且还降低了医疗成本,提高了医生的士气,有时甚至提高了患者的生存率。
Shah 在斯坦福的团队开发了一个模型,可以预测哪些住院病人可能在未来 12 个月内死亡。我们的目标是:确定哪些患者可能从 ACP 中受益。在确保该模型可以很好地预测死亡率并且公平、可解释和可靠之后,该团队进行了两项额外的分析,以确定该模型触发的干预是否有用。
第一个是成本效益分析,发现成功的干预(向模型正确识别为可能受益的患者提供 ACP)将节省约 8,400 美元,同时对不需要 ACP 的人进行干预(即模型错误)将花费大约 3,300 美元。“在这种情况下,非常粗略地说,即使我们只对了三分之一,我们也会收支平衡,”Shah 说。
但分析并没有就此停止。“为了节省那些承诺的 8,400 美元,我们实际上必须执行一个工作流程,例如,在 48 小时内涉及 21 个步骤、三个人和七个交接,”Shah 说。“那么,在现实生活中,我们能做到吗?”
为了回答这个问题,该团队模拟了 500 个住院日的干预,以评估医疗服务提供因素,如人员有限或时间不足(由于患者出院)将如何影响干预的益处。他们还量化了增加住院人员与在门诊提供 ACP 相比的相对收益。结果:拥有门诊选项可确保实现更多预期收益。“我们只需要跟进一半的出院患者即可获得 75% 的效用,这非常好,”Shah 说。
这项工作表明,即使你有一个非常好的模型和一个非常好的干预,只有当你也有能力提供干预时,一个模型才会有用,Shah 说。虽然事后来看可能会让这个结果看起来很直观,但 Shah 说,当时情况并非如此。“如果我们没有完成这项研究,斯坦福医院可能刚刚扩大了提供 ACP 的住院能力,尽管它的成本效益不是很高。”
Shah 的团队用于分析模型、干预措施以及干预措施的利弊之间相互作用的框架可以帮助确定在实践中有用的预测模型。“至少,建模者应该进行某种分析,以确定他们的模型是否会提示有用的干预措施,”Shah 说。“这将是一个开始。”