隐私保护：AI实现医疗保健临床数据匿名化-临床诊疗中的隐私保护

面对突如其来的新冠疫情，我们已经亲眼见证创纪录级别的数据泄露事件。IBM最近的一份报告发现，数据泄露的成本也在急剧攀升。

医疗保健无疑是受数据泄露影响最大的行业之一，每起数据泄露事件平均造成920万美元损失。在此类违规案例当中，最常暴露在风险之下的信息类型正是敏感客户数据。

制药和医疗保健企业均需要在保护患者数据的前提下，按照严苛的指导要求组织运营。因此，任何违规行为都可能引发高昂代价。例如，在整个药物发现阶段，企业需要收集、处理和存储个人身份信息（PII），而在试验结束并提交临床申请时，必须在所公布的结果中注意保护患者隐私。

欧洲药品管理局（EMA）0070号法规和加拿大卫生部出台的《公开发布临床信息》规定，均对数据匿名化提出了具体建议，希望尽量降低利用结果还原患者身份信息的风险。

除了倡导数据隐私之外，这些法规还要求共享试验数据，确保社区能够以此为基础开展工作。但这无疑让企业陷入了两难境地。

所以，制药企业到底如何在数据隐私与透明度之间求取平衡，同时又能及时、经济且高效地发布研究结果？事实证明，AI技术能够承担起提交过程中超过97%的工作量，大大减轻企业的运营负担。

临床研究结果（CSR）匿名化为何如此困难？

在实施临床提交匿名化的过程中，企业主要面临三大核心挑战：

非结构化数据难于处理：临床试验数据当中，有很大一部分属于非结构化数据。研究结果中包含大量文本数据、扫描图片和表格，处理效率低下。研究报告动辄上千页，从其中识别出敏感信息就如同大海捞针。而且，没有任何标准化技术培训解决方案能够自动执行这类处理工作。

手动过程既繁琐又容易出错：如今，制药企业需要雇用数百名员工对临床研究提交进行匿名处理。整个团队需要经历超过25个复杂步骤，典型的摘要文档就可能需要长达45天的处理周期。而且在手动检查几千页材料时，枯燥的过程往往极易引发错误。

监管指南的开放性解释：虽然法规中提出不少详细建议，但细节仍然不够完备。例如，加拿大卫生部的《公开发布临床信息》规定就要求身份信息的还原风险应低于9%，却并没有详细介绍具体的风险计算方法。

下面，我们将从解决问题的角度，设想能够处理这类匿名化需求的具体方案。

利用增强分析识别人类语言中的敏感信息

以下三大要素，有助于建立技术驱动型的匿名化解决方案：

用于自然语言处理（NLP）的AI语言模型

如今，AI已经能够像艺术家那样创作，也能像医生那样诊断。深度学习技术已经推动AI取得诸多进步，而AI语言模型正是其中一股中坚力量。作为专司处理人类语言的算法分支，AI语言模型特别擅长检测命名实体，例如患者姓名、社保号码和邮政编码。

不知不觉当中，这些强大的AI模型已经渗透到公共领域的各个角落，并受到公开文档的规模化训练。除了知名的维基百科之外，包含40000名患者脱敏数据的MIMIC-III v1.4数据库也成为训练AI模型的宝贵资源。当然，为了提高模型性能，还需要由领域专家根据内部临床试验报告，对模型开展后续重新训练。

通过人机回圈设计提高准确率

加拿大卫生部提出的9%风险阈值标准，可以大致转化为95%左右的模型准确度要求（一般用召回率或精确度来衡量）。AI算法能够查看大量数据并运行多轮训练周期来提高自身准确度。然而，单靠技术改进还不足以为临床应用做好准备，这些模型还需要人的引导与支持。

为了解决临床试验数据的主观性并改善产出结果，分析解决方案在设计上要求与人类协同工作——这就是所谓增强智能。即将人类视为人机回圈中的一部分，他们不仅负责数据标记和模型训练，同时要在解决方案生效后定期提供反馈。通过这种方式，模型的准确度和产出性能都将有所提升。

以协同方式解决问题

我们假设某项研究共涉及1000名患者，其中980名来自美国本土，其余20人来自南美洲。那么，是否需要对这20位患者的数据进行编辑（涂黑）或匿名化处理？是否有必要在同一国家或洲内选择患者样本？攻击者可能会以哪些方式把这些匿名化信息同年龄、邮政编码等数据结合起来，最终还原患者身份？

很遗憾，这些问题并没有标准答案。为了更清楚地解释临床提交指南，制药商、临床研究组织（CRO）、技术解决方案供应商和学术界的研究人员需要联合起来、协同处理。

AI驱动的匿名化方法

有了以上几条基本思路，接下来就是把它们拼凑成完整的解决方案流程。而整个匿名化方案中的各项技术，应当基于我们已经在工作中使用的实际方法。

临床研究报告中包含各种结构化数据（数字与身份实体，例如人口统计信息和地址条目），以及我们之前讨论过的各种非结构化数据元素。必须妥善处理，才能防止恶意黑客将这些内容还原为敏感的命名实体。结构化数据相对易于处理，但AI算法还需要攻克非结构化数据这道难关。

因此，首先使用光学字符识别（OCR）或计算机视觉等技术，将非结构化数据（通常为扫描图像或PDF等格式）转换为可读形式。之后，将AI算法应用于文档以检测个人身份信息。为了提升算法性能，用户可以分享对样本结果的反馈，帮助系统了解该如何处理这些置信度较低的分析内容。

隐私保护：AI实现医疗保健临床数据匿名化

AI驱动的匿名化方法

在匿名化完成之后，还须评估相应的身份还原风险。这项工作通常需要参考人群背景，再结合来自其他类似试验的数据来共同完成。风险评估会通过一组元素着重识别三大风险场景——检察官、记者和营销人员。这三群群体会从自身需求出发，尝试对患者信息加以还原。

在风险水平达到规定建议的9%之前，匿名化流程会持续引入更多业务规则和算法改进，尝试以重复循环的方式增强效能。再通过与其他技术应用的集成并建立机器学习运营（ML Ops）流程，整个匿名化方案就可以被纳入实际工作流当中。

比算法更艰难的挑战—数据质量

对制药企业来说，这样的匿名化解决方案能够将提交周期缩短达97%。更重要的是，这种半自动化工作流程既提高了效率，同时又保证有人类参与其中。但是，构建AI驱动型匿名化解决方案面临的最大挑战又是什么？

其实与大多数数据科学实践一样，这项工作的最大阻碍并不是用于识别命名实体的AI算法，而是如何将研究报告转换为可供AI处理的高质量数据。对于格式不同、样式和结构各异的文档，相应的内容摄取管道经常会无所适从。

因此，AI匿名化解决方案需要不断微调以适应新的文档编码格式，或者准确检测出图片/表格扫描件中的起始和结束位置。很明显，这方面工作才是AI匿名化当中最耗费时间和精力的领域。

临床研究的匿名化新挑战

随着技术的快速进步，临床研究的匿名化难度会不会持续降低、更加高效？虽然AI驱动型解决方案确实令人眼前一亮，但后续还将有新的挑战需要关注。

首先，通过社交媒体、设备使用情况和线上跟踪等方式收集到的消费者数据，正大大提升身份还原的风险。攻击者可以将这些公开信息同临床研究数据相结合，准确识别出患者的身份。更令人担忧的是，恶意黑客在AI成果的运用上非常积极，甚至有可能抢在制药企业的行动之前。

最后，法规也在持续演变，着力适应特定国家/地区的实践态势。也许很快就会有国家公布临床提交匿名化的具体法规，这必将增加企业保持合规的复杂性和成本负担。但所谓前途是光明的、道路是曲折的，AI技术的发展成熟至少为整个行业带来了攻克难题的希望曙光。