3类严重程度，6级不确定性！德州大学等首创全新胸部X光数据集，登IEEE TMI-51CTO.COM

相比于普通图像分类，医学诊断具有两点特殊的性质：1.不确定性；2.病情发展程度。

正如图1报告所示，医生的描述中往往会涉及到相关症状的严重程度和可能性。然而现有的医学数据库往往直接模仿自然图像，仅仅提供有无的Binary或者疾病的分类的Multiple Label，严重忽略了具有重要临床意义的因素。

图1 放射学报告中关于疾病不确定性和严重程度的描述（疾病用红色字体标出，严重程度用绿色高亮，不确定性用蓝色高亮）

基于胸部X光（CXR）检查这种广泛应用于筛查和诊断多种疾病的临床成像方法，德州大学阿灵顿分校、NIH、理化学研究所、东京大学以及日本国立癌症研究中心的研究人员首次提出了提出了一个包含了疾病的严重程度和不确定性的全新的数据集。

论文链接：https://ieeexplore.ieee.org/abstract/document/10632161

数据集下载：https://github.com/MengRes/Uncertain-Label.git

数据集Physionet：https://physionet.org/content/cad-chest/1.0/

此外，他们还提出了一种解剖结构感知的多关系图学习方法，用于改进CXR疾病分类。

论文已经被IEEE Transactions on Medical Imaging（TMI）接收。

文章的主要贡献包括：

1. 提出一个包含疾病严重程度和不确定性的数据集。

2. 提出了一种使用医学知识的多关系图学习方法用于CXR疾病分类。

数据集

诊断疾病的严重程度在临床诊断中至关重要，超越了疾病类别存在或不存在的二元分类。

在MIMIC-CXR数据集中（最大的胸片数据集之一）以及随附的放射学报告，疾病严重程度的描述（例如图1中的「small pleural effusion」或「mild cardiomegaly」）很常见。据了解，之前没有研究解决报告的疾病严重程度的问题。

其次，由于胸片的基本复杂性和难度，对医生的疾病不确定性进行建模非常重要。放射科医生经常在临床记录中使用「可能」、「不排除」和「也许」等术语在临床记录中表明不同程度的不确定性。大多数先前的研究将这种不确定性视为负面类别，这可能会误导临床决策。

团队使用了基于规则的提取方法从放射学报告中提取疾病的名称，严重程度和不确定性信息。

对于疾病名称，列出每一种疾病可能使用的表述，对于疾病严重程度，列出了表示严重程度的词语，并将严重程度量化为轻度（mild）,中度（moderate）和严重（sever）三个等级，如表1所示。

对于疾病的不确定性，团队与医生合作，制定了不同的不确定性词语与标签值的映射，将不同的严重程度对应于不同的标签值，对疾病的描述越肯定，标签值越高，如表2所示。

表1 表示疾病严重程度的词语

表2 表示疾病不确定性的词语

团队邀请经验丰富的医生来评估被提取的标签的准确性，并向医生提供了500份随机选择的放射学报告及其相应提取的疾病，严重程度和不确定性标签。根据医生的反馈统计了标签的准确性，如表3所示。

表3 提取的标签的准确性评估

团队在上述提取的标签上使用图网络对疾病分类。根据医生提供的医学知识，构建了三种图网络关系，分别为spatial graph（表示解剖学结构之间的关系），semantic graph（疾病之间的关系）和implicit graph（表示潜在的关系）。

在spatial graph中，每个解剖学结构作为一个节点，通过根据解剖学结之间的空间关系决定其之间边的连接。

在semantic graph中，边的连接则基于疾病之间的关系（如图2所示）。团队利用基于图的Grad-CAM方法来获取最后一层类别的特定权重。

使用上述权重，为每个节点计算每个异常类型的热图值。热图是表示节点特征对特定类别预测贡献的二维表示。对每个节点，根据热图值进行排序，并选择最高值（top-1）和次高值（top-2）。

这些值对应于可能在该节点发生的异常。如果节点i和节点j的top-1标签在知识图中是相连的，则在两个节点之间建立边，Ase1(i, j) = 1，否则Ase1(i, j) = 0。同样的方法用于构建Ase2矩阵，表示节点的top-2标签之间的语义关系。

在implicit graph中，解剖学结构之间互相连接。模型的结构如图2所示，具体介绍见论文。

图2 疾病之间的关系：心脏肥大会损害心脏有效泵血的能力，这种损害会进一步加剧因肺充血而引起的肺水肿，然后充血会将液体推入胸膜腔，而这种液体的积聚会导致胸腔积液

图3 方法的网络结构

团队在提取的标签上进行实验并和其他方法比较，结果如表4所示。

模型通过二元标签和不确定标签进行训练，记为Ours（0-1）和Ours（Uncertain）。

为了更深入地研究方法的性能，团队进行了消融研究。每个实验都针对具有二元标签和不确定标签的spatial graph、semantic graph和implicit graph进行单独训练。

表4 与其他方法的比较结果

将疾病感兴趣区域与在ResNet-50模型上使用Grad-CAM生成结果进行比较。从报告中提取异常区域如下图所示。

可以发现，放射学报告显示双侧下肺（左下肺和右下肺）出现混浊。

此外，右肺的混浊可能代表肺炎。ResNet-50模型在不透明和肺炎的情况下重点关注右下肺、右中肺和心脏区域。

从报告中可以发现心脏区域没有异常，而左下肺的疾病被遗漏，使得Grad-CAM结果不太准确。新模型同时关注左下肺和右下肺，并且比ResNet-50 方法表现更好。

图4 报告中的异常描述以红色突出显示，从文本中提取的异常和位置在报告下方提供

其中，（a）和（c）是ResNet-50模型中Grad-CAM获得的异常感兴趣区域；（b）和（d）是通过新方法获得的感兴趣的节点。

在结果中，每个边界框对应一个解剖区域的节点，红色边界框是关注度最高的节点，黄色边界框对应与红色边界框密切相关的节点。绿色箭头表示节点之间的连接。

在本研究中，作者探讨了在临床环境中，CXR疾病诊断中涉及的疾病严重性和不确定性问题。

为了解决这一问题，他们采用基于规则的方法，从放射学报告中提取反映疾病严重程度和不确定性的标签。

在此基础上，利用融合医学知识的图神经网络对疾病的严重程度和不确定性进行预测。