发布人:Google Health 软件工程师 Zaid Nabulsi 和 Po-Hsuan Cameron Chen
在医学成像中应用机器学习 (ML),为改善胸部 X 光 (CXR) 图像解读的可用性、延迟时间、准确率和一致性提供了绝佳的机会。事实上,我们已经开发了大量的算法来检测如肺癌、肺结核和气胸等特定疾病。然而,由于这些算法是被训练用于检测特定疾病,其在普遍临床环境下的实用性可能会受到限制,因为这种环境下可能会出现各种各样的异常情况。例如,我们无法通过气胸检测算法发现癌症结节,而肺结核检测算法可能也无法识别肺炎特有的症状。由于初始分诊步骤是确定 CXR 是否包含相关的异常,如果能使用一种通用算法,以识别包含任何异常情况的 X 光图像,即可大大简化工作流。然而,由于在 CXR 上出现的异常情况种类繁多,开发能识别所有异常情况的分类算法可谓充满挑战。
我们发表于《科学报告》的 “ 深度学习用于区分正常和异常胸部放射照片,并泛化到两种未知疾病:结核病与新冠肺炎 ( Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19 )” 一文中提出了一个模型**,**该模型可以在多个去识别化的数据集和环境中区分正常和异常的 CXR。我们发现,该模型在检测一般的异常情况以及结核病和新冠肺炎等未知病例方面表现良好。我们还针对公开可用的 ChestX-ray14 数据集发布了本研究中用到的测试集的放射科医生标签集[1]。
用于检测异常的胸部 X 光图像的深度学习系统
我们使用基于 EfficientNet-B7 架构的深度学习系统,且在 ImageNet 上进行了预训练。我们使用来自印度阿波罗医院的 20 多万张去识别化 CXR 来训练该模型。通过使用基于正则表达式的 自然语言处理 方法,我们在相关的放射学报告中为每张 CXR 分配“正常”或“异常”标签。
为评估该系统在新问诊者群体中的普及程度,我们在两个由大量异常情况组成的数据集中比较了其性能:阿波罗医院数据集的测试分块 (DS-1),以及公开可用的 ChestX-ray14 (CXR-14)。一群获美国职业认证的放射科医生为此项目对两个测试集的标签进行了注释。该系统在 DS-1 和 CXR-14 上的接收者操作特征曲线下面积 (Receiver operating characteristic) (AUROC) 分别达到了 0.87 和 0.94(数字越高越好)。
尽管对 DS-1 和 CXR-14 的评估中包含多种异常情况,不过出现的用例可能是在全新或未知的环境(未知疾病)中利用这样的异常检测算法。为评估该系统对新问诊者群体和训练集中未知疾病的通用性,我们使用了来自三个国家(地区)的四个去识别化数据集,包括两个公开可用的结核病数据集和两个来自 Northwestern Medicine 的新冠肺炎数据集。该系统在检测结核病时曲线下面积达到了 0.95 至 0.97;在检测新冠肺炎时曲线下面积达到了 0.65 至 0.68。由于对这些疾病呈现阴性的 CXR 仍可能包含其他相关异常情况,我们进一步对该系统检测异常(而不是检测疾病为阳性或阴性)的能力进行评估,发现结核病数据集的曲线下面积为 0.91 至 0.93,新冠肺炎数据集的曲线下面积为 0.86。
多重评估(异常检测和疾病检测)的目的是区分二者:指定疾病可能会出现(或不出现)某种异常;而某种异常可能由多种疾病导致。我们在研究中对两者进行了评估
检测新冠肺炎的表现大幅下降是因为许多被系统标记为“阳性”的异常病例对于新冠肺炎来说呈现阴性,但仍需要注意,其中可能包含异常 CXR 结果。这进一步突显了异常检测算法的作用,尤其是在特定疾病模型可用的情况下。
此外需要注意的是,泛化到未知疾病(即结核病和新冠肺炎)和泛化到未知 CXR 结果(例如胸腔积液 、实变 /浸润)之间存在差别。在此项研究中,我们证明了该系统在检测未知疾病方面的通用性,但对于未知 CXR 结果则不具有通用性。
胸部 X 光片的真假阳性及真假阴性样本,(A) 代表一般异常情况,(B) 代表结核病,(C) 代表新冠肺炎。在每张 CXR 上,我们用红色勾勒出模型重点识别为异常的区域(即 类激活图),并用黄色勾勒出放射科医生指出的兴趣区域
临床方面的潜在优势
为了解深度学习模型在改善临床工作流方面的潜在实用性,我们模拟了在病例优先级方面该模型的应用,即“加急”异常病例,并将其放置在正常病例之前。在上述模拟操作中,系统将异常病例的周转时间减少了 28%。通过这种设置,我们可以重新确定优先级,将复杂的异常病例转交给心胸专科放射科医生,从而对可能需要紧急决策的病例进行快速分类,并有机会通过简化审查的方式对阴性 CXR 进行批量审查。
模拟基于深度学习模型优先级排序所带来的影响(与随机审查顺序对比):(A) 代表一般异常情况,(B) 代表结核病,(C) 代表新冠肺炎。红条中异常 CXR 序列为红色,正常 CXR 序列为粉色;左侧的红条密度较大,表示异常 CXR 会在正常 CXR 之前被审查。直方图表示平均周转时间得到改善
此外,我们发现该系统可以作为预训练模型来优化胸部 X 光片的其他 ML 算法,尤其是在数据有限的情况下。例如,我们在最近的研究中使用了正常/异常分类算法,以根据胸部 X 光片检测肺结核。在专业放射科医生或分子检测技术等资源匮乏的地区,异常情况和结核病的检测算法可以在初期诊断中发挥关键作用。
分享改进后的参考标准标签
要发挥 ML 的潜力,以在世界范围内辅助解读胸部 X 光片,我们还有很多工作要做。具体来说,在去识别化的数据上获得高质量标签可能是在医疗领域开发和评估 ML 算法的一个重要障碍。为了加速努力进程,我们通过 发布在本研究中用到的标签,对 之前发布的标签 进行扩展,并将其用于公开可用的 ChestX-ray14 数据集。我们期待着社区在该领域开展未来的机器学习项目。
致谢
对此项目做出主要贡献的 Google 员工包括 Zaid Nabulsi、Andrew Sellergren、Shahar Jamshy、Charles Lau、Eddie Santos、Atilla P. Kiraly、Wenxing Ye、Jie Yang、Rory Pilgrim、Sahar Kazemzadeh、Jin Yu、Greg S. Corrado、Lily Peng、Krish Eswaran、Daniel Tse、Neeral Beladia、Yun Liu、Po-Hsuan Cameron Chen 和 Shravya Shetty。一同协作的放射科医生 Sreenivasa Raju Kalidindi、Mozziyar Etemadi、Florencia Garcia Vicente 和 David Melnick 也对此项目做出了重大贡献并投入了大量的精力。感谢 NIH 临床中心公开提供的 CXR-14 数据集。感谢 Sameer Antani、Stefan Jaeger、Sema Candemir、Zhiyun Xue、Alex Karargyris、George R. Thomas、Pu-Xuan Lu、Yi-Xiang Wang、Michael Bonifant、Ellan Kim、Sonia Qasba 和 Jonathan Musco 在结核病数据收集方面的辛勤工作。在此我还想对 Google Health Radiology 和标签软件团队的诸位成员表示感谢,另外还要特别感谢 Shruthi Prabhakara、Scott McKinney 和 Akib Uddin。衷心感谢在整个研究过程中提供图像解读和注释的放射科医生;Jonny Wong 负责协调图像注释工作;Gavin Bee、Mikhail Fomitchev、Shabir Adeel、Jeff Bertram 和 Benedict Noero 负责数据发布;David F. Steiner、Kunal Nagpal 和 Michael D. Howell 负责为手稿提供反馈;Craig Mermel、Lauren Winer、Johnny Luu、Adrienne Welch、Annisah Um’Rani 和 Ashley Zlatinov 负责为文章提供反馈。
[1] 标签包括肺膨胀不全、心脏肥大、积液、浸润、肿块、结节、肺炎、气胸、实变、水肿、肺气肿、纤维化、胸膜增厚、疝气、其他异常情况及正常和异常情况的对比。
原文:Detecting Abnormal Chest X-rays using Deep Learning
中文:TensorFlow 公众号