机器学习医学进展有助改善肠道疾病检测

发布人:Google Research 副总裁 Yossi Matias 和研究员 Ehud Rivlin

随着持续准确处理大量数据(特别是可视化数据)的能力不断增强,计算机辅助诊断系统在协助医生完成工作方面应用越来越频繁,进而为医疗保健行业带来了意义非凡的改善。这项技术在结肠直肠癌 (Colorectal cancer) 的治疗和诊断等许多领域中都发挥了重大作用。这种癌症致命性很高,每年在全球范围内导致超过 90 万人死亡。CRC 起源于结肠中的小型癌前病变,也称息肉 (Polyp (medicine)),识别和切除息肉能够十分成功地预防与 CRC 相关的死亡。

胃肠科医生 (GI) 通常用于检测和切除息肉的方法是结肠镜检查 (Colonoscopy),仅在美国每年就会进行大约 1900 万次结肠镜检查。在结肠镜检查过程中,胃肠科医生会使用一个带摄像头的探头来检查肠道中是否存在癌前息肉和癌症早期迹象,并切除那些可能存在隐患的组织。然而,其中也会存在一些复杂因素,例如 不完全检测(息肉出现在视野范围内,但可能由于其大小或形状而被 GI 遗漏)以及 不完全探索(息肉未出现在摄像头的视野范围内),这样可能就会导致很大一部分息肉漏诊。事实上,研究表明,结肠镜检查中有 22%-28% 的息肉会漏诊,其中 20%-24% 有可能会发生癌变(成为腺瘤 (Adenoma))。

使用机器学习 (ML) 可以提高结肠镜检查的效率,有助于 GI 对抗结肠直肠癌,今天我们将分享此方面取得的进展。在“通过大规模 AI 系统检测难以检测的息肉” (Detection of Elusive Polyps via a Large Scale AI System) 一文中,我们提出了一个 ML 模型,旨在通过帮助 GI 检测视野范围内的息肉来解决不完全检测的问题。这项研究是对我们 先前发表论文 的补充,即在结肠镜检查过程中,通过标记可能被遗漏的区域,让 GI 后续跟进检测,最大限度地覆盖结肠检测范围。临床研究证明,这些系统大幅提高了息肉的检测率。

不完全探索

为帮助 GI 检测视野范围外的息肉,我们之前开发了一个 ML 系统,在结肠镜检查过程中,该系统能够估算结肠中已检测和未检测区域的比例,从而降低不完全探索率。该早期研究采用了一项涉及计算机视觉和几何学的技术来计算结肠的逐段覆盖率。该技术称为“通过深度进行结肠镜覆盖率不足检测”,包括两个阶段:首先计算结肠镜视频每一帧的深度图,然后使用这些深度图实时计算覆盖率。

ML 系统通过单个 RGB 图像**(左)来计算深度图像(中)。然后,根据视频序列的深度图像计算结果,计算出局部覆盖率(右)**,并检测出覆盖率不足且需要再次查看的区域(蓝色表示观察到的部分,红色表示未覆盖的部分)。您可以在我们之前发表的文章中了解有关此项研究的详细信息

通过逐段检测,我们可以估算出当前一段结肠的覆盖率。这种功能的帮助作用显而易见:在检查过程中,系统可能会提醒医生注意覆盖率不足的部分,医生可以立即返回并重新检查这些区域,这样一来就有可能降低由于不完全探索而漏诊的息肉比率。

不完全检测

最近发表的论文 中,我们探究了不完全检测的问题。我们描述了一个 ML 模型,该模型可以帮助 GI 检测视野范围的息肉,降低不完全检测率。我们开发了一个基于卷积神经网络 (Convolutional neural network,CNN) 的系统,其架构结合了时间逻辑和单帧检测器,可以提高检测的准确性。

这个新系统主要有两个优点。第一,该系统减少了难检测的息肉出现假阴性的情况(此类息肉给 GI 带来了极大的检测难度),以此提高检测性能。第二,该系统的假阳性率非常低。假阳性率低就意味着这些系统更有可能被临床采用。

ML 系统检测到的各种息肉的示例

我们在 3600 个检查过程(8600 万视频帧)的基础上训练了该系统,并在 1400 个检查过程(3300 万帧)的基础上进行了测试。所有的视频和元数据均已去识别化。该系统检测到了 97% 的息肉(即灵敏度为 97%),每个检查过程中有 4.6 个误报,这与之前公布的结果相比有很大的改进。后续的检查显示,这些误报中有些实际上是有效的息肉检测,这表明该系统能够检测到内窥镜检查执行医生和数据注释人员漏诊的息肉。该系统在 难检测 息肉方面的表现表明其具有通用性,因为该系统已经学会检测最初被所有查看检查过程的人遗漏的息肉。

我们评估了息肉在视野范围内出现少于 5 秒时该系统的表现,这种情况会给 GI 带来更高的检测难度,而且通常会大幅降低模型的灵敏度。在这种情况下,系统的灵敏度约为原始检查过程的三倍。若息肉在视野范围内出现的时间少于 2 秒,这种差异甚至更加明显——系统的灵敏度可达原始过程的 5 倍。

同样有趣的是,该系统对神经网络架构的选择相当不敏感。我们使用了两种架构:RetinaNet 和 LSTM-SSD。RetinaNet 是一种在静态图像上进行目标检测的领先技术,若要将其用于视频,可对视频中的连续帧进行检测。若计算预算固定,该架构是各种基准测试中性能最好的架构之一,而且还因实现计算速度和准确性间的平衡而闻名。LSTM-SSD 则是一个真正的视频目标检测架构,它可以明确感知视频的时间特征(例如,检测的时间一致性、处理模糊和快速运动的能力等)。该架构以稳健的性能和非常少的计算量而闻名,因此可以在较为便宜的处理器上运行。我们还在需要大量计算的 Faster R-CNN 架构上获得了相当的结果。事实表明,不同架构得出的结果十分相似,这意味着人们可以选择符合现有硬件规格的网络。

未来临床研究

在检测论文报告的研究中,我们与耶路撒冷的 Shaare Zedek 医疗中心合作,利用我们的系统实时协助 GI,对 100 个检查过程进行了临床验证。在不遗漏执行检查的 GI 所检测息肉的情况下,平均每次检查过程中该系统能够帮助检测出一个漏诊的息肉,同时平均出现 3.8 个误报。GI 一直对该系统予以积极反馈。

这一系统对改善息肉检测的潜在帮助令我们备受鼓舞,我们期待着与检测科室的医生一起合作,进一步验证这项研究。

致谢

此研究的执行团队来自 Google Health 和以色列 Google Research,得到了 Verily Life Sciences 的支持,并与 Shaare Zedek 医疗中心合作完成。Verily 正通过在以色列新成立并由 Ehud Rivlin 领导的中心推进此项研究。此研究的执行人员为 Danny Veikherman、Tomer Golany、Dan M. Livovsky、Amit Aides、Valentin Dashinsky、Nadav Rabani、David Ben Shimol、Yochai Blau、Liran Katzir、Ilan Shimshoni、Yun Liu、Ori Segol、Eran Goldin、Greg Corrado、Jesse Lachter、Yossi Matias、Ehud Rivlin 和 Daniel Freedman。同样我们还要向在研究期间提供建议并对我们系统原型进行测试的多家机构和各位 GI 致以感谢。 我们还要感谢所有参与此项目的团队成员和协作者,其中包括:Chen Barshai、Nia Stoykova 等多位人员。

原文:Improved Detection of Elusive Polyps via Machine Learning
中文:TensorFlow 公众号