近年来,随着深度学习技术的发展,医疗人工智能(医疗AI)在基于视网膜图像判定人体健康状况、诊断潜在眼部和全身性疾病等领域,具有巨大潜力。然而,AI模型的开发往往需要大量的标记,这些标记通常只针对特定任务,因而对不同临床应用的泛化能力十分有限。


近日,在nature杂志上发表的一篇研究介绍了基础模型RETFound——一个针对视网膜图像的大模型。RETFound能从未标记的视网膜图像中学习可泛化的表征,具体而言,RETFound通过自监督学习的方法在160万张未标记的视网膜图像上进行训练,然后通过微调来适应具有明确标记的疾病检测任务。科学家们展示了微调后的RETFound在诊断和预测眼部疾病方面的能力,以及在较少标记数据的情况下,对于复杂的全身性疾病(如心力衰竭和心肌梗死)的预测能力,发现它的表现始终优于其他模型。


总之,RETFound提供了一个可泛化的解决方案,能提高模型性能并减轻专家标记工作的负担,从而实现了基于视网膜图像的AI更广泛的临床应用。


图1:论文封面。图源:nature官网


从心灵的窗户窥见疾病的端倪


毋庸置疑,医疗AI的发展之迅速,在不少医疗领域已达到,甚至超越了临床专家的准确度,比如在进行对威胁视力的视网膜疾病的转诊建议、胸部X射线图像的病理学检测等。但上述模型是基于大量高质量的标记开发完成的,这样的标记需要大量的专家评估,对医生而言是一项繁重的工作负担。更为重要的是,由于具有相关领域知识的专家十分稀缺,无法满足AI对于标记的要求,这也导致大量医疗数据未被标记,无法被有效利用。


对此,深度学习中的自监督学习(self-supervised learning,SSL),或可提供解决思路。


SSL通过直接从数据中获取监督信号来缓解数据效率低下的问题,而不是依靠专家标记。SSL训练模型执行不需要标签或可以自动生成标签的“前置任务”,该过程中模型利用大量未标记数据来学习通用特征的表征,从而轻松适应更具体的任务。在预训练阶段之后,模型将针对特定的下游任务进行微调,例如分类或细分。在各种计算机视觉任务中,SSL模型的性能优于基于监督学习的迁移学习(例如,使用ImageNet和分类标签来预训练模型)除了提高标记的效率之外,在对来自不同领域的新数据进行测试时,基于SSL的模型比监督模型的表现更好。


强大的泛化表征能力,加之其在许多下游任务中通过微调模型实现的高性能,种种证据皆表明SSL在数据丰富、任务多样化但标记稀缺的医疗AI领域中具有巨大潜力。


彩色眼底摄影(colour fundus photography,CFP)和光学相干断层扫描(optical coherence tomography,OCT)是眼科最常见的成像方式,此类视网膜图像在常规临床实践中得以迅速积累。除了能显示与眼部疾病相关的临床特征外,这些图像对于全身性疾病的诊断也很有价值。例如,视神经和视网膜内层摄影提供了中枢神经系统组织的非侵入性影像,从而为医生提供了了解病人神经病变的窗口。同样地,视网膜血管的几何形状也有利于医生深入了解其他器官(如心脏和肾脏)


视网膜图像+SSL模型,一个基于自监督学习的视网膜图像基础模型由此诞生了。


RETFound:视网膜图像基础模型


在这项研究中,科学家通过SSL利用大量未标记的视网膜图像构建了RETFound,并用其促进多种疾病的检测。


具体而言,科研团队开发了两个独立的RETFound模型,一个基于CFP,另一个基于OCT,通过掩码自编码器(一种SSL技术),依次对自然图像(ImageNet-1k)、Moorfields糖尿病图像数据集(MEH-MIDAS)的视网膜图像和公共数据(共计904170个CFP数据和736442个OCT数据)进行分析。


然后,科学家通过使用特定任务标签微调RETFound,使RETFound可以适应一系列具有挑战性的诊断和预测任务,并验证其性能。


图2.RETFound基础模型的开发和评估示意图。阶段1:使用来自MEH-MIDAS的CFP和OCT图像以及公共数据集,通过SSL构建RETFound。阶段2:通过内部和外部评估的监督学习使RETFound适应下游任务。图源:论文


图2概述了RETFound的构建和应用。为了构建RETFound,科学家使用了904170幅CFP图像,其中90.2%的图像来自MEH-MIDAS,9.8%来自Kaggle EyePACS;科学家同时采用了736442个OCT图像,其中85.2%来自MEH-MIDAS,14.8%来自其他参考文献。MEH-MIDAS是一个回溯数据集,包括2000年1月至2022年3月期间,在Moorfields眼科医院就诊的37401名糖尿病患者的完整眼部成像记录。


在对这些视网膜图像进行自监督预训练后,科学家评估了模型在适应不同眼部和眼科任务方面的性能和通用性。验证时,他们首先考虑对眼部疾病的诊断,包括糖尿病视网膜病变和青光眼;其次是眼科疾病的预后,特别是一年之内对侧眼(contralateral eye)向湿性血管性年龄相关性黄斑病变(wet AMD)转变的概率;最后是其他与眼科相关的挑战,特别是基于视网膜图像的心血管疾病(缺血性中风、心肌梗死和心力衰竭)的三年预测和神经退行性疾病(帕金森病)的预测。


他们选择了公开可用的数据集来完成眼部疾病诊断的任务。详情见表1。


表1.心肌梗死3年预测的匹配矩阵。a,CFP的混淆矩阵。b,OCT的混淆矩阵。RETFound较其他模型显示出最高的敏感性和特异性。表源:论文


对于眼部疾病预后和全身疾病预测的任务,研究团队使用了Moorfields AlzEye研究(MEH-AlzEye)的队列,该队列包含了2008年至2018年间在Moorfields眼科医院就诊的353157名患者的眼科数据,其中包含来自整个英格兰入院的系统性疾病数据。


RETFound vs. 传统模型


科研团队将RETFound的性能和标记效率与三个预训练的比较模型进行了比较:SL-ImageNet、SSL-ImageNet和SSL-Retinal。所有模型都使用不同的预训练策略,但具有相同的模型架构以及下游任务的微调过程,RETFound的性能和标记效率始终占优。


SL-ImageNet采用传统的迁移学习,即在ImageNet-21k(约1400万张带有分类标签的自然图像)上通过监督学习的方式预训练模型;SSL-ImageNet通过SSL在ImageNet-1k(约140万张自然图像)上预训练模型,SSL-Retinal通过SSL在视网膜图像上从头开始预训练模型。RETFound在扩展到视网膜图像之前使用SSL-ImageNet的权重作为基线(相当于在自然图像上使用SSL预训练模型,然后在视网膜图像上进行训练)


在最新成果中,科学家们报告了这些模型的内部和外部评估结果。利用标记后的训练数据,这些模型可以适应每项任务,并在内部测试集以及与训练数据完全不同的外部数据集上进行评估。此外,科学家使用接收者操作曲线下面积(area under the receiver operating curve,AUROC)和精确召回曲线下面积(area under the precision-recall curve,AUPR)来报告模型性能;同时使用RETFound和每个任务中最具竞争力的比较模型之间的双边t检验来计算P值,以检查模型的显著性。


图3.不同模型对于眼部疾病诊断分类的表现。图源:论文


图3给出了不同模型对于眼部疾病诊断分类表现的内部评价、外部评价和预后表现。其中图a为内部评价。在诊断眼部疾病(如糖尿病视网膜病变和青光眼)的任务中,通过微调和内部评估来使模型适应每个数据集。图b为外部评估。上述几个模型在一个糖尿病视网膜病变数据集上进行微调,并在其他数据集上进行外部评估。图c为预后表现。模型经过微调,可以预测1年内对侧眼向湿性AMD转变的概率,并进行内部评估。结果表明,RETFound在所有任务中表现最佳。


图4.不同模型利用视网膜图像预测全身性疾病3年发病率的表现。图源:论文


图4给出了不同模型利用视网膜图像预测全身性疾病3年发病率的表现。其中图a为内部评价。通过微调,模型可以适应MEH-AlzEye数据集。内部评估是基于测试集实现的。图b为外部评价。模型在MEH-AlzEye上进行微调,并在UK Biobank上进行外部评估。


尽管由于任务难度较高,几个模型整体表现不尽如人意,但RETFound在所有内部评估和大多数外部评估中AUROC都显著高于其他几个模型。



图5.几个典型应用场景中模型的标记效率。图源:论文


标记效率是衡量不同数量训练数据下模型的性能,以了解达到目标性能水平所需的数据量。图5中灰色虚线突出显示了RETFound和最具竞争力的模型之间所需训练数据的差异。图像中不同颜色曲线代表不同模型的AUROC,95%置信区间,中心代表AUROC平均值。


数据显示,在利用CFP图像预测心力衰竭和心肌梗死3年发病率两项任务中,RETFound仅使用10%数据量,其表现就优于对照组模型。而在糖尿病视网膜病变相关的数据集MESSIDOR-2和IDRID上,RETFound仅使用45%和50%的数据量,模型表现即可超越对照组模型。


尽管这项工作系统地评估了RETFound在诊断和预测多种疾病方面的作用,但仍存在一些限制和挑战,需要在未来的工作中进行探索。首先,用于开发RETFound的大多数数据都来自英国,因此需要考虑未来引入全球视网膜图像后可能对模型效果带来的影响,模型有必要引入更加多样化和平衡的数据。


其次,虽然这项研究探索了CFP和OCT下模型的性能,但尚未研究CFP和OCT之间的多模态信息融合,这可能会导致RETFound性能的进一步提高。


最后,一些临床相关信息,例如人口统计和视敏度(visual acuity),可能可以作为眼科研究的有效协变量,它们尚未包含在SSL模型中。可以想象,通过引入更多数量的图像、探索多模式数据之间的动态交互,可以进一步增强RETFound在后续迭代中的表现。研究团队对于RETFound在未来的广泛应用持乐观态度,同时也指出,增强人与AI的集成对于实现医疗AI应用的真正落地至关重要。


本文来自微信公众号:nextquestion(ID:gh_2414d982daee),作者:铸雪,编辑:lixia,校审:韵珂