文摘
本研究旨在评估一个深转移上优于模型识别糖尿病性视网膜病变(DR)与高可变性和训练使用数据集的2型糖尿病(T2D)和比较模型的性能,在1型糖尿病患者(近年来)。Kaggle数据集,这是一个公开的数据集,Kaggle数据集分为训练和测试。在比较数据集,我们收集了近年来患者的视网膜眼底图像在台湾长庚纪念医院从2013年到2020年,和图片是近年来数据集分为训练和测试。模型被开发使用4种不同的卷积神经网络(Inception-V3 densenet - 121、VGG1 Xception)。博士预测的模型性能评估从每个数据集,使用测试图像和曲线下面积(AUC)、敏感性和特异性进行了计算。模型的训练数据集使用Kaggle平均(范围)AUC的0.74(0.03)和0.87(0.01)在测试Kaggle和近年来的数据集,分别。模型训练使用近年来数据集的AUC 0.88(0.03),下降到0.57(0.02)在测试Kaggle数据集。热图显示模型集中在视网膜出血,血管,和分泌博士预测错误的预测图像、工件和low-image质量影响模型的性能。高可变性和T2D的模型主要数据集可以应用到近年来的病人。数据集同质性可能会影响性能,可训练性和模型的泛化。
1。介绍
糖尿病性视网膜病变(DR)是一种严重的血管并发症,可能导致1型糖尿病患者失明(近年来)1]。早期诊断和干预可以延缓疾病进展,鼓励患者进行眼科检查疾病的发病后3 - 5年,每年筛查之后[博士2,3]。尽管早期治疗的好处,大约60%的患者接受常规筛查(博士2]。报道的不依从推荐年度筛查的理由包括成本、缺乏眼保健,没有感知需要(4]。因此,自动检测可能会填补这些资源缺口,甚至通过提供及时发现改善病人的结果。
在推进技术在人工智能的时代,许多研究已经证明深卷积网络申请检测的有效性(博士5- - - - - -7]。然而,宽变化的预测方法中存在的问题在不同的研究(8]。理解的因素影响算法的可靠性和鲁棒性是重要的临床部署和可以帮助确保一致性在各种条件下的性能。一项研究回顾了潜在因素(9];然而,不同病因的糖尿病或可变性的训练图像是否影响算法的性能还有待调查。
糖尿病患者可以根据不同的病因分为两大类:近年来,由于胰岛素不足,也被称为胰岛素依赖型糖尿病,和2型糖尿病(T2D),这是由胰岛素抵抗引起的,也称为胰岛素依赖糖尿病。T2D占糖尿病。大多数情况下在美国人口,> 90%的糖尿病患者有T2D,而近年来仅占5%10]。近年来主要影响欧洲人口(11),其患病率在亚洲人口甚至更低;例如,近年来出现在< 1%的糖尿病人在台湾12]。虽然近年来提出的少数民族糖尿病人口,近年来患者更有可能培养博士和比患者更严重的视觉结果T2D [1,2,13,14]。博士的一项研究报道,青年与近年来也发展的速度比那些T2D [15]。当评估糖尿病引起视力障碍,博士占视力差的86%在T2D(近年来,只有33%14]。作为机器学习被广泛用于博士的自动检测,主要从数据集获得大多数图像包含的图像T2D的病人。此外,博士的调查模型识别的性能在特定的近年来人口是有限的。
糖尿病的病因(即评估是否不同。,T1D and T2D) affect the performance and robustness of deep learning models, we conducted this study using deep learning models trained using two datasets: one from open-access datasets with high image variability from T2D patients predominantly and the other one consisting of images obtained only from T1D patients followed at a single medical center. As our dataset is small compared with the recommended size [9),深层转移最好使用学习方法,它允许低培训成本和使用一个较小的数据集通过重用pretrained网络解决不同的任务(16]。深度学习模型的性能和热图训练两个数据集进行比较。
2。材料和方法
2.1。数据集
开放获取的数据集是Kaggle的子样品从一个数据集,即Train.001,这是一个公开的数据集提供的EyePACS [17),它包含一组患者左右的平均年龄55.4岁,标准差11.3岁(5]。视网膜眼底图像的其他数据集是回顾性从近年来获得的病人在一个拥有3700个床位的医疗中心,长庚纪念医院,林口医疗中心,台湾,2013年和2020年之间。所有近年来从长庚青少年糖尿病患者眼研究[18,19),根据世界卫生组织的诊断标准诊断(20.]。近年来数据集包括患者平均年龄25.7岁,标准差5.8岁。在近年来的数据集,使用两种类型的彩色眼底相机(Topcon医疗系统,奥克兰,新泽西,美国;Kowa,东京,日本,和数字Non-Mydriatic视网膜相机,佳能、日本东京)。在这两个数据集包括图像分辨率 来 像素。本研究机构审查委员会批准(无长庚纪念医院。201900477 b0)和遵守赫尔辛基宣言的原则。
2.2。博士的分类
从近年来患者视网膜眼底图像分级由两个训练有素的视网膜眼科医生(EYK和NKW)根据国际临床糖尿病视网膜病变疾病严重程度量表。图像与工件、阴影或质量差,不能分类被排除在外。视网膜眼科医生都不知道的临床信息,如人口、实验室数据,和之前的治疗。另一方面,博士Kaggle数据集的分类根据提供的标签数据集定义。在这项研究中,博士被定义为在任何阶段[博士的诊断21]。
2.3。数据预处理和分裂
所有输入图像数据集被裁剪和缩放使用OpenCV-python 320像素宽的广场,紧紧包含圆形底部区域。单色眼底摄影和图片没有视神经盘和黄斑区是过滤掉(图1)。对于每个数据集,图像被随机分为两组:训练集开发模型中的三分之二和三分之一的测试集来评估模型的性能(图2)。然后,训练集进一步分为两个子集:三分之二的训练集,优化网络的权重和三分之一的验证集的选择hyperparameters模型。从近年来图像数据集可能来自同一患者,为了避免数据泄漏,从相同的病人放置在相同的图像集。分裂后,图像被随机打乱自己的数据集,以减少过度拟合训练前和方差,然后进一步批规范化减去平均和除以标准差计算训练数据集使用ImageDataGenerator Keras API。实时数据增加应用通过随机旋转,移动,剪切图像基于先前发表在模型训练方法(22]。
(一)
(b)
2.4。模型的体系结构和评价
深转移学习模型由一个pretrained卷积神经网络(CNN),紧随其后的是一个全球平均池层和致密层(图输出预测结果2)。权重从pretrained模型是可训练的和被用来提取图像特征,和预测然后用最终的分类器。类不平衡是解决评估权重损失。早期停止后8 - 12的时代没有改进应用于避免过度拟合,和训练集和验证集的学习曲线绘制检测underfitting或过度拟合。二进制交叉熵作为损失函数和随机梯度下降法23)或亚当优化器(24)是使用一个学习1 e - 3比1的军医。Hyperparameters使用随机搜索优化。模型的开发和分析实施使用Keras 2.4.3和Tensorflow 2.4.1谷歌colaboratory [25),而图像预处理的一部分和gradient-weighted类激活(Grad-CAM)可视化运行在Jupyter笔记本26]。两组模型训练使用内转和Kaggle训练集测试内转和Kaggle测试集(图2)。
在我们的模型中,cnn包括Inception-V3 [27],densenet - 121 [28],VGG16 [29日],Xception [30.)被选为模型训练因为他们的高性能ImageNet大规模视觉识别的挑战,实现在其他医学图像分类(9]。所有网络都pretrained ImageNet (31日]。性能与每个CNN模型的评估。
2.5。可视化方法
观察的模型得出的预测,最后卷积层每个模型提取获取激活地图使用Grad-CAM可视化方法(32],它强调了区域预测提供了一个重要的贡献。激活地图叠加在原始图像上的解释。
2.6。统计分析
接受者操作特征(ROC)曲线绘制使用Matplotlib 3.2.2。ROC曲线下面积(AUC)、敏感性和特异性计算比较不同模型的性能训练数据集使用Python 3.7.1和Sklearn 0.22.2。最优阈值的民国被最大化敏感性和特异性的几何平均数。描述性的结果在这个研究是离散变量表示为数字和百分比。
3所示。结果
3.1。图像特征
8408年Kaggle数据集,图像子样品从原始数据集,6150(73%)图像分类为正常,2258(27%)图像博士在近年来的数据集,从475年内转至患者收集了7064张图片。其中,873例(13%)图像从79年(17%)患者分为博士。
3.2。模型的性能
模型的性能如表所示1。当使用Kaggle成像模型训练数据集,整个AUC达到平均(范围)的0.74 (0.03)Kaggle测试集,与VGG16提供最佳性能( )。AUC增加到平均(范围)的0.87(0.01)模型与Kaggle训练集训练时使用内转至测试组进行测试。另一方面,转移学习模型实现平均(范围)AUC是0.88(0.03)当训练和测试使用近年来图像数据集,densenet - 121提供最佳性能( )和VGG16最差( )。然而,当模型以前使用近年来训练训练集使用Kaggle数据集进行测试,auc显著下降到平均(范围)的0.57 (0.02)。相应的ROC曲线见图3。
3.3。类激活地图
激活地图的结果从不同的转移学习博士和正常情况下都是在模型数据4和5。除了强调临床观察视网膜异常,博士的传统特征研究,包括微动脉瘤,出血和渗出液(数字4(c),4(d)4(g)),其他地区包括黄斑(数字4(h),4(我),5(d),5(h),5(f)5(我)),视神经盘(数字5(e)和5(g)),视网膜血管(数字5(b),5(c)5(g))也偶尔会高亮显示。大相似之处观察在激活地图传输博士学习模型训练使用眼底图像(图4),而不是正常的眼底图像(图5)。
4所示。讨论
4.1。本研究的主要发现
在我们的研究中,我们利用开放获取Kaggle数据集训练模型,它具有较高的图像变化和理论上主要T2D的病人,并从单一医疗中心近年来数据集。我们发现使用Kaggle模型训练数据集平均AUC 0.74在测试使用相同的数据集,但这增加到0.87使用近年来在测试数据集。相比之下,模型训练使用近年来数据集高精度(AUC的0.91)近年来的病人,但它减少(AUC最低0.54)Kaggle数据集。热图显示视网膜微动脉瘤的加权特征,出血,渗出物和船只。数据一致性数据集可能会影响模型的可训练性和泛化。
4.2。外部验证和Hyperparameters标准化的重要性
先前的研究提出了许多模型,实现高性能诊断博士,即使训练只有一个小数据集包含成千上万的图片(16]。我们的性能结果与之前的研究产生了类似的结果(auc范围从0.65到0.86)当使用一个类似的数据大小从Kaggle数据集33]。然而,大型筛选验证博士的一项研究发现,大多数算法有显著的性能差异,甚至获得有关结果评估通过外部验证,即使这些算法已经在积极使用在实际临床设置(34]。使用近年来在我们的研究中,模型训练数据集也表现出可接受的性能0.84和0.91之间(auc)当内部验证,但是他们的性能评估使用外部数据集时显著降低。这些结果强调需要严格的训练和测试模型通过使用数据集包含一个类似的目标人群的分布,以避免预期和实际性能之间巨大的差异。此外,产生一个稳定的和可再生的预测结果,更多hyperparameters应该标准化。尽管先前的研究已经调查了大量的可能影响性能的因素深入学习模型(9),我们预计更多的元素仍需确定。例如,糖尿病的病因、年龄范围,和共病眼疾被证明是可能的影响因素在我们的研究中。
4.3。在不同的数据集不同的性能水平
使用近年来的模型训练数据集使用Kaggle数据集进行测试时表现不佳,而使用Kaggle训练数据集显示更好的性能时使用近年来数据集进行了测试。有几种可能的解释的差异模型的泛化训练使用不同的数据集,尽管使用相同的方法,相似的数据集的大小和失衡比例。在检查错误的预测图像时,我们发现这些图片类似的问题影响模型预测(图6)。从近年来图像数据集被视网膜眼科医师评估,和图像质量差或那些不能评分被排除在外。随着近年来数据集包含多个访问病人的图像,独特的患者的数量近年来可能小于Kaggle数据集,导致均匀数据,从而呈现内转至数据库更容易预测模型训练使用的数据库。相比之下,从Kaggle图像数据集可能不清洗,可能含有更多的噪音和工件,包括失焦,过度曝光或曝光不足的图像,图像在近年的数据集。此外,Kaggle收集的数据集可以更多元化的人口年龄和更高的年龄变化,因此,有更多的异构特性,而近年来人口和年轻患者相似。因此,患者在Kaggle数据集可能有其他眼部疾病与衰老相关或其他并发症,如白内障和年龄相关性黄斑变性。博士以外的视网膜眼部疾病的特点,如年龄相关性黄斑变性的视网膜渗出,可能会影响模型的预测。此外,白内障可能会影响图像质量。这些发现已报告在我们先前的研究[35,36]。随着近年来数据集包含多个访问病人的图像,特征近年来的变化可能比Kaggle数据集,也导致均匀数据。因此,均匀的数据集可能导致更高的可训练性和更低的泛化模型更多的异构数据集,反之亦然。因此,测试人口的异质性也会影响预测模型的性能。
(一)
(b)
(c)
(d)
(e)
(f)
4.4。突出显示的区域由Grad-CAM
博士的典型特征的发现,如视网膜微动脉瘤,出血,渗出液,和新血管形成,是最常见的高亮区域Grad-CAM在我们的研究中,符合一个以前的报告37]。此外,非传统地区包括黄斑和视神经盘偶尔会高亮显示。博士也可能存在糖尿病黄斑水肿和新血管形成的圆盘,异常特征在这些地区也可以提取。尽管神经退化先于血管病变(博士38前),深度学习模型是否能检测到异常的出现临床可见病变需要进一步调查。
4.5。限制
本研究也有一些局限性。首先,我们只评估培训只使用近年来数据集如何影响检测性能;这些结果可能不适用于其他病因,如遗传形式,成熟度发作糖尿病的年轻人,或其他次要的原因。其次,我们在近年的数据收集从一个医学中心和一个种族,使数据集相对较小的异质性较低。第三,博士被确认使用macula-centered内转至视网膜眼底图像的数据集,而不是通过7-field视网膜眼底图像摄影,早期治疗糖尿病性视网膜病变的研究(所显示39]。此外,我们没有理由进一步分级博士,这可能帮助的决心treatment-required博士,博士因为早期的检测近年来人口可能在病人护理和教育提供更多的信息18]。最后,我们的模型开发的有限组合hyperparameters,和我们没有进行组合模型训练数据集。因此,不同的实现可能提供不同的结果。
5。结论
基于我们的研究调查深学习博士预测模型使用两个数据集。我们的研究结果表明,数据集可训练性同质性有着至关重要的影响,模型的泛化。这意味着深度学习模型应该被训练数据类似于目标人群DM根据景观和更新,以确保可靠的预测结果。糖尿病的患病率持续上升(2),以及一个以惊人速度增加的频率T2D青少年(40),糖尿病的流行病学将继续改变。此外,激活地图生产的推断,除了博士的特点发现,黄斑和视神经盘也可能导致异常的检测眼底成像。
数据可用性
近年来数据集不是公开的数据安全策略和可用长庚纪念医院合理的请求。
信息披露
资金组没有研究传导作用和结果解释。
的利益冲突
作者宣称没有利益冲突有关的出版。
作者的贡献
Jui-En Lo和尤金林玉娟Kang贡献同样这项工作。
确认
支持的研究是长庚医院,台湾(CMRPG3K0481和CMRPG3L0251)。