文摘
背景。准确和全面的特征从眼前段光学相干断层扫描(AS-OCT)是非常重要的在促进闭角型青光眼的诊断。现有的自动分析方法重点分析确定结构属性从单一AS-OCT形象,它是有限的,全面代表前房角的状态(ACA)。动态虹膜变化体现在原发性闭角型青光眼的危险因素。方法。在这项工作中,我们重点从AS-OCT视频检测ACA状态,它捕获在一个dark-bright-dark变化的环境。我们首先提出一个多视图体积和时间不同网络(MT-net)。我们的方法集成的空间结构信息从多个视图AS-OCT虹膜区域的视频和利用时间动力学同时基于图像的差别。此外,减少视频抖动引起的眼球运动,我们采用预处理使角膜视频帧之间的部分。感兴趣的区域(roi)的外观和动力学也自动检测加强相关信息特征。结果。在这项工作中,我们使用两个AS-OCT视频的数据集被两个不同的设备来评估性能,其中包括342 AS-OCT视频。Casia数据集的分类精度为我们MT-net是0.866的敏感性为0.857,特异性为0.875,达到与结果相比性能优越的算法基于AS-OCT图像有明显的差距。的蔡司AS-OCT视频数据集,我们的方法也得到了更好的性能的方法基于AS-OCT图像分类精度为0.833的敏感性为0.860,特异性为0.800。结论。AS-OCT视频捕获变化环境下可以理解意味着闭角型分类。我们提议的有效性MT-net证明由两个来自不同厂家的数据集
1。介绍
青光眼是一种眼部疾病和极其复杂的病因,排名第二在四个主要的致盲眼病。到2040年,据估计,世界上有1.12亿人将受到这一疾病的影响(1,2]。在全球范围内,青光眼(40 - 80岁)估计全球增加到66 - 80人,到2020年,和1100万年这些患者最终将成为盲目的1]。随着人口的老龄化,青光眼患者的数量在逐年增加。在中国,原发性闭角型青光眼(PACG)更为普遍。但幸运的是,它是可以预防早期治疗后前房角(ACA),如激光周边虹膜切开术(LPI)。因此,早期筛查和治疗是至关重要的。最近,前部分光学相干断层扫描(AS-OCT)被广泛接受眼科医生在青光眼考试因其高效和无触点成像前房深度信息(3]。
浅前房PACG[是一个重要的风险因素4- - - - - -6),所以眼科医生经常法官从AS-OCT ACA的开启或关闭状态。提出了一些计算机辅助闭角型分类算法基于ACA减少医生的基于机器学习的负担(7- - - - - -10]或卷积神经网络(CNN) (4,11,12]。大多数算法给出分类结果基于AS-OCT几个静态捕获图像。然而,静态解剖因素本身并不能完全解释PACG患病率相对较高和前房结构的动态变化是更有说服力的诊断(13]。例如,如图1,我们随机选择两个视频样本PACG和正常的ACA。图1(一)与角PACG视频样本状态在黑暗(第三帧)和明亮的条件(55架),而图1 (b)与角状态显示正常样本在黑暗(4帧)和明亮的条件(34帧)。光照条件在图下的视频帧1学生的最大合同时比较。两个样品,它是指出,ACA地位几乎是关闭在黑暗的环境中,但光照明后,改为开放。这将导致不一致的结果相同的样本,如果只基于一个形象。
(一)
(b)
因此,很难区分病人的类型只有静态捕获AS-OCT图片,和大多数的闭角型分类方法,只有基于角状态的某种状态,有一定的限制(14- - - - - -16]。但它是通过虹膜分类正确的运动状态(如虹膜运动信息,如图1,也可以更好地反映完整的角度的眼睛在不同的时间)。有一些研究解释这一现象。虹膜是海绵,可压缩的眼睛健康PACG主题,但它是不可压缩的眼睛PACG和疑似闭角型[17]。此外,闭角型眼睛和angle-opening眼的运动特性进行了研究,和闭角型组有一个光的反射虹膜萎缩速度放缓,这是更快的接受有效治疗后(18]。虹膜弹性加速度和瞳孔块加速度与PACG [19]。因此,在这篇文章中,闭角型检测是基于AS-OCT视频捕获的dark-bright-dark改变环境。据我们所知,没有研究基于AS-OCT闭角型虹膜检测有关的运动视频。
在本文中,提出了一种基于深度学习框架闭角型检测,利用AS-OCT视频。的贡献总结如下:(1)首先提出检测室角状态基于AS-OCT视频在变化的环境中,它们被证明是更完整的代表病人的前房。(2)我们提出一个多视图体积和时间不同网络(MT-net) ACA状态检测,于一体的空间结构信息从多个视图AS-OCT视频,同时利用时间动力学基于图像的差别。(3)提出一个自动AS-OCT视频对齐算法基于视频帧的角膜部分,减少视频抖动的影响。感兴趣的区域(roi)的3 d外观和动力学也发现基于巩膜的刺激(SS)的位置和图片差异扩大信息功能。(4)我们进行比较和烧蚀研究实验来证明我们的算法提出的七个评价指标的有效性基于两个AS-OCT视频数据集。
2。该方法
图2说明了我们提出的框架MT-net(短的多视图体积和时间差分网络)。首先,AS-OCT视频抖动是被自动图像配准方法,提取的位置和ACA位于党卫军,而运动信息是通过图像的差别。提出MT-net介绍,多个视图的ACA卷美联储提取空间特征,而运动特性是研究时间信息的虹膜动态的输入。最后,预测分数基于时空信息集成进一步加强闭角型检测的性能。
2.1。AS-OCT视频校准和roi提取
2.1.1。AS-OCT视频对齐
由于无意识的眼球运动的影响和眼睛的光轴位置不当,相邻视频帧之间存在偏差。如图3,1日的角膜和38架不能重叠,这可能会导致得到的视频帧序列是不可靠的(20.]。
(一)
(b)
假设一个视频包含帧,帧是用 。为了确保前房的位置结构的一致性在视频帧,我们变换帧 坐标系统的框架和作物转换后的框架是一样的尺寸 。首先,多尺度的脸点特性和转弯特性从帧中提取。旋转、翻译、和规模被认为是主要的视频帧之间变化;因此,仿射变换参数估计基于相似性度量,和迭代优化过程进一步用于提炼转换,定义如下: 在哪里对脸的正常距离点,两角点的欧氏距离,是Beaton-Tukey [21]。面对点特征匹配集和角落被指示为特征匹配集 和 ,分别。的和是基于距离的健壮的重量因素。
此外,加快调整过程,采用中值滤波和帧调整前对齐。如图3 (b)对齐后,角膜帧之间的重叠。
2.1.2。roi提取
ACA和虹膜区域roi在眼科医生诊断PACG [22]。在这项研究中,ROI提取包括ACA提取和图像的区别,它可以加强ACA空间和虹膜时间表示。
(1)ACA提取。定位局部地区可以保留更多的有用的信息在最后骨干网络的特征映射(11,23- - - - - -25]。党卫军ACA的关键;因此,我们获得的ACA党卫军定位角状态检测的文章。我们建议使用UNet-like架构基于嵌套和密集的跳过连接(UNet + +)26)获得准确的党卫军本地化。然后,留住裁剪直接从结合视频和缩放到一个固定的分辨率。以这种方式,网络可以专注于视觉内容的剪裁边界框。此外,场景的帧输入放大捕捉更多有用的视觉内容。
(2)图像的差别。更好地提取长期时间信息,进行获取虹膜运动运动表示。运动造型,光学流已被广泛使用作为一个运动表示(27,28]。然而,提取光流是昂贵的在时间和空间中,这通常是预先计算并存储在硬盘上。出于这一点,一直努力找到好的替代品。研究人员(29日,30.)发现,相邻帧之间的区别,即图像的差异,可以是有用的,而不是光流。
在这项研究中,图像的差异,也被称为欧拉运动,用于表示图像的运动(31日]。而不是计算连续帧之间的运动在一个视频中,本文将重点放在虹膜变化相比,第一帧。如图2的形象差异的定义是两个图像 ,在哪里是一个框架的范围内 ,而第一帧的视频。图像的差异可以捕捉短期运动信息来有效地促进远程时态关系模型的视频。
2.2。MT-net框架
提出MT-net框架由两个子网,多视图体积为空间信息(如图子网2(一))和时间不同子网(如图2对时间信息(b))。
2.2.1。多视图体积子网
留住包含空间信息在视频帧序列。在这部作品中,留住组成的体积大小 如图2(一)(a1),它提供了上下文信息的留住时间维度 。在体积分析,我们发现,当体积是旋转和尺寸 如图2(一)(a2),它揭示了留住的波动特征。因此,采用角状态分类更有用的信息,我们建议一个多视图卷子网通过整合上述不同的看法。采用3 d ResNet为骨干,因为它充分利用3 d的上下文信息和更容易优化的高精度大大增加深度(32]。的大小在3 d ResNets回旋的内核 ,时间和空间步都是2。16-frame ACA剪辑是输入的大小的子网 。由于医学图像的小规模数据集分类精度低的主要原因,微调pretrained模式在大型数据集成为一个有效的方法33]。我们也调整pretrained 3 d ResNets模型动力学(34]。同时,身份连接和零填充的捷径ResNet块用来避免越来越多的参数(35]。
2.2.2。时间不同的子网
虹膜的特征dark-light-dark环境下动态运动有利于闭角型状态分类,采用AS-OCT视频的时间信息。减少子网的计算复杂性,我们建议应用ResNet模型来提取图像特征的差异。然后,提取的特征输入到长短期记忆(LSTM)层批正常化(36],它编码状态和模型之间的长期依赖性特征地图沿着时间轴。最后,一个完全连接层顶部LSTM输出采用多路分类(34]。
2.2.3。闭角型检测
时间信息起着重要的作用在理解虹膜运动,虽然ACA体积提供了前部分的解剖特点在不同的时间。我们考虑两种类型的上下文信息在我们的模型:现场卷上下文和时间改变整个跨度的视频信息。最后,我们采用整体模型,特别是软投票合奏方法(37),整合多方面的内容和获取更全面和准确的分类结果。柔软的投票合奏的方法是一个软的投票方案考虑了类的概率算法和结合这些决定通过平均过程,而不是硬开关决定投票通过(37]。在本文中,我们独立训练每个子网,得到测试集的概率分布(如图2),最后合成性能的不同分类器的每个主题得到最终的分类结果。
3所示。实验结果
3.1。临床AS-OCT视频数据集
我们AS-OCT视频两个设备收集的数据集:Swept-source 10月(38](Casia横扫——来源——1000年10月,Tomey,名古屋,日本)和10月Visante39](Visante 10月、1000型、软件版本2.1;卡尔蔡司Meditec制造)。我们收集AS-OCT正常人的视频和PACG患者dark-light-dark下环境。受试者招募的新加坡国家眼科中心的门诊和住院部门(SNEC)和汕头大学联合汕头国际眼科中心和香港中文大学,其中包括病人和志愿者年龄超过40年。特别是AS-OCT视频的记录开始后一分钟暗适应使用标准协议,与光强度大约是20勒克斯。虹膜前房变化在黑暗与光明之间环境记录。一个眼科医生执行所有AS-OCT测试数据一致性。对于每个视频,真实的正常或闭角型决定从大多数高级眼科医生的诊断。
Casia数据集,它包含148个视频,包括68个视频正常的眼睛和80个视频PACG的眼睛。视频帧的分辨率是16441000年。蔡司数据集包含194个视频,包括116个视频正常的眼睛和78个视频PACG的眼睛。视频帧的分辨率是600300年。两个数据集,表1列出了最大、最小和平均的视频帧。我们同样和随机分30视频作为测试集,而其余的视频分为验证集和训练集。所有输入视频帧的大小深度学习网络固定在224年224年。
3.2。实现细节
建议的体系结构的实现使用公开PyTorch库。在训练阶段,对多视图体积子网,我们利用随机梯度下降优化模型(200时代),逐渐减少学习率从0.1,0.9的动力,批处理大小为128。时间不同的子网,我们采用一个亚当优化器优化模型(180时代),学习速率的0.0001,0.01的动力,和批处理大小为128。训练和测试的流程,我们进行他们在一个NVIDIA GPU泰坦V。
3.3。试验标准和基准
来衡量我们的网络的性能,我们采用七个评价标准:平衡精度(B-Acc),精密(前),记得,F1得分,灵敏度(Sen),特异性(Spe)和Kappa分析。Kappa分析和F1评分是用来反映森之间的权衡和Spe。
如表所示2中,我们使用的基本子网骨干3 d CNN和CNN-LSTM私人Casia数据集进行训练和测试。对于一个小规模的医学图像数据集,不同比例的验证集和训练集影响前房状态分类。我们两个子网进行实验验证集和训练集的比例为5%,10%,和20%,结果如表所示2。
对于3 d CNN,这可以从表2,3 d ResNet18 B-Acc和F1得分最高的三个数据集分割。在培训过程中,相对肤浅的网络更容易收敛于更深层次的网络。实验的CNN-LSTM, ResNets从与pretrained深模型初始化调整。如表所示2基于相同的测试集,这个网络的B-Acc和F1分数基本上是高于3 d CNN。可能的原因是,CNN-LSTM模型虹膜的全球运动更好,这也进一步证明了虹膜运动特性是重要的预测二元分类(角状态)的结果。测试精度CNN-LSTM显示最佳性能在50层深度的增加。3 d CNN和CNN-LSTM的性能要好得多的数据分割5%和10%比20%。因此,在后续的实验中,我们进行培训两个数据集分割并采取平均测试值作为最终结果。
3.4。烧蚀研究
评估四个模块的有效性在我们的框架,包括对齐,ACA提取、图像差异,3 d CNN, CNN-LSTM,我们提供一个消融研究。基于基线实验中,我们采用3 d ResNet18和ResNet50-LSTM基线在接下来的实验中,结果被发表在表3。
巩膜的刺激定位分类是非常重要的,因此,在本文中,我们采用UNet + +来获得准确的党卫军本地化。模型训练根据公众的年龄数据集(6],它类似于我们的数据集。很少视频帧,无法定位学生,我们会从纳粹党卫军框架的位置前的当前帧对齐的视频。(我)体积的空间信息、视频校准和ACA区域提取提高3 d CNN的分类结果在一定程度上与基线相比。当两个预处理相结合的时候,所有的评价指标增加。有人指出结果结合multiviews方法比只有一个普遍观点。(2)对时间信息,这说明了全球变化的虹膜区域的重要性提高分类性能。CNN-LSTM,尽管其测试性能提升不大后提取虹膜的运动信息(图像差异),它极大地提高了视频后对齐。图像的区别是结合视频对齐时,评价指标进一步增加,这表明视频抖动的负面影响提取虹膜的动态特性。分类的时间信息是有益的。(3)体积空间和时间信息,对齐,ACA提取和图像差异改善结果,如表所示3。最后一行的结果达到最优性能通过集成多视图空间,时间,和预处理,这是我们建议的框架,MT-net。
3.5。表现两个私有AS-OCT视频数据集
证明基于AS-OCT视频分类的优越性,我们比较框架与目前的算法基于单一AS-OCT图像。我们选择开始和结束帧的视频在一个黑暗的环境下,也就是大多数当前的数据集分类算法(4,11,12]。Casia数据集,选择图像组合成一个训练集共有2160 AS-OCT图像(1230闭角型和930正常图像)和一组测试520 AS-OCT图像(250闭角型和270正常图像)与相同的分布数据集的视频。为蔡司数据集,提取的图像数据集包含一个训练集与3380年AS-OCT图像(1360闭角型和2020正常图像)和一组测试500 AS-OCT图像(200闭角型和300正常图像)与相同的分布数据集的视频。
我们使用2 d ResNet50,最佳的性能在基线实验中,随着基于AS-OCT图像数据集比较算法。ACA提取也加上2 d ResNet50,结果如表所示4。确保考试的公平性比较,AS-OCT图像数据集,我们得到最终的分类结果基于每个视频在测试阶段;如果正确地分类图像的数量占50%以上的总帧的视频,我们将正确的判断。
如表所示4两个数据集,ACA提取有利于ACA状态分类两个数据集。但我们提出基于AS-OCT MT-net视频给了最好的评价指标。Casia数据集的分类精度为我们MT-net是0.866的敏感性为0.857,特异性为0.875,达到与结果相比性能优越的算法基于AS-OCT图像有明显的差距。蔡司的数据集,我们的方法基于AS-OCT视频也会更好的性能根据那些AS-OCT图像分类精度为0.833,0.860和0.800的特异性的敏感性。尽管敏感性和特异性的值不是最高的表4蔡司的数据集,我们实现Kappa值和F1得分最高,用于反映敏感性和特异性之间的权衡。
4所示。讨论
在这项研究中,提取空间信息和多视图建模运动后,我们开发MT-net学会区分3 d空间和时间特性从AS-OCT视频。显示我们提出的方法是一种很有前途的技术,为临床医生在忠实地识别闭角型AS-OCT视频分类精度高。拟议的框架开门的筛选能力进一步加强angle-closure-related疾病从一个全新的视角。还需要更多的研究来探索深度学习算法部署在不同的就业人口设置,使用多个设备和大AS-OCT数据集。
我们提议的有效性MT-net证明在上面的实验部分。AS-OCT视频可以更全面的对闭角型诊断的意义。但研究仍有两个限制。本研究的一个限制是它评估两个特定亚洲人口(中国和新加坡)由于原发性青光眼患病率较高在亚洲,所以结果可能并不适用于其他民族。但这种效应可以减轻通过增加民族的多样性数据。另一个潜在的缺陷是,AS-OCT视频捕获从Casia蔡司,世界上两个著名的制造商。因为捕获机器之间的区别,这可能影响质量和性能当我们的网络应用于从其他AS-OCT视频采集设备,它没有发生在我们目前的两个数据集。如果有更多的数据可以从其他设备获得在未来,我们的模型的性能可能会变得更稳定、更强大。
5。结论
我们首次提出检测ACA状态基于朗AS-OCT视频在本文中。多视图的体积和时间差异框架(MT-net)学会歧视提出了时空特性的roi AS-OCT视频,其中包括ACA和虹膜dark-light-dark环境的动态变化。烧蚀实验证明我们的MT-net的有效性。基于视频的评价指标优于基于2 d AS-OCT图片,展现室角状态分析在变化的环境中可以改善闭角型相关疾病筛查的能力。
数据可用性
生成的数据集和分析在当前的研究中不公开由于道德允许的限制,但部分可以从相应的作者合理的请求。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持部分由中国国家自然科学基金(8210072776)、深圳市科技创新委员会(JCYJ20200109140820699和20200925174052004),广东基础研究和应用基础研究基金会(2021 a1515012195),广东省教育部(2020 zdzx3043),和广东省重点实验室(2020 b121201001)。作者感谢新华医院的医生的数据收集和分析。作者还要感谢帮助我们的即时通讯集团的支持。