文摘

无线胶囊内窥镜是一种非侵入式无线成像技术在近年来变得越来越受欢迎。这种技术的主要缺点之一是它生成大量的照片,必须由医务人员分析,这需要时间。不同的研究小组提出了不同的图像处理和机器学习技术对胃肠道疾病近年来进行分类。传统的图像处理算法和数据增强技术相结合是一个调整pretrained深卷积神经网络分类的疾病在消化道无线内窥镜图像在这个研究。我们利用pretrained模型VGG16 ResNet-18,和GoogLeNet卷积神经网络(CNN)模型与调整完全连接,输出层。提出的模型验证数据集组成的6702 8类的图像。VGG16模型取得的结果有96.33%的准确度最高,96.37%的召回,F1-measure精度96.5%,和96.5%。与其他先进的模型相比,VGG16模型Matthews相关系数最高的价值0.95和科恩kappa评分0.96。

1。介绍

食管、胃、结肠直肠癌占全球每年280万新病例和180万人死亡。这些溃疡、出血和息肉都是胃肠道感染的例子(1]。自2019年初以来,估计有27510病例诊断在美国,有62.63%男性和37.37%女性,估计死亡人数的40.49%,有61%的男性和39%的女性(2]。由于其复杂性,胃镜检查仪器不适合识别和检查胃肠道感染如出血、息肉、溃疡。在2000年,无线胶囊内窥镜(WCE)是发达与胃镜检查工具来解决这个问题3]。授予2018年年度报告,大约有100万患者被成功治愈的协助下WCE [4]。来检测疾病,医生采用WCE过程检查胃肠道的内部(GIT)。医生使用WCE方法检查胃肠道的内部,以发现疾病(GIT) [5,6]。胶囊自动胃肠道上滑过,给临床医生实时视频。传输视频的过程后,胶囊是通过肛门排出。接收到的视频帧由医生决定疾病的检查(7]。重大疾病诊断使用WCE溃疡,出血,在消化系统恶性肿瘤、息肉。解剖标志,病理结果,保利清除诊断的疾病中扮演着至关重要的角色在消化系统使用WCE捕获的图像。这是一个更方便的方法来诊断通过提供一个广泛的视觉效果(8]。它减少了病人的不适和并发症在治疗常规内镜方法像小肠镜和计算机断层扫描灌肠。肿瘤诊断的准确性和胃肠道出血,特别是在小肠,得到了改善。整个过程非常耗时分析每个病人的所有帧提取(9]。此外,即使是最有经验的医生面对的困难,需要大量的时间去分析所有的数据,因为污染区在一个帧不会出现在未来。尽管大多数的帧包含无用的材料,医生必须经过整个视频。由于经验不足或疏忽,它常常会导致误诊(10]。

分割、分类、检测和定位技术用于研究解决这个问题。特征提取和可视化是一个重要的一步,决定了计算机辅助诊断方法的整体精度。基于纹理分析提取的不同特性,基于颜色的,点,和边缘的图像(11]。特征提取是不足以确定模型的整体精度。因此,特征选择是一个耗时的过程,在确定模型的输出是至关重要的。深度学习领域的进步,尤其是CNN,可以解决这个问题12]。CNN一直承诺的进步在过去的几十年里,自动检测的疾病在人体的各个器官,如大脑(13],宫颈癌[14],眼疾[15),和皮肤癌16]。与传统机器学习等学习算法,CNN模型提取特征的优势等级从低到高水平。手稿的其余部分组织如下:部分2解释了GIT诊断领域的相关工作;部分3讨论了本研究的数据集考虑;部分4描述了pretrained架构从WCE图像诊断八个不同的疾病;部分5从该方法包含了派生的结果;部分6总结了工作。

解剖标志的自动预测,病理观察,息肉组织使用无线胶囊内窥镜图像获得的是本研究的主题。实验团体照片使它简单的医学专家作出准确的诊断和开一个治疗方案。在这个领域重要研究导致感染的自动检测大量的图像,为医学专家节省时间和精力,同时提高诊断准确性。自动检测感染形象从WCE图像最近流行的研究课题,发表的论文。传统的机器学习算法和深度学习算法在这些研究中使用。改善疾病的分类区域高度精密的自动检测是一个巨大的挑战。先进的深度学习技术是重要的在WCE提高分析的。AlexNet模型提出了分类上消化道器官在不同条件下捕获的图像。模型达到96.5%的精度在上消化道解剖分类17]。作者提出了技术减少内镜筛查的审查时间分析的基础上分解。滑动窗口机制与单值分解使用。该技术实现了92%的总体精度(18]。作者提出了一个系统自动检测不规则WCE图像使用差分计盒方法通过提取分形特性。输出测试在两个数据集,其中包含WCE框架,和实现二进制分类精度85%和99%的数据集我和第二数据集,分别为(19]。作者使用Inception-v4 pretrained模型,初始ResNet-v2,和NASNet WCE图像的解剖标志进行分类,获得了98.45%,98.48%和97.35%。的,Inception-v4模型达到93.8%的精度(20.]。提取的特征数据,作者用AlexNet和GoogLeNet。这种方法旨在解决低对比度的问题和异常病灶内镜(21]。作者提出了一个计算机辅助诊断工具分类溃疡性结肠炎,实现曲线下的面积0.86为梅奥梅奥0和0.98 0 - 1 (22]。作者提出了四层的卷积神经网络分类的不同的类溃疡WCE视频帧。测试结果是通过调整改善模型的hyperparameters和达到96.8%的精度23]。作者介绍了新的虚拟现实胶囊模拟和识别正常和异常区域。这种环境下生成新的3 d图像胃肠疾病(24]。像素的局部空间特征检索兴趣WCE图像使用线性分离方法。提出了概率密度函数模型fitting-based方法不仅降低了计算复杂度,但也导致更一致的类的代表。该方案令人称羡的精度,分数的96.77%25]。在[26),作者提出了一个伽柏胶囊网络分类复杂图像像Kvasir数据集。该模型实现了91.50%的总体精度。提出了小波变换与CNN对消化道疾病进行分类,实现了93.65%的总体平均性能分类的八类(27]。

从文学,CNN模型可以提供更好的结果数据集的数量是否高。但是有一些障碍在每一步,将降低模型的性能。数据集的低对比度视频帧使分段区域困难。重要特征的提取和选择是另一个艰难的一步识别障碍包括溃疡、出血和息肉。疾病分类方法的工作流使用无线内窥镜图所示1。本研究的重大贡献如下。(1)一个计算机辅助诊断系统提出了分类GIT疾病分为很多类,包括解剖标志,病理观察,息肉切除(2)pretrained模型用于克服小数据集和过度拟合问题,减少了模型精度(28](3)VGG16, ResNet-18, GoogLeNet pretrained CNN架构分类胃肠道疾病的内镜图像通过轻微修改架构(4)GIT疾病的方法获得的视觉特性分类决策是使用阻塞敏感性地图可视化(5)我们也修改的pretrained架构与其他模型相比,使用手工制作的特性和深入的特性来检测准确性的GIT疾病,记得,精度,F1-measure,区域特征(ROC)曲线,科恩kappa评分

3所示。数据集描述

在这些研究中使用的数据集是一个GIT内窥镜设备拍摄的图像在挪威的VV卫生信任。获得了训练数据从一个大胃肠病学部门在这种信任的医院之一。进一步医学专家精心带注释的数据集,并命名为Kvasir-V2。这个数据集也可以在2017年的秋天的中世纪医学多媒体挑战,基准测试项目,将任务分配给研究小组(29日]。解剖地标,病理观察,和息肉切除8组构成的数据集1000图片。数据集的图像分辨率的范围 像素。不同的疾病提供了相应的类标签编码表1

解剖学标志是一个GIT的特征可以通过内窥镜。导航和有必要作为一个参考点来描述一个给定的位置发现。也有可能,地标是病理学的特定区域,如溃疡或炎症。类0和1级聚删除的两类。3班、4班和5类最重要的解剖标志。基本病理发现二班,6类和类7。数据集的样本图像如图2,数据集的分布在图表示3

4所示。提出深度学习框架

解决小数据大小问题,转移学习被用来调整三大pretrained深层神经网络称为VGG16 ResNet-18, GoogLeNet训练图像的增强Kvasir版本2的数据集。

4.1。转移学习

在医学影像的世界,多种疾病分类使用相同的深度学习体系结构是一项艰巨的任务。学习是再利用的技术转移模型训练一个任务类似的任务,需要一些适应。当没有足够的训练样本来训练模型从开始,转移学习是特别有益的医学图像分类等应用罕见或发展疾病。深层神经网络模型尤其如此,它必须与大量的训练参数。转移学习使模型参数开始好的初始值,只需要最小的调整更好的策划的新问题。转移学习可以通过两种方式;一种方法是训练的模型层,顶部和另一种方法是冻结层模型的回馈都在新的数据集。八种不同类型的疾病被认为是在提出的模型中,第一种方法是使用模型的训练从顶部层。VGG16、GoogLeNet ResNet-18 pretrained模型用于使用内窥镜图像分类不同的胃肠道疾病。上述pretrained模型作为基准模型和模型性能增加了使用各种性能改进技术。

4.2。使用VGG16胃肠道疾病分类

VGG16模型包括16层由13卷积层密度和三层。这个模型最初是在2014年推出的ImageNet竞争。VGG16是最好的图像分类模型。图4描绘了VGG16模型的体系结构。

而不是很多参数,模型的重点是有一个 卷积与步幅,填充层总是相同的。max-pooling层使用 过滤器与2的步伐。模型由两个致密层完成,随后将softmax层。大约有1.38亿在模型中参数(30.]。致密层1和2包含4096个节点。致密层1由大约1亿的最大数量的参数。参数在特定层的数量没有减少退化模型的性能。

4.3。使用ResNet-18胃肠道疾病分类

另一个pretrained胃肠道疾病内镜图像分类模型ResNet-18模型。图5描绘了ResNet-18平台的体系结构。这个模型是基于卷积神经网络,最常见的一种架构有效的培训。它允许一个平滑的梯度流。身份ResNet-18模型中的快捷方式链接跳过一个或多个层。这将允许网络有一个狭窄的连接到网络的第一层,呈现梯度升级更容易对那些层(31日]。ResNet模型包括卷积17层和一层完全连接。

4.4。使用GoogLeNet胃肠道疾病分类

在许多学习任务转移,GoogLeNet模型是一个深CNN模型,取得了良好的分类精度,同时提高计算效率。前5名的错误率为6.67%,GoogLeNet,俗称初始模型,获得了2015年的ImageNet竞争。《盗梦空间》模块如图6,GoogLeNet架构如图7。它有22层,包括卷积2层,4 max-pooling层,9线性叠加《盗梦空间》模块。介绍了平均池年底之前的《盗梦空间》模块。执行降维, 过滤器采用前更加昂贵 操作。AlexNet模型相比,GoogLeNet模型参数数量的两倍。

4.5。数据增加

CNN模型被证明是适合许多计算机视觉任务;然而,他们需要大量的训练数据,以避免过度拟合。过度拟合的时候发生深度学习模型学习高方差函数精确模型的训练数据,但有一个狭窄的范围的普遍性。但在许多情况下,特别是对于医学图像数据集,大量的数据是一项乏味的工作。不同的数据增强技术是用于提高数据的大小和一致性来解决过度拟合的问题。这些技术生成虚拟数据,一直受到不同的旋转,宽度变化,高度变化,缩放和水平翻转,但并不等同于原始数据。旋转范围是固定的45°,宽度和高度变化范围为0.2,缩放范围是0.2,水平翻转。增强数据集从原始Kvasir版本2数据集如图8

5。结果与讨论

在这部作品中,Kvasir版本2的数据集用于GIT疾病的分类。整个数据集分为训练和80% 20%验证集。英伟达数字使用牛奶深度学习系统构建pretrained CNN模型。CNN pretrained模型训练和测试与系统配置英特尔i9处理器32 GB NVIDIA方形住宅区RTX6000 GPU。pretrained模型使用NVIDIA的牛奶深度学习框架编写数字平台。图像分辨率从 像素被改变了 像素在收集到的数据集。增广数据集组成的33536张图片,包含4192张图片在单个类。然后,增强训练数据集分为80%和20%验证集。有26832个图像6407年培训和图像的验证。从头pretrained模型训练的hyperparameters 30时代,批量大小为8,亚当优化器,和学习1 - 05年通过试验和错误的方法与步长33%,考虑到计算设备。亚当使用优化器由于其降低了复杂性在模型训练(32]。将softmax分类层和分类熵用于pretrained的输出模型,并给出了方程(1)和(2)。

在哪里 表示将softmax, 表示输入向量, 表示输入的标准指数向量, 表示类的数量 表示输出的标准指数向量。

在哪里 表示目标价值和 模型输出标量值。混淆矩阵后得到验证模型与验证的6407张图片是用来测量混淆矩阵。混淆矩阵用于评估分类模型的结果。的训练曲线三种pretrained模型如图9- - - - - -11。每个时代的图绘制与培训损失和准确性。图为口译培训和训练精度损失计算与时代。VGG16模型训练数据集训练30期,和模型被证明是聚集在15时代之间的精度范围96%。30时代后,top_1提供的模型精度96.62%,top_5精度为100%,和验证0.18的损失。ResNet-18模型证明了少提供培训78.83%精度和高损失0.58时代后的30。GoogLeNet模型取得了top_1精度为91.21%,top_5精度为100%,和培训0.21的损失。

模型训练完成后,验证模型和验证数据集,和混淆矩阵绘制。数据12- - - - - -14代表三个pretrained的混淆矩阵模型验证的验证数据集。混淆矩阵是用事实数据和分类器的结果。混淆矩阵,真正的积极价值(冠捷),假阳性值(废票),真负值(TNV),和假负值(FNV)计算。冠捷的对角元素代表相应的类。不同的性能指标如top_1准确性,top_5准确性,记得,精密,科恩Kappa评分计算使用方程中提到的表2

kappa系数是事实上的标准评估评定等级的协议,因为它消除了由于预测协议的机会。科恩kappa值是通过方程(3), 表示整体正确预测类, 表示元素的总数, 表示整个次类l预测,和 表示整体次类l发生(33]。

kappa系数时使用类的数量来确定其分类性能。解释kappa评分值范围从0到1,和他们解释表提供3

所有pretrained从头训练分类模型胃肠道疾病使用Kvasir v2数据集,和结果被发表在表4。VGG16方法优于所有其他pretrained模型的分类指标。模型实现top_1分类精度最高的96.33%相比ResNet-18和GoogLeNet模型。模型还执行一个完美的查全率和查准率为96.37%和96.5%,分别。GoogLeNet模型实现更好的准确性与top_1 ResNet-18分类准确性。kappa系数计算模型,从VGG16 GoogLeNet模型几乎完美的协议提供了0.96和0.89的值,分别。因为高小姐疾病分类的类别染色了息肉,染色切除利润率,食管炎,标准 - - - - - -行息肉,ResNet-18提供非常低的指标的分类指标。由于注入液体在息肉,模型无法正确区分染色解除息肉和染色切除利润率,使模型更加难以进行分类。VGG16和GoogLeNet模型被证明是在分类GIT疾病提供更好的精度。然而,模型更加难以确定,因为组内的相似性染色解除息肉和染色切除利润率,以及组内相似性标准 - - - - - -线和食管炎。

世纪挑战帐户集团是一个更可靠的统计速度时产生更高的利率预测结果在所有四个价值观冠捷,废票,TNV, FNV。它是计算使用方程(4)。

使用Kvasir v2数据集,修改VGG16 GIT疾病分类模型与其他模型相比,基于本文研究结果显示在表5。据densenet - 201和ResNet-18模型在文献[34)实现了90.74%和88.43%的准确性。模型都是训练了超过400时代,并花了大约10小时完成培训。报告的模型(35]提供了96.11%的精度,该方法非常接近报道在表5。但是说模型使用三个阶段模型的基线,Inception-V3 VGG模型,这就需要高计算能力和获得了马修斯相关系数(MCC)为0.826。在[36),CNN和转移学习模式提出了GIT疾病使用全局特征进行分类。模型达到93.7%的精度MCC值为0.71。物流模型树提出了参考使用手工制作的特性使用4000张图片和达到94.2%的精度但MCC差值为0.72 (29日]。人的重大缺点应该是特征提取和特征选择技术的知识。修改后的pretrained模型VGG16获得MCC值为0.95,优于其他模型。MCC的所有状态的方法,我们发现修改VGG16方法被证明是一个完美的协议分类GIT的疾病。

修改的时间复杂度pretrained模型与其他模型相比在GIT疾病分类。提出模型VGG16、GoogLeNet ResNet-18报道的培训时间1小时50分钟,1小时,7,分别和57分钟。文献发现densenet - 201 (34]和ResNet-18 [34已经训练了10多个小时。ROC曲线在图(15日)描绘了真阳性和假阳性利率之间的权衡。中华民国曲线显示了分类模型的性能在不同的分类阈值。它是绘制在不同的分类阈值。中华民国是画的八类为每个类别确定更好的阈值。角的曲线符合左上方显示的更好的性能分类。闭塞灵敏度用于评估深神经网络映射来识别图像输入的敏感区域预测诊断。测试数据的热图是图所示15 (b)。此测试程序识别感兴趣的区域,VGG16模型的发展至关重要。模型的灵敏度闭塞地图可视化来确定评估诊断时最关心的部分。阻塞测试最大的优势是,它显示了响应见解神经网络决策,也称为黑匣子。算法已经毁容以来在不影响其性能评价实验结束时执行。

6。结论

这些发现表明最近pretrained模型,如VGG-16 ResNet-18, GoogLeNet,可用于医学成像领域,如图像处理和分析。CNN模型可以促进医学成像技术通过提供更高的自动化程度,同时加快流程和提高效率。该算法在这项研究中获得了最先进的导致胃肠道疾病分类,和同样高敏感性和特异性为96.33%。转移学习有利于各种具有挑战性的任务,是解决计算机视觉问题,只有小数据集常常访问。医学应用证明先进的CNN架构可以概括,获得非常丰富的特性,映射信息的图像类似ImageNet数据库和正确分类非常不同的情况。相比,各种机器学习和深度学习模型用于胃肠道疾病分类,VGG16模型会取得更好的结果,96.33%的准确性,MCC科恩kappa评分0.96,0.95。手动标记数据算法的要求最薄弱的点。因此,网络可以从分析师继承一些缺陷,为正确诊断疾病甚至对人类在很多情况下是困难的。使用一个更大的数据集标签由一个更大的社区的专家将克服这个限制的一种方式。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突,关于这篇文章的出版。