文摘
本研究回顾了卷积神经网络(CNN)技术应用于特定领域的乳腺乳腺癌的诊断(MBCD)。它旨在提供一些线索如何使用CNN相关任务。MBCD是一个长期存在的问题,提出了大规模的计算机辅助诊断模型。的模型CNN-based MBCD可以大致分为三组。一个是设计浅或修改现有模型来降低时间成本以及训练实例的数量;另一种方法是充分利用pretrained CNN的转移学习和微调;第三是利用CNN模型特征提取,从良性和恶性病变的分化的是利用机器学习分类器实现。本研究招收同行评议期刊出版物和技术细节和每个模型的优缺点。此外,这些发现,挑战和局限性进行了总结和未来工作的一些线索。最终,CNN-based MBCD正处于早期阶段,还有很长的路在使用深度学习工具实现的最终目标,以促进临床实践。 This review benefits scientific researchers, industrial engineers, and those who are devoted to intelligent cancer diagnosis.
1。介绍
乳腺癌的全球威胁到女性的生命。在美国,这可能会导致一个估计025万新病例的浸润性乳腺癌、非侵入性乳腺癌006万例新病例,004万人死亡(2016年1]。这种疾病显著增加的健康负担那些发展中国家和欠发达国家(2]。大量的临床试验表明,乳腺癌的早期发现和诊断能够提供更灵活的治疗方案,改善患者生活质量和生存能力3]。因此,越来越多的被注意相关领域,如新的超声断层成像技术(4)和乳房x线断层摄影术(5]。
乳房x光检查执行作为乳腺癌筛查的常规工具。它使乳房高分辨率的内部解剖的看法,帮助诊断可疑病变(6]。筛查性乳房x光检查扫描乳房从身高,视图和中间外侧的斜看,虽然诊断乳房x光检查获得更多的图片当症状,如体系结构更改和异常发现,发现筛查乳腺图像。迄今为止,胶片屏幕(FM)参考标准用于乳腺癌筛查项目,而由于更高的空间分辨率的要求,数字乳房x光检查(DM)已被广泛接受。一般规则存在乳腺图像的解释。然而,错误是不可避免的在诊所,原因是多方面的。最重要的是,感知的视觉外观的差异之间的恶性和良性病变尚不清楚,因此,如何量化乳房病变区别的特性充满了挑战。此外,它仍然是很难估计的疾病风险,因为有限的信息,因此,健康的人可能变成病人。此外,工作超载和疲劳进一步引起误解和过度诊断。不幸的是,发现超过70%的良性结果建议活检在诊断阶段(7]。
计算机辅助乳腺乳腺癌诊断模型(MBCD)探索了三十多年了(8,9]。它支持决策和帮助区分恶性和良性病变通过提供额外的信息。由于MBCD模型的便利化,关于两个敏感性和特异性诊断性能增强[10),可以减少不必要的检查符合成本效益的方式。它进一步好处活检建议,后续治疗和预后分析。从技术角度来看,MBCD模型主要包括特征提取和病变恶性肿瘤的预测。前者量化病变区别的特性,后者构建之间的关系特点和其标签,良性或恶性。大量的研究致力于乳腺癌诊断的调查,从使用不同的模式(11- - - - - -13),微妙的迹象的分析(14,15和各种技术探索16,17]。因为简单的可访问性的高性能计算资源,数以百万计的带安全标签的数据时,和先进的人工智能方法,卷积神经网络(CNN)已经彻底改变了图像表示和受益范围广泛的应用程序(18),包括但不限于目标识别(19],视觉理解[20.),和数值回归(21,22]。完全不同与传统MBCD技术,CNN试图将病变的特征提取和分类集成到一个监督学习过程。CNN架构的输入图像补丁的病变区域,概述及其输出对应于预测病变恶性肿瘤和直觉,时间和劳动力可以减少工程特性。与此同时,CNN是推进技术升级医学成像领域的(23],医学物理学[24,25),医学图像分析(26- - - - - -28和放射治疗29日,30.]。研究对开发有效和高效CNN-based MCBD模型仍在进行中。
我们所知,三个审查论文已发表关于深度学习乳腺癌的诊断。一个涉及使用乳房x光检查损伤检测和预测恶性肿瘤,超声、磁共振成像和数字tomosynthesis [31日]。一个专注于乳房x光检查和组织学图像处理和分析32]。与此同时,它试图映射特性/乳腺异常之间的表型和组织学表现。最后一个概述深度学习在各种癌症的检测和诊断通过使用不同成像模式(33]。一般来说,技术细节在这些评论发表论文并不好。
本文还提出了一种评估。它致力于技术MBCD CNN应用于特定的应用程序,它旨在提供线索如何使用CNN在智能诊断。本文总结了如下的贡献。首先,本研究仅限于同行评议期刊出版物和因此,技术细节和每个模型的优缺点可以交付。此外,基于CNN如何使用技术,MBCD模型大致分为三组。一是设计浅模型或修改现有模型降低时间成本和医疗训练实例;另一种是充分利用pretrained CNN模型通过学习和转移参数微调;第三是利用CNN模型特征提取,而区分恶性和良性病变是基于机器学习的分类器。最后,发现,挑战,和局限进行了总结,并给出一些线索对未来工作。
本文的其余部分的结构如下。部分2描述基本概念学习关于计算机辅助诊断(CAD)和转移。部分3评论CNN-based MBCD技术,包括文献的搜索策略和技术细节的模型。然后,发现,挑战,和未来的重点部分进行了总结4。最后,部分5总结综述。
2。CAD模型的基本概念
本节简要介绍了计算机辅助诊断(CAD)的基本概念和转移学习。具体来说,图1显示了机器学习的流程图(ML)建立CAD和CNN-based CAD的主要架构。应该注意的是,对于诊断、CAD模型假定可疑病灶区域已经准确地划定,其目的是为了预测输入的恶性病变。
(一)
(b)
2.1。计算机辅助诊断(CAD)
CAD模型可用于提供额外的信息和支持决策在疾病诊断和癌症分期。它不同于计算机辅助检测模型旨在探测、定位,或部分可疑区域。然而,应该注意到一个计算机辅助检测模型可以放置在综合分析诊断模型的检测和定位诊断可疑区域。
2.1.1。ML-Based CAD
ML-based CAD模型包括特征提取和基于机器学习的分类如左边的图所示1,特征选择是可选的。广泛使用的特性来自图像描述符,量化的强度、形状和纹理的可疑区域(34]。首选机器学习分类器并不局限于人工神经网络(ANN)、支持向量机(SVM),再邻居,朴素贝叶斯和随机森林(RF) (35]。由于紧急radiomics [36- - - - - -38),需要注意的是,特征选择变得越来越重要,它的目标是获取可疑病变的内在特征。
数学上,过程使用pretrained ML-based CAD模型预测恶性肿瘤的病变可以描述如下。首先,概述了可疑区域(我x)作为输入与标量变量量化通过使用特征提取(E)。然后,特征选择(年代)是用来降低特征维度和检索信息的特性( )。最后,输出的标签(y)的病变(我x预计使用机器学习分类器可以作为制定 。全面了解,概述关于机器学习和乳腺癌的诊断可以称为(8,9]。
2.1.2。CNN-Based CAD
CNN模型是计算的模型是由多个处理层与多级表示从原始数据检索功能和层次的抽象19]。如右边所示图1CNN的一般体系结构模型由卷积层,完整连接层,和汇聚层除了输入和输出层。具体来说,图2显示VGG16的架构由13卷积层,3层完整连接,5池层,1层softmax [39]。为进一步改善对象分类,很多可以嵌入技术,包括非线性滤波、数据增加,局部反应正常化,hyperparameter优化和多尺度表示(31日,32]。目前,广泛使用的深度学习模型包括,但不限于,VGG [39],LeNet [40],AlexNet [41],GoogLeNet [42,43],ResNet [44有人知道由罗[],45),快R-CNN [46]和LSTM [47]。
数学上,过程使用pretrained CNN-based CAD模型的预测病变恶性肿瘤可以被描述为追随者。给定一个可疑的区域(我x),CNN-based的输出可以形式化模型在哪里n代表的数量和隐藏层f我表示相应层中的激活函数我。此外,如何设计深度学习的体系结构模型除了学习的综合分析和系统的方法表示可以从[18,19,48]。
应该注意的是,CNN模型是数据驱动的,可以训练有素的端到端。模型使集成的特征提取、特征选择和恶性肿瘤预测到一个优化过程。因此,这些检索功能不是由人类设计工程师但从输入数据(19]。一般来说,卓越的性能CNN-based CAD模型(即来自先进的计算机硬件资源。,图形处理单元和分布式计算系统),开源软件,如TensorFlow (https://www.tensorflow.org/),和开放的挑战基于数以百万计的高质量的标签图片,如ImageNet (http://www.image-net.org/)。它的成功也得益于这部小说的架构设计深度学习,如《盗梦空间》(43和标识映射44]。
2.2。转移学习
转移学习或知识转移,更重要的是一个机器学习的策略。它旨在重用模型pretrained源域作为起点不同但相关的目标领域(49]。在机器学习领域,一个算法通常是为了解决一个孤立的任务,通过转移学习时,算法可以进一步适应新任务(图3)。它有几个好处使用知识转移。最重要的是,知识转移使质量的起点在目标域,因此,可以预期的有前景的结果。此外,如何利用pretrained模型的灵活。使用的模型可以作为高层表示图像的特征提取器和它的参数可以调整目标数据。此外,可以显著降低时间和成本。根据计算资源,大约需要几天到几个月训练深度模型,而下降的时间时间为目标应用程序传输这个模型时。由于网上pretrained深度模型的可访问性,高成本的硬件似乎是不必要的。最重要的是,学习转移缓解大量的实例进行模型训练的要求,这在医学影像领域是非常有用的。目前,最受欢迎的对象分类是基于ImageNet [50),没有额外的评论,pretrained CNN模型都表示一个初始化的ImageNet在这项研究中。
3所示。CNN-Based MBCD
本部分首先介绍了文献的搜索策略,涉及数据库和性能指标。最后,CNN-based MBCD方法分为三组基于CNN模型的设计和使用。本文集中在同行评议的期刊出版物,它提供了技术细节和CNN模型的优缺点。
3.1。搜索策略的文献综述
文献调查、IEEEXplore Pubmed, ScienceDirect,谷歌学者被用来搜索相关出版物CNN-based MBCD。最后一次更新是在2018年12月20日。关键词是“卷积神经网络”、“深度学习”,“乳房x光检查”,“乳腺癌”和“诊断”。具体地说,只有在同行评议的期刊上发表的论文被选中,我们搜索了18篇研究论文。表1总结了使用数据库的文献,(没有)病变的医学图像分类和诊断性能(AUC,曲线下的面积;ACC、准确性;森,敏感性;SPE,特异性)。注意,在每一个文学,只有模型,达到最佳的分类性能。
3.2。涉及到数据库
表1表明,主要用于乳房x光检查数据库来自内部集合(7/18),其次是公共的数据库BCDR-F03 (5/18), DDSM (4/18), INbreast(3/18),米娅(1/18),和厄玛(1/18),最后一个来自梦想挑战(1/18)。的医学图像数据库主要从几百到几千不等。值得注意的是,82000年的梦想挑战是由图像。此外,在公众中数据库、BCDR-F03是唯一一个由调频图像,而在内部集合,55)的一项研究,利用FM图像(1655 FM图像和799 DM图像),和所有其他数据库和内部集合是由DM的图像。
三个DDSM公共数据库(http://marathon.csee.usf.edu/Mammography/Database.html),BCDR-F03 (http://bcdr.inegi.up.pt),INbreast (http://medicalresearch.inescporto.pt/breastresearch/index.php)和米娅(http://peipa.essex.ac.uk/info/mias.html()可以在线访问,而梦想挑战https://www.synapse.org/突触:syn4224222)是致力于在线竞争和旨在提高乳腺图像的预测精度对乳腺癌的早期发现和诊断。厄玛(69年从DDSM]包含图像补丁选择,米娅,和其他两个数据集。在公众中数据库、DDSM(“数字扫描”)仍然是乳腺图像分析的最大可用的资源(70年]。它由14卷良性病变病例和15卷的恶性病变情况下除了2卷的良性病变病例没有回调。它还包含12卷正常的情况下。DDSM的图像在一个过时的图像格式的位深度12或16位/像素,和图像分辨率大于(4000、3000),同时根据扫描仪。
数据库BCDR-F03(“胶片数据集3号”)是乳腺癌的一个子集数字存储库(BCDR)收集病人的情况下从葡萄牙的北部地区。它是用于算法的发展和比较52]。BCDR-F03包含344例病人,736 FM图像和406乳腺病变。病变中,230年是良性的(426张照片)和176年恶性(310张照片)。值得注意的是,BCDR-F03包含调频的图像灰度数字化TIFF(标记图像文件格式)的位深度8位/像素,图像分辨率(720、1168)。
数据库INbreast由115个乳腺病变病例和410数字图像(71年]。然而,只有56例经病理证实(11良性和恶性病变45)。乳腺图像保存在DICOM医学数字成像和通信格式14-bit对比分辨率。图像矩阵(2560、2238)或(3328、4084)根据成像扫描仪。
米娅数据库(“乳腺图像分析社会”)包含322数字图像其中67病变是良性和53病变恶性(72年]。完全不同于上述数据库,米娅提供每个异常的图像中心坐标和圆的半径近似(像素)附上异常,但不是的坐标点局部病变的边界。图像存储8位/像素PGM(概率图形模型)格式。数据库已经减少到200微米像素边缘和垫/剪,这样图像矩阵(1024、1024)。
3.3。性能指标
量化的CAD模型的分类性能,广泛应用指标AUC和ACC,紧随其后的是森和SPE(表1)。具体来说,ACC、森和SPE计算基于混淆矩阵。如表所示2,TP组织学检查证实积极和正确预测为“积极的”,同时FN代表组织学检查证实积极但并被错误地归类为“负面”。此外,TN是真正的负面情况预测正确,和FP是真正的负面案例但预测为“积极的”(73年]。一般来说,良性病变会被标以“负面”和恶性病变是“正面”的标签。
考虑到标签和相应的预测结果,ACC,森,和SPE可以分别制定(TP + TN) / (TP + FN + FP + TN), TP / (TP + FN)和TN / (TN + FP)。AUC,量化是根据接受者操作特征(ROC)曲线。中华民国是一个概率和AUC曲线提出了一种模型损伤分化的能力。这四个性能指标,值越大表示更好的性能。
3.4。CNN-Based MBCD模型
一般来说,CNN-based模型可分为专用模型和传输模型。前者包括新架构的建议,修改或集成现有的CNN模型,而后者在充分利用pretrained模型,进一步调整他们通过使用医学实例。此外,它是发现,一些模型只使用CNN对特征提取和损伤诊断是利用机器学习分类器实现。特别是,手工制作的特性考虑在内。因此,在这项研究中,CNN-based MBCD模型大致分为三组专用模型、传输模型和混合模型。表3总结了CNN-based模型从模型构建其利弊分析。注意,“参数初始化”表示模型的优点与ImageNet pretrained。
3.4.1。专用MBCD模型
提高诊断与未标记数据,54)提出了一种基于semisupervised学习计划,由加权迭代数据,特征选择和数据标签之前使用修改后的LeNet病变的诊断。实验结果表明,该方案需要相当的一小部分带安全标签的数据时(100病变)培训和达到承诺的性能无标号数据(3058病变)。此外,该计划似乎不太敏感的初始标记数据。文献[55]添加2完全连接层在最后完整连接层的冻结AlexNet。在ImageNet AlexNet中的参数初始化并保持不变,而整个模型训练医学实例。文献[58)提出了一个但是模型(3卷积层和1完整连接层)和4倍交叉验证策略执行560年病变(280 280良性和恶性)。文献[62年设计一个CNN架构(5卷积层和2层完整连接),虽然pretrains ImageNet模型。值得注意的是,寄生度量学习嵌入式,使得医学实例和分类错误最好的使用提高了诊断性能。文献[65年]采用YOLO损伤检测和定位意思其次是恶性肿瘤的结构张量的预测。因此,自动检测和分类的可疑病变同时实现。同样的,(66年)使用更快R-CNN损伤检测和定位和VGG癌症诊断。模型是第一个训练DDSM,进一步验证INbreast和梦想的挑战。它表现在乳房x光片图像分析的最佳方法之一。文献[67年发展一个混合模型。它首先使用pretrained GoogLeNet特征提取,和3072年的特性。然后,注意机制提出了特征选择。最后,它使用LSTM集成结构信息从多视图图像特性和病变临床数据的分类信息。
图4展示了流程图和专用MBCD模型的一个例子。流程图强调了CNN是一个新设计或修改网络和CNN的例子描述了架构模型(58]。应该注意的是,专用的参数模型与随机初始化之后,迭代优化医学实例。
虽然[55,62年,66年,67年)利用ImageNet参数初始化,应该强调,发展一个新的架构(62年),修改一个现有的体系结构和引入了一个新的学习策略(55),和其他人强调两种网络架构的集成同步检测和定位和最终损伤诊断(66年,67年]。因此,(55,62年,66年,67年)分为一组专门的模型。
3.4.2。CNN转移模型
由于医疗不足情况下,深CNN模型pretrained标记的大规模自然图像(如ImageNet)传输并调整与医学实例之前,在乳腺癌诊断中的应用。文献[61年]给出了一个系统的比较浅的网络(3卷积层和2完整连接层)和AlexNet。转移学习而言,和实验结果表明,CNN模型与转移学习比模型没有转移学习。文献[63年]调查三种8-layered CNN架构的实现。参数,如卷积过滤器在每一层的数量,调整与乳腺病变的实例。进一步实验比较表明,将手工制作的特性增加了分类性能。文献[64年]研究集中在三个深度学习模型(VGG、RestNet GoogLeNet),探讨了知识转移。实验进行比较的随机初始化和参数初始化和如何调整模型。值得注意的是,三个公共数据库(DDSM INbreast和mia)进行了分析。文献[68年)比较两个深层网络(AlexNet和GoogLeNet) pretrained ImageNet,两个浅CNN模型,和两个ML-based MBCD模型。实验结果表明,知识转移有助于乳腺病变的诊断。
图5显示了流程图和MBCD传输模型的一个例子。CNN的流程图凸显了离线训练模型非医学图像,此外,它强调微调pretrained模型与医学实例。一个代表性的例子使用VGG作为诊断模型来自[64年]。应该注意的是,CNN架构预定的参数对象识别的任务,和他们的价值观对乳腺乳腺病理分化进一步优化。
现有的架构是由最深处使用,和这些模型61年,63年,64年,68年)pretrained ImageNet和参数初始化。然后,乳腺病变实例用于调整深度模型。而进一步提高诊断性能,额外的技术,如数据增加,都嵌在训练过程。应该注意的是,(61年]设计了肤浅的网络,其目的是为了验证是否转移学习可以提高癌症诊断,从而可以分组到CNN转移模型。
3.4.3。CNN模型作为特征提取器
在CNN-based MBCD模型7的18采取CNN高级检索功能损伤表示。文献[51发展一个8-layered网络(5卷积层和3层完整连接)。的模型是pretrained ImageNet克服有限的医疗问题的实例。然后,SVM进行分类器和决策机制。之后,MBCD模型集成256中层和2048高级功能损伤的分类。文献[52设计两个浅网络和实验结果表明3 - layer网络(2卷积层和1完整连接层)获得更好的性能。而对于精度高,支持向量机进一步将这些CNN特征作为输入。实验结果表明诊断性能达到轻微但显著改善400年17个低级和高级功能损伤量化的汇集。文献[53)利用pretrained AlexNet病变分化。更特别,一个基于svm模型使用3795高级功能作为其输入和其他基于svm模型使用29低级特征的病变分类。输出是由软融合投票和重大改进是实现恶性肿瘤的预测。文献[56调查不同的特征融合方法。担忧38手工制作的特性和1472年CNN学特性,和支持向量机分类器的各种特性。然后,每个支持向量机融合的结果进行最后决策。结果表明,低收入和高级别的集成特性显著提高癌症诊断。文献[57)提出了一种混合乳腺图像分析的框架。以最小的用户干预,它的质量检测、病灶分割,恶性肿瘤的预测。专门为病变,分化,它就退化CNN模型的输出781手工制作的特性,然后添加一个完整连接层抽象为特征。最后,利用射频来提高诊断的准确性。文献[59(2)引入了一个浅网络卷积层和1完整连接层)。它或者合作与离散小波变换和曲波变换进行图像预处理。最后,共有784个特性是手工制作的。此外,softmax和SVM相比,支持向量机优于softmax轻微增加。文献[60)利用1472高级功能的pretrained VGG冻结参数。其新颖的提议来自步进式特征选择和2最经常选择的特性用于基于svm乳房病变分类。
图6显示了流程图和CNN模型作为特征提取器的一个示例。流程图凸显了信息融合。换句话说,CNN模型是新设计还是pretrained变得不重要,使用低级功能是可选的。信息融合可以分为两种方法。一个是功能融合,后跟一个分类器,另一个是决策融合病变恶性肿瘤通过使用一个或多个分类器预测。这个例子来自[51)发展一个新的CNN模型和模型是ImageNet pretrained。最后,模型融合预测结果(决策融合)的SVM分类器分别使用384中层特征和2048年高层特征作为输入。
之前的研究已经证明了在乳房x光片图像低层特征分析的好处。目前,如何选择信息CNN功能(60以及如何融合低收入,中期,和高级功能和临床信息已成为重要的(52,53,56]。应该提到,即使一些MBCD模型关注手工制作的特性(53,56),最终的目的是提高诊断,从而构造一个混合框架,这些出版物53,56分为第三组。
3.4.4。技术亮点CNN-Based MBCD模型
表4总结了技术亮点,可以区分各类CNN-based MBCD模型。表中,“✔”表示不同的组件模型中,“✖”表示组件是不包括在模型,而“-”意味着该组件在这种CNN-based模型中并不重要。
4所示。讨论
总共18同行评议期刊出版物(表1)发现关于“卷积神经网络”或“深度学习”“乳腺癌的诊断”使用“乳房”图像。模型通常分为三组(表4):一个突出了新架构的设计或修改或集成现有的网络(图4);一个专注于使用转移学习和微调在乳腺癌的诊断(图5);最后一个问题的混合模型CNN进行特征提取和信息融合成为必不可少的决策(图6)。此外,表3总结了这些模型从建模到它的利弊分析。
4.1。我们的研究结果
为了克服有限的医疗问题的实例,有10个出版物采用转移学习(51,53,55,56,61年- - - - - -64年,66年,68年),有或没有微调。转移学习能够在一定程度上缓解这个问题,由于深模型优化使用大量的数据在源域;因此,可以大大减少时间和劳动在目标域。特别是,它已证明转移学习好处分化的乳腺病变乳腺图像。除此之外,增加医学实例的数量,数据增加使用(59,61年,65年,68年]。在病变恶性肿瘤的预测是很有意义的,因为病变可能在任何特定的取向在筛查和因此,MBCD模型应该能够学习和认识到病变恶性肿瘤。为数据增加,除了图像旋转和翻转,可以适应其他技术,如图像质量退化(https://github.com/aleju/imgaug)和图像变形74年- - - - - -76年]。
提高诊断性能,11个18出版物开发浅架构或修改现有的网络(51,52,54,57- - - - - -60,62年,65年- - - - - -67年]。浅架构培训医学实例的数量减少,而机器学习分类器时应使用修改后的深与冷冻或调整网络参数进行特征提取器。然而,问题出现。第一个问题涉及分类器应用差异化的良性和恶性病变。发现9 11出版物选择支持向量机(51,52,54,58- - - - - -60,62年,65年,66年),而1使用射频(57)和1选择LSTM [67年)对恶性肿瘤的预测。第二个是如何选择信息和预测功能,在成百上千的变量。大多数出版物解决这个问题通过综合性实验诊断效率和有效性之间的权衡,而只有[56]提出使用CNN的频率特性选择在训练阶段的权重特性的重要性。最后但不是最少,这是浪费时间和麻烦。一般来说,需要数天甚至数周的时间开发新的架构和修改或集成深度模型由于模型训练的要求,参数优化,特征选择,算法比较。
还发现,7出版物考虑低级和/或临床特征(51- - - - - -54,56,59,67年]。低级特性主要来源于强度统计,形状描述和纹理分析(34]。具体来说,这些特性可以进一步分析与多尺度分解或在变换空间中。临床信息包括乳腺密度、病人的年龄,和其它症状,如微钙化。此外,4出版物提供CNN——和ML-based模型之间的比较51,52,56,68年)和ML-based模型作为基线。应该注意,ML-based模型受益于先验知识和临床经验功能制作,特征选择,机器学习分类器的使用。特别是,它是可行的建立ML-based模型在一个非常小的数据库(36]。此外,ML-based模型相对轻量级计算和不需要特定的硬件,因此,这些模型可以很容易地部署和管理日常工作。
集成多个乳腺病变的代表可以提高乳腺癌诊断的性能,而如何把低收入,中期,和高级特性或多视图的数据是很困难的。有4个出版物(51,53,56,67年)提供信息融合或决策融合的机制。文献[51)提出了一种决策机制,评估结果的一致性的中层特征和高级特性。如果不一致,灰色信息将被添加到评估的相似性和支持决策。两个(53,56)建立系综分类器的平均结果两个支持向量机分类器其中一个利用pretrained CNN特性和其他手工分析的功能。文献[67年)利用LSTM细胞从多视图数据集成功能。因为多视图数据包含上下文信息,多视图图像之间的差异可能造成额外的信息在病变的解释。
4.2。技术挑战
一些技术挑战依然存在。第一个挑战来自于如何使用pretrained深CNN模型MBCD性能密切相关(77年,78年]。然而,没有一个确定的答案如何调整网络和微调多少医学实例就足够了,即使是好的实践是可用的(79年]。最简单的方法是将整个网络的参数或网络层可调。一些研究表明layer-wise微调,而时间消耗将大大增加(80年]。另一方面,当使用深模型作为特征提取器,其他技术问题,包括如何选择高级特性,如何整合multiperspective信息,采用机器学习分类器。可怜的是,没有教程或实用的指导方针是可重复的。在诊所,提高乳腺癌的诊断的性能,考虑到各种成像技术和临床数据,进一步对信息融合的困难(9]。因为没有放之四海而皆准的解决方案可用,先验知识,以前的研究和实证经验成为越来越重要的解决这些技术问题(78年- - - - - -83年]。
它也挑战如何避免过度拟合优化的网络。辍学提出解决这一问题(84年随机)旨在减少单位(连同连接)从网络在训练阶段。它可以防止单位coadapting太多,还提供了一个实用指南的培训辍学网络(84年]。它充满潜力,避免过度拟合通过增加医疗培训实例的数量。最后,如果没有可能减少架构复杂性和无法增加训练实例的数量,主流操作参数,如学习速率,监控性能指标的下降在训练阶段和验证阶段(58,60,61年,68年]。还应该提到的门槛是主观的,因此,综合实验成为必要。
第三个挑战是诅咒的维度85年]。众所周知,深度学习的主要目的是为了识别目标从成千上万的对象类别。然而,MBCD是一个二元分类问题,在乳腺病变看到图像标记为良性或恶性。因此,似乎不令人信服的为一个二进制使用成千上万的特性分类问题关于数以百计的医学实例(51- - - - - -53,56]。一些研究把求助于特征选择(60和特征降维54]。深层网络,在训练阶段特性的频率选择特性重要性的权重因子是有意义的60]。
在实践中,挑战存在于建筑的每一步CNN-based MBCD模型。首先,许多因素影响乳腺成像的质量,如成像扫描仪和重建方法,胸部压缩和运动工件在图像采集过程中进一步降低成像质量。因此,定量图像质量评估是必要的(86年]。此外,由于不同的形状和边缘可疑病变,还模糊的界限病变和周围组织,损伤描述的质量不稳定,因此,技术自动乳腺乳腺病变检测和分割仍需要改进的87年]。此外,进化修剪深的知识转移模型上pretrained足够的医学图像承诺乳腺乳腺病变的诊断,因为类似的特征空间(88年]。最后但不是最少,总是希望建立一个无缝的系统定位可疑病变,同时给出预测恶性肿瘤(65年,66年]。
4.3。未来的重点
除了上述的技术挑战,另一个三个主题应该关注未来的工作。第一个是收集足够的高质量的乳腺实例。由于资金有限,稀缺的医学专业知识,和隐私问题,没有大的飞跃在数据共享,尤其是乳腺病变的图像。目前,DDSM仍然是最大的公开可用的数据库以及大规模的第一选择乳腺图像分析(89年]。而基于每年全世界超过1.5亿执行乳房摄影检查,有数据收集和共享的重要改进的余地。特别是缺乏成像数据限制的开发和升级智能系统个性化诊断,包括但不限于更深层次的设计架构,hyperparameter优化和泛化能力的评估。幸运的是,快速进步是在大数据时代,网上发布了许多公共数据库,如TCIA (http://www.cancerimagingarchive.net/等)和各种挑战是开放的,梦想的挑战。这样一个标准化,它会更容易比较不同方法在相同的问题相同的数据库,从而推动技术CNN-based MBCD。
另一个话题是关于学会了CNN的解释功能。与手工制作的特性与数学形式化和清晰的解释,解释CNN检索功能很差。解决这个问题的一个方法是定性的理解(55,58基于可视化)。文献[90年layer-wise]提供了一个技术特征可视化。对象识别的技术表明,浅水层通常代表的边缘,中间层主要由定位检测图案特别安排的精细结构,而深层尝试这些图案装配成一个更大的集群的一部分或整个物体(19,58]。应该承认,layer-wise可视化技术促进了视觉感知网络所学到的和进一步的理解。文献[91年]分析了预测结果在二维空间中使用t-distributed随机邻居嵌入(t-SNE)。t-SNE代表每个对象由一个点在附近一个散点图,点表示类似的对象和遥远的点表示不同的对象。因此,提供了一个清晰的认识到恶性肿瘤的底层结构预测(55]。深度学习正在进行的定量解释。文献[92年]给出了几何的观点来理解深度学习的成功。他们声称成功的基本原则将是多方面的结构数据,深度学习可以学到多方面的和概率分布。文献[93年提供理论如何解释这个概念学习和决定深度模型。进一步讨论了很多问题在可解释性,技术挑战,和可能的应用程序。第三个主题是临床研究的翻译CNN-based MBCD决策支持在临床实践中。毫无疑问,深度学习工具可以为癌症诊断提供有价值的和准确的信息,而不可能采取临床医生的角色和责任。临床医生在日常工作的基本作用是与其他团队成员合作,包括医生、技术人员、护士、理疗师,甚至患者(94年]。因此,在接受这些决策支持系统在日常使用之前,它应该提供深刻理解和视觉的解释深度学习工具,不仅超越人类层面的表现。
此外,一个大步使用CNN-based MBCD模式临床应用来自于审查和食品和药物管理局(FDA)的批准。到目前为止,fda批准的CAD系统已经在市场上,如QVCAD系统(QView医疗公司,洛斯拉图斯,CA),使用深度学习自动化3 d乳房超声检查分析。深入学习算法使用的不断增加,越来越多的CNN-based CAD系统将得到FDA的批准。基本上,引人注目的属性,例如的专家级性能、健壮性和普遍性,应该保证在不同的成像设备。虽然从长期演进的角度来看,一个全球真实应用程序占广泛的地理,道德,应该考虑遗传变异。因此,未来还有很长的路深学习工具的翻译从科学研究到临床实践。
4.4。限制
有几个局限性。首先,本文侧重于对自动化MBCD CNN。计算机辅助MBCD,它也可以解决通过使用其他CAD技术,如案例检索(95年- - - - - -97年)和乳腺密度估计(98年,99年]。此外,本研究只关注乳房x光检查。综合疾病分析、其他成像方式,如超声和磁共振,应该考虑(31日]。此外,本文仅限于二维图像分析,和许多其他医疗任务用CNN模型解决体积图像(One hundred.- - - - - -102年]。特别是,本研究关注同行评议期刊出版物,大大减少了出版物的数量进行分析,因此,它可能会忽略一些优质CNN-based MBCD模型(103年- - - - - -105年]。此外,一些技术细节,比如如何准备医学实例培训,不发表这篇评论,而应该记住每一步与乳腺图像分析。
5。结论
本研究提出了一种技术审查的最新进展CNN-based MBCD。它分类分成三组的技术基于如何使用CNN模型。此外,研究结果从模型构建每个模型的优缺点进行了总结。此外,技术挑战,指出未来的焦点,和局限性。目前,设计和使用CNN-based MBCD在其早期阶段和以结果为导向的。使用深度学习的终极目标工具促进临床实践,仍有很长的路。综述福利科学研究员,工业工程师,和那些致力于智能癌症诊断。
的利益冲突
作者宣称他们没有利益冲突有关的出版。
作者的贡献
丽安邹和Shaode Yu同样这项工作。
确认
作者要感谢编辑和审稿人的建设性的意见,帮助提高论文质量。也感谢那些研究人员共享数据集和编码了公平的比较。这部分工作是支持由中国国家重点研发项目(2016 yfc0105102),特殊的主要人才支持项目在广东(2016 tx03r139),深圳(JCYJ20170413162458312)的基本研究项目,广东的科学基金会(2014 2017 b020229002 2015 b020233011 a030312006)和北京跨学科科学,数学和信息中心和中国国家自然科学基金(61871374)。