文摘
皮肤癌的发病率(SC)每年不断上升,成为全球重要的健康问题。SC的早期、准确的诊断是关键过程来减少这些利率和提高生存能力。然而,人工诊断是累人的,复杂的,昂贵的,容易诊断错误,高度依赖于皮肤科医生的经验和能力。因此,有一个重要的需要创建自动化皮肤科医生工具能够准确分类的SC子类。最近,人工智能(AI)技术包括机器学习(毫升)和深度学习(DL)验证成功的计算机辅助自动诊断和检测的皮肤科医生工具SC的疾病。先前基于ai皮肤科医生工具是基于功能的高级特性基于DL方法或低级特征基于手工操作。他们中的大多数建于SC的二进制分类。本研究提出了一种智能皮肤科医生工具自动准确地诊断多种皮肤损伤。这个工具包含歧管radiomics功能类别涉及高级特性,比如ResNet-50 densenet - 201和DarkNet-53和低级特征包括离散小波变换(DWT)和局部二进制模式(LBP)。提出了智能工具证明合并的结果多方面的不同类别的特点影响分类精度高。此外,这些获得的结果优于其他相关基于ai皮肤科医生的工具。 Therefore, the proposed intelligent tool can be used by dermatologists to help them in the accurate diagnosis of the SC subcategory. It can also overcome manual diagnosis limitations, reduce the rates of infection, and enhance survival rates.
1。介绍
世界卫生组织(WHO)宣布,全球癌症死亡的首要原因。估计个人识别与癌症的数量将会在随后的几十年里两次(1]。在癌症中,皮肤癌(SC)被认为是最常见的一种致命的肿瘤在男性和女性人口几乎9%的人被诊断为SC在美国(2]。在过去的几十年里,加拿大和澳大利亚等国家经历了一个巨大的数量的增加患者诊断为SC (3- - - - - -5]。此外,在巴西,巴西癌症研究所(印加)基础上,33%的人受到癌症是由于SC (6]。死亡率和SC感染仍在增长。这些利率可以减少癌症检测和治愈在最初阶段。SC的主要检测是重点加强的结果,与伟大的生存率的改善。然而,如果皮肤的疾病进展之前,存活率成为穷人(7]。
SC当皮肤细胞伤害和受伤,例如,通过过度暴露于太阳的紫外线辐射。SC可以分为两大类:melanocytic nonmelanocytic病变。前者类别涉及黑色素瘤和痣SC亚型发生在恶性和良性的形式而nonmelanocytic病变包括基底细胞癌和鳞状细胞癌(SCC)也出现在恶性和良性的类型。光化性角化病(ak)是主要的鳞状细胞癌。此外,血管,良性病和皮肤纤维瘤是公认nonmelanocytic良性病变(8,9]。在当前医疗常规,传统方法诊断和检测SC亚型包括手动检查和外观检查。这些程序是精疲力尽,复杂,容易诊断错误,高度依赖于皮肤科医生的经验和能力10]。误诊的原因是皮肤损伤位于图像的复杂的模式(8]。此外,分析、澄清和解释皮肤损伤,这些损伤的像素应该明确认识的困难是由于几个原因(11]。首先,皮肤损伤通常抑制头发,油,和血管,扰乱分割过程。此外,低对比度的病变和周围地区提出的挑战在病变的准确分割。最后,这些病变通常有不同的形状,尺寸和颜色,这正是病变亚型分类增加困难。这些原因导致了大规模的皮肤损伤分析自动化智能系统需要克服上述挑战[12]。
最近,人工智能(AI)基于助理系统彻底改变医学和卫生保健提供了解决方案。人工智能技术在许多医学领域展示了令人印象深刻的成果包括乳腺癌的诊断(13,14),脑部肿瘤(15,16],胃肠疾病[17),肺部疾病(18[],和心脏并发症19- - - - - -22]。他们还显示非凡的成功在医疗应用程序如telerehabilitation [23,健康监测24),和帮助残疾人25,26]。此外,最近的调查(10,27,28)已被证明的成就基于ai皮肤科医生工具在SC的自动诊断和检测疾病。这些自动化系统可以帮助和支持临床医生快速和准确地决定SC亚型,从而避免人工诊断的挑战。他们还可以为nonskilled皮肤科医生提供一个用户友好的气氛。此外,他们可以提供第二个意见导致一个更加自信的决定(29日]。
Radiomics是一个不断发展的领域在医学图像定量分析(30.]。它也被称为量化图像特性。Radiomics associates的大量重要特性从医学图像中提取的生物或临床端点(31日]。radiomics和人工智能技术的融合促进了癌症的准确诊断类型(32]。这是因为radiomics可以确定纹理和其他基本组件的肿瘤医学图像帮助表现良好的人工智能方法,实现准确的分类或诊断结果(33]。本文提出了一种智能皮肤科医生几个SC子类型的自动分类的工具使用一个集成的AI和radiomics特征提取技术(34]。这个工作的动机和新奇的工具将在下一节中讨论。说明提出的智能工具的细节部分的方法。
本文安排如下。部分2包括背景关于AI-enabled SC诊断工具。部分3涉及到数据集描述,深度学习的方法,提出了智能工具。部分4说明了评价指标。部分5提出并讨论了拟议中的工具和部分的结果5总结了纸。
2。背景在皮肤癌的人工智能诊断
在过去的几年中,一些自动化工具引入了SC检测和诊断。这些工具可以分为两类,传统和基于深度学习——(DL)的方法。前者是基于传统的机器学习方法包括图像预处理,图像分割,特征提取我的低级radiomics特性基础上手工制作的方法。莫妮卡et al。35)提出了一个自动化系统基于低级radiomics特征提取方法如灰度值协方差矩阵应用灰度共生矩阵建立()和一些统计特性学习支持向量机分类器分类8子类的SC达到96.25%的精度。同样,Arora et al。36]融合几个低级特性使用袋特性(转炉)冲浪功能分类皮肤图像转化为癌和非癌变。作者使用一个支持向量机分类器分类图像,获得了85.7%的准确率。同时,Kumar et al (37)实现一个系统的分化癌和良性病变皮肤使用低级特性。首先,作者使用中值滤波预处理的图像。然后,他们使用fuzzy-C-means分段病变聚类方法。接下来,应用灰度共生矩阵建立他们提取纹理特征和局部二值模式(LBP)以及颜色特征。最后,通过人工神经网络训练使用微分评价算法分类皮肤损伤达到97.7%的精度。
另一方面,DL-based机器学习的技术是最新的分支中常用的图像处理技术。这是由于他们的伟大能力诊断一些疾病即使没有从图像预处理、分割、特征提取。他们也可以被用来作为特征提取器从医学图像中提取高层radiomics特性(38- - - - - -40用于分类过程。罗德里格斯et al。41基于DL)设计一个自动化系统和物联网(物联网)协助医生区分痣和黑色素瘤皮肤癌的子类。《盗梦空间》,作者利用VGG ResNet, Inception-ResNet, Xception, MobileNet, DenseNet, NASNet卷积神经网络(cnn)特征提取器。使用这些高级特性分别构建和训练许多分类器。最高的性能(精度为96.805%)是获得使用的深radiomics特征densenet - 201和再(资讯)分类器。同样,Khamparia et al。42)提出了一个框架,可以远程使用DL技术分类成恶性和良性皮肤肿瘤。作者提取高层深特征从四个cnn,包括ResNet-50 VGG-19,《盗梦空间》,SqueezeNet使用转移学习(TL)。接下来,利用这些特征作为输入完全连接层的CNN分类使用密度和max-pooling操作达到最大精度为99.6%。汗等。43提出了一种新颖的诊断框架SC子类。该框架包含两个主要阶段:分割和分类。在分割阶段,一个面具复发CNN (R-CNN)采用基于ResNet-50和特征金字塔网络。之后,在分类阶段,建立了一个基于24-layer CNN雇员将Softmax激活函数的分类。精度达到了86.5%。后来,汗et al。44)使用去相关预处理图像变形算法,然后采用mask-R-CNN从这些图像分段皮肤损伤。接下来,深池和完全连接层的特性DenseNet提取和总和。之后,使用entropy-controlled最小二乘支持向量机最优特征选择。精度达到了88.5%。
另外,一些作者结合几个高层深特性;例如,在[45),作者挖掘高级特性从pretrained AlexNet VGG-16。之后,这些特性相结合的连接方法和减少使用主成分分析。最后,这些特性被用来减少学习几个分类器分类成恶性和良性皮肤肿瘤。袋装树分类器获得最高98.71%的准确性。同样,˘gacar et al。46]介绍了一个智能系统区分恶性和良性皮肤肿瘤。最初,图像重建使用autoencoder然后用来训练MobileNet。原始图像是用来训练另一个MobileNet。高层特征提取两个MobileNet结合,以及强化神经网络(SNN)是用来执行分类准确率达到95.27%。相反,作者的47)提取低级radiomics特性应用灰度共生矩阵建立基于结构分析,如和LBP特征,然后减少这些特性使用主成分分析(PCA)。之后,减少功能是用来训练几个个体分类器分类恶性和良性的皮肤损伤。平行,作者从VGG-19高层特征提取,一个定制的CNN图像划分成恶性和良性利用单个分类器。最后,预测达到使用功能水平合并使用投票系综分类器达到97.5%的准确率。
上述技术有几个缺点。首先,他们中的大多数被构造二元分类问题,如区分良性和恶性,无论是良性癌或两个皮肤损伤子类。几人分类几个亚型的癌症。他们中的大多数都是基于水平较低或高水平的功能除了[47),融合水平执行二进制分类。这些缺点已经促使我们提出一个新的智能皮肤科医生工具对皮肤癌七个类别进行分类。该工具检查结合两个低级radiomics特性的影响。它还研究合并几个高层深特性的影响。最后,它调查融合多方面的低级和高级特性的影响。
3所示。方法和材料
3.1。特征提取方法
3.1.1。高层Radiomics特性基于深度学习技巧
ResNet是其中一个最有效的cnn中常用的医学领域。这收到了一个著名的地方在2015年ILSVRC和可可竞争(48]。它具有高功能有效地收敛与足够的计算时间,尽管扩大层数。这个优势是由于新建筑由他引入et al。48),完全依赖于深厚的残块。这个块嵌入短路径沿着传统的深CNN排除一些层在训练阶段导致伟大的加速收敛过程18]。深的数量层用于pretrained ResNet受雇于纸是50。
DenseNet:一些研究文章指出,深层网络可能相当深入,准确、时间成本有效创建时用较短的关系包括输入和输出层接近。因此,密度卷积网络(DenseNet)实现了黄等。49)根据上述短链接。DenseNet相互关系的所有层的前馈实践特征图在哪里输入后续层在当前层的特征图提供给整个成功层。DenseNet CNN包括在这项研究有201层深处。
DarkNet最初由Redmon实现和哈蒂502017年)。它非常依赖于YOLO-V2。它有一系列级联卷积层有大小1×1和3×3每个池过程后翻了一倍。DarkNet采用全球平均池层降低3×3卷积层之间的功能演示。深层的数量参与DarkNet在这项研究中的应用是53岁。
3.1.2。低级特性基于手工技术
离散小波变换(DWT)正交基函数称为“小波”适用于分析输入数据(51]。为一维输入数据中挖掘深层radiomics特性早期阶段,DWT过程是通过卷积高低通滤波器的输入特性(52]。之后,一个还原过程是通过将采样输出数据除以2 (53]。随后,两个集群产生的系数称为近似系数CA1和细节系数CD1(54]。
局部二值模式(LBP)提出了Ojala et al。55)作为特征提取器的方法,从像素决定了当地的示威活动和信息。它只是将一个图像转换成一组局部纹理。枸杞多糖进行了二元标签图像中的每个像素值根据一个特定的阈值计算中心像素周围的邻居像素值。
3.2。数据集
这项工作中所使用的数据集称为HAM10000 [56]。这个数据集包含七个SC的子类的图像包括黑色素瘤(mel),痣(nv),基底细胞癌(bcc)、光化性角化病(ak),血管(vasc),良性病(blk)和皮肤纤维瘤(df)。HAM10000数据集包含10008张图片dermoscopic照片。在这些图像514 bcc 327 ak, 6705人nv, 1095人供货,1110人梅尔,df, 115和142是vasc皮肤病变亚型。这些图像如图样品1。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
3.3。提出了智能皮肤科医生的工具
提出智能工具包括四个步骤涉及dermoscopic照片的预处理,特征采矿、功能整合和选择,和分类的步骤。最初,照片大小和增强。在特征挖掘步骤,底层特征提取两个传统的特征提取。同时,高级特性使用三个DL开采技术。之后,特性不同层次的集成和检查,然后减少的功能整合和选择步骤。最后,三个支持向量机(SVM)分类器是利用多个分类SC子类。提出了智能皮肤科医生的框图如图的工具2。
3.3.1。Dermoscopic图像的预处理
dermoscopic HAM10000的图像数据集的大小不同;因此,他们都调整到相应的尺寸每个cnn的DL技术用于这项工作(224×224×3 ResNet-50 densenet - 201,和256×256×3 DarkNet-53)。此外,注意到在数据集部分,数据集的每个类的照片是不平衡的;因此,我们用了几个增强技术来平衡数据集。这些增强技术包括剪切、旋转和顶部和底部的帽子过滤。图像增强后的数量是1028,bcc 981 ak, nv 1050, 1095供货,梅尔1110年,vasc df, 920和994。
3.3.2。功能挖掘
在这一步中,两个categoriesof radiomics特性开采低水平和高levelfeatures组成。在低级特征,两个手工特征提取方法包括枸杞多糖(57]和DWT [58使用)。这些技术都是基于纹理分析经常产生足够的分类性能,尤其是当合并(59]。在DWT, 3分解水平与Daubechies 4 (db-4)母小波。系数的近似系数CA3和三个细节系数CD3是低级的特性。
另一方面,从三个DL高级功能包括特征提取方法。这些技术是ResNet-50 densenet - 201, DarkNet-53 cnn。我的这些特性,最初,TL (60)上执行的三个深pretrained cnn的ImageNet数据集能够学到七皮肤损害分类类别。之后,一些参数调整为每个CNN。接下来,三个cnn训练HAM10000数据集大小和增强后的图像。最后,高级特性提取的最后平均池层三个cnn。高级和低级特征的尺寸如表所示1。
复制高级特性,首先,一些参数的三个cnn应该调整学习速率等(0.003),数量的时代,验证频率为20,min-batch大小4。之后,采用TL使用pretrained cnn(以前ImageNet数据集训练)和输出层的数量更改为7。接下来,三个cnn与HAM10000训练数据集使用随机梯度下降法和动量算法。最后,TL是用来提取高级特性的最新平均池层三个cnn。一些功能符合174标准图像的生物标志物标准化倡议(IBSI) [61年,62年),而另一些没有。表S1补充材料论述了合规/不服从的这些特性。
3.3.3。功能整合和选择
功能整合步骤是完成三个阶段。在第一阶段,底层特征提取的特征挖掘阶段集成使用连接过程。在第二个阶段,高级功能融合在一个连接的方式。此外,在第三阶段,每个组合的低收入和高级特性集相结合来确定整合多方面的功能类别和选择的影响综合多方面的特性组合从而影响的分类性能。完成后整合阶段,集成特性集对分类性能的影响,完成了高进行特征选择阶段。特征选择是减少巨大的融合特征维度。最小冗余最大相关性(mRMR)特征选择过程63年在这个步骤中使用。
3.3.4。分类
在分类步骤中,著名的SVM分类器是用于分类的七个子类SC。在分类过程中使用的内核函数是线性的,立方,二次。5倍交叉验证(CV)方法用于验证拟议的皮肤科医生工具的分类结果。简历的过程中,最初数据集分成5等于折叠。之后,4折的用于支持向量机分类器的训练过程,5th褶皱是用于测试。这个过程被重复5次,在每次训练SVM分类器不同4培训折叠和5th是用于测试。一些性能指标,将在下一节中提到的计算为每个测试褶皱和平均为5折。
4所示。性能指标
有些指标是用来衡量智能皮肤科医生提出的性能工具,包括分类精度(CA), F1-score,灵敏度、精度、和特异性16]。公式(1)- (5)是用来确定这些指标: TP是真阳性,FN了假阴性,TN代表真正的负面,FP和假阳性。
5。结果与讨论
本节将介绍和讨论的结果提出了皮肤科医生的工具。第一节将讨论利用低级特征的分类结果。之后,它将显示和说明了分类输出使用高级特性。接下来,它将介绍和解释的分类结果使用歧管radiomics的集成功能类别。最后,它将比较的结果提出智能皮肤科医生工具与最近相关工作由相同的数据集来验证其能力。
5.1。低级功能的结果
训练支持向量机分类器的分类结果与底层特征包括DWT和枸杞多糖在图所示3。注意DWT-A, DWT-H、DWT-V DWT-D对应近似,水平、垂直和对角DWT系数,分别。因为它可以看到从图3,低级的SVM分类器训练功能产生分类精度范围在70.5%和33.5之间。获得最高的精度与使用DWT-A立方SVM分类器构造特征。这些结果证实使用低级特性本身并不能够达到准确的结果对SC分类。
5.2。高级功能的结果
支持向量机分类器的输出学习densenet - 201的高级特性,ResNet-50, DarkNet-53 cnn在图所示4。最大精度为95.6%,95.6%和94.9%得到立方,二次和相应的线性SVM分类器训练的高级特性densenet - 201。精度略低(95.3%,95.3%,和94.8%)是通过使用相同的分类器学习ResNet-50特性。DarkNet-53特性实现精度为94.6%,64.3%和93.65立方,二次,分别和线性SVM分类器。图4证明利用高级特性相比,具有更高的分类精度低级特性如图3。
5.3。结合多方面的功能类别和特征选择的结果
支持向量机分类器的分类精度与整合多方面的训练水平特性如表所示2。表2首先说明了精度达到使用高级特性与低级特征的每个组合。很明显,每一个高级功能的融合与一个和两个低级特性集改善了分类精度达到峰值的准确性为97.5%,97.9%和97.9%(线性、二次立方相应SVM)使用整合densenet - 201 + DWT-A +枸杞多糖的特性。这些精度高于获得使用个人高级特性或单一的低级功能如图3和4。
接下来,表2讨论了每两个高层特征融合的结果以及结合每两个高级与低级功能特性集。表2验证结合两个高级特性精度上具有积极的影响,因为它增加达到97.9%,98.1%和98%(分别为线性,二次立方SVM)使用densenet - 201 + DarkNet-53高级特性。此外,当合并两个高级特性和两个低级功能,支持向量机分类器的分类精度提高在这种情况下达到最大精度为98.2%,98.6%和98.5%利用的结合特性ResNet-50 + densenet - 201 + DWT-A +枸杞多糖是高于实现当结合一个高级与低级特征的特性集。
最后,表2显示融合三个高级特性的分类精度随着集成三个高特征与低水平的功能。表2证明,结合多方面的不同类别的特点有一个高对分类精度的影响。这是显而易见的,因为当合并的三个高特性ResNet-50 + densenet - 201 + DarkNet-53 DWT-A +枸杞多糖的低级特征,精度提高了98.7%,99%和99%(分别为线性,二次立方SVM)。这个改善分类精度表示的容量提出了智能皮肤科医生工具分类皮肤癌的子类。图5显示了立方SVM分类器训练的混淆矩阵的多方面的特性ResNet-50 + densenet - 201 + DarkNet-53 + DWT-A +枸杞多糖。
性能指标包括敏感性,特异性,精密,F1-score立方SVM分类器训练ResNet-50 + densenet - 201 + DarkNet-53 + DWT-A +枸杞多糖特性如表所示3。表3表明平均特异性,灵敏度、精度和F1-score SC的七类是0.9969,0.9854,0.9884和0.988。这些结果证实该皮肤科医生工具是可靠的。这是因为,所64年- - - - - -66年),任何医疗系统是可靠的,精度必须超过0.95,敏感性和特异性应该超过0.8。接收操作特征(ROC)曲线与曲线下的面积(AUC)是显示在图6。
(一)
(b)
(c)
(d)
结果在使用mRMR特征选择方法如图7。注意,分类精度对二次和线性支持向量机增加了99.1%和98.8%,分别而立方SVM的准确性是相同的(99%)。mRMR特征选择过程减少了特征的数量到2500年低于6495结合多方面的特性ResNet-50 + densenet - 201 + DarkNet-53 + DWT-A +枸杞多糖。图8显示所选radiomics的热图分析功能。
5.4。比较该工具的性能和相关工作
来验证提出的智能能力的皮肤科医生的工具,它的性能与最近的相关研究相比,基于HAM1000数据集。这种比较如表所示4。很明显从表4拟议的工具有一个优越的性能相比其他相关作品以来,准确性,敏感性,特异性,和F1的分数通过使用该工具是99%,98.54%,99.69%,98.84%,98.83%,大于所有其他研究。这种表现是因为提出智能皮肤科医生的工具是基于整合多方面的功能类别。它首先检查了3个人的使用高级特性,然后两个低级手工制作的功能。接下来,它调查将几个高级和低级特性的影响,寻找最佳综合多方面的特性。提出工具的结果表明,合并多种不同类别的特点有一个伟大的对分类精度的影响。这不是在其他相关研究表所示4因为他们是基于低层特征或高级特性。他们中的大多数采用特征集和不检查功能融合的影响。
SC的早期检测,以防止它发展非常重要。它还可以帮助选择适当的治疗和随访计划和降低死亡率。本研究提出了一个智能损伤类型的自动分类的工具。结果通过使用该智能工具是有前途的。他们确认该工具是一种有效的方法,可以用于临床实践。在这个常识,特权的工具的关键是它的可访问性这意味着它可以用在几个地区容易尤其是那些遭受缺乏熟练的皮肤科医生。除此之外,这个工具会自动让皮肤科医生诊断SC子类,避免手动检查中要面临的挑战由于皮肤病变位于SC图像的复杂的模式(8]。它还将缓解和系诊断过程相比,人工诊断。此外,病变的准确分类使用该工具将防止患者诊断为良性病变多余的医院访问,正常的药物可以治愈他们不需要暴露在放疗或化疗。另一方面,该工具可以准确地诊断患者的特定SC类别帮助医生选择合适的治疗过程。几项研究已经研究了使用单个特征提取的方法包括传统低层特征和高层特征基于深度学习诊断SC;然而,这些特性之间的融合是非常重要的,作为结果提出工具显示,集成这些特性可以提高性能。提出了工具的结果证明该工具增加价值的医疗部门。这是因为该工具可以更准确地诊断SC类别比方法中使用的文学。
6。结论
皮肤癌(SC)是一个广泛的人群之间的恶性肿瘤。感染的增加率可以减少这种类型的癌症,如果准确地诊断和治疗在其初始阶段。提出一个皮肤科医生工具基于人工智能方法和廖radiomics功能类别使医生能够准确诊断SC亚型。这可能有助于选择合适的随访和治疗计划。提出了智能工具是基于几个深度学习和机器学习技术。它包含多方面的radiomics功能分类包括三个ResNet-50的高级特性,densenet - 201, DarkNet-53和两个低级radiomics DWT的特点和枸杞多糖。本研究证明,将这两个层次的radiomics皮肤科医生工具的特性提高了性能比单独使用高级或低级特性。智能皮肤科医生的性能工具与基于ai皮肤科医生工具和此相关的比较验证了该工具在其他工具的优越性;因此,提出智能工具可以用来协助皮肤科医生准确诊断的子类SC和避免并发症的诊断手册。即将到来的工作将考虑使用更深度学习的技术,其他radiomics技术,分割方法和其他集成技术的应用。 The main limitation of this tool is using the 5-fold cross-validation method for validating the performance; however, cross-center validation using other datasets is required. Therefore, future work will consider using another dataset for cross-center validation.
数据可用性
论文中使用的数据集可以在Kaggle (https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000)。代码可以在以下链接:https://drive.google.com/file/d/1ifD8xzUm-lxzvvLghrjbeo55uar8Xio8/view?usp=sharing。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为潜在的利益冲突。
补充材料
一些radiomics特征提取在这项研究IBSI符合174标准。表S1说明了合规/不服从这些特性。(补充材料)