文摘
在美国,每年有近540万人被诊断为皮肤癌。黑色素瘤是一种最危险的皮肤癌类型,以及其存活率是5%。皮肤癌的发展在过去几年上升。皮肤癌的早期识别可以帮助减少人类的死亡率。Dermoscopy技术用于皮肤图像的采集。然而,手动检查过程消耗更多的时间和所需的成本。最近的发展领域的深度学习显示显著的性能分类任务。在本研究工作中,提出了一种新的自动化框架对多级的皮肤病变分类。拟议的框架由一系列的步骤。在第一步中,增大。 For the augmentation process, three operations are performed: rotate 90, right-left flip, and up and down flip. In the second step, deep models are fine-tuned. Two models are opted, such as ResNet-50 and ResNet-101, and updated their layers. In the third step, transfer learning is applied to train both fine-tuned deep models on augmented datasets. In the succeeding stage, features are extracted and performed fusion using a modified serial-based approach. Finally, the fused vector is further enhanced by selecting the best features using the skewness-controlled SVR approach. The final selected features are classified using several machine learning algorithms and selected based on the accuracy value. In the experimental process, the augmented HAM10000 dataset is used and achieved an accuracy of 91.7%. Moreover, the performance of the augmented dataset is better as compared to the original imbalanced dataset. In addition, the proposed method is compared with some recent studies and shows improved performance.
1。介绍
皮肤癌的发展增加了在过去十年(1]。紫外线晒伤的皮肤随着时间的推移,导致癌细胞发展(2]。通常,这种情况下隐藏的风险,导致缺乏信心和心理压力在人类和皮肤癌的风险。几种类型的皮肤癌的存在,包括基底细胞,黑色素瘤,光化性角化病、鳞状细胞癌(3]。鳞状细胞癌是对照光化性角化病(日光角化病)4]。每年,黑色素瘤的发病率和nonmelanoma继续增长(2]。最致命的皮肤癌黑色素瘤和迅速蔓延到其他身体部位的恶性肿瘤神经嵴的黑色素细胞瘤(5]。
在美国,近540万新病例每年检测到皮肤癌。由于黑色素瘤,每年超过10000人的死亡是注册在美国(6]。在美国,104350例新病例被诊断出皮肤癌的2019年,死亡的人数是7230。在2020年,196060美国人被诊断为黑色素瘤。根据这些事实,黑色素瘤病例增加大约2% (7]。最近,在2021年,207.39 K的人被诊断为皮肤癌而死亡的人数是70.18 K。根据事实,当检测到损伤前,存活率增加大约98% (7]。摘要由于诊断和死亡的皮肤癌如图1。
皮肤科医生诊断恶性病变通过dermoscopic视觉检测技术(8]。使用dermoscopy诊断皮肤癌是挑战由于各种材质和伤口9]。然而,手动检查dermoscopic图像很难诊断皮肤癌有更好的精度。病变诊断的准确性取决于皮肤科医生的经验(9]。其他一些技术可用于诊断皮肤癌,如活检(7)和宏观(10]。由于皮肤损伤的复杂特性,临床方法需要更多的关注和时间(11,12]。
介绍了以计算机为基础的检测技术(CAD)在医学成像(一些研究人员7,13]。他们介绍了CAD技术几个癌症如皮肤癌(14),脑部肿瘤(15,16),肺癌17,18],COVID-19 [19,20.,更多的21- - - - - -23]。一个简单的CAD技术包括四个关键步骤如输入图像的预处理、检测受感染的部位、特征提取和分类。计算机化的方法可以帮助作为第二意见皮肤科医生验证手册诊断结果(8]。机器学习的发展,如深度学习,显示了成就在过去几年医学成像。卷积神经网络(CNN)是一种深度学习用于自动特征提取(6]。卷积神经网络是计算机视觉技术,自动区分和识别图像的特性(24]。由于其精度高,它吸引了兴趣在医学图像处理中,农业,生物,和监测,等等。一个简单的CNN通常需要一系列层如卷积层,ReLU层(25),归一化层、池层(26),完全连接层,Softmax层(27]。在许多技术,研究人员使用一些pretrained深度学习模型的分类任务。一些公开可用pretrained深度学习模型AlexNet, VGG, GoogleNet, InceptionV3, ResNet等等28]。他们用这些模型通过转移学习(7]。一些研究人员使用特征选择和融合技术来提高识别精度(29日,30.]。
计算机辅助诊断系统可以让皮肤科医生和医生做出决定,降低诊断成本,提高诊断的可靠性(31日]。自动皮肤损伤识别机制挑战是因为一些挑战,如改变外观和不平衡数据集等等(32]。查图尔维迪et al。6)提出了一个自动皮肤癌多类分类的框架。五个步骤参与方法:数据预处理、分类模型(pretrained深学习),微调,特征提取和性能评估。在评价过程中,指出,93.20%的最大精度是实现个体模型(resnet - 101),而一个完整的92.83%进行整体模型的精度(InceptionResNetV2 + resnet - 101)。最后,他们得出的结论是,深度学习模型的训练的最佳设置hyperparameters甚至可以表现好于整体模型。新et al。33]介绍了轻量级的自动诊断算法对皮肤病变的诊断。提出的算法更可靠,可行,易于使用。实验过程,HAM10000使用数据集,取得了85.8%的准确性。除此之外,该方法进行了验证five-class KCGMH数据集,取得了89.5%的准确性。Kumar et al。9)提出了一个自动化的电子设备。他们认为许多挑战,如皮肤癌受伤,皮肤颜色、皮肤、不对称和区域的形状的影响。他们使用模糊c均值划分均匀的图像区域。然后,一些纹理特征提取和训练有素的差分进化(DE)算法。实验过程进行HAM10000,取得了97.4%的准确性。
Afshar et al。8)提出了一个计算机化病变定位和识别的方法。病变的定位,他们使用RCNN架构和提取深度特性。使用牛顿迭代后,选择最优的特征(IcNR)和人工蜂群(ABC)优化。Daghrir et al。5)开发了一种混合方法诊断可疑病变可能检查黑色素瘤皮肤癌。他们使用一个共同进化神经网络和两个经典分类器在三个不同的方法。Shayini [2)提出一个分类框架使用几何和结构信息。他们用安最后特征分类。结果表明改进的精度比现有的技术。Akram et al。7]提出了基于深度学习病灶分割和分类的过程。他们用面具RCNN架构病变分割。之后,24-layered CNN架构设计的多级皮肤病变分类。
此外,许多其他技术介绍了深度学习和改进moth-flame等优化(34],teledermatology-based架构[35),分层三步深框架(35,更多的36,37]。
1.1。挑战
几个挑战影响多级病变分类精度。比二进制类分类、多类问题是一个复杂和富有挑战性的识别过程。以下挑战被认为是在这个研究工作:(我)多个皮肤损伤分类到正确的类是具有挑战性的由于不同病变之间的相似性较高。(2)不平衡数据集类增加更高的概率样本类。(3)多级皮肤病变类型也有类似的形状、颜色和纹理,也提取相似的特征。在以后的阶段,这些特性分为一个不正确的皮肤类。(iv)在融合步骤中,multiproperties特性融合在一个矩阵的准确性,但它是一个高的机会,也添加了一些冗余的功能。这类问题后增加了计算时间。(v)在特征提取步骤中,去掉几个基本特性,这可能会导致误分类的问题。因此,一个好的功能需要优化技术(38]。
1.2。主要贡献
在这项工作中,一个自动化技术提出了多级皮肤病变分类。这个工作的重大贡献如下:(我)组内像素改变操作实现数据增加基于左向右翻转,建构翻转和旋转90度。这一步改变整个图像像素相互区分图像深度模型的一个公平的培训。(2)提出了一种改进的基于串口的方法提取深度融合的特征。(3)小说skewness-controlled SVR方法提出了最好的特征选择。最后选择最佳特性分类使用监督学习算法。
其余的手稿是按照以下顺序组织。部分2提出建议的方法包括深特性,选择最佳特性,融合的过程。结果和比较中提出了与现有技术部分3。最后,手稿是结论部分4。
2。提出的方法
多级皮肤病变的分类,提出了一种新的框架使用深度学习和特征选择。拟议的框架由数据增大等一系列步骤,模型微调,将学习、特征提取,提取特征的融合,选择最好的特性。在扩张阶段,执行三个操作:90旋转,上下左右翻转,翻转。在微调模型步骤中,选择两个模型,如ResNet-50和resnet - 101和更新他们的层。之后,转移学习应用于列车调整深度模型增广数据集。在随后的步骤中,特征提取和融合使用修改后的基于串口的方法执行。最后,进一步提高融合向量通过选择最佳特性使用skewness-controlled SVR方法。拟议的框架的主要架构图如图2。
2.1。数据增加
数据增强是一个重要的信息扩展方法在机器学习(ML)。增加数据显示重视深度学习由于大量的数据训练模型。在本文中,选择HAM10000数据集的实验过程。这个数据集包含七个高度不平衡类。最初,HAM10000数据集包括超过10000个七等皮肤类6705的图像的图像melanocytic痣,1113张图片在黑色素瘤,1099年良性角质的图片,514张图片在基底细胞癌,327图片的光化性角质物质,在血管病变,和115年142张图片图片皮肤纤维瘤(39]。从这些信息,指出几类高度不平衡;因此,它是至关重要的平衡这个数据集。在不平衡数据集,深度学习模型不是训练了更好的性能。几样例图像如图3。
执行三个操作在数据扩充阶段:90年旋转,左右翻转(LR)和上下翻转(UD)。应用这些操作多次,直到每个类的图像数量达到6000人。最后,数字图像的新更新的数据集是42000,这是10000年以前。数学上,执行这些操作如下。
考虑一个图像数据集 (40), 是图像数据集的一个例子。让已经完全像素;然后,齐次坐标像素矩阵或定义如下: 在单像素显示的每一行的确切坐标。考虑到输入图像的大小 ,由有行,列和渠道, 。向上翻转(UD)操作制定如下(41]: 在哪里表示原始图像的换位。这幅图像进一步更新如下: 在哪里表示垂直翻转图像。水平翻转(LR)操作执行如下: 在哪里表示水平翻转图像。第三个操作,名叫旋转90,制定如下: 在哪里表示图像的旋转矩阵。视觉上,这些操作见图4。这图显示每个原始图像上执行三个操作:垂直翻转(UD),水平翻转(LR)和旋转90。
2.2。卷积神经网络
卷积神经网络(CNN)是一种计算机视觉技术,自动区分和识别图像的特性(24]。一个简单的CNN的影像分类架构如图5。在这个图中,皮肤损害图像被认为是作为输入,通过卷积层。在这一层,权重转化为功能进一步被细化为池层。后,转换为一维的特性在一个完全连接层。这一层的功能是通过将Softmax层最终分类。
2.3。转移学习
转移学习技术来定义应用知识基于一个或多个源活动。考虑一个域包括两个部分: 在哪里是一个特征空间,是边际分布:
给定一个双组分任务和 , 在哪里标签空间包含一个预测功能;然后,是训练有素的
每一个向量的特性域和代表一个适当的标签。
假设源域和客观的域 ,在哪里 和任务是和 ,在哪里 。因此,TL定义如下:(我) :不同的特征空间(2) :不同的边际的可能性(3) :不同的标签空间(iv) :不同的条件概率
视觉上,这个过程如图6。这个图描述了ImageNet数据集作为源数据有1000个对象类。后转移知识的源模型到目标模型、权重和标签更新根据目标数据集。HAM10000皮肤癌数据集是用作目标数据集与七皮肤类工作。
2.4。调整ResNet-50深特性
剩余网络(ResNet)是一种传统的神经网络模型对许多计算机视觉任务使用一个集成的网络元素。网络有50层的深度和规模 像素的输入(42]。时剩余的学习功能,ResNet可能就是网络层给定一个输入映射参考。层直接堆放在ResNet。ResNet-50的基本思想是使用身份映射到上一层需要获得的最终预测输出(43]。ResNet-50减少消失渐变效果运用另一种绕过捷径。它可以帮助克服模型过度拟合训练问题。在视觉上,它显示在图7。
此外,一个完整的架构也在图8。这个图描述了五个残块用于这个网络,在每个残块,多层被添加到卷隐层的特性。总的来说,这个网络包括50层的深处 输入层接受域,一层max-pooling紧随其后 内核大小。
删除最后一个完全连接(FC)层,和一个新的俱乐部层微调过程中添加。然后,新俱乐部层与将Softmax层和最后的分类输出层。调整架构如图9。这个图描述了增强皮肤损害数据集被认为是这个网络的输入,输出,七类不同的皮肤癌类型了。在这之后,采用TL方法训练网络,和一个新的修改网络。在培训过程中,以下参数初始化;例如,学习速率为0.0001,100时代,minibatch大小是64,和学习方法是随机梯度下降法(SGD)。特性从全球平均池中提取层,后来用于分类过程。一个提取特征的维数层 ,在哪里表示dermoscopy图像。
2.5。调整resnet - 101深的特点
resnet - 101由104层由33个方块,其中前一块直接使用29广场(44]。图10显示一个简短描述的resnet - 101年CNN模型。在这个图中,描述,第一个残块的输出 。第一次卷积后层,一层max-pooling添加过滤器的大小 步2。使用相同的序列,四个残块,每个块包含几层,在图11。这个模型最初是在ImageNet数据集训练;因此,输出是1000 d。
在这个工作,这个模型是调整根据目标数据集命名HAM10000皮肤有七类。FC层微调过程中删除和添加一个新的俱乐部层有7个输出。之后,FC层连接将Softmax层和输出层和训练使用TL。以下参数初始化培训过程:学习速率为0.0001,时代是100,minibatch大小是64,和学习方法是随机梯度下降法(SGD)。特性从平均池中提取层,它是后用于分类的过程。在这一层上,提取特征的维度 。
2.6。特征融合
在模式识别、特征融合是一个重要的话题,多源特征融合在一个向量。特征融合的主要目的是增加的对象信息准确的分类。在这项工作中,我们考虑一种基于串口的方法叫修改基于串口的功能融合。该融合方法在两个连续的步骤。在第一步中,所有的特征向量融合在一个矩阵,后来,标准错误的意思是——(SEM)提出了基于阈值函数。
假设和两个函数的房间在样本大小模式吗 。相应的两个特征向量 和 对于一个任意的示例 。的基于串口的功能组合被定义为 。当然,如果矢量特性是n维,是米维空间,然后结合串行特性是 - - - - - -尺寸(45]。串行组合特征空间是由结合所有连续合并模式样本的特征向量 - - - - - -维度。结果向量维数 。在这一步中,SEM的计算使用以下公式: 在哪里表示阈值函数,是融合特征向量的维度 , 的特性被认为是在融合向量,然后呢是一个标准偏差值。这一步的输出是进一步细化的特征选择步骤,下面给出。
2.7。特征选择
特征选择的目标是减少输入变量在预测模型。这个过程最小化提出系统的计算时间,提高分类精度。在这个工作中,提出了一种新的启发式搜索的特征选择方法叫skewness-controlled SVR。在第一步中,偏态特征向量提取融合向量 。这一步的目的是找到特定的功能下降的可能性概率分布。数学上,偏态计算如下: 在哪里是偏态特征向量,融合特征向量的平均值,然后呢标准偏差。使用这种偏态值,定义一个阈值函数在第一阶段选择特性。
使用这个阈值函数,特征选择在初始阶段。选中的这个阶段的特点是后验证使用适应度函数支持向量回归(SVR)。SVR制定如下。
假设数据集进行训练由实例 ,各有一个属性 ,一个相关的类,和 。 是选择的特性和代表标签;也就是说, 。在数据集D,是一种偏见,线性函数f(x)可以定义如下: 的重量被定义为输入空间 ;也就是说, 。最大利润的大小是由欧几里得的重量 。平坦,因此,需要一个最低重量标准以下的方程。这里的定义是
每个可以表示为训练数据错误 。
如果有错误 ,偏差是允许的,和前面的方程可以表示为 。
使用这两个方程,最小化的问题可以制定如下: 受
上述方程的限制意味着函数对应于所有配对 的偏差 。然而,假设不是接受所有实例时,松弛变量既不需要,也不必要的违反假设。优化问题可能是新配方使用松弛变量如下: 受 在哪里是点球常数,它不满足约束条件。它还可以帮助减少过度拟合。内核被定义为输入数据 并且可以替代的发生元组之间的点积,以避免数据元组更改点积。因此所有的计算都是在原始的输入区域。在这项工作中,径向基核/利用高斯函数:
使用SVR精度计算,如果精度小于目标精度值再次更新。这个过程一直持续到执行的最大迭代数。在这部作品中,目标精度为90%,和迭代的数量是5。在这个过程中,获得一个特征向量的选择最佳的特征向量维度 和美联储进一步监督学习算法对最终分类。
3所示。实验结果和讨论
该方法评估增强HAM10000数据集。数据集分为70:30,70%的数据用于模型的训练,剩下的30%是用于测试的过程。其他培训hyperparameters;例如,时代100年minibatch大小是64,学习速率是0.0001。交叉验证的方法进行了10倍(46]。七性能措施用于实验过程:召回率,精确率,假阴性率(FNR),曲线下面积(AUC)、准确性、时间,F1-score。该方法是在MATLAB中实现2020 b, Corei7, 16 gb的RAM和8 gb显卡。
3.1。结果
在本节中,该方法描述的结果数值矩阵(表)和混乱。总十分类器是用于实验的过程,如线性支持向量机(LSVM),二次SVM (QSVM)立方SVM (CSVM),介质高斯SVM (MGSVM), cosK最近的邻居(CKNN),加权资讯(WKNN),粗资讯(CKNN),系综子空间歧视(ESD),整体提高了树(光大通信),和系综子空间资讯(ESKNN)。五个实验进行验证拟议的框架(i)等实验# 1:分类使用微调ResNet-50 CNN模型,(2)实验# 2:分类使用微调resnet - 101 CNN模型,(3)实验# 3:执行功能的融合调整ResNet-50和resnet - 101 CNN模型,及(iv)最佳特性(BF)的选择。
3.1.1。实验# 1
在第一个实验中,特征提取使用微调ResNet-50 CNN模型,并计算结果。增强数据集是用于实验的过程。这个实验的结果表1。CSVM精度最高92.7%的这个表,计算时间1190.3 (sec)。图12显示了这个实验CSVM的混淆矩阵。在这个图中,斜值代表正确的预测值等AKIEC (96%)、BCC(93%)、食品(87%)、DF(97%)、梅尔(86%),NV(94%),和VASC(99%),分别为。此外,召回率是93.14,精确率为93.14,分别和F1-score是93.14%。与其他分类器相比,它是发现CSVM显示更好的分类精度。此外,每个分类器的计算时间也指出,绘制在图13。这个数字表明,CKNN最低274.55 (sec)的计算时间。
3.1.2。实验2号
表2礼物的结果调整resnet - 101使用增强HAM10000 CNN特性数据集。这个表显示,通过CSVM最好的准确率为92.1%,计算时间为11321.1 (sec)召回率是92.7,精确率为92.42,分别和F1-score是92.56%。图14显示CSVM的混淆矩阵。在这个图中,斜值代表正确的预测值等AKIEC (96%)、BCC(92%)、食品(85%)、DF(98%)、梅尔(86%),NV(93%),和VASC(99%),分别为。如表,给出一些其他分类器也实现和显示CSVM给更好的精度。此外,每个分类器的计算时间计算,最低指出时间是260.5 (sec) W-KNN分类器。注意到时间也绘制在图15。
3.1.3。实验3号
在接下来的实验中,使用基于串口的扩展特性融合(”方法。结果在表3。这个表是最好的ESD分类器的准确率达到95%,进一步展示混淆矩阵,如图16。这个数字代表正确的预测值,比如AKIEC (97%)、BCC(94%)、食品(89%)、DF(98%)、梅尔(89%),NV(99%),和VASC(99%),分别为。其他措施召回率,计算精度,FNR, AUC, F1-score 95.0, 95.0, 5.00, 0.99和95.0%,分别。CSVM达到次优的准确性94.9%,而召回率和精确率95.0%。比较与其他分类器显示了ESD分类器的优越性。此外,计算时间也指出,如图17。
相比之下,这个实验的结果与表1和2,它注意到融合使用方法显著提高了分类精度。这一步会增加计算时间的限制,需要最小化。
3.1.4。实验# 4
最后,提出了特征选择算法应用于融合特征向量和ESD分类器实现了91.7%的精度,计算时间是1367 (sec),表中给出4。最近的一次是4118 (sec),这是选择算法后明显减少。这个表格还显示,提出的精度降低,但另一方面,它有助于减少计算时间。ESD分类的准确性进一步验证使用混淆矩阵图18。在这个图中,斜值代表正确的预测值等AKIEC (94%)、BCC(91%)、食品(85%)、DF(93%)、梅尔(83%),NV(97%),和VASC(99%),分别为。
F1-score-based分析也进行了绘制在图19。在这个图中,说明F1-score得到了改进后的价值功能融合过程除了CKNN和光大通信分类器。此外,特征选择的方法减少了计算时间,但精度退化。总的来说,拟议的框架选择数据集上表现良好。在过去,该方法精度与最近的一些技术相比,表中给出5。在这个表中,汗等。7)提出了一个深刻的学习方法对皮肤损伤的分类。他们用HAM10000数据集,取得了88.5%的准确性。最近best-reported精度为91.5%,通过Sevli [47]。提出的精度是91.7%和95%的最佳特征选择方法和融合方法。基于这个精度,指出,该方法表现出改善的准确性。
4所示。结论
在这个工作中,提出了一种新的框架对多级的皮肤病变分类使用深度学习。该方法包括一系列steplike数据增加,使用深度学习模型特征提取,特征的融合,选择部分,和分类。实验数据集上执行一个增广HAM10000。实验进行的数量,如nonaugmented和增广数据集,数据集,实现精度nonaugmented 64.36%使用ResNet-50使用resnet - 101和49.98%。增强数据集达到95.0%的准确度,功能融合为91.7%,特征选择。结果表明,增大过程有助于提高分类精度为一个复杂的数据集。
此外,融合过程提高了性能,但也增加了计算时间。这个过程可以通过特征选择过程进一步细化。然而,结果显示,特征选择过程减少了计算时间和降低精度。与最近的技术,但是从总体比较特征融合和特征选择技术都比先前的技术表现得更好。新的数据集位ISBI 2020年和2020年ISIC可用于实验过程在未来工作。最新的深度学习模型可以作为特征提取。融合可以使用并行执行的方法。选择过程可以被提炼,这不仅减少了时间,还增加准确性。
数据可用性
HAM10000数据集是用于这项工作的实验过程。数据集的公开可用https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi: 10.7910 /天地数码(控股)机顶盒/ DBW86T。
的利益冲突
所有作者宣称他们没有利益冲突。
确认
Shabnam m . Aslam工作得到了Majmaah大学科研项目下院长职的155/46683。