文摘
黑色素瘤被认为是人类最危险的恶性肿瘤之一,由dermoscopic诊断视觉或分析和组织病理学检查。然而,这些传统的方法都是基于人类经验和手工实现,有伟大的限制一般可用性在目前的临床实践。本文提出了一种新颖的混合机器学习方法来确定黑素瘤在各种情况下对皮肤保健。该方法由经典的机器学习方法,包括卷积神经网络(cnn), EfficientNet, XGBoost监督机器学习。在拟议的方法中,直接从原始像素深度学习模型训练和图像标签分类的皮肤损伤。然后,仅仅基于病人的各种特性建模,采用XGBoost模型来预测皮肤癌。后,这一诊断系统由深度学习模型和XGBoost模型,进一步提高预测效率和准确性。不同于仅仅经验方法和基于图像的机器学习方法,该方法开发了基于深度学习的理论和工程特性。实验表明,混合模型优于单一模型像传统的深度学习模型或XGBoost模型。此外,data-driven-based特征可以帮助该方法开发的指导方针在其他医学应用图像分析。
1。介绍
黑色素瘤被认为是一个最危险的和恶性皮肤癌由于其深度入侵的能力通过淋巴管和血管。据估计,每年有53%的增长在新诊断黑色素瘤病例在过去的十年里(1- - - - - -5),和黑色素瘤发生的利率预计将增加全球未来十年(6- - - - - -11]。尽管黑色素瘤皮肤癌,导致大部分的死亡相关生存率承诺如果可以在早期正确诊断和治疗(12- - - - - -17]。否则,估计患者的5年生存率将大大减少(18- - - - - -25]。在皮肤黑色素瘤是可见的在其初始阶段,黑色素瘤的早期检测是一个至关重要的问题,以减少死亡率和发病率。
确定病变是良性或恶性肿瘤,除了临床试验,临床医生传统上诊断通过检查细节,如形状、颜色和纹理视觉。然而,如图1,低精度的视觉细节可能会导致较低的临床诊断准确性和不必要的治疗26- - - - - -31日]。相反,正如dermoscopy是一种非侵入性技术能够捕获图像与高分辨率的皮肤,皮肤的皮肤科医生可以检查细节是肉眼看不见的(32- - - - - -34]。因此,dermoscopy图像最可能破坏传统的诊断程序,并不断努力在黑色素瘤的早期诊断研究基于图像的检查社区(35,36]。然而,随着基于图像的诊断需要大量的经验和高度依赖主观判断(33- - - - - -35),诊断准确性可能大大减少在复杂情况下,特别是对于非技术皮肤科医生(36- - - - - -38]。据报道,专家可以在皮肤癌检测灵敏度达到90%,而非技术临床医生(约60%33,39]。尽管一些评分系统,提出了基于规则的系统学习专业知识和提高非熟练临床医生的诊断性能(40- - - - - -44)、诊断过程是费时和黑色素瘤的临床诊断准确性仍是次优的检测。因此,数字化图像的自动分析与诊断精度高协助皮肤科医生区分良性皮肤损伤早期黑色素瘤是在高需求和非常重要的公共卫生(45- - - - - -49]。
(一)
(b)
(c)
由于计算机技术的迅速发展,图像处理、人工智能等领域,应用了各种基于图像的机器学习方法诊断艾滋病区分恶性黑色素瘤和许多良性肿瘤活组织检查,这将减少大量不必要的活检程序。不同于传统方法,明确开发一组静态的情况下,基于机器学习诊断系统是基于之前的数据集和训练可以产生更快和更可靠的诊断在小说场景。基于机器学习的关键一步皮肤病诊断系统是分类检测皮肤病变恶性或良性黑色素瘤,各种监督技术已经申请了皮肤癌的认可。人工神经网络(ANN)是最常见的机器学习方法的分类皮肤癌。通过使用不同的组合的皮肤特性(如颜色、病变结构和视觉)作为输入,一个ANN模型是由Ruiz et al。50)和Giotis et al。51医疗决策。除了安,变异等决策树的随机森林分类器和决策森林分类器的首选诊断黑色素瘤(52- - - - - -55]。此外,k - means聚类算法和支持向量机(SVM)也采用分类皮肤损伤在许多研究[56]。以前的工作在皮肤病学的计算机辅助诊断系统具有重要的潜在恶性黑色素瘤的筛查和早期诊断。然而,由于强调标准化的任务,比如组织学和dermoscopy图像分类,许多以前的方法需要大量的图像预处理过程删除无关的元素和提取重要特征之前,美联储为黑色素瘤检测分类器,这将导致损失精度以及计算时间的增加。因此,在皮肤病诊断图像分类系统的效率将会大大降低。
近年来,由于指数增长的计算能力和足够的数据集,深入学习方法都取得了极大的发展在不同的计算机视觉问题。因为这些强大的算法可以学习抽象的功能没有任何专业知识的原始图像和预处理过程,他们已经广泛采用了基于图像的黑素瘤检测。Dorj et al。57]采用结合pretrained AlexNet卷积神经网络(cnn)和ECOC SVM模型四种类型的皮肤癌的快速分类模式,和实验结果证明了该方法的效率和精度。Esteva et al。58]证明了皮肤损伤的自动分类利用单个深度CNN,这是训练直接从原始像素和图像标签。开发模型可以适用于dermoscopic和列举了图像。尽管深度学习模型可以提高检测的性能直接从原始图像中提取有用的特性,开发了模型计算重和耗费时间由于固定资源预算(59,60]。因此,有必要充分利用计算资源,提高建模的效率和有效性。近年来,一些深上优于应用程序应用于物联网的智能分析(物联网)61年,62年]。此外,随着这些深度学习模型侧重于从图像中提取特征,有必要考虑患者的立场上下文信息(63年- - - - - -65年),可以更好地支持皮肤诊所工作,提高诊断准确性。
在这种情况下,一种新颖的混合机器学习方法提出了在各种情况下确定皮肤黑色素瘤的医疗保健。该方法由经典的机器学习方法,包括卷积神经网络(cnn), EfficientNet, XGBoost监督机器学习。在拟议的方法中,直接从原始像素深度学习模型训练和图像标签分类的皮肤损伤。然后,仅仅基于病人的各种特性建模,采用XGBoost模型来预测皮肤癌。后,诊断系统是由深度学习模型和XGBoost模型,进一步提高预测效率和准确性。不同于仅仅经验方法和基于图像的机器学习方法,该方法开发了基于深度学习的理论和工程特性。它可以学习的线性映射神经网络并从XGBoost非线性映射。因此,建模过程效率和精度高。此外,data-driven-based特征可以帮助该方法开发的指导方针在其他医学应用图像分析。剩下的纸是组织如下。 Section2描述了基本理论,介绍了该混合动力机器学习方法。案例研究和讨论提出了部分3。最后,结论和未来的研究方向提出了部分4。
2。黑素瘤诊断提出的混合方法
在本节中,采用的基本理论方法,提出混合机器学习方法是在未来。
2.1。卷积神经网络
卷积神经网络(CNN)是深入学习算法的基本结构(66年,67年),已被广泛采用在大多数计算机视觉应用程序(68年,69年]。不同于一个传统的人工神经网络结构的多层感知器,CNN架构采用“卷积操作和池”从输入图像模式识别中提取有用的特性和分类70年]。如图2CNN的基本架构包括四个主要模块:卷积层,激活层、汇聚层,和完全连接层。卷积层作为一个“过滤器”,因为它将观察到的输入图像的像素值转换成一个值基于卷积的操作。因此,原始图像将被减少到一个矩阵经过卷积后规模较小的层。然后,激活层将通过反向传播训练图像过滤。随着池层将采样的功能,减少矩阵的大小,训练速度将进一步增强。下,完全连接层(传统的多层感知器)将输出分类结果基于整个训练过程。
2.2。EfficientNet
捕捉更复杂和细粒度特性,宽度、深度和分辨率是CNN架构的三个重要维度(71年- - - - - -73年]。此外,随着这些扩展维度并不是独立的,它是重要的去平衡它们在缩放过程中达到更好的建模效率和准确性。然而,cnn通常训练基于一个固定的资源预算,发达神经结构可能是次优的实证研究。尽管网络可以任意扩展的维度协调神经结构,这将是低效的由于手工调优和仍然引起精度不佳。在这种情况下,一个EfficientNet缩放方法采用本研究有效地平衡这三个关键维度和优化网络结构。不同与传统的一维缩放EfficientNet缩放可以扩展这些三维均匀复合模型,获得一个家庭比以前的方法更有效和准确。图3演示了EfficientNets和传统方法的区别。在这个研究中,由于输入图像的多样性,EfficientNet应用于提高建模的效率和准确性。
(一)
(b)
(c)
(d)
(e)
2.3。XGBoost上下文特征分类
常规监督机器学习方法通常使用单一模型进行预测,是直接由训练数据集。然而,它可能不足以保证可靠的结果由于采用方法的局限性。尽管一个标准的整体学习方法可以预测通过结合不同的多个学习者的优势,每个模型可能重复相同的错误由于孤立的培训过程。相反,XGBoost整体学习是一个迭代的方法是基于决策树的。如图4单独训练,而不是所有的模型,XGBoost将培训新模型迭代修正残差由先前的模型,和所有的训练模型顺序将被添加在没有进一步的改善。危险上下文特征的充分利用空间,确保建模性能,采用XGBoost在本研究基于特征分类。
2.4。提出了黑色素瘤诊断的混合方法
本研究的主要目的是检测黑色素瘤皮肤损伤使用获得的图像和危险特性。如图5,该方法包括三个阶段。在第一阶段,输入数据集包括图像预处理和上下文特性在训练之前,分别。图片,他们首先处理gridmask(变换和旋转)的数据,然后将采样的方法是采用平衡偏差数据集。在第二阶段中,预处理数据集用于训练模型。为了提高建模效率,EfficientNet和网格搜索采用CNN和XGBoost,分别。此外,K-fold方法在训练过程中采用平衡偏差数据集,减少过度拟合。之后,在最后阶段,开发深度学习模型和XGBoost模型相结合的混合模型黑色素瘤诊断,和不同的权重模型可以由用户偏好。
3所示。案例研究和讨论
在本节中,描述的实验材料,进行案例研究的基础上,提出混合动力机器学习方法在未来。
3.1。实验材料
3.1.1。图像数据集
病变的数据集连续拍摄从一个样本是来自国际皮肤成像(ISIC)在2018年和2019年之间的合作。这些图像是通过dermatoscope和数码相机在不同的决议在偏振或不极化模式。失踪的情况下或模棱两可的病理报告或极低的图像质量数据集被排除在外。手动后,综述了剩下的图像并贴上黑素瘤或良性皮肤损伤的分类、和图6演示了黑色素瘤图像分类的一些示例。
3.1.2。发生的上下文信息
目前,深度学习和图像处理的方法实现了在黑色素瘤的专家级表现检测。然而,现有的基于图像的人工智能分类算法主要关注从图像中提取特征,诊断过程是不够的,可能诱发之前挑战和临床实践之间的差异。危险的上下文信息在实践中,通常认为是外部属性,这将有利于临床医生区分良性皮肤中的黑色素瘤病变。因此,有必要从处方上下文信息提取有意义的特征,可以更好地支持皮肤诊所工作,提高诊断准确性。在这个研究中,发生上下文信息的提取和编码为外部特性如表所示1。然后,基于编码功能,监督机器学习模型将开发预测黑色素瘤。
3.2。结果分析
3.2.1之上。深度学习模型的发展
增加深度学习,数据通常是首选的增加几乎训练数据集的大小,这将使发达模型更健壮的输入数据集。在这个研究中,一些古典gridmask和图像旋转等操作数据,采用和图7说明了扩增后输入图像数据的一个例子。
(一)
(b)
(c)
数据增加后,TensorFlow采用深度学习模型的发展。TensorFlow是一个开源框架,它是由谷歌开发的机器学习和深度学习功能。TensorFlow提供用户关注的结构模型的灵活性,而不是数学细节,在各领域的广泛采用,从学术界和研究到工业领域。在培训过程中,不同的配置TensorFlow结构会影响建模的性能。例如,图8演示了时代对学习速率的影响。有必要平衡建模效率和准确性,通过调整模型配置。的初始配置TensorFlow采用本研究深度学习实施表中所示2。
(一)
(b)
接受者操作特征(roc)描述的速度真阳性和假阳性阈值。ROC曲线的面积可以评估的性能未校准的决策函数,即使没有类的先验分布,曲线下的面积(AUC)已经广泛采用了模型评价。6倍的方法是采用在培训过程中,采用和AUC值来评估模型的性能。在这个研究中,测试性能损失函数和AUC图所示9,结果表明开发的深度学习模型的有效性。
(一)
(b)
此外,需要注意的是,测试时间增加(TTA)方法也可以应用于提高发达的性能模型。原因是TTA将随机修改测试数据几次,最终的输出将每个增强图像的平均预测,可以提高和整体性能降低单异常的预测误差。在这个研究中,影响TTA的AUC如图10。
3.2.2。XGBoost模型的发展
因为大多数病人上下文信息的非结构化数据,有必要将提取的特征编码到一个标准化的格式在训练之前,将从原始数据集和删除冗余提高培训过程。在这个研究中,提取的特征编码成不同的整数表1,图11显示了一些编码特性的例子。
特征编码后,输入数据集被量化成离散的整数在规定的范围内,然后输入数据的属性和不同特征之间的相关性可以统计调查。如图12,量化概率分布表明编码之间的统计相关性特性和黑色素瘤。
此外,协方差矩阵如表所示3演示了不同编码特性之间的统计关系。作为输入的一些特性是根据大协方差表高度相关3,有必要进一步减少输入前维度模型的训练。因此,在这个阶段,采用特征选择和结果如图所示13。排名结果表明,图像的大小和颜色是高度与黑素瘤相关而性与黑素瘤相关较少。
基于排名结果,五个重要特性(5高分特征)作为模型的输入选择培训,和5倍的方法是用来平衡偏差数据集。此外,为了避免当地的最适条件,采用网格搜索方法确定最优参数在培训过程中,和实现发达XGBoost模型的AUC值为0.855,这表明开发模型的有效性。
培训后,开发深度学习模型和XGBoost模型相结合的混合模型黑色素瘤诊断、和不同模型的权重设置为0.8和0.2,分别。混淆矩阵由特异性,准确性,采用和敏感全面评估该模型的性能;这三个规范定义如下: 真阳性(TP)定义正确分类阳性病例,真阴性(TN)定义正确分类消极的情况下,假阳性(FP)分类错误消极的情况下,和假阴性(FN)错误地分类阳性病例。因为开发了深度学习模型与外部特点XGBoost模型,提出的混合模型可以提高性能的黑色素瘤分类与基本模型相比,这表明该方法的有效性,并将有利于临床诊断为公共卫生。表4显示了不同模型之间的比较的测试性能。
4所示。讨论
在本节中,采用的基本理论方法首次被描述,然后提出了混合动力机器学习模型的有效性黑色素瘤检测分析了案例研究。案例研究表明,该混合方法可以改善黑色素瘤的分类精度与两个基本模型。然而,随着混合模型的权重是由用户偏好,这是主观的,可能是次优的,有必要优化混合模型的权重为黑色素瘤检测进一步提高整体性能。
5。结论
本文提出了一种新颖的混合机器学习方法来确定黑素瘤在各种情况下对皮肤保健。该方法由经典的机器学习方法,包括cnn在内EfficientNet, XGBoost监督机器学习。在拟议的方法中,直接从原始像素深度学习模型训练和图像标签分类的皮肤损伤。然后,仅仅基于病人的各种特性建模,采用XGBoost模型来预测皮肤癌。后,诊断系统是由深度学习模型和XGBoost模型,进一步提高预测效率和准确性。
不同于仅仅经验方法和基于图像的机器学习方法,该方法开发了基于深度学习的理论和工程特性。因此,建模过程效率和精度高。此外,data-driven-based特征可以帮助该方法开发的指导方针在其他医学应用图像分析。在未来,有必要调查和优化提出了混合模型的权重,这将有助于进一步改善黑色素瘤模型有效性和性能检测。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
Shixiang张和Shuaiqi黄了同样的工作。