文摘
介绍。急性淋巴细胞白血病(ALL)是最常见的类型的白血病,一种致命的白血细胞疾病,影响人类的骨髓。其早期阶段的所有检测一直是充满了复杂性和困难。外周血涂片(PBS)考试,一个共同的方法应用于所有诊断的开始,是一个耗时且乏味的过程,很大程度上依赖于专家的经验。材料和方法。,一个快速、高效和基于深度学习的综合模型(DL)提出了通过实现八个知名卷积神经网络(CNN)模型对所有图像特征提取和分类的b淋巴母细胞和正常细胞。评估他们的表现后,四个表现最好的CNN模型被选择用于构成一个分类器结合每个分类器的pretrained模型的能力。结果。由于密切的相似之处,癌细胞和正常细胞的细胞核CNN模型仅低灵敏度和诊断这两个类的表现。该模型的基础上,采用多数表决技术结合CNN模型。由此产生的模型取得了99.4的敏感性,特异性为96.7,AUC是98.3,98.5的准确性。结论。从正常细胞癌变血细胞分类,该方法可以实现高精度没有操作员的干预细胞功能测定。它因此可以推荐作为一个非凡的工具分析血液样本在数字实验室设备协助实验室专家。
1。介绍
白血病是最常见的一种血液癌症引起的异常增加的生产不成熟骨髓中的白细胞。在2018年,这种疾病影响174000人仅在美国。每年大约有6000白血病病例诊断,急性淋巴细胞白血病(ALL)是第二个最常见的类型在成人和儿童最常见的恶性肿瘤,约占三分之一的儿童癌症。基于最近世界卫生组织(世卫组织)分类、纯粹的白血病,B-lineage(85%)是最普遍的一种淋巴癌症。所有导致过度生产的细胞如淋巴母不成熟B和T淋巴细胞的进化;逐渐取代了正常的骨髓细胞;并可能蔓延到重要器官,例如,肝脏、淋巴结、脾、和中枢神经系统(CNS)。B-acute淋巴细胞白血病(b)是一种常见的肿瘤疾病与高死亡率由于不成熟的淋巴细胞b细胞增殖。识别儿童癌症的症状和体征是非常具有挑战性的,因为它不是第一诊断为非特异性的投诉,这导致潜在的不确定性诊断(1- - - - - -3]。
b可以通过不同的技术诊断,但PBS图像在b检测起到了特别重要的作用。实验室的初步检查血液样本为白血病和使用光学显微镜诊断是手动执行。另一方面,主要预防措施没有有效地避免儿童b的发展,和二级预防,即。早期诊断是至关重要的。在特定的情况下,早期诊断和治疗治愈的几率增加。诊断b,这是通常的血液学家检查血液的幻灯片;不过,由于实验室专家的疲劳或其他因素影响,b的一个确切的诊断是容易出错。手动检查血液样本也容易受到错误由于不合适的实验室环境和污染的实验室和眼部的显微镜载玻片。
在过去的二十年里,一些研究采用机器学习(ML)方法和计算机辅助诊断方法分析实验室图片和克服白血病诊断晚期的后果。这些研究分析了白细胞核在血涂片标本诊断和区分b和正常的白细胞。最近,许多基于计算机的方法已经用来提高医学成像技术的效率。其中一个方法是应用程序的ML算法在医学成像方面取得了举世瞩目的成功。在不同类型的ML方法,深度学习(DL)获得高精度的机器视觉任务白血病。卷积神经网络(cnn)作为主要DL算法有很大的潜力在特征提取和图像数据的分析。符合当前的趋势在医学图像分析中,这些功能动机研究他们的应用程序和适应血液成分分类,尤其是b检测(4- - - - - -7]。
2。材料和方法
研究人员回顾了研究,使用类似的数据提供分类方法。因为这些方法受限于单一的使用最先进的模型中,我们决定采用multitrained基于网络的方法来创建一个有效的模型。
2.1。数据集
C-NMC数据集(8- - - - - -10)12528年由淋巴细胞细胞核图像,其中8491属于b淋巴母细胞和4037例正常b淋巴。数据集细胞核从显微图像分割在现实世界中,因为他们包含一些染色噪声和光照错误,虽然很大程度上纠正了这些错误的专家通过内部染色颜色标准化的方法。专家肿瘤学家标记数据集的地面实况图像。图1说明样品的b和健康的细胞核。数据是可用的https://wiki.cancerimagingarchive.net/display/Public/C_NMC_2019 +数据集% 3 + + +数据+ +位ISBI + 2019的挑战。
(一)
(b)
2.2。数据准备和预处理
数据标准化和规范化预处理的第一步维持图像的完整性起到关键作用在图像分析和分类11,12]。为此,进行像素级的全球平均值和标准偏差(STD)首次计算出所有的图像。然后,数据规范化使用方程(1),x̅表示全球平均X图像的设置,σ是性病,ε= 1e−10表示微分值防止分母为零。
CNN的方法依赖于大量的数据来提高其效率和防止模型过度拟合(13,14];因此,归一化后,实现统一的标准化图像比深层神经网络的输入,每个图像的像素值映射到[0,255],然后转化为[0,1]区间。在此,我们处理核白细胞;因此,白细胞核心的隐藏特性包括染色质密度、核打开彩色,等后图像归一化和标准化,其核心是扩大削减边缘图像处理算法可以分析不同类别的特征更容易被评估淋巴细胞的细胞核。图2描绘了两个操作的切割边缘和扩大核心。训练数据集的数据增加了16个每个图像的技术。
这些集合中的所有图像被打乱,这样,在培训过程中,网络不会只看到特定类别的数据,和每一批图像将包含不同的标签属于b和non-B-ALL类别。输入图像的大小更改为300×300×3,但这种方法可以应用于任何尺寸的图像。
2.3。分类算法
在过去的二十年里,大量的机器学习算法采用了分类,每个成功在特定区域和特定的数据集。例如,在文本分类、决策树算法,基于规则的方法,和perceptron-based方法展示了非凡的能力。然而,作为图像分类特征提取是高度敏感的,尤其是对于医学图像,需要方法,避免手动选择基于数学方法。因此,本研究利用深度学习算法(15]。
在医学图像的分析和分类,无数深CNN-based结构广泛应用得益于CNN的强大工程特性和表现能力。pretrained CNN结构已经证明这些方法的最先进的性能在细胞和器官分割问题[16- - - - - -18]。CNN是一个多层重叠卷积层组成的网络(特征提取)和downsampling层(功能处理)。图3演示了一个典型的美国有线电视新闻网的结构。perceptron-based模式,CNN自动从图像中提取特征,因此,已成为一个热点话题的研究(5,19]。
基于学习技术转移,pretrained模型训练与大型图像集合中取得了非凡的结果图像分类问题。许多研究利用这些模型,因为它们比其他模型由于其图像特征提取。在公开的DL pretraining模型、Alexnet ResNet [20.](ResNet50和ResNet101), Inception-V3 [21],Inception-ResNet-V2 [22],SqueezeNet [23],MobileNet-V2选择这里相比,由于其精度高于其他网络具有类似预测。这些著名的CNN模型pretrained ImageNet数据库;根据其结构、深度、宽度和结构,每个模型都有独特的特性在图像工程的特性。
2.4。集成学习技术
整体方法雇用一个分类器的算法预测数据标签。加权多数表决算法,引入了Littlestone和Warmuth 1994年,依赖于最终决定结果的加权多数选票的其他算法。Littlestone和Warmuth证明了整体方法鲁棒算法误差和可以显著提高学习系统的泛化能力24- - - - - -26]。
整体算法是最受欢迎的机器学习和计算机视觉的研究方向。他们的目标是组合多个实现分类学习算法的预测模型的预测性能优越。基本的学习算法相比,分类器集的普遍性已经大大的提高了。此外,小组学习方法可以促进弱学习算法,预测性能略优于随机猜测的强学习算法,从而使非常有前途的预测(15,27]。其预测算法形式通过比较总重量为每个类和预测更大的。通过这种方式,分类结果投票得到最终的分类结果。投票方法分为绝对和相对多数投票的方法。在前,超过一半的个体学习者输出相同的分类结果的最终分类集成学习的输出。,绝对多数投票被选为最后的方法获得一个全面的模型和维护积极的特性的四个pretrained网络数据集特征提取。
2.5。绩效评估
四个性能指标计算cnn模型的性能进行评估。我们使用传统的措施来评估模型的性能基于混淆矩阵模型的性能是决定使用混淆矩阵(28,29日]。一般来说,灵敏度是分类器的正确分类的能力所有的病例(真阳性);换句话说,灵敏度定义为b的比例情况下准确地探测到模型对所有实际的b淋巴母。特异性是正确识别分类器的能力没有病例(真阴性率);换句话说,特异性是指正常淋巴细胞的比例准确模型的所有检测到的实际non-B-ALL(正常情况下)。此外,精度定义为所有的b淋巴细胞的速度情况下正确分类。指标的公式
3所示。结果
在回顾许多研究使用过渡学习医学图像分类的概念,八pretrained模型被选中。在定制的基于输入图像的大小,这些模型与80%的训练数据集。所选pretrained模型评估通过调整网络参数测试数据集。表1列表结果基于三个主要评价指标。
与训练数据集和测试这些八款车型后几轮参数调优,四个模型实现了最大的性能在精度和计算时间(DenseNet121,《盗梦空间》V3, Inception-ResNet-v2 Xception),因此被选中。
3.1。合奏CNN Pretrained模型分类从B-Lymphoblast b
通过检查的性能模型,我们旨在改善他们的结果。我们采用多数表决技术作为最后的决定基于四个pretrained模型的改进模型。该模型方案首先计算选票总数收到每个基分类器;然后,大多数的选票被输出类的分类计算。算法1详细介绍这个模型。让l= {DenseNet121,《盗梦空间》V3, Inception-ResNet-v2 Xception}组pretrained模型。四个模型是精确的图像从训练数据集(X;Y),X是一组N图像,每个大小为300×300,然后呢Y包含图像标签。Y是两个类的集合,包括淋巴母细胞b和正常b。一批的大小n= 256是用于实现所选择的模型。
|
||||||||||||||||||||||||||||||||||||||||||||
在这种方法中,基分类器的数目应该是奇数。在平等的情况下投票,应用模式函数(30.]。拟议中的b疾病检测和分类模型,它是一个整体框架的四个模型,显示在图中4。
这四个选择的网络并行和输出模块与整体技术相结合来提高分类的信心和准确性。图5说明了混淆矩阵来评估两个类的测试集。定量评估该方法的性能,敏感性、特异性、准确性,和F1分数评估标准确定基于模型性能通过使用混淆矩阵(表2)。显然,该乐团模型展示了一个有前途的性能优于之前的模型。它的成功与这么小的数据集是由于使用类权重训练过程。
(一)
(b)
4所示。讨论和结论
PBS图像的分析中起着至关重要的作用的诊断各种类型的白血病、贫血、和疟疾。不寻常的改变颜色、形状和大小的血细胞指示一个变态。PBS的结果评估,通常是手动执行,根据技术人员的技能和经验。除此之外,它是耗时和收益率差的结果(31日- - - - - -33]。
出版了2019位ISBI C-NMC挑战及其数据集,不同的方法分类图像的数据库已经被研究者提出。几乎所有这些研究使用深度学习方法和CNN算法。在这些研究中,曾经VGG-16 Tripletloss函数概念,他们没有得到好的结果34]。在另一项研究中,与一个额外的回归和ReseNet-18使用先进的数据增强技术被应用于解决大问题小数据从两个类之间的形态差异。本研究的结果还表明,f值等于0.8284 [34]。基于融合的自定义模型的CNN, LSTM提出了用光谱特性的细胞,利用离散余弦变换与一个RNN提取b图像特征。他们使用的方法是一个卷积和复发性神经网络使用AlexNet和DenseNet pretrained网络(35]。最重要的技术之一,解决这一挑战的高度被研究人员认为是使用一组整体技术,这些技术的性质,采用算法的共同属性。研究使用整体技术分类从正常的前体b图像爆炸都取得了更好的效果。一项研究组装SENet和PNASNet-5包括ResNet VGG, DenseNet,《盗梦空间》V3, DenseNet, IncptionReseNetV3三pretrained网络受雇于一个整体模型(36),也在另一个研究中,ResNeXt50和ResNeXt101组装[37]分类图像。调查研究,整体学习图像处理C-NMC可以得出结论,可以显著提高学习系统的泛化能力,从而提高可用方法的性能。因此,该方法基于合奏多数表决技术提出了一个框架,用于白细胞自动分类的细胞核从微观图像。这个整体框架提出了一种新颖的联合成像方法基于最先进的b检测,取得了卓越的精度高的分类两类。基于表3,多数投票方法是高效的爆炸在血液中提取的特征图像。因此,它可以适合医学图像特征提取的准确提取特征是至关重要的。
本文提出的方法是提出了爆炸细胞核。如果研究数据遇到一群血液细胞类型的幻灯片,该方法将不会有效,因为分类癌淋巴母从正常的爆炸,爆炸原子核必须分割来提取其功能,如密集的核仁,核染色质水平。因此,强烈建议当数据包括其他血液成分如红血球、单核细胞和中性粒细胞、自动特征提取方法(例如,CNN)不应该被使用,因为他们将提取的特征无关的组件爆炸。因此,使用CNN算法检测和分类的所有爆炸,分割的性能起着至关重要的作用的诊断方法。
在目前的方法,pretrained网络结构作为最先进的模型没有任何变化特征提取和分类块层和拓扑实体使用。作者认为,在未来,通过改变的数量分类块层包括巴赫正常化和pretrained网络密集,精度高分类器提供。
数据可用性
数据是可用的和公共的https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=52758223。
伦理批准
这项研究是由伊朗国家伦理委员会批准在生物医学研究(IR.SBMU.RETECH.REC.1399.735)。
信息披露
这项研究已经发表在《MedRxiv数据库(https://www.medrxiv.org/content/10.1101/2021.07.10.21260312v1)[35]。这个研究符合国际挑战,作者提出在MedRxiv数据库注册这个想法。这项研究是一个博士项目的一部分进行Shahid Beheshti医疗,德黑兰,伊朗。
的利益冲突
作者宣称没有利益冲突。