文摘

血液细胞计数是高度有用的识别一个特定的疾病或疾病的发生。成功地测量血液细胞计数,精密的仪器,利用入侵方法获得血液细胞图像幻灯片或者是利用。这些血液细胞图像进行各种数据分析技术,计数和分类不同类型的血细胞。如今,基于深度学习方法在实践中分析数据。这些方法耗时少,需要更少的复杂设备。本文实现了一个深度学习(D.L)模型,利用DenseNet121模型分类不同类型的白细胞(WBC)。DenseNet121模型优化的预处理技术标准化和数据增大。这个模型产生了98.84%的精度,精度为99.33%,敏感性为98.85%,特异性为99.61%。该模型模拟了四批大小(BS)亚当优化器和10世纪。得出的结果是,DenseNet121模型表现与批量大小8比其他批量大小。 The dataset has been taken from the Kaggle having 12,444 images with the images of 3120 eosinophils, 3103 lymphocytes, 3098 monocytes, and 3123 neutrophils. With such results, these models could be utilized for developing clinically useful solutions that are able to detect WBC in blood cell images.

1。介绍

白细胞(WBC),也被称为白细胞,起着关键作用在保护人体免受有害的疾病和外国侵略者,包括细菌和病毒。白细胞进一步分为四个主要类型,即中性粒细胞、嗜酸性粒细胞、淋巴细胞和单核细胞。他们进一步被物理和操作特征(1]。白细胞计数是高度重要的决定,因为这些疾病的存在和预后亚型白细胞数对医疗行业有重要的意义。通常,这些细胞计数是手动执行,然而,他们也可以在实验室中实现,没有访问任何自动化设备(2]。在手动微分方法中,病理学家在显微镜下分析血液样本以确定这些白细胞计数和分类(3]。自动化系统主要使用静态和动态光散射,库尔特计数和细胞化学的血液样本测试程序。在这些过程中,数据被分析和策划形成特定的组,对应于不同类型的白细胞(4- - - - - -6]。然而,当异常或变异白细胞存在,这些自动化的结果可能不准确,因此,手动微分方法被认为是一个更好的选择在决定这些白细胞计数和分类。

中性粒细胞是粒细胞含有酶,帮助他们消化病原体(7]。单核细胞是白细胞的亚型,发展成巨噬细胞专门去除有害的外来入侵者和旧的或损坏从血液中红细胞和血小板(8- - - - - -10]。嗜酸性粒细胞负责组织损伤和炎症在许多疾病。他们在对抗病毒感染也发挥了至关重要的作用。淋巴细胞发挥重要作用在保护宿主免受肿瘤和病毒感染细胞11,12]。

本文包含的一种新颖的方案分割和分类的白血球亚型血细胞图像使用决策树的机器学习算法,然后评估的辅助函数创建学习曲线和混淆矩阵的帮助下深学习算法利用DenseNet121网络的体系结构。因此,自动化系统,这样可以帮助你节省时间和提高效率在临床的设置。

该论文结构如下:部分1显示了介绍和部分2关于该模型提供了背景和文学。拟议的框架模型3在部分,其次是数据预处理技术4。特征提取部分实现5,紧随其后的是结果与讨论部分6。部分7给出了结论。

2。背景和文学

大多数研究人员工作的二元分类血细胞比较使用一个小数据集设计CNN-based模型可能不是万能的(13]。作者在一个大型数据集已经实现二进制分类只有较小的准确性(14]。表1描述了现有的技术发展水平的比较模型中所使用的方法和详细给出方法的挑战。

该模型在本研究论文是在一个庞大的数据集上训练有素的12444张照片。此外,该模型不执行二进制分类。相反,它将白细胞分为四类,即:、嗜酸性粒细胞、淋巴细胞、单核细胞和中性粒细胞。

这项研究的主要贡献如下:(1)转会上优于模型提出了使用DenseNet121架构分类血细胞分为四个不同的类。(2)数据增强技术被应用到图像数据集的数量增加。(3)该模型分析了四个b, 8、16、32、64使用亚当优化器和10世纪。

3所示。拟议的框架模型

卷积神经网络模型总是证明获得纯度更高的结果在不同的医疗设施(15]。然而,构建这些pretrained卷积神经网络模型从头一直艰苦的血细胞疾病的预测,因为细胞幻灯片或限制访问的图像(16]。这些pretrained模型来源于学习转移的概念,一个训练有素的D。L模型从一个大数据集被用来解释一个更小的数据集的问题(17]。因此,不仅要求删除一个大型数据集,而且过度学习D所需的时间。L模型中删除(18]。本文包含一个D。L模型,即DenseNet121。这个模型训练和调整白细胞图像。在过去的这些pretrained模型层,一个完全连接层(FCL)插入19]。所有体系结构的体系结构描述和功能块表所示2和图1,分别。

DenseNet121包括一个卷积块,一个最大池层(MPL),三个过渡层(TL),四个密集的街区,一层平均池(APL),一个整柜,一个SoftMax层(SML)与1020万年可训练的参数(20.]。第三和第四密度步1×1块有一个CL和步幅3×3,分别为(21]。

进行了许多研究和研究白细胞,但非常少的工作已经实现和发布白细胞的比较分析上使用一个D。L模型与b, 8、16、32、64 (22]。然后,结果显示,通过绘制图表的准确性相比,损失,和学习曲线,确定验证规则。

4所示。数据集预处理

建议的解决方案,使用一个开放获取的数据集,这是可用的https://wwww.kaggle.com上传的保罗·穆尼和被命名为“血液细胞图像。“嗜酸性粒细胞的数据集由四个类别(E.P颁发),淋巴细胞(L.C)、单核细胞(接受)和中性粒细胞(N.P)图像,3120,3103,3098,和3123年的图像,分别。他们的大小(320×240×3)。这个数据集只是分成两部分。一部分被称为训练部分和其他被称为验证的部分。培训和验证分割比例80:20。数据集分类描述表3,数据集的图像样本如图2

4.1。数据归一化

数据集进行了归一化预处理技术来保持其数值稳定性D。L模型(23]。最初,这些白细胞图像RGB格式的像素值在0到255之间24]。通过输入图像正常化,D。L模型可以训练速度(25]。

4.2。数据增加

改善的有效性。L模型,需要更大的数据集(26]。然而,访问这些数据集往往伴随着大量的限制(27]。因此,超越这些问题,实现数据增强技术提高样本图像样本数据集的数量(28,29日]。各种数据扩增方法,如翻转、旋转,实现亮度,和缩放。水平翻转和垂直翻转技术如图3

增加旋转技术,如图4实现在一个顺时针方向的一个角90度(30.]。

缩放数据增强技术,如图5也应用于图像数据集通过缩放因子的值,如0.5和0.8。

亮度数据增强技术,如图6也应用于图像数据集通过亮度因子值,如0.2和0.4。

训练图像增强前后如表所示4。此外,有一个类不平衡输入数据集(31日]。为了解决这种不平衡问题,应用上述数据增强技术。应用这些数据增加技术后,每个类的样本数据集是增加到大约2000张图片,和整个样本数据集更新到20050图像。

5。特征提取使用DenseNet121

实验评价白细胞图像的检测使用DenseNet121 CNN模型实现(32]。CNN模型使用收集的血液细胞图像实现白血细胞的数据集。培训和验证,16068 3982年训练图像和测试图像,分别。血液细胞图像最初的大小从320年240×224×224。使用快速AI库实现的算法。转移学习,批量大小的模型训练8,16日,32,64。模型运行10时代。亚当优化器是用于执行培训。每个模型的性能评估是基于性能参数,如精度、精度、灵敏度和特异性。

5显示了DenseNet121层的细节。它包括一个卷积的7×7层内核大小,一个马克斯池层,和四个密集的街区。每个密集块有一组内核大小的两个卷积层 ,分别。卷积(CB) 1块由一个卷积层,CB2由6卷积层,CB3由12卷积层,CB4由24卷积层,最后CB5由16个回旋的层。表6描述了前两个CNN的激活值层。在表6,CB1由一个块的单一激活值输出的形状 CB2与两个激活值由六个街区。

7显示指定的单过滤图像卷积DenseNet121层。它显示了两个过滤图像卷积的第一层和最后卷积层为每一个密集的街区。每个卷积层块112由过滤器、2块由56个过滤器,3块由28个过滤器,14块4由过滤器、7块5由过滤器。表8显示了每个类的图像过滤后每一个密集的街区。它显示了两个卷积过滤图像卷积的第一层和最后卷积层为每一个密集的街区。

6。结果与讨论

部分包括所有使用该模型获得的结果。该模型模拟Kaggle数据集。对该模型的分析,不同的性能参数,如精度、灵敏度、F1分数,和准确性。实验分析了使用不同的超参数,给出了其详细描述如下。

6.1。性能指标

性能指标计算了各种混淆矩阵参数,如真阳性(TP),假阳性(FP),真正的负面(TN),假阴性(FN)。这些混淆矩阵参数如下:(一)准确性:它被定义为真正的总数的比率预测预测观察到的总数(b)精密(P):计算正确积极的预测数量除以总数量的积极的预测(c)特异性(Sp):它的定义是正确的负面预测的数量除以总数量的底片(d)灵敏度(Se):它的定义是正确的数量除以总数量的正面积极的预测(e)Kohen卡帕(Kp): Kappa评分措施的程度两个评价者之间的协议。低水平的协议,该协议是不可信的。它也被称为评分者间信度

6.2。分析不同参数对不同批量大小

部分包括所有DenseNet121模型获得的结果。Kaggle数据集模型模拟。DenseNet121模型的分析,训练性能参数分析和混淆矩阵为批处理大小8、16、32、64。不同的混淆矩阵参数,如精度、灵敏度、F1分数,和准确性也分析了深度学习模型的性能进行评估。

6.2.1。训练性能分析

9显示了训练参数,如火车损失,有效的损失,错误率,和有效的准确性8,16、32、64批大小。仿真完成10时代和10的结果进行了分析th时代。DenseNet121的表描述了批量大小8优于其他批量大小培训损失为0.188,验证亏损0.044,0.012的出错率,验证的准确性为98.84%。

6.2.2。混淆矩阵

DenseNet121的混淆矩阵模型,整个批处理大小如图7。这些矩阵代表正确的和不正确的预测。每一列标签的类名,如E。P L。C、M。C和N.P.对角值生成一个精确的数字图像分类的特定模式。

6.2.3。混淆矩阵参数分析

混淆矩阵参数分析批大小8,16、32、64 DenseNet121如表所示10。观察到8 b,精确的值,灵敏度和特异性为100% L。C和M。C疾病类别。BS 16, P, Se和Sp是100%。C疾病类别。BS 32, P、Se和Sp是L的大约100%。C和M。C疾病类别。BS 64, P、Se和Sp是L的大约100%。C和M。C疾病类别。

6.2.4。AUC-ROC曲线分析

接受者操作特征(ROC)指标是用来评估的输出质量。数据8(一个)8 (b)描绘中华民国BS 8和BS16,分别。中华民国领域BS8和BS16是0.9997和0.9986,分别。理想情况下,中华民国为假阳性率应该为真阳性率0和1。

6.2.5。平均性能分析

11展览的所有性能分析平均精度、灵敏度、特异性和准确性,使用四个BSs DenseNet121模型。从表10,更好的检测性能是实现批量大小8在所有的模型。如果批处理大小增加到16,那么准确性和其他性能参数值减少。这表明一个小批大小生成一个稳定的白细胞图像数据集和广义模型。大量批大小可能会生成一个全球最佳结果而不是更好的准确性在生物医学图像。

混淆矩阵,所有模型的准确性也吸引来比较不同批量大小的性能。从图9,很明显,表现最好的是批量大小8和批量大小16精度值98.84%和98.79%,分别。

6.3。性能分析批大小8和16

从之前的讨论,可以得出的结论是,DenseNet121模型表现在批处理大小8和16个白细胞的分类。因此,Densenet121模型的性能分析不同的学习速率和批量处理只有8和16批大小。

6.3.1。损失和学习速率的分析

学习速率曲线绘制批大小8和批量大小16如图10 ()10 (b),分别。学习速率曲线控制模型学习速率决定如何缓慢或迅速学习的典范。随着学习速率的增加,生成一个点,停止损失减少,开始放大。理想情况下,学习速率应该是左边的图上的最低点。在图10 ()学习速率是批处理大小8所示的0.001点损失处于最低的点。因此,学习速率批大小8应该在0.0001和0.001之间。同样,在图10 (b),显示了学习速率批大小16日最低损失点位于0.00001。因此,批量大小16的学习速率应该躺在0.000001和0.0001之间,中是最低的;很明显,随着学习速率的增加,损失也会增加。

再。分析损失和批量处理

收敛损失情节BS 8和16所示图11。图11描述了损失的变化过程中训练模型。从数据模型得知,损失开始下降,直到再也无法改善的过程中训练。同时,验证每个时代损失计算。验证了相对一致的和低损耗值随着时代。从图11,很明显,一个最低损失是在每个时代取得了BS 8和16。从图11,分析处理3000批次,失去获得批量大小8是相对低于b 16。BS 8、验证和培训损失介于0和0.5,而b 16,它位于0.5和1之间。因此,很明显,BS 8执行比b 16的培训和验证的损失。

6.4。绩效评估与技术发展水平

获得的结果从pretrained D。L模型与现有的模型相比,使用核磁共振图像如表所示12。从表12,这个模型实现更高的性能,与其它技术相比,因为预处理技术应用于数据集。与大多数研究相比,森et al。4和盛等。7)利用少量的数据来验证他们的模型。Boldu et al。1)、婴儿等。2),Acevedo et al。10),和黄等。12)利用相对较大的数据集来验证他们的模型。然而,姚明et al。3),帕蒂尔et al。8],Ozyurt [9],Sharma et al。11)利用类似的大数据集来验证他们的模型。摘要DenseNet121模型提出了不同的批处理大小与数据增加和数据标准化技术来提高其准确性。设计模型与亚当优化器更好地执行和批量大小8。该模型与现有的其他模型比较见表12。从表12,该模型可以分析性能更好比其他模型的准确性和图像数据集的大小。

7所示。结论

本文实现了一个D。L模型,利用DenseNet121分类不同的白细胞。DenseNet121模型优化的预处理技术标准化和数据增大。的数据集已经被Kaggle包含12444张图片,3120 EP, 3103 LC, 3098 MC, 3123 NP图像。该模型模拟和四个亚当BSs的优化和执行10时代。的BS 8 DenseNet121与其他BSs相比会产生最好的结果。该模型实现了98.84%的精度,精度为99.33%,敏感性为98.85%,特异性为99.61%。得出的结果,该模型表现了BS 8相比其他批量大小。这些比较结果将具有成本效益,帮助病理学家第二个舆论工具或模拟器。本研究的主要目的是尽早预测白细胞。 This comparative analysis model could become a second opinion tool for pathologists. With such results, these models could be utilized for developing clinically useful solutions that are able to detect WBCs in the blood cell images.

提出研究的主要缺点是,只有特定的数据集的白细胞样本用于训练和验证的目的。在未来,该模型可以进一步推广的红细胞和血小板在训练和验证。同时,不同pretrained模型和优化技术也可以实现,和 - - - - - -值也可以实现进一步增强中华民国和该模型的有效性。

数据可用性

可用的数据将被要求从作者((电子邮件保护))。

的利益冲突

作者宣称他们没有利益冲突的报告关于这篇文章的发表。

作者的贡献

Sarang Sharma发达概念化,执行数据收集、介绍方法,并实现了最初的草案。Sheifali古普塔的软件实现,执行验证,实现最初的草案,和发达的方法。迪帕莉。古普塔执行监督检查和编辑文章。Sapna Juneja执行数据收集、调查和提供的资源和软件。Punit Gupta执行数据收集、写了初稿,进行调查,提供了资源,进行验证,并提供软件。Gaurav Dhiman导致可视化,执行调查,并提供软件。Sandeep Kautish执行监督、审查和编辑文章,负责资金收购和执行可视化。