一个新的甘多个分布模型来解决复杂的端到端染色体核型分析

文摘

与重大发展物联网的医疗(IoMT)和cloud-fog-edge计算,现在医疗行业涉及医学大数据来改善病人护理的服务质量。人类染色体核型分析是指分类。然而,执行核型分析任务通常需要在细胞遗传学专业领域,精度高,长期的经验和相当大的体力工作。一个端到端的染色体核型分析系统,提出了在医学大数据自动、准确地执行检测染色体相关任务,分割和分类。面对图像数据生成和收集通过计算边缘,我们首先利用视觉特性产生染色体候选人与极值区域(ER)技术。由于严重的阻塞和交叉重叠,我们利用环半径相同变换集群像素属性近似染色体形状。解决不平衡的问题和小数据集,覆盖不同的数据模式,我们提出multidistributed生成广告网络(MD-GAN)来执行数据增强通过生成额外的训练样本。之后,我们调整CNN染色体分类任务涉及生成和足够的训练图像。通过镇定的实验数据集,该方法实现了高精度的任务染色体检测、分割和分类。此外,实验结果证明MD-GAN-based数据增强对分类结果的CNN在某种程度上。

1。介绍

传统上,医学图像和传感器数据是最常见的医疗数据了解病人的健康状况。大的进步通过物联网的医疗(IoMT) [1),医疗行业极大地改善与一个新的维度对基于多个智能和复杂系统和多通道IoMT环境提供的医疗数据和边缘计算(2,3]。不过,越来越多,医疗数据的复杂性需要高度尊敬的模型自动进行识别或诊断。深度学习模型从而采用来处理大量的医学数据(4),因其可伸缩性来处理大数据或小尺寸数据和重要的权力分析复杂IoMT数据和高度非线性的功能系统。基于所有这些IoMT和深度学习的进步,我们的目标是提供一个案例研究如何提高应用程序特定的医学,即。染色体核型分析。

从本质上讲,核型分析需要细胞学者关注的问题数值异常染色体,可能导致一些遗传疾病,如唐氏综合症、癌症、遗传性疾病,出生缺陷(5]。因为人类通常的24种染色体2(包括22种常染色体和性染色体),核型分析过程可以理解为识别和分类24类输入细胞染色体的图片。

核型分析是一个非常专业的工作经过多年的专业知识(6),需要大量的手工工作的数量和时间产生准确的核型分析结果。从本质上讲,染色体核型分析的难度在于几个方面:(1)的染色体核型分析需要识别24类,这是一个重要的多个类分类问题。除此之外,形状相同的细节类染色体小人与人各不相同,从而增加难度,需要研究人员提取高特点准确的结果。(2)之间的遮挡和弄成染色体通常出现在输入细胞图像,这就需要一个合适的分割算法来生成相对完整的染色体样本进行进一步的分类。(3)染色体会出现不可预测的形状,这是由于染色体的非刚性的本质。这种现象会使人难以准确提取媒体轴,从而导致精度下降与传统染色体利用媒体基于轴功能的方法。(4)染色染色不均会产生局部强度品种和不清楚的边界形状,这伤害准确识别染色体与强度或形状特性。我们展示的例子在图这四个挑战1多个类的问题,使染色体,不可预测的形状、强度和地方品种已显示在(a), (b)、(c)和(d)。最重要的是,染色体核型分析是一个乏味的过程为手动操作,自动的染色体核型分析技术需要面对和解决一些领域的问题。

(一)

(b)

(c)

(d)

基于共同的核型分析方法的分析,我们得出这样的结论:前方法(5,7包括以下4个步骤(图2):(1)步骤1。检测。方法找到染色体在细胞图像的第一步。注意,分离的染色体图像背景噪声影响的核,小染色点等等。(2)步骤2。粗略的分类。一旦检测到染色体的候选人在细胞图像,该方法必须决定候选人单染色体或染色体集群。单染色体可以跳过步骤3分类,而染色体集群与重叠进行分割。(3)步骤3。重叠分割。在这一步中,大多数方法利用半自动算法来帮助单独的触摸和重叠的染色体,由于复杂的染色体群的性质。(4)步骤4。分类。毕竟前面的步骤、方法应该分类类型的每一个染色体通过利用手动功能(8,9),如大小、着丝粒位置,和带型,或者使用深度学习方法(10,11)自动提取独特特性分类。最后,方法将安排由双输出标准的核型染色体图像所示图的最后一步2。

所有这些分析,我们可以发现核型分析是吸引力和困难的研究,由于其特殊要求执行视觉识别任务下足够的医学专业知识。面临这些困难在整个管道和步骤,我们已经与几个医生和生物学家合作开发新的工具来帮助自动染色体核型分析,特别是针对当前流程简化,以便用户友好和端到端染色体核型分析。因此我们提出了一种核型分析模型可以加快核型分析的任务最大的自动化。

图3给出了管道的核型分析模型,它包括三个主要步骤。在第一步表示为(a),染色体候选人从输入中提取细胞的照片。应用多个和各种过滤特性的低计算负担可能有助于产生更多的地区利益的一种有效的方式。此外,采用过滤器的高工作能力在噪音和不均匀染色的性质。在下一步表示为(b),我们将重叠和触摸染色体集群分为单染色体利用几何形状和强度信息。为了最大化自动化,该方法是稳定和有效的即时视觉反馈让用户友好的分割成为可能。在分类步骤表示为(c),我们首先构造一个甘多个分布(MD-GAN)网络产生大量的标记染色体图像基于多个数据分布的假设。MD-GAN设计与多个分布发电机在一个合理的消费在原始数据,除了单甘发电机采用原来的结构。采用更多的发电机,MD-GAN能够有效地覆盖不同的数据模式和产生更多的标签样本。样本代之后,我们进一步微调CNN分类器有足够的和多样化的样本实现结果染色体上标签。 Such results are finally arranged in a karyotype picture to show classification output.

该方法是三倍的贡献:(我)IoMT面临挑战带来的环境和计算,我们提出一个端到端的染色体核型分析模型与准确的分类结果。逐步改善和高分辨深层神经网络的力量帮助不仅解决特定领域问题的染色体核型分析,也获得高精度面临着镇定的和低质量的染色体数据集。(2)灵感来自对象的建议方法(12]利用低计算和有效的分类器,ER方法与各种过滤器应用于定位染色体候选人,这不仅避免了错误的检测结果带来的IoMT环境的复杂性,也降低了检测计算通过提取heavy-computed特性表示。(3)拟议中的MD-GAN雇佣数据分布的混合物产生多样化的训练样本,而不是使用多个发电机,不仅克服了模式崩溃问题,还可节省计算和降低复杂性。我们相信MD-GAN有利于降低复杂性并导致一个合理的深度学习模型。

我们大致分类相关的方法和技术分为两类,即染色体核型分析和数据与氮化镓增大。

2.1。染色体核型分析

染色体核型分析通常包括检测、分割、重叠和类别分类。旨在区分染色体和染色体检测背景。基于二值化,研究人员使用全局阈值与大津法(13)或rethresholding方案(14)进行检测。然而,检测过程可能失败由于染色染色不均,这是高度受设置阈值的影响。其他方法(15)提取特征检测的基础上,空间和频域信息。然而,这些方法是费时由于学习结构。吴et al。16]探索极值区域(ER)来执行检测任务文本的候选人。灵感来自于他们的工作,检测方法用于检测染色体的候选人相比复杂细胞背景。

虽然许多方法提出了自动分割(17),它仍然是难以完成染色体细分任务,由于不可预知的形状和外观由染色体的非刚性的性质造成的。早些时候,Lerner et al。18)成功实现分类细分驱动,结合集群解决的正确选择分类阶段。然后,特许学校和格雷厄姆(19)提出一个方案来收集subchromosomal带状光谱模板,表现良好的训练模型和成功完成任务,即。首先识别提供了染色体片段,然后组装小音段以自下而上的方式。Minaee et al。15)提出一个迭代版本的分割方法利用染色体边界的几何特性,直到所有个体的染色体分离。

由于准确分割近似可以乏味的广泛使用,和研究人员开始解决这个问题获得严格的边界框。例如,一个非专家众包方法用于段染色体检测细胞样本在11]。大多数系统目前采用执行染色体自动分割需要交互式操作,主要是不适合大量的工作。如何在最大程度上自动段染色体集群并将其转换为适当的版本在云计算20.,21)或边缘计算(22- - - - - -24)仍然是一个热门话题。

在类别分类,前方法通常由矫直预处理染色体(8),由于弯曲和弯曲方向被认为是影响性能的关键因素。矫直后,研究人员将提取功能手册设计(9),如染色体的相对长度(25)、着丝粒指数(26),带概要文件(27),等等。之后,这些方法采用分类器(28)来实现分类结果。然而,方法建立在手工设计特性可能会丢失有用的信息,导致分类精度较低。

深层神经网络取得了显著的性能在执行大量的任务,鼓励研究人员应用深度模型在染色体核型分析的任务7]。Sharma et al。11]首先提出CNN-based方法分类的直和规范化的染色体,这已超过显著高于传统方法的性能。后来,Varifocal-Net [29日)提出了突出的能力zoomomg自动地地方。全球范围内的网络(GNet)设计同时完成两个任务,即。,获得全球特性和识别特定的地方。与此同时,当地范围内网络(L-Net)负责定位地方,进一步应用于提取局部特征。然而,这些方法标记训练样本的数量有严格的要求。因此,他们的表现不能保持一致稀缺带安全标签的数据时,即使有时基于云的隐私保护系统可以帮助在某种程度上30.- - - - - -32]。染色体分类仍然是一个艰巨的任务条件下的小数据和多个类别。

2.2。数据增加氮化镓

最大的一个问题域使用深度学习模型的医学图像分析是缺乏与数量的标签样本数据集。从本质上说,研究人员已经尝试其他类型的技术从大数据来解决这个问题33,34]。此外,医学图像注释任务不仅需要金钱和耗时的完成量,但也有很高的要求的可用性专业医生。深度学习的性能模型是高度相关的训练数据集的大小。

GAN提供了一种新方法为有效学习提供深度特征表示。由于GAN-based增强方法,大量未标记的图像可以涉及到学习过程,自甘仅需要很少的先验知识,很容易实现。甘由于其分布式建模能力强,非常适合在训练样本数量的增加使深学习算法更有效35]。

氮化镓的基本理念的基础是建立在双方博弈的发电机和鉴别器之间。在图4甘,我们将演示一个典型的基本结构来生成一个手写的数字图像。我们可以注意到生成器生成图像应鉴别器判断作为自然图像而不是pseudoimage,同时鉴别器确定输入图像发生器是自然生成的。培训过程后,GAN模型将达到纳什均衡和可以理解的内在表示真实图像,不断创造大量的图像。

由于氮化镓结构的不断优化和发展,更多GAN-based已经开发的应用程序。例如,郑et al。35]提出平滑正规化的标签分配标签标记图像由氮化镓生成,从而规范监督模型,提高基线。朱et al。36)提出一个数据扩增方法来提高情感的分类图像使用氮化镓,成功地改进数据分布,发现适当的利润率不同类别之一。类似于拟议的工作,鲍尔斯et al。37]介绍渐进增长甘斯(PGGAN)两个脑网络细分任务,证明由生成器生成的数据可以发挥重要作用在训练数据集。他们的网络报道,骰子相似系数(DSC)可以提高1 - 5百分比。Frid-Adar et al。38)采用氮化镓生成合成医学图像的基础上限制182肝脏病变的CT图像数据集。之后,他们在培训CNN应用GAN-generated样本分类的任务,取得了显著的改善。这些变体上成功应用程序域,特别是在医学图像,鼓励我们发展domain-adaptive GAN作为数据增加染色体分类的新方法。

从本质上讲,建模特定GAN医疗领域是困难的,因为GAN模型经常遇到模型崩溃,即。生成器生成样本集中在几个模式而不是整个数据空间(39]。为了解决这个问题,Salimans et al。39)利用minibatch歧视技巧让鉴别器检测异常样本生成类似于其他样本。考虑数据增加一个方法来改变任务相关的数据,同时保持分类标签,拉特纳et al。40)设计生成序列模型执行特定于域的数据转换。他们的模型可以由用户任意设计,不确定性转换函数,从而拟合在各种领域的应用。

另一个解决此类问题是修改GAN结构减少梯度损失所有数据的有效使用。CycleGAN模型(41)使用CNN模型作为分类器和一种新的游戏机制,即。,a consistent loop structure between generator and discriminator, which shows large improvement of performance in data augmentation and classification accuracy during experiments. Hoang et al. [42)设计一个目标函数近似数据流形诱导分布在训练,同时鼓励他们从事不同的数据模式。然而,他们的方法是在计算数量的发电机,与多个分布的一代。

与原始GAN相比,MD-GAN提高了性能,利用多个分布的数据,这是非常相似的核心理念黄平君et al。42]。理由应用多个分布构建生成器在于甘简单的输入顺序可能会导致类似的输出。换句话说,原始GAN可以做伤害最终分类通过生成染色体与表象。因此,直觉构造多个发电机模式多样性高,这让缺点的复杂性和高计算。性能和复杂度之间保持平衡,我们建议使用多个分布多个发电机染色体以外的一代,这是MD-GAN和氮化镓的区别的关键。

3所示。检测染色体的候选人

基于环境IoMT不同的相机,传感器和采样方法(43),它便于研究人员收集数量的细胞图像。通过分析收集到的细胞图像,我们发现染色体样本受到两个因素的影响,例如,quality of Giemsa staining and magnification times, since multiple categories of sensors and cameras adopted by IoMT bring complexity and multidimensional property of medical data [44,45]。具体来说,染色不均匀会导致不同程度的对比度和不清楚的形状边界;与此同时,放大倍染色体大小不一致。此外,干扰与染色体在外表上相似,可能会被误诊为染色体。所有这些困难提供挑战染色体的精确定位和分类。

考虑构造简单而有效的分类器后,我们首先探讨极值区域(ER) (46)算法来生成候选染色体区域,执行分组像素的输入细胞图像基于强度对比的特点。采用ER算法的原因在于以下几个原因。首先,ER能产生少量的染色体的候选人严格相似的强度性质。其次,ER灵活结合专家知识通过构造候选人过滤器,由于其代数量的候选人。最后但并非最不重要,ER算法可以提供更多的候选人保证染色体检测高召回率较低的计算负担。

具体来说,我们定义一个极值区域作为一个连续的区域为每个像素满足在哪里指的是输入图像细胞,前者和后者不平等代表最大强度区域和最小强度区域,分别被定义为外部区域边界: 在哪里被定义为一个邻接(社区)关系。从本质上讲,外部区域边界可以理解为像素集,这是至少有一个相邻像素的但不是的一部分。

我们喜欢ER算法染色体以外的候选人一代女士算法(46),因为女士严格算法生成最稳定区域的局部最小值 ,这是定义为在哪里 , 被定义为嵌套ER序列,操作吗代表基数和是女士的预定参数的算法。我们在图显示ER算法的结果5(一个),我们能注意到的数量分类需要进一步处理。

(一)

(b)

(c)

由于存在干扰,染色体的候选人生成的ER算法与分类精度低,这可能带来巨大的计算负担,后者模块,即。、分割和分类模块。大大提高染色体候选人检测方法的准确性,我们建议过滤器的基础上利用两个染色体的固有特点,即。、形状描述符,低强度方差在每个染色体。

(1)基于几何属性过滤器:ER算法很容易识别核或嘈杂的点作为染色体的候选人。在此基础上观察,我们提出申请的脚腕算法来决定是否有这种嘈杂的对象,试图找到日食在每个候选人。此外,该过滤删除错误的候选人通过使用欧拉数和候选人地区区域。(2)强度发布出去是依靠过滤器:灵感来自于观察低强度方差的每个染色体都有属性,该过滤丢弃候选人与强度大方差值。在事实的基础上准确的染色体候选人应该只有区域背景和染色体,我们构造直方图的强度值为每个染色体的候选人。之后,采用最大和submaximum数字的平均值来计算强度方差对于每一个染色体的候选人在下标和染色体和背景在染色体代表地区的候选人 ,分别,即 , 代表不同区域内的像素数量,代表着不同地区的平均强度值。后来,该方法采用染色体较低的候选人作为检测的输出。过滤后的示例结果见图5 (b),数量的分类精确过滤。图5 (c)后者表示染色体的候选结果作为输入分割模块,我们可以观察触摸和重叠的候选人表现为染色体集群。

4所示。染色体组分割

受的想法47)和高稠度属性的像素分成不同的部分重叠的染色体的候选人,我们对候选人进行分割包含触摸和重叠染色体利用环半径相同集群像素属性变换,从而近似染色体形状与日食。我们在本节有三个步骤。首先,我们实现图像边缘与精明的经营者。第二步再分类边缘图像作为输入,我们利用RRT变换定位中轴,第三步的种子点。在第三步中,我们执行轮廓估计与eclipse段重叠区域。从本质上讲,RRT用于生成初始种子点与内侧轴,可以大大提高重叠分割的稳定性和收敛速度。

首先,我们对输入执行侵蚀操作染色体候选图像,然后获取他们的通信优势图像与精明的边缘检测器。后来,我们的目标是提取种子点对于每个候选人 ,这可能被视为执行轮廓估计某些先验信息。不同于(47)利用快速径向对称(FRS)变换对原始输入图像实现种子点,我们应用环半径变换(RRT) (48)提取的边缘图像定位种子点。RRT算法应用的原因在于原始染色体图像噪音,像当地品种和密度不清楚形状边界,大大影响分割的性能。预处理的强大和有效的精明的边缘检测器,可以缓解大部分噪声带来的影响。的基础上相信边缘图像,RRT能够实现健壮的种子点的位置结果甚至面临困难任意取向的染色体。此外,回想一下,中轴提取是一个传统的染色体分割和分类方法的关键过程,和媒体RRT有助于准确定位轴染色体的像素分割,这正好与传统方法的想法。

通过将输入边缘图像转换为一种新形式,RRT突出当地辐射对称的精确定位中间轴输入图像像素。具体来说,代表半径值分配给相应的边缘图像中的所有像素,这被定义为距离它最近的边缘像素: 在函数研究主要是利用像素边缘像素, 是指欧氏距离来。后来,像素与当地最小半径值被视为中轴像素。最后,我们利用的意思和当地中轴值像素作为种子点的结果。

本地化的种子点,我们决定每个边缘像素的所属在重叠区域以下测量: 在函数和代表欧氏距离和散度函数,分别是预设的重量值。由于重叠区域的分配,一些轮廓区域必须小于其他领域。我们因此填补缺失区域完成的任务轮廓估计通过拟合形状椭圆,椭圆的形状来描述这些部分采用观察对象。利用日食的原因除了矩形依赖于事实染色体与日食形状是相似的。换句话说,日食可以提供更严格的比矩形边界估计。

等高线估算后,我们可以提供有用的边界轮廓与日食如图6。从产生的日食,我们能找到个体染色体候选人表示在(a)。与此同时,成功地分割染色体集群(b)中表示。如果eclipse区域不是整个eclipse,我们会丢弃这些日食标有蓝色的矩形图6。数据6 (c)和6 (d)代表失败情况下,需要手动修改oversegmentation解决这个问题。适当的细分之后,我们获得几个单染色体图像表示为需要分类,是指单个染色体图像的数量。

(一)

(b)

(c)

(d)

5。染色体分类数据增大

GAN-based增强达到显著的性能提高数据大小和拥有高区别的能力定位利润率之间相似的类别。事实上,染色体分类是一个multiple-label分类任务,没有足够的训练样本。因此,应用数据增加扩大训练数据集是非常有效的在这样的分类任务。

5.1。总体工作流程

后的数据进行扩展,以提高分类精度,我们试图解决不平衡的问题和小数据集训练过程与多个分布生成广告网络(MD-GAN)。从本质上讲,在染色体核型分析是由不平衡问题严重不平衡的现实的染色体数据的分布。当原始GAN应用,它可以很容易困,即。,generating similar samples without enough differential modes. This phenomenon makes unbalanced problem of chromosome dataset much worse with similar outputs. By adopting MD-GAN, the proposed method can guarantee to produce samples with a variety of modes, thus improving diversity of dataset to a certain extent. Afterwards, sufficient samples generated by MD-GAN are applied to fine-tune pretrained convolutional neural network (CNN) for accurate classification of chromosomes. These steps are presented in Algorithm1,我们应用多个MD-GAN完成多级增强。

	数据:一个小训练集preclassified染色体图像与相应的标签。
	目标:多级染色体分类器训练几个标记图像。
	算法的步骤:
	步骤1预处理:采用标准图像处理增强技术像旋转、翻译、翻转等创造更多的输入图像下面的模块。
	步骤2:GAN-based数据增加:对于每一个染色体的24类,之前我们使用相应的训练示例输出模块训练MD-GAN结构,这将有助于生成合成染色体等类的训练样本来提高分类。因此,我们分别构建24 MD-GAN模型增加的数据来完成任务。
	步骤3:调整VGG-16网络:使用所有收集到的数据,包括原始样品和样品预处理和MD-GAN,调整一个pretrained VGG-16分类器对准确染色体分类。

考虑到鉴频器确定真或假的样本和发电机学习原始数据的分布,训练过程可以视为一个过程来最大化的比例错误的分类预测的。与此同时,培训过程可以认为自己的错误分类率降到最低。根据这两个程序,培训GAN因此可以理解极大极小目标函数: 在哪里意味着真正的样本采样 , 从正态分布吗 ,和增加引起发电机分布数据。

5.2。多个分布发电机

当应用原始GAN特定或特定领域的使用,甘容易陷阱到模式崩溃的情况,也就是说,氮化镓生成类似的样本甚至不同的输入模式。事实上,基于氮化镓采用随机梯度学习来优化和轮流。一旦实现歧视产生的数据,GAN需要逆优化顺序,从而改变极大极小公式方程(7一个极大极小。在逆向优化过程中,从每个GAN被迫实现映射来大部分是可以被视为真实数据,导致模式崩溃现象。特别是这种问题更加严重或特定领域的应用,由于严重不平衡的分布从现实生活中获得的真实数据。

当使用单一发电机甘导致原始模式崩溃;黄平君et al。42甘]提出改善原始设计多个发电机。然而,使用多个发电机带来复杂的优化问题和巨大的计算成本的增加。为了解决这个问题,我们提出利用多个发行版而不是发电机。由于高斯混合模型理论上适用于任何复杂的分布,我们利用它来构建提出分布发电机 : 在哪里和代表对应的数量和指数分布发电机,分别是正态分布,意味着向量的值介于0和1之间的随机样本。的大小染色体数目决定的基础上的照片。我们因此定义高斯混合分布作为在哪里是高斯分布,代表的数量分布,和均值和方差对应吗分别th高斯分布。生成样本分布导致显著的能力。然而,这样的设置带来大幅增加计算消费。在这种情况下,它是特别重要的一代多样性和计算之间保持平衡。通过实验,和设置为8处理不同类别的染色体。

5.3。氮化镓结构描述

发电机需要多个分布作为输入,并计算染色体形象图表示7。先进的网络是由四个卷积层和一个完全连接层。归一化层和一个ReLU激活函数设计每次卷积后层。第一个完全连接层负责重塑输入特征向量,和卷积层根据训练旨在扩大信息过滤内核的参数。卷积层功能后,归一化层对扩大信息minibatch稳定整个学习过程和防止发电机崩溃。

鉴别器网络设计与典型的CNN架构分类任务,决定是否输入的单染色体图像是一种原始的或生成图像。拟议中的卷积鉴别器由四层,四个池层,和一个完全连接层。批标准化层用于稳定发电机的设计。我们采用漏ReLU激活函数,从而防止消失梯度和速度训练过程。在培训过程中,随机梯度下降法与亚当优化器使用,实现了一个自适应的时刻估计的包括第一和第二的时刻。

5.4。调整过程

由MD-GAN生成的数据结合实际数据来调整VGG-16网络分类的目的,蓝色,如图所示7。微调pretrained网络的原因除了从头训练在于深层神经网络通常需要大量的训练样本实现分辨率和泛化。然而,我们不能得到训练样本的最小数量,即使数据增强技术。因此,我们涉及few-shot学习调整参数和获得更好的染色体分类结果。

具体来说,我们保留参数的更高层次的早期层和修改参数,由这一事实证明了特征表示在早期层一般特性来防止过度拟合;同时,特征提取,高水平获得更具体的为染色体分类和语义表示通过学习过程。

6。实验结果

我们对染色体分类说明该方法的有效性。首先,我们介绍数据集和测量。其次,我们甘MD-GAN之间设计一个比较实验和典型说明MD-GAN数据增强的有效性。最后,两组比较研究伴随着样本图片进行展示该方法的性能优于现有方法。

6.1。数据集和测量

证明了该方法的有效性,我们120年合作医院为我们提供了细胞和染色体图像包括5474标签样本。染色体图像随机分为两组,4600年和874年的图片,用来执行培训和测试。事实上,我们获得了带安全标签的数据是不够的一个分类的任务24类与深度学习方法。然而,实现带安全标签的数据时从医生在时间和金钱成本高,因为标签是一个恼人的对医生和耗时的任务。这的主要原因是使用MD-GAN生成更多的训练样本数据增大。比较染色体分类结果,我们选择的准确性染色体图像作为测量的总类。清楚地表明分类结果为一个特定的类,我们定义五个 , , ,和代表分类精度为第二,10日,16日和22日一对染色体。

6.2。数据增加分析

我们在本节进行两个实验,前一个是执行比较MD-GAN甘和典型的能力生成新的数据没有崩溃,而后者的表现之一是指示MD-GAN生成新的染色体分类训练样本。

为了验证MD-GAN拥有能力学习复杂的真实数据的空间分布,我们设计一个比较实验,根据丹佛生成高斯混合分布的样本分组规则。实验后,产生的分布差异的比较典型的氮化镓和MD-GAN图表示8。具体来说,我们可以注意到甘失败学习数据分布35000次迭代后达到收敛,由于模式崩溃问题的发生。同时,MD-GAN后能学习复杂的高斯混合分布执行70000次迭代的迭代优化。在图8 (f),我们可以观察到最终结果通过MD-GAN不仅维持关键特性,但也确保生成的数据样本的多样性。然而,MD-GAN通常需要更多的迭代实现收敛比典型的氮化镓,因为多个输入分布主要MD-GAN的复杂性增加,从而在一定程度上提高计算负担。基于上述讨论,我们可以得出结论,MD-GAN能力高于典型GAN在构建复杂的分布和防止崩溃问题。

(一)

(b)

(c)

(d)

(e)

(f)

在第二组实验中,我们首先介绍比较真实和MD-GAN创建的染色体图9。我们可以观察到创建的样本有一个真正的不仅是视觉上相似,但还拥有多样化的模式。两个染色体图像生成的特点导致改善分类精度与生成的样本。为了探索之间的关系质量和数量的染色体图像生成的,然后我们进行比较实验与不同数量的染色体图像生成。指出,我们定义数量的染色体图像生成 ,在哪里指人的数量和每个人应该与46个染色体分配图像。每两个染色体图像一个人应由同一类别标签从23类,除了一对性染色体。定义的理由的基础上在于我们应该保持类平衡染色体产生更好的分类结果。

我们展示的比较中产生染色体由MD-GAN不同在图10。我们可以观察到的数据10 (b)和10 (c)包含所有不同模式的染色体出现在图10 (),证明了模式可以通过定义生成有更大的价值。然而,图10 (c)包含几个失败例片段和噪声点,这意味着更大将生成的染色体图像噪声和工件,从而减少分类的能力。因此,我们需要在生成的数量保持平衡产生染色体和更加多样化的模式,减少工件。主要原因在于失败案例研究人员往往缺乏度量函数来证明好生成的情况下是如何在视觉外观。减少失败的情况下,我们的未来的工作是提出一个新颖的感知损失函数与医生,可以定义之间的相似性是如何生成的,一个真正的形象在视觉外观。

(一)

(b)

(c)

6.3。染色体分类分析

在本节中,我们首先显示性能检测ER算法。然后,我们进行两组对比实验显示了该方法的有效性,它比较该方法与不同的分类能力分别或其他比较的方法。

在检测实验中,我们比较的准确性产生染色体候选人的测量精度和召回。具体来说,我们比较该方法与大津二值化方法,显示了该方法的有效性。由于不均匀染色的细胞图像的性质和使用全局阈值二值化,大津法染色不均匀染色失败在某些情况下,这似乎与当地品种和强度不清楚形状边界在染色体检测。在这种情况下,大津法检测精度和召回达到86.3%和87.2%,分别;同时,检测精度和召回通过ER算法是95.9%和94.8%,这是保证足够高的进一步分类过程。我们进行实验比较,利用ER与第一或第二过滤器,我们实现精度和召回值89.6%和95.2%,分别为88.2%和95.6%。我们可以看到过滤器大大提高精度,减少召回性能。

第二个实验的想法后数据增加分析,表1提供的详细统计数据有不同的分类结果 ,cnn在哪里调整使用的样本组由真正的染色体图像和的,表示为CNN +毫克。情节在图11比较准确的性能通过该方法的不同用于数据增大。从表1或图11,我们可以注意到一个伟大的和更多的类需要分类精度降低,可以证明通过比较中 , , , ,和一个方法。这是由于多个类为解决问题带来复杂性的空间,因此通常需要更加多样化和大量的数据采用培训。利用染色体图像由MD-GAN生成,显著改善 ,即。,4。6%, is achieved by models of CNN + 50MG. This is also true for other measurements for comparisons, which we can find improvement 1.2% in ,12% ,和2.5% 。


方法	(%)	(%)	(%)	(%)

美国有线电视新闻网	68.4	60.0	60.0	58.9
CNN + 50毫克	69.6	72.0	62.5	63.5
CNN + 100毫克	75.2	71.3	59.0	63.1
CNN + 150毫克	86.7	70.8	53.3	62.8
CNN + 200毫克	77.5	66.9	53.7	62.0
CNN + 250毫克	63.6	60.0	50.0	60.5

样本数的增加并不总是有利于提高分类精度,可以减少认证的通过比较CNN + 50毫克和CNN + 150毫克之间从表1或从图11。这种现象的减少也可以注意到在一些特定类型的染色体。所有这些事实证明更大的设置将噪声分类,由于工件产生的染色体图像更大。这个结论也可以证明第二个实验的数据增加分析,产生更少的视觉与大理想的训练样本。指出,我们实现精度的性能不一致表示在图11,这是由几个测试样品只有一个类的染色体图像。

从图11进一步,我们可以得出这样的结论:设置50可以最大限度地提高精度性能实验。因此,我们需要保持一个平衡为了增加更多的样本模式和引入低噪音。它是注意到是近一半数量的原始的染色体数据集,即。,119,which offers hints for researchers to perform data augmentation to improve classification accuracy.

在第二组的比较研究中,我们显示的详细统计数据和执行比较我们的CNN + 50毫克和几个比较方法在表2。具体来说,我们采用CNN + 50毫克作为我们的方法比较基于前实验的结果。我们实现CNN和多层感知器(MLP) [49)2、5层比较研究。我们实现MLP为比较不同层,因为大多数传统的染色体分类方法采用延时等分类Lerner et al。50)、明、田(51),等等。指出,我们包括两个最新的基于深度学习的方法比较,即。Sharma et al。11和斯瓦特等。10),前者为染色体分类方法探索深特性,而后者通过深暹罗一个学习染色体相似网络加速基于多层感知器分类与前馈网络分类器。我们实现基于深度学习方法遵循他们的文章。公平的实验中,沙玛et al。11实现无需预处理,即。、平直和弯曲。我们都遵循等。10)修改的原始版本深暹罗网络暹罗网络和MLP的组合。


方法	(%)	(%)	(%)	(%)

美国有线电视新闻网	68.4	60.0	60.0	58.9
CNN + 50毫克	69.6	72.0	62.5	63.5
两层延时	58.3	54.2	52.9	51.3
五层延时	62.1	55.3	53.9	53.1
Sharma et al。11]	69.2	59.3	61.2	58.0
斯瓦特et al。10]	70.8	62.2	63.2	61.5

从表2,我们可以注意到深层神经网络包括CNN, CNN + 50毫克,Sharma et al。11),和斯瓦特et al。10达到更高的精度比一些传统的方法,包括mlp变体。这些结果证明重要的区分能力的神经网络,特别是对于多类分类问题。自从Sharma et al。11没有预处理是类似于原始CNN在神经网络的结构,我们可以观察到类似的性能在染色体分类精度。相比之下,Sharma et al。11)和CNN,斯瓦特et al。10)提高分类精度通过嵌入更复杂的网络体系结构。它也达到了最高的分类精度值4日和22日染色体。然而,它仍然遭受的染色体不同模式的不足,提出的小的收集的数据集的大小。该方法可以提高染色体分类精度与适当的生成数量的染色体图像,证明了最佳性能在识别18号染色体和染色体。实现这种进步的主要原因在于这样一个事实,我们特别设计MD-GAN结构来执行数据增强,带来稳定模式多样性的特点和培训来解决问题的小训练数据的大小。

7所示。结论

我们提出一个染色体核型分析方法进行染色体检测、分割、自动和分类,从而降低医疗数据的复杂性带来的维度和卷IoMT环境。该方法包括三个阶段,即染色体检测,重叠分割,类别分类。在染色体检测,我们探索与几何ER过滤器获得染色体的候选人。在重叠分割,我们分割粘连和重叠染色体利用几何信息的染色体。最后在类别分类,提出MD-GAN产生更多的相信训练样本,这是进一步利用微调VGG-16网络染色体分类。实验结果不仅显示了该方法的效率,但也证明利用MG-GAN准确性的改善增加训练数据。基于云计算和其他技术(31日,52,53),我们将进一步开发MD-GAN其他类似IoMT环境下医学应用在未来,如疾病诊断和识别异常。

数据可用性

染色体图像数据用于支持本研究的发现是由吴Yirui许可制,所以不能免费提供。请求访问这些数据应该[Yirui吴,wuyirui@hhu.edu.cn]。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国国家重点研发项目在资助2018 yfc0407901,基础研究基金在格兰特B200202177的中央大学,自然科学基金(批准号。61702160,61702160,6183200),和江苏科学基金会授予BK20170892,中国国家电网公司科学基础(Few-shot Ice-wind灾害特征识别和预测的研究机器学习在输电线路)。

引用

y, z Cai, Z.-H。詹,Y.-J。锣,x通”实现社会福利最大化的优化和基于拍卖的激励机制移动众包”IEEE计算社会系统》第六卷,没有。3、414 - 429年,2019页。视图:出版商的网站|谷歌学术搜索
y王,问:他,d .你们,y,“制定criticality-based划算的多租户服务的系统容错策略,”IEEE软件工程,44卷,不。3、291 - 307年,2017页。视图:出版商的网站|谷歌学术搜索
p .赖他,崔g . et al .,“边缘用户分配与动态的服务质量,”国际会议面向服务计算的程序施普林格,页86 - 101年,图卢兹,法国,2019年10月。视图:出版商的网站|谷歌学术搜索
t . s .张x, z Tan彭,和g .王”缓存和空间k匿名的隐私增强计划连续定位服务,“未来一代计算机系统卷。94年,40 - 50,2019页。视图:出版商的网站|谷歌学术搜索
A . p . Britto g·文德兰花,“回顾细胞遗传学及其自动化”医学科学杂志》(费萨尔巴德),7卷,不。1队,2007页。视图:出版商的网站|谷歌学术搜索
x,郑,s . Li j . j . Mulvihill m . c .木材和h·刘,“中期染色体的自动分类:优化自适应计算机的计划,“生物医学信息学杂志,42卷,不。1,22-31,2009页。视图:出版商的网站|谷歌学术搜索
f·阿比德和l . Hamami”的调查对人类染色体分类、基于神经网络的自动化系统”人工智能审查卷,49号1,41-56,2018页。视图:出版商的网站|谷歌学术搜索
m . j . Roshtkhari和s . k . Setarehdan”小说算法矫正高度弯曲的人类染色体的图像,”模式识别的字母卷,29号9日,第1217 - 1208页,2008年。视图:出版商的网站|谷歌学术搜索
r . m . Nair, r . Remya和k . Sabeena“染色体的核型分析技术:一项调查,”国际计算机趋势和技术杂志》上,22卷,不。1,2015。视图:出版商的网站|谷歌学术搜索
斯瓦特·g·古普塔,m . Yadav, m·沙玛和l .中收取“暹罗为染色体分类、网络”《IEEE计算机视觉国际会议研讨会IEEE,页72 - 81年,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索
m·沙玛o·萨哈,a . Sriraman r . Hebbalaguppe l .中收取和s . Karande“众包染色体分割和分类,”《IEEE计算机视觉与模式识别会议研讨会IEEE,页786 - 793年,火奴鲁鲁,嗨,美国,2017年7月。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”诉讼进展的神经信息处理系统加拿大蒙特利尔,页91 - 99,,2015。视图:谷歌学术搜索
大津,“从灰度直方图的阈值选择方法,”IEEE系统,人,控制论,9卷,不。1,第66 - 62页,1979。视图:出版商的网站|谷歌学术搜索
l .霁”全自动染色体分割,“血细胞计数,17卷,不。3、196 - 208年,1994页。视图:出版商的网站|谷歌学术搜索
s Minaee m . Fotouhi, b . Khalaj“全自动染色体的几何方法分割”信号处理在医学和生物学学报》研讨会IEEE,页1 - 6,费城,宾夕法尼亚州,美国,2014年12月。视图:出版商的网站|谷歌学术搜索
s . w . y . Wu Wang Palaiahnakote, t·鲁”一个健壮的symmetry-based场景/视频文本检测方法通过神经网络”学报IAPR国际会议文档分析和识别IEEE,页1249 - 1254年,京都,日本,2017年11月。视图:出版商的网站|谷歌学术搜索
v . s .巴拉和美国方面”,分离粘连和重叠的人类染色体图像”进步的医疗电子产品施普林格,页59 - 65年,柏林,德国,2015年。视图:出版商的网站|谷歌学术搜索
b·勒纳,h . Guterman汀斯坦,”classification-driven部分闭塞的对象分割(CPOOS)方法与应用染色体分析,“IEEE信号处理,46卷,不。10日,2841 - 2847年,1998页。视图:出版商的网站|谷歌学术搜索
g . c .章程和j·格雷厄姆,“可教育的灰度级模型理清重叠的染色体,”模式识别,32卷,不。8,1335 - 1349年,1999页。视图:出版商的网站|谷歌学术搜索
m . s, g . Wang z . A .下榻的饭店和刘问:“双重隐私保护方案在连续的定位服务,“IEEE物联网,5卷,不。5,4191 - 4200年,2018页。视图:出版商的网站|谷歌学术搜索
l .气他,f . Chen等人”找到你所需要的:web api推荐在web通过关键词搜索的东西,“IEEE计算社会系统》第六卷,没有。5,1063 - 1072年,2019页。视图:出版商的网站|谷歌学术搜索
张,K.-K。r . Choo,问:刘,g .王”加强隐私通过统一的网格和缓存在基于位置的服务,“未来一代计算机系统卷,86年,第892 - 881页,2018年。视图:出版商的网站|谷歌学术搜索
l .七张x, s, s .广域网,y,和w·龚“时空数据驱动的服务推荐与隐私保护,”信息科学卷,515年,第102 - 91页,2020年。视图:出版商的网站|谷歌学术搜索
张x, x, y Chen问:刘,刘x,和l .气”blockchain-based计算卸载方法计算5 g网络边缘,”软件:实践和经验,2019年。视图:出版商的网站|谷歌学术搜索
j .赵s Ryu, s .哇,”一个研究层次giemsa-stained人类染色体分类、人工神经网络模型”IEEE学报》年度国际会议在医学和生物学社会工程,卷2,页4588 - 4591,IEEE,旧金山,加州,美国,2004年9月。视图:出版商的网站|谷歌学术搜索
n寄居于米甸和k . b . Jayanthi”分析人类染色体分类使用着丝粒的位置,”测量47卷,第295 - 287页,2014年。视图:出版商的网站|谷歌学术搜索
A . Khmelinskii r·文图拉和j . Sanches”小说为骨髓细胞染色体配对指标,”IEEE生物医学工程卷,57号6,1420 - 1429年,2010页。视图:出版商的网站|谷歌学术搜索
f·阿比德和l . Hamami”的调查对人类染色体分类、基于神经网络的自动化系统”人工智能审查卷,49号1,41-56,2018页。视图:出版商的网站|谷歌学术搜索
郑y秦:歌曲,h . et al .,“Varifocal-net:染色体分类方法使用深卷积网络,”2018年,https://arxiv.org/abs/1810.05943。视图:谷歌学术搜索
张x, x, h .高,y雪,l . Qi和w·窦”成为:blockchain-enabled计算卸载移动边界计算的物联网,”IEEE工业信息,16卷,不。6,4187 - 4195年,2019页。视图:出版商的网站|谷歌学术搜索
l .气y, y元,s .傅张x, x徐,“QoS-aware虚拟机节能调度方法在基于云的cyber-physical系统中,“万维网,23卷,不。2、1275 - 1297年,2020页。视图:出版商的网站|谷歌学术搜索
x徐、刘问:y罗et al .,“在大数据计算卸载方法IoT-enabled cloud-edge计算,”未来一代计算机系统卷,95年,第533 - 522页,2019年。视图:出版商的网站|谷歌学术搜索
赵,y, y, y高,x通,“基于工作任务分配模型为移动众包的朋友关系,“传感器,19卷,不。4 p。921年,2019年。视图:出版商的网站|谷歌学术搜索
x, s .傅l . Qi et al .,“IoT-oriented数据放置方法和隐私保护在云环境中,“网络和计算机应用》杂志上卷,124年,第157 - 148页,2018年。视图:出版商的网站|谷歌学术搜索
z郑,郑l . y .杨”所产生的未标记样本GAN改善基线体外鉴定的人,”学报IEEE计算机视觉与模式识别会议IEEE,页3754 - 3762年,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索
刘朱x, y, z .秦“数据增加分类使用氮化镓,”2017年,https://arxiv.org/abs/1711.00648。视图:谷歌学术搜索
r·c·鲍尔斯,l . Chen格雷罗州et al .,”甘增加:增加训练数据使用生成对抗的网络,”2018年,https://arxiv.org/abs/1810.10863。视图:谷歌学术搜索
m . Frid-Adar钻石,e·巴生m . Amitai j . Goldberger和h·格林斯潘“GAN-based合成医学图像增强增加CNN在肝脏病变的表现分类,“Neurocomputing卷,321年,第331 - 321页,2018年。视图:出版商的网站|谷歌学术搜索
t . Salimans j·格拉汉姆·古德费勒,w·扎诉张,a·雷德福x陈,“改善技术培训甘斯,”神经信息处理系统的程序西班牙巴塞罗那,页2226 - 2234,,2016。视图:谷歌学术搜索
a·j·拉特纳h . r . Ehrenberg z Hussain j . Dunnmon和c .再保险”学习为数据增加组成特定于域的转换,”学报的发展神经信息处理系统圣地亚哥,页3236 - 3246,美国2017年。视图:谷歌学术搜索
j .朱t .公园,p .伊索拉,a . a .埃“未配对image-to-image翻译使用cycle-consistent敌对的网络,”学报IEEE计算机视觉国际会议IEEE,页2242 - 2251年,威尼斯,意大利,2017年10月。视图:出版商的网站|谷歌学术搜索
问:黄平君,t·d·阮t·勒和d . Phung”Multi-generator gernerative敌对的网,“2017年,https://arxiv.org/abs/1708.02556。视图:谷歌学术搜索
问:他,r·周x Zhang et al .,“关键字搜索构建基于服务的系统,”IEEE软件工程,43卷,不。7,658 - 674年,2016页。视图:出版商的网站|谷歌学术搜索
w·龚、l . Qi和y,“Privacy-aware多维移动服务质量预测和推荐雾在分布式环境中,“无线通信和移动计算卷,2018篇文章ID 3075849、8页,2018。视图:出版商的网站|谷歌学术搜索
x, r·莫f .戴w·林,s .广域网和w .窦,“动态资源配置与容错数据密集型气象工作流在云,“IEEE工业信息,p . 2019。视图:出版商的网站|谷歌学术搜索
j . Matas o .密友,m .城市和t . Pajdla“健壮wide-baseline立体声从最大限度地稳定极值区域,”图像和视觉计算,22卷,不。10日,761 - 767年,2004页。视图:出版商的网站|谷歌学术搜索
s . Zafari t . Eerola j .还想h . Kalviainen和h . Haario”重叠椭圆物体轮廓图像的分割IEEE图像处理,24卷,不。12日,第5952 - 5942页,2015年。视图:出版商的网站|谷歌学术搜索
p . y . Wu Shivakumara w·魏,t . Lu和美国朋友,”一个新的环半径transform-based笔迹视频字符,稀释方法”国际期刊文档分析和识别(IJDAR),18卷,不。2、137 - 151年,2015页。视图:出版商的网站|谷歌学术搜索
r . Collobert和美国Bengio感知器之间的联系,mlp和支持向量机学报》国际会议上机器学习2004年8月,上海,中国。视图:出版商的网站|谷歌学术搜索
b·勒纳h . Guterman汀斯坦,和y Romem“中轴transform-based特性和神经网络对人类染色体分类,“模式识别,28卷,不。11日,第1683 - 1673页,1995年。视图:出版商的网站|谷歌学术搜索
d .明和j .田”染色体图像,自动模式提取和分类”杂志的红外线,毫米,和太赫兹波没有,卷。31日。7,866 - 877年,2010页。视图:出版商的网站|谷歌学术搜索
y, z Cai, x, y,和g .阴”真实的激励机制与位置移动众包系统,保护隐私”计算机网络卷。135年,32-43,2018页。视图:出版商的网站|谷歌学术搜索
黄x, y, t . et al .,”一个节能意识计算卸载方法计算在无线城市网络智能优势,”网络和计算机应用》杂志上卷,133年,第85 - 75页,2019年。视图:出版商的网站|谷歌学术搜索

复杂性