图
3给出了管道的核型分析模型,它包括三个主要步骤。在第一步表示为(a),染色体候选人从输入中提取细胞的照片。应用多个和各种过滤特性的低计算负担可能有助于产生更多的地区利益的一种有效的方式。此外,采用过滤器的高工作能力在噪音和不均匀染色的性质。在下一步表示为(b),我们将重叠和触摸染色体集群分为单染色体利用几何形状和强度信息。为了最大化自动化,该方法是稳定和有效的即时视觉反馈让用户友好的分割成为可能。在分类步骤表示为(c),我们首先构造一个甘多个分布(MD-GAN)网络产生大量的标记染色体图像基于多个数据分布的假设。MD-GAN设计与多个分布发电机在一个合理的消费在原始数据,除了单甘发电机采用原来的结构。采用更多的发电机,MD-GAN能够有效地覆盖不同的数据模式和产生更多的标签样本。样本代之后,我们进一步微调CNN分类器有足够的和多样化的样本实现结果染色体上标签。 Such results are finally arranged in a karyotype picture to show classification output.
虽然许多方法提出了自动分割(
17),它仍然是难以完成染色体细分任务,由于不可预知的形状和外观由染色体的非刚性的性质造成的。早些时候,Lerner et al。
18)成功实现分类细分驱动,结合集群解决的正确选择分类阶段。然后,特许学校和格雷厄姆(
19)提出一个方案来收集subchromosomal带状光谱模板,表现良好的训练模型和成功完成任务,即。首先识别提供了染色体片段,然后组装小音段以自下而上的方式。Minaee et al。
15)提出一个迭代版本的分割方法利用染色体边界的几何特性,直到所有个体的染色体分离。
从本质上讲,建模特定GAN医疗领域是困难的,因为GAN模型经常遇到模型崩溃,即。生成器生成样本集中在几个模式而不是整个数据空间(
39]。为了解决这个问题,Salimans et al。
39)利用minibatch歧视技巧让鉴别器检测异常样本生成类似于其他样本。考虑数据增加一个方法来改变任务相关的数据,同时保持分类标签,拉特纳et al。
40)设计生成序列模型执行特定于域的数据转换。他们的模型可以由用户任意设计,不确定性转换函数,从而拟合在各种领域的应用。
另一个解决此类问题是修改GAN结构减少梯度损失所有数据的有效使用。CycleGAN模型(
41)使用CNN模型作为分类器和一种新的游戏机制,即。,a consistent loop structure between generator and discriminator, which shows large improvement of performance in data augmentation and classification accuracy during experiments. Hoang et al. [
42)设计一个目标函数近似数据流形诱导分布在训练,同时鼓励他们从事不同的数据模式。然而,他们的方法是在计算数量的发电机,与多个分布的一代。
基于环境IoMT不同的相机,传感器和采样方法(
43),它便于研究人员收集数量的细胞图像。通过分析收集到的细胞图像,我们发现染色体样本受到两个因素的影响,例如,问uality of Giemsa staining and magnification times, since multiple categories of sensors and cameras adopted by IoMT bring complexity and multidimensional property of medical data [
44,
45]。具体来说,染色不均匀会导致不同程度的对比度和不清楚的形状边界;与此同时,放大倍染色体大小不一致。此外,干扰与染色体在外表上相似,可能会被误诊为染色体。所有这些困难提供挑战染色体的精确定位和分类。
强度发布出去是依靠过滤器:灵感来自于观察低强度方差的每个染色体都有属性,该过滤丢弃候选人与强度大方差值。在事实的基础上准确的染色体候选人应该只有区域背景和染色体,我们构造直方图的强度值为每个染色体的候选人。之后,采用最大和submaximum数字的平均值来计算强度方差<我nline-formula>
V
我
对于每一个染色体的候选人
(4)
V
我
=
n
c
⋅
∑
j
∈
e
我
,
c
我
j
−
一个
我
,
c
2
+
n
b
⋅
∑
j
∈
e
我
,
b
我
j
−
一个
我
,
b
2
n
c
+
n
b
,
在下标<我nline-formula>
c
和<我nline-formula>
b
染色体和背景在染色体代表地区的候选人<我nline-formula>
e
我
分别为,即<我nline-formula>
e
我
=
e
我
,
c
,
e
我
,
b
,<我nline-formula>
n
代表不同区域内的像素数量,<我nline-formula>
一个
代表着不同地区的平均强度值。后来,该方法采用染色体较低的候选人<我nline-formula>
V
我
作为检测的输出。过滤后的示例结果见图
5 (b),数量的分类精确过滤。图
5 (c)后者表示染色体的候选结果作为输入分割模块,我们可以观察触摸和重叠的候选人表现为染色体集群。
后的数据进行扩展,以提高分类精度,我们试图解决不平衡的问题和小数据集训练过程与多个分布生成广告网络(MD-GAN)。从本质上讲,在染色体核型分析是由不平衡问题严重不平衡的现实的染色体数据的分布。当原始GAN应用,它可以很容易困,即。,generating similar samples without enough differential modes. This phenomenon makes unbalanced problem of chromosome dataset much worse with similar outputs. By adopting MD-GAN, the proposed method can guarantee to produce samples with a variety of modes, thus improving diversity of dataset to a certain extent. Afterwards, sufficient samples generated by MD-GAN are applied to fine-tune pretrained convolutional neural network (CNN) for accurate classification of chromosomes. These steps are presented in Algorithm
1,我们应用多个MD-GAN完成多级增强。
考虑到鉴频器<我nline-formula>
年代
确定真或假的样本和发电机<我nline-formula>
G
学习原始数据的分布,训练过程<我nline-formula>
G
可以视为一个过程来最大化的比例错误的分类预测的<我nline-formula>
年代
。与此同时,培训过程<我nline-formula>
年代
可以认为自己的错误分类率降到最低。根据这两个程序,培训GAN因此可以理解极大极小目标函数:
(7)
最小值
G
马克斯
年代
E
X
∼
P
d
X
日志
年代
X
+
E
Z
∼
P
Z
日志
1
−
年代
G
Z
,
在哪里<我nline-formula>
x
意味着真正的样本采样<我nline-formula>
P
d
,<我nline-formula>
Z
从正态分布吗<我nline-formula>
P
Z
,<我nline-formula>
G
Z
增加引起发电机分布数据。
5.2。多个分布发电机
当应用原始GAN特定或特定领域的使用,甘容易陷阱到模式崩溃的情况,也就是说,氮化镓生成类似的样本甚至不同的输入模式。事实上,基于氮化镓采用随机梯度学习来优化<我nline-formula>
年代
和<我nline-formula>
G
轮流。一旦实现歧视产生的数据,GAN需要逆优化顺序,从而改变极大极小公式方程(
7一个极大极小。在逆向优化过程中,<我nline-formula>
G
从每个GAN被迫实现映射<我nline-formula>
Z
来<我nline-formula>
X
大部分是可以被视为真实数据,导致模式崩溃现象。特别是这种问题更加严重或特定领域的应用,由于严重不平衡的分布从现实生活中获得的真实数据。
当使用单一发电机甘导致原始模式崩溃;黄平君et al。
42甘]提出改善原始设计多个发电机。然而,使用多个发电机带来复杂的优化问题和巨大的计算成本的增加。为了解决这个问题,我们提出利用多个发行版而不是发电机。由于高斯混合模型<我nline-formula>
米
理论上适用于任何复杂的分布,我们利用它来构建提出分布发电机<我nline-formula>
D
:
(8)
D
j
Z
j
=
P
Z
Z
j
+
米
j
Z
j
,
j
=
1
,
…
,
K
,
在哪里<我nline-formula>
K
和<我nline-formula>
j
代表对应的数量和指数分布发电机,分别<我nline-formula>
P
Z
是正态分布,<我nline-formula>
Z
j
意味着向量的值介于0和1之间的随机样本。的大小<我nline-formula>
Z
j
染色体数目决定的基础上的照片。我们因此定义高斯混合分布<我nline-formula>
米
j
作为
(9)
米
j
Z
j
=
∑
k
=
1
n
j
1
n
j
⋅
ϕ
Z
j
;
μ
j
,
k
,
σ
j
,
k
,
在哪里<我nline-formula>
ϕ
是高斯分布,<我nline-formula>
n
j
代表的数量分布,<我nline-formula>
μ
j
,
k
和<我nline-formula>
σ
j
,
k
均值和方差对应吗<我nline-formula>
k
分别th高斯分布。生成样本分布导致显著的能力。然而,这样的设置带来大幅增加计算消费。在这种情况下,它是特别重要的一代多样性和计算之间保持平衡。通过实验,<我nline-formula>
K
和<我nline-formula>
n
j
设置为8处理不同类别的染色体。
5.3。氮化镓结构描述
发电机<我nline-formula>
G
Z
需要多个分布<我nline-formula>
D
k
Z
作为输入,并计算染色体形象图表示
7。先进的网络是由四个卷积层和一个完全连接层。归一化层和一个ReLU激活函数设计每次卷积后层。第一个完全连接层负责重塑输入特征向量,和卷积层根据训练旨在扩大信息过滤内核的参数。卷积层功能后,归一化层对扩大信息minibatch稳定整个学习过程和防止发电机崩溃。
MD-GAN结构为数据增加和VGG-16分类、网络<我nline-formula>
Z
∼
P
z
意思是正态分布,<我nline-formula>
D
k
Z
是指多个分布发电机,<我nline-formula>
G
Z
和<我nline-formula>
x
∼
P
d
分别代表生成训练样本和原始训练样本。
证明了该方法的有效性,我们120年合作医院为我们提供了细胞和染色体图像包括5474标签样本。染色体图像随机分为两组,4600年和874年的图片,用来执行培训和测试。事实上,我们获得了带安全标签的数据是不够的一个分类的任务24类与深度学习方法。然而,实现带安全标签的数据时从医生在时间和金钱成本高,因为标签是一个恼人的对医生和耗时的任务。这的主要原因是使用MD-GAN生成更多的训练样本数据增大。比较染色体分类结果,我们选择的准确性<我nline-formula>
P
24
染色体图像作为测量的总类。清楚地表明分类结果为一个特定的类,我们定义五个<我nline-formula>
P
2
,<我nline-formula>
P
10
,<我nline-formula>
P
16
,<我nline-formula>
P
22
代表分类精度为第二,10日,16日和22日一对染色体。
在第二组实验中,我们首先介绍比较真实和MD-GAN创建的染色体图
9。我们可以观察到创建的样本有一个真正的不仅是视觉上相似,但还拥有多样化的模式。两个染色体图像生成的特点导致改善分类精度与生成的样本。为了探索之间的关系质量和数量的染色体图像生成的,然后我们进行比较实验与不同数量的染色体图像生成。指出,我们定义数量的染色体图像生成<我nline-formula>
n
我
=
46
∗
n
p
,在那里<我nline-formula>
n
p
指人的数量和每个人应该与46个染色体分配图像。每两个染色体图像一个人应由同一类别标签从23类,除了一对性染色体。定义的理由<我nline-formula>
n
我
的基础上<我nline-formula>
n
p
在于我们应该保持类平衡染色体产生更好的分类结果。
我们展示的比较中产生染色体由MD-GAN不同<我nline-formula>
n
p
在图
10。我们可以观察到的数据
10 (b)和
10 (c)包含所有不同模式的染色体出现在图
10 (),证明了模式可以通过定义生成<我nline-formula>
n
p
有更大的价值。然而,图
10 (c)包含几个失败例片段和噪声点,这意味着更大<我nline-formula>
n
p
将生成的染色体图像噪声和工件,从而减少分类的能力。因此,我们需要在生成的数量保持平衡<我nline-formula>
n
p
产生染色体和更加多样化的模式,减少工件。主要原因在于失败案例研究人员往往缺乏度量函数来证明好生成的情况下是如何在视觉外观。减少失败的情况下,我们的未来的工作是提出一个新颖的感知损失函数与医生,可以定义之间的相似性是如何生成的,一个真正的形象在视觉外观。
比较中产生染色体图像通过MD-GAN生成不同数量的染色体图像:(a)通过设置生成的样本<我nline-formula>
n
p
50 (b)和(c)样品好,质量差的定义<我nline-formula>
n
p
在250年。
6.3。染色体分类分析
在本节中,我们首先显示性能检测ER算法。然后,我们进行两组对比实验显示了该方法的有效性,它比较该方法与不同的分类能力<我nline-formula>
n
p
分别或其他比较的方法。
第二个实验的想法后数据增加分析,表
1提供的详细统计数据有不同的分类结果<我nline-formula>
n
p
,cnn调整与染色体组由真实的图片和样品<我nline-formula>
46
∗
n
p
的,表示为CNN +<我nline-formula>
n
p
毫克。情节在图
11比较准确的性能通过该方法的不同<我nline-formula>
n
p
用于数据增大。从表
1或图
11,我们可以注意到一个伟大的和更多的类需要分类精度降低,可以证明通过比较中<我nline-formula>
P
4
,<我nline-formula>
P
10
,<我nline-formula>
P
16
,<我nline-formula>
P
22
,<我nline-formula>
P
T
一个方法。这是由于多个类为解决问题带来复杂性的空间,因此通常需要更加多样化和大量的数据采用培训。利用染色体图像由MD-GAN生成,显著改善<我nline-formula>
P
T
,即,4。6%, is achieved by models of CNN + 50MG. This is also true for other measurements for comparisons, which we can find improvement 1.2% in<我nline-formula>
P
4
12%,<我nline-formula>
P
18
,2.5%的<我nline-formula>
P
22
。
染色体分类精度与不同的参数数据集,也就是说,<我nline-formula>
n
p
。
方法
P
4(%)
P
18(%)
P
22(%)
P
T(%)
美国有线电视新闻网
68.4
60.0
60.0
58.9
CNN + 50毫克
69.6
72.0
62.5
63.5
CNN + 100毫克
75.2
71.3
59.0
63.1
CNN + 150毫克
86.7
70.8
53.3
62.8
CNN + 200毫克
77.5
66.9
53.7
62.0
CNN + 250毫克
63.6
60.0
50.0
60.5
准确率的比较通过不同的方法<我nline-formula>
n
p
。
样本数的增加并不总是有利于提高分类精度,可以减少认证的<我nline-formula>
P
T
通过比较CNN + 50毫克和CNN + 150毫克之间从表
1或从图
11。这种现象的减少也可以注意到在一些特定类型的染色体。所有这些事实证明更大的设置<我nline-formula>
n
p
将噪声分类,由于工件产生的染色体图像更大<我nline-formula>
n
p
。这个结论也可以证明第二个实验的数据增加分析,产生更少的视觉与大理想的训练样本<我nline-formula>
n
p
。指出,我们实现精度的性能不一致<我nline-formula>
P
4
表示在图
11,这是由几个测试样品只有一个类的染色体图像。
从图
11进一步,我们可以得出这样的结论:设置<我nline-formula>
n
p
50可以最大限度地提高精度性能实验。因此,我们需要保持一个平衡<我nline-formula>
n
p
为了增加更多的样本模式和引入低噪音。它是注意到<我nline-formula>
n
p
=
50
是近一半数量的原始的染色体数据集,即。,119,which offers hints for researchers to perform data augmentation to improve classification accuracy.
在第二组的比较研究中,我们显示的详细统计数据和执行比较我们的CNN + 50毫克和几个比较方法在表
2。具体来说,我们采用CNN + 50毫克作为我们的方法比较基于前实验的结果。我们实现CNN和多层感知器(MLP) [
49)2、5层比较研究。我们实现MLP为比较不同层,因为大多数传统的染色体分类方法采用延时等分类Lerner et al。
50)、明、田(
51),等等。指出,我们包括两个最新的基于深度学习的方法比较,即。Sharma et al。
11和斯瓦特等。
10),前者为染色体分类方法探索深特性,而后者通过深暹罗一个学习染色体相似网络加速基于多层感知器分类与前馈网络分类器。我们实现基于深度学习方法遵循他们的文章。公平的实验中,沙玛et al。
11实现无需预处理,即。、平直和弯曲。我们都遵循等。
10)修改的原始版本深暹罗网络暹罗网络和MLP的组合。
染色体分类精度与几种比较方法收集的数据集。
方法
P
4(%)
P
18(%)
P
22(%)
P
T(%)
美国有线电视新闻网
68.4
60.0
60.0
58.9
CNN + 50毫克
69.6
72.0
62.5
63.5
两层延时
58.3
54.2
52.9
51.3
五层延时
62.1
55.3
53.9
53.1
Sharma et al。
11]
69.2
59.3
61.2
58.0
斯瓦特et al。
10]
70.8
62.2
63.2
61.5
从表
2,我们可以注意到深层神经网络包括CNN, CNN + 50毫克,Sharma et al。
11),和斯瓦特et al。
10达到更高的精度比一些传统的方法,包括mlp变体。这些结果证明重要的区分能力的神经网络,特别是对于多类分类问题。自从Sharma et al。
11没有预处理是类似于原始CNN在神经网络的结构,我们可以观察到类似的性能在染色体分类精度。相比之下,Sharma et al。
11)和CNN,斯瓦特et al。
10)提高分类精度通过嵌入更复杂的网络体系结构。它也达到了最高的分类精度值4日和22日染色体。然而,它仍然遭受的染色体不同模式的不足,提出的小的收集的数据集的大小。该方法可以提高染色体分类精度与适当的生成数量的染色体图像,证明了最佳性能在识别18号染色体和染色体。实现这种进步的主要原因在于这样一个事实,我们特别设计MD-GAN结构来执行数据增强,带来稳定模式多样性的特点和培训来解决问题的小训练数据的大小。