一种不平衡数据的重叠单元图像合成方法

抽象的

细胞DNA倍性分析是一种应用于病理诊断的自动化技术。该技术对各种核图像的准确分类具有重要意义。然而，由于训练数据中缺少重叠核图像(训练数据不平衡)，导致重叠核图像的识别率较低。针对这一问题，提出了一种将重叠核图像与单核图像合成的新方法。首先采用样本选择的方法，使合成的样本具有代表性。其次，利用随机函数控制核的旋转角度和核的质心之间的距离，增加了样本的多样性。然后，利用Lambert-Beer定律对重叠部分的像素进行重新分配，使合成的样本与真实样本非常接近。最后，将所有的合成样本加入到训练集中进行分类器训练。实验结果表明，该方法合成的图像能够解决数据集不平衡问题，提高DNA倍性分析系统的识别率。

1.介绍

近年来，宫颈癌发病率逐年上升，已成为威胁妇女生命安全的社会问题。根据世界卫生组织2012年发布的一份调查报告，宫颈癌是欠发达地区妇女的第二大杀手[1，2］．宫颈癌可以在早期发现，早诊断、早治疗是解决这一问题的有效途径。子宫颈细胞检验是目前最普遍的子宫颈癌普查方法。在这种方法中，首先从患者身上采集人宫颈脱落细胞，并对细胞中所含的DNA进行染色。然后将染色后的标本置于显微镜下，由经验丰富的病理学家进行观察，作出诊断。然而，随着癌症的爆发，该技术已不能满足实际应用的需要。一方面，它需要大量的人力物力;另一方面，由于主观性和病理学家的视觉疲劳，常造成错误。因此，自动筛选技术变得越来越重要。

DNA倍性分析作为一种自动筛选技术，近年来发展迅速[3.］．在这项技术中，首先从患者身上收集细胞标本，并对细胞中包含的DNA进行染色。接下来，将标本置于显微镜下，使用高分辨率相机拍摄细胞核图像。然后利用机器学习方法对核图像进行分类识别。最后，检测细胞中DNA的相对含量，发现异常细胞，为诊断提供信息。对于DNA倍性分析来说，分析重叠核是非常重要的。然而，由于重叠核样本较少，很难收集到足够多的重叠核图像来学习良好的分类器。因此，重叠核图像的数量远少于其他类别的图像，导致训练数据集不平衡的问题[4，5］．

大多数使用不平衡数据学习的分类器在训练数据较少的情况下对样本进行分类时表现出较差的性能。来自少数阶级的样本被来自多数阶级的样本淹没了。针对这一问题已经提出了许多方法，这些方法主要可以分为两类。第一类工作在数据级，包括重采样[6，7]和特征选择方法[8];第二个是在算法层面，包括对成本敏感的[9]及单班学习[10］．重采样包括欠采样(从多数类中移除样本)和上采样(为少数类创建新的样本)。最著名的方法是合成少数过采样技术(SMOTE) [11，在已有的少数类样本中进行插值，生成新的少数类样本。但传统的打击方式存在盲目性，无法解决失衡问题。后续研究人员已经做出了许多改进，其中一些例子是SDSMOTE [12], GASMOTE [13], ECO-Ensemble [14]和WK-SMOTE [15］．在算法层面，代价敏感的基于学习的方法考虑了与误分类样本相关的代价，如代价敏感的adaboost算法[16]及AdaCost [17］．基于集成学习的方法结合来自个体学习者的强度，并在个体和集成水平上处理类不平衡问题，其中一些例子是boosting算法[18，19]及套袋算法[20.，21］．此外，研究人员还将重采样方法与学习算法方法相结合来处理类不平衡数据集，如PcBoost [22]，CSFSG算法[23]、HSDD方法[24]，以及GADBSM方法[25］．有很多方法可以利用主动学习来解决班级失衡问题，如贝叶斯主动学习方法[26]及KA-SVM [27)方法。

然而，这些方法只能从现有的样本中学习，而不能获得现有样本中包含的以外的类信息。对于细胞分类中的不平衡数据，一方面，重叠细胞由单个细胞构成;另一方面，我们可以很容易地收集大量的单细胞图像。如果我们能在图像数据域中模拟产生重叠图像的过程，就能产生足够接近真实图像的重叠细胞图像，用于特征提取和模型训练。因此，我们提出了一种利用单细胞图像合成重叠核图像的新方法。

本文提出了一种利用形成重叠核图像的先验知识合成重叠核图像的新方法。该方法首先选取双细胞图像，经过旋转和分割后合成新的重叠细胞核图像。为了使合成的细胞尽可能接近真实的细胞，本文提出的方法考虑了三个方面。为了保证合成细胞具有代表性，我们选择典型的单细胞图像作为源图像。为了避免合成数据的过度积累，我们引入了细胞旋转角度和重叠长度的随机性。为了使重叠部分更接近真实部分，我们根据比尔-朗伯定律对重叠部分的像素进行重构[28，29］．实验结果表明，将合成的重叠细胞图像添加到少数类别后，包括多层感知器(MLP，又称人工神经网络)在内的三种分类器的准确率都得到了提高[30.]、支持向量机[31]，以及高斯混合模型[32］．该方法也优于四种典型方法(欠采样[33], upsampling [11),演算法(34和randomForest [35在解决失衡问题上很受欢迎。

2.的方法

由于有大量的单细胞图像可用，我们可以用两个单细胞图像合成双细胞图像;即可以用一个双细胞图像和一个单细胞图像合成一个三细胞图像。类似地，我们总是可以合成a (我 + j)单元格图像我-单元格图像和j细胞图像。

图像合成过程如图所示1．在选择模块中，选择具有代表性的样本，以避免冗余。然后将选定的两幅图像分别以随机角度旋转。接下来，对双单元图像进行分割，去除单元背景。最后，将分割后的两部分进行重叠，形成重叠图像，并根据比尔-朗伯定律对重叠部分的像素进行重构。

合成过程如图所示2．为了获得一个4细胞的图像，选择一个单细胞的图像和一个3细胞的图像。经过旋转、分割和轮廓提取后，将两个细胞部分重叠，生成新的重叠细胞图像。

2．1．随机性的介绍

采用随机性保证生成的重叠细胞的多样性。首先，旋转角度是随机生成的。然后，在期望范围内随机产生重叠长度。均匀随机数由线性随机同余法生成[36］．基本递归公式为(1)：在哪里为初始值，乘法器,是增量，和模量。它们都是非负整数。

2．2.图片的选择

图像选择(37]的目的是确保所选图像具有代表性。一种可行的方法是防止类似图像被重复使用。在选择细胞图像生成新的重叠图像时，需要选择能准确反映较大实体的代表性样本。为了使合成的样本更具代表性，需要对细胞图像进行样本选择。算法1用于图像选择。在哪里为单元图像的特征维数。P初始样本集是多少问为选择后的样本集。T阈值是两个样本的平均距离吗P,是所有样本的欧氏距离。表示样本的特征向量．

1：输入：，
输出：
2：初始化
；；
3：开始
4：为每一个
；，在哪里；
；
；
5:如果
6:
7:其他的
；；
8:Endif
9：Endfor
10：结束

2．3.图像旋转与分割

图像旋转是指用质心旋转图像作为中心点。给定双单元图像，当使用不同的旋转角度时产生不同的重叠单元图像。合成的重叠单元图像可以涵盖更多条件以确保多样性。

用于合成的原始图像包含背景，在合成之前应该被移除。在本文中，使用阈值分割方法来定位小区区域。在该方法中，灰度值小于阈值的像素属于核区域;否则，像素属于背景区域。分割公式呈现为（2)：在哪里为分割阈值，图像中的灰度值是多少为分割后对应的灰度值。将直方图的谷点设置为初始阈值。

图像分割后，得到细胞核轮廓。通过去除细胞图像的背景，提取细胞区域。这个过程如图所示3.．

2.4。随机重叠长度

重叠的细胞有一个共同的区域。我们用重叠长度来描述重叠的程度。当一个核区域与第二个核区域相切时(如图所示)4(a)、价值d是零。这里，重叠长度是受（为两个核区域的最小宽度值)。两个黑色矩形的重叠长度(如图所示)4(b)为由(1)．

2．5．重叠区域的像素重建

重叠操作后细胞的非重叠区域保持不变。但是，重叠区域太暗，与真实细胞图像不一致。因此，有必要对重叠区域的灰度值进行重建。首先，我们需要找到重叠的区域。具体步骤如下:(1）求最小的叉和垂直坐标，的最大水平和垂直坐标，根据单元格区域中所有点的坐标，和点和分别为核区域内最小边界矩形的左上角和右下角坐标。用同样的方法得到最小的边界矩形(如图中的两个黑色矩形)5)，两个矩形相交于和(点和在图5)．(2)的长度添加的2个点是宽度，矩形的高度是新的高度;使用这些工具，将构建一个新的搜索区域(例如图中的红色矩形)5)．(3）遍历非白色部分搜索区域中的每一个像素。如果这个点在第一个轮廓线内，同时在第二个轮廓线内，那么这个点就被确定为需要重建的点。（4)搜索所有需要重建的像素点，所有点组成一个重建像素集。(5）重构像素集中的像素通过(7)．

由于两幅图片是在同一背景图像中操作的，因此背景和源图像中的位置需要进行坐标变换。如图所示6，假设背景是矩形，源图像是矩形．点的位置是什么在，点的位置是什么在，和点的位置是什么在．位置变换的公式为(3.)：

(3.），在源图像的重叠区域中获得点坐标，然后可以获得相应的像素值。

根据比尔-朗伯定律[24，25，则可以推断出重叠区域的像素灰度值。首先将点的灰度值转换为光密度值，然后进行光密度累积。最后，将光密度值转换为灰度值。在重叠的单元图像中不能直接添加灰度值。由于吸光度代表胞体材料的量，所以重叠部分的吸光度可以被叠加。因此，需要对重叠区域的灰度值进行转换。对于两个重叠单元，灰度值与光密度的关系可以建模为: 在哪里为背景的平均灰度值(是阈值),表示第一个单元格中的灰色值为第二个单元格中的灰色值。和为相应的光密度值。

当两个单元中的两点重叠时，光密度满足以下相加关系: 在哪里是重叠点对应位置的新光密度，和为交叠点处新的灰度值。根据(6)，则可计算出新的灰度值

如图所示7，可以看出合成的重叠区域比真实的重叠区域暗。重建后，重叠区域看起来更自然。

3.结果

3．1.实验

DNA倍性分析系统主要用于疾病细胞和癌症细胞的鉴定和分析。为了获得真实的数据，样本由黑龙江省玛丽亚妇产医院的工作人员采集。收集300例患者的细胞样本。每个病人的细胞被涂片，然后Feulgen染色。然后将载玻片置于显微镜下，显微镜自动拍摄细胞图像。然后，DNA倍性分析系统将细胞图像分割为单细胞图像或重叠细胞图像。最后，细胞病理学医生手工将每个细胞图像分为8类，分别是单个典型上皮细胞、单个非典型上皮细胞、两个上皮细胞、三个上皮细胞、四个或四个以上的上皮细胞、单个淋巴细胞、单个中心粒、两个或两个以上的中心粒。每个类的这些细胞图像是典型的不平衡的例子。类1、2、3、4和6中的单细胞图像数量非常大，而其他类的单细胞图像数量非常小。我们的任务是用单细胞图像合成第4、5、7和8类的重叠样本。 First of all, we need to select representative samples from classes 1, 2, 3, and 6. The cells in classes 1, 2, 3, 4, and 6 are used to synthesize new overlapping images, and the images of these classes need sample selection. The original data in the experiment are extremely unbalanced. In order to show the influence of the imbalance data on the accuracy rate, the number of testing samples is 2000 in each class. There are 8 types of cell images in total, and classes 3, 4, 5, and 8 have small number of training samples. Experiments are performed by adding synthesized cell data to these classes (i.e., classes 3, 4, 5, and 8) to make the data more balanced. In the experiments, the synthesized data are added into the training set gradually to make it more and more balanced.

选取了多层感知器(MLP)、支持向量机(SVM)和混合高斯模型(GMM)三种常用分类器对该方法进行评价。用不同数量的新训练集对分类器进行训练，并比较了它们的性能。在神经网络训练中，隐藏节点为100，迭代次数为200。将训练中的最小误差设为0.1。变换特性数为5。初始化多层感知器的随机种子值为20。在SVM分类器中，变换参数的个数为80。核类型为rbf，分类器模式为1对1。在高斯模型分类器中，预处理类型是一个值为100的归一化预处理参数(变换特征个数)，用于表示其变换特征。随机化器生成的种子值为42。

3．2．特征提取

首先根据细胞图像的特征提取45个维特征，然后选择28个维特征进行分类。选定的特征包括20个形态特征[38]和8个纹理特征[39］．它们对于分类中区分8种类型的细胞图像是必不可少的。20个形态学特征用于描述细胞的形状和大小，包括面积、圆度、距离、sigma、边、圆度、凸度、我_一个(质心的坐标x轴),我_b(质心的坐标y轴),米₁₁，米₀₂，米_20.、紧实度、ContLength、直径、半径、矩形度、各向异性、体积和StructureFactor [38］．这8个文本特征包括对比度、能量、同质性、相关性、熵、各向异性、均值和偏差[39］．一些典型的形态特征可由(8), (9), (10), (11), (12), (13), (14)和(15)，以及两种典型的纹理特征，即均值和偏差可表示为(14)和(15)．在哪里表示单元格区域像素的平均值，和像素值是否为点在细胞区域内。在哪里和的像素值的和的平均值x和y分别的核轴。为核中每个像素的平均值。在哪里为像素的灰度值(x, y),是图像的像素数。

对于每个细胞图像，提取用于分类的28个特征如表所示1．


类	1	2	3.	4	5	6	7	8
细胞图像

IOD的	89.610977	71.606436	180.15888.	272.85886	470.77552.	76.777616	86.473958	940.99801
区域	837	447	1341	1705	1805	289	299	2910
循环	0.7921	0.480011	0.461493	0.382338	0.479377	0.920065	0.654806	0.510143
圆度	0.903653	0.727129	0.68578	0.640621	0.732710	0.944292	0.812886	0.722639
半径	18.718845	17.566048	30.722118	37.70215	33.625638	10.377715	12.087826	41.920397
偏差	0.056678	0.096081	0.080454	0.090358	0.173582	0.159820	0.180099	0.18441
意思	0.642317	0.57354	0.6061	0.573193	0.482879	0.470737	0.457682	0.430258
σ	1.475920	3.135578	6.373434	8.491296	6.312004	0.474985	1.634735	8.020041
对比	1.593787	6.369128	2.674124	2.777126	9.373961	16.356402	15.341137	12.716838
凸性	0.974389	0.959227	0.90303	0.830088	0.827602	0.969799	0.934375	0.812395
庞大	1.002132	1.001983	1.051246	1.223468	1.161857	1.000329	1.045995	1.132826
StructureFactor	0.283446.	1.125497	1.343892	1.689330	0.973999	0.049896	0.463667	0.815918
	71551.46	33796.029	335417.10	622132.67	511789.63	6978.0203	10412.977	1223692.3
	43622.82	7510.4405	67471.275	128759.63	177297.55	6334.6855	5318.0129	476218.75
	−0.018070	−0.054505	−0.073719	0.084856	0.049427	0.001029	0.007442	−0.039142
	0.073786	0.140186	0.122783	0.129873	0.119612	0.083408	0.060474	0.120763
	0.073786	0.066543	0.101258	0.128430	0.091892	0.075985	0.115486	0.079980
能源	0.023546	0.008648	0.011273	0.011569	0.003225	0.004424	0.005000.	0.002741
相关	0.941807	0.920241	0.950388	0.959477	0.962070	0.925055	0.943140	0.954548
均匀性	0.601926	0.313502	0.511144	0.515849	0.315213	0.239775	0.322485	0.306934
熵	5.706993	6.248901	6.224919	6.415742	7.111077	6.711657	6.795570	7.259227
各向异性	−0.525847	−0.510334	−0.537583	−0.514221	−0.514942	−0.490626	−0.499718	−0.499788
密实度	1.108596	1.311802	1.633726	1.912168	1.913056	1.028384	1.198749	2.272140
ContLength.	107.9827	85.840620.	165.92388	202.40916	208.30865	61.112698	67.112698	288.24978
直径	36.359318	34.132096	60.440053	74.404301	64.412732	19.646883	23.021729	82.800966
矩形	0.801250	0.800937	0.793462	0.646409	0.707792	0.804348	0.771812	0.678742
距离	15.318871	11.491077	20.283375	23.627692	23.614855	8.526281	8.736569	28.915494
国	4.261805	2.606224	2.438174	2.288309	2.631792	5.520584	3.114689	2.586205
NumRuns	32.000000	32.000000	52.000000	62.000000	67.000000	20.000000	18.000000	91.000000
MeanLength	26.156250	13.968750.	25.788462	27.500000	26.940299	14.450000	16.611111	31.978022

3．3.评估标准

对于多类问题，我们假设类已经被标记标签的顺序不反映类的任何内在顺序。根据表中所示的混淆矩阵获取分类结果2．它们的总准确度是通过(16)．每个类别的召回率计算于(17)，而g均值可通过(18)．在哪里表示类的标签，和表示来自班级的样本数预计是上课吗在(18)．大于2。


		预测类
				．..

实际的类				．..
				．..
	．..	．..	．..	．..	．..
				．..

3．4．结果

各类训练的图像数如表所示3.．将合成的细胞图像添加到训练数据中，使其更加平衡。表中比较了三种分类器的准确率4给出了条件、不平衡比(最大类与最小类的样本数之比)、正确率、g均值，并比较了合成细胞不充分训练和充分训练的实验结果。表中的条目按照不平衡比例降序排序，即训练数据逐渐趋于平衡。


类								不平衡率	条件
1	2	3.	4	5	6	7	8	不平衡率	条件

20，000	20，000	200	200	200	20，000	20，000	200	100．0	1
20，000	20，000	500	500	500	20，000	20，000	500	40．0	2
20，000	20，000	1000	1000	1000	20，000	20，000	1000	20.0	3.
20，000	20，000	2000	2000	2000	20，000	20，000	2000	10．0	4
20，000	20，000	4000	4000	4000	20，000	20，000	4000	5.0	5
20，000	20，000	6000	6000	6000	20，000	20，000	6000	3.3.	6
20，000	20，000	8000	8000	8000	20，000	20，000	8000	2．5	7
20，000	20，000	10,000	10,000	10,000	20，000	20，000	10,000	2．0	8
20，000	20，000	12，000	12，000	12，000	20，000	20，000	12，000	1.7	9
20，000	20，000	14000年	14000年	14000年	20，000	20，000	14000年	1.4	10
20，000	20，000	16，000	16，000	16，000	20，000	20，000	16，000	1.3.	11
20，000	20，000	18，000	18，000	18，000	20，000	20，000	18，000	1.1	12
20，000	20，000	20，000	20，000	20，000	20，000	20，000	20，000	1.0	13


条件	不平衡率	精度(%)			G-mean
条件	不平衡率	中长期规划	支持向量机	GMM	中长期规划	支持向量机	GMM

1	100．0	75.58	71.68	62.05	0.7280	0.6932	0.5486
2	40．0	77.24	74.02	64.29	0.7496	0.7021	0.5776
3.	20.0	79.73	75.18	65.01	0.7799	0.7318	0.5841
4	10．0	80.77	77.61	69.73	0.7912	0.7598	0.6570
5	5.0	81.49	78.57	74.15	0.7994	0.7696	0.7229
6	3.3.	82.33	79.64	74.58	0.8102	0.7820	0.7272
7	2．5	82.47	79.92	75.28	0.8106	0.7845	0.7363
8	2．0	82.30	79.93	74.79	0.8086	0.7846	0.7314
9	1.7	82.43	80.70	75.69	0.8097	0.7816	0.7404
10	1.4	82.88	80.31	75.49	0.8167	0.7903	0.7379
11	1.3.	83.38	81.03	75.98	0.8225	0.7979	0.7427
12	1.1	83.93	80.47	76.33	0.8290	0.7913	0.7470
13	1.0	83.87	80.65	76.39	0.8292	0.7931	0.7484

如表所示4，当不平衡比为100时，使用未添加合成样本的原始数据进行训练。这三种分类器的准确率最低。随着不平衡比的减小，精度增加。当不平衡比为1时，即所有类的样本数相同时，三个分类器的性能优于1，准确率分别提高了8.29%、8.97%和14.34%;g均值分别达到0.8292、0.7931和0.7484。准确率和g均值分别在图中小班分布比例范围内变化8．

3.5。与其他方法进行比较

四种方法，即提出的方法、上采样[11],欠采样[33，以及adaboost方法[34)进行了比较。该方法可以看作是一种上采样方法，在图像数据域中模拟生成重叠图像的过程。在上采样方法中，基于特征空间的SMOTE中的新特征[11生成。在欠采样方法中，将训练数据划分为聚类。然后，根据多数类样本与少数类样本的比例，从每个类中选取多数类样本的代表性数据。Adaboost是一种迭代算法，它在每个迭代中对训练分布施加不同的权重。在每次迭代后，分类器分别增加与错误分类的例子相关的权值和降低与正确分类的例子相关的权值。这迫使学习者在下一个迭代中更多地关注分类错误的示例。

所提方法、欠采样方法和上采样方法采用MLP分类器，而adaboost方法采用adaboost算法。在adaboost分类器中，迭代次数为50次，学习率为1.0。混淆矩阵可以显示预测结果与原始单元类之间的关系。使用混淆矩阵对4种方法分类精度的评价结果如图所示9．

从图中可以看出9，在本方法中，3个上皮细胞(第4类)和4个及以上上皮细胞(第5类)的准确率分别为62.2%和66.3%。相比之下，4类和5类的正确率在欠采样法中分别为40.3%和52.1%，在上采样法中分别为43.9%和55.1%，在adaboost法中分别为53.3%和76.4%。第4类和第5类图像由于重叠情况不同和细胞数重叠，难以分类。综上所述，本文方法的性能最好，而adaboost方法的性能最差。

根据文献，当重采样方法与学习算法相结合时，可以获得较好的性能。因此，我们选择randomForest算法[35训练模特。randomForest属于集成学习方法，它将多个决策树分类器适合于数据集的各种子样本。该方法还采用了一个平均值，以提高预测精度和控制过拟合。我们将上采样方法与randomForest方法相结合，本文方法与adaboost方法相结合，本文方法与randomForest方法相结合。在randomForest分类器中，迭代次数为60次，每棵树的最大深度为3次，最小样本叶数为20次，最大特征值为“√”。

从图中可以看出10，两种方法的组合比单一方法的精度更高。第3类的准确率仅为10.5%，这在randomForest方法中是极不正常的，而第8类的准确率仅达到50%，相对于除第3类外的其他6类来说相对较低。而在上采样+ randomForest方法中，第3类的正确率为95.8%，第8类的正确率为78.8%。从所提+ adaboost方法的混淆矩阵来看，该方法不适合处理所提方法产生的均衡数据。最后，在提出的+ randomForest方法中，每个类的准确率都很好，8个类中最低的准确率为80.3%。因此，本文提出的+ randomForest方法是4种混合方法中性能最好的。

虽然混淆矩阵可以详细说明每种类型的cell的准确率，但不能直接显示总体的正确性、g均值等。数字11显示所有8种方法的结果。

从图中可以看出11，随机纲要方法的准确性最高，但G-均值远非准确度的值。显而易见的是，随机的方法不适合处理不平衡数据，并且更多地关注多数类的样本，忽略少数阶级的样本。因此，提出的方法有效地解决了不平衡问题。至于提出的+随机速率方法，精度接近G-均值，而它们高于其他方法的那些，除了随机的方法。所提出的方法的准确性和G平均值小于所提出的+随机纲要的方法。精度高，但G均值在提出的+ Adaboost方法中相对较低，因此它对不平衡数据也更糟糕。总之，通过所有评估标准判断，所提出的+随机速率方法已经实现了最佳性能。

事实上，通过调整学习算法的参数，分类器可以获得更好的效果。表格5显示参数变化时的结果范围。adaboost和randomForest中使用的数据是用该方法合成的。


演算法		精度	G-mean	RandomForest	精度	G-mean
迭代数	学习速率	精度	G-mean	迭代数	精度	G-mean

50	1	0.6327	0.4080	10	0.8016	0.7885
80	1	0.6485	0.5595	30.	0.8142	0.8022
One hundred.	1	0.6354	0.5609	40	0.8977	0.8951 - 0.8935
120	1	0.5902	0.5255	50	0.8935	0.8914
150	1	0.5849	0.4602	60	0.8973	0.8948
80	0．8	0.7045	0.6241	80	0.8928	0.8894
80	0．7	0.7406	0.6214	One hundred.	0.8940	0.8916
80	０．６	0.7232	0.5777	120	0.8249	0.8157
80	0．5	0.7682	0.6260	150	0.8949	0.8923
80	0．4	0.7767	0.6601	200	0.8937	0.8910

从表中可以看出5在Adaboost算法中，当迭代号增加时，精度和G平均值下降。当迭代号为0.4时，精度最高。但是，当学习速率低时，算法可能会导致更多错误。当迭代号为80并且学习率为0.8时，分类器执行其最佳状态。随机速率方法的准确性和g平均值显示出从10到60增加的迭代号的向上趋势。当迭代号从60到80增加时，精度会降低。当迭代号为100时，随机速率算法执行最佳，因为精度和G均值的值均相对较高。

4。结论

总之，我们提出了一种综合重叠细胞图像来解决不平衡数据问题的新方法。该方法通过利用先验知识来模拟重叠单元的产生。在该方法中，首先选择代表性图像，然后随机旋转图像。之后，两个分段的细胞部件重叠，最后重新构造重叠部分。引入样本选择和随机性，使合成的图像更具代表性。新图像被添加到培训样本中进行模型培训。实验表明，该方法大大提高了细胞分类的准确性。精度从75.58％提高至83.93％，G均值从0.7280提高到0.8292。当我们将合成方法与随机速率算法结合时，精度达到约89.7％，G均值约为0.895。利用所提出的方法，可以生成大量图像。 It is an interesting topic to select synthesized samples according to the performance of classification. In the future, we will focus on the task to select representative synthesized samples with the active learning method.

数据可用性

用于支持本研究发现的数据可由通讯作者要求提供。

利益冲突

作者声明他们没有利益冲突。

参考文献

T. C. Wright，M. H. Stoler，C. M. Behrens，A. Sharma，G. Zhang和T. L. Wright，“原发性宫颈癌筛选与人乳头瘤病毒：使用HPV作为一线筛选试验的雅典娜研究的研究结果结束，”妇科肿瘤第136期2, pp. 189-197, 2015。视图:出版商的网站|谷歌学术搜索
V. Viswanathan和S. Vineetha，“使用微阵列分析和基因调控规则的宫颈癌早期检测”2016国际新兴技术趋势会议(ICETT)， 1-6页，Kollam，印度，2016年10月。视图:出版商的网站|谷歌学术搜索
V. Nandakumar, P. H. Prasad，和V. S. Sheeba，“使用DNA倍性分析检测恶性肿瘤的支持向量机方法”，在2014年第四届国际计算与通信进展会议，第138-142页，印度科钦，2014年8月。视图:出版商的网站|谷歌学术搜索
M. Krstic和M. Bjelica，《班级失衡对个性化项目指导表现的影响》，IEEE消费电子学报第61卷第1期1, pp. 90-95, 2015。视图:出版商的网站|谷歌学术搜索
C. Mera和J. W. Branch，“自动视觉检查对班级不平衡学习的调查”，IEEE拉丁美洲学报，第12卷，第2期4，pp。657-667,2014。视图:出版商的网站|谷歌学术搜索
R. J. Oskouei和B. S. Bigham，“在严重不平衡的数据中，通过不足抽样而产生的过度抽样”，国际高级智能范式杂志，第9卷，第5期。1，页58-66,2017。视图:出版商的网站|谷歌学术搜索
A. Nasonov, A. Krylov，和K. Chesnakov，“一种使用组合方向核的图像重采样方法”2016第六届欧洲视觉信息处理研讨会(EUVIP)2016年10月，法国马赛。视图:出版商的网站|谷歌学术搜索
V. Bolón-Canedo, K. Sechidis, N. Sánchez-Marono, A. Alonso-Betanzos，和G. Brown，“探索DNA微阵列数据中分布特征选择的后果”，在2017国际神经网络联合会议（IJCNN）安克雷奇，AK，美国，2017年5月。视图:出版商的网站|谷歌学术搜索
N. Thai-Nghe, Z. Gantner，和L. Schmidt-Thieme，“不平衡数据的成本敏感学习方法”，在2010年国际神经网络联合会议(IJCNN)，第1-8页，西班牙巴塞罗那，2010年7月。视图:出版商的网站|谷歌学术搜索
L. Swersky, H. O. Marques, J. Sander, R. J. G. B. Campello, and A. Zimek，“关于离群点检测和一类分类方法的评估”，刊于2016 IEEE数据科学与高级分析国际会议(DSAA)，pp.1-10，蒙特利尔，QC，加拿大，2016年10月。视图:出版商的网站|谷歌学术搜索
N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer， " SMOTE:合成少数民族过采样技术"，人工智能研究杂志，第16卷，第5期。1，页321-357,2002。视图:谷歌学术搜索
李凯，张伟，陆青，方旭东，“一种基于支持度的改进的SMOTE不平衡数据分类方法”2014物联网识别、信息与知识国际会议2014年10月，中国北京。视图:出版商的网站|谷歌学术搜索
顾青，王新民，吴志明，宁斌，王志生。Xin，“一种基于遗传算法的非平衡数据分类的改进SMOTE算法”，数字信息管理学报第14卷第2期2, pp. 92-103, 2016。视图:谷歌学术搜索
P. Lim, C. K. Goh和K. C. Tan，“进化的基于聚类的合成过采样集成(ECO-Ensemble)用于不平衡学习，”IEEE控制论汇刊，第47卷，第47期。9、pp. 2850-2861, 2017。视图:出版商的网站|谷歌学术搜索
罗明辉，“基于支持向量机核空间过采样的不平衡数据分类”，《中国科学:信息科学》，2014年第4期。神经网络与学习系统,没有。99, pp. 1-12, 2017。视图:出版商的网站|谷歌学术搜索
杨志喜，杨建军，童伟，“基于代价敏感指数损失函数的多类代价敏感AdaBoost算法”，《计算机科学》，20152017第二十九届中国控制与决策会议(CCDC)2017年5月，中国重庆。视图:出版商的网站|谷歌学术搜索
W. Fan, S. J. Stolfo, J. Zhang, P. K. Chan，“AdaCost:错误分类成本敏感的激励”，载于第十六届国际机器学习会议ICML ' 99论文集，第97-105页，美国加利福尼亚州旧金山，1999年6月。视图:谷歌学术搜索
M. Korytkowski, L. Rutkowski，和R. Scherer，“通过增强模糊分类器快速图像分类”，信息科学， vol. 327, pp. 175-182, 2016。视图:出版商的网站|谷歌学术搜索
T. Chen和C. Guestrin，“XGBoost:一个可扩展的树增强系统”kdd'16第22届ACM SIGKDD关于知识发现和数据采矿会议的课程，第785-794页，旧金山，加州，美国，2016年8月。视图:出版商的网站|谷歌学术搜索
J. M. Drake，“范围套袋:一种从仅存在数据建立生态位模型的新方法”，英国皇家学会界面杂志，第12卷，第2期107, article 20150086, 2015。视图:出版商的网站|谷歌学术搜索
C. Bergmeir, R. J. Hyndman, J. M. Benítez，“使用STL分解和Box-Cox变换的Bagging指数平滑方法”，国际预测杂志，第32卷，第2期2，pp。303-312,2016。视图:出版商的网站|谷歌学术搜索
E. Codina, A. Marín和F. López，“在拥挤情况下设置辅助公交线路服务的模型”，前第21卷第2期1，第48-83页，2013。视图:出版商的网站|谷歌学术搜索
卞建军，彭学刚，王勇，“一类不平衡问题的高效代价敏感特征选择，”工程数学问题， 2016年，第8752181篇，9页，2016年。视图:出版商的网站|谷歌学术搜索
M. Maruf Özturk和a . Zengin，“HSDD:缺陷预测数据集中类不平衡的混合抽样策略”，刊于2016第十一届数字信息管理国际会议(ICDIM)，第60-69页，葡萄牙波尔图，2017年9月。视图:出版商的网站|谷歌学术搜索
杨志强，“基于混合抽样方法的类不平衡问题的参数自动调整”，《中国机械工程学报》，20162016国际计算机科学与工程会议(ICSEC)，第1-5页，清迈，泰国，2017年12月。视图:出版商的网站|谷歌学术搜索
Y. Gal, R. Islam, Z. Ghahramani，“图像数据的深度贝叶斯主动学习”，2017，http://arxiv.org/abs/1703.02910．视图:谷歌学术搜索
甘杰，李安，秦丽。2 .雷鸿仁，杨元庆，“基于主动学习的支持向量机的K-means方法”2017 IEEE/ACIS第16届计算机与信息科学国际会议(ICIS)，中国武汉，2017年5月。视图:出版商的网站|谷歌学术搜索
D.卡洛维，《比尔-兰伯特定律》化学教育杂志，卷。74，没有。7，p。744,1997。视图:出版商的网站|谷歌学术搜索
R. W. Ricci, M. Ditzler，和L. P. Nestor，《发现比尔-朗伯定律》化学教育杂志，第71卷，第71期第11页，1994年。视图:出版商的网站|谷歌学术搜索
I. N. da Silva, D. Hernane Spatti, R. Andrade Flauzino, L. H. B. Liboni, and S. F. dos Reis Alves，“多层感知器网络”，in人工神经网络，施普林格，Cham, 2017。视图:出版商的网站|谷歌学术搜索
A. S. Nugroho, A. B. Witarto，和D. Handoko，“支持向量机”，在化学中的支持向量机，第24-52页，化学支持向量机，2016。视图:出版商的网站|谷歌学术搜索
S. Jafari, S. C. Sprott, S. M. R. Hashemi Golpayegani，和F. Almasganj，“混沌生物系统参数估计的高斯混合模型”，非线性科学与数值模拟通讯，第20卷，第2期。2, pp. 469-481, 2015。视图:出版商的网站|谷歌学术搜索
S. B. Kotsiantis和P. E. Pintelas，“处理不平衡数据集的专家代理的混合物”，数学、计算和远程信息学年鉴， vol. 1, no. 11，页46-55,2003。视图:谷歌学术搜索
黄永发。金,B.-G。Kwon J.-Y。金,D.-J。康，“结合弱分类器提高adaboost算法性能的方法”2008年基于内容的多媒体索引国际研讨会，第357-364页，伦敦，英国，2008年6月。视图:出版商的网站|谷歌学术搜索
M. Ibrahim和M. Carman，“比较基于随机森林的学习排序的点和列表目标函数”2008年基于内容的多媒体索引国际研讨会2016年6月，英国伦敦。视图:出版商的网站|谷歌学术搜索
V. Brattka, J. S. Miller，和A. Nies，《随机性和可微性》，美国数学学会学报，第368卷，第2期1, pp. 581-605, 2016。视图:出版商的网站|谷歌学术搜索
王伟，《最大多样性的样本选择》，载《中国生物多样性研究》第七届IEEE数据挖掘国际会议(ICDM 2007)，第262-271页，美国东北奥马哈，2007年10月。视图:出版商的网站|谷歌学术搜索
G. M. Cohen, X. M. Sun, R. T. Snowden, D. Dinsdale, D. N. Skilleter，“细胞凋亡的关键形态学特征可能发生在核小体间DNA片段缺失的情况下，”生物化学杂志第286卷第2期2，第331-334页，1992。视图:出版商的网站|谷歌学术搜索
M. E. pl变迁，C. Nikou和A. Charchanti，“结合形状、纹理和强度特征在巴氏涂片图像中提取细胞核”，模式识别的字母，第32卷，第2期6，第838-853页，2011。视图:出版商的网站|谷歌学术搜索

分析细胞病理学

抽象的