增加少数召回不平衡数据分类支持向量机模型

文摘

不平衡数据分类是数据挖掘和机器学习获得的重要性。少数类召回率需要特别治疗在医学诊断等领域,信息安全,工业和计算机视觉。本文提出了一种新的策略和算法基于厂商支持向量机来提高少数类召回率为1,因为误分类甚至几件样品可以造成严重损失的一些物理问题。在拟议的方法,修改采用保证金赔偿保证金不平衡,使决策边界漂移。边界达到一定位置时,少数类样本实现的要求将更为广义的召回率1。在实验中,不同的影响参数对算法的性能进行了分析,和最优参数对召回率的测定。实验结果表明,不平衡数据分类问题,传统的成本分类方案和模型分类使用接受者操作特征曲线下的面积标准很少产生结果如召回率1。新战略可以产生少数回忆1对不平衡数据的多数类的损失是可以接受的;此外,它提高了 - - - - - -意味着指数。该算法提供了优越的性能与传统的方法相比,少数召回。该方法具有重要的现实意义在信用卡欺诈、医学诊断等领域。

1。介绍

不平衡数据分类是数据挖掘和机器学习获得的重要性(1- - - - - -3]。不平衡在一个特定的数据集时在一个类实例的数量(少数类)显著低于在其他类(大多数类)。少数类通常是数据分类的兴趣;因此,它被认为是一个积极的(+)类,而多数类被认为是消极的(−)类(4,5]。例如,在医学领域,如有更多兴趣疾病样本比健康样品,这种疾病占少数类样本。传统的机器学习模型主要考虑两类的准确性同样重要的是,即,they do not consider the accuracy of some categories to be more important than that of other categories, particularly when the sample size of the minority category is small [6,7]。虽然这些模型已成功应用于各种平衡数据分类问题,他们的表现大幅减少当应用于不平衡数据集(8- - - - - -10)由于缺乏足够的训练数据正类,必须执行一个准确分类的实例。为了解决这个问题,积极的课堂一个数据集已经吸引了更多的关注11),和传统分类器发生了许多改进为了能够处理不平衡数据的应用程序。

在某些应用程序中,宽容错误的积极类是极低的。例如,在工业系统故障诊断的情况下(12),分类器必须处理一个不平衡的数据集,即。,the number of available healthy class instances outnumbers the faulty class ones. Accordingly, it is necessary to develop a classifier that accounts for this type of imbalanced data distribution and warns of all possible failures, even if there may be many false-warning occurrences. Credit card fraud detection is a well-known classification problem [13]。为了一个特定的目标客户细分,银行使用数据挖掘算法分类的客户买家和买春。在这种情况下,如果一个模型正确地检测到一个潜在客户的活动,将会有一个特定的利润获得相关客户;如果不确定一个潜在买家,获得的利润将他/她可能会丢失。然而,如果一个潜在的nonbuyer标识作为买家,会发生信用卡诈骗,导致银行潜在的巨额损失。同样,100%的召回模型可以减少一些利润,但没有信用卡欺诈风险事件。此外,未能诊断恶性病变是不可接受的,可以给病人造成毁灭性影响,虽然这种情况很少发生14]。一般来说,分类器只是作为援助手册诊断,这意味着分类器只能诊断病人患癌症的风险,并提供一个人工判断。有灾难性的后果如果分类器错过任何可能有癌症的病人。厂商在这项研究中,我们开发了一个支持向量机(SVM)模型来增加一个积极的回忆从一个实际背景样本到100%。基于这个模型,我们提出了一个媒介算法策略来增加positive-class召回率为1。我们介绍了不同的惩罚因子,即C⁺和C⁻积极和消极的,对于每一个SVM训练过程中松弛变量和调整分类边界通过改变positive-class保证金。这种方法确保positive-class样品会更广义实现目标召回率1时达到一定的边界位置。参数选择,我们采用网格搜索方法和模型选择与召回为负类100%和更高的特异性。采用支持向量机模型解决数据不平衡,表现出一个可接受的性能15- - - - - -21]。

我们的研究作出贡献,因为我们能够确认(1)增加100%的召回率是一个可行的分类指标;(2)边界的决定可以改变成功纠正积极利润率;和(3) - - - - - -意味着增加当召回率增加到1在一些数据集。实验结果表明,这些优势提高positive-class分类性能在更大程度上比之前的研究。

本文的其余部分组织如下。节2简要回顾了国内外厂商的支持向量机模型。节3厂商提出的模型,介绍了提高召回率的积极类。部分4描述了测试执行使用实际数据的新方法。最后,部分5讨论并总结了该方法的优点和缺点,并建议未来的研究方向。

在本节中,我们将简要讨论不同的不平衡数据集的分类问题。现有的不平衡数据的分类方法大致可以分为两类(22,23:数据级和algorithm-level方法(24- - - - - -27]。我们将首先讨论的最有效方法,然后讨论这些提议的方法的优点和局限性。

数据级的方法,也称为抽样方法(28),通常包括数据预处理。这些方法平衡高度倾斜类分布使用各种重采样方法,如采样过密的正面实例和欠采样的负面情况下,有时,这两种方法相结合(29日]。平衡数据集的最简单的方法是欠采样(随机或有选择地)多数类,同时保持少数类的原始数据。然而,该方法结果在多数类的信息丢失30.]。可以使用另一种方法是过采样的少数类实例是随机复制重新平衡类分布。虽然过采样不会导致信息丢失的多数类,它可以导致过度拟合。为了解决这个问题,乔et al。31日)提出了一个方法称为合成少数(杀)来生成新的实例的过采样技术密切躺少数类样本之间的线性插值。击杀生成新的少数样本之间的插值k最近的少数类的邻居和有一个更好的分类效果比随机采样过密。然而,通过该方法生成的样本可能导致两类之间的重叠。

相比之下,使用algorithm-level方法(32,33厂商),研究人员已经能够引入学习减少分配失衡的程度高等学校成本positive-class样本(34- - - - - -36]。Algorithm-level方法直接修改学习过程来提高分类器的敏感性对少数类。这样的一个关键方法class-imbalanced学习提出了Veropoulos et al。37),使用不同的处罚常数不同的类将更高的成本分配给错误分类positive-class实例比负阶级分类实例。然而,这种方法不考虑两种类型的样本之间的距离和分类超平面。

一些研究成功地应用上述方法在几个不同的领域,例如癌症诊断(38)、情绪分析、文本分类(39]。在这项研究中,我们改进了Veropoulos的方法,修改积极的样本和分类超平面之间的距离,并开发了一个支持向量机分类算法有特殊分类的目的。

3所示。厂商支持向量机

分类的目的是将特征向量x∈X类标签 (40]。在先前的研究[41,42训练集) 是给定的,是一个实例呢n元组属于一个特定实例的属性值空间X和是一个标签。

一个标准的线性支持向量机的分类问题可以表示为受在哪里C> 0是惩罚参数。

标准支持向量机模型的分类算法的设计最大限度地减少错误的概率,假设所有错误分类有相同的成本。控制分类召回,penalty-regularized模型提出的Veropoulos et al。37)是密切检查。这个模型的核心思想是引入不平衡损失函数来调整惩罚的样本不平衡类(7)和减少偏见的分类边界向负类。通过预先确定类标签, 在哪里和表示索引设置正负类,分别。当和进行分类,不同的成本分配给两个类。标准支持向量机可以扩展受在哪里和假阴性错误的成本吗是一个假阳性的成本。是松弛变量。

在正则化模型提出的Veropoulos et al。37),权向量, ,是一个d维转置向量正常决策边界;的偏见,b是一个标量,抵消决定边界;松弛变量, ,测量的损失是用来敦促样品满足边界约束条件的优化。因此,成本价值的积极类通常高于消极类。原始对偶问题的模型是用拉格朗日乘数法如下: 受

4所示。提高少数民族记忆模型

本研究的主要目的是确定一个误分类成本价值与特殊目的使用一个特定的方法,假设所有类型的错误分类的成本不相等,无法确定错误分类的真实成本。目标是提高召回率的积极类的所有数据集100%物理问题和改善的准确性负类尽可能多。当积极的回忆是增加到1,负类的准确性可能受影响,但不显著减少,是一个可以接受的范围内。

4.1。少数样本策略来提高召回率

目前,在降低成本的学习方案,价格敏感因子通常是由一个随机时间间隔或通过使用样本类别之间的数量比例的误分类代价43]。但是,我们开发了一个类不平衡数据集的数据结构使我们能够寻找误分类代价的“特殊目的”,这是增加积极的正面的召回率为1,因为误分类样本会导致巨大的损失在物理问题。修改功能损失迫使分类算法偏向积极的类,和分类边界倾向于负类。的关键思想是调整保证金的积极类导致分类边界的转变。因为理论阈值0作为判断阈值的符号函数,只要0点左边的分类边界,尽可能多的积极类将被包括在内。利用网格搜索方法,理论阈值和分类边界调整,导致召回率1。

当数据分布如图1,使用这种方法将是有限的,因为有太多重叠类。界面调整,美国可以在不平衡数据集分类positive-class样本不仅正确,而且同时进行。此外,它可以把负类样本在重叠区域的正类样本。

4.2。提出了支持向量机模型

支持向量机使用最小化铰链损失函数 ,在哪里。

Veropoulos et al。37)扩展的损失函数有偏见的支持向量机(B-SVM)分类如下:

方程8和(9)分配不同的成本值在正负类实例,分别。从负类样本的误分类代价通常是利用超过那些积极的类。作为我们的目标是提高召回率positive-class样本,我们把一个约束在positive-class保证金和扩展损失函数如下:

在图2,积极的斜率控制类,k控制横坐标轴的十字路口,十字路口是1 /k。控制负斜率,十字路口是1。如果损失是0,分类损失函数必须足够高的信心。积极类,损失是0时信心的程度大于1 /k。

(一)

(b)

通过替换原有的损失损失函数所示(10)和(11),原可以扩展到支持向量机受

在这里,和两种类型的成本,积极的利润可以通过调整改变的价值k。除了可调的点球,本研究的动机是提供不平衡损失函数的类不同的铰链点。有偏见的决策边界引起的不平衡类的帮助下可以恢复一个可伸缩的余地。厂商,我们开发的模型求解SVM class-imbalanced问题可调点球和一个可伸缩的余地。

为了解决新创建的问题,介绍了拉格朗日函数。原始对偶问题的模型可以使用拉格朗日乘数法如下: 在哪里≥0和≥0。

因此,的双重优化模型(12)被定义为受

我们的目标是解决对偶问题(算法1)。

	算法:
	积极的保证金调整使用支持向量机。
	考虑到:一个序列的N例子X_火车和X_验证
	输出:G#输出组合分类器
	变量:
	# Karush-Kuhn-Tucker条件(马)初始α
	#G——价值
	C_p,C_n,k#正成本,负成本,积极利润率标定变量
	T#选择运行的迭代
	功能:
	年代#分类器模型
	R g表示(G)#获得召回G——值G
	开始
	初始化
	=0
	=0
	T=1
	设置三维网格搜索范围C_p,C_n,k:
(一)	选择优化的变量和和解决优化问题使用序列最小优化算法(SMO)获得和 ,和更新来。
(b)	如果马条件(16)- (19)满足精度在允许范围内, ,马条件可用于下一步;否则,继续处理(b)。
(c)	得到。
(d)	最后,获得,和计算如下:

	nstruct分类器模型年代=
(e)	G=标志(年代)
(f)	则(G(X_验证召回条件1))
(g)	如果 ,然后
	返回G_t
	结束

4.3。实验

4.3.1。绩效评估

在一个分类问题,评价措施发挥关键作用评估分类模型的性能。总体预测精度是用来评估一个平衡数据集的分类;然而,这不是一个有效的度量不均衡数据集,因为它没有考虑两类的预测精度。缺乏考虑的主要是由于这一事实负样本大小有时远远大于积极的样本大小。在这种情况下,失衡99比1,分类器分类一切为负99%的准确率,但这将是完全无用的分类器。因此,更要注意积极的类。当前分类指标是基于混淆矩阵表1。


	预测的积极类	预测负类

真正的积极类	TP	FN
真阴性类	《外交政策》	TN

混淆矩阵,真阳性(TP) positive-class实例的数量被正确分类,真阴性(TN)负阶级实例的数量被正确分类,假阳性(FP)是消极的实例的数量被错误地归类为积极的,和假阴性(FN)是积极的实例的数量被错误地归类为负。

选择分类索引的积极类,我们直接选择了回忆(回忆= TP / (TP + FN))和特异性(特异性= TN / (TN + FP)),确保1和高特异性的召回率。

平衡召回和特异性的影响分类结果,一个评价指标, - - - - - -可以构造手段,平衡使用几何平均召回和特异性:

尽管积极的样本的数量可能会很少,阳性样品的遗漏和误判将被认为是充分的。即使所有样本的分类准确率非常棒, - - - - - -意味着价值可能很低。的 - - - - - -意味着对不平衡数据的分类评价指标是有效;然而,平等重视召回和特异性。随着越来越多的关注召回在目前的研究中, - - - - - -意味着延长回忆则,从而增加了强调召回。最终,该方法与更强调表现最好的回忆。

4.3.2。实验

我们用十class-imbalanced数据集各种积极的比率和比较我们的算法与B-SVM (37厂商),支持向量机(CS-SVM) [44)和BP神经网络算法(45),以及两个特殊分类的成本。这些实验证明它是可行的调整positive-class利润率达到积极的召回率1。

4.3.3。打开数据集

如表所示2分类相比,我们提出的方法和其他方法之间的差异在不同的分类标准。我们选择十现实世界不平衡数据集在UCI机器学习数据存储库(46]。其中,ecoli1 ecoli2、glass6 car1v3, car1v4, glass5, segment1, glass6构造使用multiclassification问题。


的名字	例子	维	不平衡率	不。类的

乳腺癌啊	699年	10	1。9	2
乳腺癌d	569年	32	1.933	2
Ecoli1	336年	7	3.36	2
Ecoli2	336年	7	5.46	2
Glass6	214年	9	6.38	2
Car1v3	1279年	6	17.54	2
Car1v4	1275年	6	18.62	2
Glass5	214年	9	22.78	2
Yeast5	1484年	8	32.73	2
Segment1	2310年	19	6	2

4.3.4。实验设计

我们将该方法与基于svm方法和神经网络,包括B-SVM CS-SVM,和英国石油(BP)方法,以及两个特殊分类成本(没有成本和分摊成本)。成本分摊成本,我们设置了错误分类根据以下方程:

高斯RBF内核用于所有支持向量机算法,在哪里是带宽参数,必须预先确定的。我们试图选择最好的通过网格搜索的值0.01和20之间的范围。对不同的数据集,而寻找等参数C和k不同的网格宽度选择加速参数选择。正负类成本的范围(0.01,100)被选中,和搜索范围K是固定在(0.01,10)。物流被选为激活函数。选择了学习速率的范围内(0.000001,1),选择隐藏层的数量从[1 - 3],和搜索范围在每个隐层神经元的数量是[1000]。5倍交叉验证在每组参数的实验来确定参数的设置最好的泛化性能。我们选择了回忆,特异性, - - - - - -意味着,接受者操作特征曲线下面积(AuROC)而不是全球评估指标来评估不平衡数据集的分类方法的性能。没有成本和分摊成本分类使用判断阈值为0,而B-SVM, CS-SVM,和BP方法使用AuROC召回的分类标准、特异性 - - - - - -的意思。

5。结果与讨论

验证了该方法的能力调整分类边界视觉,我们选择两组数据(yeast5和乳腺癌d)和投射成可视化的二维空间。首先,展示的价值的影响k的变化决定边界下的两组数据,我们使用不同的k值,如图所示3。在图3从左到右的值k如下:k= 1,k= 3,k= 2.416,k= 1,k= 3,k= 2。被选中的值经过广泛的调查,和调整后的回忆k两个数据集的值都是1。为乳腺癌d数据集,很明显,分类效果的调整k价值比k值由其他两组随机选择;因此,我们将不会详细解释这个数据集。然而,为yeast5数据集,其他两种k回忆也将达到1。分类效果的初步观察k= 1,当相似k= 2;因此,我们各自相比 - - - - - -的意思。当k= 1, - - - - - -意味着= 0.936;当k= 3, - - - - - -意味着= 0.900;当k= 2, - - - - - -意味着= 0.964。比较表明,调整k值不仅增加了召回1也不会降低 - - - - - -意味着价值。因此,改变积极的边缘类可以调整分类边界的位置,以便积极类可以正确分类的边界。

(一)

(b)

(c)

(d)

(e)

(f)

此外,接受者操作特征(ROC),通过确定阈值,是一种广泛使用的评价指标分类问题。分类问题,我们获得一组预测值和机密数据的遍历预测值和使用预测的值作为阈值。预测值小于阈值被归类为负,并预测值大于阈值被归类为正数。因此,对于每个组预测的值,我们可以确定一组独特的TPR和玻璃钢。ROC曲线是最大的阈值判定准则(真阳性率(TPR)假阳性率(玻璃钢))当TPR-FPR是最大的,中华民国的阈值和相应的阈值曲线。

频繁,民国下的分类阈值判据不能增加回忆,比如在四个数据集的实验结果呈现在图4。实验证明阈值收敛于一个特定的值k增加。如图4中华民国,分类阈值的四个数据集与增加逐渐降低k和展品渐近稳定的一个明显的趋势。根据实验结果,可以选择一个合适的阈值,以确保1的要求又可以实现通过调整k。我们完成了五个交叉验证实验来减少随机性,结果表明,我们的方案是普遍和广泛适用的。

(一)

(b)

(c)

(d)

表3总结了不同方法获得的回忆和特异性。在表中4- - - - - -6,最好的结果是突出显示的(粗体)。检查的意义不平衡数据集的正面例子,我们研究了回忆的正面例子,如表所示4。在显示的数据集,该方法的平均召回率是最大的,有效地提高召回率为1。的 - - - - - -意味着指数如表所示5。它可以观察到从表5,虽然平均 - - - - - -意味着我们的方法不是最高的价值,这个价值不是减少相比,在其他三个理想的分类情况。此外, - - - - - -意味着我们的方法的价值高于其他5例的一些数据集。它可以观察到当积极类的召回率达1,负类的准确性并不显著降低,在可接受的范围之内的。这些结果表明,该方法优于其他方法的积极类不平衡数据集,可能会有一定程度的改善 - - - - - -意味着指数。


数据集	没有成本		分摊成本		B-SVM		CS-SVM		英国石油公司		该方法
数据集	r	年代	r	年代	r	年代	r	年代	r	年代	r	年代

乳腺癌啊	0.983	0.921	0.749	0.891	0.975	0.958	0.988	0.958	0.988	0.969	1	0.930
乳腺癌d	0.390	0.939	0.872	0.861	0.920	0.936	0.920	0.927	0.925	0.964	1	0.701
Ecoli1	0.811	0.796	0.775	0.250	0.898	0.927	0.910	0.873	0.975	0.829	1	0.807
Ecoli2	0.982	0.230	0.742	0.732	0.865	0.932	0.942	0.937	0.793	0.835	1	0.823
Glass6	0.867	0.816	0.333	0.795	0.900	0.978	0.933	0.962	0.893	0.984	1	0.919
Car1v3	0.832	0.830	1.000	0.956	1.000	0.990	1.000	0.997	1.000	0.935	1	0.997
Car1v4	0.908	1.000	0.954	1.000	1.000	1.000	1.000	1.000	1.000	0.955	1	1.000
Glass5	0.100	1.000	0.400	0.990	1.000	0.937	1.000	0.932	1.000	0.624	1	0.922
Yeast5	0.881	0.903	1.000	0.283	1.000	0.938	1.000	0.956	0.728	0.667	1	0.905
Segment1	0.188	1.000	0.188	1.000	0.992	0.997	0.994	0.997	1.000	0.995	1	0.994
平均	0.694	0.844	0.701	0.776	0.955	0.959	0.969	0.954	0.930	0.876	1	0.900


数据集	没有成本	分摊成本	B-SVM	CS-SVM	英国石油公司	该方法

乳腺癌啊	0.983	0.749	0.975	0.988	0.988	1.000
乳腺癌d	0.390	0.872	0.920	0.920	0.925	1.000
Ecoli1	0.811	0.775	0.898	0.910	0.975	1.000
Ecoli2	0.982	0.742	0.865	0.942	0.793	1.000
Glass6	0.867	0.333	0.900	0.933	0.893	1.000
Car1v3	0.832	1.000	1.000	1.000	1.000	1.000
Car1v4	0.908	0.954	1.000	1.000	1.000	1.000
Glass5	0.100	0.400	1.000	1.000	1.000	1.000
Yeast5	0.881	1.000	1.000	1.000	0.728	1.000
Segment1	0.188	0.188	0.992	0.994	1.000	1.000
平均	0.694	0.701	0.955	0.969	0.930	1.000


数据集	没有成本	分摊成本	B-SVM	CS-SVM	英国石油公司	该方法

乳腺癌啊	0.951	0.817	0.966	0.973	0.978	0.964
乳腺癌d	0.605	0.866	0.928	0.923	0.944	0.837
Ecoli1	0.803	0.440	0.912	0.891	0.899	0.898
Ecoli2	0.475	0.737	0.898	0.939	0.814	0.907
Glass6	0.841	0.515	0.938	0.947	0.937	0.959
Car1v3	0.831	0.978	0.995	0.998	0.967	0.998
Car1v4	0.953	0.977	1.000	1.000	0.977	1.000
Glass5	0.316	0.629	0.968	0.965	0.790	0.960
Yeast5	0.892	0.532	0.969	0.978	0.697	0.951
Segment1	0.434	0.434	0.994	0.995	0.997	0.997
平均	0.710	0.693	0.957	0.957	0.900	0.947


数据集	没有成本	分摊成本	B-SVM	CS-SVM	英国石油公司	该方法

乳腺癌啊	0.935	0.612	0.942	0.961	0.966	0.964
乳腺癌d	0.236	0.755	0.854	0.849	0.873	0.837
Ecoli1	0.651	0.341	0.819	0.811	0.877	0.898
Ecoli2	0.466	0.547	0.777	0.885	0.646	0.907
Glass6	0.729	0.171	0.844	0.884	0.837	0.959
Car1v3	0.691	0.978	0.995	0.998	0.967	0.998
Car1v4	0.865	0.932	1.000	1.000	0.977	1.000
Glass5	0.032	0.252	0.968	0.965	0.790	0.960
Yeast5	0.786	0.532	0.969	0.978	0.507	0.951
Segment1	0.082	0.082	0.986	0.989	0.997	0.997
平均	0.547	0.520	0.915	0.932	0.840	0.952

图5展示了结合 - - - - - -使用几种方法意味着获得的指标。因为我们认为召回率是非常重要的, - - - - - -意味着乘召回 ,作为新指标,提高了回忆的重量 - - - - - -意味着,新的指标加权强调召回。的 - - - - - -指数意味着更重视回忆展示在表6。当采用新的指标,我们的方法具有最高的平均价值。

图6清楚地描述了回忆 - - - - - -意味着评价指标的综合影响下的分类影响积极和消极类。这些结果证实该方法执行在所有的数据集。

统计分析,实现学生ʼ年代t以及验证该方法之间是否存在显著差异,其他方法实验。的t在学生ʼ年代价值t以及计算如下: 在哪里代表数据的例子的意思;的标准方差数据;和n是样本容量。在这种情况下,样本大小设置为10。作为一个案例研究中,我们比较了该方法与其他方法。我们计算t值用回忆和 - - - - - -意味着数据列在表中4和5。零假设 ,和备择假设。让x₁由该方法获得的样本均值x₂样本均值的其他三种方法考虑的比较。也是同样的道理 - - - - - -测试手段。三个t进行了测试表中列出的三种模式4结果进行了比较。BP的回忆,CS-SVM B-SVM模型,t获得的价值是2.258、2.631和2.671,分别。我们发现t值是1.813使用学生的概率阈值为0.05t分布表。计算t值2.258,2.631,和2.671都大于t值1.813;因此,在0.05水平的意义,零假设被拒绝的备择假设。召回该方法获得的价值大于其他方法。为t以及的 - - - - - -意味着英国石油(BP)、CS-SVM B-SVM模型,t获得的价值是1.320−0.689,分别和−0.483。计算t值1.320−0.689,−0.483都低于t值1.813;因此,不能拒绝零假设。因此,在0.05水平的意义,我们认为不存在显著差异 - - - - - -意味着几个模型获得的指标。

基于上述结论,在0.05水平的意义,召回该方法显著大于其他的方法,和不存在显著差异 - - - - - -的意思。

6。结论

厂商在这篇文章中,一个基于边缘不均衡的SVM算法对不平衡数据的分类。该方法是基于理论提出的Veropoulos et al。37),用理论和实验结果验证了其可行性。小类的召回率是提高了积极调整支持向量机分类。该方法也与其他传统方法相比。实验结果表明,小班召回率1可以通过使用该方法。然而,该方法仍有一些不足之处。具体来说,积极的准确性类丢失某些数据集,但在许多情况下,与传统方法相比性能提高。当分类评价标准(即改变。,more emphasis is placed on the positive classes), the average evaluation index of the proposed method is the highest. Such classification results are of great significance in the fields of finance, medicine, engineering, and astronomy, to name some. In future work, we will test the experimental setup employed in this study using different machine learning models and attempt to apply this method to practical problems. Additionally, we will extend the proposed method to multiclass classification problems by adopting a one-versus-all approach.

数据可用性

本研究的数据集用于支持这些发现已经存入UCI机器学习库(http://archive.ics.uci.edu/ml/datasets)。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者要感谢Editage (http://www.editage.com)英语编辑。这项工作是由黑龙江省统计科学项目(不支持。2020 b06)。

引用

s . Kotsiantis d Kanellopoulos, p . Pintelas“处理不平衡数据集:一个评论,”武功国际交易在科学与工程计算,30卷,不。1、技能,2006页。视图:谷歌学术搜索
f·h·f·g . y . Wong Leung)工程学系。凌,“混合进化不平衡数据集预处理方法。”信息科学卷,454年,第177 - 161页,2018年。视图:出版商的网站|谷歌学术搜索
问:杨,吴x 10挑战性的问题在数据挖掘研究中,“国际信息技术与决策》杂志上,5卷,不。4、597 - 604年,2006页。视图:出版商的网站|谷歌学术搜索
f .教务长,“机器学习从不平衡的数据集,”诉讼AAAI 2000车间的不平衡数据集门洛帕克,页1 - 3,CA,美国,2000年4月。视图:谷歌学术搜索
g·m·维斯“矿业与罕见”ACM SIGKDD探索通讯》第六卷,没有。1,7-19,2004页。视图:出版商的网站|谷歌学术搜索
m·库巴特和美国Matwin解决不平衡的训练集的诅咒:片面的选择,”学报》第14届国际会议上机器学习纳什维尔,页179 - 186年,TN,美国,1997年7月。视图:谷歌学术搜索
m . j .青岛姒儿和m z伊斯兰教,“小说厂商算法分类和知识发现在课堂上不平衡数据集与应用NASA软件缺陷,”信息科学卷。459年,70年53 - 2018页。视图:出版商的网站|谷歌学术搜索
s . Barua m . m .伊斯兰教,x姚明,和k . Murase”MWMOTE-Majority加权少数不平衡数据集的过采样技术学习,”IEEE工程知识和数据,26卷,不。2、405 - 425年,2014页。视图:出版商的网站|谷歌学术搜索
g .吴邦国委员长和e . Chang”不平衡数据集学习、分组界限对齐”学报ICML 2003车间学习不平衡数据集二世页49-56,华盛顿,美国,2003年。视图:谷歌学术搜索
b . w . Yap k . a .王妃h·a·a·拉赫曼方,z Khairudin,和n . n .阿卜杜拉”应用程序的过采样,采样,装袋和提高处理不平衡的数据集,”第一届国际会议论文集先进数据和信息工程(别名- 2013),页13-22,新加坡,2014年。视图:谷歌学术搜索
“b。杰哈卡胡奇学习不平衡数据:开放的挑战和未来的发展方向,”人工智能的进展,5卷,不。4、221 - 232年,2016页。视图:出版商的网站|谷歌学术搜索
o . Duque-Perez Martin-Diaz, d . Morinigo-Sotelo, r·德·j·Romero-Troncoso”早期故障检测感应电动机使用不平衡数据和小的演算法优化采样,”IEEE行业应用,53卷,不。3、3066 - 3075年,2017页。视图:出版商的网站|谷歌学术搜索
A . Zakaryazad和大肠Duman”,利益驱动与应用人工神经网络(ANN)欺诈检测和直接营销,”Neurocomputing卷,175年,第213 - 121页,2016年。视图:谷歌学术搜索
中州。刘,研究。刘,Y.-Z。陈,“高速内联缺陷检测tft阵列过程使用一种新的支持向量数据描述,“专家系统与应用程序,38卷,不。5,6222 - 6231年,2011页。视图:出版商的网站|谷歌学术搜索
d . m . j .税收和r·p·w·Duin“支持向量数据描述,”机器学习,54卷,不。1,45 - 66年,2004页。视图:出版商的网站|谷歌学术搜索
吴m . j .你们,”一个小范围和大边缘方法新奇检测使用训练数据和异常值,“IEEE模式分析与机器智能没有,卷。31日。11日,第2092 - 2088页,2009年。视图:出版商的网站|谷歌学术搜索
c . j . c . Burges”教程对支持向量机模式识别,”数据挖掘和知识发现,卷2,不。2、121 - 167年,1998页。视图:出版商的网站|谷歌学术搜索
c c。Chang和C.-J。林,LIBSVM:支持向量机的库国立台湾大学,台北,台湾,2000年,http://www.csie.ntu.edu.tw/?cjlin/libsvmS.%20Department%20of%20Computer%20Science。
n Cristianini和j . Shawe-Taylor介绍了支持向量机英国剑桥,剑桥大学出版社,2000年。
b . Scholkopf和a·j·Smola学习与内核美国马剑桥,麻省理工学院出版社,2002年。
v . n . Vapnik统计学习理论的本质施普林格,纽约,纽约,美国,1995年。
d . Ramyachitra和p . Manikandan”不平衡数据集的分类和解决方案:一个评论,”国际计算和商业研究杂志》上,5卷,不。4、2014。视图:谷歌学术搜索
a .罗查和s·克莱因Goldenstein多级从二进制:扩大one-versus-all, one-versus-one ecoc-based方法,”IEEE神经网络和学习系统,25卷,不。2、289 - 302年,2014页。视图:出版商的网站|谷歌学术搜索
n v·乔:Japkowicz, a . Kotcz”社论:特殊问题学习不平衡的数据集,”ACM SIGKDD探索通讯》第六卷,没有。1、1 - 6,2004页。视图:出版商的网站|谷歌学术搜索
b . Scholkopf和a·j·Smola”学习与内核:支持向量机,正规化,优化,,”麻省理工学院出版社英国剑桥,2002年。视图:谷歌学术搜索
答:俄南,“共识clustering-based欠采样方法不平衡学习,”科学的规划卷,2019篇文章ID 5901087, 2019。视图:出版商的网站|谷歌学术搜索
a . Ha和r . Ezzahir”,阿拉伯语情绪分类抽样技术:比较研究”学报》第三届国际会议上网络、信息系统和安全拉巴特摩洛哥,2020。视图:谷歌学术搜索
j . Błaszczy和j . Stefanowski”社区抽样装袋的不平衡数据,”Neurocomputing卷,150年,第542 - 529页,2015年。视图:谷歌学术搜索
g . Douzas f . Bacao f .去年,“改善不平衡通过启发式学习基于过采样方法k则,击杀。”信息科学卷,465年,页1 - 2018。视图:出版商的网站|谷歌学术搜索
h .叫海波和e·a·加西亚,“学习不平衡数据,”IEEE工程知识和数据,21卷,不。9日,第1284 - 1263页,2009年。视图:出版商的网站|谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上,16卷,不。1,第357 - 321页,2002。视图:出版商的网站|谷歌学术搜索
w·高,r·金朱,和z周,“一次通过的AUC优化”30学报》国际会议上机器学习,906 - 914页。视图:谷歌学术搜索
g . j . Karakoulas和j . Shawe-Taylor“优化分类器的训练集,不平衡”先进的神经信息处理系统m . s .卡恩斯,s . a . Solla和d·a·科恩,Eds。,pp。253- - - - - -259,麻省理工学院出版社,Cambridge, MA, USA, 1999.视图:谷歌学术搜索
p·多明戈,“MetaCost:一般方法进行分类器的成本敏感,”第五届ACM SIGKDD学报》国际会议上知识发现和数据挖掘圣地亚哥,页155 - 164,美国,1999年8月。视图:谷歌学术搜索
c·埃尔坎“厂商的基础学习,”17学报》国际联合会议上人工智能(IJCAI 01)展出,页973 - 978,纽约,纽约,美国,2001年8月。视图:谷歌学术搜索
k . m . Ting“厂商instance-weighting方法诱导树,”IEEE工程知识和数据,14卷,不。3、659 - 665年,2002页。视图:出版商的网站|谷歌学术搜索
k . Veropoulos c·坎贝尔,n . Cristianini“控制支持向量机的敏感性,”《人工智能国际联合大会(IJCAI)展出1999年8月,蒙特利尔,魁北克,加拿大。视图:谷歌学术搜索
A .俄南“模糊粗糙最近邻分类器结合consistency-based子集评价和实例选择自动诊断乳腺癌,”专家系统与应用程序,42卷,不。20日,第6852 - 6844页,2015年。视图:出版商的网站|谷歌学术搜索
王朱黄,y, z . et al .,“基于聚类的不平衡数据分类算法和支持向量机,”《电路、系统和电脑卷,30篇文章ID 2150036, 2020。视图:出版商的网站|谷歌学术搜索
h .段x邵,w .侯,g .他曾问:,“一个拉格朗日支持向量机增量学习算法,”模式识别的字母,30卷,不。15日,第1391 - 1384页,2009年。视图:出版商的网站|谷歌学术搜索
c . x, j .高黄懿慧Ao,“一种新的抽样方法对基于支持向量机集成的不平衡数据分类,“Neurocomputing卷,193年,页15 - 122,2016。视图:出版商的网站|谷歌学术搜索
w·李,学术界。小君,js。李,“实例分类支持向量机调整重量不平衡数据分类演算法,”信息科学卷,381年,第103 - 92页,2017年。视图:出版商的网站|谷歌学术搜索
h . g .咀嚼、r . e . Bogner和c . c . Lim“双/ splν/支援向量机与错误率和培训大小偏压,”学报2001年IEEE国际会议音响、演讲和信号处理程序(猫。No.01CH37221),页1269 - 1272,盐湖城犹他,美国,2001年5月。视图:谷歌学术搜索
a . Iranmehr h . Masnadi-Shirazi, n .塞·伐斯冈萨雷斯,他“厂商支持向量机”,Neurocomputing卷。343年,50 - 64年,2019页。视图:出版商的网站|谷歌学术搜索
王y和n . Wang,“一个不平衡数据分类模型增加少数召回医疗应用程序中,“基础和临床药理学和毒理学,127卷,2020年。视图:谷歌学术搜索
k·贝奇和m . LichmanUCI机器学习库,加州大学,学校的信息和计算机科学,欧文,CA,美国,2013年,http://archive.ics.uci.edu/ml。