文摘
类不平衡无所不在地存在在现实生活中,它已经吸引了很多不同领域的兴趣。直接学习不平衡数据集可能会造成不满意的结果overfocusing识别的准确性和派生一个理想模型。开发了各种方法在解决这一问题包括抽样、厂商和其他混合的。然而,决定边界附近的样本含有更多的歧视的信息应该得到重视和斜边界将更正通过构造合成样品。灵感来自于真理和几何,我们设计了一个新的合成少数过采样技术将边缘信息。更重要的是,整体模型总是倾向于捕获在实践中更复杂的和健壮的决策边界。考虑到这些因素,小说整体的方法,称为外推的装袋Borderline-SMOTE SVM (BEBS),提出了在处理不平衡数据学习(IDL)问题。开放获取实验数据集显示显著的优越性能使用我们的模型和一个有说服力的和直观的解释背后的方法。据我们所知,这是第一个模型的支持向量机结合边缘信息为解决这样的状况。
1。介绍
在机器学习领域中,数据模型的训练是必要的。然而,两个类的分布极其不平衡的表现和情况在现实生活中非常普遍1]。在本文中,我们专注于二元分类问题时极其不平衡的分布在两类;也就是说,一个类培训严重超过了其他的数量。
忽视的类不平衡分布,传统的二元分类算法倾向于对数据集[执行严重2,3),导致不满意的次优的结果(4- - - - - -7),大多数类可以识别同时少数逆转。占的原因之一是,不平衡分布作为先验信息在许多情况下有很强的影响最终的歧视(8]。现在让我们考虑一个特殊的场景,在该场景中,绝大多数类相当于99的百分比。在这种情况下,一个普通的分类器分配任何例子大多数类标签仍将达到99%的精度9]。然而,由于少数低召回率,如此极端的结果并不是我们所期望的。现象非常关键和重要的在一些情况下,如识别网络入侵的10,11),医学诊断的2型糖尿病12从卫星雷达图像),石油泄漏检测13),发现金融欺诈交易的14),和生物信息学15]。另一个事实不能被忽视的是,在大多数的二元分类问题,少数类是我们真正关心的,而不是大多数[3),尤其是当失败的成本是昂贵的在认识到少数民族的。
数字的算法已经被用于缓解不平衡数据的后果。从战略的角度来看,这些方法可分为三种主流类型。在算法层面上,权重的调整错误的损失函数,也称为厂商学习,是一种直接的方式来减少不平衡的影响。成本矩阵衡量不同处罚错误分类对性能的改善至关重要。另一种调整惩罚根植于自适应提高(16)和一些算法,例如,Ada-cost [17和降低成本的提升方案18),实现了学习任务。抽样水准,最简单的方法是随机样本训练数据从整个训练数据集的不同类型的数据采样在适当比例平衡类的比例。随机抽样往往过度拟合,如果抽样比率没有正确调制(3]。重复抽样比较容易实现,但难以有效地调整,所以教务长9)认为欠采样是适合更大的训练数据集,而合成少样本病例样本构造。埃斯塔布鲁克et al。2)结合不同的重复抽样方法提供一个更好的调制方案。另一个流行的方法是合成少数过采样技术(杀)提出的拉et al。19),核心理念是构建合成少数样本通过少数训练数据及其之间的插值最近的社区。汉et al。3)更加关注决策边界附近的样本和击杀获得Borderline-SMOTE相结合。除了上面的取样方法,clustering-based重采样算法(20.)和SMOTE-Boost算法(21也为不平衡的情况下设计的。此外,更少的研究专注于抽样方法是如何影响学习性能,但采样方法提高线性歧视的表现的原因是由雪和大厅6]。
除了算法和基于抽样的方法,其他研究人员提出了几种实用和流行的方法从混合视图具有优良的性能。的帮助下击杀的边界样本和调整内核矩阵,吴和张22)与支持向量机集成的先验信息分布不平衡来获得内核边界对齐算法。乔et al。4)注意到特征选择的重要影响,Maldonado et al。23)做了一些研究在各种特征选择方法,提出逆向消除特征选择过程支持向量机处理IDL的问题。厂商两阶段学习是受雇于美国宇航局不平衡数据和研究设计降低成本的特征选择和分类规则方案阶段(24]。而不是前,或欠采样方法,太阳et al。25)利用随机分区和集群技巧来获得一些平衡数据集训练不同的分类器,结合他们根据一些规则。Bhowan等人利用遗传编程构造类型的健身功能和利用相结合的多目标优化分类器(5]。简单的搭配和平衡级联(26)是两个优越的算法,利用整体模型在一个欠采样的方法。
完全不同于上述方法,我们将提出一种新型的整体算法中,一个有效的抽样方法为IDL开发问题。一定,类似工作总结如下。在预处理过程中,Batuwita和Palade27]筛选一些信息的例子更接近类边界被SVM和缩减规模的重采样样本来降低时间复杂度的训练支持向量机性能维护。二进制不平衡数据,吴和张实现边界对齐使用内核的技巧,以减轻决策边界的偏移28]。从整体的角度来看,存在几个精致的评论对IDL[整体模型8,29日]。具体来说,洛佩兹et al。8]研究了六个重大问题有关数据的内在特性影响整体模型IDL的性能。几个优越的整体模型是基于提高,如EUSBoost [30.),进化欠采样提高模型在处理乳腺癌恶性肿瘤分类(31日]。施等人利用装袋技术在SVM应对P300检测问题[32]。我们建议的框架还利用这些样本决策边界附近检测到支持向量机,但在一个更灵活的抽样方式。我们应用装袋技术meta-SVM训练有素的抽样过程中获取的数据。最后的结果显示我们的模型的有效性在处理IDL的问题。
2。材料和方法
在我们框架,介绍了一些基本的知识模型和技术将会在一个简短的总结。在我们的框架,支持向量机是metaclassifiers合奏和引导聚合是一种抽样技术获得各种各样的训练数据集。除此之外,我们将说明打全面和诱导适应性杀技术。图中给出了框架流程图1。
2.1。支持向量机:一个回顾
支持向量机作为一种流行的艺术在二元分类器分类显示其状态性能在工程应用中。
考虑到训练集的标签或−1,学习分类器,一个天真的想法是描述一个超平面特性或特征空间转换的输入可以单独的两类训练数据尽可能多。基于统计学习理论(33),支持向量机被认为是感知器学习模型的健壮的适应(34]。
功能转换的方法和soft-margin放松使SVM强大复杂决策边界的检测和控制过度拟合与备抵一些样品的违反支持超平面。
在这里,我们给一个表达式的支持向量机的二次规划问题如下: 在哪里是相应的矩阵
尺寸单位向量与协调= 1。
懈怠,向量的变量测量样品的违反程度支持超平面。原始问题可以转换为双一个通过求解Karush-Kuhn-Tucker最优函数由拉格朗日方程(35]。
最后,有识别力的函数形式获得的 在哪里相对应的拉格朗日乘子样本满足Karush-Kuhn-Tucker(马)的最佳条件。
具体来说,当转换后的特征向量的内积与内核可以应用方法,计算的过程是有效的:
此外,只有一小部分的培训数据对应于积极的拉格朗日乘数法称为支持向量是有用的为最终决定,所以分类器相当稀疏的表示。
2.2。整体方法:回顾
显然一个分类器可能严重影响当训练数据集不能描述实际潜在分布或假定的模型是有偏见的。策略模型的合奏可以避免片面起源于训练数据集和假说,收到更好的泛化能力。在另一个方面,弱分类器更容易获得使用简单的标准如树桩和强分类器可以通过结合多个弱分类器(36]。IDL在计划的框架,装袋技术用于开发各种型号。
引导聚合的装袋构造分类器基于引导方法完全不同。引导技术样品每个训练示例相同的概率与更换。
中所示的通用装袋算法可以被描述为算法1。
|
||||||||||||
最著名的模型动力从装袋是随机森林不仅是引导的训练数据采样方式,但是培训的特点是在随机选择的(37]。表1提供了一个详细的取样方法的过程。
2.3。装袋的推断Borderline-SMOTE SVM
2.3.1。推断Borderline-SMOTE
对于IDL,击杀(19)是一个典型的过采样方法与通用应用程序并生成合成样品的具体过程可以被描述为算法所示2。
|
||||||||
产生一些少数的合成样品的插值方法被证明是有效的减轻不平衡的程度和提高性能。然而,似乎样本决策边界附近使苦恼其余的决策。Borderline-SMOTE [3)作用于样品使用击打技术决策边界附近。图2显示插值法生成合成样品。
然而,样本之间的插值用于击打或Borderline-SMOTE限制实际探索向边界的能力。我们会利用集成支持向量机,决策边界附近的样本特征大致可以从支持超平面第一SVM学习。要仔细考虑,提出了一种新的合成少数过采样方法所示算法3和图3描述了我们的思想。
|
||||||||||
在这里支持超平面的距离是决定超平面对应于第一个支持向量机从训练数据集的不平衡。
很明显,合成小样本往往正确斜细和外推法来检测边界的决定当工作属于内心的一面支持超平面如图3表示。
2.3.2。装袋的推断Borderline-SMOTE SVM
整体方法可以有效地提高模型的泛化能力。这里,小说整体方法提出了解决IDL问题称为装袋的推断Borderline-SMOTE svm (BEBS)。
对于支持向量机,它是指出,支持与积极的拉格朗日乘数法向量决定最终的区别的边界。所以我们采用外推Borderline-SMOTE支持向量属于少数缓解不平衡水平。
整个关于BEBS可以阐明如下。最初的支持向量包含边缘信息大致确定通过基础支持向量机从失衡数据集。在初始化过程中,一个合适的内核和hyperparameter通过交叉验证选择g表示被选为最优指标。然后原来的支持向量属于少数被标记为和一种新颖的数据集为进一步引导是由删除。引导上执行在把每个采样结果在的规模。此外,聚合的数据集和被推断Borderline-SMOTE操作。之后,合并后的数据集和新合成的样品用于meta-SVM训练和原始数据不取样工作作为优化参数的验证集。最后,svm聚集在同一重量形成整体分类器(参见算法4)。
|
||||||||||||||||||||||||||||
具体地说,在我们的模型最初设置为默认参数和下面的实验共享相同的参数。
2.3.3。BEBS背后的直觉
BEBS是聚合不同的支持向量机的核心思想,修改初始决策边界通过构造合成少数样本向正确的方向。这些合成样品推测边界描述实际的决定。svm的差异源于两个方面。一个是随机选择的的采样率和其他源于训练集的差异由于引导操作。此外,训练数据不是采样迷航的引导是利用探索一个更好的hyperparameter作为验证组;只是见下表1。所有这些启发式策略来提高模型的泛化。
3所示。结果与讨论
3.1。实验设置和指标
选择数据集进行实验从UCI机器学习库(38),其中大部分是相当不平衡。这里我们只处理二元分类问题,所以一个类标签是为少数其余合并为多数在多级情况下类似于其他研究者的预处理(25,39,40]。表2显示了数据集的详细信息包括样本容量,属性的数量,少数样品和多数样本的数量,和不平衡比率。不平衡率被定义为多数人的基数分裂的结果,少数人的基数,这可能会严重影响分类器的性能。
传统合奏AdaBoostM1和随机森林方法选择进行比较。进一步说明应注意是AdaBoostM1和随机森林可以被视为技术缓解失衡由于weight-adjustment AdaBoostM1误差和out-of-bag性能监控机制的随机森林。我们也验证不平衡影响最初的支持向量机。一些先进的和常用的算法,包括随机采样,随机采样过密,击杀,SMOTE-ENN [41)进行上述数据集,所有这些将证明新算法的有效性。此外,随机采样,随机采样过密,击杀,SMOTE-ENN结合支持向量机进行进一步的分类。
在二进制数据的分类问题,混淆矩阵提供了一个直观的衡量评价分类器的性能。如表中所示3,FN是样本的数量确定为负的错误和其他类似的可以理解。
分类器被定义为的准确性
对于IDL的问题,并不像之前描述的有说服力的评估准确性。最常用的评估标准对IDL g表示严格惩罚有偏见的模型。g表示是一个指数平均几何两个类的召回率。
很明显,只有当两个召回率保持在更高层次可以g表示收到更好的价值。因此,g表示可以被认为是精度和召回率之间的权衡。
另一个评价指标惩罚不平衡的效果分数定义为
调和平均数指数和应用参数控制处罚的程度。在这里选为1。
分数显示类似的性能和一致性与g表示在我们的实验发现,但它的精度和召回率平均一个类在本质上。
此外,少数在一个分类器的精度也在IDL中起着至关重要的作用,大多数情况下显示其意义就在介绍描述。所以精度评估过程中考虑。积极的精度来标示
获得一个健壮的结果进行评估,我们拿起风险最小化作为标准的最低标准二进制类被定义为相应的结果。以精度为实例,虽然计算精度两类可以在测试过程中,选择较小的一个,如下:
3.2。结果分析
3.2.1之上。性能分析
我们分别平均g表示的结果,分数,精度在10独立。表4最终结果在不同的数据集和前三的每一行都贴上大胆。直接的结论来自BEBS表,随机森林,AdaBoostM1位于控制董事会的大部分时间和行为稳定在三个指标。某些原因占这是小心的需求适应对所有其他参数采样算法是至关重要的。然而,最初的SVM得到更糟糕的结果数据集的生育,皮马人,细分,细分3,分数在帕金森相当低。解释这种现象验证了支持向量机在不平衡情况下的倾斜。很明显,随机采样过密,随机采样,SMOTE-ENN敏感的数据集,因为所有他们需要手动设置参数根据特定的情况而不是自动调整。击杀这三种方法表现优异,但比我们提出BEBS效率较低。显然,BEBS这三个指标表现良好稳定受益于直观extrapolation-SMOTE方法涉及边界信息和随机性从引导技术。提供一个更直接的认知,我们排名方法的性能测试集减少订单从g表示的角度来看,分数和精度。的平均排名算法6日数据集都是显示在图4。从泛化和性能考虑,随机森林和AdaBoostM1仍有价值的试验没有额外的信息。
(一)
(b)
(c)
具体来说,借助SPSS (42),我们进行了学生的搭配以及,区别是设置为95%的置信区间,检查10独立结果相比的重要性。10独立形式的结果相比BEBS和其他一些算法。自七模型为比较,选择七统计每个数据集上的测试结果。我们在标准g表示循环等过程,分数,每个数据集和精度。此外,七对测试有三种可能的结果,分别显著弱于BEBS和领带,明显强于BEBS。精确的解释关于领带的结果是当平均10个独立的结果在某些指标数据集使用模型高于或低于BEBS但并不重要的分析对吗以及,我们直接属性差异背后的原因的随机性而非机理模型和标签的成对比较领带。标签赢意味着我们BEBS平均的结果不仅优于比较模型还通过假设检验。同样的损失。结合表4意义的结果测试终于转换映射到元组的形式赢得∖领带∖损失。然后我们统计频率为赢,领带,和损失在7-paired比较。因此,计算结果表中的安排5。
从表5,得出了一些明显的结论如下。从g表示的角度来看,大约76.2%比较结果显示BEBS显著优于其他模型是计算成对比较42的总数除以赢得重要的整个数据集32。没有输给别人的比率分数占据大约83.3%,同时成对比较的总数64.3%比例显示优越的结果使用BEBS显著与他人相比。精度,只有4.8%的总数量明显比其他模型虽然穷领带数量保持38.1%左右的比例。总之,BEBS产生更好的结果经过一系列的实验和统计测试过程。下一部分将做一些研究BEBS和一些敏感性分析的稳定性实验。
3.2.2。敏感性分析
注意到我们的算法BEBS包含两个关键hyperparameters调整,也就是说,metaclassifiers的数量和外推Borderline-SMOTE过采样率。无论变化前的实验数据集,hyperparameters被设置为固定值和采样率= 0.5。性能应该影响违反当这样的参数。调查BEBS的鲁棒性,我们在准备数据集上执行BEBS hyperparameters的可调范围。建议过,g表示能够很好描述公平结果实行处罚不平衡的结果。进行了敏感性分析对两个hyperparameters和g表示是我们专注于我们的目标。
固定采样率为0.5,我们不等metaclassifiers的数量在这一期间10步长和平均10独立结果对应的固定参数。如图5说明,六polyline稳步运行增加,g表示的最大范围的值六折线不大于0.15。结果表明BEBS不敏感的数量metaclassifiers范围。
此外,我们采用抽样的比例在数据集上的步长0.1 metaclassifiers的数量是维持100年。实验结果如图6。点在折线图是平均g表示从10独立结果给定一组参数值。一个有趣的事实在生育倾向这一事实,撒谎玻璃7,细分3是重要的性能在不断提高,提高采样率。这种现象可以归因于不平衡数据集的比例。在这些不平衡比率不低于6表的统计信息2。更多合成少数样本往往对检测的实际边界作出贡献。所以可以得出一个结论,当不平衡比保留一个更高的水平,抽样比例也应该适应减轻过度拟合情况。结果帕金森和皮马人表示当采样率高于阈值下降,所以更高的采样率不极其不平衡的数据集可能会损害最终性能。总的来说,BEBS似乎敏感重采样率和不平衡率应参与的一个不错的选择参数。
4所示。结论
本文提出了一种小说整体方法称为BEBS处理二进制的IDL的情况。BEBS是框架采用一种自适应采样方法推断Borderline-SMOTE和引导聚合前不平衡数据集。这种变体攻击利用的边界信息来源于最初的SVM和装袋的机制有助于缓解过度拟合,促进模型的泛化能力。决定边界的斜向少数民族当使用SVM的帮助下可以修改合成样品。在我们的实验中,结果每个独立数据集运行10次以确保假设检验的有效性,进一步统计记录显示BEBS可以显著优于一些代表性的IDL算法在大多数时间。敏感性分析说明了合奏的规模之间的关系,抽样比例,和性能,表明BEBS将广泛增强后根据不平衡数据集的比例适当的适应。未来的研究将总结通用算法性能之间的关系和其他属性和属性数量和样本的基数。多级不平衡情况下(43)也被认为是在以后的挖掘任务。
相互竞争的利益
作者宣称没有利益冲突有关的出版。