计算智能和神经科学

在这一页上

文摘介绍材料和方法结果与讨论结论引用版权相关文章

研究文章|开放获取

体积2017年| 文章的ID1827016| https://doi.org/10.1155/2017/1827016

小说对不平衡数据的集成学习方法学习:装袋Extrapolation-SMOTE支持向量机

齐王 ,¹ 之浩罗 ,¹ JinCai黄 ,¹ 洋河冯,¹ 和钟刘¹

学术编辑器: 埃利奥•Masciari

收到了 2016年12月04

修改后的 2016年12月23日

接受 2016年12月28日

发表 2017年1月30日

文摘

类不平衡无所不在地存在在现实生活中,它已经吸引了很多不同领域的兴趣。直接学习不平衡数据集可能会造成不满意的结果overfocusing识别的准确性和派生一个理想模型。开发了各种方法在解决这一问题包括抽样、厂商和其他混合的。然而,决定边界附近的样本含有更多的歧视的信息应该得到重视和斜边界将更正通过构造合成样品。灵感来自于真理和几何,我们设计了一个新的合成少数过采样技术将边缘信息。更重要的是,整体模型总是倾向于捕获在实践中更复杂的和健壮的决策边界。考虑到这些因素,小说整体的方法,称为外推的装袋Borderline-SMOTE SVM (BEBS),提出了在处理不平衡数据学习(IDL)问题。开放获取实验数据集显示显著的优越性能使用我们的模型和一个有说服力的和直观的解释背后的方法。据我们所知,这是第一个模型的支持向量机结合边缘信息为解决这样的状况。

1。介绍

在机器学习领域中,数据模型的训练是必要的。然而,两个类的分布极其不平衡的表现和情况在现实生活中非常普遍1]。在本文中,我们专注于二元分类问题时极其不平衡的分布在两类;也就是说,一个类培训严重超过了其他的数量。

忽视的类不平衡分布,传统的二元分类算法倾向于对数据集[执行严重2,3),导致不满意的次优的结果(4- - - - - -7),大多数类可以识别同时少数逆转。占的原因之一是,不平衡分布作为先验信息在许多情况下有很强的影响最终的歧视(8]。现在让我们考虑一个特殊的场景,在该场景中,绝大多数类相当于99的百分比。在这种情况下,一个普通的分类器分配任何例子大多数类标签仍将达到99%的精度9]。然而,由于少数低召回率,如此极端的结果并不是我们所期望的。现象非常关键和重要的在一些情况下,如识别网络入侵的10,11),医学诊断的2型糖尿病12从卫星雷达图像),石油泄漏检测13),发现金融欺诈交易的14),和生物信息学15]。另一个事实不能被忽视的是,在大多数的二元分类问题,少数类是我们真正关心的,而不是大多数[3),尤其是当失败的成本是昂贵的在认识到少数民族的。

数字的算法已经被用于缓解不平衡数据的后果。从战略的角度来看,这些方法可分为三种主流类型。在算法层面上,权重的调整错误的损失函数,也称为厂商学习,是一种直接的方式来减少不平衡的影响。成本矩阵衡量不同处罚错误分类对性能的改善至关重要。另一种调整惩罚根植于自适应提高(16)和一些算法,例如,Ada-cost [17和降低成本的提升方案18),实现了学习任务。抽样水准,最简单的方法是随机样本训练数据从整个训练数据集的不同类型的数据采样在适当比例平衡类的比例。随机抽样往往过度拟合,如果抽样比率没有正确调制(3]。重复抽样比较容易实现,但难以有效地调整,所以教务长9)认为欠采样是适合更大的训练数据集,而合成少样本病例样本构造。埃斯塔布鲁克et al。2)结合不同的重复抽样方法提供一个更好的调制方案。另一个流行的方法是合成少数过采样技术(杀)提出的拉et al。19),核心理念是构建合成少数样本通过少数训练数据及其之间的插值最近的社区。汉et al。3)更加关注决策边界附近的样本和击杀获得Borderline-SMOTE相结合。除了上面的取样方法,clustering-based重采样算法(20.)和SMOTE-Boost算法(21也为不平衡的情况下设计的。此外,更少的研究专注于抽样方法是如何影响学习性能,但采样方法提高线性歧视的表现的原因是由雪和大厅6]。

除了算法和基于抽样的方法,其他研究人员提出了几种实用和流行的方法从混合视图具有优良的性能。的帮助下击杀的边界样本和调整内核矩阵,吴和张22)与支持向量机集成的先验信息分布不平衡来获得内核边界对齐算法。乔et al。4)注意到特征选择的重要影响,Maldonado et al。23)做了一些研究在各种特征选择方法,提出逆向消除特征选择过程支持向量机处理IDL的问题。厂商两阶段学习是受雇于美国宇航局不平衡数据和研究设计降低成本的特征选择和分类规则方案阶段(24]。而不是前,或欠采样方法,太阳et al。25)利用随机分区和集群技巧来获得一些平衡数据集训练不同的分类器,结合他们根据一些规则。Bhowan等人利用遗传编程构造类型的健身功能和利用相结合的多目标优化分类器(5]。简单的搭配和平衡级联(26)是两个优越的算法,利用整体模型在一个欠采样的方法。

完全不同于上述方法,我们将提出一种新型的整体算法中,一个有效的抽样方法为IDL开发问题。一定,类似工作总结如下。在预处理过程中,Batuwita和Palade27]筛选一些信息的例子更接近类边界被SVM和缩减规模的重采样样本来降低时间复杂度的训练支持向量机性能维护。二进制不平衡数据,吴和张实现边界对齐使用内核的技巧,以减轻决策边界的偏移28]。从整体的角度来看,存在几个精致的评论对IDL[整体模型8,29日]。具体来说,洛佩兹et al。8]研究了六个重大问题有关数据的内在特性影响整体模型IDL的性能。几个优越的整体模型是基于提高,如EUSBoost [30.),进化欠采样提高模型在处理乳腺癌恶性肿瘤分类(31日]。施等人利用装袋技术在SVM应对P300检测问题[32]。我们建议的框架还利用这些样本决策边界附近检测到支持向量机,但在一个更灵活的抽样方式。我们应用装袋技术meta-SVM训练有素的抽样过程中获取的数据。最后的结果显示我们的模型的有效性在处理IDL的问题。

2。材料和方法

在我们框架,介绍了一些基本的知识模型和技术将会在一个简短的总结。在我们的框架,支持向量机是metaclassifiers合奏和引导聚合是一种抽样技术获得各种各样的训练数据集。除此之外,我们将说明打全面和诱导适应性杀技术。图中给出了框架流程图1。

2.1。支持向量机:一个回顾

支持向量机作为一种流行的艺术在二元分类器分类显示其状态性能在工程应用中。

考虑到训练集的标签或−1,学习分类器,一个天真的想法是描述一个超平面特性或特征空间转换的输入可以单独的两类训练数据尽可能多。基于统计学习理论(33),支持向量机被认为是感知器学习模型的健壮的适应(34]。

功能转换的方法和soft-margin放松使SVM强大复杂决策边界的检测和控制过度拟合与备抵一些样品的违反支持超平面。

在这里,我们给一个表达式的支持向量机的二次规划问题如下: 在哪里是相应的矩阵

尺寸单位向量与协调= 1。

懈怠,向量的变量测量样品的违反程度支持超平面。原始问题可以转换为双一个通过求解Karush-Kuhn-Tucker最优函数由拉格朗日方程(35]。

最后,有识别力的函数形式获得的在哪里相对应的拉格朗日乘子样本满足Karush-Kuhn-Tucker(马)的最佳条件。

具体来说,当转换后的特征向量的内积与内核可以应用方法,计算的过程是有效的:

此外,只有一小部分的培训数据对应于积极的拉格朗日乘数法称为支持向量是有用的为最终决定,所以分类器相当稀疏的表示。

2.2。整体方法:回顾

显然一个分类器可能严重影响当训练数据集不能描述实际潜在分布或假定的模型是有偏见的。策略模型的合奏可以避免片面起源于训练数据集和假说,收到更好的泛化能力。在另一个方面,弱分类器更容易获得使用简单的标准如树桩和强分类器可以通过结合多个弱分类器(36]。IDL在计划的框架,装袋技术用于开发各种型号。

引导聚合的装袋构造分类器基于引导方法完全不同。引导技术样品每个训练示例相同的概率与更换。

中所示的通用装袋算法可以被描述为算法1。

(1)输入整个训练数据集
(2)从1到:
(3)样本通过引导技巧来获得与
(4)推导出模型通过拟合
(5)整体的模型并获得最终的模型。在二进制
分类的情况下,

最著名的模型动力从装袋是随机森林不仅是引导的训练数据采样方式,但是培训的特点是在随机选择的(37]。表1提供了一个详细的取样方法的过程。

2.3。装袋的推断Borderline-SMOTE SVM

2.3.1。推断Borderline-SMOTE

对于IDL,击杀(19)是一个典型的过采样方法与通用应用程序并生成合成样品的具体过程可以被描述为算法所示2。

(1)输入样例和它的最近的邻居表示为
(2)选择一个随机数字产生一个均匀分布
(3)输出一个新的合成样品为少数

产生一些少数的合成样品的插值方法被证明是有效的减轻不平衡的程度和提高性能。然而,似乎样本决策边界附近使苦恼其余的决策。Borderline-SMOTE [3)作用于样品使用击打技术决策边界附近。图2显示插值法生成合成样品。

然而,样本之间的插值用于击打或Borderline-SMOTE限制实际探索向边界的能力。我们会利用集成支持向量机,决策边界附近的样本特征大致可以从支持超平面第一SVM学习。要仔细考虑,提出了一种新的合成少数过采样方法所示算法3和图3描述了我们的思想。

(1)输入样本的决策边界附近在哪里少数人的设置吗
和它的最近的邻居表示为
(2)选择一个随机数字产生一个均匀分布
(3)输出一个新的合成样品为少数

在这里支持超平面的距离是决定超平面对应于第一个支持向量机从训练数据集的不平衡。

很明显,合成小样本往往正确斜细和外推法来检测边界的决定当工作属于内心的一面支持超平面如图3表示。

2.3.2。装袋的推断Borderline-SMOTE SVM

整体方法可以有效地提高模型的泛化能力。这里,小说整体方法提出了解决IDL问题称为装袋的推断Borderline-SMOTE svm (BEBS)。

对于支持向量机,它是指出,支持与积极的拉格朗日乘数法向量决定最终的区别的边界。所以我们采用外推Borderline-SMOTE支持向量属于少数缓解不平衡水平。

整个关于BEBS可以阐明如下。最初的支持向量包含边缘信息大致确定通过基础支持向量机从失衡数据集。在初始化过程中,一个合适的内核和hyperparameter通过交叉验证选择g表示被选为最优指标。然后原来的支持向量属于少数被标记为和一种新颖的数据集为进一步引导是由删除。引导上执行在把每个采样结果在的规模。此外,聚合的数据集和被推断Borderline-SMOTE操作。之后,合并后的数据集和新合成的样品用于meta-SVM训练和原始数据不取样工作作为优化参数的验证集。最后,svm聚集在同一重量形成整体分类器(参见算法4)。

(1)输入整个数据集支持向量机的数量过采样率
推断Borderline-SMOTE。
(2)列车在原始数据集适应软边缘SVM通过选择一个合适的
内核和hyper-parameter在交叉验证和确定支持向量
属于少数民族
(3)从1到:
(4)引导的获得采样结果和
不是采样
(5)工会设置为和操作外推
borderline-SMOTE抽样比例在上面。
(6)曼联和合成样本作为训练数据集获得
软边缘支持向量机与hyper-parameter选择的验证
性能。
(7)输出支持向量机的合奏

具体地说,在我们的模型最初设置为默认参数和下面的实验共享相同的参数。

2.3.3。BEBS背后的直觉

BEBS是聚合不同的支持向量机的核心思想,修改初始决策边界通过构造合成少数样本向正确的方向。这些合成样品推测边界描述实际的决定。svm的差异源于两个方面。一个是随机选择的的采样率和其他源于训练集的差异由于引导操作。此外,训练数据不是采样迷航的引导是利用探索一个更好的hyperparameter作为验证组;只是见下表1。所有这些启发式策略来提高模型的泛化。

3所示。结果与讨论

3.1。实验设置和指标

选择数据集进行实验从UCI机器学习库(38),其中大部分是相当不平衡。这里我们只处理二元分类问题,所以一个类标签是为少数其余合并为多数在多级情况下类似于其他研究者的预处理(25,39,40]。表2显示了数据集的详细信息包括样本容量,属性的数量,少数样品和多数样本的数量,和不平衡比率。不平衡率被定义为多数人的基数分裂的结果,少数人的基数,这可能会严重影响分类器的性能。

传统合奏AdaBoostM1和随机森林方法选择进行比较。进一步说明应注意是AdaBoostM1和随机森林可以被视为技术缓解失衡由于weight-adjustment AdaBoostM1误差和out-of-bag性能监控机制的随机森林。我们也验证不平衡影响最初的支持向量机。一些先进的和常用的算法,包括随机采样,随机采样过密,击杀,SMOTE-ENN [41)进行上述数据集,所有这些将证明新算法的有效性。此外,随机采样,随机采样过密,击杀,SMOTE-ENN结合支持向量机进行进一步的分类。

在二进制数据的分类问题,混淆矩阵提供了一个直观的衡量评价分类器的性能。如表中所示3,FN是样本的数量确定为负的错误和其他类似的可以理解。

分类器被定义为的准确性

对于IDL的问题,并不像之前描述的有说服力的评估准确性。最常用的评估标准对IDL g表示严格惩罚有偏见的模型。g表示是一个指数平均几何两个类的召回率。

很明显,只有当两个召回率保持在更高层次可以g表示收到更好的价值。因此,g表示可以被认为是精度和召回率之间的权衡。

另一个评价指标惩罚不平衡的效果分数定义为

调和平均数指数和应用参数控制处罚的程度。在这里选为1。

分数显示类似的性能和一致性与g表示在我们的实验发现,但它的精度和召回率平均一个类在本质上。

此外,少数在一个分类器的精度也在IDL中起着至关重要的作用,大多数情况下显示其意义就在介绍描述。所以精度评估过程中考虑。积极的精度来标示

获得一个健壮的结果进行评估,我们拿起风险最小化作为标准的最低标准二进制类被定义为相应的结果。以精度为实例,虽然计算精度两类可以在测试过程中,选择较小的一个,如下:

3.2。结果分析

3.2.1之上。性能分析

我们分别平均g表示的结果,分数,精度在10独立。表4最终结果在不同的数据集和前三的每一行都贴上大胆。直接的结论来自BEBS表,随机森林,AdaBoostM1位于控制董事会的大部分时间和行为稳定在三个指标。某些原因占这是小心的需求适应对所有其他参数采样算法是至关重要的。然而,最初的SVM得到更糟糕的结果数据集的生育,皮马人,细分,细分3,分数在帕金森相当低。解释这种现象验证了支持向量机在不平衡情况下的倾斜。很明显,随机采样过密,随机采样,SMOTE-ENN敏感的数据集,因为所有他们需要手动设置参数根据特定的情况而不是自动调整。击杀这三种方法表现优异,但比我们提出BEBS效率较低。显然,BEBS这三个指标表现良好稳定受益于直观extrapolation-SMOTE方法涉及边界信息和随机性从引导技术。提供一个更直接的认知,我们排名方法的性能测试集减少订单从g表示的角度来看,分数和精度。的平均排名算法6日数据集都是显示在图4。从泛化和性能考虑,随机森林和AdaBoostM1仍有价值的试验没有额外的信息。

(一)

(b)

(c)

具体来说,借助SPSS (42),我们进行了学生的搭配以及,区别是设置为95%的置信区间,检查10独立结果相比的重要性。10独立形式的结果相比BEBS和其他一些算法。自七模型为比较,选择七统计每个数据集上的测试结果。我们在标准g表示循环等过程,分数,每个数据集和精度。此外,七对测试有三种可能的结果,分别显著弱于BEBS和领带,明显强于BEBS。精确的解释关于领带的结果是当平均10个独立的结果在某些指标数据集使用模型高于或低于BEBS但并不重要的分析对吗以及,我们直接属性差异背后的原因的随机性而非机理模型和标签的成对比较领带。标签赢意味着我们BEBS平均的结果不仅优于比较模型还通过假设检验。同样的损失。结合表4意义的结果测试终于转换映射到元组的形式赢得∖领带∖损失。然后我们统计频率为赢,领带,和损失在7-paired比较。因此,计算结果表中的安排5。

从表5,得出了一些明显的结论如下。从g表示的角度来看,大约76.2%比较结果显示BEBS显著优于其他模型是计算成对比较42的总数除以赢得重要的整个数据集32。没有输给别人的比率分数占据大约83.3%,同时成对比较的总数64.3%比例显示优越的结果使用BEBS显著与他人相比。精度,只有4.8%的总数量明显比其他模型虽然穷领带数量保持38.1%左右的比例。总之,BEBS产生更好的结果经过一系列的实验和统计测试过程。下一部分将做一些研究BEBS和一些敏感性分析的稳定性实验。

3.2.2。敏感性分析

注意到我们的算法BEBS包含两个关键hyperparameters调整,也就是说,metaclassifiers的数量和外推Borderline-SMOTE过采样率。无论变化前的实验数据集,hyperparameters被设置为固定值和采样率= 0.5。性能应该影响违反当这样的参数。调查BEBS的鲁棒性,我们在准备数据集上执行BEBS hyperparameters的可调范围。建议过,g表示能够很好描述公平结果实行处罚不平衡的结果。进行了敏感性分析对两个hyperparameters和g表示是我们专注于我们的目标。

固定采样率为0.5,我们不等metaclassifiers的数量在这一期间10步长和平均10独立结果对应的固定参数。如图5说明,六polyline稳步运行增加,g表示的最大范围的值六折线不大于0.15。结果表明BEBS不敏感的数量metaclassifiers范围。

此外,我们采用抽样的比例在数据集上的步长0.1 metaclassifiers的数量是维持100年。实验结果如图6。点在折线图是平均g表示从10独立结果给定一组参数值。一个有趣的事实在生育倾向这一事实,撒谎玻璃7,细分3是重要的性能在不断提高,提高采样率。这种现象可以归因于不平衡数据集的比例。在这些不平衡比率不低于6表的统计信息2。更多合成少数样本往往对检测的实际边界作出贡献。所以可以得出一个结论,当不平衡比保留一个更高的水平,抽样比例也应该适应减轻过度拟合情况。结果帕金森和皮马人表示当采样率高于阈值下降,所以更高的采样率不极其不平衡的数据集可能会损害最终性能。总的来说,BEBS似乎敏感重采样率和不平衡率应参与的一个不错的选择参数。

4所示。结论

本文提出了一种小说整体方法称为BEBS处理二进制的IDL的情况。BEBS是框架采用一种自适应采样方法推断Borderline-SMOTE和引导聚合前不平衡数据集。这种变体攻击利用的边界信息来源于最初的SVM和装袋的机制有助于缓解过度拟合,促进模型的泛化能力。决定边界的斜向少数民族当使用SVM的帮助下可以修改合成样品。在我们的实验中,结果每个独立数据集运行10次以确保假设检验的有效性,进一步统计记录显示BEBS可以显著优于一些代表性的IDL算法在大多数时间。敏感性分析说明了合奏的规模之间的关系,抽样比例,和性能,表明BEBS将广泛增强后根据不平衡数据集的比例适当的适应。未来的研究将总结通用算法性能之间的关系和其他属性和属性数量和样本的基数。多级不平衡情况下(43)也被认为是在以后的挖掘任务。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

引用

h·e·a·加西亚和他“学习不平衡数据,”IEEE工程知识和数据,21卷,不。9日,第1284 - 1263页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
A·埃斯塔布鲁克·t·乔,n . Japkowicz”多个重采样方法学习不平衡的数据集,”计算智能,20卷,不。1,18-36,2004页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
h·汉W.-Y。王,B.-H。毛,“Borderline-SMOTE:一种新的over-sampling方法在不平衡数据集学习,”智能计算的发展施普林格,页878 - 887年,2005年。
视图: 谷歌学术搜索
n v·乔:Japkowicz, a . Kotcz”社论:特殊问题学习不平衡的数据集,”ACM SIGKDD探索通讯》第六卷,没有。1、1 - 6,2004页。
视图: 出版商的网站 | 谷歌学术搜索
美国Bhowan、m·约翰斯顿和m .张“开发新健身功能遗传编程对不平衡数据分类,“IEEE系统,人,控制论,B部分:控制论,42卷,不。2、406 - 421年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
黄永发。雪和p .大厅,“为什么平衡class-unbalanced数据改善线性判别分析AUC ?”IEEE模式分析与机器智能,37卷,不。5,1109 - 1112年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
r . Batuwita和诉Palade类不平衡学习支持向量机方法,”不平衡学习:基础、算法和应用程序,页83 - 99年,约翰·威利& Sons,柏林,德国,2013年。
视图: 出版商的网站 | 谷歌学术搜索
诉洛佩兹,a·费尔南德斯s加西亚诉Palade f . Herrera,”一个洞察与不平衡数据分类:实证结果和当前的趋势在使用数据的内在特性,”信息科学卷,250年,第141 - 113页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
f .教务长,“机器学习从101年不平衡数据集”诉讼AAAI 2000车间的不平衡数据集,2000年,页1 - 3。
视图: 谷歌学术搜索
l·皮雷约和美国迪克,”小说重采样策略应用到软件缺陷预测,”《北美模糊信息处理学会年会(NAFIPS ' 07)2007年6月,页69 - 72。
视图: 出版商的网站 | 谷歌学术搜索
j·j。朱阴,大肠,W.-T。赵”,小说厂商积极学习的入侵检测方法,”学报》第七届国际会议在机器学习和控制论(ICMLC ' 08)IEEE,页1099 - 1104年,昆明,中国,2008年7月。
视图: 出版商的网站 | 谷歌学术搜索
k . Zahirnia m . Teimouri r,压力和a . Salaq”诊断的2型糖尿病患者使用厂商学习,”学报》第五届国际会议上计算机和知识工程(ICCKE 15)2015年10月,页158 - 163。
视图: 出版商的网站 | 谷歌学术搜索
m·库巴特·r·c·Holte, s . Matwin“机器学习对石油泄漏的检测卫星雷达图像,”机器学习,30卷,不。2 - 3、195 - 215年,1998页。
视图: 出版商的网站 | 谷歌学术搜索
t·福西特和f .教务长,“适应性欺诈检测,”数据挖掘和知识发现,1卷,不。3、291 - 316年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
Triguero, s . del Rio诉洛佩兹,j . Bacardit j·m·贝尼特斯和f . Herrera ROSEFW-RF:获胜者算法ECBDL的14大数据竞争:一个极其不平衡的大数据生物信息学问题,“以知识为基础的系统卷,87年,第79 - 69页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
y弗洛伊德和r·e·Schapire”决策理论泛化的在线学习和提高应用程序,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学)卷。904年,23-37,1995页。
视图: 谷歌学术搜索
w .风扇,s·j·斯多夫,j . Zhang和p . k . Chan“AdaCost:厂商误分类提高”学报》第16届国际会议上机器学习(ICML ' 99)流血,页97 - 105年,斯洛文尼亚,1999。
视图: 谷歌学术搜索
h . Masnadi-Shirazi和n .塞·伐斯冈萨雷斯,他“厂商提高。”IEEE模式分析与机器智能,33卷,不。2、294 - 309年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。
视图: 谷歌学术搜索
t·乔和n . Japkowicz”类失衡与小分离的,”ACM SIGKDD探索通讯》第六卷,没有。1,40至49,2004页。
视图: 出版商的网站 | 谷歌学术搜索
n v·乔,a . Lazarevic l . o .大厅,和k·w·鲍耶,“SMOTEBoost:改善提高少数类的预测,”在数据库知识发现:PKDD 2003: 7日欧洲的原理和实践的会议在数据库知识发现,Cavtat-Dubrovnik,克罗地亚,2003年9月22日——26日。诉讼卷,2838年,页107 - 119,施普林格,柏林,德国,2003年。
视图: 出版商的网站 | 谷歌学术搜索
g .吴邦国委员长和e . y . Chang,“KBA:内核边界对齐考虑数据分布不平衡,“IEEE知识&数据工程,17卷,不。6,786 - 795年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
s . Maldonado r·韦伯,f . Famili”为高维特征选择class-imbalanced使用支持向量机的数据集,”信息科学卷,286年,第246 - 228页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
l . m . Liu苗,d,“厂商两阶段学习软件缺陷预测,”IEEE可靠性,卷63,不。2、676 - 686年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
z太阳,问:歌曲、朱x h .太阳,徐,和y周,“小说整体不平衡数据分类的方法,”模式识别,48卷,不。5,1623 - 1637年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
X.-Y。刘建,吴,Z.-H。周:“探索性欠采样class-imbalance学习”,IEEE系统,人,控制论,B部分:控制论,39卷,不。2、539 - 550年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
r . Batuwita诉Palade,“有效的重采样方法与不平衡数据集训练支持向量机,”学报第六届IEEE国际代表大会上计算智能(WCCI 10) -国际联合会议上神经网络(IJCNN 10)2010年7月、西班牙的巴塞罗那。
视图: 出版商的网站 | 谷歌学术搜索
吴g . e . y . Chang,“不平衡数据集学习、分组界限对齐”学报》国际会议机器学习学习研讨会不平衡数据集2 (ICML ' 2003)页49-56,华盛顿,美国,2003年。
视图: 谷歌学术搜索
m . Galar A·费尔南德斯e . Barrenechea h . Bustince f . Herrera,“回顾集合体的类不平衡问题:装袋,提振,和混合型方法,”IEEE系统,人,控制论,C部分:应用程序和评论,42卷,不。4、463 - 484年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
m . Galar a·费尔南德斯、大肠Barrenechea和f . Herrera”EUSBoost:增强乐团的高度不平衡数据集进化的欠采样,”模式识别,46卷,不。12日,第3471 - 3460页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
m . Galar b。杰哈卡胡奇Ł。Jeleń,f . Herrera”进化欠采样提高乳腺癌恶性肿瘤的不平衡分类”应用软计算杂志,38卷,第726 - 714页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
x Shi, g .徐、f .沈和j .赵”解决P300检测的数据不平衡问题通过随机under-sampling装袋svm,”《国际联合会议上神经网络(IJCNN 15),2015年7月。
视图: 出版商的网站 | 谷歌学术搜索
v . n . Vapnik统计学习理论、适应性和学习系统的信号处理、通信、控制、约翰·威利& Sons,纽约,纽约,美国,1998年。
视图: MathSciNet
f . Rosenblatt“感知器:一个概率模型为信息存储和组织在大脑中,“心理评估,卷65,不。6,386 - 408年,1958页。
视图: 出版商的网站 | 谷歌学术搜索
博伊德和l . Vandenberghe凸优化》,剑桥大学出版社,2004年。
视图: 出版商的网站 | MathSciNet
Z.-H。周,整体方法:基础和算法,CRC出版社,2012年。
视图: MathSciNet
a . Liaw和m·维纳“randomForest分类和回归,”R新闻,卷2,不。3,在18到22岁,2002页。
视图: 谷歌学术搜索
c·布莱克和c·j·梅尔兹UCI机器学习数据库的存储库,1998年。
m . Zięba和j . m . Tomczak”,提高了支持向量机主动学习策略对不平衡数据,”软计算,19卷,不。12日,第3368 - 3357页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
y, z, y, x,和l .王”最大的利润和最小体积超球面与弹球机损失不平衡数据分类,“以知识为基础的系统卷,95年,第85 - 75页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
g·e·巴蒂斯塔,r . c . Prati和m . c . Monard”研究平衡机的几种方法的行为学习训练数据,”ACM SIGKDD探索通讯》第六卷,没有。1页,2004页。
视图: 出版商的网站 | 谷歌学术搜索
m . j . NorušisSPSS / PC +在IBM PC / XT /,1986年SPSS。
加西亚,z, b。杰哈卡胡奇a . Rosales-Perez f . Herrera,“授权one-vs-one分解与整体学习参与不平衡数据,”以知识为基础的系统卷,106年,第263 - 251页,2016年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

7839年

下载

3672年

引用