不平衡学习共识Clustering-Based欠采样方法

文摘

类不平衡是一个重要的问题,在机器学习应用程序遇到一个类(称为,少数类)有非常小的实例数量和其他类(称为,大多数类)有巨大数量的实例。不平衡数据集可以在几个实际应用具有十分重要的意义,包括医疗诊断、恶意软件检测、异常识别、破产预测和垃圾邮件过滤。在本文中,我们提出一个共识集群based-undersampling不平衡的学习方法。在这个方案中,多数类的实例的数量undersampled利用clustering-based方案达成共识。在实证分析中,44个小规模和大规模不平衡分类基准2利用。聚类方案的共识,五个聚类算法(即k则,k模式,k——+ +、自组织映射和戴安娜算法)及其组合考虑在内。在分类阶段,5个监督学习方法(即朴素贝叶斯、逻辑回归支持向量机,随机森林,和k最近邻居算法)和三个合奏学习者的方法(即演算法、装袋和随机子空间算法)是利用。实证结果表明,文中提出的异构共识clustering-based欠采样方案收益更好的预测性能。

1。介绍

类不平衡是一个重要的研究问题在机器学习中,属于一个类的实例的比例(称为,少数类)非常小,而其他类的实例或类的比例(称为,大多数类)是非常高的。不平衡数据集提出几个挑战传统的监督学习方法。传统的监督学习方法(如支持向量机、决策树)可以为平衡数据集构建可行的分类模型。因为不平衡数据集遭受超过多数类的实例——少数类的实例,倾斜分布可能导致退化的预测性能(1,2]。监督学习过程是基于全球评估使用的措施(如分类精度)。因此,学习不平衡数据集可以有偏向多数类,可能倾向于分类和分类模型的少数类的实例(3]。监督学习算法会对少数类的实例作为噪声或离群值,和嘈杂的数据和异常值可能被视为少数类的实例(4]。此外,分类模型的样本数据集的分布可能是具有挑战性的学习由于少数类的实例的重叠性质与其他类的实例(5]。

不平衡数据集可能遇到的一些现实问题和应用程序,包括软件故障识别(6),医学诊断(7)、恶意软件检测(8)、异常识别(9],破产预测[10),和垃圾邮件过滤11]。数据挖掘问题中提到的进步,为少数类实例的数量很少。然而,少数类的实例的识别可能更重要。例如,癌症(恶性肿瘤)的误分类非癌性(良性)在医学诊断可以有严重的影响。同样,欺诈性交易实例的数量可以很少。然而,它是至关重要的建立预测模型,可以识别欺诈性交易融资。因此,正确处理不平衡数据集是机器学习的一个重要研究问题。

有效地应对不平衡的数据集分布和构建健壮和高效的分类方案,数据预处理方法利用结合机器学习算法。类的方法用来解决失衡问题主要可以分为四类算法水平方法,数据级方法,降低成本的方法,方案和基于集成学习的方法12]。算法级方法寻求适应监督学习算法学习偏向于少数类的实例(13]。数据级方法寻求平衡不平衡数据集的实例,这样偏态分布的影响可以消除学习过程(14]。为了这样做,数据级方法利用重采样的训练数据集。敏感的方法旨在最小化总成本错误的少数和多数类通过定义错误分类成本(15]。此外,基于集成学习方法还用于类不平衡。系综分类器旨在提高一个学习算法相结合的预测性能的预测几种学习算法。在整体不平衡的方法学习,几个策略(如装袋采样,采样厂商学习,提高和重采样)已经结合(12]。在数据级方法中,数据预处理和独立处理监督学习算法的学习过程。此外,较敏感的方法,涉及设置成本矩阵不平衡数据集,数据级预处理(重采样)是一个可行的工具申请人员不是领域的专家(1]。因此,对不同方法不平衡学习、数据级方法,基于重采样的不平衡数据集,经常被使用。的两个主要方向在数据级方法欠采样和采样过密。为了获得与平衡类数据集分布,原始不平衡数据集可以由过采样重新取样少数类或欠采样多数类(16,17]。此外,有几种混合方法,结合采样和过采样方法,如SMOTEBoost OverBagging, UnderBagging [18- - - - - -20.]。与过采样,采样收益率更好的预测性能(21]。然而,欠采样可能导致消除一些有用的代表多数类的实例(22]。因此,识别有用的代表性实例在欠采样的性能预测性能的监督学习算法学习不平衡。作为回应,聚类方法可以用来识别有用代表多数类的实例在欠采样不平衡学习(23- - - - - -25]。

在本文中,我们提出一个共识clustering-based欠采样方法不平衡学习。在这个方案中,多数类的实例的数量undersampled利用clustering-based方案达成共识。有大量的聚类算法在文献中。然而,没有单一的聚类算法可以产生最好的聚类结果在所有场景,是没有免费的午餐定理声称[26]。在这方面,提出方案旨在结合不同的聚类算法的决策,克服单个聚类算法实现的局限性更加健壮的/有效的聚类结果。通过这种方式,提出方案旨在确定更好的代表多数类的实例在欠采样不平衡学习。在实证分析中,44个小规模和2大规模不平衡分类(与不平衡率介于1.8和163.19之间)被利用。在实证分析,预测性能两个clustering-based框架(即同构和异构共识集群方案)与三个数据级方法比较(即SMOTEBoost算法(16],RUSBoost [27[],underBagging算法28,29日])。聚类方案的共识,五个聚类算法(即k则,k模式(30.),k——+ + (31日),自组织映射(32,戴安娜算法(33和他们的组合被考虑。在分类阶段,5个监督学习方法(即朴素贝叶斯、逻辑回归支持向量机,随机森林,和k最近邻居算法)和三个合奏学习者的方法(即演算法、装袋和随机子空间算法)是利用。实证结果表明,文中提出的异构共识clustering-based欠采样方案收益更好的预测性能。我们所知,提出方案是首先使用聚类不平衡学习范式的共识。本文的其余部分组织如下。部分2简要回顾了不平衡状态的艺术学习。部分3介绍了集群based-undersampling方案提出共识。部分4介绍了实证分析结果,部分5给出了结论。

不平衡学习吸引了极大的研究兴趣。正如之前提到的,处理不平衡数据集的方法可以大致分为数据级方法,算法水平方法,降低成本的方法,方案和基于集成学习方法。与其他方法相比,数据级方法有更大的潜在使用不平衡学习因为他们寻求改善数据集的分布,而不是依靠基于监督学习增强[34]。本节简要回顾了相关工作不平衡学习与强调数据级的方法。数据级方法(抽样方法)可以主要分为两类,欠采样和采样过密。过采样和采样方法可以使用有效的类不平衡。

过采样方法旨在获得一个平衡的数据集通过生成合成少数类的实例。相比之下,欠采样方法旨在获得一个平衡的数据集的训练集的多数类的实例。例如,Anand et al。35]介绍了一个基于距离的欠采样方法类不平衡。监督式学习的方法可以很容易地构建学习模型实例远离边界的决定。作为回应,提出方案旨在消除多数类的实例,远非决定边界,同时保留的实例在训练集的决策边界附近。通过这种方式,平衡训练集构造和平衡的数据集是利用结合加权支持向量机。同样,李et al。36)利用矢量量化算法来降低多数类的实例。提出方案采用不平衡学习的支持向量机。在另一项研究中,Kumar et al。37实证研究了欠采样的影响在聚类算法的性能。在另一项研究中,太阳et al。22)提出了一个基于欠采样不平衡学习分类方案。提出方案,多数类的实例被分为几个分区具有类似与少数类的实例数量。通过这种方式,平衡的数据集生成。平衡数据集训练在二元分类器构建分类模型。最后,二元分类器的预测相结合的整体方案,确定最终结果。在另一项研究中,D 'Addabbo和Maglietta [38]介绍了选择性sampling-based不平衡学习的方法。基于这样的观察:决定边界附近的实例相关/至关重要,决定边界附近的多数类的实例。在另一项研究中,Ha和李39)提出了一种进化欠采样方案类不平衡。在这个方案中,利用遗传算法选择的多数类的实例通过最小化之间的损失分布和原始之间平衡的数据集。在另一项研究中,林等。24介绍了两种不平衡学习clustering-based欠采样的方案。在这个方案中,集群的数量确定是基于少数类的实例的数量,和k算法则采用undersample多数类的实例。最近,Shobana和Battula [40]给出了一个基于欠采样设计方案多样化分布不平衡学习和集群。在这个方案中,k算法则是用来确认和删除罕见的实例和离群值。

在最近的一项研究中,郭和魏41)提出了一个混合动力方案基于聚类和不平衡学习的逻辑回归。在提出的方案中,聚类是利用向集群分区的多数类的实例。同样,Douzas et al。42)综合k——聚类算法和合成少数过采样技术来消除噪声数据和类内有效地取得一个平衡的数据集。最近,韩寒et al。43)提供了一个发布出去是依靠不平衡学习的方法。提出方案,少数类的实例被分成组嘈杂的情况下,不稳定的情况下,边界情况下,稳定实例基于实例的位置信息。提出方案已用于提高医学诊断的预测性能。在另一项研究中,蔡et al。44]介绍了欠采样方法对不平衡学习,结合聚类分析和实例的选择。

正如之前提到的,欠采样是一个简单的重采样策略处理类不平衡问题。然而,欠采样可能消除潜在的有用/信息多数类的实例,这可能导致退化的预测分类方案的性能。摘要共识clustering-based框架提出了识别信息多数类的实例通过使用集群整体的方法。

3所示。提出共识Clustering-Based欠采样框架

欠采样和过采样方法可以成功地用于类不平衡。为了获得一个健壮的分类方案预测性能、高欠采样方法应该保留有用信息代表多数类的实例的训练集,聚类(聚类分析)是一种无监督方法分配相似实例(对象)到同一集群的距离或相似。因此,聚类算法可以用来识别有用的多数类的实例在欠采样。使用集群在欠采样、实例的多数类产量分布到集群,这样类似的实例被组合在一起在同一个集群。遇到的主要问题之一,应用聚类算法的选择一个合适的算法对于一个给定的问题。每个聚类算法具有强和弱特征,聚类算法得到的结果是基于数据集的特点,极大地影响了算法的参数,等聚类算法受到不稳定,和相同的聚类算法可以产生一个特别不同的分区不同的参数设置。这个问题的一个可能的解决方案是使用多个聚类算法在相同的数据集,并结合个人的输出聚类算法。这个过程称为共识集群(或集群集合体)。共识集群旨在结合不同的聚类算法的聚类结果,最终的聚类得到更好的聚类质量(45]。本文两个合奏代方案提交给undersample基于共识的多数类的实例集群,即同构和异构整体方案介绍。

3.1。共识函数

共识集群包括了过程:在阶段1中,集群生成合奏,在第二阶段,共识函数用于从单个集群获得最后的分区算法。有直接的方法(如简单的投票,投票,增量和标签对应搜索),基于特征的方法(例如迭代投票一致,混合模型,聚类聚合和二次互信息),成对相似性方法(如凝结的层次模型)和图论方法(如基于集群的相似性分区算法和共享最近的neighbors-based合路器)(45]。出于聚类算法在不平衡学习的成功24)和增强的聚类质量得到一致聚类方案(46),我们试图找到一种有效的共识clustering-based方案不平衡学习。在这方面,我们已经进行了实验分析和几个不同的共识函数。以来最高的预测性能是通过直接的方法,可用的功能广泛的共识,三个共识函数选择的研究。

3.1.1。简单的投票函数(SV)

让π_r表示引用分区,让表示要重新命名分区,一个应变矩阵Ω∈R^K×K了,K对应于集群的数量。应变矩阵的条目(Ωl,l′)是由同现统计计算基于以下方程(45岁的43]: 在哪里如果和否则。基于获得的标签对应基于方程(1),简单的投票共识的目的是为了最大化目标函数,给出了在哪里是一个标签对应矩阵在分区的标签吗π_r和。首先,引用分区(π_r集群)是随机选择的分区中。然后,剩下的分区重新命名基于分区遵循上述程序的引用。最后,多数投票方案是用来确认每个实例的共识标签。

3.1.2。增量投票功能(IV)

在增量投票方案(IV),数据分区多次添加到集群合奏。让∈R^N×K表示分区 1如果一个数据点的值属于集群。否则,值0。让表示矩阵的中间分区和表示分区的数量的标签对应于数据点吗。增量voting-based共识的过程初始化建设应急矩阵Ω∈R^K×K。应变矩阵的条目由下列方程(48]: 在哪里如果。否则,值0。在获得应变矩阵,矩阵的条目分区(用V_{g + 1})计算的

基于增量的组合米数据分区,每个数据点的共识标签决定基于下列方程(45]:

3.1.3。标签对应的搜索

在标签对应的搜索(LCS),对应的问题是模仿作为一个优化问题(49]。法的目的是获取共识的分区,这样总体协议在不同的分区是最大化。让R_{c,年代}表示的向量表示集群c的系统年代。的的元素R_{c,年代}代表了集群的后验概率c的数据点。{集群之间的协议c,年代},{c′,s′}可以定义为通过以下方程:

如果一个集群c的系统年代分配给metacluster米, 需要的值1和0的值。表示指定集群的奖励c对metacluster米,它可以被定义为由以下方程:

基于方程(6)和(7),标签对应的目标是最大化下面的方程中定义的参数(49]: 受

3.2。均匀一致Clustering-Based欠采样框架

让D表示两类不平衡数据集,哪里有一个类(称为,少数类)包含少量的实例还有另一个类(称为,大多数类)含有极高量的实例。让我们表示的数量对应于多数和少数类的实例n和米,分别。最初,k倍交叉验证方案用于将不平衡数据集划分为训练集和测试集的子集。然后,实例的数量在大多数类(n)是undersampled所以它包含相同数量的少数类实例(米)。在欠采样,均匀一致聚类方案利用undersample多数类。聚类算法需要集群作为输入参数的数量。我们采用了集群框架提出了24]。因此,实例的数量少数类(米)是作为集群的数量(k)。在均匀一致聚类方案中,利用相同的聚类算法的聚类算法,具有不同的参数设置。在这个方案中,五个聚类算法(即k则,k模式,k——+ +,利用自组织映射和戴安娜算法)作为基聚类算法。

通过这种方式,多样化的基本聚类算法获得的分区。分区基础获得的聚类算法相结合通过共识函数来获取最后一个分区。获得最终的功能分区与共识,三个共识函数(即简单的投票功能,增量投票功能,和标签对应搜索算法)是利用。最后一个分区的每个集群中心选为绝大多数类的实例。通过这种方式,一个平衡的训练集。利用平衡训练集训练监督学习算法(即朴素贝叶斯、逻辑回归、支持向量机,随机森林,和k最近邻居算法)和集成学习方法(即演算法、装袋和随机子空间算法)。这个方案的一般阶段在图中进行了描述1。在图2均匀一致的一般步骤clustering-based欠采样计划(CONS1)概述了。

3.3。异构共识Clustering-Based欠采样框架

在异构集群方案(CONS2)共识,多样性聚类算法实现中使用不同的聚类算法为基础的聚类算法。如上所述,每个聚类算法都有自己的优点和缺点,可以产生承诺的结果在不同的数据集。分区通过不同的聚类算法可以互为补充,可以产生更高的聚类质量。异构共识clustering-based欠采样框架遵循相同的阶段了,如图1。唯一的区别是,异构集群框架共识利用5种不同的聚类算法,作为基聚类算法,而均匀一致的集群框架利用相同的聚类算法和不同的参数设置,作为基聚类算法。的一般结构异构共识clustering-based欠采样计划总结在图3。在异构共识clustering-based欠采样方案,k倍交叉验证是用于将不平衡数据集分为训练集和测试集。然后,实例的数量在大多数类undersampled使用异构集群方案达成共识。在这个方案中,利用不同的聚类算法为基础的聚类算法。提出的方案可以配置不同的聚类算法,然而,我们结合五个基本聚类算法(即K则,K模式,K——+ +、自组织映射和戴安娜算法)。分区通过不同的聚类算法相结合的共识函数。最后一个分区的每个集群中心选为绝大多数类的实例。通过这种方式,一个平衡的训练集。欠采样方案的预测性能检查与监督学习方法的使用和集成学习方法。

4所示。实验分析及结果

本节介绍了实证分析的共识clustering-based欠采样方案。

4.1。数据集

检查的有效性提出了欠采样方法,我们利用2 44小规模和大规模的不平衡分类基准。不平衡的分类标准是用于Galar et al。12]。不平衡比率小规模基准测试范围从1.8到129年,和实例的数量范围从130年到5500年。大规模的基准不平衡比率范围从111.46到163.19,和实例的数量范围从102294年到145751年。获取测试和训练集的监督学习方法,我们利用k倍交叉验证计划,我们划分训练集和测试集80%和20%的5倍交叉验证方案。关于不平衡的基本描述信息分类标准提出了表1。


数据集	数量的数据样本	数的功能	不平衡率

小规模数据集
Abalone9-18	731年	8	16.68
Abalone19	4174年	8	128.87
Ecoli-0_vs_1	220年	7	1.86
Ecoli-0-1-3-7_vs_2-6	281年	7	39.15
Ecoli1	336年	7	3.36
Ecoli2	336年	7	5.46
Ecoli3	336年	7	8.19
Ecoli4	336年	7	13.84
Glass0	214年	9	3.19
Glass0123vs456	192年	9	10.29
Glass016vs2	184年	9	19.44
Glass016vs5	214年	9	1.82
Glass1	214年	9	10.39
Glass2	214年	9	15.47
Glass4	214年	9	22.81
Glass5	214年	9	22.81
Glass6	214年	9	6.38
哈伯曼	306年	3	2.68
Iris0	150年	4	2
New-thyroid1	215年	5	5.14
New-thyroid2	215年	5	4.92
Page-blocks0	5472年	10	8.77
Page-blocks13vs2	472年	10	15.85
皮马人	768年	8	1。9
段	2308年	19	6.01
Shuttle0vs4	1829年	9	13.87
Shuttle2vs4	129年	9	20.5
Vehicle0	846年	18	3.23
Vehicle1	846年	18	2.52
Vehicle2	846年	18	2.52
Vehicle3	846年	18	2.52
Vowel0	988年	13	10.1
威斯康辛州	683年	9	1.86
Yeast05679vs4	528年	8	9.35
Yeast1	1484年	8	2.46
Yeast1vs7	459年	8	13.87
Yeast1289vs7	947年	8	30.56
Yeast1458vs7	693年	8	22.1
Yeast2vs4	514年	8	9.08
Yeast2vs8	482年	8	23.1
Yeast3	1484年	8	8.11
Yeast4	1484年	8	28.41
Yeast5	1484年	8	32.78
Yeast6	1484年	8	39.15

大规模数据集
乳腺癌	102294年	117年	163.19
蛋白质同源性预测	145751年	74年	111.46

4.2。实验的程序

在实证分析中,提出共识clustering-based欠采样方案已经被七相比最先进的方法。使用方法在分析包括UnderBagging4 (UB4) UnderBagging24 (UB24) RusBoost1 (Rus1) SMOTEBagging4 (SBAG4) UnderBagging1 (UB1) clustering-based欠采样基于集群中心(中心),并根据最近的邻居clustering-based欠采样的集群中心(Centers_NN) [12,24]。为了检查预测性能变化数据得到的平衡策略,通过C4.5算法获得的结果没有数据平衡也被视为基准的结果。聚类方案的共识,五个聚类算法(即k则,k模式,k——+ +、自组织映射和戴安娜算法)及其组合考虑在内。在分类阶段,5个监督学习方法(即朴素贝叶斯、逻辑回归支持向量机,随机森林,和k最近邻居算法)和三个合奏学习者的方法(即演算法、装袋和随机子空间算法)是利用。在实证分析中,利用roc曲线下面积为评价指标。监督式学习的方法和先进的数据预处理方法,使用默认参数。均匀一致的clustering-based欠采样方案,我参数(基本聚类算法)的数量为5个。

4.3。实验结果和讨论

在表2,平均AUC值的最先进的方法和传统的聚类算法(即K则,K——+ +,K模式、自组织映射和戴安娜算法)。因为它从表中给出的结果可以观察到2,应用程序的数据平衡策略提高预测性能的AUC值。最低的平均AUC值通过C4.5算法应用了数据平衡。最高平均AUC值一般是通过UnderBagging4算法,和第二个最高平均AUC值一般是通过UnderBagging24算法。在实证分析中,五个基地集群算法已经被考虑。基聚类算法中,最高平均戴安娜AUC值获得的聚类算法。


	C4.5	UB4	UB24	Rus1	SBAG4	UB1	中心	Centers_NN	公里	公里+ +	KMOD	耶鲁大学管理学院	戴安娜

Abalone19	0.500	0.721	0.680	0.631	0.572	0.695	0.639	0.648	0.743	0.744	0.744	0.745	0.745
Abalone9-18	0.598	0.719	0.710	0.693	0.745	0.710	0.699	0.704	0.769	0.769	0.769	0.769	0.770
乳腺癌	0.867	0.927	0.929	0.929	0.925	0.922	0.889	0.914	0.839	0.847	0.854	0.845	0.857
Ecoli-0_vs_1	0.983	0.980	0.980	0.969	0.983	0.969	0.983	0.983	0.920	0.910	0.950	0.880	0.920
Ecoli-0-1-3-7_vs_2-6	0.748	0.745	0.781	0.794	0.828	0.726	0.715	0.726	0.774	0.774	0.775	0.775	0.775
Ecoli1	0.859	0.900	0.902	0.883	0.900	0.898	0.895	0.923	0.810	0.820	0.820	0.830	0.0.840
Ecoli2	0.864	0.884	0.881	0.899	0.888	0.870	0.864	0.878	0.800	0.810	0.820	0.820	0.830
Ecoli3	0.728	0.908	0.894	0.856	0.885	0.882	0.847	0.900	0.800	0.810	0.820	0.820	0.830
Ecoli4	0.844	0.888	0.899	0.942	0.933	0.891	0.905	0.862	0.800	0.810	0.810	0.820	0.820
Glass0	0.817	0.814	0.824	0.813	0.839	0.818	0.772	0.744	0.780	0.780	0.780	0.780	0.780
Glass0123vs456	0.916	0.904	0.917	0.930	0.946	0.894	0.914	0.902	0.810	0.810	0.820	0.830	0.840
Glass016vs2	0.594	0.754	0.625	0.617	0.559	0.636	0.645	0.708	0.773	0.773	0.773	0.773	0.774
Glass016vs5	0.894	0.943	0.943	0.989	0.866	0.943	0.943	0.943	0.810	0.820	0.830	0.840	0.850
Glass1	0.740	0.737	0.752	0.763	0.728	0.748	0.713	0.647	0.734	0.737	0.739	0.739	0.739
Glass2	0.719	0.769	0.706	0.780	0.779	0.758	0.658	0.756	0.783	0.783	0.783	0.783	0.783
Glass4	0.754	0.846	0.871	0.915	0.874	0.853	0.651	0.803	0.800	0.800	0.800	0.800	0.810
Glass5	0.898	0.949	0.949	0.943	0.878	0.949	0.888	0.949	0.820	0.830	0.840	0.840	0.850
Glass6	0.813	0.904	0.926	0.918	0.931	0.885	0.858	0.847	0.800	0.800	0.810	0.810	0.820
哈伯曼	0.576	0.664	0.668	0.655	0.656	0.658	0.620	0.595	0.715	0.715	0.716	0.717	0.718
Iris0	0.990	0.990	0.980	0.990	0.980	0.990	0.990	0.990	0.940	0.950	0.960	0.890	0.940
New-thyroid1	0.914	0.964	0.969	0.958	0.975	0.955	0.938	0.947	0.820	0.830	0.830	0.840	0.850
New-thyroid2	0.937	0.958	0.938	0.938	0.961	0.947	0.938	0.924	0.810	0.820	0.820	0.830	0.840
Page-blocks0	0.922	0.958	0.959	0.948	0.953	0.952	0.934	0.958	0.820	0.850	0.850	0.850	0.860
Page-blocks13vs2	0.998	0.978	0.975	0.987	0.988	0.975	0.911	0.992	0.980	0.980	0.980	0.930	0.950
皮马人	0.701	0.760	0.753	0.726	0.751	0.758	0.753	0.727	0.776	0.776	0.776	0.776	0.777
Segmemt0	0.983	0.988	0.986	0.993	0.994	0.985	0.981	0.980	0.890	0.890	0.910	0.870	0.900
Shuttle0vs4	0.997	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	0.990	0.980	0.950
Shuttle2vs4	0.950	1.000	1.000	1.000	1.000	0.988	1.000	0.988	0.920	0.940	0.950	0.880	0.930
Vehicle0	0.930	0.952	0.954	0.958	0.965	0.945	0.942	0.948	0.820	0.830	0.840	0.840	0.850
Vehicle1	0.672	0.787	0.761	0.747	0.769	0.765	0.722	0.703	0.767	0.768	0.768	0.768	0.768
Vehicle2	0.956	0.964	0.964	0.970	0.966	0.957	0.942	0.956	0.820	0.840	0.840	0.850	0.860
Vehicle3	0.664	0.802	0.784	0.765	0.763	0.764	0.757	0.731	0.778	0.778	0.778	0.778	0.778
Vowel0	0.971	0.947	0.947	0.943	0.988	0.944	0.941	0.910	0.810	0.820	0.820	0.830	0.840
威斯康辛州	0.945	0.960	0.971	0.964	0.960	0.957	0.945	0.945	0.820	0.820	0.830	0.840	0.850
Yeast05679vs4	0.680	0.794	0.814	0.803	0.818	0.782	0.756	0.769	0.826	0.826	0.826	0.826	0.826
Yeast1	0.664	0.722	0.721	0.719	0.734	0.716	0.741	0.738	0.779	0.779	0.779	0.779	0.779
Yeast1289vs7	0.616	0.734	0.689	0.721	0.658	0.675	0.632	0.700	0.754	0.755	0.755	0.755	0.755
Yeast1458vs7	0.500	0.606	0.617	0.567	0.623	0.563	0.559	0.603	0.727	0.727	0.728	0.728	0.730
Yeast1vs7	0.628	0.786	0.773	0.715	0.697	0.747	0.660	0.704	0.770	0.770	0.770	0.771	0.771
Yeast2vs4	0.831	0.936	0.929	0.933	0.897	0.940	0.914	0.882	0.800	0.810	0.820	0.820	0.830
Yeast2vs8	0.525	0.783	0.747	0.789	0.784	0.761	0.629	0.778	0.826	0.826	0.827	0.827	0.827
Yeast3	0.860	0.934	0.944	0.925	0.944	0.940	0.901	0.926	0.810	0.820	0.830	0.840	0.840
Yeast4	0.614	0.855	0.854	0.812	0.773	0.860	0.722	0.857	0.800	0.810	0.810	0.810	0.820
Yeast5	0.883	0.952	0.956	0.959	0.962	0.964	0.954	0.960	0.840	0.870	0.910	0.860	0.870
Yeast6	0.712	0.869	0.878	0.823	0.836	0.864	0.691	0.818	0.800	0.800	0.810	0.810	0.820
蛋白质同源性预测	0.922	0.956	0.961	0.956	0.945	0.952	0.928	0.947	0.820	0.828	0.835	0.840	0.850
Twitter-sentiment	0.962	0.979	0.978	0.980	0.981	0.976	0.966	0.979	0.903	0.914	0.927	0.888	0.909
平均	0.801	0.870	0.865	0.862	0.859	0.858	0.826	0.847	0.815	0.821	0.826	0.820	0.828

均匀一致的集群方案利用一个单一的聚类算法(相同类型的)基本聚类方法。在实证分析中,五个聚类算法(即k则,k模式,k——+ +、自组织映射和戴安娜算法)是基本的聚类方法。为聚合的聚类结果单独的聚类结果,我们认为三个共识函数(即简单的投票功能,增量投票功能,和标签对应搜索算法)。通过这种方式,15个不同均匀不平衡学习的共识clustering-based方案评估。在表3,平均获得的AUC值均匀一致聚类方案。表中给出的结果2常规数据级方法和传统clustering-based计划,均匀一致聚类方案产生更好的预测性能的AUC值。在均匀一致聚类方案相比,获得最高的预测性能,利用自组织映射聚类算法算法作为基地。在这个方案中,采用简单的投票函数作为共识函数。


共识函数	简单的投票	简单的投票	简单的投票	简单的投票	简单的投票	增量投票	增量投票	增量投票	增量投票	LCS	增量投票	LCS	LCS	LCS	LCS

方法	CONS1(公里)	+ + CONS1(公里)	CONS1 (KMOD)	CONS1 (SOM)	CONS1(戴安娜)	CONS1(公里)	+ + CONS1(公里)	CONS1 (KMOD)	CONS1(戴安娜)	CONS1(公里)	CONS1 (SOM)	+ + CONS1(公里)	CONS1 (KMOD)	CONS1 (SOM)	CONS1(戴安娜)
Abalone19	0.746	0.746	0.746	0.766	0.747	0.747	0.747	0.748	0.766	0.766	0.766	0.766	0.766	0.746	0.766
Abalone9-18	0.770	0.770	0.770	0.794	0.770	0.792	0.792	0.793	0.793	0.793	0.793	0.793	0.793	0.770	0.811
乳腺癌	0.855	0.867	0.870	0.940	0.882	0.879	0.891	0.887	0.903	0.909	0.921	0.926	0.918	0.888	0.931
Ecoli-0_vs_1	0.870	0.880	0.920	0.970	0.900	0.910	0.930	0.930	0.950	0.950	0.960	0.960	0.960	0.940	0.980
Ecoli-0-1-3-7_vs_2-6	0.775	0.775	0.775	0.782	0.775	0.778	0.779	0.780	0.780	0.780	0.781	0.781	0.782	0.775	0.788
Ecoli1	0.850	0.850	0.850	0.950	0.870	0.870	0.880	0.880	0.900	0.910	0.920	0.930	0.930	0.870	0.950
Ecoli2	0.830	0.840	0.850	0.930	0.860	0.860	0.870	0.860	0.870	0.890	0.900	0.910	0.910	0.860	0.910
Ecoli3	0.840	0.850	0.850	0.940	0.870	0.870	0.870	0.870	0.890	0.900	0.900	0.910	0.920	0.860	0.940
Ecoli4	0.830	0.840	0.840	0.930	0.860	0.860	0.870	0.860	0.870	0.890	0.890	0.910	0.850	0.850	0.850
Glass0	0.780	0.781	0.781	0.823	0.784	0.822	0.822	0.822	0.822	0.823	0.823	0.823	0.823	0.781	0.824
Glass0123vs456	0.840	0.850	0.850	0.950	0.870	0.870	0.880	0.880	0.900	0.900	0.900	0.910	0.930	0.860	0.940
Glass016vs2	0.774	0.774	0.774	0.789	0.774	0.786	0.787	0.787	0.788	0.788	0.789	0.789	0.789	0.774	0.790
Glass016vs5	0.850	0.860	0.860	0.960	0.880	0.880	0.890	0.890	0.910	0.920	0.940	0.940	0.950	0.890	0.960
Glass1	0.740	0.740	0.740	0.765	0.741	0.742	0.743	0.743	0.764	0.765	0.765	0.765	0.765	0.741	0.765
Glass2	0.784	0.784	0.784	0.842	0.784	0.842	0.842	0.842	0.842	0.842	0.842	0.842	0.842	0.784	0.842
Glass4	0.800	0.810	0.800	0.840	0.840	0.800	0.840	0.810	0.830	0.800	0.820	0.850	0.800	0.840	0.810
Glass5	0.850	0.870	0.880	0.960	0.890	0.890	0.900	0.910	0.920	0.930	0.940	0.950	0.950	0.900	0.970
Glass6	0.820	0.820	0.840	0.900	0.860	0.860	0.860	0.820	0.870	0.820	0.880	0.890	0.810	0.850	0.820
哈伯曼	0.718	0.722	0.722	0.759	0.725	0.725	0.725	0.727	0.757	0.757	0.758	0.758	0.759	0.724	0.759
Iris0	0.900	0.960	0.930	0.980	0.930	0.910	0.950	0.940	0.950	0.950	0.960	0.970	0.970	0.960	0.990
New-thyroid1	0.850	0.860	0.870	0.960	0.890	0.880	0.900	0.910	0.910	0.930	0.940	0.950	0.950	0.890	0.970
New-thyroid2	0.850	0.850	0.850	0.950	0.880	0.870	0.880	0.880	0.900	0.920	0.930	0.930	0.930	0.870	0.960
Page-blocks0	0.860	0.880	0.890	0.970	0.890	0.900	0.910	0.920	0.930	0.940	0.950	0.950	0.960	0.920	0.970
Page-blocks13vs2	0.960	0.960	0.950	0.990	0.970	0.940	0.950	0.940	0.950	0.970	0.990	0.980	0.970	0.960	0.990
皮马人	0.777	0.777	0.777	0.792	0.777	0.790	0.790	0.791	0.791	0.791	0.792	0.792	0.792	0.777	0.792
Segmemt0	0.870	0.880	0.890	0.970	0.900	0.900	0.920	0.930	0.940	0.940	0.950	0.960	0.960	0.920	0.980
Shuttle0vs4	0.980	0.990	0.980	1.000	0.980	0.990	0.970	0.940	0.970	1.000	1.000	0.980	0.990	0.990	1.000
Shuttle2vs4	0.890	0.950	0.920	0.970	0.910	0.910	0.940	0.930	0.950	0.950	0.960	0.960	0.960	0.950	0.980
Vehicle0	0.850	0.870	0.880	0.960	0.890	0.890	0.900	0.910	0.920	0.930	0.940	0.950	0.950	0.890	0.970
Vehicle1	0.768	0.768	0.768	0.766	0.769	0.760	0.761	0.762	0.762	0.763	0.763	0.765	0.765	0.768	0.766
Vehicle2	0.860	0.880	0.880	0.970	0.890	0.900	0.900	0.910	0.920	0.940	0.950	0.950	0.950	0.900	0.970
Vehicle3	0.779	0.779	0.779	0.801	0.779	0.799	0.799	0.800	0.800	0.800	0.801	0.801	0.801	0.779	0.803
Vowel0	0.840	0.850	0.850	0.950	0.870	0.870	0.880	0.880	0.900	0.910	0.910	0.920	0.930	0.870	0.940
威斯康辛州	0.850	0.860	0.870	0.960	0.880	0.880	0.890	0.890	0.910	0.930	0.940	0.950	0.950	0.890	0.960
Yeast05679vs4	0.826	0.826	0.826	0.842	0.826	0.842	0.842	0.842	0.842	0.842	0.842	0.842	0.842	0.826	0.842
Yeast1	0.779	0.780	0.780	0.811	0.780	0.809	0.810	0.810	0.810	0.810	0.811	0.811	0.811	0.780	0.813
Yeast1289vs7	0.756	0.756	0.756	0.767	0.756	0.757	0.757	0.757	0.767	0.767	0.767	0.767	0.767	0.756	0.770
Yeast1458vs7	0.730	0.731	0.731	0.762	0.732	0.732	0.733	0.734	0.760	0.762	0.762	0.762	0.762	0.732	0.762
Yeast1vs7	0.771	0.772	0.772	0.787	0.772	0.782	0.783	0.784	0.784	0.785	0.785	0.786	0.786	0.772	0.787
Yeast2vs4	0.840	0.840	0.850	0.940	0.870	0.870	0.870	0.870	0.890	0.900	0.900	0.910	0.910	0.860	0.920
Yeast2vs8	0.827	0.827	0.827	0.851	0.827	0.850	0.850	0.850	0.850	0.851	0.851	0.851	0.851	0.827	0.851
Yeast3	0.850	0.850	0.860	0.950	0.880	0.870	0.890	0.890	0.900	0.920	0.930	0.930	0.940	0.880	0.960
Yeast4	0.830	0.840	0.840	0.910	0.860	0.860	0.870	0.860	0.870	0.880	0.890	0.900	0.840	0.850	0.840
Yeast5	0.870	0.880	0.890	0.970	0.890	0.900	0.910	0.920	0.930	0.940	0.950	0.950	0.960	0.920	0.980
Yeast6	0.810	0.820	0.830	0.850	0.850	0.800	0.840	0.810	0.850	0.810	0.870	0.870	0.810	0.850	0.810
蛋白质同源性预测	0.850	0.865	0.875	0.960	0.888	0.885	0.898	0.905	0.915	0.930	0.940	0.950	0.950	0.893	0.968
Twitter-sentiment	0.896	0.918	0.917	0.977	0.918	0.918	0.931	0.929	0.943	0.953	0.963	0.962	0.964	0.940	0.982
平均	0.826	0.835	0.837	0.893	0.845	0.848	0.856	0.854	0.867	0.871	0.879	0.883	0.878	0.849	0.888

的异构集群方案达成一致,k则,k模式,k——+ +、自组织映射和戴安娜算法方法用于识别单个分区。类似于均匀的计划,我们认为三个共识函数(即简单的投票功能,增量投票功能,或标签对应搜索算法)。通过这种方式,三种不同的异构共识clustering-based方案考虑。在表4异构共识,AUC值平均获得的聚类方案。因为它从表中列出的结果可以观察到4、异构共识集群方案优于均匀一致聚类方案,传统数据级方法,和传统clustering-based方案。关于平均AUC值分析了实证分析,获得最高的预测性能与标签通信异构集群方案基于搜索的共识函数。第二个最高预测性能是通过异构集群方案简单voting-based共识函数。


共识函数	四世	SV	LCS

方法	CONS2	CONS2	CONS2
Abalone19	0.766	0.767	0.782
Abalone9-18	0.812	0.812	0.812
乳腺癌	0.945	0.946	0.954
Ecoli-0_vs_1	0.990	0.990	1.000
Ecoli-0-1-3-7_vs_2-6	0.789	0.789	0.797
Ecoli1	0.970	0.980	0.980
Ecoli2	0.920	0.920	0.940
Ecoli3	0.960	0.960	0.980
Ecoli4	0.900	0.880	0.890
Glass0	0.824	0.824	0.826
Glass0123vs456	0.960	0.960	0.980
Glass016vs2	0.790	0.791	0.791
Glass016vs5	0.970	0.980	0.990
Glass1	0.765	0.765	0.782
Glass2	0.842	0.842	0.842
Glass4	0.820	0.800	0.800
Glass5	0.970	0.980	1.000
Glass6	0.870	0.860	0.850
哈伯曼	0.760	0.762	0.772
Iris0	0.990	1.000	1.000
New-thyroid1	0.970	0.980	0.990
New-thyroid2	0.970	0.980	0.990
Page-blocks0	0.980	0.990	1.000
Page-blocks13vs2	0.990	1.000	1.000
皮马人	0.793	0.793	0.793
Segmemt0	0.990	0.990	1.000
Shuttle0vs4	1.000	1.000	1.000
Shuttle2vs4	0.990	1.000	1.000
Vehicle0	0.970	0.980	0.990
Vehicle1	0.767	0.767	0.768
Vehicle2	0.980	0.990	1.000
Vehicle3	0.803	0.804	0.806
Vowel0	0.970	0.980	0.980
威斯康辛州	0.970	0.980	0.990
Yeast05679vs4	0.843	0.843	0.843
Yeast1	0.813	0.813	0.815
Yeast1289vs7	0.770	0.770	0.782
Yeast1458vs7	0.762	0.763	0.781
Yeast1vs7	0.787	0.788	0.812
Yeast2vs4	0.950	0.940	0.940
Yeast2vs8	0.851	0.851	0.851
Yeast3	0.970	0.980	0.990
Yeast4	0.880	0.860	0.890
Yeast5	0.980	0.990	1.000
Yeast6	0.820	0.800	0.810
蛋白质同源性预测	0.970	0.980	0.993
Twitter-sentiment	0.988	0.994	1.000
平均	0.897	0.898	0.906

在分类阶段,5个监督学习方法(即朴素贝叶斯、逻辑回归支持向量机,随机森林,和k最近邻居算法)和三个合奏学习者的方法(即演算法、装袋和随机子空间算法)是利用。为了总结实证分析的主要发现,箱线图的欠采样方法和监督学习方法介绍了数字4和5,分别。

因为它可以从图观察4,平均AUC值从提出了异构集群方案获得高于传统的数据级方法( )。在图5,传统的监督学习方法的预测性能分析及其集合体都考虑在内。因为它可以观察到,整体学习方法产量更高的预测性能的AUC值相比,传统的监督学习方法。最高的监督学习方法的预测性能是通过随机子空间的随机森林,第二个最高预测性能是通过随机子空间的支持向量机( )。关于传统聚类算法的预测性能,朴素贝叶斯证明最低的预测性能,而随机森林算法证明了最好的(最高)预测性能( )。

在图6均值的置信区间值的平均AUC值算法相比获得的95%的置信水平。基于结果相比,之间的统计意义的人物6分为两个区域用红色虚线。因为它可以从图观察6获得的预测性能差异,提出共识clustering-based方案具有统计学意义。

5。结论

类不平衡是机器学习的一个重要问题。不平衡数据集中可以看到各种各样的应用程序,包括医疗诊断、恶意软件检测、异常识别、破产预测和垃圾邮件过滤。为了构建高效、健壮的分类方案,可以利用数据预处理方法与监督学习方法。欠采样和oversampling-based方法可以成功地用于类不平衡。然而,信息实例的标识被包括在欠采样的训练集是一个至关重要的问题。在这方面,本文实证考察了预测性能的两个共识clustering-based欠采样方案不平衡学习。在实证分析中,44个小规模和2大规模不平衡分类基准(不平衡率介于1.8和163.19之间)被利用。实验分析表明,clustering-based欠采样方案可以比传统的数据级预处理方法类不平衡。此外,共识集群,骨料单个集群的分区算法,可以进一步提高clustering-based欠采样方案的预测性能。

有很多问题,应该有利于将来扩展。提出共识集群基于欠采样计划利用5个聚类算法(即k则,k模式,k——+ +、自组织映射和戴安娜算法)。聚类算法已经集成了三个共识函数的使用,即简单voting-based共识函数增量的投票功能,标签对应搜索。因此,其他传统的预测性能和群聚类算法(如蚂蚁集群、粒子群集群、萤火虫集群)可以检查不平衡学习。此外,最近的提议在球场上表明,不平衡计划,集成实例选择和集群可能产生更高的预测性能。因此,性能的共识clustering-based欠采样方案应考虑结合传统选择方法实例。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

信息披露

研究了作为作者的就业在伊兹密尔Katip Celebi大学。

的利益冲突

作者宣称没有利益冲突。

引用

g .香l .遗精,j .商g . Mingyun h .模块和必应,“学习class-imbalanced数据:复习的方法和应用,“专家系统与应用程序卷,73年,第239 - 220页,2017年。视图:出版商的网站|谷歌学术搜索
诉洛佩兹,a·费尔南德斯s加西亚诉Palade f . Herrera,”一个洞察与不平衡数据分类:实证结果和当前的趋势在使用数据的内在特性,”信息科学卷,250年,第141 - 113页,2013年。视图:出版商的网站|谷歌学术搜索
g·m·维斯“矿业与罕见”ACM Sigkdd探索通讯》第六卷,没有。1,7-19,2004页。视图:出版商的网站|谷歌学术搜索
c . Beyan和r·费舍尔分类不平衡数据集使用基于相似度的层次分解,“模式识别,48卷,不。5,1653 - 1672年,2015页。视图:出版商的网站|谷歌学术搜索
m . Denil和t . Trappenberg“重叠和不平衡,”加拿大会议上人工智能学报》上施普林格,页220 - 231年,渥太华,加拿大,2010年5月。视图:谷歌学术搜索
j·d·罗德里格斯Herraiz, r·哈里森Dolado,和j·c·里克尔梅”技术处理的初步比较失衡软件缺陷预测,”学报》18日在软件工程国际会议上评估和评估,43页,ACM,伦敦,英国,2014年5月。视图:谷歌学术搜索
r . Akbani s Kwek, n . Japkowicz”将支持向量机应用于不平衡的数据集,”机器学习的欧洲会议ECML 2004,页39-50,布拉格,捷克共和国,2004年9月。视图:出版商的网站|谷歌学术搜索
n Peiravian和朱x”,机器学习为android恶意软件检测使用许可和api调用,”IEEE学报》25日国际会议与人工智能工具(ICTAI)IEEE,页300 - 305年,荷顿,弗吉尼亚州,美国,2013年11月。视图:谷歌学术搜索
w·Khreich e·格兰杰,a .米里,r . Sabourin”迭代的布尔组合分类器在中华民国领域:应用程序与摘要异常检测,”模式识别,43卷,不。8,2732 - 2752年,2010页。视图:出版商的网站|谷歌学术搜索
蔡明俊。金,D.-K。康,h·b·金“基于几何平均数与over-sampling提高算法解决破产预测数据不平衡问题,“专家系统与应用程序,42卷,不。3、1074 - 1082年,2015页。视图:出版商的网站|谷歌学术搜索
t·r·霍恩r . Polikar n v·乔,“学习与概念漂移流数据和不平衡:概述,“人工智能的进展,1卷,不。1,第101 - 89页,2012。视图:出版商的网站|谷歌学术搜索
m . Galar A·费尔南德斯e . Barrenechea h . Bustince f . Herrera,“回顾集合体的类不平衡问题:装袋,提振,和混合型方法,”IEEE系统,人,控制论,一部分C(应用程序和评论),42卷,不。4、463 - 484年,2012页。视图:出版商的网站|谷歌学术搜索
b .刘、马y和c . k . Wong“改善基于关联规则的分类器,”欧洲会议程序原则的数据挖掘和知识发现施普林格,页504 - 509年,里昂,法国,2000年9月。视图:谷歌学术搜索
g·e·A·p·A·巴蒂斯塔r . c . Prati和m . c . Monard”研究平衡机的几种方法的行为学习训练数据,”ACM SIGKDD探索通讯》第六卷,没有。1页,2004页。视图:出版商的网站|谷歌学术搜索
n v·乔,d . a . Cieslak l . o .大厅,和a . Joshi”自动制衡失衡及其经验与成本的关系,“数据挖掘和知识发现,17卷,不。2、225 - 252年,2008页。视图:出版商的网站|谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。视图:出版商的网站|谷歌学术搜索
n . Japkowicz”类不平衡问题:意义和策略,”人工智能国际会议学报》上美国拉斯维加斯,NV, 2000年6月。视图:谷歌学术搜索
r . Barandela r . m . Valdovinos和j·s·桑切斯,“新分类器应用程序集合,”模式分析与应用》第六卷,没有。3、245 - 256年,2003页。视图:出版商的网站|谷歌学术搜索
n v·乔:Japkowicz, a . Kolcz“车间学习不平衡数据集二世”学报》国际会议上机器学习美国,华盛顿特区,2003年8月。视图:谷歌学术搜索
小王和x姚明,“多样性分析不平衡数据集采用整体模型,”IEEE学报》研讨会上计算智能和数据挖掘CIDM ' 09IEEE,页324 - 331年,纳什维尔,TN,美国,2009年3月。视图:谷歌学术搜索
j . Błaszczyński和j . Stefanowski”社区抽样装袋的不平衡数据,”Neurocomputing卷,150年,第542 - 529页,2015年。视图:出版商的网站|谷歌学术搜索
z太阳,问:歌曲、朱x h .太阳,徐,和y周,“小说整体不平衡数据分类的方法,”模式识别,48卷,不。5,1623 - 1637年,2015页。视图:出版商的网站|谷歌学术搜索
j·夸克、t·李和c . o .金正日“增量clustering-based class-imbalanced故障检测算法处理数据,”IEEE半导体制造业,28卷,不。3、318 - 328年,2015页。视图:谷歌学术搜索
观测。林,张炳扬。蔡,中州。胡,js。章马”,在class-imbalanced Clustering-based欠采样数据,“信息科学卷,409 - 410年17-26,2017页。视图:出版商的网站|谷歌学术搜索
v - h·陈,“一个多尺度连续聚类算法稀疏不平衡数据:应用程序排序,“模式分析与应用,19卷,不。4、885 - 903年,2016页。视图:出版商的网站|谷歌学术搜索
d·h·沃伯特和w·g·麦克里迪”搜索,没有免费的午餐定理”10卷,圣达菲研究所,圣达菲,海里,美国,1995年,技术报告sfi - tr - 95 - 02 - 010。视图:谷歌学术搜索
c·塞弗特t . m . Khoshgoftaar j . Van Hulse和a·纳波利塔诺”RUSBoost:混合的方法来减轻类不平衡,“IEEE系统,人,Cybernetics-Part答:系统和人类,40卷,不。1,第197 - 185页,2010。视图:出版商的网站|谷歌学术搜索
s . Wang k . Tang和x姚明,“多样性探索和负相关学习上不平衡的数据集,”神经网络,国际联合会议IJCNN 2009IEEE,页3259 - 3266年,亚特兰大,乔治亚州,美国,2009年6月。视图:谷歌学术搜索
n v·乔,a . Lazarevic l . o .大厅,和k·w·鲍耶,“SMOTEBoost:改善提高少数类的预测,”欧洲会议程序原则的数据挖掘和知识发现施普林格,页107 - 119年,Cavtat-Dubrovnik,克罗地亚,2003年9月。视图:谷歌学术搜索
z黄”,快速聚类算法集群非常大的数据挖掘中分类的数据集,”DMKD,3卷,不。8日,34-39,1997页。视图:谷歌学术搜索
d·亚瑟和美国Vassilvitskii。”k——+ +:小心播种的优势,”十八届ACM-SIAM学报》研讨会上离散算法,页1027 - 1035,工业与应用数学学会,费城,宾夕法尼亚州,美国2007年1月。视图:谷歌学术搜索
t . Kohonen自组织映射柏林施普林格,柏林,德国,2001年。
奇普曼h . r . Tibshirani,“混合分层聚类应用微阵列数据,”生物统计学,7卷,不。2、286 - 301年,2005页。视图:出版商的网站|谷歌学术搜索
s . Barua m . m .伊斯兰教,x姚明,和k . Murase”MWMOTE-majority加权少数不平衡数据集的过采样技术学习,”IEEE工程知识和数据,26卷,不。2、405 - 425年,2014页。视图:出版商的网站|谷歌学术搜索
a . Anand g . Pugalenthi g·b·福格尔,和p . n . Suganthan“高度不平衡数据分类的方法使用加权和欠采样,”氨基酸,39卷,不。5,1385 - 1391年,2010页。视图:出版商的网站|谷歌学术搜索
问:李、杨,y, n .邓和l .京”构造支持向量机整体对不平衡数据集分割,“神经计算和应用,22卷,不。S1, 249 - 256年,2013页。视图:出版商的网站|谷歌学术搜索
n·s·库马尔,k . n . Rao a . Govardhan k . s . Reddy和a . m . Mahmood”Undersampled k - means方法处理分布式数据不平衡,“人工智能的进展,3卷,不。1,第29,2014页。视图:出版商的网站|谷歌学术搜索
a D 'Addabbo和r . Maglietta“平行选择性抽样的不平衡和大型数据分类的方法,”模式识别的字母卷,62年,第67 - 61页,2015年。视图:出版商的网站|谷歌学术搜索
j . Ha和j·s·李,“一个新的under-sampling使用遗传算法对不平衡数据分类方法,”学报第十届国际会议上无处不在的信息管理和沟通p。95年,ACM,岘港,越南,2016年1月。视图:谷歌学术搜索
g . Shobana和b . p . Battula采样k使用多样化的方法则handlingimbalanced数据分布。”国际工程和技术杂志》(阿联酋),7卷,不。1.8,113 - 117年,2018页。视图:出版商的网站|谷歌学术搜索
h .郭和t·魏”逻辑回归基于聚类不平衡学习,”国际计算科学与工程杂志》上,18卷,不。1,54 - 64年,2019页。视图:出版商的网站|谷歌学术搜索
g . Douzas f . Bacao f .去年,“改善不平衡通过启发式学习基于过采样方法k则,击杀。”信息科学卷,465年,页1 - 2018。视图:出版商的网站|谷歌学术搜索
w·汉黄z s·李,y,“Distribution-sensitive不平衡数据采样过密的医学诊断的方法,”医疗系统杂志,43卷,不。2,39页,2019年。视图:出版商的网站|谷歌学术搜索
张炳扬。蔡,观测。林,中州。胡,G.-T。么,”Under-sampling类不平衡数据集通过结合聚类分析和实例的选择,”信息科学卷。477年,47-54,2019页。视图:出版商的网站|谷歌学术搜索
t . Boongoen和n . Iam-On”集群集合体:调查与最近的扩展和应用程序的方法,”计算机科学评论卷28日,页1 - 25,2018。视图:出版商的网站|谷歌学术搜索
n .阮与r·卡鲁阿纳“共识集群”学报》于2007年数据挖掘ICDM第七IEEE国际会议IEEE,页607 - 612年,奥马哈市东北,美国,2007年10月。视图:谷歌学术搜索
a . p . Topchy m . h .法律,a . k . Jain和a·l·弗雷德,“分析集群整体的共识分区”学报》第四IEEE国际会议数据挖掘ICDM 04IEEE,页225 - 232年,布赖顿,英国,2004年11月。视图:谷歌学术搜索
h . g . Ayad和m . s . Kamel累积投票共识与变量数量的集群分区的方法,”Intellzigence IEEE模式分析和机器,30卷,不。1,第173 - 160页,2008。视图:出版商的网站|谷歌学术搜索
c .岩屑堆和m . Ostendorf“结合多个集群系统,”欧洲会议程序原则的数据挖掘和知识发现施普林格,页63 - 74年,Cavtat-Dubrovnik,克罗地亚,2003年9月。视图:谷歌学术搜索

科学的规划