研究文章|开放获取
王磊,Lei赵,关Gui,宝玉郑,Ruochen黄, ”自适应整体不平衡数据分类方法基于空间特征”,科学的规划, 卷。2017年, 文章的ID3704525, 8 页面, 2017年。 https://doi.org/10.1155/2017/3704525
自适应整体不平衡数据分类方法基于空间特征
文摘
类不平衡问题往往减少大多数标准分类器的分类性能。开发了许多方法来解决这些问题,厂商等学习方法,合成少数过采样技术(杀),和随机采样过密(ROS)。然而,现有的方法仍然有一些问题由于可能的性能损失有用的信息和过度拟合。为了解决这些问题,我们提出了一种自适应整体自适应调节的方法通过使用最先进的特性通过考虑平均欧氏距离测试数据与训练数据之间的平均距离计算最近的邻居(资讯)算法。仿真结果证实,该方法提供了一个更好的性能比现有的整体方法。
1。介绍
不平衡数据指的是一个数据集的类的数量有很大差异。目前,不平衡数据已经应用于实际领域和民用和政府中扮演着重要角色的应用程序,例如文本分类(1),面部年龄估计(2),语音识别(3),和政府决策支持系统(4]。不平衡数据具有重要意义的研究领域的信用欺诈、数据挖掘和非法入侵。因此,越来越多的研究人员支付巨大的类不平衡问题的关注是因为传统的不平衡数据分类处理是不适合少数类分类。不平衡的问题也引起了相关领域的注意机器学习和数据挖掘等(4]。
目前的研究更关注于二进制类不平衡问题,在数据集分为多数类和少数类。在传统的平衡数据的数据集,意味着每个类的数量是相等的,和不平衡数据意味着各种类的数量是明显不同的。二进制类不平衡和平衡数据的细节数据所示1(一)和1 (b)。传统的分类算法,如朴素贝叶斯(5),随机森林6),最近的邻居(资讯)7),和开膛手8),旨在生成模型,可以优化分类精度,但他们忽视少数类。为了解决上述问题,人们提出了很多方法对二进制类不平衡数据在数据级和算法级,分别。在数据层面上,主要的想法是不平衡转换成平衡数据主要是通过使用抽样方法或创建新的不平衡到平衡数据的例子,击杀和活性氧等,而algorithm-level解决方案主要包括整体学习方法(9)和降低成本的分析方案。一般来说,这些方法解决不平衡的问题数据的准确性少数类。然而,仍然存在一些缺点在这些传统的不平衡数据分类方法来处理二进制类不平衡数据问题(10]。例如,增加和装袋合奏的方法可能失去一些有价值的信息在迭代过程中由于抽样方法的使用。因此,这可能会导致过度拟合的数据问题。此外,很难得到优化的误分类代价敏感的学习方法,和不同误分类代价导致不同的分类结果。因此,分类结果不稳定。
(一)二进制不平衡数据的一个例子,58多数类和少数类17
(b)二进制平衡数据的一个例子,多数数据等于少数数据
为了克服上述问题,我们提出了一种自适应合奏现存方法的一个改进的方法(10]。我们的主要思想是将二进制不平衡问题转化为多个平衡问题,这既不减少的数量多数类和少数类的增加。然后我们构建多个基本分类器来处理这些平衡问题,最后我们使用一种自适应整体规则组装基地基分类器分类结果。常见的搭配规则包括马克斯规则,多数投票规则,产品规则、最小规则,和求和规则提出了在11)和一些新颖的合奏规则包括MaxDistance规则,MinDistance规则,ProDistance规则,MajDistance法则,SumDistance规则提出了在10]。在[10),测试结果表明,他们的方法相比有更好的性能与许多传统的不平衡数据处理方法在一些标准不平衡数据集。与此同时,他们的实验结果证明SplitBal + MaxDistance有更好的性能比其他组合。在这篇文章中,SplitBal + MaxDistance称为SMD。
我们有两个改善点SMD和我们定义它为SplitBal + MaxDistanceandAvePr (SMDA),这与SMD共享相同的过程除了合奏的规则。通过使用基础包括朴素贝叶斯分类算法,随机森林,逻辑回归,SVC (12),经验,我们建议的方法是评估在38高度不平衡数据集。之后,数值结果表明,我们的方法优于SMD。
本文的其余部分组织如下。部分2介绍了与我们的研究相关工作。部分3显示了该方法。部分4报告我们的实验过程,描述细节的设置实验,并分析了数据处理的结果。最后,在节5,我们总结研究,得出结论。
2。相关工作
在过去的几十年中,数据不平衡问题一直是数据挖掘中的一个困难问题。还有其他特征如数据转移(13)和类重叠(14],它可以影响性能的传统分类算法来处理不平衡问题。然而,我们仍然专注于类之间的不平衡特征。
到目前为止,人们提出了很多措施来解决二进制类不平衡问题10- - - - - -14,16- - - - - -21]。这些措施可以大致的数据级和算法级,如表所示1。现有的措施能够适应算法中的不平衡类级别,而预处理措施可以调整数据由不平衡到平衡的水平。我们的方法可以被视为在算法层次;在本节中,我们将介绍一些方法,属于算法的水平。
算法层次包括厂商学习,整体学习,实现工艺的学习。厂商通过调整学习方法获得最低分类错误类误分类代价。MetaCost [15]是一种算法,它使用敏感的过程使厂商分类算法。整体学习是用来减少方差和偏差的结果通过整合许多对不平衡数据分类算法。典型地,增加可以自适应地确定样本,将其划分为错误,所以它可以获得良好的性能在失衡的问题。装袋改善处理基分类器的分类性能。Autoassociation开膛手,识别学习提供创建歧视模型基于目标类的例子已被证明是有效的在处理高维、复杂的二进制不平衡数据。
然而,这些集合的方法可能会有一些不可避免的缺点,如改变原始数据空间分布或导致过度拟合造成的抽样方法。此外,这些整体算法可能会失去测试数据与训练数据之间的联系。换句话说,测试数据可分为类,比空间分布的距离更接近。我们的方法避免了一些弱点的传统处理方法前面提到的不平衡问题转化成几个平衡不平衡问题的;因此它不像现有的不平衡问题的处理方法。此外,我们的方法考虑数据之间的距离因素的总体规则,因为,从理论上讲,越接近,越相似,我们的整体方法是自适应,不同于SMD。
3所示。我们建议的方法
我们的方法包括三个部分:数据平衡,建模和分类。图2描述了该方法的框架。对于数据平衡,在我们的方法的过程中,我们首先将大多数数据集分成几个部分等于少数类的数据量。然后我们少数类的部分合并成一个新的平衡数据集。很多收到平衡的数据集。建模、接下来,每个新平衡数据集被用来创建一个基分类器分类算法与给定的基地。至于分类,最后,这些基地分类结果放入一个自适应集成分类器对测试数据进行分类。在建模组件,我们直接基础算法应用于每一个平衡的数据集。随后,我们将介绍两个程序数据平衡和分类如下。
3.1。数据平衡
现有的措施平衡不平衡数据通常导致信息丢失以及过度拟合。因此,它可以实现不平衡数据集转换成多个平衡数据集没有导入噪声数据和减少原始数据。众所周知,大多数的类数据集通常超过少数不均衡数据集。因此我们把多数类数据集分成多组,每组等于少数类的数量。考虑到类的相似之处,我们可以把多数类数据集分割成多个集(SplitBal)。然后每组添加到少数类数据集来建立一个新的平衡数据集。最后,我们可以获得多个平衡数据集。
3.2。分类
建模后,我们可以构建多个分类器处理过的平衡数据从数据中获得平衡。然后我们可以得到一些从这些分类器分类结果。接下来,我们将这些分类结果结合在一起使用。像(9),我们做一些假设如下:假设有二进制类数据集和两个类标签;类标签和 。然后我们可以得到基分类器与给定的基本算法。为分类器( ),它将测试数据进行分类的概率当的概率 。此外,和代表最终的整体结果类和 ,分别。五套规则和他们的描述和细节都显示在10]。但这些合奏规则采用分类的结果而忽视之间的连接测试数据与训练数据。测试数据会分成类平均欧几里得实例接近测试数据。一个新的multilabel分类器使用邻居距离中提到的是22]。考虑一般的欧几里得实例测试数据与训练数据,5小说整体规则提出了在9]。在这些集合的方法, 显示新的数据和数据之间的平均欧氏距离和类标签在数据。从图3,我们可以学习的过程中获得与资讯。MaxDistance的细节如表所示2。
|
|||||||||||
然而,在这些规则 和 ,一个固定的值应该添加在分母的目的防止平均欧氏距离等于0。然后实验的结果(10)表明,该值可以定义从0到1的任何地方,所以他们加1的距离。但是我们认为增值平均在分母上可以定义为0,和价值也应该适应与不同的分类算法从0到1。的原因如下。的平均距离不能是0,因为从图吗3我们可以知道它是不可能为新数据与所有训练数据相同。当我们使用不同的分类算法基础,增加值平均在分母上应该是变化的。所以我们定义附加价值 ,范围从0到1。从MaxDistance规则,我们可以发现的影响弱,尽管它一直被视为最重要的决定因素在大多数传统的算法。在[22),我们发现EMLA(平均的)总是有一个更好的性能比其他合奏的规则,所以我们把EMLA 和 如表所示3。最后,分类结果和与整体规则表了2和3,分别。如果 被认为是,测试数据 ;否则被认为是 。
|
|||||||||||
4所示。数值模拟
在本文中,我们采用了38个公共不平衡数据集来自龙骨数据集的存储库(23]。这些38数据集的细节如表所示4,包括不平衡广播,总属性(ATT),数据集的总数,少数(积极)类的数量数据集。有关使用数据集的更详细的信息,感兴趣的作者提到http://sci2s.ugr.es/keel/imbalanced.php。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们使用5倍交叉验证策略在接下来的实验。四个不同的基地分类算法、朴素贝叶斯随机森林,逻辑回归,SVC,被选为基分类器。我们使用AUC [24)作为我们的算法度量的优势比的意思是,测量(25]。在我们的实验中,每个AUC的每个数据集将测试多次,然后取平均值。
本文我们研究由两个实验。第一个实验是为了确定附加价值在我们的规则。第二个实验是比较该方法与SMD SMDA方法在处理不平衡的二元问题分类算法使用不同的基地。
实验1。我们第一次使用数据集yeast3(见表5)的AUC值测试方法通过使用不同的价值观在我们的总体规则。然后我们选择可以使最好的AUC的固定值。在实验中,该值是0,0.2,0.4,0.6,0.8和1.0。从图4,我们可以知道应该被定义为1,0、1和0基础朴素贝叶斯分类算法,随机森林,逻辑回归和SVC分别。
|
|||||||||||||||||||||||||
实验2。性能结果评估SDMA和SMD的比较。对于每一个不平衡的数据集,这两种方法的详细的AUC值与四个不同的基地分类算法如表所示6。行表示结束的AUC值的平均值与每个分类算法的两种方法。从图5,我们可以观察到有33的SMDA AUC值大于或等于SMD使用逻辑回归。此外,25 SMDA的AUC值大于SDMA利用SVC,虽然他们是大于或等于SMD使用随机森林。注意到30 SMDA的AUC值大于或等于SMD使用朴素贝叶斯。在图6我们可以看到,我们的方法的平均AUC值大于SMD。因此,我们可以获得比SMD SMDA有更好的性能在处理上述数据集。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5。结论
基于空间特征的自适应整体方法处理二进制类不平衡问题得到。不同于现有方法在本文所提到的,我们的方法首先使用一种自适应整体规则来处理二进制不平衡问题。此外,我们的方法既不改变原始数据分布也遭受意想不到的错误或数据丢失。
我们的方法随机分割适用于多数类实例将二进制类不平衡数据到多个平衡的二进制类数据。之后,我们使用一个基本分类算法建立多个基本分类器。最后,我们使用提出的自适应整体规则组装收到基分类器的分类结果。实验结果表明,(i)的变量值添加到距离我们的方法是自适应,与分类算法和变化范围从0到1,和(2)我们合奏规则比SMD SMDA具有更好的性能,我们可以获得,目前该方法执行比本文中提到的现有方法。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
王磊和Lei赵的构思和设计实验;Lei赵和关Gui进行实验;宝玉郑和黄Ruochen分析了数据,也给了全面的评论和建议;王磊写道。
确认
这项工作得到了国家自然科学基金(基金号。61671253和61671253),江苏高等教育机构的学术优先发展项目,中国的自然科学基金重点项目江苏高等教育机构(16 kja510004),国家重点实验室开放研究基金的综合服务网络,宁海西店(ISN17-04),大学的开放研究基金和国家地方联合工程研究中心进行通信和网络技术,南京邮电大学(TXKY17005)。
引用
- m·d·d·卡斯蒂略和j . i Serrano”多策略对数字文本分类方法。”ACM SIGKDD探索通讯》第六卷,没有。1,15-32,2004页。视图:谷歌学术搜索
- w l。曹国伟,J.-Z。刘,j j。叮,“人脸年龄估计基于label-sensitive学习和age-oriented回归,”模式识别,46卷,不。3、628 - 641年,2013页。视图:出版商的网站|谷歌学术搜索
- 答:一:Cercone,黄x”的案例研究学习不平衡的数据集,”两年一次的会议上加拿大社会计算的研究情报:先进的人工智能卷,2056在计算机科学的课堂讲稿,页1 - 15,施普林格,柏林,德国,2001年。视图:出版商的网站|谷歌学术搜索
- h·e·a·加西亚和他“学习不平衡数据,”IEEE工程知识和数据,21卷,不。9日,第1284 - 1263页,2009年。视图:出版商的网站|谷歌学术搜索
- z郑,“朴素贝叶斯分类器委员会”,在计算机科学的课堂讲稿卷,1398年,第207 - 196页,1998年。视图:谷歌学术搜索
- a . Liaw和m·维纳“随机森林分类和回归,”R新闻,卷2,不。3,在18到22岁,2002页。视图:谷歌学术搜索
- l·e·彼得森,“再”,Scholarpedia,4卷,不。2、第1883条,2009年。视图:出版商的网站|谷歌学术搜索
- w·w·科恩,“快速有效的规则归纳”12日国际会议上机器学习,页115 - 123,迈阿密,佛罗里达,美国,2013年。视图:谷歌学术搜索
- z太阳,问:歌曲,朱x”利用整体学习coding-based改善软件缺陷预测,“IEEE系统,人,控制论,C部分:应用程序和评论,42卷,不。6,1806 - 1817年,2012页。视图:出版商的网站|谷歌学术搜索
- z太阳,问:歌曲、朱x h .太阳,徐,和y周,“小说整体不平衡数据分类的方法,”模式识别,48卷,不。5,1623 - 1637年,2015页。视图:出版商的网站|谷歌学术搜索
- j .难应付的m . Hatef r·p·w·Duin和j·马塔斯”组合分类器”,IEEE模式分析与机器智能,20卷,不。3、226 - 239年,1998页。视图:出版商的网站|谷歌学术搜索
- c·乌尔里希,“支持向量分类”预测和对冲外汇市场施普林格,页65 - 82年,柏林,德国,2009年。视图:谷歌学术搜索
- 诉洛佩兹,a·费尔南德斯,f . Herrera”验证技术的重要性和不平衡数据集的分类:解决协变量转变数据倾斜时,“信息科学,卷257,不。2,1-13,2014页。视图:出版商的网站|谷歌学术搜索
- r . Alejo r . m . Valdovinos诉加西亚和j·h·Pacheco-Sanchez”混合方法面对类重叠和类神经网络和多场景不平衡,“模式识别的字母,34卷,不。4、380 - 388年,2013页。视图:出版商的网站|谷歌学术搜索
- p·多明戈,“Metacost:一般方法进行分类器的成本敏感,”《国际会议上知识发现和数据挖掘,页155 - 164,圣地亚哥,加州,美国,1999年。视图:谷歌学术搜索
- 答:刘、陈z和n . n .熊”一套自适应虚拟转发方案loss-and-delay敏感的网络,”信息科学卷,424年,第136 - 118页,2018年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . m .周m .赵a . Liu,黄和c t . Wang”快速和高效的数据转发方案跟踪移动目标在传感器网络中,“对称,9卷,不。11日,第269条,2017年。视图:出版商的网站|谷歌学术搜索
- r . j . d . Wu Wang问:胡,y Cai,和l .周”节能为移动设备间多媒体通信、资源共享”IEEE车辆技术,卷63,不。5,2093 - 2103年,2014页。视图:出版商的网站|谷歌学术搜索
- d, l .周y Cai, r·胡和y .钱,“流动的作用在LTE-advanced D2D通信网络:能量和带宽效率,”IEEE无线通讯杂志,21卷,不。2、66 - 71年,2014页。视图:出版商的网站|谷歌学术搜索
- l .周r .问:胡y .钱和h。陈:“能量谱效率权衡在移动ad hoc网络视频流,”IEEE在选定地区通讯》杂志上没有,卷。31日。5,981 - 991年,2013页。视图:出版商的网站|谷歌学术搜索
- l .周”移动设备间视频分布:理论和应用ACM交易多媒体计算、通信和应用程序(汤米·),12卷,不。3、第三十八条、1253 - 1271年,2016页。视图:出版商的网站|谷歌学术搜索
- j·m·a·Tahir难应付的,a . Bouridane”Multilabel分类使用异构的多标记分类器”模式识别的字母,33卷,不。5,513 - 523年,2012页。视图:出版商的网站|谷歌学术搜索
- j . Alcal a . Fernndez j . Luengo j . Derrac s Garcła和l . Snchez“龙骨数据挖掘软件工具:数据集中存储库,集成的算法和实验分析框架中,“《多元逻辑与软计算,17卷,不。2、255 - 287年,2011页。视图:谷歌学术搜索
- j·黄和c x凌,“使用AUC和准确性评估学习算法,”IEEE工程知识和数据,17卷,不。3、299 - 310年,2005页。视图:出版商的网站|谷歌学术搜索
- h .他和y妈,不平衡学习:基础、算法和应用程序新泽西州霍博肯市约翰·威利和儿子,美国,2013年。视图:出版商的网站
版权
版权©2017王磊等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。