研究文章|开放获取
Zhenbing Liu Chunyang高,慧华杨,勤加他, ”一个敏感的基于稀疏表示的分类Class-Imbalance问题”,科学的规划, 卷。2016年, 文章的ID8035089, 9 页面, 2016年。 https://doi.org/10.1155/2016/8035089
一个敏感的基于稀疏表示的分类Class-Imbalance问题
文摘
稀疏表示已成功地应用于模式识别和机器学习。然而,大多数现有的基于稀疏表示的分类(SRC)方法实现分类精度最高,假设相同的损失不同误分类。这样的假设,然而,可能不会在许多实际应用不同类型的错误分类可能会导致不同的损失。在现实的应用程序中,数据集的类分布的不平衡。厂商为了解决这些问题,我们提出一种基于稀疏表示的分类(CSSRC) class-imbalance问题通过使用概率建模方法。与传统的SRC方法不同,我们预测类标签的测试样品通过最小化错误分类损失,通过计算得到的后验概率。在UCI数据库实验结果验证该方法的有效性平均误分类代价,积极类误分类率,负类误分类率。此外,我们抽样测试样本和训练样本有不同的不平衡率和使用测量,意思是,分类精度和运行时间对该方法的性能进行评估。实验表明,我们提出的方法执行竞争性SRC相比,CSSVM, CS4VM。
1。介绍
作为统计信号建模的一个强大的工具,稀疏表示(或稀疏编码)已成功地应用于模式识别领域(1),如纹理分类(2和人脸识别3,4),在过去的几年里。在[3),约翰等人提出了一种基于稀疏表示的分类(SRC)方法时解决人脸识别在各种灯饰和遮挡,代表一个输入测试图像的稀疏线性组合训练图像和测试图像分配给类的训练样本可以最佳重建它。在他们的工作,他们使用-regularizer而不是-regularizer调整目标函数,然后计算原始的测试样本之间的残差和重建一个查询来确定图像的标签。这种基于稀疏表示的分类框架在人脸识别取得了巨大的成功,提高了稀疏相关机器学习方法的研究。
传统的分类算法(5),包括SRC,旨在实现最低的识别错误和承担相同的损失不同类型的错误分类。然而,这种假设可能不适合许多真实世界的应用程序。例如,它可能导致不便画廊并被错误地归类为一个骗子,不允许进入房间由一个人脸识别系统,但可能导致严重的损失,如果一个骗子被误诊为画廊和允许进入了房间。在这样的设置,错误分类的损失应该考虑,和“成本”信息可以介绍测量误分类的严重程度。近年来,许多厂商提出了方法。典型的作品包括厂商Semisupervised支持向量机厂商(CS4VM)和拉普拉斯算子提出的支持向量机(CSLSVM)周et al。6,7厂商),从小说的角度推断朴素贝叶斯方法的顺序关系(8]提出的方et al .,卡斯特罗和布拉加提出的厂商和新颖的方法来提高性能的多层感知器(9]。在[10),一个实例加权法被纳入不同的贝叶斯网络分类器。概率估计的贝叶斯网络分类器修改实例加权法,使厂商的贝叶斯网络分类器。在[11),罗等人提出了一个扩展模型基础multilabel分类处理厂商multilabel分类问题,在基函数是一个随机LP分类器训练在[标签集。12],广域网等人提出了一个敏感的特征选择方法称为厂商有识别力的拉普拉斯算子的分数(DCSLS)人脸识别,它包含当地判别分析拉普拉斯算分数的概念。
在大多数应用程序厂商学习总是与class-imbalance共存误分类总成本最小化的目标(13]。Class-imbalance被认为是最具挑战性的问题之一在机器学习和数据挖掘。的比例失衡(多数类少数类)的大小可以巨大的100,甚至10000。已经完成了大量的工作在解决class-imbalance问题。厂商学习是一种有效的方法来处理不平衡数据分类问题。厂商在最近一年,学习研究了广泛而成为最重要的主题之一解决class-imbalance问题。在[14),周和刘研究经验的影响采样和threshold-moving厂商在训练神经网络和显示threshold-moving和soft-ensemble相对好的选择厂商在训练神经网络。厂商也有一些其他的学习方法通过改进已有的方法。在[15厂商)、太阳等人提出了一个提高算法,开发的成本项目引入学习演算法框架。class-imbalance问题的另一个策略是基于交换数据集的分布。在[16),江泽民等人提出了一个新颖的少数克隆技术(MCT) class-imbalanced厂商学习。MCT改变训练数据的类分布通过克隆每个少数民族类实例根据相似性,少数类的模式。一般来说,用户更关注少数类和考虑少数类的分类成本更昂贵。在我们的研究中,我们采用同样的策略来解决这个问题。
在[17厂商),概率分类器提出了人脸识别;他们利用概率模型来估计一个测试样本的后验概率,通过后验概率计算所有错误分类损失。出于这个概率模型和概率子空间聚类17- - - - - -19),我们提出了一种新的方法来处理误分类代价。在稀疏表示,它将扮演一个重要的角色重建如果系数更高的价值20.]。换句话说,系数是1查询样本由字典时相同的示例查询。就像高斯分布,样本均值向量的概率高。灵感来自概率模型,我们使用系数矩阵计算后验概率而不是噪声的分布(残余)(17),他们必须估计噪声的分布。我们的方法的主要优势是减少计算复杂性和计算成本,和该方法的贡献获得后验概率系数向量的稀疏表示。通过后验概率计算所有错误分类损失后,测试样本是分配给类的损失是最小的。实验结果在UCI数据库验证我们方法的有效性和效率。
本文组织如下。部分2概述了有关方法的细节。部分3介绍了该算法的细节。部分4实验报告。最后,部分5总结了纸和为未来的研究提供了建议。
2。相关的工作
在本节中,我们简要介绍一些相关工作,包括厂商基于稀疏表示的分类和学习框架。
2.1。基于稀疏表示的分类
稀疏表示是一个典型的方法在机器学习(3,21,22),这是使用标记训练样本不同的对象类学习词典和确定一个看不见的新的测试样本的标签正确。我们表示的数据集训练样本类作为一个矩阵和是所有训练样本的数量,在哪里在训练集类的数量。给予足够的训练样本吗th类,任何测试样本从同一个类将大约线性表示训练样本的类: 然后,重写上述表示的以矩阵形式为,在那里。然后,定义一个新的矩阵整个训练集如下: 许多方法的距离并不健壮的在实际应用中由于各种遮挡。为了克服这个限制,莱特介绍了基于稀疏表示的分类方法来表示查询图像。的线性表示可以改写所有训练样本 在哪里相关的条目被零除类。这促使我们寻求稀疏的解决方案通过求解优化问题如下: 在哪里表示规范,计算一个向量的非零项数量。然而,上述问题找到稀疏的解决方案(范数最小化问题)是凸实际上赋权。一般来说,如果解决方案寻求足够稀疏,解决方案的最小化问题等于解决以下最小化问题(4,22,23]: 真正的数据噪声;它可能不代表测试样本完全正确。处理噪音,约翰等人延长了范数最小化问题如下公式: 在哪里是与有界噪声项能量。稀疏的解决方案仍然可以通过解决以下稳定最小化问题: 更好的利用这样的线性结构,他们分类基于相关系数的所有训练样本的每个对象繁殖。让的解决方案(7),为每个类,让是特征函数,选择相关的系数类。使用系数,可以近似给定的测试样本作为,在那里。然后他们计算剩余(欧氏距离)之间的和: 测试样本的标签可以确定通过最小化如下:
2.2。敏感的函数
在多级厂商学习,考虑画廊主题类标签,许多骗子,他们的标签。在[7),张周和分类成本分为三种类型:误接受成本、成本错误的拒绝,和成本的假身份。经验,很明显,,是不平等的。给成本设置根据用户和重新分配,,。在这里,易于理解,我们仍然保持原来的配方。我们可以构建一个多级成本矩阵所示 在哪里显示的成本分类的一个示例th类的类。的对角元素都是零由于没有损失的正确识别。
厂商学习通常设置错误分类成本为目标函数,通过最小化损失函数标识标签。给定一个测试样本及其预测类标签分别获得的标签是通过最小化目标函数: 在哪里 在哪里最优的预测吗和代表了画廊主题分类问题。
3所示。敏感的SRC
在[5),Alpaydın计算残差来确定一个测试样本的类标签重构样本之间的欧氏距离和原来的测试样本。在厂商学习,损失函数(见(7)被认为是一个目标函数来识别一个测试样本的标签。在二元分类问题,有两种错误分类代价,我们表示分类的成本正类负类和成本相反。然后可以构造成本矩阵所示 在哪里和代表少数类和多数类的标签,分别。
众所周知,损失函数可以与后验概率有关。然后损失函数可以改写如下: 测试样品属于类有更高的概率。现在,我们将估计,。
在系数矩阵元素值越大,它将扮演更重要的角色为重建一个测试样本。换句话说,它是最好的代表由训练样本和测试样本,他们有相同的类标签,并且没有不同的类样本的线性组合。后验概率可以相关系数矩阵。因此,我们重写的解决方案(7),,在那里和代表积极类系数和负类系数,分别。在这里,正样本的数量和吗负样本的数量在字典。然后,我们可以获得后验概率: 在哪里。然后,(14)可以写成 我们可以获得一个测试样本的标签通过最小化(16): CSSRC的整个过程中所描述的算法1。
算法1 (CSSRC算法)。
输入。字典、测试样品
输出。标签测试样品(1)规范化的列单位规范(2)解决最小化问题:
或者,解决
假设的解决方案是(3)计算损失函数:
在哪里(4)获得的标签:
4所示。实验
4.1。数据集和实验设置
我们测试该方法在七个UCI数据集(24]。这些数据集是总结在表的详细信息1。
在厂商学习,假阳性(实际负但预测正,表示FP),假阴性(实际积极但预测消极,FN),真阳性(实际积极和预测积极,TP),和真正的负面(实际和预测- TN)可以给出一个混淆矩阵如下:
二元分类问题,需要四种误分类代价,这称为CTP, CFP,卡通,和CFN分别。CTP和卡通是真阳性的成本(TP)和真阴性(TN)。为了简化成本矩阵,我们设置CTP = 0和卡通= 0。CFN和CFP的成本假阴性(FN)和假阳性(FP)。我们总是假定分类积极类实例的成本远远高于成本的分类-类实例,所以我们组CFN≫CFP。在这篇文章中,CFP设置的单位成本1;CFN分配不同的值:,分别。在我们的实验中,我们采用10倍交叉验证平均成本,和三个评价标准采用厂商评估分类性能实验:平均成本(AC),错误率虚假验收(呃(IG)),和错误的错误拒绝(呃(GI))。class-imbalance问题,我们选择测量和意思是评估性能。他们定义如下25,26]: 在哪里和代表假接受和假拒绝的数量,分别。,,代表测试样品的数量,正类样本和负类样本,。
为了说明CSSRC的性能,基于稀疏表示的分类(SRC)、厂商支持向量机(CSSVM),和降低成本的Semisupervised方案选择支持向量机(CS4VM)比较三个实验上的性能。实验是在Matlab上执行2014和2.6 GHz Intel Xeon处理器的计算机。
4.2。SRC成本的影响
为数据集住房、大小小于其他六个数据集,所以少样本训练集和测试集的选择。我们选择31积极从住房和31 -样本随机的样本作为测试样品和41正样本和41负样本作为训练样本。我们选择61份阳性样本和61 -鲍鱼样品作为测试样本,托儿所,信,皮马人,Cmc,汽车和101正样本和101年负样本作为训练样本。我们重复采样100次,得到的平均结果。
实验1。我们比较这四个方法的性能(CSSRC, SRC, CSSVM CS4VM)鲍鱼,托儿所,信,皮马人,Cmc、住房和汽车。我们设置成本比率(false接受关于虚假拒绝)的成本为10,并总结了结果(22)。从表2厂商,我们可以看到,该方法达到平均误分类成本低于其他三种方法在鲍鱼,托儿所,信,除了Cmc皮马人,住房,和汽车。CSSRC的平均成本高于CS4VM但低于其他两种方法在Cmc和低于CS4VM 6的数据集。CSSRC的平均成本是0.5122和CS4VM的平均成本是0.5105。他们是在同一大小的顺序。换句话说,我们的方法具有更好的性能比SRC CSSVM, CS4VM。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
实验2。根据实验的结果从图,我们把两个图片1。积极类或负类,该方法可以实现较低的错误率在托儿所和鲍鱼当成本比率范围从5到50。虽然CS4VM可以获得较低的错误率虚假拒绝,误接受的错误率很高,这可能产生严重的总成本。从图1,我们可以很容易发现我们的方法可以实现低误码率的假排斥和低错误率的假同时验收。
(一)幼儿园的结果
(b)结果在鲍鱼
实验3。在本节中,我们从10至50集成本比率,和结果总结表3。第一行是外套比率和前两列代表数据集和分类方法,分别。在实验我们仅仅使用两个数据集,证明我们方法的健壮;更多的数据集采用这个实验。我们建议厂商SRC达到一个较低的平均成本四个数据集。虽然不是最低的成本在托儿所和字母,它有相同的数量级最低成本的价值。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
上面有实验证明对SRC成本的影响。特别是SRC的比较和CSSRC可以验证结论项可以提高SRC的性能成本。
4.3。解决Class-Imbalance问题
实验1。在本节中,我们将解决class-imbalance问题。表1已经总结了数据集的信息,我们使用,和不平衡比率高10是托儿所和信。为了设置一个更高的比例失衡,我们选择这个实验幼儿园。同样,我们比较这四种方法的性能(CSSVM SRC CS4VM和CSSRC)上托儿所。很难反映我们的方法的性能对于class-imbalance问题,和测量,意思是,class-imbalance问题采取了分类精度。在这个实验中,我们采取的不平衡率,分别。大小的少数类是30岁,绝大多数类是30乘以比例失衡在训练集,因此。我们选择61份正样本和61年负样本作为测试集和运行结果和总结数据2和3;抽样过程重复100次,平均的结果。
图2显示的结果测量在托儿所和的定义测量之间的调和平均数(积极类的分类精度和分类的准确性负类)部分所示4.1。很明显,我们的方法取得了更高测量值对基于稀疏表示的分类、厂商支持向量机,和降低成本的Semisupervised支持向量机方案。此外,我们提出的方法达到一个更稳定的性能和不平衡率的增加。同样的,意味着(几何平均数之间的积极类的分类精度和分类的准确性负类)也达到一个更高的价值与尊重其他三种方法在图3。
很难评估方法解决class-imbalance问题的表现,但我们使用分类精度反映方法另外有说服力,这是总结表4。另一方面,运行时间表示方法的计算成本。结果如表所示5。很明显,我们的方法可以得到分类精度最高的和最低的运行时间在托儿所。在本文中,我们使用稀疏表示系数向量估计后验概率;这可以减少计算复杂性和计算成本。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
实验2。在这个实验中,我们打算为class-imbalance验证我们的方法的适用性问题。在实验我们已经测试了我们的方法的有效性,当训练样本的类分布是不平衡的。现在,我们要选择一些训练样本来验证我们的方法,在训练样本的分布是不平衡的。表1总结了数据集的信息,我们使用,和信的不平衡率是24.3。为了设置一个更高的比例失衡,在这个实验中我们选择信。同样,我们比较这四种方法的性能(CSSVM SRC CS4VM和CSSRC)上托儿所。在这个实验中,我们采取的不平衡率,分别。大小的少数类是30岁,绝大多数类是30乘以比例失衡在训练集,因此。我们选择61份正样本和61年负样本作为测试集和运行数据并总结结果4和5;抽样过程重复100次,平均的结果。
图4显示的测量不平衡训练样本;图5显示的测量与测试样本不平衡。很明显,我们的方法达到一个稳定的和更高的结果比其他三种方法从数据信4和5。尽管基于稀疏表示的分类也有类似的结果与我们的方法在图测量5运行时间是高于我们的方法在表6。许多实验已经完成在本节中,我们比较测量与训练样本和测试样本的不均衡分布和运行时间,我们可以很容易地做一个结论,我们的方法比其他三种方法,我们可以解决class-imbalance问题。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5。结论和未来的工作
这篇论文里,我们提出一种新颖的厂商SRC分类器的方法。该方法采用概率模型和稀疏表示系数矩阵估计先验概率,然后获得测试样本的标签通过最小化错误分类损失。实验结果表明,该厂商SRC具有类似甚至更低的总成本较高的精度与其他三个分类算法。已经完成了大量的实验,得出的结论是,我们的方法可以解决class-imbalance问题。在真实的应用程序中,几乎所有的数据集都是class-imbalance。我们的研究可以克服困难的不平衡分布的数据集。
为了简化成本矩阵,我们限制我们的讨论两级问题。所以我们目前的工作扩展到多类场景是我们未来工作的主要研究方向。
相互竞争的利益
作者宣称没有利益冲突有关的出版。
确认
这项工作是由中国国家自然科学基金(批准号61562013和61562013),广西自然科学基金(批准号2013 gxnsfba019279),住研究生教育(不喻的创新项目。YJCXS201558),协同创新中心的物联网技术和产业化(WLW20060610)。
引用
- j . Mairal m·兰德,g . Sapiro“稀疏表示彩色图像恢复。”IEEE图像处理,17卷,不。1,53 - 69年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j . Mairal j .庞塞g . Sapiro et al .,“监督字典学习,”学报21国家会议进展的神经信息处理系统,1卷,第1040 - 1033页,2008年12月加拿大,温哥华。视图:谷歌学术搜索
- w·约翰,y . a .杨g . Arvind et al .,“基于稀疏表示的人脸识别,”IEEE模式分析与机器智能,44卷,不。12日,第2378 - 2368页,2014年。视图:谷歌学术搜索
- m·杨和l . Zhang,”伽柏基于特征的稀疏表示人脸识别与伽柏闭塞字典,”电脑Vision-ECCV 2010: 11日欧洲计算机视觉,伊拉克里翁,克里特岛,希腊,第5 - 11年9月,2010年,诉讼,第六部分卷,6316在计算机科学的课堂讲稿施普林格,页448 - 461年,柏林,德国,2010年。视图:出版商的网站|谷歌学术搜索
- e . Alpaydın“机器学习”,威利跨学科评论:计算统计,3卷,不。3、195 - 203年,2011页。视图:出版商的网站|谷歌学术搜索
- j . t . y . y . Li郭,z h .周”厂商semi-supervised支持向量机,”24日国家关于人工智能的会议,1卷,页500 - 505,亚特兰大,乔治亚州,美国,2010年7月。视图:谷歌学术搜索
- y张和Z.-H。厂商周,“人脸识别”,IEEE模式分析与机器智能,32卷,不。10日,1758 - 1769年,2010页。视图:出版商的网站|谷歌学术搜索
- x方,”贝叶斯推理天真:厂商将朴素贝叶斯、“IEEE知识&数据工程,25卷,不。10日,2302 - 2313年,2013页。视图:出版商的网站|谷歌学术搜索
- c·l·卡斯特罗和a·p·布拉加,”小说敏感的方法提高多层感知器的性能对不平衡数据,”IEEE神经网络和学习系统,24卷,不。6,888 - 899年,2013页。视图:出版商的网站|谷歌学术搜索
- 江l, c·李,王,“敏感的贝叶斯网络分类器,”模式识别的字母,45卷,第216 - 211页,2014年。视图:出版商的网站|谷歌学术搜索
- H.-Y。瞧,告诫。林和小时。王”,广义k-labelsets合奏多标记和降低成本的分类方案,“IEEE知识&数据工程,26卷,不。7,1679 - 1691年,2014页。视图:出版商的网站|谷歌学术搜索
- j .广域网、m·杨和y . Chen”歧视的成本敏感的拉普拉斯算子的得分为人脸识别,”Neurocomputing卷,152年,第344 - 333页,2015年。视图:出版商的网站|谷歌学术搜索
- g·r·皮尔森Goney, j . Shwaber“微阵列时间序列聚类,不平衡”诉讼的研讨会学习不平衡数据集二世(ICML ' 03),p。3,华盛顿,美国,2003年。视图:谷歌学术搜索
- Z.-H。周和X.-Y。刘”,敏感的神经网络训练方法解决类不平衡问题,“IEEE工程知识和数据,18卷,不。1,第77 - 63页,2006。视图:出版商的网站|谷歌学术搜索
- y太阳,m . s .卡迈勒,a . k . c . Wong和y王,“厂商提高对不平衡数据的分类,模式识别,40卷,不。12日,第3378 - 3358页,2007年。视图:出版商的网站|谷歌学术搜索
- 江l . c .秋和c·李,“小说少数厂商克隆技术学习”,国际期刊《模式识别与人工智能卷,29号4、文章ID 1551004, 2015。视图:出版商的网站|谷歌学术搜索
- j .男人,x, d . Zhang, c .局域网,“厂商稀疏分类器应用于人脸识别,”诉讼18 IEEE国际会议上的图像处理(ICIP 11)IEEE,页1773 - 1776年,布鲁塞尔,比利时,2011年9月。视图:出版商的网站|谷歌学术搜索
- j . Lu和Y.-P。谭”,为人脸识别敏感的子空间学习《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR 10)IEEE,页2661 - 2666年,旧金山,加州,美国,2010年6月。视图:出版商的网站|谷歌学术搜索
- j . Lu和Y.-P。谭”,为人脸识别敏感的子空间分析和扩展,”IEEE取证与安全信息,8卷,不。3、510 - 519年,2013页。视图:出版商的网站|谷歌学术搜索
- m z Kukar和i Kononenko厂商学习神经网络,”学报》13日的欧洲会议上人工智能(ECAI 98)布莱顿,页445 - 449年,英国,1998年8月。视图:谷歌学术搜索
- p . m . c . j . Wang Lu Wang Li Yan, x和,“通过自适应稀疏表示的人脸识别,”IEEE控制论,44卷,不。12日,第2378 - 2368页,2014年。视图:出版商的网站|谷歌学术搜索
- e . j .萤石,j·k·伯格和t .道,“稳定复苏不完整和不准确的测量信号,”通信在纯粹和应用数学卷,59号8,1207 - 1223年,2006页。视图:出版商的网站|谷歌学术搜索
- d . l . Donoho”大多数大型的欠定的系统方程,最小规范近似解接近稀疏近似解。”通信纯粹和应用数学卷,59号7,907 - 934年,2006页。视图:出版商的网站|谷歌学术搜索
- c·布莱克·e·基奥,c·j·梅尔兹UCI机器学习数据库的存储库、部门的信息和计算机科学,加州大学欧文分校加州,美国,1998年。
- b . g .胡锦涛和w·m·盾”,研究成本行为的二元分类措施class-imbalanced问题,“计算机科学,8卷,不。11日文章ID e79774, 2014。视图:谷歌学术搜索
- 厂商z . m . Kukar和i Kononenko”,用神经网络学习,“445 - 449年,1998年。视图:谷歌学术搜索
版权
版权©2016 Zhenbing刘et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。