文摘
特征选择是关键一步高维小样本数据的分析。特征选择的核心是分析和量化特性之间的相关性和类标签和特征之间的冗余。然而,大多数现有的特征选择算法只考虑单个特性的分类贡献而忽略interfeature冗余和相关性的影响。因此,本文提出了一种特征选择算法对非线性动态条件相关(NDCRFS)通过研究和分析现有特征选择算法的思想和方法。首先,冗余和相关特性和特性和类标签之间由互信息歧视,条件互信息,互动互信息。其次,选择的动态特性和候选特征加权利用信息增益的因素。最后,评估这种特征选择算法的性能,NDCRFS验证对6其他特征选择算法在三个分类器,使用12个不同的数据集,不同算法之间的可变性和分类指标。实验结果表明,NDCRFS方法可以改善的质量特征子集和获得更好的分类结果。
1。介绍
在大数据时代,小样本数据的维度的数量急剧增加,导致维灾害。在预处理阶段,无关和冗余功能需要使用数据降维处理技术。因为有很多无关紧要的高维数据和冗余特性,这些特性不仅导致更高的计算复杂度,而且减少分类方法的精度和效率。特征选择(1- - - - - -5不同于其他数据降维技术(例如,特征提取)6)在特征选择侧重于分析高维数据的相关性和冗余性,消除尽可能多的无关和冗余特性和保留有关原始物理特性。这种方法不仅提高了数据质量和分类模型的性能,但也减少了训练时间,更可翻译的7- - - - - -9]。
特征选择方法可以分为三种类型:过滤方法(10,11),包装器方法(12),和嵌入式方法(13]。由于他们的高计算效率和通用性,过滤方法也很容易应用于ultra-high-dimensional数据集。摘要过滤器使用特征选择方法。过滤器可以分为粗糙集的特征选择方法(14,乐此不疲15),和信息化16根据不同的指标。在这些标准中,information-theoretic-based特征选择算法是目前最流行的研究方向滤波器的特征选择算法。通常情况下,特征选择算法在信息理论进一步分为互信息度量(17,18),有条件互信息度量(1,19],互动互信息度量[20.- - - - - -22),等等。这些方法只确定单一条件下冗余和相关特性,因此无法获得最优特征子集。同时,深度学习的主要区别特征提取和基于信息理论的特征选择算法过滤中描述的两种方法:(1)从业务的角度来看,特征选择算法可以分析功能,而特征提取只能执行模式映射,而不是相关分析和研究;(2)从效率的角度来看,特征提取需要更高的计算资源和培训时间长,而特征选择只需要在低档次服务器执行。
在高维小样本环境中,特征之间的冗余和相关特性的动态搜索成为当前要解决的问题,在回答的多样性和高维度数据。本文提出了一种特征选择算法对非线性动态条件相关(NDCRFS)。本文的创新和贡献如下:(1)首先,独立的功能和类标签之间的相关性是由互信息计算。其次,候选人之间的相关特性和类标签下选择特性计算使用条件的信息。最后,判断之间的相关性和冗余特性的交互信息。这种方法解决的问题,如何衡量选择特性和候选人之间的相关性和冗余功能。(2)交互信息规范化的信息增益因子来解决交互信息的动态平衡值。(3)12实验比较的基准数据集再邻居(资讯),决策树(C4.5)和支持向量机(SVM)分类器显示NDCRFS算法优于其他特征选择算法(互信息最大化(MIM) [23),交互Gain-Recursive特性消除(IG-RFE) [24),交互重量特征选择(iwf) [21),有条件互信息最大化(多边化)[25),动态Weighting-based特征选择(dwf) [26),和条件Infomax特征提取(CIFE) [23])。实验结果表明,该NDCRFS算法是一种有效的标准分类特征子集和可以选择特征子集具有良好的分类性能。
剩下的纸是组织如下。节2,相关工作。部分3讨论了互信息和条件互信息。节4,过滤特征选择算法的发展进行了介绍和总结,也讨论了如何定义独立特性的相关性和冗余,新的分类信息相关性和交互功能依赖相关性和冗余。节5的过程和细节的实现NDCRFS算法详细描述。节6,NDCRFS算法验证的有效性进行综合评价的12 ASU和UCI数据集,同时给一个相关的讨论。节7论文总结和NDCRFS算法的不足和未来的发展。
2。互信息和条件互信息
让 , ,和Z是三个离散变量(27), 。因此,相互之间的信息和定义如下:
在上面的方程中, 指的联合分布和是指边际分布。
同时,的条件互信息 , ,和定义如下:
3所示。相关工作
大量的特征选择算法已经提出了过滤器,主要使用向前搜索寻找最优的特征子集评价特征之间的相关性和类标签之间的冗余特性使用各自的评估标准。让是,让原始的特性是最好的特征子集 代表了评估标准,表明候选人特性,和显示所选功能, 。
刘易斯等人提出了MIM算法,重点是选择最相关的特征从使用的相关特性的类标签。在MIM算法,评估由以下标准:
因此,林等人研究了MIM算法的局限性,提出CIFE算法,它是评估以下标准:
在 ,除了测量冗余 内部之间的特性,提出了测量冗余类标签 。
杨et al。28]提出了联合互信息(JMI)算法,这是评估以下标准: 在哪里只有一个额外权重因子 在和代表最优特征子集。
小花等人提出的多边化算法根据最大最小准则,这是评估如下:
之间的区别和是,使用一个非线性累积求和的标准,而使用一个线性累积求和标准。
太阳等人考虑非线性标准较低的计算成本,因此提出dwf dwf算法的评估如下: 在那里,在标准, 意味着相关和 意思是多余的。
胡锦涛et al。(29日)提出了动态相关性和联合互信息最大化(DRJMIM)算法基于dwf算法和JMIM算法,主要地址功能相关性的定义,也就是说,如何区分候选人的相关性特性和选择特性的相关性。这个算法的评估标准如下: 在上面的方程中, 。
肖et al。30.相信使用之间的冗余特性可以进一步提高分类算法的准确性。在此基础上,使用冗余(DWUR)动态权重算法。算法的评估标准如下:
在上面的方程中,有一个更 项目比 。
总之,方程的分析(3)(9)表明,现有特征选择算法都有下列一些问题:(1)冗余特性和无关紧要的功能并没有完全消除。(2)相互依存特性常常被删除冗余特性,因为它们彼此高度相关。这些算法忽略判断相互依赖的相关性和冗余功能。(3)交互的依赖相关性和冗余特征可以判断条件互信息和互信息的差异。因此,研究更好的特征选择标准是迫切需要解决的问题。
4所示。特征选择的评价依据
Bennasar et al。31日认为一个特性被认为是有用的,如果它是相关的类标签吗 ;否则,功能被认为是无用的。这种假设只考虑功能是完全相互独立的。在现实中,特性和标签相关性随添加不同的特性,可以得出结论,之间有相互依赖关系的特性和功能和类标签相关性和冗余变化动态。在本节中,独立和依赖的相关性和冗余功能将被分析和讨论。让 。
4.1。独立功能的相关性和冗余性分析
互信息 常被用来评估功能之间的相关性和类标签 。特征之间的相关性越强和类标签是,越接近 值为1;相反,较弱的相关性,值越接近于0。如果 ,然后特性之间的关系和类标签比之间的关系特性和类标签 。如果 ,然后特性之间的关系和类标签比特性之间的相关性较弱的和类标签 。
的互信息 常被用来评估功能之间的相关性和特性 。如果之间的相关性和高,然后特征之间的冗余性强;相反,冗余是虚弱的。当 ,的特性和是相互独立的。当 ,这意味着特性和特性是多余的,然后它意味着特性或被删除。
4.2。新的分类信息的相关性分析
如果 ,这意味着候选人特性可以提供更多的分类信息。如果 ,这意味着候选人特性不能提供任何有用的分类和特性的信息和是相互独立的。
如果 ,这意味着特性提供了更多的分类信息功能 。
4.3。相关性和冗余的交互特性依赖性
根据文献[6,18,29日),如果 所选特征的重要性类标签候选人特性后变得更强吗补充说,它表明候选人特性可以提供更多的分类信息。
如果 ,之间的相关性选择功能和类标签是削弱候选人后的特性添加,表明候选特征和所选功能彼此是多余的。
5。NDCRFS算法描述和伪代码实现
集的特征选择算法寻求搜索功能密切相关类标签。更准确地测量的相关性特性类标签,NDCRFS算法特性的相关性和冗余措施三个方面:(1) 测量功能的相关性类标签(2) 测量功能的相关性所选的功能在类标签(3) 测量之间的相关性和冗余的交互和在类标签
因此,对于NDCRFS算法的评估标准,具体公式如下:
在上面的公式中, 作为一个信息增益系数正常化吗 代表候选人的特性和显示所选功能, 。
从方程(10),在NDCRFS算法,它首先选择最低冗余功能基于所选特征之间的相关分析和候选人特性 ;其次,它选择最相关的特性的最优特征子集通过迭代,其伪代码如下。
|
从算法1,1号线初始化设置和柜台 。在2到7行,互信息的每个特性集计算。在8到10行,同时,选择最优的特性从设置中删除 ,和特性添加到组 。在这个时候,候选人特性成为选择的功能 。行11到18岁的值 ,和 计算。
NDCRFS算法由2 for循环和1“虽然”循环。因此,NDCRFS算法的时间复杂度(代表的数量选择特性,代表所有功能的数量,代表所有样本的数量,在那里 )。NDCRFS算法的复杂性是高于MIM算法,iwf算法,算法多边化,dwf算法,和CIFE算法,但低于IG-RFE NDCRFS算法算法,主要是因为NDCRFS算法也需要计算 。
6。实验和结果
6.1。介绍了数据集
为了验证NDCRFS算法的有效性,总共有12个数据集用于实验。实验从国际知名UCI数据集选择(3]和ASU [14通用数据集,详细描述表1。从表1,我们知道样本范围从60到7494年,该功能范围从16到19 993年,和分类标签范围从2到20。实验数据集涉及生物医学(淋巴管造影、皮肤、肺Cardiotocography,淋巴瘤,Nci9,烟-能- 187,和Carcinom),脸图像数据(COIL20和Pixraw10P),文本数据(PCMAC和Pendigits)。
6.2。实验环境设置
NDCRFS与六个特征选择算法,MIM, IG-RFE, iwf,多边化,dwf, CIFE,验证其有效性。实验使用资讯、支持向量机和C4.5,分别在相同的特征子集。特征子集的数量设置为 ;例如,K淋巴管造影和Pendigits = 10 剩下的设置。本文的实验环境是8 GB RAM的Intel-i7处理器和仿真软件是Python 2.7。一个5倍交叉验证方法在实验中获得的平均分类精度当前分类器的特征选择算法的平均分类精度。在实验中,删除不完整的样品,,同时,根据Kuarga [32),类属性依赖最大化方法用于离散化连续数据。
6.3。实验结果的讨论和分析
6.3.1。比较算法的变化
本文提出一种方法来测量之间的区别两个选择使用Jaccard方法特征子集。其中, 表示选择的特征子集NDCRFS算法,和代表其他特征选择算法的特征子集选择。具体的公式(11)如下:
我们可以看到在桌子上2NDCRFS平均值的区别和MIM NDCRFS IG-RFE, NDCRFS iwf, NDCRFS多边化,NDCRFS dwf, NDCRFS和CIFE 0.355, 0.389, 0.261, 0.222, 0.286,和0.166,分别表明特性之间的区别是不考虑。当排序关系,NDCRFS算法显著不同于其他特征选择算法。
6.4。分类精度的比较
表3来5显示的平均分类精度12数据集使用资讯,C4.5和支持向量机。大胆的代表最高的精度值数据集的特征选择算法。表3- - - - - -5表明,NDCRFS算法的平均分类精度最高88.734%,81.574%,和79.213%,分别。“胜/领带/损失”描述了获胜的数量/领带/损失NDCRFS和MIM之间IG-RFE, iwf,多边化,dwf, CIFE。
从表3,很明显,NDCRFS算法优于MIM, IG-RFE, iwf,多边化,dwf,和CIFE算法在大多数数据集12日,12日,12日,12日,12日和12。在图1(a), NDCRFS算法的分类精度最高的六个分类算法相比(97.769%,所需数量的特性是23),5.605%,5.605%,9.257%,6.979%,1.089%,和10.63%,分别。在图1(b), NDCRFS算法的分类精度最高的六个分类算法相比(98.589%,所需的功能的数量是5),0.188%,0.188%,0.188%,0.188%,0.0%,和0.188%,分别。在图1(c), NDCRFS算法的分类精度最高的六个分类算法相比(76.69%,所需数量的特性是28),1.25%,2.678%,7.666%,0.571%,28.261%,和高19.44%。在图1(d), NDCRFS算法的分类精度最高的六个分类算法相比(70.014%,所需的功能的数量是15),1.621%,1.01%,0.014%,4.267%,1.593%,和高11.138%。
从表4MIM, NDCRFS算法优越,IG-RFE, iwf,多边化,dwf,和CIFE算法在大多数数据集,与11日,11日,11日,10日,10日和11日分别。在图2(a), NDCRFS算法的分类精度最高的六个分类算法相比(43.935%,所需数量的特性是7),2.042%,2.462%,2.588%,1.613%,0.933%,和1.613%,分别。在图2(b), NDCRFS算法的分类精度最高的六个分类算法相比(94.569%,所需的功能的数量是10),0.226%,0.373%,0.787%,0.801%,0.347%,和0.894%,分别。在图2(c), NDCRFS算法的分类精度最高的六个分类算法相比(87.774%,所需数量的特性是30),7.856%,2.661%,11.81%,3.932%,3.617%,和高10.538%。在图2(d), NDCRFS算法的分类精度最高的六个分类算法相比(87.75%,所需数量的特性是4),8.0%,7.75%,18.222%,4.944%,18.333%,和高0.833%。
从表5MIM, NDCRFS算法优越,IG-RFE, iwf,多边化,dwf,和CIFE算法在大多数数据集,10,12日,12日,11日,10日和11日分别。在图3(a), NDCRFS算法的分类精度最高的六个分类算法相比(87.964%,所需的特性是28)的数量,这是36.966%,62.936%,37.517%,36.419%,32.191%,和67.049%,分别。在图3(b), NDCRFS算法的分类精度最高的六个分类算法相比与20所需功能(85.589%),0.001%,0.102%,3.394%,0.255%,0.206%,和5.194%,分别。在图3(c), NDCRFS算法的分类精度最高的六个分类算法相比(92%,所需的功能的数量是5),1%,1%,1%,1%,1%,和1%,分别。在图3(d), NDCRFS算法的分类精度最高的六个分类算法相比(68.352%,所需的功能数量是24),4.466%,6.285%,15.528%,12.419%,19.714%,和高27.447%。
6.5。运行时分析的算法
计算特征选择算法的运行时间也是一个标准来衡量特征选择算法的重要性。NDCRFS算法的运行时间,MIM算法,IG-RFE算法,iwf算法,多边化算法,dwf算法,CIFE算法进行了比较。在表6,这些特征选择算法的最终运行时的特性排名12的数据集的所有功能。NDCRFS算法的运行时在可接受的范围内。
5倍交叉验证的结果ASU和UCI数据集的实验表明,该NDCRFS算法能够选择一个子集与更好的分类性能的特性,可以进一步改善的歧视能力数据维数压缩下的数据集。
7所示。结论
特征选择是一个重要的工具在高层小样本数据预处理阶段的数据。特征选择的主要目的是选择最优特征子集,应该具有较高的分类精度。因此,在本文中,一个非线性动态条件相关的特征选择算法。该算法首先使用互信息,条件互信息,互动互信息确定和识别独立的相关性和冗余特性和相关特性。其次,“不等式”原则是用来消除冗余和不相关的功能从原来的迭代特性集。最后,通过实验验证了该算法的有效性,这证明NDCRFS算法明显优于特征选择算法MIM IG-RFE, iwf,多边化,dwf, CIFE在大多数的数据集。
然而,NDCRFS算法也有一个令人满意的选择特征子集的数据集。在未来,它将需要优化NDCRFS,验证该方法在研究领域。
数据可用性
实验数据集选择世界著名UCI通用数据集(https://archive.ics.uci.edu/ml/datasets.html)和世界著名的ASU通用数据集http://featureselection.asu.edu/datasets.php)。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
作者写道,阅读,和批准最终的手稿。
确认
这项工作是由江苏科技大学博士科研启动基金:KYY19042。