优化Mahalanobis-Taguchi系统高维小样本数据分类

文摘

Mahalanobis-Taguchi系统(MTS)是一种多元数据诊断和预测技术,它被广泛用于优化大样本数据或不平衡数据,但却很少用于高维小样本数据。摘要优化MTS的分类从两个方面讨论了高维小样本数据,即协方差矩阵的逆矩阵的不稳定和不稳定的特征选择。首先,基于正则化和平滑技术,提出了一种修改Mahalanobis度量计算Mahalanobis距离,这是旨在减少逆矩阵的影响在小样本条件下不稳定。其次,最低redundancy-maximum相关性(mRMR)算法引入的MTS失稳特征选择问题。通过使用mRMR算法和信噪比(信噪比),提出了一种两阶段的特征选择方法:mRMR算法是首先用来消除噪音和冗余变量;然后使用正交表和信噪比屏幕上的组合分类作出伟大贡献的变量。然后,优化的可行性和简单MTS从UCI数据库五个数据集所示。Mahalanobis距离基于正则化和平滑技术(RS-MD)比传统的更健壮的距离。两级特征选择方法提高了特征选择对MTS的有效性。最后,应用优化的MTS Spambase邮件分类的数据集。结果表明,优化后的MTS优于经典的MTS和其他3机器学习算法。

1。介绍

Mahalanobis-Taguchi系统(MTS)使用Mahalanobis距离(MD)作为测量尺度,结合田口稳健设计实现系统诊断和尺寸优化。MTS是一种常用的多系统模式识别方法,取得了良好的效果在医学诊断(1,2)、财务预警(3)、产品检测(4,5),故障分析6),企业管理,综合评价7),等等。MTS广泛应用于优化和大样本数据或不平衡数据的分类(6,8- - - - - -12]。然而,在模式识别领域,大量的识别问题属于高维小样本问题,和研究高维小样本大小问题已经逐渐成为一个热点。例如,图像分析是一个典型的高维小样本模式识别领域的问题,也是机器视觉领域的焦点。对机器视觉图像处理具有重要意义的问题和图像分析。在一些图像噪声的存在使得图像处理困难。提到的图像,斑点噪声是主要的问题,因为它的乘法性质严重损害了形象。同时,散斑的存在、杂波边缘和映像级别杂波也可以假警报和错误检测检索算法。它通过去噪可以有效地提高识别能力。深度学习有一个良好的应用程序领域的图像去噪算法。例如,基于深层信念网络监督深度学习方法(DBN)是用于检测合成孔径雷达(SAR)图像的变化(13),CNN和多层感知器神经网络的混合算法(CNN-MLP)提出了图像分类(14),等等。此外,图像分割是图像处理到图像分析的关键步骤。有效的图像分割方法可以提高机器视觉的识别效果(15- - - - - -17]。图像分割也是一个重要的步骤在图像纹理识别,和斑点噪声的存在将影响图像分割。因此,一个算法,提出了基于小波变换和支持向量机的纹理识别的SAR图像(18]。图像处理技术在图像配准中具有重要的应用价值19],海岸线检测[20.,21),等等。因此,研究高维小样本数据的MTS不仅为降维提供新的想法和小样本分类问题,也扩展了应用范围的MTS的MTS也可以扮演一个角色在智能交通系统(22)、图像处理、机器视觉和电子领域的其他技术。

目前研究高维小样本数据主要集中在三个方面。首先,训练样本的数量小于变量,这将导致协方差矩阵的奇异性问题。第二,当训练样本的数量略大于变量,有偏见的特征值估计会导致协方差矩阵的逆矩阵的不稳定。第三,特征选择问题发生。的情况下训练样本的数量小于的特性,一个常见的方法是增加样本容量通过生成一个虚拟样本。通过使用蒙特卡罗方法,Karaivanova et al。23]重建数据不足的概率分布生成虚拟样本。基于虚拟样本生成技术、锣等。24)提出了一种新的粒子群优化(PSO)算法来生成有效的虚拟样本。的情况下训练样本的数量比变量的协方差矩阵的优化主要从特征值的角度。关于穷人学习保持简单明了的性能(吻)度量,道et al。25)提出了一个双重正则化吻度量学习方法对行人识别问题。通过调整组内和组间协方差矩阵的特征值根据训练样本的判别信息,Liong et al。26)提出了一种新的判别正规化度量学习方法估计距离度量偏差最小化。特征选择问题,分类性能和稳定性进行了讨论。Espezua et al。27)迅速压缩数据,然后使用一种改进的投影追踪法避免维度灾难。希拉和Gillies28]总结各种方法对高维降维微阵列数据。Kamyab和Eftekhari29日)用多通道优化技术解决特征选择问题。吴作栋和黄30.)提出了一个网络在蛋白质组学中特征选择算法的事了。改进的有效性和鲁棒性特征选择技术,Du et al。31日)提出了一种基于多核学习的混合特征选择方法。这些方法表明,高维数据的特征选择应该不仅考虑分类性能,而且确保稳定的结果。这些研究主要集中在协方差矩阵和特征选择,和几个方法可以同时解决问题降维的高维小样本数据和分类。与大多数分类方法,MTS屏幕有效特征和构造一个分类模型通过确定阈值。因此,降维的MTS可以同时解决问题和分类。

许多研究也关注MTS的协方差矩阵和特征选择。协方差矩阵,当多个变量之间的共线性发生时,协方差矩阵的逆矩阵不存在。田口方法使用施密特正交化[32)和伴随矩阵(33)来计算。基于施密特正交化,苏和萧34)提出了加权施密特正交化来计算。释迦et al。35)使用一个集成的施密特正交化方法对滚动轴承的分类。广义逆矩阵的基础上,汉族et al。36重新定义了MD和提出了Mahalanobis-Taguchi广义逆矩阵方法。Chang et al。37)使用协方差矩阵的伪逆计算。通过消除多重共线性的岭估计方法,道和程38]提出了ridge-MD结合了岭估计与MD。特征选择,经典的MTS使用正交表和信噪比(信噪比)方法筛选变量。亚伯拉罕和Variyath [39)确认的可能性,使用适当的降维算法,优化MTS。Resendiz一起做et al。40)应用二进制蚁群优化算法来优化变量的组合。Iquebal et al。41]筛选变量的基础上最大程度的变量和类之间的依赖或类别之一。Resendiz-Flores et al。42)混合使用二进制PSO和引力搜索算法的启发式算法进行特征选择。通过引入混沌映射和二进制粒子群优化算法,顾et al。3)构造了一个改进的MTS-CBPSO方法筛选有效变量。Reyes-Carlos et al。43]构造数学模型选择的特性和使用metaheuristic算法来解决相应的模型。解决焊接不平衡数据的特征选择问题,马哈茂德•艾哈迈迪et al。44]应用MTS的遗传算法,提出了遗传算法的分类器。妞妞和程45)使用优化模型选择变量和构造概率阈值模型对不平衡数据分类。这些研究大部分集中在大样本数据或不平衡数据,而很少有研究讨论了高维小样本数据。的协方差矩阵,现有研究只讨论了变量之间的多重共线性,而很少有研究讨论了协方差矩阵的逆矩阵的不稳定条件下的小样本数据。特征选择,现有研究主要筛选特征的分类性能,而很少有研究讨论了特征选择的不稳定。

在当前工作,优化MTS的分类,从两个方面讨论了高维小样本数据,也就是说,协方差矩阵的逆矩阵的不稳定和不稳定的特征选择。针对协方差矩阵的逆矩阵的不稳定问题,Mahalanobis度量基于正则化(25,46和平滑47,48)技术提出了。针对不稳定的特征选择问题,基于最小的两阶段特征选择方法redundancy-maximum相关性(mRMR) [49,50提出了特征选择算法和信噪比。

本文的其余部分的结构如下。节2,我们简要介绍MTS的实现步骤。在部分3,我们建立一个优化的MTS模型。节4,我们选择数据集进行验证和分析。节5,我们电子邮件过滤问题进行实证研究。节6,我们推导出结论。

2。Mahalanobis-Taguchi系统

MTS模式识别技术是基于医学与田口实验设计。MTS的最初的研究是一个two-classification问题。一个是设置为正常的观察,另一个是设置为异常的观察。实现系统诊断和优化降维的目的,正交表和信噪比是用于屏幕变量和分类阈值确定符合医学博士。

假设正常观测的数量和异常观测的数量 ,正常和异常的观测包括变量。的正常化后观察正常的观察记录 , 。异常观测规范化按照正常的观察结果的均值和方差,以及观察异常观测记录的 , 。每个观测的MD参考空间可以表示为在哪里的协方差矩阵是正常观测。Mahalanobis-Taguchi系统,正常的标准化变量观测是用于构造空间的引用。异常的医学观察显著大于正常的观察,表明构造参考空间是有效的;否则,正常的观察应该回忆,直到获得一个有效的参考空间。

传统医学的计算需要的数量大于观测变量。同时,多个变量之间的共线性应该没有避免协方差矩阵的逆矩阵的情况不存在。此外,MD夸大了变量的作用与微小的变化,容易不稳定的协方差矩阵。因此,协方差矩阵的奇异性和不稳定性影响的传统的计算。

相应的二级正交表 ,在哪里选择代表试验的数量,按照最初的数量变量。“1”表示变量的水平被选中时,和“2”的水平表明变量没有被选中。正交表的信息的基础上,参考空间重构为每个实验通过使用选定的变量。每个异常的医学观察新参考空间计算,和larger-the-better计算信噪比作为响应值。实验设计的概念的基础上,每个变量的影响在不同层次上进行了分析,并选择有效的变量。根据所选择的变量组合,每个观测的MD重新计算来确定阈值通过最小化分类损失。未知的观察诊断。

经典的MTS使用正交表和信噪比屏幕变量和选择变量结合高信噪比。得到更好的分类结果,训练样本的数量应足以充分反映每个变量的信息。否则,所选变量组合将不会对测试样本具有良好的分类效果。

3所示。优化MTS

这部分构造一个优化MTS为高维小样本数据分类。首先,基于正则化和平滑技术,介绍了改性Mahalanobis度量的计算,和修改的可行性指标证明。然后,mRMR算法和信噪比的基础上,介绍了两级特征选择方法的实现步骤。最后,优化的算法流Mahalanobis-Taguchi系统介绍。

3.1。基于正则化和平滑技术指标

当样品的数量略大于变量,有偏见的特征值估计会导致协方差矩阵的逆矩阵的不稳定。道等。25]证明了协方差矩阵的估计是受到样本容量的影响。一个小样本大小导致很大的协方差矩阵估计泛化绑定。具体来说,大型特征值的协方差矩阵被高估了,而小的特征值都是低估了。高估了大特征值和低估了小特征值都是不利于后续的分类。MD取决于协方差矩阵的计算。如果估计协方差矩阵的影响,医学博士的计算将会产生偏差。因此,传统医学已不再适用于高维小样本数据。因为之间一一对应的特征值和特征向量的协方差矩阵和一组,协方差矩阵的估计性能可以通过改善提高特征值和特征向量的估计。上述分析的基础上,介绍了正规化和平滑技术改善协方差估计的性能度量学习。

之间的相关系数矩阵正常观测的变量是一个semipositive矩阵,可以表示为在哪里 ,与 , 是的特征值 , ,与相对应的特征向量 ,和是一个正交矩阵。

3.1.1。平滑技术

数据平滑技术的基本思想是提高低概率,减少高概率,概率分布趋向于平均水平。介绍了滤波技术消除零特征值和特征值分布的光滑。然而,当所有的特征值往往是相同的,原样品丢失的信息。因此,平滑技术是用来调整小协方差矩阵的特征值。

按照平滑技术,小的常数是用来取代小协方差矩阵的特征值,记录是哪一个

当平滑技术,介绍了一些特征值与平均值代替。这种方法不仅避免了零特征值的外观,而且平滑,特征值的分布。

3.1.2。正则化技术

正则化技术的基本思想是使用一个单位矩阵插入协方差矩阵;因此,样本协方差矩阵倾向于单位矩阵,表示为在哪里 , 。

正则化技术的引入后,相对应的特征值的协方差矩阵

大原协方差矩阵的特征值减少由于参数的存在。因此,参数可以使倾向于单位矩阵和抑制过高的大型特征值。

3.1.3。基于正则化和平滑技术指标

在有限训练样本协方差矩阵的估计产生偏差,计算传统医学的影响。之间是一一对应的协方差矩阵和特征值和特征向量的协方差矩阵的性能可以提高通过调整特征值,也就是说,减少高估大特征值和增加低估了小特征值。正规化和平滑技术从而引入医学博士的计算条件下的有限样本。平滑技术是用于提高小特征值的估计,和正则化技术用于减少高估了大型特征值的影响。

样本协方差矩阵是由正则化处理和平滑技术,和新的估算如下: 在哪里

Mahalanobis距离的计算基于正则化和平滑技术(RS-MD)每个样本转化为

定理1。观察被认为有一个上限,也就是说, , 。对于任何两个样品和标准化在同一类别,我们有在哪里代表了对角元素的。

证明。从方程(9), 鉴于 ,我们确定与我们的产量定理1表明,任何两个样本相同的类,不同的上界RS-MD或MD和协方差矩阵的特征值相关。调整协方差矩阵的特征值可以提高性能,从而提高鲁棒性。

定理2。让 , ,和表示对角元素的 , ,和 ,分别然后

证明。样本协方差矩阵的特征值变得方程(3)与平滑处理技术。然后, 样本协方差矩阵的特征值变得方程(6)通过处理正则化技术。然后, 我们假设的收益率因此,单调递增的 ,和相比之下,是单调递减的 ,和样本协方差矩阵的特征值变得方程(8)与正则化处理和平滑技术。然后, 因此, 定理2反映了每个特征值的计算值序列之间的关系时,特征值都是由不同的方法进行处理。结合定理1和2,我们知道对于任何两个样本在同一类,不同的上界RS-MD变动小于传统。因此,Mahalanobis度量基于正则化和平滑技术比传统的更健壮的度量。

3.2。两阶段基于mRMR算法的特征选择算法和信噪比

高维小样本数据可能导致不稳定的特征选择问题。当训练样本产生一个小的扰动时,所选择的变量组合可能会产生很大的差异。高维小样本数据通常包含大量的冗余,不相关的,和噪声特性。他们不能完全反映特征信息由于少量的训练样本,从而导致巨大的差异选择不同训练样本的特征组合。MTS屏幕变量只从分类精度的角度。然而,对于训练样本有限,所选变量组合基于分类精度不再是可靠的。本文据此提出了一种两阶段基于mRMR算法的特征选择方法和信噪比。首先,mRMR算法去除冗余和噪声特性,和特性是高度相关的类标签被选中。然后,按照正交表和信噪比,一个特征子集选择具有较强的解决实现鲁棒优化的目标和降维。

3.2.1之上。基于mRMR一次性的特征选择算法

高维小样本数据包含大量的冗余,不相关的,和噪声特性,不仅显著增加计算复杂度,降低分类器的性能,但也导致不稳定的特征选择。因此,mRMR算法介绍,以确保所选择的特征的有效性。

根据信息差异和信息熵的成本函数,mRMR算法旨在测量最大样本信息和最小特征之间相关性。特征和类别之间的关系或特性是衡量互信息(51]。互信息是衡量两个随机变量之间的相互依赖的程度。广泛的两个随机变量间的互信息表明它们之间很强的相关性(52]。

样品的数量 ,特征的数量 ,和类别的数据集给出了。记录的特性。值范围的功能是 ,和值范围的类别是。

的互信息之间的特性和类别是在哪里代表的值的概率特性是和阶级的价值是。一个大的价值显示了高度的关联特性和类别(53]。

的互信息之间的特性和是在哪里代表的值的概率特性是的价值和功能是。一个大的价值意味着高相似度的特性以(53]。

的最大相关性和最小冗余mRMR算法计算如下: 在哪里和分别代表了特征子集及其维度;代表平均互信息;和代表之间的互信息特征(49]。

mRMR算法生成特性与最小冗余和最大相关性通过以下两个标准:

3.2.2。基于信噪比的二次特征选择

mRMR算法消除了冗余和噪声特性,特征选择的可靠性保证。然而,使用这个算法并不意味着获得的特性有利于分类的特征子集。分类精度的特性,做出伟大的贡献进一步过滤通过使用正交表和信噪比。

选择合适的两级正交表的基础上选定的特征子集的mRMR算法。根据正交表的信息,参考空间重构通过为每个实验中,使用选定的特性和计算每个观测异常的RS-MD按照方程(9)。在这一点上,larger-the-better信噪比的计算如下:

为变量 , 用于表示使用信噪比的意思是当这个变量;用于表示信噪比的意思是当没有使用这个变量;和代表了信噪比增加。当增量是正的,变量保留;否则,变量是删除。每个变量的贡献程度的分类精度评价的基础上,增加信噪比,和特性结合巨大贡献程度被选中。

两级特征选择不仅可以确保所选特征的鲁棒性组合使用mRMR算法也提高了分类精度通过使用正交表和信噪比。因此,实现鲁棒优化的目标和降维优化Mahalanobis-Taguchi系统使用基于正则化的Mahalanobis距离和平滑技术(RS-MD)作为测量规模和使用两级特征选择方法筛选功能。优化的算法流Mahalanobis-Taguchi系统提出了算法1。

	输入:训练数据集 ,特性集 ;
	输出:特征子集 ,阈值 ;
(1)	规范化的数据,然后计算每个观测到引用的RS-MD空间;
(2)	如果RS-MD异常的观察是明显大于正常的观察,继续下一步;否则,回忆数据;
(3)	使用mRMR算法去除冗余和噪声特性和选择最优特征子集 ;
(4)	构造一个二级正交表按照特征子集。计算信噪比按照RS-MD异常的观察和结合正交表和信噪比选择特征子集巨大贡献;
(5)	重新计算每个样本的医学根据特征子集然后确定分类阈值通过使用ROC曲线;
(6)	返回 , 。

4所示。优化的MTS的有效性验证

验证RS-MD的健壮性和两级特征选择方法的有效性,五个数据集从UCI数据库这一节所示。MTS使用正常观测构造参考空间,和引用的信息空间是用来计算协方差矩阵和MD。为了满足高维小样本数据的特征,样品的数量不能超过10倍的数量特征。数据处理是在选定的五个数据集上进行删除缺失值和未分化的变量。获得的信息如表所示1。


数据集名称	数量的变量	数量的样品	积极的课堂	负类

电离层	33	351年	好/ 225	坏/ 126
Z-Alizadeh萨尼	48	303年	正常/ 87	CAD / 216
帕金森数据集与复制的声学特性	46	240年	健康/ 120	PD / 120
乳腺癌的威斯康辛州(预测)	34	194年	复发性/ 148	不反复出现的/ 46
联结主义板凳(声纳、矿山与岩石)	60	161年	R / 50	米/ 111

4.1。传统医学和RS-MD进行比较分析

传统Mahalanobis距离要求的计算协方差矩阵不是单一的,也就是说,正常观测的数量比特性。根据正常的观测信息的电离层,Z-Alizadeh萨尼,帕金森数据集与复制的声学特性,威斯康星州和乳腺癌(预测)的数据集,基准空间构造和数据标准化。每个样本的MD在上面计算的数据集。因为RS-MD受参数的影响和 ,我们选择平滑特征值小于0.01。不同的参数也选择了讨论。当参数为0.2,0.5和0.9,计算每个数据集下的RS-MD。计算结果如图所示1。

(一)

(b)

(c)

(d)

图1显示了正常的观察RS-MD的分布参数时每一个数据集被认为是0.2,0.5和0.9。当参数是0.2或0.5,计算RS-MD很小的波动,从而表明结果是高度健壮的参数很小。当参数是0.9,计算RS-MD变得很大的波动,表明结果是削弱当参数的鲁棒性很大。进一步反映参数的影响在计算结果的方差RS-MD当参数需要不同的值如表所示2。


数据集名称

电离层	0.1555	0.1182	0.0978	0.2463
Z-Alizadeh萨尼	0.1127	0.1228	0.1483	0.2633
帕金森数据集与复制的声学特性	0.0650	0.0589	0.0552	0.1207
乳腺癌的威斯康辛州(预测)	0.1419	0.1359	0.1455	0.3499

表2显示的方差RS-MD在正常观测参数被认为是0.2,0.3,0.5和0.9。当参数小于0.5,计算的方差RS-MD很小,表明波动很小。当参数是0.9,计算的方差RS-MD逐渐增加。因此,当参数方法1,RS-MD波动的增加和鲁棒性降低。这是因为这个时候估计协方差矩阵的特征值几乎相等,从而导致过度拟合问题。方差的比较表明,综合参数时效果更好是0.3。因此,我们设置参数0.3和光滑的特征值小于0.01。RS-MD和传统医学的计算结果如图所示2。

(一)

(b)

(c)

(d)

图2描绘了MD的分布和RS-MD正常的观察每一个数据集。医学博士之间的分布和RS-MD Z-Alizadeh萨尼数据集相对较近。RS-MD是略小于传统的医学博士和波动率略有降低。在其他三个数据集,RS-MD小于传统的医学博士和波动率显著降低。因此,Mahalanobis度量基于正则化和平滑技术比传统的更健壮的度量。

然而,当正常的数量小于观测的特点,计算样本协方差矩阵是奇异的,和传统的距离无法计算。为了验证的有效性RS-MD在这种情况下,gram - schmidt Mahalanobis距离(高盛)是与RS-MD相比。以联结主义板凳(声纳、矿山与岩石)数据为例,计算结果如图所示3。从图可以看出3,尽管高盛可以计算每个样本的Mahalanobis距离,距离Mahalanobis两类样本的几乎重叠,很难有效区分样品在两个类中。RS-MD时使用,有一个显著的差异在两类。可以使用RS-MD作为索引来区分样本。因此,RS-MD可以用作度量当正常样本的数量小于的特性,和歧视的不同样本可以改善。

(一)

(b)

4.2。比较分析两级之间的特征选择方法和传统MTS的特征选择

验证两阶段的特征选择方法的有效性,稳定性和分类的准确性特征选择在本节进行了分析。每个数据集的数据分为5折,4个作为训练数据。为了测量的稳定性特征选择,Jaccard系数是用来计算相似性的特征子集。

Jaccard系数是一种常见的相似性度量,用于测量样本集之间的相似之处(54]。对于任何两组和 ,Jaccard系数定义如下:

Jaccard系数在5个实验的均值作为特征选择的稳定性的措施。结果如图所示4。图4呈现稳定的特征子集获得通过使用两种特征选择方法在每个数据集,在mRMR-SNR代表两级特征选择方法和信噪比代表的特征选择方法相比传统的MTS。与传统的MTS使用信噪比筛选变量,mRMR-SNR的效果更好。这个结果表明,两级特征选择方法有利于提高鲁棒性的特征选择。

的基础上,两种特征选择方法的结果,每个数据集特征选择后的分类精度计算。决策树、支持向量机和资讯是用作衡量分类器分类精度。5倍交叉验证用于计算每个数据集的分类精度,结果如图所示5。

(一)

(b)

(c)

(d)

图5介绍了由不同的分类器分类精度计算为每个数据集在使用两种特征选择方法。可以看出,根据特征子集获得mRMR-SNR在每个数据集,计算分类精度较高。因此,两级特征选择方法有助于选择有效的特征分类。

5。实证分析

电子邮件的形成和发展为日常生活提供极大的方便。然而,大量垃圾邮件的情况下为用户和服务提供者也引起许多问题。因此,如何获得有效的邮件变成一个问题,和电子邮件过滤已逐渐成为一个重要的方式(55]。电子邮件过滤的目的是区分普通消息从垃圾邮件;这个目标是一个典型的两级问题。传统分类算法通常需要大量的标记电子邮件作为训练样本,但大量的收集和标记电子邮件大大增加的成本消耗。因此,在小样本条件下提高邮件过滤性能是一个重要的研究问题56]。MTS并不依赖于分布类型的数据后,可以实现分类预测减少维度。这是一个实际的模式识别和分类预测方法对多维变量。因此,我们应用在小样本条件下优化MTS邮件过滤。

5.1。数据预处理

本节将Spambase UCI数据库提供的数据集作为一个例子。数据集包含4601份电子邮件样本(2788 1813定期电子邮件和垃圾邮件)。每个电子邮件的文本内容是由56个不同的变量和描述1属性变量。共360封电子邮件(190 170定期电子邮件和垃圾邮件)随机选择从构成训练集的数据集和测试集的300封电子邮件(160 140定期电子邮件和垃圾邮件)。这是旨在满足高维小样本数据的需求和提高算法的效率。

5.2。建设基于修改的测量尺度度量

在训练集,190定期电子邮件是正常的观察和170垃圾邮件是不正常的观察。计算每个观测的RS-MD由方程(9)。根据验证的结果分析,参数设置为0.3,并平滑特征值小于0.01。根据计算结果,大部分的RS-MD异常观测比正常的观察,而正常的RS-MD观察基本上集中在大约1。因此,构建参考空间是有效的。

5.3。两级特征选择基于mRMR算法和信噪比

原始数据由56个变量,记录。mRMR算法首先是用来消除噪声变量和冗余的变量。的相关性以互信息计算方程(25)和(26)。31日功能保留,他们的成绩表所示3。


功能
分数	0.000	−0.094	−0.019	−0.007	−0.014	−0.027	−0.026	−0.019	−0.016	−0.017	−0.030
功能
分数	−0.022	−0.028	−0.027	−0.033	−0.041	−0.050	−0.052	−0.060	−0.057	−0.061	−0.066
功能
分数	−0.068	−0.063	−0.076	−0.072	−0.085	−0.092	−0.094	−0.096	−0.098

一个正交表选择的基础上选择31特性。的基础上的正交表的信息,每一个异常的RS-MD观察不同特征组合下重新计算,并根据方程(计算信噪比30.)。信噪比的值从每个测试如表所示4。


测试	1	2	3	4	5	6	7	8	9	10	11
信噪比	1.513	−1.271	−4.010	0.692	−7.809	−2.428	−3.104	−9.281	−5.210	−6.468	−5.422
测试	12	13	14	15	16	17	18	19	20.	21	22
信噪比	−5.690	−5.506	−4.236	−3.931	−2.749	−4.634	−4.227	−4.107	−6.069	−0.658	−2.976
测试	23	24	25	26	27	28	29日	30.	31日	32
信噪比	−2.747	0.260	−3.678	−4.094	−4.759	−3.800	−4.712	−3.734	−5.076	−4.008

结合正交表和信噪比,信噪比的意思是每个特性在不同层次上进行了分析。信噪比的均值反映了变量在不同层次上的影响。当信噪比的平均水平1大于2级,表明使用该变量比不使用它更有利。也就是说,这些变量是有效的变量和分类是有益的。相反,当信噪比的意思是1级低于2级,表明使用该变量的影响是低于没有使用它。也就是说,这些变量施加轻微影响分类,可以删除。对于有效的变量,不同信噪比的意思是在不同层次上反映了变量的意义。差异越大,分类变量的贡献。因此,减少基准这15个变量组成的空间。

5.4。阈值计算和分类预测

参考空间重构按照15变量选择的特征选择过程中,每个样本的MD在新的参考空间计算。然后使用传统医学,因为数据特征选择后不再高维小样本数据。基于计算医学博士使用ROC曲线确定系统的阈值。结果如图6。当阈值是1.9377,训练集的分类精度达到最高为0.9194。确定阈值用于测试集进行分类,分类精度的最终测试集是0.9067。

5.5。比较常见的分类方法对高维小样本数据

对于高维小样本数据的分类问题,特征选择方法,如过滤和嵌入方法,首先用于筛选变量,然后一个常见的机器学习算法对dimension-reduced数据集进行分类。减压方法和SVM-RFE方法中的常用方法过滤和嵌入方法,分别。因此,本节首先使用救援和SVM-RFE方法降低高维小样本数据的维度。然后,决策树、支持向量机和资讯算法用于reduced-dimensional数据集进行分类。

15个变量选择的救济或SVM-RFE方法,然后dimension-reduced数据集是由决策树分类,支持向量机,然而算法。结果比较与优化的MTS。比较结果如表所示5。


	优化MTS		古典MTS		决策树
					救援	SVM-RFE
数的功能	15		20.		15	15
训练集	0.9194		0.8722		0.8333	0.8444
测试集	0.9067		0.8633		0.8433	0.8533

	支持向量机		然而,
	救援	SVM-RFE	救援	SVM-RFE

数的功能	15	15	15	15
训练集	0.8722	0.8944	0.8583	0.8750
测试集	0.8733	0.8967	0.8600	0.8867

如表所示5,优化MTS具有更好的分类效果比经典的MTS为训练和测试样本。这一结果表明,与经典的MTS相比,优化MTS的分类和预测能力较好。也就是说,优化MTS更适合小样本数据。

筛选功能后救济和SVM-RFE方法,支持向量机算法的分类效果优于决策树和资讯的算法。这个结果表明,支持向量机算法具有更好的分类性能条件下的小样本。然而,这三种分类器的分类效果低于MTS优化。优化的MTS具有良好的降维为高维小样本数据和分类性能。此外,降维中分离和分类预测常用的高维小样本数据的分类方法。相比之下,优化MTS可以完成分类预测后减少变量,即解决问题的降维与分类预测在同一时间。优化的MTS从而保持工作效率在一定程度上。

6。结论

本文提出了优化MTS高维小样本数据。针对协方差矩阵的逆矩阵的不稳定问题,Mahalanobis指标提出了基于正则化和平滑技术。针对特征选择问题,基于mRMR算法的两阶段特征选择算法,提出了信噪比。通过五个数据集的验证分析,修改Mahalanobis的鲁棒性度量和两级特征选择方法的有效性进行了验证。电子邮件过滤问题的优化应用MTS在小样本条件下,达到良好的分类和降维的效果。同时,相对于经典的MTS和常用的分类算法对于高维小样本数据,优化的MTS性能更好。因此,优化MTS不仅提高了MTS的泛化能力,还提供了一种新的方法对高维小样本数据。

数据可用性

本文中使用的计算软件包括MATLAB 2016,和一款统计软件SPSS 22日17。UCI数据库在线https://archive.ics.uci.edu/ml/datasets.php。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了国家自然科学基金(71871174)。

引用

h . Sakeran: a .阿布奥斯曼,m·s·阿卜杜勒·马吉德”步态分类使用mahalanobis-taguchi系统健康监测系统的前交叉韧带重建后,“应用科学,9卷,不。16,3306 - 3323年,2019页。视图:出版商的网站|谷歌学术搜索
中州。萧,C.-T。苏,P.-C。傅,”整合MTS装袋策略类不平衡问题,“国际期刊的机器学习和控制论,2019卷,2019年。视图:出版商的网站|谷歌学术搜索
y·顾l . s . Cheng和z . p . Chang,“根据MTS-CBPSO不平衡数据分类方法:一个案例研究的财务困境预测,“杂志的信息处理系统,15卷,不。3、682 - 693年,2019页。视图:谷歌学术搜索
c . c . Wang和b·d·吴”,分类和预测DRAM晶片探针产生的制造使用Mahalanobis-Taguchi系统和神经网络”南非工业工程杂志》上,30卷,不。1,第256 - 248页,2019。视图:谷歌学术搜索
h·l . Lim E.-H。嗯,一项。嗯,J.-R。孙,k . w .月亮,“优先级设置管理化学品使用全球统一系统和多变量分析:使用mahalanobis-taguchi系统”国际环境研究和公共卫生杂志》上,16卷,不。17日,第3130 - 3119页,2019年。视图:出版商的网站|谷歌学术搜索
l z . p . n . Wang Wang贾et al .,“自适应多级Mahalanobis-Taguchi轴承故障诊断系统在变量条件下,“传感器,19卷,不。1,26-41,2019页。视图:谷歌学术搜索
j . x元,罗,”区域能源安全绩效评估在中国使用mtg和SPA-TOPSIS,”科学的环境,卷696,不。8,133817年,页2019。视图:出版商的网站|谷歌学术搜索
j . a .甘尼黎刹,m . m . z . Nuawi和c·h·c . Haron”刀具磨损的分类和检测使用多传感器信号和Mahalanobis-Taguchi系统,”穿卷,376 - 377。1,第1765 - 1759页,2017。视图:出版商的网站|谷歌学术搜索
s . Sikder s . c . Panja,穆克吉,“多元统计过程控制的综合方法使用Mahalanobis-Taguchi系统和安德鲁斯功能,“国际期刊的质量与可靠性管理,34卷,不。8,1186 - 1208年,2017页。视图:出版商的网站|谷歌学术搜索
p .赤峰h . Li-Hsing t Sang-Bing et al .,“应用Mahalanobis-Taguchi系统改进平板电脑的生产流程,“可持续性,9卷,不。9日,第1573 - 1557页,2017年。视图:谷歌学术搜索
e·b·马哈茂德·“修改Mahalanobis-Taguchi系统不平衡数据分类,”计算智能和神经科学卷,2017年,页5874896 - 5874910,2017。视图:谷歌学术搜索
a·c·m·米格尔·m·Italo和吉尔伯托,“主成分分析比较和Mahalanobis-Taguchi系统检测不平衡在离心压缩机在浮式生产储存&卸载”ASCE-ASME杂志的风险和不确定性在工程系统中,B部分:机械工程》第六卷,41 - 85,2019页。视图:谷歌学术搜索
f . Samadi、g . Akbarizadeh和h . Kaabi”在SAR图像变化检测使用深层信念网络:一种新的训练方法基于形态学的图像,”专业图像处理,13卷,不。12日,第2264 - 2255页,2019年。视图:出版商的网站|谷歌学术搜索
f . Sharifzadeh、g . Akbarizadeh和y Seifi Kavian,“船在SAR图像分类使用一种新的混合CNN-MLP分类器,”遥感的印度社会杂志》上卷,47号4、551 - 562年,2019页。视图:出版商的网站|谷歌学术搜索
a·e·穆贾达姆、g . Akbarizadeh和h . Kaabi“血管和肺结节的自动检测和分割基于线跟踪法和广义线性回归模型,”信号,图像和视频处理,13卷,不。3、457 - 464年,2019页。视图:谷歌学术搜索
m . Norouzi g . Akbarizadeh, f . Eftekhar”混合特征提取SAR图像配准的方法,”信号,图像和视频处理,12卷,不。8,1559 - 1566年,2018页。视图:出版商的网站|谷歌学术搜索
g . Akbarizadeh和m .压力”,有效的纹理和颜色特征的组合在一个新的谱聚类方法PolSAR图像分割,“国家科学院科学信,40卷,不。2、117 - 120年,2017页。视图:出版商的网站|谷歌学术搜索
g . Akbarizadeh”,一个新的statistical-based峰度小波能量特征的纹理识别的SAR图像,”IEEE地球科学和遥感,50卷,不。11日,第4368 - 4358页,2012年。视图:出版商的网站|谷歌学术搜索
a . Raeisi g . Akbarizadeh, a . Mahmoudi”相结合的方法,一个有效的布谷鸟搜索算法和非负矩阵分解不同的泽尼克时刻特性石油泄漏和在羡慕SAR图像之间的歧视,”IEEE选择杂志的主题应用地球观测和遥感,11卷,不。11日,第4205 - 4193页,2018年。视图:出版商的网站|谷歌学术搜索
m . Modava g . Akbarizadeh和m . Soroosh”集成谱直方图和水平集在SAR图像海岸线检测”IEEE航空航天和电子系统,55卷,不。2、810 - 819年,2019页。视图:出版商的网站|谷歌学术搜索
g . Akbarizadeh m . Modava和m . Soroosh”层次在SAR图像海岸线检测基于spectral-textural特性和全球性当地信息,“专业雷达、声纳、导航,10卷,2019年。视图:出版商的网站|谷歌学术搜索
肖x和h段”,一个新的灰色模型对交通流力学,”人工智能技术的工程应用,第88卷,第103350页,2020年。视图:出版商的网站|谷歌学术搜索
a . Karaivanova s Ivanovska, t·古罗夫;“蒙特卡罗方法密度重建数据不足的基础上,“Procedia计算机科学,51卷,不。10日,1782 - 1790年,2015页。视图:出版商的网站|谷歌学术搜索
H.-F。锣,Z.-S。陈,Q.-X。朱,杨绍明。关铭他,“蒙特卡罗和基于PSO的虚拟样本生成方法提高能源预测和优化在小数据问题:石化行业的实证研究,“应用能源,卷197,不。7,405 - 415年,2017页。视图:出版商的网站|谷歌学术搜索
d p t y . n .郭m . l .歌曲et al .,“人鉴定dual-regularized吻度量学习”,IEEE图像处理,25卷,不。6,2726 - 2738年,2016页。视图:谷歌学术搜索
诉大肠Liong、y . x通用电气和j·w·卢生物识别技术的国际会议2015年9月,IEEE,普吉岛,泰国,。
s . Espezua e·维兰纽瓦、c·d·马舍尔和卡瓦略,“投影追求框架监督降维的高维小样本数据集,“Neurocomputing,卷149,不。16,767 - 776年,2015页。视图:出版商的网站|谷歌学术搜索
z . m .希拉和d . f . Gillies回顾特征选择和特征提取方法应用于微阵列数据,”生物信息学的发展,卷2015,不。5,1-13,2015页。视图:出版商的网站|谷歌学术搜索
美国Kamyab和m . Eftekhari”特征选择使用多通道优化技术,”Neurocomputing,卷171,不。3、586 - 597年,2016页。视图:出版商的网站|谷歌学术搜索
w·w·b·吴和l . Wong“评估特征选择下一代稳定蛋白质组学,”生物信息学和计算生物学》杂志上,14卷,不。5,29-51,2016页。视图:出版商的网站|谷歌学术搜索
w·杜z . b .曹,t·c·歌et al .,“基于多个内核的特征选择方法学习不同类型的表达谱,”个人经历矿业,10卷,不。1,4-19,2017页。视图:出版商的网站|谷歌学术搜索
e·a·Cudney和k . m . Ragsdell预测使用Mahalanobis-Taguchi系统存在共线性SAE世界大会和展览,底特律,MI,美国,2006年。
e·a·Cudney k Paryani, k . m . Ragsdell”识别有用的变量车辆制动Mahalanobis-Taguchi系统使用伴随矩阵的方法,”国际期刊的工业与系统工程,1卷,不。4、281 - 292年,2008页。视图:谷歌学术搜索
C.-T。苏和中州。萧,”评估MTS的健壮性不平衡数据,”IEEE工程知识和数据,19卷,不。10日,1321 - 1332年,2007页。视图:出版商的网站|谷歌学术搜索
p .释迦、m . s . Kulkarni和a . k . Darpe“基于Mahalanobis-Taguchi-Gram-Schmidt轴承诊断方法,”杂志的声音和振动,卷337,不。43岁,342 - 362年,2015页。视图:出版商的网站|谷歌学术搜索
y . j .汉、w .他和f .郭歌”研究相关Mahalanobis-Taguchi系统多维系统优化的问题,“工业工程杂志,15卷,不。2、71 - 77年,2012页。视图:谷歌学术搜索
z . p . Chang l . s . Cheng和j·s·刘,“区间数多属性决策方法基于Mahalanobis-Taguchi系统和指标值,”系统工程理论与实践,34卷,不。1,第175 - 168页,2014。视图:谷歌学术搜索
“j·b·道和l . s . Cheng应用岭Mahalanobis-Taguchi系统在复杂的共线的数据基于岭估计,“在实践和理论中数学杂志》上,46卷,不。4、109 - 116年,2016页。视图:谷歌学术搜索
b·亚伯拉罕和a . m . Variyath”的讨论,“技术计量学,45卷,不。1、22 - 24,2003页。视图:出版商的网站|谷歌学术搜索
大肠Resendiz一起做洛杉矶Moncayo-Martinez, g·索利斯,“二进制蚁群优化应用于Mahalanobis-Taguchi系统变量筛选,“专家系统与应用程序,40卷,不。2、634 - 637年,2013页。视图:出版商的网站|谷歌学术搜索
a . s . Iquebal Pal, d . Ceglarek和m . k .女子“增强Mahalanobis-Taguchi系统通过基于粗糙集的特征选择,”专家系统与应用程序第41卷。。17日,第8015 - 8003页,2014年。视图:出版商的网站|谷歌学术搜索
e·o·Resendiz-Flores、j . a . Navarro-Acosta和a . Hernandez-Martinez”最优特征选择在工业泡沫注入过程使用混合二进制粒子群优化和引力搜索算法在Mahalanobis-Taguchi系统,”软计算,23卷,不。6、1 - 9,2019页。视图:谷歌学术搜索
y Reyes-Carlos, c . g . Mota-Gutierrez和e·o·Resendiz-Flores,“最佳汽车使用metaheuristic motor-head加工过程变量筛选方法Mahalanobis-Taguchi系统,”国际先进制造技术杂志》上,卷95,不。9 - 12,3589 - 3597年,2018页。视图:出版商的网站|谷歌学术搜索
e·b·马哈茂德”,一个新的分类方法不平衡焊接数据:Mahalanobis遗传算法(公司)”国际先进制造技术杂志》上,卷77,不。4、407 - 425年,2015页。视图:谷歌学术搜索
j·l·程牛和l . s .,”一个不平衡数据分类方法基于改进Mahalanobis-Taguchi系统”工业工程与工程管理杂志》上,26卷,不。2、85 - 93年,2012页。视图:谷歌学术搜索
j·h·弗里德曼“正规化判别分析”,美国统计协会杂志》上,卷84,不。405年,第175 - 165页,1989年。视图:出版商的网站|谷歌学术搜索
f .木村,k . Takashina s鹤冈和y宅一生,”修改后的二次判别函数和应用汉字识别,”IEEE模式分析与机器智能,9卷,不。1,第153 - 149页,1987。视图:出版商的网站|谷歌学术搜索
d p t l·w·金王y . f . et al .,“人地最低分类偏差吻度量学习[J],”IEEE控制论,卷2,不。45岁,242 - 252年,2015页。视图:谷歌学术搜索
张x, z的歌,d . Li w·张,z赵,和y陈,“通过改善LMD和SVM-RFE-MRMR减速机的故障诊断,”冲击和振动,卷2018,不。7,1-13,2018页。视图:出版商的网站|谷歌学术搜索
l .黄、z . j .香和h·楚,“基于mRMR遥感图像分类算法选择和IFCM集群、”测绘的公告4卷,32-37,2019页。视图:谷歌学术搜索
f·h·Peng长,c .丁”的基于互信息的特征选择:标准max-dependency, max-relevance, min-redundancy,”IEEE模式分析与机器智能,27卷,不。8,1226 - 1238年,2005页。视图:谷歌学术搜索
a . Kraskov h . Stogbauer, p . Grassberger,“估计互信息,”物理评论E,卷69,不。6,硕士论文,2004页。视图:出版商的网站|谷歌学术搜索
x徐、张k w·j·王,“小样本数据的特征选择方法,”计算机研究与发展》杂志上,55卷,不。10日,229 - 238年,2018页。视图:谷歌学术搜索
b . k . Samanthula和w·江”安全的多重集交集基数jaccard系数及其应用,”IEEE可靠和安全的计算,13卷,不。5,591 - 604年,2015页。视图:谷歌学术搜索
l .蜀k . Mcisaac g . r . Osinski和r·弗朗西斯“无监督特征学习自主岩石图像分类,”电脑与地球科学卷,106 - 17,2017页。视图:出版商的网站|谷歌学术搜索
j . z盘周x, g .问:吴et al .,“基于小样本学习的垃圾邮件过滤方法。”计算机工程,36卷,不。21日,第247 - 245页,2010年。视图:谷歌学术搜索

计算智能和神经科学

文摘

1。介绍

2。Mahalanobis-Taguchi系统

3所示。优化MTS

3.1。基于正则化和平滑技术指标

3.1.1。平滑技术

3.1.2。正则化技术

3.1.3。基于正则化和平滑技术指标

3.2。两阶段基于mRMR算法的特征选择算法和信噪比

3.2.1之上。基于mRMR一次性的特征选择算法

3.2.2。基于信噪比的二次特征选择

4所示。优化的MTS的有效性验证

4.1。传统医学和RS-MD进行比较分析

4.2。比较分析两级之间的特征选择方法和传统MTS的特征选择

5。实证分析

5.1。数据预处理

5.2。建设基于修改的测量尺度度量

5.3。两级特征选择基于mRMR算法和信噪比

5.4。阈值计算和分类预测

5.5。比较常见的分类方法对高维小样本数据

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章