复杂性

在这一页上

文摘介绍背景实验结果结论数据可用性的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2022年| 文章的ID4740173| https://doi.org/10.1155/2022/4740173

非线性支持向量回归的小说特征选择方法

Kejia徐,¹ 徐应,¹ Yafen你们 ,¹ 和陈尾戒缠住了²

学术编辑器: Xiaoan严

收到了 2022年8月20日

修改后的 2022年11月03

接受 2022年11月12日

发表 2022年11月30日

文摘

稀疏技术的发展提出了一个重大的挑战复杂非线性高维数据。在本文中,我们提出一个新颖的特征选择方法,非线性支持向量回归,叫做FS-NSVR,首先试图解决非线性回归技术领域的特征选择问题。FS-NSVR保存选定的代表特性复杂非线性系统由于其使用特征选择矩阵在原始空间。FS-NSVR是一个具有挑战性的混合整数规划问题,解决有效地通过使用另一种迭代贪婪算法。实验结果在三个人工数据集和真实数据集的五确认FS-NSVR有效选择代表特性和丢弃冗余特性的非线性系统。FS-NSVR优于L₁标准支持向量回归,L₁标准最小二乘支持向量回归,L_p标准支持向量回归特征选择能力和回归效率。

1。介绍

高维数据通常出现在不同的领域,如金融(1)、经济学(2)、生物(3),和医学(4]。复杂的非线性特性之间的关系可能存在于高维数据集(5]。例如,大多数经济和金融时间序列遵循非线性行为(6]。凌等人探讨全球化之间的非线性关系,自然资源、金融发展和碳排放6]。复杂的非线性高维数据的另一个例子是在医学领域。医疗费用与特性(有复杂的关系7]。复杂非线性高维数据经常出现在生物学领域。非线性特性之间的关系可以更精确地描述生物关系和反映重要模式生物系统(8]。

复杂非线性高维数据可能包括一些不相关和冗余功能,可以减少数据挖掘的有效性和可能有损于质量的结果(9- - - - - -11]。因此,复杂的非线性高维数据需要一个稀疏技术。特征选择,作为一个有用的稀疏技术,选择一些有用的特性所关注的焦点,而忽略了其他[12- - - - - -17]。一般来说,分为过滤特征选择方法,包装器和嵌入式方法(16- - - - - -18]。嵌入式特征选择方法是非常受欢迎的,因为这同时进行特征选择和其他学习任务(19]。

稀疏支持向量回归,稀疏支持向量机的一个分支(20.- - - - - -23),是一个强大的特征选择方法。稀疏支持向量回归总是采用稀疏正则化项同时实现特征选择和回归。因此,稀疏支持向量回归是嵌入式特征选择方法24- - - - - -26]。l₁标准支持向量回归(L₁svr) [27)和L₁标准最小二乘支持向量回归(L₁-LSSVR) [28)使用L₁规范稀疏正则化项收缩系数的回归估计对0。根据回归估计,每个特性最终决定函数的贡献可以判断,然后,选择有用的特性,而无关和冗余特性被丢弃。提高L的稀疏₁svr, Zhang et al。29日L]提出_p标准支持向量回归(L_psvr) (0 << 1)。L_pL规范正则化项_psvr收缩系数的回归估计对0,和一些系数降至0,从而导致更多的不相关和冗余功能被丢弃。然而,我₁svr L₁-LSSVR, L_psvr只能解决线性特征选择问题,这并不总是适合复杂的非线性情况下。

解决复杂的非线性高维数据的特征选择问题,我们遵循基于非线性支持向量机的精神特征选择(9,30.,31日),然后提出一种新的特征选择方法对非线性支持向量回归,叫做FS-NSVR。我们把特征选择矩阵,对角矩阵的元素1或0,成非线性支持向量回归。因此,FS-NSVR变成了一个混合整数规划问题(MPP)。为了解决FS-NSVR效率,我们采用另一种贪婪迭代算法来找到一个局部最优值(32),我们迭代解决标准SVR问题和一个较小的凸特征选择问题。此外,特征排序策略建议(33),排名根据他们贡献的特性在MPP客观。相比之下,我₁svr L₁-LSSVR, L_psvr,实验结果表明,FS-NSVR选择最合适的代表特征的高度复杂的非线性关系较小的估计错误比由L₁svr L₁-LSSVR, L_psvr。这意味着FS-NSVR不仅选择代表的特性,还具有良好的回归效果。本文的贡献总结如下:(1)将特征选择矩阵引入非线性支持向量回归,我们提出一个新的特征选择非线性支持向量回归方法来识别复杂非线性特性在原有空间之间的关系。该模型首先试图解决非线性回归技术领域的特征选择问题。(2)该模型是一个复杂的混合整数规划问题。确保学习过程的效率,我们采用另一种迭代贪婪算法发现该模型的局部最优值。交替迭代的贪婪算法,将复杂的混合整数问题min-max优化问题,有效地降低了计算复杂度。(3)真实数据集的实验结果对人工和表明该模型保存选定的代表特性复杂的非线性系统,优于其他三个线性特征选择方法,以更好的特征选择和回归结果。该方法的训练速度确认交替迭代贪婪算法的效率。

本文的其余部分组织如下:部分2本文简要关注支持向量回归。节3,我们提出非线性支持向量回归的特征选择。部分4提供人工数据集和真实实验,和部分5总结了纸。

2。背景

从符号,我们考虑一个回归的问题 - - - - - -维的向量空间。假设是响应向量,是一种已知的协变量的设计矩阵, 是 - - - - - -维训练样本。接下来,我们简要回顾支持向量回归(SVR) [26FS-NSVR密切相关)。

SVR的最优非线性回归函数构造如下: 在哪里 , ,和内核是一个适当的选择。参数在函数(1)估计通过求解优化问题如下: 在哪里和松弛变量和吗是一个参数确定经验风险之间的权衡和正则化项。获得SVR的双重配方,我们首先介绍了拉格朗日函数的问题(2),这是在哪里和是拉格朗日乘数向量。Karush-Kuhn-Tucher(马)必要且充分的问题(最优性条件2)是由

根据前面提到的马的条件下,我们获得的双重配方问题(2)如下: 可以获得的解决方案吗和(5)

任何解决方案(5), 和 ,如果 ,解决方案的问题(2)可以获得以下方式:(1)对于任何非零组件 , (2)对于任何非零组件 ,

最后的决定可以构造函数

3所示。特征选择对非线性支持向量回归

3.1。问题公式化

在本节中,我们提出了特征选择对非线性支持向量回归。是一个特征选择矩阵。我们考虑下面的非线性回归函数: 在哪里 , ,和内核是一个适当的选择。和的未知参数需要估计。最优特征选择矩阵同时也需要搜索。

回归函数的估计量(10)可以被定义为FS-NSVR优化问题的解决方案: 在哪里和松弛变量和是一个参数确定经验风险之间的权衡和正则化项。事实上,特征选择矩阵定义了一个张成的子空间的选择功能。最小化这个词在目标函数(11)的有益作用抑制变量产生一组稀疏的非零特征权重。因此,FS-NSVR非线性特征选择的能力。

3.2。问题解决方案

显然,FS-NSVR优化问题是一个混合整数规划问题。用问题(11)如下:

解决问题(12)获得全局最优高度挑战性的和不切实际的24]。我们采用另一种迭代贪婪算法找到一个局部最优值。首先,我们解决整数部分然后获得的解决方案(12),导致解决问题以同样的方式作为SVR。类似于部分非线性SVR的演绎过程2的双重配方,得到内心的最小化问题。然后,问题(12)可以写成

显然,问题(13)是一个具有挑战性的min-max优化问题。修复内最大化问题的最优解 ,我们获得外最小化整数问题,导致详尽的计算目标的可能。

贪婪算法的工作,我们遵循的策略33)来初始化使算法更加稳定。每个特性的值计算后解决SVR

的分数th特性,反映了在所有的特性计算的重要性

贪婪算法从最初的开始由(15)。如果小于 ,然后 ;否则, 。然后我们解决和解决问题(13)获得。我们计算和根据(14)和(15),分别。通过替换更新如果目标(13)减少超过公差。在更新 , 可以获得一次。该算法将被终止,如果目标(13)减少小于公差。我们总结的贪婪的方法算法的程序1给非线性支持向量回归的特征选择方法。贪婪的方法算法的收敛性的证明1可以从Mangasarian获得和口32]。

	输入:训练集。适当的内核参数 ,参数C;
	输出: ,和 ;
	开始
	开始 ;设置迭代次数 ;
	而做
	找到解决方案问题(15)固定 ;计算每个功能评分(15)。
	为我= 1:n
	如果然后

	其他的

	结束
	结束
	如果然后
	聚合和输出和作为最终的解决方案。
	其他的
	集
	结束
	结束
	输出和作为最终解决方案;
	结束

获得问题的解决方案(13),可以获得的

任何解决方案(15) 和 ,如果 ,解决方案问题(6)可以获得以下方式:(1)对于任何非零组件 , (2)对于任何非零组件 ,

最后的决定可以构造函数

3.3。计算复杂度

关于FS-NSVR的计算复杂度,我们发现FS-NSVR包括两部分:一是重复计算的内在最大化问题(13),另一种是重复计算(14)和(15)。第一部分需要求解一个二次规划问题。大约是这一部分的时间复杂度。第二部分,很容易计算固定 ,这部分的计算复杂度并不多次了。

4所示。实验结果

特征选择和回归测试的有效性提出FS-NSVR,我们比较它与L₁svr [27),我₁-LSSVR [28),和L_psvr [29日)通过使用三个人工数据集和真实数据集的七。l₁svr L_psvr, L₁-LSSVR嵌入线性特征选择方法。所有这些方法都是在MATLAB中实现R2019b环境在PC上运行64位的Windows XP操作系统的1.6 GHz Intel (R)处理器16 GB的RAM。

特征选择的非线性支持向量回归,我们采用一个高斯的内核,内核参数从集合中选择吗。参数C也是从集合中选择吗。不敏感参数固定在0.01。最优的参数值在实验中得到了利用网格搜索方法。

让样品的数量,是测试样品,的预测价值吗 ,和的平均值吗。我们使用以下评估标准评估的变量选择和回归结果。P₁:模拟运行的比例与非零系数选择R²:确定系数被定义为 NMSE:归一化均方误差(NMSE)被定义为 RMSE:均方根误差(RMSE)被定义为

因此,NMSE和RMSE值越小,越统计信息捕获从选中的变量。

4.1。人工数据集

测试FS-NSVR的非线性特征选择性能,我们提供三个人工数据集。具体来说,我们 , ,和。生成第一个回归模型如下: 在哪里。

第二个回归函数如下: 在哪里。

第三个回归函数如下: 在哪里。这些人造数据集表中列出的规格1。

评估的性能特征选择的结果,我们采用以下标准: 在哪里真阳性,是假阳性,假阴性,是负面的。精度和召回通常呈现结果用于二元决策问题机器学习因为他们给出一个更准确的评估算法的性能。在这里,我们使用精度和召回评估FS-NSVR的特征选择结果,L₁svr L_psvr, L₁-LSSVR。

FS-NSVR的最佳参数,L₁svr L_psvr, L₁-LSSVR人工数据集如表所示2。特征选择和回归结果在前三个人工数据集如表所示3。从表3,我们发现比L FS-NSVR驱动更大的精度和召回₁svr L_psvr, L₁-LSSVR。与此同时,FS-NSVR获得更大NMSE和小于L₁svr L_psvr, L₁-LSSVR。很明显,FS-NSVR有能力选择代表特性和丢弃冗余特性的非线性系统。因此,FS-NSVR适用于解决非线性特征选择问题,而L₁svr L_psvr, L₁-LSSVR不适合解决复杂非线性高维数据的特征选择问题。运行时间而言,尽管FS-NSVR的训练速度慢于L₁-LSSVR,明显快于L₁svr和L_psvr。

4.2。参数和非线性特征选择分析

在本部分中,我们分析的影响参数和C的非线性特征选择的结果。来测试内核参数的影响NMSE, ,精度,还记得,我们第一次修正参数C作为最优值用于人工数据集上的实验。数据1- - - - - -3说明内核参数的影响非线性特征选择结果为A型,B型和C型分别。从数据1- - - - - -3,我们发现,当增加,NMSE值降低,然后增加。作为内核参数的增加,R²和精度增加然后减少,这意味着内核参数有很强的影响特征选择FS-NSVR的能力。当选择最优值,精度和召回达到最大值,这意味着FS-NSVR选择代表特性和丢弃无关的特性。选择功能的数量虽小,FS-NSVR可以选择代表特征的数据集。

为了进一步测试参数的影响C在FS-NSVR特征选择的结果,我们修复内核参数作为最优值用于人工数据集上的实验。数据4- - - - - -6显示的影响CNMSE,R²、精度和回忆。从数据4- - - - - -6,我们注意到,作为参数C增加,NMSE减少,然后保持不变。当C= 2,精度达到最大值,然后保持不变,这意味着FS-NSVR选择代表特性和丢弃无关的特性。

4.3。真实数据集

进一步测试FS-NSVR特征选择和回归的表现,我们认为5个真实数据集从加州大学欧文分校(UCI)机器学习库(34]。表1显示数据集的信息,包括具体的训练样本数量,测试样本和特征。FS-NSVR的最佳参数,L₁svr L_psvr, L₁-LSSVR对真实世界数据如表所示4。

表5列出了特征选择和回归结果FS-NSVR, L₁svr L_psvr, L₁-LSSVR。一个可以很容易地观察到FS-NSVR选择更少的功能比L₁svr L_psvr, L₁-LSSVR,但FS-NSVR获得NMSE和RMSE值比较小,与其他方法比较。FS-NSVR选择很少有用的特性和捕获的非线性统计信息在测试数据集。FS-NSVR实现特征选择和回归同时由于其固有的特征选择属性。面对复杂的非线性高维数据集,L₁svr L_psvr, L₁-LSSVR带来挑战,因为他们只能解决线性版本的特征选择问题。对于运行时间,FS-NSVR明显快于L₁svr和L_psvr。

5。结论

我们的论文集中在高维数据构成的非线性特征选择问题,特别是非线性复杂特性之间的关系存在。为了解决这个问题,我们把一个特征选择矩阵在原始空间成非线性支持向量回归,然后提出了一种新的特征选择方法对非线性支持向量回归(FS-NSVR)。FS-NSVR是一个混合整数规划问题(MPP)。有效解决FS-NSVR,我们采用另一种迭代贪婪算法来找到一个局部最优值。特征选择矩阵和FS-NSVR确保代表监督选拔过程特性和冗余特性被自动丢弃。的特征选择和回归性能FS-NSVR人工和实际数据集确认其稀疏和有效性。

该方法也有局限性,应该承认在将来的研究中。首先,FS-NSVR不适合非线性高维数据的异构性问题。分位数回归的精神(35- - - - - -37)可以带入未来的非线性特征选择框架。第二,需要更有效的方法来解决FS-NSVR自当前方法的训练速度不够快对大规模数据集。第三,形成应用程序角度如何使用FS-NSVR处理非线性特征选择问题在现实世界中仍然是一个问题在未来的工作中。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(11871183号,61866010,61603338,12101552),中国的国家社会科学基金(第21号bjy256)、哲学和社会科学浙江省领导人才培养项目(第21号yjrc07-1yb),浙江省自然科学基金(没有。LY21F030013)和海南省自然科学基金(120号rc449)。

引用

g·寇,y, y彭et al .,“破产预测中小企业使用事务数据和两阶段多目标特征选择,”决策支持系统文章ID 113429卷,140年,2021年。
视图: 谷歌学术搜索
巴苏和g . Michailidis“正规化估计稀疏高维时间序列模型,”统计年鉴,43卷,不。4、1535 - 1567年,2015页。
视图: 谷歌学术搜索
j·j·m·Yamada Tang Lugo-Martinez et al .,“超高维非线性大生物数据的特征选择,”IEEE工程知识和数据,30卷,不。7,1352 - 1365年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
s . r . Miotto f . Wang Wang x江和j·t·达德利”深度学习医疗:审查,机遇和挑战,“简报的生物信息学,19卷,不。6,1236 - 1246年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
j .龙格p . Nowack m·克雷奇默s Flaxman和d . Sejdinovic”检测和量化因果关联在大型非线性时间序列数据集,“科学的进步,5卷,不。11日文章ID eaau4996, 2019。
视图: 出版商的网站 | 谷歌学术搜索
郭g, a . Razzaq y, t .法蒂玛和f·沙赫扎德,“不对称和时变碳排放之间的联系,全球化,自然资源和金融发展在中国,“环境、发展和可持续性,24卷,不。5,6702 - 6730年,2022页。
视图: 出版商的网站 | 谷歌学术搜索
x赵,w . Wang l . Liu和y . c . t . Shih,”一个灵活的分位数回归模型的医疗费用医疗费用委员会与应用调查研究中,“医学统计,37卷,不。17日,第2666 - 2645页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
k . Wang问:赵,j . Lu和t . Yu”概要:非线性模式检测聚类方法在高维数据,”生物医学研究的国际文章ID 918954卷,2015年,2015年。
视图: 谷歌学术搜索
a·塔亚尔人t·f·科尔曼,y,“原始明确马克思利润率为非线性支持向量机的特征选择,”模式识别卷,47号6,2153 - 2164年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
刘x, y, p .丁和m .贾”的滚动轴承故障诊断使用多尺度梯度模式谱熵加上拉普拉斯算子的分数,”复杂性卷,2020篇文章ID 4032628, 2020。
视图: 谷歌学术搜索
刘x, y、m .贾”一个特征选择基于框架多尺度形态分析的滚动轴承故障诊断的算法,”IEEE访问7卷,第123452 - 123436页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
m·罗x Chang l .聂y, a·g·豪普特曼和郑,“视频语义识别的自适应semisupervised特性分析,“IEEE控制论,48卷,不。2、648 - 660年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
燕,x, m .罗et al .,“自权重的健壮的LDA与边缘类、多类分类”ACM智能交易系统和技术(TIST),12卷,不。1 - 2021页。
视图: 出版商的网站 | 谷歌学术搜索
Yu, j .太阳,j .李x, x h·汉和a·g·豪普特曼”自适应semi-supervised跨通道检索特征选择,”IEEE多媒体,21卷,不。5,1276 - 1288年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
Zi-J。Wang z h·詹y林et al .,“自动小生境微分进化轮廓预测方法对于多峰优化问题,“IEEE进化计算,24卷,不。1,第128 - 114页,2020。
视图: 出版商的网站 | 谷歌学术搜索
Zi-J。Wang z h·詹w . j . Yu et al .,“动态组织学习分布式粒子群优化大规模优化及其应用在云工作流调度中,“IEEE控制论,50卷,不。6,2715 - 2729年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
Zi-J。z h·詹,邝,h·金和j·张,“自适应粒度分布式大规模优化的粒子群优化学习,”IEEE控制论,51卷,不。3、1175 - 1188年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
y y . f .你们黄懿慧邵:邓,c . n . Li和x y华,“强劲L-norm与特征选择最小二乘支持向量回归,”应用数学和计算卷。305年,出具,2017页。
视图: 出版商的网站 | 谷歌学术搜索
a·l·布卢姆和p·兰利”,选择相关的功能在机器学习和例子,”人工智能,卷97,不。1 - 2、245 - 271年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
j . Bi k·班尼特,m . Embrechts c . Breneman和m .歌曲,“通过稀疏支持向量机降维,”机器学习研究杂志》上,3卷,不。2003年3月,页1229 - 1243。
视图: 谷歌学术搜索
z . y . Algamal、m·k·卡西姆和h·t·m·阿里“构象分类模型神经氨酸酶抑制剂的甲型流感病毒(H1N1)惩罚加权支持向量机的基础上,“定量构效关系在环境研究SAR和,28卷,不。5,415 - 426年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m·k·卡西姆,z . y . Algamal和h . m .阿里“定量构效关系模型为一个二进制分类神经氨酸酶抑制剂的结合甲型流感病毒(H1N1)最小冗余最大相关性与稀疏支持向量机标准,“定量构效关系在环境研究SAR和卷,29号7,517 - 527年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
o·s·卡西姆和z . y . Algamal灰狼算法支持向量分类的特性和参数选择,”国际计算机科学和数学杂志》上,13卷,不。1,第102 - 93页,2021。
视图: 出版商的网站 | 谷歌学术搜索
z . y . Algamal, m·k·卡西姆·m·h·李,和h·t·m·阿里“改善hyperparameters蚱蜢优化算法的支持向量回归估计和特征选择,”化学计量学和智能实验室系统文章ID 104196卷,208年,2021年。
视图: 谷歌学术搜索
o·m·伊斯梅尔·o·s·卡西姆,z . y . Algamal,“改善哈里斯鹰hyperparameters估计优化算法和特征选择在v优先支持向量回归基于反对高基础学习”化学计量学杂志》,34卷,不。11日文章ID e3311, 2020。
视图: 出版商的网站 | 谷歌学术搜索
o·m·伊斯梅尔·o·s·卡西姆,z . y . Algamal,“一种新的自适应算法v-support向量回归用哈里斯鹰优化算法,特征选择”物理学杂志》:会议系列文章ID 012057卷,1897年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
x彭和d徐”,一个当地的信息化特征选择算法对数据回归,”模式识别,46卷,不。9日,第2530 - 2519页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
江y . f .你们,c, y . x,和c n .李“L1-norm最小二乘支持向量回归通过乘数的交替方向方法”先进的计算智能和智能信息》杂志上,21卷,不。6,1017 - 1025年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
c, d·李,j . Tan“支持向量回归与自适应准则”,Procedia计算机科学18卷,第1736 - 1730页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
y . a·古兹曼鲁棒优化的理论进步、特征选择和生物标志物的发现,新泽西普林斯顿普林斯顿大学博士论文,08544年,美国,2016年。
m . Onel c . a . Kieslich y . a·古兹曼c . a . Floudas和e . n . Pistikopoulos”转载:大数据批处理过程监控方法:同时使用基于非线性支持向量机故障检测和诊断特征选择,”计算机与化学工程卷,116年,第520 - 503页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
o . l . Mangasarian、g .口”,内核支持向量机非线性特征选择,”学报》第七IEEE国际会议数据挖掘研讨会(2007年ICDMW)奥马哈,页231 - 236年,东北,美国,2007年3月。
视图: 谷歌学术搜索
局域网,z . Wang中州。邵和纽约。邓”小说双子支持向量机的特征选择方法,”以知识为基础的系统59岁的2014卷。
视图: 谷歌学术搜索
c·布莱克,“UCI机器学习数据库的存储库,”机器学习库,1998年。
视图: 谷歌学术搜索
r . Koenker g·巴塞特,“回归分位数。”计量经济学会》杂志上,卷1,33-50,1978页。
视图: 谷歌学术搜索
李和c, y, y邵,“稀疏方法对高维数据重尾分布噪声,”经济Research-Ekonomska Istraživanja,35卷,不。1,第2780 - 2764页,2022。
视图: 出版商的网站 | 谷歌学术搜索
x y, y邵,c . Li Hua,和郭y,“在线支持向量分位数回归动态时间序列重尾分布噪声,”应用软计算文章ID 107560卷,110年,2021年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

194年

下载

241年

引用