文摘
稀疏技术的发展提出了一个重大的挑战复杂非线性高维数据。在本文中,我们提出一个新颖的特征选择方法,非线性支持向量回归,叫做FS-NSVR,首先试图解决非线性回归技术领域的特征选择问题。FS-NSVR保存选定的代表特性复杂非线性系统由于其使用特征选择矩阵在原始空间。FS-NSVR是一个具有挑战性的混合整数规划问题,解决有效地通过使用另一种迭代贪婪算法。实验结果在三个人工数据集和真实数据集的五确认FS-NSVR有效选择代表特性和丢弃冗余特性的非线性系统。FS-NSVR优于L1标准支持向量回归,L1标准最小二乘支持向量回归,Lp标准支持向量回归特征选择能力和回归效率。
1。介绍
高维数据通常出现在不同的领域,如金融(1)、经济学(2)、生物(3),和医学(4]。复杂的非线性特性之间的关系可能存在于高维数据集(5]。例如,大多数经济和金融时间序列遵循非线性行为(6]。凌等人探讨全球化之间的非线性关系,自然资源、金融发展和碳排放6]。复杂的非线性高维数据的另一个例子是在医学领域。医疗费用与特性(有复杂的关系7]。复杂非线性高维数据经常出现在生物学领域。非线性特性之间的关系可以更精确地描述生物关系和反映重要模式生物系统(8]。
复杂非线性高维数据可能包括一些不相关和冗余功能,可以减少数据挖掘的有效性和可能有损于质量的结果(9- - - - - -11]。因此,复杂的非线性高维数据需要一个稀疏技术。特征选择,作为一个有用的稀疏技术,选择一些有用的特性所关注的焦点,而忽略了其他[12- - - - - -17]。一般来说,分为过滤特征选择方法,包装器和嵌入式方法(16- - - - - -18]。嵌入式特征选择方法是非常受欢迎的,因为这同时进行特征选择和其他学习任务(19]。
稀疏支持向量回归,稀疏支持向量机的一个分支(20.- - - - - -23),是一个强大的特征选择方法。稀疏支持向量回归总是采用稀疏正则化项同时实现特征选择和回归。因此,稀疏支持向量回归是嵌入式特征选择方法24- - - - - -26]。l1标准支持向量回归(L1svr) [27)和L1标准最小二乘支持向量回归(L1-LSSVR) [28)使用L1规范稀疏正则化项收缩系数的回归估计对0。根据回归估计,每个特性最终决定函数的贡献可以判断,然后,选择有用的特性,而无关和冗余特性被丢弃。提高L的稀疏1svr, Zhang et al。29日L]提出p标准支持向量回归(Lpsvr) (0 << 1)。LpL规范正则化项psvr收缩系数的回归估计对0,和一些系数降至0,从而导致更多的不相关和冗余功能被丢弃。然而,我1svr L1-LSSVR, Lpsvr只能解决线性特征选择问题,这并不总是适合复杂的非线性情况下。
解决复杂的非线性高维数据的特征选择问题,我们遵循基于非线性支持向量机的精神特征选择(9,30.,31日),然后提出一种新的特征选择方法对非线性支持向量回归,叫做FS-NSVR。我们把特征选择矩阵,对角矩阵的元素1或0,成非线性支持向量回归。因此,FS-NSVR变成了一个混合整数规划问题(MPP)。为了解决FS-NSVR效率,我们采用另一种贪婪迭代算法来找到一个局部最优值(32),我们迭代解决标准SVR问题和一个较小的凸特征选择问题。此外,特征排序策略建议(33),排名根据他们贡献的特性在MPP客观。相比之下,我1svr L1-LSSVR, Lpsvr,实验结果表明,FS-NSVR选择最合适的代表特征的高度复杂的非线性关系较小的估计错误比由L1svr L1-LSSVR, Lpsvr。这意味着FS-NSVR不仅选择代表的特性,还具有良好的回归效果。本文的贡献总结如下:(1)将特征选择矩阵引入非线性支持向量回归,我们提出一个新的特征选择非线性支持向量回归方法来识别复杂非线性特性在原有空间之间的关系。该模型首先试图解决非线性回归技术领域的特征选择问题。(2)该模型是一个复杂的混合整数规划问题。确保学习过程的效率,我们采用另一种迭代贪婪算法发现该模型的局部最优值。交替迭代的贪婪算法,将复杂的混合整数问题min-max优化问题,有效地降低了计算复杂度。(3)真实数据集的实验结果对人工和表明该模型保存选定的代表特性复杂的非线性系统,优于其他三个线性特征选择方法,以更好的特征选择和回归结果。该方法的训练速度确认交替迭代贪婪算法的效率。
本文的其余部分组织如下:部分2本文简要关注支持向量回归。节3,我们提出非线性支持向量回归的特征选择。部分4提供人工数据集和真实实验,和部分5总结了纸。
2。背景
从符号,我们考虑一个回归的问题 - - - - - -维的向量空间 。假设 是响应向量,是一种已知的 协变量的设计矩阵, 是 - - - - - -维训练样本。接下来,我们简要回顾支持向量回归(SVR) [26FS-NSVR密切相关)。
SVR的最优非线性回归函数构造如下: 在哪里 , ,和内核是一个适当的选择。参数在函数(1)估计通过求解优化问题如下: 在哪里和松弛变量和吗 是一个参数确定经验风险之间的权衡和正则化项。获得SVR的双重配方,我们首先介绍了拉格朗日函数的问题(2),这是 在哪里 和是拉格朗日乘数向量。Karush-Kuhn-Tucher(马)必要且充分的问题(最优性条件2)是由
根据前面提到的马的条件下,我们获得的双重配方问题(2)如下: 可以获得的解决方案吗和(5)
任何解决方案(5), 和 ,如果 ,解决方案的问题(2)可以获得以下方式:(1)对于任何非零组件 , (2)对于任何非零组件 ,
最后的决定可以构造函数
3所示。特征选择对非线性支持向量回归
3.1。问题公式化
在本节中,我们提出了特征选择对非线性支持向量回归。 是一个 特征选择矩阵。我们考虑下面的非线性回归函数: 在哪里 , ,和内核是一个适当的选择。和的未知参数需要估计。最优特征选择矩阵同时也需要搜索。
回归函数的估计量(10)可以被定义为FS-NSVR优化问题的解决方案: 在哪里和松弛变量和 是一个参数确定经验风险之间的权衡和正则化项。事实上,特征选择矩阵定义了一个张成的子空间的选择功能。最小化这个词在目标函数(11)的有益作用抑制变量产生一组稀疏的非零特征权重。因此,FS-NSVR非线性特征选择的能力。
3.2。问题解决方案
显然,FS-NSVR优化问题是一个混合整数规划问题。用问题(11)如下:
解决问题(12)获得全局最优高度挑战性的和不切实际的24]。我们采用另一种迭代贪婪算法找到一个局部最优值。首先,我们解决整数部分然后获得的解决方案(12),导致解决问题以同样的方式作为SVR。类似于部分非线性SVR的演绎过程2的双重配方,得到内心的最小化问题。然后,问题(12)可以写成
显然,问题(13)是一个具有挑战性的min-max优化问题。修复内最大化问题的最优解 ,我们获得外最小化整数问题,导致详尽的计算目标的可能 。
贪婪算法的工作,我们遵循的策略33)来初始化使算法更加稳定。每个特性的值计算后解决SVR
的分数th特性,反映了在所有的特性计算的重要性
贪婪算法从最初的开始由(15)。如果小于 ,然后 ;否则, 。然后我们解决和解决问题(13)获得 。我们计算和根据(14)和(15),分别。通过替换更新如果目标(13)减少超过公差。在更新 , 可以获得一次。该算法将被终止,如果目标(13)减少小于公差。我们总结的贪婪的方法算法的程序1给非线性支持向量回归的特征选择方法。贪婪的方法算法的收敛性的证明1可以从Mangasarian获得和口32]。
获得问题的解决方案(13),可以获得的
任何解决方案(15) 和 ,如果 ,解决方案问题(6)可以获得以下方式:(1)对于任何非零组件 , (2)对于任何非零组件 ,
最后的决定可以构造函数
3.3。计算复杂度
关于FS-NSVR的计算复杂度,我们发现FS-NSVR包括两部分:一是重复计算的内在最大化问题(13),另一种是重复计算(14)和(15)。第一部分需要求解一个二次规划问题。大约是这一部分的时间复杂度 。第二部分,很容易计算固定 ,这部分的计算复杂度并不多次了。
4所示。实验结果
特征选择和回归测试的有效性提出FS-NSVR,我们比较它与L1svr [27),我1-LSSVR [28),和Lpsvr [29日)通过使用三个人工数据集和真实数据集的七。l1svr Lpsvr, L1-LSSVR嵌入线性特征选择方法。所有这些方法都是在MATLAB中实现R2019b环境在PC上运行64位的Windows XP操作系统的1.6 GHz Intel (R)处理器16 GB的RAM。
特征选择的非线性支持向量回归,我们采用一个高斯的内核,内核参数从集合中选择吗 。参数C也是从集合中选择吗 。不敏感参数固定在0.01。最优的参数值在实验中得到了利用网格搜索方法。
让样品的数量,是测试样品,的预测价值吗 ,和 的平均值吗 。我们使用以下评估标准评估的变量选择和回归结果。P1:模拟运行的比例与非零系数选择R2:确定系数被定义为 NMSE:归一化均方误差(NMSE)被定义为 RMSE:均方根误差(RMSE)被定义为
因此,NMSE和RMSE值越小,越统计信息捕获从选中的变量。
4.1。人工数据集
测试FS-NSVR的非线性特征选择性能,我们提供三个人工数据集。具体来说,我们 , ,和 。生成第一个回归模型如下: 在哪里 。
第二个回归函数如下: 在哪里 。
第三个回归函数如下: 在哪里 。这些人造数据集表中列出的规格1。
评估的性能特征选择的结果,我们采用以下标准: 在哪里真阳性,是假阳性,假阴性,是负面的。精度和召回通常呈现结果用于二元决策问题机器学习因为他们给出一个更准确的评估算法的性能。在这里,我们使用精度和召回评估FS-NSVR的特征选择结果,L1svr Lpsvr, L1-LSSVR。
FS-NSVR的最佳参数,L1svr Lpsvr, L1-LSSVR人工数据集如表所示2。特征选择和回归结果在前三个人工数据集如表所示3。从表3,我们发现比L FS-NSVR驱动更大的精度和召回1svr Lpsvr, L1-LSSVR。与此同时,FS-NSVR获得更大NMSE和小于L1svr Lpsvr, L1-LSSVR。很明显,FS-NSVR有能力选择代表特性和丢弃冗余特性的非线性系统。因此,FS-NSVR适用于解决非线性特征选择问题,而L1svr Lpsvr, L1-LSSVR不适合解决复杂非线性高维数据的特征选择问题。运行时间而言,尽管FS-NSVR的训练速度慢于L1-LSSVR,明显快于L1svr和Lpsvr。
4.2。参数和非线性特征选择分析
在本部分中,我们分析的影响参数和C的非线性特征选择的结果。来测试内核参数的影响NMSE, ,精度,还记得,我们第一次修正参数C作为最优值用于人工数据集上的实验。数据1- - - - - -3说明内核参数的影响非线性特征选择结果为A型,B型和C型分别。从数据1- - - - - -3,我们发现,当增加,NMSE值降低,然后增加。作为内核参数的增加,R2和精度增加然后减少,这意味着内核参数有很强的影响特征选择FS-NSVR的能力。当选择最优值,精度和召回达到最大值,这意味着FS-NSVR选择代表特性和丢弃无关的特性。选择功能的数量虽小,FS-NSVR可以选择代表特征的数据集。
为了进一步测试参数的影响C在FS-NSVR特征选择的结果,我们修复内核参数作为最优值用于人工数据集上的实验。数据4- - - - - -6显示的影响CNMSE,R2、精度和回忆。从数据4- - - - - -6,我们注意到,作为参数C增加,NMSE减少,然后保持不变。当C= 2,精度达到最大值,然后保持不变,这意味着FS-NSVR选择代表特性和丢弃无关的特性。
4.3。真实数据集
进一步测试FS-NSVR特征选择和回归的表现,我们认为5个真实数据集从加州大学欧文分校(UCI)机器学习库(34]。表1显示数据集的信息,包括具体的训练样本数量,测试样本和特征。FS-NSVR的最佳参数,L1svr Lpsvr, L1-LSSVR对真实世界数据如表所示4。
表5列出了特征选择和回归结果FS-NSVR, L1svr Lpsvr, L1-LSSVR。一个可以很容易地观察到FS-NSVR选择更少的功能比L1svr Lpsvr, L1-LSSVR,但FS-NSVR获得NMSE和RMSE值比较小,与其他方法比较。FS-NSVR选择很少有用的特性和捕获的非线性统计信息在测试数据集。FS-NSVR实现特征选择和回归同时由于其固有的特征选择属性。面对复杂的非线性高维数据集,L1svr Lpsvr, L1-LSSVR带来挑战,因为他们只能解决线性版本的特征选择问题。对于运行时间,FS-NSVR明显快于L1svr和Lpsvr。
5。结论
我们的论文集中在高维数据构成的非线性特征选择问题,特别是非线性复杂特性之间的关系存在。为了解决这个问题,我们把一个特征选择矩阵在原始空间成非线性支持向量回归,然后提出了一种新的特征选择方法对非线性支持向量回归(FS-NSVR)。FS-NSVR是一个混合整数规划问题(MPP)。有效解决FS-NSVR,我们采用另一种迭代贪婪算法来找到一个局部最优值。特征选择矩阵和FS-NSVR确保代表监督选拔过程特性和冗余特性被自动丢弃。的特征选择和回归性能FS-NSVR人工和实际数据集确认其稀疏和有效性。
该方法也有局限性,应该承认在将来的研究中。首先,FS-NSVR不适合非线性高维数据的异构性问题。分位数回归的精神(35- - - - - -37)可以带入未来的非线性特征选择框架。第二,需要更有效的方法来解决FS-NSVR自当前方法的训练速度不够快对大规模数据集。第三,形成应用程序角度如何使用FS-NSVR处理非线性特征选择问题在现实世界中仍然是一个问题在未来的工作中。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(11871183号,61866010,61603338,12101552),中国的国家社会科学基金(第21号bjy256)、哲学和社会科学浙江省领导人才培养项目(第21号yjrc07-1yb),浙江省自然科学基金(没有。LY21F030013)和海南省自然科学基金(120号rc449)。