文摘
极端学习机(ELM)是一种流行的单隐层前馈网络学习算法(SLFNs)。最初提出的灵感来自生物学习和吸引了大量的关注由于其适应性各种任务的快速学习能力和高效的计算成本。作为一个有效的稀疏表示方法,正交匹配追踪(OMP)方法可以嵌入到榆树克服奇点问题,提高稳定性。通常经济复苏稀疏向量通过最小化一个最小二乘(LS)损失,有效的高斯分布的数据,但可能会遭受性能恶化的非高斯数据。为了解决这个问题,一个健壮的匹配追踪方法基于小说的内核的风险敏感性损失(总之KRSLMP)是首次提出。然后应用到榆树KRSLMP解决稀疏输出权向量,和开发新方法命名为KRSLMP-ELM SLFN学习。合成和真实的数据集上实验结果证实了该方法的有效性和优越性。
1。介绍
极端学习机(1)是一种单隐层前馈网络(SLFN) [2]。在过去的十年中,榆树成为受欢迎的和有吸引力的机器学习和模式识别社区为其快速的适应能力和良好的泛化性能(3]。一般来说,榆树具有以下优点:(i)它不仅有能力的估计未知数学模型嵌入大量的训练样本,还具有并行方案有效地并行实现的培训和测试;(2)它使用随机生成的输入权值和隐藏的偏见没有调优在训练阶段,因此,输出权重可以分析得到解决标准最小二乘(LS)问题。因此,快速的学习能力和高效的计算可以实现成本,尤其是对大数据的应用程序。这些显著的优势,针对榆树已经广泛应用于许多应用程序,如人脸识别(4)、串补输电线路保护(5),时间序列分析(6)和非线性模型识别(7]。
然而,榆树仍然有几个缺点。首先,榆树遇到的问题无关的变量在处理现实世界的数据集(8]。第二,选择一个适当的隐藏节点数量对所有榆树算法是一个开放的问题。榆树网络过少隐藏节点可能并不准确建模的输入数据,而网络太多的隐藏节点倾向于产生过度拟合模型(9]。此外,当隐藏节点的数量超过输入数据,榆树可能奇点问题[4]。第三,最初的榆树学习模型的规范基于损失函数,这是非常容易受到噪音。众所周知,规范可以放大带来的不良影响的异常值大偏差(10]。非高斯噪声或异常值的存在训练数据,因此可能导致不可靠的模型与退化的表现。
为了克服第一和第二的局限性,提出了几种方法的正则化框架(9,11- - - - - -13]。此外正交匹配追踪(OMP)是一种简单、高效的迭代算法选择一个原子在字典里其余的最佳关联元素在每一次迭代14]。因此,OMP已经嵌入到榆树(OMP-ELM)解决奇点问题,导致比原来的榆树[更稳定的解决方案15]。大多数学习模型与一个现有的方法基于规范的损失函数,在非高斯噪声的存在表现不佳(存在于许多实际情况)或离群值16- - - - - -18]。应对非高斯噪声或离群值,提高泛化能力,正规化correntropy标准用于取代规范基于损失函数在原始榆树模型开发ELM-RCC [16]。在[19),榆树提出了规范基于损失函数(ORELM)实现健壮的性能。
内核的风险敏感性损失(KRSL)是一种非线性相似性测量首先提出了(20.),从而可以达到一个更令人满意的鲁棒性能。KRSL基于原始结构的风险敏感性的丧失和再生核希尔伯特空间中定义的再生核希尔伯特空间理论()21,22]: 在哪里表示的数学期望,的高斯核带宽 ,和是风险敏感性参数。在本文中,我们提出一个基于KRSL匹配的追求(KRSLMP)方法。然后嵌入KRSLMP榆树构建一个健壮的和稀疏的榆树模型。
剩下的论文结构如下。节2我们素描相关工作,包括相似措施在内核空间,内核的风险敏感性损失,榆树模型,正交匹配追踪算法。节3,我们开发KRSLMP-ELM。节4合成,实验回归问题和实际数据集进行验证该算法的有效性。的敏感性KRSLMP-ELM自由参数也进行了分析。最后,给出了结论部分5。
2。预赛和相关工作
为便于演示,介绍了以下这篇论文使用的符号。向量和矩阵是用粗体小写字母和黑体大写字母表示,分别。对于任何一个向量 ,我们使用表示其条目。的符号表示的subvector 与索引条目的集合 。互补的表示为 。
2.1。相似性措施在内核空间中
让和是两个随机变量;之间的correntropy和被定义为(17,23] 在哪里 联合分布函数 。高斯内核与带宽是由
Correntropy 是一个本地相关测量在内核空间吗 。根据美世定理(24),它可以表达的内积
它适用于一个内核技巧,非线性将原始空间映射到一个高维特征空间。它可以表明correntropy直接相关的概率相似的两个随机变量是如何在一个社区的关节空间由内核控制带宽(17,25,26]。
2.2。内核的风险敏感性的损失
相似措施在内核空间中提取高阶统计数据的能力,可显著改善学习性能的非高斯环境(21]。优化问题可以由最大化correntropy标准(MCC)或相当于correntropic损失最小化(C-Loss) [27,28输出估计和目标响应之间的]。然而,高度非凸问题可能发生在C-Loss性能面陡峭的斜坡在最优解,但非常平坦的解决方案。这可能导致收敛速度慢和表现不佳。选择一个大内核带宽可能克服上述问题。但鲁棒性会显著减少异常发生时内核带宽增加(29日]。达到一个令人满意的表面性能,提出了KRSL (20.]。
KRSL定义的 也可以表示在传统的风险敏感性损失形式(30.] 在哪里风险敏感性参数,控制性能表面的形状。
在实践中,联合分布函数和通常是未知的,只有有限数量的样品吗 是可用的。KRSL因此可以估计 一个人可以看到,(6)定义了一个向量之间的距离 和 。
2.3。极端的学习机器
极端学习机(ELM)黄等人提出的培训单隐层前馈神经网络(SLFNs) [2,31日]。随机初始化输入重量和偏见在榆树和培训期间保持不变。网络学习因此成为优化输出权重,可以制定解决线性方程。让 是由训练样本的输入 和对应的期望输出值 ;之间的关系和可以表示模型的假设下。榆树的网络模型隐藏的神经元可以建模和表示为 在哪里是隐藏节点数,体重连接吗th隐藏节点和输出节点,是激活函数(在这个工作,是一个s形的函数没有明确提及),表示连接的重量th隐藏节点和输入节点代表的随机选择的偏差隐藏的节点。方程(7)可以简洁地编写为一个矩阵符号 在哪里 和是最低标准最小二乘解的(8)。的参数可以获得的 在哪里是彭罗斯摩尔隐层输出矩阵的广义逆 。
2.4。正交匹配追踪
匹配追踪法是一种有效的稀疏表示方法(14,32,33]。一般来说,可以制定一个稀疏表示问题 在哪里 表示测量矩阵,是稀疏的向量, 代表了噪声向量。主要目的是恢复稀疏向量从观察和测量矩阵 。OMP使用规范约束最小二乘模型 在哪里非零坐标的数量 。
在下面,我们简要介绍了OMP方法。首先,我们初始化残余 ,该指数 和迭代 。在每个迭代中,OMP算法选择测量矩阵的一列这是最相关的残留 在哪里表示剩余的 th迭代和是th列 。然后收集指标设置
我们可以解决一个LS问题获得一个新的估计支持 : 增刊()表示支持的 。如果停止准则是满意,我们输出的估计 。
然后你可以更新剩余
从(8)和(11),我们可以发现,榆树也有类似的网络模型对稀疏表示问题。因此,可以利用OMP算法选择最佳的榆树的隐藏节点网络。通过使用OMP估计稀疏向量基于规范的标准,执行与高斯误差分布。然而,非高斯噪声的存在可能会导致性能下降。
3所示。基于内核的风险敏感性丧失匹配追求极端的学习机器
为了解决上述问题,我们提出一个健壮的内核的风险敏感性丧失基于正交匹配追踪极端学习机算法(KRSLMP-ELM)在这一节中。KRSLMP-ELM,我们初始化残余作为和初始索引设置为 。然后,类似于OMP,一列大多数选择与剩余和增强指数集在每个迭代。然后我们获得一个新的估计通过求解以下KRSL最小化问题:
我们利用half-quadratic(总部)理论(34构造优化算法。考虑到测量可能包括大型和小型噪音,我们可以使用总部优化估计不同样本的重要性。样品严重损坏将分配小重量值在学习过程来减少大量噪声的影响。因此,KRSLMP-ELM可以显著的性能进一步提高。
根据凸优化理论(35),的双重职能 是凸,定义为 然后 达到下确界在哪里 。我们在这里指出,当参数 ,KRSLMP-ELM还可以工作在我们的模拟。用(18)(20.),KRSLMP-ELM目标函数可以新配方 诊断接头()代表一个对角矩阵主对角元素和是正则化参数。灵感来自于总部理论,(21可以通过下面的替代技术来解决: 在哪里表示迭代数。在该算法中,带宽是在迭代自适应地选择。为了使计划健壮的异常值,我们计算的价值如下。
表示训练误差 , 。我们可以在一个升序排序错误,我们得到重新排序 。让 ,标量 和输出最大的整数比 。我们可以选择随着带宽的比例按照局外人。讨论详细的实验结果,通过选择不同的带宽在实验部分给出。优化问题的一个解决方案(21)可以推导如下: 在哪里 和表示单位矩阵。
由于重要性程度的测量是采用自适应更新KRSLMP-ELM输出权向量,我们更新剩余
它指出,稀疏的水平必须提前KRSLMP-ELM分配。稀疏的直接决定了用于榆树活动隐藏节点的数量由于更多不必要的隐藏节点生成的事实。获得最佳稀疏的水平 ,即最好的用于榆树隐藏节点的数量,我们利用均方根误差(RMSE)作为标准 在哪里表示目标响应和相应的输出KRSLMP-ELM估计的。
对于不同的稀疏程度 ,相应的RMSE第一次计算。然后最好的选择相关系数最小RMSE值。
重复迭代,直到达到停止准则。KRSLMP-ELM算法进行了总结1。
|
||||||||||||||||||||||||||||||||||
4所示。实验结果
验证KRSLMP-ELM提出算法的有效性,实验在两个合成数据集和七个基准数据集在这一节中进行。新方法的性能比较五个最先进的算法,也就是说,榆树,RELM, ELM-RCC OMP-ELM, ORELM。乙状结肠函数 用作所有方法的激活函数。
4.1。合成数据集
在本节内,两个合成回归实验数据集进行非线性函数逼近问题。对两个数据集的描述如下。
Sinc。生成的合成数据集 ,在那里 和 和包含两个互相独立的声音,内心的声音噪声和离群值 。具体地说,被定义为 ,在那里是二进制的概率分布与群众吗 和 。和是独立的 。在这个实验中,设置为0.1。的离群值是由使用一个零均值高斯分布的噪声标准偏差为4.0。内心的声音 ,两个不同的噪音测试,(a)均匀分布和(b)正弦波噪音 ,与均匀分布在 。我们统一生成输入数据从 ,200数据点用于培训和另外200清洁数据点不被噪音污染是用于测试。
函数。这个合成生成的数据集 在哪里是一个零均值高斯分布噪声向量与标准偏差0.4。输入数据向量和是统一生成的 。类似于前面的实验中,200个数据样本用于培训和200个数据样本用于测试没有噪音。
参数的6个方法用于实验的两个合成数据集表进行了总结1,在那里 , , ,和隐层节点的数量,代表风险敏感性参数正则化参数,稀疏的水平,并在KRSLMP-ELM。我们设置 在Sinc合成数据集实验 在函数合成数据集实验。对该方法与其他方法的方便distinguishment Sinc函数逼近问题,只有最初的榆树的估计结果,ORELM, ELM-RCC, KRSLMP-ELM见图1。在图2,我们绘制的平方的训练获得的错误KRSLMP-ELM, ELM-RCC, ORELM,和原来的榆树。正如这些数据所示,KRSLMP-ELM赢得了最佳逼近性能。测试六rms算法提出了表2。它表明KRSLMP-ELM比另一个更健壮的五个方法。
(一)
(b)
(一)
(b)
(c)
(d)
进一步,我们执行另一个实验来比较KRSLMP-ELM的性能与不同原来的榆树离群值。我们认为Sinc函数逼近问题,设置内部噪声为高斯分布的噪声标准差为0.1,离群值噪声是零均值高斯标准偏差范围介于0.1和10。我们运行100次试验不同的异常噪音和RMSE结果显示在图3。一个可以看到原始榆树的性能严重下降时异常得到增强KRSLMP-ELM的性能受异常值影响要小得多。
4.2。基准数据集
在本节内,七回归基准数据集从UCI机器学习库(36)测试来支持该方法的优越性。数据集显示详细的规格表3。应该指出,训练和测试数据样本是随机选择在每个数据集和所有的特性都规范化 。每个方法的参数选择的都是5倍交叉验证,给出了表4。对所有算法,进行,平均100个独立试验结果报告。训练和测试rms及其标准偏差表中列出的所有算法5。以粗体突出显示,ELM-KRSLMP达到最佳的性能在大多数回归数据集。
4.3。敏感的参数
我们分析的敏感性参数 , , ,和在本节KRSLMP-ELM。为了说明,我们使用伺服的回归结果数据集作为一个例子。对于每个参数,其灵敏度测试修复其余的参数表中使用的4。然后,测试rms记录作为性能比较的标准。回归的结果在图演示了性能4。
(一)
(b)
(c)
(d)
5。结论
本文基于鲁棒匹配追求榆树算法,称为基于内核的风险敏感性丧失匹配追求极端学习机(KRSLMP-ELM)了。内核的风险敏感性损失(KRSL)是一种非线性相似度量在内核空间中定义,它可以实现更好的性能比传统的MSE准则在处理非高斯、非线性问题。KRSL合并到现有的正交匹配追踪算法,我们开发了一个改进KRSLMP-ELM算法,它比OMP-ELM更健壮的方法。与一些现有最先进的算法也被提供给验证提出KRSLMP-ELM算法的优越性。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的部分国家自然科学Foundation-Shenzhen联合研究项目(没有。U1613219)和中国国家自然科学基金(没有。91648208也没有。61372152)。