杂志上的优化

PDF
杂志上的优化/2016/文章

研究文章|开放获取

体积 2016 |文章的ID 2659012 | https://doi.org/10.1155/2016/2659012

伊戈尔·杜布诺夫,亚历山大·梅尔科夫,弗拉基米尔·阿拉扎罗夫,伊利亚·尼古拉耶夫, 弹性网训练的证据最大化技术",杂志上的优化, 卷。2016, 文章的ID2659012, 7 页面, 2016 https://doi.org/10.1155/2016/2659012

弹性网训练的证据最大化技术

学术编辑器:Manlio Gaudioso
收到了 2016年2月15日
修改后的 2016年5月10日
接受 2016年5月15
发表 2016年6月30日

摘要

提出了一种基于证据最大化的弹性网正则化参数自动调整方法,该方法允许同时调整多个参数。该技术已应用于手写体数字识别。实验表明,该方法既可以训练具有较高识别精度的模型,也可以训练具有合理识别精度的高度稀疏模型。

1.介绍

机器学习的一个重要方面是在所有可用特征的(可能很大的)集合中选择一个合适的子集,比如只依赖于这个特征子集的训练模型。不错的选择(特征选择, (1)既能加快训练速度,又能提高训练效果的质量。它不仅取决于具体的问题,而且还取决于可用于培训的数据。

特征选择既可以先于学习本身(例如,基于熵的或相关分析),也可以成为学习过程的内置部分(例如,使用 -正则化,如LASSO回归和 支持向量机)2].本文只讨论后一种情况。

众所周知,学习用的是 -正则化可以产生相当稀疏的模型,依赖于相当少的特征,但学习 -正则化通常产生更精确的模型。在[3.一些混合的正则化被称为弹性网提出了“。让 是参数化的模型 ,预测反应 由特征向量 ,让 成为预测的代价 如果真实的反应是 .然后用弹性网正则化方法对样本集进行训练 使用损失最小化(又称erm经验风险最小化)方法,或简单地说,“弹性网的训练”是最小化问题: 在哪里 代表 - - - 规范,分别 是非负正则化参数。在[试验中显示。3.改变参数 我们可以在模型的稀疏性和预测的准确性之间取得平衡。

本文利用弹性网对多类logistic回归进行正则化。一种调优更一般的正则化参数的方法 上面所描述的。该方法在一个手写数字识别问题上进行了测试。

本文的其余部分组织如下。部分2详细介绍了弹性网的数学模型和弹性网。部分3.描述了弹性网正则化参数的学习算法和证据最大化技术;这一技术是本文的主题。部分4描述用弹性网进行数字识别的实验。部分5暴露实验结果。部分6总结了实验的主要结果,并讨论了该技术进一步的可能应用。

2.数学模型

考虑多项分类在它的确定性和概率变量:给定一个特征向量 要么预测正确的标签 的一个 vector对象的类 属于或估计条件概率 每个类的标签。概率分类被认为是主要的,在确定性分类中一个类标签(通常类标签) 将预测。

代表增广特征矢量.估计 多项式线性logistic回归模型 将训练。模型参数矩阵 维的行 .对模型的训练就是选择一些“好的”参数

为此,我们使用一个训练数据集 夫妻 应该是随机身份识别。 也可以用调换的方式写吗 在哪里 .训练的目的是最大化 一些之前 训练集 .自 分母不依赖于 ,后验概率最大化等价于分子或对数的最大化: (中的第二个和)4)为模型的对数似然值 ,而前者取决于先验的选择。

矩阵 代表 没有偏压柱 .先验通常是独立于偏差的,所以 .在最简单的情况下,当球面高斯分布或拉普拉斯分布作为先验时,训练(4)变成了一个优化问题 ——或者 分别正规化。

同样,弹性网是由先验得到的 在哪里 (记住空间的 维)和 为标准一维高斯分布的累积函数: 以简化计算代替函数 我们使用 例如,标准化系数 就变成了

堵塞(5) (4)将弹性网的训练转化为优化问题:

前(5)和(10)都是各向同性的 特性。然而,这些特征本身的性质可能是不平等的。为了尊重这样一个不等式,我们把所有的特征划分为 具有相同性质的特征的组。例如,图像的所有像素值具有相同的性质,将属于同一组特征,而计算的特征或高宽比属于其他组。

让我们固定一个指标集的划分 成子集 的基数 并定义单独的正则化参数 为每个组。然后进行通用弹性网(10)变成 线性logistic回归弹性网(2)变成

很容易看出,优化问题(13)对于任何训练集都是凸的 和非负 .值的选择 正则化参数 ,这是本文的主题,将在后面的章节中讨论3.2

3.学习技术

3.1.非光滑凸优化

标准梯度法不适用于极小化问题(10)和(13),因为它们包含不流畅的术语 .所以Nesterov在[4]来最小化光滑和简单非光滑凸函数的和。Nesterov的算法在中等步数(小于变量数,等于 在(10)和(13在所有已知的非光滑优化方法中[5].

Nesterov算法可以利用强凸性( -凸性),收敛速度越快,越大 可以提前保证。()中的目标函数13)在偏列中不是强凸的 ,但它是强凸的 -正则化应用于所有参数 包括

考虑以下修改问题(13).(1)估计偏倚栏 在哪里 是类的训练样本数吗 .估计 为最小化问题的解: 这就是无特征logistic回归模型的最大似然训练。(2)选择一些 而不是(13)解决

()中的目标函数16)是具有非负参数的强凸

3.2.证据最大化

训练弹性网(10),(13),或(16)成功地确定了合理的正则化参数值 (hyperparameters)是必需的。在具有一个或最多两个超参数的机器学习问题中(例如,在SVM中)[1)它们的值可以通过网格搜索找到。然而,有 广义弹性网中的超参数(16),我们对这个案子感兴趣 .在这种情况下,一个合理的优化方法是证据最大化。使用证据最大化估计岭回归和其他基于高斯模型的超参数是众所周知的[6].对于非高斯弹性网,超参数的证据既不能精确地计算也不能精确地最大化,只能粗略地近似。

我们之前 依赖于两个超参数 像(5).然后后(3.), 表示明确的是 后验最大化时忽略分母(3.),因为它不依赖 .但是这取决于 .分母 是参数的证据吗 关于训练集 .尽管它有一个特殊的名字,但它是一种通常的可能性,而不是单一模型的可能性 在(4),而是由超参数定义的模型的整个概率空间的可能性

前(5)成对的证据 证据最大化等同于证据最小化

归一化因子 用公式(9)在这里。

(的梯度)19)是 在哪里 代表期望 关于后验分布 成正比

最小化(19)代替了传统的梯度步骤的变换 反复使用。

公式(20.)表示该证据的每一个极大点都是一个变换的固定点(22).变换不收敛(22)是保证。但在实验中,这种转换的多次迭代使训练模型更精确。

修改弹性网(16)、转换(22)变成

预期 , , 由于后验不能准确计算 是相当复杂和高维的。它们用对角拉普拉斯近似估计[7的后 训练模式(16 而不是 本身。

3.3.停止准则

停止任何一项训练(16),正则化参数固定 或转换的迭代(23)和(24) ,使用以下验证技术。可用的数据集 是否划分为训练集 样本和验证集 样本。第一个用于训练弹性网(16),而第二个则用来决定继续训练是否毫无意义,是否应该停止。也就是说,弹性网的训练可能停止 是否增加了几个(大约30个)最后的优化步骤,并调优了正则化参数 如果可能就会停止 经过几次(大约5次)最后的迭代后,训练的模型没有增加。

该准则是一种著名的早期停止方法[8].一方面,如此早的停止明显加速了训练。另一方面,它是一种正则化技术[9],可以隐藏通过证据最大化调整正则化参数的效果,这是本文研究的主题。为了找到一个平衡点,实证选择了验证可能性不增加和停止之间的延迟。

4.实验

章节中描述的方法23.用于识别MNIST数据库中的手写数字(见[10])。这个数据库包含灰度光栅图像 每一个像素,都属于其中一个 类。传统上它被划分为 培训和培训样本 进行测试。 的训练样本被遗漏用于验证,所以

为了使线性logistic回归更有效,也为了检验所提出的大量正则化参数估计方法,在模型中加入了更多的特征。除了 主要特征(像素强度)生成了几组次要特征。然后,所有的特征,包括次要和主要的,归一化为零均值和单位方差。

实验中使用了以下几组次要特征。(1)像素强度梯度的水平和垂直分量( 特性)。(2)离散傅里叶变换的振幅和相位[11]的像素强度( 特性)。(3)投影直方图(11],即图像的每一行和每一列中第一个和最后一个非零像素的数量和位置( 特性)。(4)图像的角度量矩阵,对于图像的每个像素包含估计的“似然”为其角点。利用MATLAB函数计算了拐角度量矩阵cornermetric12)( 特性)。(5)局部标准差矩阵,图像的每个像素包含像素的强度除以9 × 9邻域的标准偏差。利用MATLAB函数计算局部标准差stdfilt12)( 特性)。这相当于 主要特征和次要特征合计。

记住,建议的学习技术包括两个层次:内部层次是弹性网(16),正则化参数固定 采用Nesterov优化算法,外部层次受最大证据原理启发为迭代变换(23)和(24) .几个不同的分区(11)的功能分组。

表格中的每一行1,2,3.介绍了弹性网训练的单一实验。表格每一行代表弹性网(16)接受过一些训练 .每个实验都重复进行 次了。测量值的估计间隔,如表所示,是围绕平均值的两个标准差的间隔。


稀疏(%) 意思是日志的可能性 误差(%)

0 0 2.46±0.00 0.0638±0.0007 2.06±0.05
3. 10.32±1.56 0.0583±0.0011 1.85±0.05
10 16.84±2.49 0.0609±0.0007 1.81±0.06
30. 45.87±4.03 0.0823±0.0005 2.18±0.05
One hundred. 63.26±2.90 0.1419±0.0003 3.41±0.05
300 75.77±4.37 0.2503±0.0004 5.19±0.05

1 1 3.75±0.16 0.0621±0.0007 2.00±0.04
1 10 3.81±0.19 0.0621±0.0007 2.00±0.04
1 30. 6.71±2.54 0.0607±0.0013 1.95±0.07
10 1 16.73±2.40 0.0609±0.0007 1.81±0.06
10 10 16.56±2.46 0.0613±0.0007 1.81±0.06
10 30. 16.25±2.53 0.0621±0.0006 1.82±0.05
10 One hundred. 16.20±3.09 0.0649±0.0005 1.86±0.05
30. One hundred. 38.42±2.42 0.0862±0.0005 2.20±0.05
One hundred. 30. 61.51±2.45 0.1428±0.0003 3.41±0.05
One hundred. One hundred. 59.18±2.09 0.1445±0.0003 3.41±0.05

0 1 2.46±0.00 0.0638±0.0007 2.06±0.05
10 2.46±0.00 0.0638±0.0007 2.06±0.04
One hundred. 2.46±0.00 0.0638±0.0007 2.05±0.04
300 2.46±0.00 0.0659±0.0006 2.05±0.06


稀疏(%) 意思是日志的可能性 误差(%)

1 12.53±3.18 0.0580±0.0010 1.83±0.06
8 9.99±1.40 0.0557±0.0008 1.70±0.05
13 9.54±1.22 0.0560±0.0010 1.69±0.04
40 10.17±1.40 0.0555±0.0007 1.71±0.05
136 8.74±1.38 0.0581±0.0006 1.81±0.04
385 8.05±1.28 0.0587±0.0004 1.82±0.04
1456 8.35±1.53 0.0581±0.0005 1.81±0.04
5656 10.82±2.68 0.0582±0.0010 1.80±0.06


稀疏(%) 意思是日志的可能性 误差(%)

1 56.72±6.94 0.0916±0.0027 2.32±0.08
8 75.04±0.86 0.0898±0.0026 2.70±0.08
13 75.56±1.43 0.0960±0.0029 2.97±0.08
40 84.58±1.21 0.1054±0.0029 3.13±0.14
136 85.41±0.64 0.0816±0.0011 2.32±0.06
385 87.55±1.89 0.0804±0.0032 2.47±0.09
1456 85.72±0.57 0.0745±0.0008 2.28±0.05
5656 ( 88.62±0.50 0.0739±0.0009 2.28±0.04

1,2,3.包含训练模型的以下三列属性。

稀疏.它是模型中未使用的特性的份额

意思是日志的可能性.这是均值除以 -元素测试集-样本的真实类别标签的预测概率的对数,

错误.它是对误分率的衡量相同的 -元素测试集,提供最可能的类被预测,

训练模型的稀疏性是由于 -正则化在弹性网中,随

4.1.恒定的正则化参数

首先,用固定标量值的正则化参数进行控制实验λμ被执行。结果如表所示1

采用参数计算得到最小平均测试误差为1,81%

4.2.通过证据最大化调整正则化参数

接下来,进行自动调整正则化参数的实验 被执行。由于所有的特征都经过了归一化,学习从 对所有 .结果如表所示2.每一行表示所描述的两级学习过程对某一分区(11)的特性。

测试了几种不同的分区方案。 ,琐碎划分:所有特征都属于同一组。 ,粗划分:主要特征,梯度的水平和垂直分量,傅里叶变换的振幅和相位,以及其他三种类型的次要特征各自形成一个单独的组。 :整个图像( 像素)被分割成 相等的正方形,粗略地说,这些组是由为某些正方形计算出的某种类型的特征组成的。例外情况是投影直方图,不是为正方形计算的,而是为正方形的行或列( 每一组 直方图)和傅里叶变换的振幅和相位,两者都划分为 频率空间的平方。所以划分的总分组数等于 .为 这给了 ,细划分:每个特征形成一个单独的组。

实验表明,证据最大化技术比猜测标量正则化参数的弹性网更能得到精确的弹性网。实际上,比较Table的最后一列1与行 , , 的表2.这些线表示用一定的值训练的弹性网 -, - - - - - -, -维正则化参数,很难猜测。

4.3.稀疏的弹性网

最后,我们进行了一系列实验,试图训练非常稀疏但相当准确的模型。弹性网训练模型的稀疏性主要取决于其参数。 .在上述技术中,这些参数被调整,以获得更高的证据弹性网。然而,实验表明,转换的迭代(23)和(24),断面停止标准3.3倾向于在达到证据的任何(局部!)最大值之前停止,在哪里停止取决于初始参数

实验部分4.2(表2)从 对所有 .然后稀疏性较低,但训练后的模型能做出更准确的预测。如果 ,优化问题(16)有唯一解 ,最简略,但不准确。从开始迭代 可获得精度合理的稀疏弹性网。

表格3.给出了带起始参数的弹性网训练结果 , .这些结果将在下一节中讨论。

5.结果与讨论

5.1.训练模型的准确性

利用证据最大化技术训练的最佳模型如表所示2的平均测试误差为1,69%,明显小于猜测标量正则化参数得到的1,81%(表1).在我们的实验中,每次学习证据最大化只需要 正则化参数的重新估计。所以弹性网的数量被训练来填写表格12是可比性的(而且,不是所有的猜测都显示在表格1).

证据最大化技术只允许人们猜测一个适当的特征划分,而不是特别好的值的正则化参数。不过,这种技术并不是完全自动化的。两个明显的极端划分(最粗糙的和最好的)都不能得出最好的模型。表第一行1,83%2与表中达到的1,81%相比1证明了证据最大化并不一定会导致最佳的准确性。但是,当正则化参数是多维的,并且天真的尝试猜测一个好的值是不可行的时候,它可以使用。

所获得的准确率远远低于通过卷积神经网络、深度学习和训练数据集的增强所获得的最先进的结果。但正则化参数精确调整的弹性网络比其他相同复杂度的传统模型(如1- 2层神经网络或高斯核支持向量机)可以获得更高的精度(见[10])。

5.2。训练模型的稀疏性

在一些实际的分类问题中,模型的高度稀疏性优先于其较高的精度。提出的方法允许在稀疏性和准确性之间进行各种权衡的训练模型。

最后一张弹性网见表3.提供测试误差2 28%和稀疏度88 62%,所以只有 使用特性。与最精确的弹性网表相比2,误差增加了0.59%,而使用特征的数量减少了7倍以上,从 .这个结果是通过从最大合理的开始为每个特性调整单独的正则化参数来实现的

6.结论

本文介绍了一种基于证据最大化原理的弹性网正则化参数调整技术的机器学习方法。该方法能够处理多维正则化参数,仅使用其初值和用于学习的模型的特征的性质的粗糙简单的想法。

该方法在手写数字的MNIST数据库上进行了测试,与传统的一两个标量正则化参数的网格搜索方法相比,可以获得更精确的弹性网训练。它还允许以合理的精度训练非常稀疏的模型。

然而,所提出的学习方法的主要目标超出了本文的范围。提出了一种基于弹性网训练的特征选择机制,在稀疏性和准确性之间进行权衡。在未来,该方法将应用于其他机器学习问题,包括具有大量特征的问题。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

致谢

这项工作得到了俄罗斯基础研究基金的部分资助。15-29-06081“ofi-m”,否。16-07-00616“a”。

参考文献

  1. G. James, D. Witten, T. Hastie和R. Tibshirani,统计学学习导论,第103卷施普林格统计文本,施普林格,纽约,美国,2013。视图:出版商的网站|MathSciNet
  2. I. Guyon和A. Elisseeff,“变量和特征选择介绍,”机器学习研究杂志,第3卷,1157-1182页,2003年。视图:谷歌学术搜索
  3. H. Zou和T. Hastie,“基于弹性网的正则化和变量选择”,皇家统计学会杂志。B.统计方法,第67卷,否。2, 301-320页,2005。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
  4. y Nesterov,最小化复合目标函数的梯度法, 2007年。
  5. P. Richtarik和M. Schmidt,“用于大规模经验风险最小化的现代凸优化方法”机器学习国际会议论文集, 2015年7月。视图:谷歌学术搜索
  6. c . m .主教模式识别和机器学习,信息科学与统计,施普林格,纽约,纽约,美国,2006。视图:出版商的网站|MathSciNet
  7. 普利莱普科和加里尼琴科博士,渐近方法与特殊函数MIPI 1980。
  8. Y. Yao, L. Rosasco和A. Caponnetto,“关于梯度下降学习的早期停止”,建设性的近似第26卷,第2期。2, 289-315, 2007。视图:出版商的网站|谷歌学术搜索|MathSciNet
  9. D. F. Morgado, a . Antunes,和a . M. Mota,“正规化与早期停止:一个真实系统的案例研究”第二届IFAC会议控制系统设计论文集2003年,斯洛伐克布拉迪斯拉发。视图:谷歌学术搜索
  10. L. Bottou, Y. Bengio, P. Haffner,“基于梯度的学习应用于文档识别”,IEEE学报,第86卷,第2期。11,页2278-2323,1998。视图:出版商的网站|谷歌学术搜索
  11. Ø。D. Trier, A. K. Jain, T. Taxt,《字符识别的特征提取方法——综述》,模式识别第29卷第2期。4, 641-662页,1996。视图:出版商的网站|谷歌学术搜索
  12. MathWorks Inc, MATLAB图像处理工具箱文档,http://www.mathworks.com/help/images/

版权所有©2016 Igor Dubnov等。这是一篇开放获取的文章知识共享署名许可,允许在任何媒介上不受限制地使用、分发和复制,只要原稿被适当引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1107
下载367
引用

相关文章

年度文章奖:2020年杰出研究贡献,由本刊主编评选。阅读获奖文章