弹性网训练的证据最大化技术

摘要

提出了一种基于证据最大化的弹性网正则化参数自动调整方法，该方法允许同时调整多个参数。该技术已应用于手写体数字识别。实验表明，该方法既可以训练具有较高识别精度的模型，也可以训练具有合理识别精度的高度稀疏模型。

1.介绍

机器学习的一个重要方面是在所有可用特征的(可能很大的)集合中选择一个合适的子集，比如只依赖于这个特征子集的训练模型。不错的选择(特征选择, (1)既能加快训练速度，又能提高训练效果的质量。它不仅取决于具体的问题，而且还取决于可用于培训的数据。

特征选择既可以先于学习本身(例如，基于熵的或相关分析)，也可以成为学习过程的内置部分(例如，使用-正则化，如LASSO回归和支持向量机)2］．本文只讨论后一种情况。

众所周知，学习用的是-正则化可以产生相当稀疏的模型，依赖于相当少的特征，但学习-正则化通常产生更精确的模型。在[3.一些混合的正则化被称为弹性网提出了“。让是参数化的模型,预测反应由特征向量,让成为预测的代价如果真实的反应是．然后用弹性网正则化方法对样本集进行训练使用损失最小化(又称erm经验风险最小化)方法，或简单地说，“弹性网的训练”是最小化问题: 在哪里和代表- - -规范,分别和是非负正则化参数。在[试验中显示。3.改变参数和我们可以在模型的稀疏性和预测的准确性之间取得平衡。

本文利用弹性网对多类logistic回归进行正则化。一种调优更一般的正则化参数的方法和上面所描述的。该方法在一个手写数字识别问题上进行了测试。

本文的其余部分组织如下。部分2详细介绍了弹性网的数学模型和弹性网。部分3.描述了弹性网正则化参数的学习算法和证据最大化技术;这一技术是本文的主题。部分4描述用弹性网进行数字识别的实验。部分5暴露实验结果。部分6总结了实验的主要结果，并讨论了该技术进一步的可能应用。

2.数学模型

考虑多项分类在它的确定性和概率变量:给定一个特征向量要么预测正确的标签的一个vector对象的类属于或估计条件概率每个类的标签。概率分类被认为是主要的，在确定性分类中一个类标签(通常的类标签)将预测。

让代表增广特征矢量．估计多项式线性logistic回归模型将训练。模型参数矩阵由维的行．对模型的训练就是选择一些“好的”参数．

为此，我们使用一个训练数据集的夫妻应该是随机身份识别。也可以用调换的方式写吗在哪里和．训练的目的是最大化一些之前训练集．自分母不依赖于，后验概率最大化等价于分子或对数的最大化: (中的第二个和)4)为模型的对数似然值，而前者取决于先验的选择。

让矩阵代表没有偏压柱．先验通常是独立于偏差的，所以．在最简单的情况下，当球面高斯分布或拉普拉斯分布作为先验时，训练(4)变成了一个优化问题——或者分别正规化。

同样，弹性网是由先验得到的在哪里 (记住空间的是维)和为标准一维高斯分布的累积函数: 以简化计算代替函数我们使用例如，标准化系数就变成了

堵塞(5) (4)将弹性网的训练转化为优化问题:

前(5)和(10)都是各向同性的特性。然而，这些特征本身的性质可能是不平等的。为了尊重这样一个不等式，我们把所有的特征划分为具有相同性质的特征的组。例如，图像的所有像素值具有相同的性质，将属于同一组特征，而计算的特征或高宽比属于其他组。

让我们固定一个指标集的划分成子集的基数并定义单独的正则化参数和为每个组。然后进行通用弹性网(10)变成线性logistic回归弹性网(2)变成

很容易看出，优化问题(13)对于任何训练集都是凸的和非负和．值的选择正则化参数和，这是本文的主题，将在后面的章节中讨论3．2．

3.学习技术

3．1．非光滑凸优化

标准梯度法不适用于极小化问题(10)和(13)，因为它们包含不流畅的术语和．所以Nesterov在[4]来最小化光滑和简单非光滑凸函数的和。Nesterov的算法在中等步数(小于变量数，等于在(10)和(13在所有已知的非光滑优化方法中[5］．

Nesterov算法可以利用强凸性(-凸性)，收敛速度越快，越大可以提前保证。()中的目标函数13)在偏列中不是强凸的，但它是强凸的-正则化应用于所有参数包括．

考虑以下修改问题(13）.(1）估计偏倚栏：在哪里是类的训练样本数吗．估计为最小化问题的解: 这就是无特征logistic回归模型的最大似然训练。（2）选择一些而不是(13)解决

()中的目标函数16)是具有非负参数的强凸．

3．2.证据最大化

训练弹性网(10),(13),或(16)成功地确定了合理的正则化参数值和(hyperparameters)是必需的。在具有一个或最多两个超参数的机器学习问题中(例如，在SVM中)[1)它们的值可以通过网格搜索找到。然而,有广义弹性网中的超参数(16)，我们对这个案子感兴趣．在这种情况下，一个合理的优化方法是证据最大化。使用证据最大化估计岭回归和其他基于高斯模型的超参数是众所周知的[6］．对于非高斯弹性网，超参数的证据既不能精确地计算也不能精确地最大化，只能粗略地近似。

我们之前依赖于两个超参数和像(5）.然后后(3.),和表示明确的是后验最大化时忽略分母(3.)，因为它不依赖．但是这取决于和．分母是参数的证据吗和关于训练集．尽管它有一个特殊的名字，但它是一种通常的可能性，而不是单一模型的可能性在(4)，而是由超参数定义的模型的整个概率空间的可能性和．

前(5)成对的证据是证据最大化等同于证据最小化

归一化因子用公式(9)在这里。

(的梯度)19)是在哪里代表期望关于后验分布成正比：

最小化(19)代替了传统的梯度步骤的变换反复使用。

公式(20.)表示该证据的每一个极大点都是一个变换的固定点(22）.变换不收敛(22)是保证。但在实验中，这种转换的多次迭代使训练模型更精确。

修改弹性网(16)、转换(22)变成为和

预期,,由于后验不能准确计算是相当复杂和高维的。它们用对角拉普拉斯近似估计[7的后训练模式(16）而不是本身。

3．3.停止准则

停止任何一项训练(16)，正则化参数固定或转换的迭代(23)和(24)，使用以下验证技术。可用的数据集是否划分为训练集的样本和验证集的样本。第一个用于训练弹性网(16)，而第二个则用来决定继续训练是否毫无意义，是否应该停止。也就是说，弹性网的训练可能停止是否增加了几个(大约30个)最后的优化步骤，并调优了正则化参数如果可能就会停止经过几次(大约5次)最后的迭代后，训练的模型没有增加。

该准则是一种著名的早期停止方法[8］．一方面，如此早的停止明显加速了训练。另一方面，它是一种正则化技术[9]，可以隐藏通过证据最大化调整正则化参数的效果，这是本文研究的主题。为了找到一个平衡点，实证选择了验证可能性不增加和停止之间的延迟。

4.实验

章节中描述的方法2和3.用于识别MNIST数据库中的手写数字(见[10])。这个数据库包含灰度光栅图像每一个像素，都属于其中一个类。传统上它被划分为培训和培训样本进行测试。的训练样本被遗漏用于验证，所以和．

为了使线性logistic回归更有效，也为了检验所提出的大量正则化参数估计方法，在模型中加入了更多的特征。除了主要特征(像素强度)生成了几组次要特征。然后，所有的特征，包括次要和主要的，归一化为零均值和单位方差。

实验中使用了以下几组次要特征。(1）像素强度梯度的水平和垂直分量(特性)。（2）离散傅里叶变换的振幅和相位[11]的像素强度(特性)。（3）投影直方图(11]，即图像的每一行和每一列中第一个和最后一个非零像素的数量和位置(特性)。(4）图像的角度量矩阵，对于图像的每个像素包含估计的“似然”为其角点。利用MATLAB函数计算了拐角度量矩阵cornermetric［12)(特性)。(5）局部标准差矩阵，图像的每个像素包含像素的强度除以9 × 9邻域的标准偏差。利用MATLAB函数计算局部标准差stdfilt［12)(特性)。这相当于主要特征和次要特征合计。

记住，建议的学习技术包括两个层次:内部层次是弹性网(16)，正则化参数固定采用Nesterov优化算法，外部层次受最大证据原理启发为迭代变换(23)和(24)和．几个不同的分区(11)的功能分组。

表格中的每一行1,2,3.介绍了弹性网训练的单一实验。表格每一行代表弹性网(16)接受过一些训练和．每个实验都重复进行次了。测量值的估计间隔，如表所示，是围绕平均值的两个标准差的间隔。


		稀疏(%)	意思是日志的可能性	误差(%)

0	0	2.46±0.00	0.0638±0.0007	2.06±0.05
3.		10.32±1.56	0.0583±0.0011	1.85±0.05
10		16.84±2.49	0.0609±0.0007	1.81±0.06
30.		45.87±4.03	0.0823±0.0005	2.18±0.05
One hundred.		63.26±2.90	0.1419±0.0003	3.41±0.05
300		75.77±4.37	0.2503±0.0004	5.19±0.05

1	1	3.75±0.16	0.0621±0.0007	2.00±0.04
1	10	3.81±0.19	0.0621±0.0007	2.00±0.04
1	30.	6.71±2.54	0.0607±0.0013	1.95±0.07
10	1	16.73±2.40	0.0609±0.0007	1.81±0.06
10	10	16.56±2.46	0.0613±0.0007	1.81±0.06
10	30.	16.25±2.53	0.0621±0.0006	1.82±0.05
10	One hundred.	16.20±3.09	0.0649±0.0005	1.86±0.05
30.	One hundred.	38.42±2.42	0.0862±0.0005	2.20±0.05
One hundred.	30.	61.51±2.45	0.1428±0.0003	3.41±0.05
One hundred.	One hundred.	59.18±2.09	0.1445±0.0003	3.41±0.05

0	1	2.46±0.00	0.0638±0.0007	2.06±0.05
	10	2.46±0.00	0.0638±0.0007	2.06±0.04
	One hundred.	2.46±0.00	0.0638±0.0007	2.05±0.04
	300	2.46±0.00	0.0659±0.0006	2.05±0.06


	稀疏(%)	意思是日志的可能性	误差(%)

1	12.53±3.18	0.0580±0.0010	1.83±0.06
8	9.99±1.40	0.0557±0.0008	1.70±0.05
13	9.54±1.22	0.0560±0.0010	1.69±0.04
40	10.17±1.40	0.0555±0.0007	1.71±0.05
136	8.74±1.38	0.0581±0.0006	1.81±0.04
385	8.05±1.28	0.0587±0.0004	1.82±0.04
1456	8.35±1.53	0.0581±0.0005	1.81±0.04
5656	10.82±2.68	0.0582±0.0010	1.80±0.06


	稀疏(%)	意思是日志的可能性	误差(%)

1	56.72±6.94	0.0916±0.0027	2.32±0.08
8	75.04±0.86	0.0898±0.0026	2.70±0.08
13	75.56±1.43	0.0960±0.0029	2.97±0.08
40	84.58±1.21	0.1054±0.0029	3.13±0.14
136	85.41±0.64	0.0816±0.0011	2.32±0.06
385	87.55±1.89	0.0804±0.0032	2.47±0.09
1456	85.72±0.57	0.0745±0.0008	2.28±0.05
5656 (）	88.62±0.50	0.0739±0.0009	2.28±0.04

表1,2,3.包含训练模型的以下三列属性。

稀疏．它是模型中未使用的特性的份额．

意思是日志的可能性．这是均值除以-元素测试集-样本的真实类别标签的预测概率的对数，．

错误．它是对误分率的衡量相同的-元素测试集，提供最可能的类被预测，．

训练模型的稀疏性是由于-正则化在弹性网中，随．

4．1.恒定的正则化参数

首先，用固定标量值的正则化参数进行控制实验λ和μ被执行。结果如表所示1．

采用参数计算得到最小平均测试误差为1,81%和．

4．2.通过证据最大化调整正则化参数

接下来，进行自动调整正则化参数的实验和被执行。由于所有的特征都经过了归一化，学习从和对所有．结果如表所示2．每一行表示所描述的两级学习过程对某一分区(11)的特性。

测试了几种不同的分区方案。，琐碎划分:所有特征都属于同一组。，粗划分:主要特征，梯度的水平和垂直分量，傅里叶变换的振幅和相位，以及其他三种类型的次要特征各自形成一个单独的组。 :整个图像(像素)被分割成相等的正方形，粗略地说，这些组是由为某些正方形计算出的某种类型的特征组成的。例外情况是投影直方图，不是为正方形计算的，而是为正方形的行或列(每一组直方图)和傅里叶变换的振幅和相位，两者都划分为频率空间的平方。所以划分的总分组数等于．为这给了．，细划分:每个特征形成一个单独的组。

实验表明，证据最大化技术比猜测标量正则化参数的弹性网更能得到精确的弹性网。实际上，比较Table的最后一列1与行,,的表2．这些线表示用一定的值训练的弹性网-，- - - - - -,-维正则化参数，很难猜测。

4．3．稀疏的弹性网

最后，我们进行了一系列实验，试图训练非常稀疏但相当准确的模型。弹性网训练模型的稀疏性主要取决于其参数。或．在上述技术中，这些参数被调整，以获得更高的证据弹性网。然而，实验表明，转换的迭代(23)和(24)，断面停止标准3．3倾向于在达到证据的任何(局部!)最大值之前停止，在哪里停止取决于初始参数和．

实验部分4．2(表2)从和对所有．然后稀疏性较低，但训练后的模型能做出更准确的预测。如果，优化问题(16)有唯一解，最简略，但不准确。从开始迭代可获得精度合理的稀疏弹性网。

表格3.给出了带起始参数的弹性网训练结果,．这些结果将在下一节中讨论。

5.结果与讨论

5.１.训练模型的准确性

利用证据最大化技术训练的最佳模型如表所示2的平均测试误差为1,69%，明显小于猜测标量正则化参数得到的1,81%(表1）.在我们的实验中，每次学习证据最大化只需要正则化参数的重新估计。所以弹性网的数量被训练来填写表格1和2是可比性的(而且，不是所有的猜测都显示在表格1）.

证据最大化技术只允许人们猜测一个适当的特征划分，而不是特别好的值的正则化参数。不过，这种技术并不是完全自动化的。两个明显的极端划分(最粗糙的和最好的)都不能得出最好的模型。表第一行1,83%2与表中达到的1,81%相比1证明了证据最大化并不一定会导致最佳的准确性。但是，当正则化参数是多维的，并且天真的尝试猜测一个好的值是不可行的时候，它可以使用。

所获得的准确率远远低于通过卷积神经网络、深度学习和训练数据集的增强所获得的最先进的结果。但正则化参数精确调整的弹性网络比其他相同复杂度的传统模型(如1- 2层神经网络或高斯核支持向量机)可以获得更高的精度(见[10])。

5.2。训练模型的稀疏性

在一些实际的分类问题中，模型的高度稀疏性优先于其较高的精度。提出的方法允许在稀疏性和准确性之间进行各种权衡的训练模型。

最后一张弹性网见表3.提供测试误差2 28%和稀疏度88 62%，所以只有的使用特性。与最精确的弹性网表相比2，误差增加了0.59%，而使用特征的数量减少了7倍以上，从来．这个结果是通过从最大合理的开始为每个特性调整单独的正则化参数来实现的．

6.结论

本文介绍了一种基于证据最大化原理的弹性网正则化参数调整技术的机器学习方法。该方法能够处理多维正则化参数，仅使用其初值和用于学习的模型的特征的性质的粗糙简单的想法。

该方法在手写数字的MNIST数据库上进行了测试，与传统的一两个标量正则化参数的网格搜索方法相比，可以获得更精确的弹性网训练。它还允许以合理的精度训练非常稀疏的模型。

然而，所提出的学习方法的主要目标超出了本文的范围。提出了一种基于弹性网训练的特征选择机制，在稀疏性和准确性之间进行权衡。在未来，该方法将应用于其他机器学习问题，包括具有大量特征的问题。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

致谢

这项工作得到了俄罗斯基础研究基金的部分资助。15-29-06081“ofi-m”，否。16-07-00616“a”。

参考文献

G. James, D. Witten, T. Hastie和R. Tibshirani，统计学学习导论，第103卷施普林格统计文本，施普林格，纽约，美国，2013。视图:出版商的网站|MathSciNet
I. Guyon和A. Elisseeff，“变量和特征选择介绍，”机器学习研究杂志，第3卷，1157-1182页，2003年。视图:谷歌学术搜索
H. Zou和T. Hastie，“基于弹性网的正则化和变量选择”，皇家统计学会杂志。B.统计方法，第67卷，否。2, 301-320页，2005。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
y Nesterov,最小化复合目标函数的梯度法, 2007年。
P. Richtarik和M. Schmidt，“用于大规模经验风险最小化的现代凸优化方法”机器学习国际会议论文集, 2015年7月。视图:谷歌学术搜索
c . m .主教模式识别和机器学习，信息科学与统计，施普林格，纽约，纽约，美国，2006。视图:出版商的网站|MathSciNet
普利莱普科和加里尼琴科博士，渐近方法与特殊函数MIPI 1980。
Y. Yao, L. Rosasco和A. Caponnetto，“关于梯度下降学习的早期停止”，建设性的近似第26卷，第2期。2, 289-315, 2007。视图:出版商的网站|谷歌学术搜索|MathSciNet
D. F. Morgado, a . Antunes，和a . M. Mota，“正规化与早期停止:一个真实系统的案例研究”第二届IFAC会议控制系统设计论文集2003年，斯洛伐克布拉迪斯拉发。视图:谷歌学术搜索
L. Bottou, Y. Bengio, P. Haffner，“基于梯度的学习应用于文档识别”，IEEE学报，第86卷，第2期。11，页2278-2323,1998。视图:出版商的网站|谷歌学术搜索
Ø。D. Trier, A. K. Jain, T. Taxt，《字符识别的特征提取方法——综述》，模式识别第29卷第2期。4, 641-662页，1996。视图:出版商的网站|谷歌学术搜索
MathWorks Inc, MATLAB图像处理工具箱文档，http://www.mathworks.com/help/images/．

杂志上的优化

摘要