研究文章|开放获取
郑Wang Qingbiao吴, ”再加权方案来改善神经自回归分布估计量的表示”,计算智能和神经科学, 卷。2018年, 文章的ID6401645, 9 页面, 2018年。 https://doi.org/10.1155/2018/6401645
再加权方案来改善神经自回归分布估计量的表示
文摘
神经自回归分布估计量(纳德)是一个竞争模型密度估计的任务领域的机器学习。而纳德主要集中在估计密度的问题,处理其他任务的能力还有待提高。在本文中,我们介绍一种简单而有效的再加权方案修改的参数学习纳德。我们利用纳德的结构,激活的重量来自相应的隐藏层。实验表明,无监督学习的特点与我们再加权方案将更有意义,并为神经网络初始化的性能有显著的改善。
1。介绍
学习是最重要的一个特点在机器学习领域的任务。一个有意义的特征表示可能是其他程序的基础。在各种方法中,限制了玻耳兹曼机(元),这是一个强大的生成模型,展示了其学习能力有用表示从许多不同类型的数据(1,2]。
元模型输入的高阶维度之间的相关性。常用的特征提取器,或各种深度模型的构建块,例如,深度信念网。在后一种情况下,学会表示美联储到另一个组织遏制在更高的层,和深架构通常会导致更好的性能在很多领域(3- - - - - -5]。其变体(6- - - - - -8)也有能力处理各种各样的任务。
尽管遏制有很多优势,但它并不适合估计分布的问题,换句话说,估计的联合概率观察。联合概率的估计一个给定的观察,必须计算归一化常数,这是棘手甚至对于中等大小的输入。要处理这个问题,一些其他的方法必须被用来近似归一化常数,例如,退火重要性抽样(9,10),它是复杂和计算成本。
神经自回归分布估计量(纳德)11)是一个强大的模型估计的分布数据,这是受遏制的平均场过程。下的联合概率计算纳德可以准确、高效地完成。纳德和它的变体(12- - - - - -17已被证明是最先进的联合密度模型对各种数据集。
而纳德主要关注数据的分布,它也可以被视为一种模型来从数据中提取特征。
调整的方法有了很大的成就在机器学习领域。在整体学习的一些模型,如演算法(18),每个样本数据集的重要性将会再加权来实现更好的结果。在一些深生成模型,提出了调整方法调整的重要性权重重要性抽样的过程19,20.]。与调整方法,梯度的估计会更准确。
在本文中,我们处理功能由纳德和提出一个新颖的方法来提高学习的质量表示通过一个简单的再加权方案的权重由纳德学习。该方法仍然是模型的结构,而计算的过程仍然是简单和容易掌握的。
本文的其余部分的结构如下。节2,我们审查的重要架构遏制和纳德,这是我们的方法和实验的基础。节3介绍和分析再加权方案改进的质量功能由纳德学习。节4的情况下,我们提出一个类似的方法初始化。我们提供实验评价和证明的结果部分5。最后,我们在部分结论6。
2。审查的遏制和纳德
在本节中,我们审查的基本元模型和强调遏制和纳德之间的关系。
限制玻耳兹曼机是一种马尔可夫随机场,其中包含一层可见的单位和一层隐藏的单位 。两层彼此相连,intralayer没有连接。
的能量状态被定义为 在哪里层之间的连接权值吗是每一层的偏见。
可见状态的概率 在哪里是归一化常数。
由于棘手的归一化常数,遏制竞争力在估计分布的任务。
对于一个给定的观察,可以写成分布 在哪里表示subvector前的观察我th维度。评估的条件分布 ,一个阶乘分布是用来近似 :
吉隆坡的最小化这两个发行版之间的分歧导致了两个重要的方程: 在哪里是乙状结肠函数。
纳德的主要结构是受平均场过程(21,结果在以下方程: 在哪里代表了 - - - - - -行矩阵的转置和代表第一个我1列的矩阵 ,连接输入与相应的隐藏层。
这两个方程表明,纳德就像一个前馈神经网络的训练过程纳德可以转换为相同的框架为普通神经网络在成本函数的平均负对数似训练集。成本函数的梯度对每个参数可以完全通过反向传播,和最小化代价函数可以通过使用简单的随机梯度下降法。相比之下,对每个参数的梯度组织遏制必须由抽样近似从马尔可夫链22- - - - - -27]。实验表明,纳德通常优于其他模型估计的任务分配,在纳德的性能等其他任务的无监督学习特性和神经网络的初始化并不是那么优秀。在本文中,我们主要处理这两个问题。
3所示。再加权方案特性
功能完全程度由学会了重量和偏见无论在遏制或纳德。提高功能,我们尝试修改相应的参数学习的同时保持纳德的结构模型。
直接的想法是由纳德利用条件概率的计算。考虑输入条件的一维概率在其他维度;测量指定的维度的重要性,我们夹其他维度和简单地比较两种情况下的概率如下:
在这个例子中,我们定义的的重量分数我th维度的输入。大或小的价值表明,这两种情况的概率大大不同,我们应该更加注意这个指定的尺寸。这个再加权方案没有工作在实践中由于大量的计算。为每个维度的观察,我们必须计算两个前馈过程和它是不切实际的。
处理这个问题,我们近似条件概率和顺序固定的条件概率和 ,这是兼容纳德的原始结构。这种近似大幅降低了成本计算的一个因素H,这是每个隐层的大小。
我们进一步取代通过控制的不稳定性 。因此,我们使用修改相应权重矩阵 ,换句话说, - - - - - -th列 。我们会更加注意的尺寸在两种不同情况下概率变化强烈。这些维度应该有更大的权重生成特征表示。
最后再加权方案表示为 在哪里是阈值控制的区别,D是输入的大小,的重量分数吗我th维度,是我th列 ,和是最后再加权特性。
在再加权过程,方程(8)计算概率之间的差异在两种情况下为每个维度。方程(9)控制体重的规模。方程(10)和(11)正常的体重。
虽然这再加权方案似乎是可信的,但很少改进功能。这可能解释说,再加权分数确实改变激活每个维度的特性 ,虽然它不会改变的相对大小激活,这可能是更重要的是为了更好的表示。
为了解决这个问题,我们更愿意处理的行而不是列,我们将再次利用纳德提供的结构。每个维度的输入,纳德提供了相应的隐藏层,它可以用来修改学习功能。在这种情况下,我们更加注意隐藏层的尺寸在饱和或灭活。这些想法会导致新的再加权方案如下: 在哪里是输入的大小,是我在纳德th隐藏层,相对权重,是阈值控制激活的价值,是jth单位规范化隐藏层 ,和代表了j为每个矩阵th行。
我们结束了再加权算法程序1。
这个再加权方案特性值得解释更多。作为每一个隐层的激活形式对应的向量的大小相同,在第一步中,我们和向量和规范化获得结果 。因此,为每个维度的平均值是激活的隐藏层,它是如何激活的测量维度在纳德在前馈过程。
然后,我们介绍两个阈值控制激活。单位被认为是在饱和如果激活大于上层阈值 ,和相应的尺寸的单位具有重量 。同样的,我们给一个重量的维度激活小于低阈值 。应该注意的是,重量和是相对的值与标准相比值1。在实践中,重量应该小于1时应大于1。我们强调这种方法的重要性。在饱和单位经常影响性能,通过这个步骤中,我们设置一个小体重减轻这种情况。而单位激活值接近于零被认为是灭活的,这些单位应该保持灭活,和其他一些单位甚至可能成为灭活后调整。在这种情况下,这个维度是负的,和一个大重量确认情况。根据我们的观点,这个过程迫使的稀疏表示,这常常会导致更好的性能。
我们假设每个维度的原始再加权分数只是一个和规范再加权分数保持合理。
在这里,我们强调,我们的目标是改善功能。我们见面时估计分布的问题,纳德的原始重量应该利用自原始重量是最大似然代价函数的优化结果。我们的计划是不适合密度估计。
4所示。初始化再加权方案
遏制所学到的重量或纳德可以用来初始化一个神经网络的重量,这是这类模型的优点之一。进一步的神经网络可以用于其他任务,比如分类。
我们提出了再加权方案的特性,适用于每一个观察,尽管这种方法不适合初始化。
为了解决这个问题,我们计算再加权分数为每个样本在训练集和他们获得一个新的再加权的平均分数的权重矩阵和偏见。这个过程可以表示为 在哪里在训练集样本的数量,是再加权得分向量对应 - - - - - -训练样本。
完整的过程是在算法结束2。
5。实验
在本节中,我们将展示几个二进制数据集上的实验结果再加权方案的特性和初始化。纳德的训练过程,一个固定尺寸的顺序必须选择输入的开始。由于实验表明,订货不产生重大影响的性能纳德(11),对于每一个数据集,选择排序独立和保持相同的在所有的实验中。此外,hyperparameters纳德保持不变的hyperparameters为了选择再加权方案。纳德模型的实现是基于所提供的代码Larochelle和莫里11]。
5.1。结果学习特性
测试是否再加权方案提高了学习功能,我们对分类进行一些实验。
我们注意我们的主要目的是评估提出再加权方案而不是追求最佳性能分类,我们只使用一个中等大小的模型来降低计算的成本。对于每个数据集,我们首先训练纳德和使用算法1得到改进的功能。处理这个过程的所有样本在训练集,验证集和测试集在所有新三组对应的结果。然后火车与单隐层神经网络作为分类器的学习功能。性能是衡量测试集上的分类错误率。我们进一步实验特性没有再加权方案获得一个标准的结果进行比较。同样大小的遏制与纳德也训练和分类结果作为参考。
我们十二个不同的数据集实验UCI存储库:成人,Binarized-MNIST, Connect-4,凸,DNA,蘑菇,新闻组,OCR-letters, RCV1,矩形、SVHN和Web。我们在表列出这些数据集的详细信息1。实验结果如表所示2。我们选择最好的结果再加权方案结果对应于不同hyperparameters之一。我们发现再加权方案的分类误差特点是低于没有再加权,这证明了改进原有的功能。功能的再加权方案可能更有意义。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
为了进一步验证我们的方法,我们取代神经网络和支持向量机分类器,RandomForest,演算法和执行额外的实验。这些实验是通过实现LIBSVM [28)和scikit-learn。结果如表所示3- - - - - -5。在所有的实验中,分类器的参数优化了网格搜索和验证会给最好的性能。特性与我们再加权方案再次超越原版的,它证实了我们方法的有效性。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
实验结果为不同的权重在OCR-letters数据集如表所示6。在这一系列的实验,我们训练数据集上的纳德一开始,学习速度设置为0.001,下降常数设置为0,隐层的大小是100,我们用绑在纳德。也就是说,我们集在方程(6)。接下来,我们继续只有修改再加权参数探讨再加权方案的性能。结果表明,再加权方案有决定性作用改善功能。不合理再加权方案常常会导致更糟糕的结果比没有再加权方案。我们发现,设置较低的体重大于1和上面的重量小于1似乎是一个合理的再加权方案。在前面的章节中,我们已经解释了这种方式,一个较小的值上重量使饱和单元不饱和,表示这是有益的,而一个更大的值较低的重量保留了灭活单位和部队稀疏的特性。
|
|||||||||||||||||||||||||||||||||||||||||||||
还应该指出的是,权重是相对的体重比标准体重1。因此,必须控制体重和体重太大或太小会导致一个可怕的结果。
另一个因素影响再加权方案的性能阈值显式地控制单元是饱和或灭活。结果不同的阈值在OCR-letters数据集如表所示7。之前我们所做的一样,我们只修改这两个阈值在这一系列的实验,我们组上部重量0.6和重量降低到1.4。结果也证明了阈值的重要性。一方面,上阈值控制单位的比例被认为是在饱和,和一个更大的值上阈值导致这些单位占比例较小。另一方面,较低的阈值控制单位的比例被灭活,和一个更小的值较低的阈值会导致这些单位占比例较小。这些单位将更加灭活后再加权方案。
|
|||||||||||||||||||||||||||||||||||||||
从我们的观点来看,这两个阈值更依赖数据集而不是规范。作为一个保守的策略,我们宁愿上设置阈值的范围从0.5到0.8,而较低的阈值的范围从0.5到0.2。
进一步研究的特性,我们检查和分析的价值激活的所有特性OCR-letters的测试集。图1显示单元的数量对应于每个激活值从0到1的步骤0.01。0.01单位下的激活,其价值被忽略保持平衡图,因为这些单位占绝大多数的单位。这些单位在调整之前的数量是562453年和575928年调整后,这证明了我们提出的政策并保持灭活单位和甚至力更稀疏的特性。明显降低的饱和单元如图,这符合我们的目的。
(一)
(b)
我们也调查的平均价值激活每个维度的特性。结果如图所示2。我们发现在纳德特性调整后,在饱和尺寸限制,而灭活尺寸保持甚至更多的灭活。调整前后的平均特性相似而纳德特性和遏制特性显著不同。纳德特性和遏制功能之间的差异是由于内在差异模型纳德和遏制。
(一)
(b)
(c)
5.2。结果初始化
再加权方案我们还提出了由初始化,提高了神经网络的性能,我们将显示在这里。
测试性能,我们为每个数据集训练纳德,与同样大小也是训练有素的遏制。然后我们使用学到的权重矩阵和偏见初始化参数的神经网络分类器。然后,神经网络分类器训练在相应的数据集。评估我们的再加权方案,参数调整后也用作另一个神经网络分类器的初始化大小相同。最后,性能是衡量分类错误。
我们展示了结果表8。像之前一样,我们同样的12个数据集上执行实验和hyperparameters相同。从结果,这一次,我们可以看到,再加权方案初始化使得更显著改善分类性能相比原纳德参数。在大多数的数据集,错误reweighted-NADE和纳德之间的差异远远大于纳德和疟疾之间,这表明该再加权方案的效率。reweighted-NADE OCR-letters,分类性能不如遏制,这可以解释为之间的内在区别参数学习纳德和遏制,这是很难消除只能通过再加权方案。总之,该方案总是超过一个没有再加权。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
为了使实验更完整,我们实验不同的权重Web上的数据集,结果如表所示9。纳德,在这个数据集,学习速率设置为0.005,下降常数设置为0,隐层的大小是150,体重是解开。上阈值和较低的阈值保存到0.67和0.33。启发式再加权方法,它集低重量大于1和上部重量小于1,再一次被证明是有效的。而这一次,适当的权重更远离标准体重1。这可以解释为平均的效果。因为我们计算的平均值再加权分数的所有训练样本,更歧视再加权方案保持尺寸之间的差异在最后再加权得分向量。换句话说,我们更喜欢更大的值为低重量和一个更小的值上重量在处理初始化的问题。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
结果数据集网络上关于各种阈值如表所示10。上重量和低体重设置为0.6和1.4,分别。我们在前一节中类似的结论。的阈值更依赖于数据集,我们喜欢一个保守的策略。
|
|||||||||||||||||||||||||||||||||||||||
6。结论
在本文中,我们提出了一个简单的和小说再加权方案修改纳德的学习参数。我们利用激活隐藏层的学习纳德模型,设置适当的阈值控制的比例超过饱和和灭活单位。为了达到更好的效果,提出了一个启发式再加权方法。原始参数修改和规范化。再加权参数用于生成特性或更好地提高神经网络的初始化的性能。实验表明,再加权方案的有效性,并有明显的改善在机器学习领域的两个重要的任务。
数据可用性
本文中使用的数据都是公开的,可以获得http://archive.ics.uci.edu/ml/datasets.html。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究得到了国家自然科学基金(批准号11771393和11771393)和浙江省自然科学基金(批准号LZ14A010002)。
引用
- y Bengio”,学习深度为人工智能架构,”机器学习的基础和趋势®,卷2,不。1、1 - 127、2009页。视图:出版商的网站|谷歌学术搜索
- y Bengio、a .考维尔和p·文森特,”表示学习:审查和新视角,”IEEE模式分析与机器智能,35卷,不。8,1798 - 1828年,2013页。视图:出版商的网站|谷歌学术搜索
- g·e·辛顿美国Osindero, Y.-W。格兰”,快速学习算法深度信念网”,神经计算,18卷,不。7,1527 - 1554年,2006页。视图:出版商的网站|谷歌学术搜索
- r . Salakhutdinov和穆雷,”定量分析的深层信念网络,”25日学报》国际会议上机器学习ACM,页872 - 879年,赫尔辛基芬兰,2008年7月。视图:谷歌学术搜索
- ,的j。施密德胡贝尔表示“深度学习神经网络:概述”,神经网络卷,61年,第117 - 85页,2015年。视图:出版商的网站|谷歌学术搜索
- c . Marc-Alexandre和h . Larochelle“无限限制玻耳兹曼机,”神经计算,28卷,不。7,1265 - 1288年,2016页。视图:出版商的网站|谷歌学术搜索
- A·c·考维尔b·詹姆斯和y Bengio“高峰和板限制玻耳兹曼机,”AISTATS学报》,卷1,p。5,劳德代尔堡,佛罗里达州美国,2011年10月。视图:谷歌学术搜索
- g·e·辛顿和r . r . Salakhutdinov“复制softmax:一个无向的话题模型,”22日学报》国际会议上神经信息处理系统温哥华,页1607 - 1614 MB,加拿大,2009年12月。视图:谷歌学术搜索
- Burda r b码数,r . Salakhutdinov”准确和保守估计的MRF对数似使用反向退火,”2015年,https://arxiv.org/abs/1412.8566。视图:谷歌学术搜索
- r·m·尼尔“Lingua:: EN:: Titlecase,”统计和计算,11卷,不。2、125 - 139年,2001页。视图:出版商的网站|谷歌学术搜索
- h . Larochelle和穆雷,“神经自回归分布估计,”AISTATS学报》,卷1,p。2,劳德代尔堡,佛罗里达州,美国,2011年10月。视图:谷歌学术搜索
- h . Larochelle和刘,”神经自回归主题模型,”22日学报》国际会议上神经信息处理系统太浩湖,页2708 - 2716年,内华达,2012年12月。视图:谷歌学术搜索
- 即穆雷和r . r . Salakhutdinov评估概率在高维潜变量模型,”学报的发展神经信息处理系统温哥华,页1137 - 1144 MB,加拿大,2009年12月。视图:谷歌学术搜索
- t . Raiko l .姚明,k .赵,y Bengio,“迭代神经自回归分布估计nade-k”学报的发展神经信息处理系统蒙特利尔,页325 - 333年,QC,加拿大,2014。视图:谷歌学术搜索
- 乌里亚,即穆雷,h . Larochelle“Rnade:神经自回归density-estimator实值,”学报的发展神经信息处理系统太浩湖,页2175 - 2183年,NV,美国,2013年12月。视图:谷歌学术搜索
- y郑,r·s·泽梅尔Y.-J。张,h . Larochelle“神经引起识别自回归方法,”国际计算机视觉杂志》上,卷113,不。1,第79 - 67页,2014。视图:出版商的网站|谷歌学术搜索
- y郑,Yu-J。张,h . Larochelle”主题建模的多通道数据:一个自回归方法,”学报IEEE计算机视觉与模式识别会议哥伦布,页1370 - 1377年,哦,美国,2014年6月。视图:谷歌学术搜索
- y Freund, r . e . Schapire et al .,“新增加算法,实验”13日学报》国际会议上机器学习卷,96年,页148 - 156,巴里,意大利,1996年7月。视图:谷歌学术搜索
- j。Bornschein和y Bengio”,再加权和生物钟”,2014年,https://arxiv.org/abs/1406.2751。视图:谷歌学术搜索
- Burda r Grosse, r . Salakhutdinov“加权autoencoders重要性,”2015年,https://arxiv.org/abs/1509.00519。视图:谷歌学术搜索
- l . k .瀑布。Jaakkola和乔丹,”为乙状结肠信念网络平均场理论”,人工智能研究杂志》上,4卷,不。1,第76 - 61页,1996。视图:出版商的网站|谷歌学术搜索
- k·h·曹、t . Raiko和亚历山大,“平行回火是有效学习的限制玻耳兹曼机,”学报2010年国际神经网络(IJCNN)联合会议,页1 - 8,巴塞罗那,西班牙,2010年7月。视图:谷歌学术搜索
- g .辛顿,“实用指南培训限制玻耳兹曼机”,动力,9卷,不。1,p。926年,2010。视图:谷歌学术搜索
- g·e·辛顿”,培训产品的专家通过最小化对比差异,”神经计算,14卷,不。8,1771 - 1800年,2002页。视图:出版商的网站|谷歌学术搜索
- j·马顿斯和i Sutskever马尔可夫随机域,可平行的采样”AISTATS学报》撒丁岛,页517 - 524年,意大利,2010年5月。视图:谷歌学术搜索
- r . r . Salakhutdinov”,学习使用回火转变,在马尔可夫随机领域”学报的发展神经信息处理系统温哥华,页1598 - 1606 MB,加拿大,2009年12月。视图:谷歌学术搜索
- t .从事“培训限制玻耳兹曼机使用近似梯度,可能性”25日学报》国际会议上机器学习ACM,页1064 - 1071年,赫尔辛基芬兰,2008年7月。视图:谷歌学术搜索
- c c。Chang和C.-J。林,“LIBSVM:支持向量机的库,”ACM智能交易系统和技术,卷2,不。3,1-27,2001页。视图:出版商的网站|谷歌学术搜索
版权
版权©2018郑王先生和吴Qingbiao。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。