复杂性

在这一页上

文摘介绍结论的利益冲突确认引用版权相关文章

特殊的问题

计算智能在复杂系统建模和解决复杂的问题

把这个特殊的问题

研究文章|开放获取

体积2018年| 文章的ID1947250| https://doi.org/10.1155/2018/1947250

螺旋发现网络作为一个自动化通用的优化工具

亚当·b·科撒波表示 ¹

学术编辑器: 凯文·黄

收到了 2017年9月29日

接受 2018年1月22日

发表 2018年3月12

文摘

螺旋发现方法(SDM)最初提出的认知工件处理黑盒模型与非线性依赖多个输入和/或乘法交互作用。除了直接帮助识别功能模式在这样的系统中,长效磺胺也简化了控制通过其特有的螺旋结构。在这篇文章中,一个神经网络制定长效磺胺一起提出了一套自动更新规则,使其适用于自动和半自动的形式的优化。SDM模型,广义的行为称为螺旋发现网络(SDN)及其适用性nondifferentiable非凸优化问题阐明通过模拟。基于仿真,是由它的适用性将在所有领域值得研究基于默认的方法梯度反向传播使用。

1。介绍

如何理解操作系统的自然产生的广泛的应用领域。然而,这并不总是很容易回答的问题,部分是因为不同的用例支持不同的方法。虽然一组封闭的公式可能是有用的预测时系统将如何在特定的条件下运作,他们可能很难制定当自己和/或影响的条件是很难描述的。在这种情况下,黑盒标识和启发式建模方法经常被使用。

本文提出的神经网络称为螺旋发现网络(SDN),是一个螺旋的广义版本发现方法,这是一个半自动的认知工件(1,2]。长效磺胺最初提供的目的帮助用户发现系统的多个输入系统之间的关系和系统的输出行为,即使输入对输出的非线性效应和乘法传质。在扩展SDM模型的目标是扩展其适用性自动设置神经网络(或其他参数黑箱模型)调整他们的行为基于一组功能限制,比如要求他们的输出或其他外部结构错误反馈信号。

通过制定提出了,事实证明,长效磺胺每当一个数据驱动的方法可适用于系统的识别,每当各种输入的变化的影响可以在合理的时间内被评估。当评估是由人类、长效磺胺显示动机和特点类似模式的交互式进化计算(3,4];然而,它显示了不同的逻辑通过它有助于发现参数空间。SDN扩展版本,也更普遍适用的,允许自动评估。作为论文的结论,讨论了SDN值得一提的是,它不依赖于梯度信息,这个功能可以减少所需的计算的复杂性,作为潜在的有用的情况下基于性能的梯度的解决方案是远离最优(详细讨论在这种情况下,读者被称为(5])。

本文的结构如下。部分2提供了一个简短概述关于非凸优化的文献以位置之前这项工作对结果的相关性。部分3然后简要地回顾了原始螺旋发现方法的背景(SDM)。部分4介绍了基于张量代数数值结构背后的原始长效磺胺配方。节5神经网络的螺旋发现网络(SDN)。一个仿真例子中提供了部分6为了证明模型的可行性处理非凸和nondifferentiable优化问题。最后,部分7总结了纸。

2。历史概述

非凸优化数学是一个广泛的领域,发现许多应用程序在工程任务的目标是找到足够好的解决方案在高维参数集合管。今天最相关的例子之一是找到有用的架构(深)神经网络或其他类型的图形模型,以及找到合适的参数设置来运行它们。常见的方法在解决这些问题是迭代优化候选解决方案,逐步提高对它的全球损失函数定义的:这就是所谓的梯度下降法(6]。

梯度下降的总体想法可以在参数非常成功的景观与一个明确定义的相关成本函数,包含不超过一个小数量的函数的局部最小值。然而,只要成本函数变得难以解释的价值或成本函数变得如此棘手的计算很难确定其梯度和/或产生不听话地大量的局部最小值,基于天真解决梯度迭代优化通常开始分解。

处理局部最小值的问题,在某种程度上可以解决通过权衡勘探开发好,也就是说,通过修改梯度下降方法稍微抵消的情况优化过程可能会减慢或停止。这种方法反映在许多现有的解决方案。一个卓有成效的想法是实验的比例因子梯度,例如,通过使其适应变化信号通过“动量”的概念7- - - - - -9)或通过特定的参数空间的不同维度(10,11]。其他的想法包括输入层和正常化批次(特别是在训练神经网络模型)(12)或通过添加噪声梯度(13]。

尽管上述解决方案,修改一个候选解决方案的总体想法损失函数的负梯度方向在很大程度上仍然不受挑战。直到最近的言论g .辛顿和其他高度重视人员被广泛宣传,这表明梯度下降,至少基于反向传播,可能不是最终的解决方案训练神经网络(见,例如,文章题为“为什么我们应该深深怀疑的反向传播”由c·e·佩雷斯https://medium.com/intuitionmachine/the-deeply-suspicious-nature-of-backpropagation-9bed5e2b085e)。

本文前面的螺旋发现方法扩展到域的自动训练神经网络通过神经结构。而不是依靠梯度更新其搜索位置,该方法遵循分层hyperspiral结构在参数空间中,从而获得洞察搜索方向,可能是卓有成效的。

3所示。长效磺胺背后的原始问题公式化

在本节中,我们考虑一个泛型类的配方的问题,原来的螺旋发现方法(SDM)可以应用。为此,我们将使用以下概念和符号:(我)一个向量的一代参数 (2)一个感知输出 (3)一个系统传递函数 评估一代参数向量产生感知访问输出(iv)一个评价函数 ,将感知访问输出与实数称为感知价值一个给定的输出(v)一组被称为数据集,其中包含的元组生成参数向量和感知价值。

在原始问题公式化,目标是找到一套适合的参数向量代的一组控制的输出,控制,也就是说,从感知的角度评价函数驱动的。通常,问题会出现在这样一个表单,用户感知价值, ,和我们的目标是找到一个代参数向量, ,适合的生成一个输出,收益率作为其感知价值。一般来说,解决这一问题,不仅仅是反相的系统传递函数(如果这样一个反演甚至可能开始),作为系统输出和其感知价值之间的关系,通常制定分析太复杂,也必须考虑。

应用上述公式的兴趣领域包括以下几点:(我)调优的一组参数uni -或多通道合成算法知觉连续性:例如,在一个虚拟现实和object-to-sound object-to-vibration映射,给定一组的参数用于生成球面音频信号和振动模式和网站对象,目标可能是找到一个合适的组代参数对某些类型的多面体,概念上位于“介于”球体和块。(2)控制输入复杂的黑盒模型基础上推导出量化的成功:例如,输入一个multispeaker系统或分布式供热系统在大型礼堂可能调整为了适应外在需求的舒适和成本效益。

配方的总体特征问题是它包含问题的一组参数可以用来控制模型,通常是一个黑盒模型,其功能最好可以间接通过评估效果不清楚,例如,知觉的影响,定性的措施如舒适、或聚合等措施成本效益。

很明显,这些配方可以很容易地推广到执行情况评估而不是人类,而是通过任何形式的自动过程外部系统。这些过程可能还涉及到一个弱链接到人类感知或更一般的定性认知措施,但仍然会直接或间接地测量和解释。

4所示。张量代数螺旋发现方法的制定

长效磺胺的原始配方是一个张量代数形式,如图1。它是基于一个假设的函数的离散化映射向量的感知价值一代参数。在大多数情况下,这个函数不能表达分析,甚至可能是不同的根据不同的情况下,例如用户执行评估。同时,一个离散形式的函数通常可以通过实验采样(这个想法是受张量积模型(14- - - - - -16])。离散化存储在一个张量, ,所有维度,除了最后一个,对应于离散的层次以及知觉量表(例如,“粗糙度”,“柔软”,“程度的安慰,”或“成本效益”),而最后维度商店维一代参数向量对应知觉配置。

上面描述的张量, ,首先分解为一个核心加权矩阵的张量和一组基于高阶奇异值分解(HOSVD) [17]。这是紧随其后的是一个迭代rank-reduction一步,称为高阶正交迭代(HOOI) [18],它创建了一个rank-reduced近似的完整的系统,这样它的输出是由只有一个控制参数的感知维度的兴趣。捻的方法是,这个参数的“意义”,换句话说,沿着它的超平面的影响系统,通过数值重建的周期性改变系统和操纵系统核心的张量。

长效磺胺的概念背景可以通过描述一个二维数值例子。考虑所描述的功能 : 在这有生成参数不同的知觉层次。利用奇异值分解,而不是HOSVD因为我们是两个维度的情况下),我们获得

最优的rank-reduction维由简单地删除第二列的和第二行或设置 (因此,在这个简单的例子中,两个维度,HOOI不需要使用)。一次 ,第二行核心的张量由0和可以删除(因此,第二列也删除)。

增加后的矩阵奇异值和权重矩阵按照SDM,我们获得

如果和和随机值在第二、第三和第四列的指定,第二、第三和第四行吗可以计算,这样原来的系统重构。然后,通过修改权重矩阵的第一列 ,原来的线性子空间维空间可以探索,从任何三个感性层次。通过分离常数是什么改变了部分的方程,我们得到

因为第二项是一个常数,第一个只取决于第一列 ,方程的“坡度”,也就是说,第二和第一产出之间的比率的变化(如加权矩阵的第一列修改),可以写成

很明显,根据(5)可以设置为任意值的斜率就通过修改的值和。如果值的和之间改变系统的两种极端值,发现也会摆动的斜率以及原始矩阵的主成分。

5。螺旋发现网络细胞:神经网络制定长效磺胺

观察本文的关键是长效磺胺可以制定更简单,同时使用神经网络更强大的条款。复发性模型如图2能产生系统,循环模式类似于原始的配方,但同时它自适应基于一组外部反馈信号。细胞由以下模块组成:(我)一个计时器函数作为更新的模计数器状态离散时间细胞的步骤(2)一个微扰模块决定的方向和程度的斜率在每个时间步探索要修改(3)一个虚拟机监控程序模块刷新微扰的hyperparameters模块根据反馈信号

SDN细胞和它的图形表示模块如图2。更新后的激活时间是在哪里一般来说,SDN细胞的状态更新的步伐在一系列共同构成优化周期。在更新方程,指的是主成分向量(归一化),参数空间的大方向由细胞,探索指的是扰动向量添加到主成分。两者之间的关系是由hyperparameter 。的价值是增加了在每一个步伐,以确保参数的路径发现扩张的大致方向主成分(因此,代表的程度剥削在优化过程中,可以校准基于单独的周期长度,由于主成分的事实是归一化开始)。的方向和规范 ,相比之下,最终取决于之间的关系和 ,确定如何远离主成分探索将偏离(因此,它直接关系到度的概念探索在优化过程中)。控制扰动的方向改变,依赖于周期的长度以及当前阶段内循环。的值 , ,和依赖于周期(或更准确的发现在前一个周期)和初始化如下: 在这里,一个参数的值在一个循环使用方括号来表示,所以,例如, 是指的价值虚拟机监控程序细胞在时间的周期。表示值的标准偏差th细胞管理程序。这两个确保更新方程如下:(我)新周期扰动为中心,在每个维度,在扰动与最低的成本函数值(注意,在前面的循环指的是虚拟机监控程序细胞)。(2)扰动的最大值设置起始值,+标准差的值取决于相应的管理程序细胞在前一个周期,以及它与其他虚拟机监控程序的标准差细胞。(3)主成分, ,设置为初始主成分+的归一化值扰动。

值得注意的是,在SDN细胞封装一组复杂的函数与一个特定的功能逻辑让人想起多久短期记忆减少反向传播的复杂性通过时间(19,20.]。在SDN细胞的情况下,一个完整的周期的影响细胞内的存储。尽管这些影响是决定性的,但它值得调查hyperparameters如何想可能自己学到的东西。

中提到的另一种方法,可以连接SDN细胞粒子群优化(PSO) (21,22)和其他metaheuristic方法,如遗传算法(23- - - - - -25]。算法和遗传算法类似SDN细胞,探索对参数空间的更有前途的领域发展。然而,两种方法也不同,他们之间做出妥协勘探开发:即使发展转向更有前途的地区,SDN细胞仍然是选择区域在一定程度上,取决于不同的获得反馈值(勘探);下一个周期的主要方向,反过来影响剥削。

6。仿真例子

作为一个模拟的例子,我们考虑一个表面所描述的两个参数,和 ,能的值。表面是通过下面的关系(参见图表示3):

图4显示的最低位置搜索(及其参数)被发现早在第七周期,不依靠任何形式的梯度信息。尽管没有确切的最低位置被发现,它可以认为结果很接近实现这一点,有两个原因:(我)损失函数的值的范围之间和 ;因此,价值属于%的错误。(2)搜索本身是无约束(即。,was not guided by the knowledge that only values between和被认为是在- - -相互重合):当然,正如所料,这一事实指定范围之外的位置有一个损失的价值帮助指导搜索。

虽然简陋,但例子显示了潜在价值SDM在处理优化问题的非凸和nondifferentiable。

7所示。结论

本文扩展、自动化提出了螺旋发现方法的变体。变异是制定作为一个神经网络,或者说作为一个组件,和被称为螺旋发现网络(SDN)细胞。SDN细胞的模型包含几个有益的属性。首先,它能够探索大面积参数通过参数hyperspiral结构空间,通过自适应这种hyperspiral结构本身的变化周期。第二,它可以依靠任何一种定量(甚至定性)反馈,不仅梯度信息,实现其自适应性。这些属性结合制造SDN电池候选解决方案优化问题的非凸,甚至可能nondifferentiable参数空间。基本的论文中描述的模拟演示SDN细胞的功能。一个可能的途径的调查的一部分,未来的工作将是考虑如何使用SDN细胞作为网络的一部分,进一步提高优化性能。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的FIEK程序(高等教育和产业合作中心Szechenyi什大学ginop - 2.3.4 15 - 2016 - 00003)。

引用

p . Baranyi a科撒波表示,g .撒来,“认知infocommunications (CogInfoCom)”认知Infocommunications (CogInfoCom),2015年,页1 - 219。
视图: 出版商的网站 | 谷歌学术搜索
答:科撒波表示,p . Baranyi螺旋发现方法:一个可翻译的调优模型CogInfoCom频道,“先进的计算智能和智能信息》杂志上,16卷,不。2、358 - 367年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
h .高木涉“交互式进化计算:融合电子商务功能的优化和人力评估,”IEEE学报》,卷89,不。9日,第1296 - 1275页,2001年。
视图: 出版商的网站 | 谷歌学术搜索
高木涉和h . h . Iba“前言交互式进化计算,”新一代计算,23卷,不。2、113 - 114年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
s . Shalev-Shwartz o·沙米尔,沙玛,深度学习的失败,2017年,arXiv预印本arXiv: 1703.07950。
y Nesterov,介绍凸优化专题:基础课程卷,87应用优化施普林格,阿姆斯特丹,荷兰,2004年。
视图: 出版商的网站 | MathSciNet
d . e . Rumelhart、g·e·辛顿和r . j·威廉姆斯,“学习误差传播内部表示,”加州大学圣地亚哥拉霍亚本月认知科学,1985年。
视图: 谷歌学术搜索
n .钱”动量梯度下降学习算法,”神经网络,12卷,不。1,第151 - 145页,1999。
视图: 出版商的网站 | 谷歌学术搜索
Sutskever, j . Martens g·达尔,g .辛顿”在初始化和动量在深度学习的重要性,”学报》第30届国际会议在机器学习,ICML 2013美国,页2176 - 2184年,2013年6月。
视图: 谷歌学术搜索
j . Duchi大肠领唱者,y歌手,“次梯度自适应在线学习和随机优化方法,”机器学习研究期刊》的研究(JMLR)》12卷,第2159 - 2121页,2011年。
视图: 谷歌学术搜索 | MathSciNet
d . Kingma和j .英航亚当:一个随机优化方法,2014年,arXiv预印本arXiv: 1412.6980。
约飞和c . Szegedy“批量标准化:加速深层网络训练通过减少内部协变量转变,”美国第32机器学习(ICML 15)国际会议上2015年7月,页448 - 456。
视图: 谷歌学术搜索
a . Neelakantan l . Vilnis问:诉Le et al .,增加梯度噪声改善学习很深的网络,2015年,arXiv预印本arXiv: 1511.06807。
p . Baranyi“TP LMI-based控制器设计模型转换为方法,”IEEE工业电子产品,51卷,不。2、387 - 400年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
p . Baranyi y山药,p . Varlaki张量积模型转换的多面体模型控制,CRC出版社,2013年。
p . BaranyiTP-Model Transformation-Based-Control设计框架,激飞国际出版,2016年。
视图: 出版商的网站
l . de Lathauwer b . de沼泽和j·范德维尔“多重线性奇异值分解。”暹罗《矩阵分析和应用程序,21卷,不。4、1253 - 1278年,2000页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
m . Ishteva l . De Lathauwer中国。Absil, s . Van Huffel“高阶张量的降维:算法和应用,“国际纯粹和应用数学杂志》上,42卷,不。3、337 - 343年,2008页。
视图: 谷歌学术搜索 | MathSciNet
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
n . Kalchbrenner i Danihelka a坟墓,网格长短期记忆,2015年,arXiv预印本arXiv: 1507.01526。
j·肯尼迪,“粒子群优化”机器学习的百科全书激飞美国,页760 - 766年,波士顿,MA,美国,2011。
视图: 出版商的网站 | 谷歌学术搜索
r波里,j·肯尼迪,t·布莱克威尔”粒子群优化”,群体智慧,1卷,不。1,33-57,2007页。
视图: 出版商的网站 | 谷歌学术搜索
l·戴维斯手册的遗传算法,1991年。
m .创和r .遗传算法与工程优化约翰•威利& Sons 2000。
j . h .荷兰,复杂性:很短的介绍,牛津大学出版社,2014年。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

866年

下载

857年

引用