文摘

一个典型的现代优化技术通常是启发式或metaheuristic。这种技术已经设法解决一些优化问题在科学研究领域,工程和工业。然而,实现策略的metaheuristic精度改善卷积神经网络(CNN),一个著名的深度学习的方法,还很少研究。深度学习与一种机器学习技术,其目标是靠近我们的目标创造一个人工智能的机器,可以成功地执行任何知识的任务,可以由一个人来完成。在本文中,我们提出三种流行metaheuristic方法的实现策略,即模拟退火,微分进化,与和谐搜索,优化CNN。这些metaheuristic方法的性能优化CNN MNIST分类和CIFAR数据集进行评估和比较。此外,该方法也与原来的CNN。尽管拟议的方法计算时间的增加,其准确性也得到了改进(高达7.14%)。

1。介绍

深度学习(DL)主要是出于人工智能的研究,总体目标是模仿人类大脑的能力观察、分析、学习,和做决定,特别是对于复杂的问题1]。这种技术是在十字路口信号处理的研究领域,神经网络图形建模、优化和模式识别。当前DL的声誉是隐式地将大大提高芯片处理能力,显著减少计算硬件的成本,和先进的机器学习研究和信号处理2]。

一般来说,DL的模型技术可以分为歧视,生殖和混合模型(2]。有识别力的模型,例如,CNN,深层神经网络和递归神经网络。的一些例子生成网络模型是很深的信仰(DBN),限制玻耳兹曼机、正规化autoencoders,深玻耳兹曼机。另一方面,混合模式指的是深架构使用的组合歧视和生成模型。这个模型的一个例子是DBN pretrain深CNN,这可以提高性能的深CNN在随机初始化。在所有的混合DL技术,metaheuristic优化培训CNN是本文的重点。

尽管DL的声音特征来解决各种学习任务,训练是很困难的(3- - - - - -5]。一些成功的方法训练的例子DL随机梯度下降法,共轭梯度,Hessian-free优化和维子空间后裔。

随机梯度下降法很容易实现,而且也快的过程有许多训练样本。然而,这种方法需要一些手工调优方案使其参数最优,以及其过程主要是连续的;因此,很难用图形处理单元(GPU)并行化。共轭梯度,另一方面,更容易检查收敛性以及更稳定的训练。然而,CG是缓慢的,所以它需要大量的公羊的多个cpu和可用性(6]。

Hessian-free优化应用于火车深autoencoders [7),精通underfitting处理问题,和更有效的比pretraining +辛顿提出的微调和Salakhutdinov [8]。另一方面,维子空间下降比Hessian-free更健壮和简单优化以及看起来更好的分类性能和优化速度。然而,维子空间比Hessian-free血统需要更多的内存优化(9]。

事实上,现代技术优化启发式或metaheuristic。这些优化技术已经被应用于解决任何优化问题在科学研究领域,工程,甚至行业(10]。然而,研究metaheuristic优化DL方法很少进行。工作是结合遗传算法(GA)和CNN,你和聚氨酯(提出的11]。他们的模型选择CNN特点的流程重组和变异的遗传算法,在CNN的模型作为单独存在于遗传算法的算法。除此之外,在重组过程中,只有层权重和阈值的C1(第一层)卷积和C3(第三层)卷积在CNN模型改变。另一个工作是微调CNN使用和谐搜索(HS)罗莎et al。12]。

在本文中,我们比较三个metaheuristic算法的性能,即模拟退火(SA),差分进化(DE),和HS优化CNN。采用的策略是寻找最好的适应度函数值在最后一层使用metaheuristic算法;然后再将使用结果来计算重量和偏见在前面的层。测试的性能提出的方法,我们使用MNIST(混合国家标准与技术研究所的)数据集。这个数据集包含数字手写数字图像,包含60000训练数据项和10000测试数据项。所有的图片都集中和标准化28×28像素的大小。图像中的每一个像素都是由0 255黑色和白色,和在不同深浅的灰色13]。

本文的组织结构如下:部分1是一个介绍,部分2解释了metaheuristic算法,使用部分3描述卷积神经网络,部分4给提出的描述方法,部分5介绍了仿真的结果,部分6是结论。

2。Metaheuristic算法

Metaheuristic众所周知作为努力优化问题的有效方法,即优化使用确定性方法不能解决的问题,在合理的时间限制。Metaheuristic方法三个主要目的:快速解决的问题,为解决大问题,做一个更健壮的算法。这些方法也简单设计以及灵活和容易实现14]。

一般来说,metaheuristic算法使用的组合规则和随机复制大自然的现象。metaheuristic算法的生物系统模仿,例如,进化策略,遗传算法,和德。现象的动物行为学的例子是粒子群优化(PSO),蜜蜂殖民地优化(BCO),细菌觅食优化算法(BFOA)和蚁群优化(ACO)。物理现象是SA、microcanonical退火和阈值接受方法(15]。另一种形式的metaheuristic灵感来源于音乐现象,如HS算法(16]。

metaheuristic分类算法也可以分为single-solution-based和基于metaheuristic算法。的一些例子single-solution-based metaheuristic喧哗方法、禁忌搜索、SA,助教,指导本地搜索。在metaheuristic基于人口的情况下,它可以分为群智能和进化计算。群智能的通用术语是受社会性昆虫或动物殖民地社会的集体行为。遗传算法,这些算法的例子有GP,和德。另一方面,进化计算的算法设计灵感来源于达尔文的原则为发展中适应环境。这些算法PSO的一些例子,BCO ACO, BFOA [15]。在所有这些metaheuristic算法中,SA DE,海关使用。

2.1。模拟退火算法

SA是一个随机搜索技术的全局优化问题。它在材料加工(模拟退火的过程10]。这种技术是在1983年首先提出Kirkpatrick et al。17]。

SA的原则思想是使用随机搜索,它不仅允许变化,改进适应度函数但还保持一些变化,并不理想。作为一个例子,在最小优化问题,任何更好的变化,降低适应度函数值 将被接受,但一些变化,增加呢 也将接受转移概率( )如下: 在哪里 能级的变化, 玻尔兹曼常数, 是温度控制退火的过程。这个方程是基于玻耳兹曼分布在物理10]。下面是标准程序SA的优化问题:(1)生成解决方案向量:随机选择初始解向量,然后计算适应度函数。(2)初始化温度:如果温度价值太高了,它将需要很长时间才能达到收敛,而过小的值会导致系统失去全局最优。(3)选择一个新的解决方案:一个新的解决方案是随机选择的社区当前的解决方案。(4)评估一个新的解决方案:一个新的解决方案被接受作为一种新的当前解决方案根据其适应度函数。(5)降低温度:定期在搜索过程中,温度降低了。(6)停止或重复:计算停止时终止标准是满足。否则,步骤 是重复的。

2.2。微分进化算法

微分进化于1995年首先提出的价格和Storn解决切比雪夫多项式问题[15]。该算法创建基于个体差异,利用随机搜索空间的解决方案,最后运行过程的突变,交叉,选择获取合适的个人系统[18]。

在德有些类型,包括古典形式德兰德/ 1 / bin /;这表明,突变的过程中目标向量是随机选择的,和只有一个不同的向量。本显示交叉过程的首字母缩写是由规则的二项决定。DE算法的过程是通过以下步骤:(1)确定参数设置:人口规模是个体的数量。变异系数( )控制放大的两个个体差异以避免搜索停滞。交叉率(CR)决定多少个基因变异向量复制到后代。(2)初始化的人口:人口是由随机生成向量在合适的搜索范围。(3)个人评价:每个评估通过计算目标函数。(4)变异操作:突变增加了相同的变量与一个或多个向量参数。在这个操作,三个辅助的父母 随机选择,他们将参与变异操作来创建一个突变的个体 如下: 在哪里 (5)结合操作应用:重组(交叉)突变后操作。(6)选择操作:这个操作决定下一代的后代应该成为一个成员的人口。(7)停止准则:当前新一代一代取代,直到终止的标准是满足。

2.3。和声搜索算法

和声搜索算法Geem等人(2001年19]。这个算法是受音乐搜索的过程一个完美和谐的状态。喜欢和谐的音乐,解向量优化和即兴演奏的音乐家类似于结构的局部和全局搜索优化技术。

即兴创作的音乐,球员声音任何音节在可能的范围内,可以创建一个向量的和谐。在球的情况下创建一个真正的和谐,这种经验是存储在记忆的每一个球员,他们下次有机会创造更好的和谐(16]。有三种可能的选择当一个音调是简易的音乐家:任何一个球场是她/他的记忆,附近的球场是她/他的记忆,和一个完全随机的音高是玩的范围可能的声音。如果这些选项用于优化,他们有三个等价组件:和谐内存的使用,调整,和随机化。在HS算法,这些规则是与两个相关参数有关,也就是说,和谐考虑率(HMCR)和音高调整率(PAR)。HS算法的过程可以概括为五个步骤如下(16]:(1)初始化和参数的问题:在这种算法中,可以最大或最小优化问题,及相关参数HMCR, PAR和谐内存的大小,和终止准则。(2)初始化内存和谐:和谐内存(HM)通常是创建初始化为一个矩阵随机向量的解决方案和基于目标函数的安排。(3)提高一个新的和谐:一个向量的新和谐是由基于HMCR HM, PAR,随机化。新值是基于HMCR参数的选择范围从0到1。新和谐是观察到的向量决定是否应该pitch-adjusted使用标准参数。音高调整后才执行的过程从HM选择一个值。(4)更新和谐记忆:新和谐替代品最和谐的适应度函数的值,在适应度函数的新的和谐比坏的和谐。(5)重复(3)和(4),直到满足终止条件:在满足终止准则的情况下,计算结束。另外,过程(3)和(4)重申。最后,向量的最佳HM提名和反映问题的最佳解决方案。

3所示。卷积神经网络

CNN是一个变种的标准多层感知器(MLP)。大量利用这种方法,特别是对于模式识别与传统的方法相比,由于其能力在降低数据的维数,提取特征顺序,分类一个网络结构(20.]。CNN在1962年被启发的基本体系结构模型,从视觉皮层休博尔和威塞尔提出的。

1980年,福岛Neocognitron创造了第一个计算这个模型,然后在1989年,福岛的想法后,勒存等人发现了最先进的模式识别的性能在许多任务使用误差梯度法(21]。

勒存的古典CNN等人是传统的延伸MLP基于三个理念:当地接受字段,权重分享,和空间/时间二次抽样。这些想法可以分成两种类型的层,卷积层和二次抽样层。作为显示在图1卷积处理层包含三层C1, C3, C5,结合之间的两个二次抽样层S2和S4 F6和输出层。这些卷积和二次抽样层结构为平面,称为特征地图。

在卷积层,每个神经元与本地小输入区域(本地接受域)在前面的层。神经元具有类似特征图谱获取所有数据从不同的输入区域,直到整个飞机掠过,但同样的权重是共享的(权重分享)。

在二次抽样层,的功能空间downsampled地图,地图的大小减少了2倍。作为一个例子,功能映射层C3的大小 子样品符合功能大小的地图吗 在随后的S4层。最后一层是分类的过程(F621]。

总之,卷积层是地图相关的一些特性,内核的大小,连接到上一层。每个特性映射的卷积的结果和前一层的地图,通过相应的内核和一个线性滤波器。添加一个偏差项并将它应用到一个非线性函数, th特性图 与重量 和偏见 获得使用 函数如下:

一层二次抽样的目的是达到空间不变性降低特征图的分辨率,在每个池特性关系映射到一个功能的地图前层。二次抽样函数, 是输入, 是一种可训练的标量, 是可教育的偏见,是由以下方程:

经过几个隆起和二次抽样,最后的结构分类层。这一层是一个输入的一系列完全连接层,将执行分类任务。它有一个输出神经元每个类标签,在MNIST数据集的情况下,这一层包含十个神经元对应的类。

4所示。提出的设计方法

这个方法的体系结构是指一个简单的CNN结构(LeNet-5),不是一个复杂的结构像AlexNet22]。我们使用两个不同的设计结构。首先是i-6c-2s-12c-2s, C1的数量是6和C3是12。二是i-8c-2s-16c-2s, C1的数量是8和C3是18。所有的内核大小卷积层 ,二次抽样的规模是2。这个架构是专为识别手写的数字从MNIST数据集。

在这种方法,SA、德和HS算法用于训练CNN (CNNSA CNNDE, CNNHS)找到最好的状态估计精度并减少错误和网络复杂性的指示器。这个目标可以实现通过计算的损失函数向量解决方案或训练集上的标准错误。下面是本文中使用的损失函数: 在哪里 是预期的输出, 是实际产出, 是一些训练样本。的终止准则,在这个方法中使用两种情况。第一个是当最大迭代已经达到,第二是当损失函数小于某一常数。两种情况下意味着已经达到最优的状态。

4.1。CNNSA设计方法

总之,算法在CNN计算重量和偏见的价值观,在这最后一层用来计算损失函数。这些值的重量和偏见在最后一层用作解向量,表示 在SA算法优化,通过添加 随机。

该方法的重要方面。选择适当的价值将大大提高精度。例如,在CNNSA时代,如果 兰德,精度为88.12,这个值是5.73大于原来的CNN (82.39)。然而,如果 兰德,其精度是85.79和它的值只有3.40大于原来的CNN。

此外,该解决方案基于SA向量更新算法。满足终止条件时,重量和偏见都是系统中更新所有层。算法1该方法的CNNSA算法。

结果:准确性、时间
初始化和设置:i-6c-2s-12c-2s;
计算过程:重量( )、偏见( ),损失函数 ;
解决方案向量( ): 在最后一层;
终止标准是不满意
的数量
, ;
如果 然后
;
其他的
转移概率( );
结束
结束
降低温度: ;
更新 对所有层;
结束
4.2。CNNDE设计方法

在第一次,该方法计算的所有值重量和偏见。重量和偏见的值在最后一层( )是用来计算损失函数,然后通过添加 随机,这些新值是用来初始化个体的人口。

类似于CNNSA方法,选择适当的 将大大增加价值的准确性。在一个时代CNNDE作为一个例子,如果 兰德,精度为86.30,这个值是3.91大于原来的CNN (82.39)。然而,如果 兰德,其准确性是85.51。

此外,这些人在人群中基于DE算法的更新。满足终止条件时,重量和偏见都是系统中更新所有层。算法2该方法的CNNDE算法。

结果:准确性、时间
初始化和设置:i-6c-2s-12c-2s;
计算过程:重量( )、偏见( ),损失函数 ;
个人 人口: 在最后一层;
终止标准是不满意
每一个个体 人口
选择辅助父母 ;
创建后代 利用突变和重组;
最好的 ;
结束
;
更新 对所有层;
结束
4.3。CNNHS设计方法

在第一次像CNNSA CNNDE,该方法计算的所有值重量和偏见。重量和偏见的值在最后一层( )是用来计算损失函数,然后通过添加 随机,这些新值是用来初始化和声记忆。

在这种方法中, 也是一个重要方面,而选择适当的呢 将大大增加价值的准确性。例如一个时代在CNNHS (i-8c-2s-16c-2s),如果 兰德,精度为87.23,这个值是7.14大于原来的CNN (80.09)。然而,如果 兰德,其精度是80.23;只有0.14的值大于CNN。

此外,这个和谐的记忆是基于HS算法更新。满足终止条件时,重量和偏见都是系统中更新所有层。算法3该方法的CNNHS算法。

结果:准确性、时间
初始化和设置:i-6c-2s-12c-2s;
计算过程:重量( )、偏见( ),损失函数 ;
和谐的记忆 : 在最后一层;
终止标准是不满意
数量的搜索
如果兰德< HMCR然后
嗯;
其他的
如果兰德<不相上下然后
其他的
结束
结束
结束
结束

5。仿真和结果

本文的主要目标是提高原始CNN的准确性通过使用SA,德,HS算法。这可以通过最小化分类任务执行错误MNIST数据集上测试过。的一些例子图像MNIST数据集在图所示2

在CNNSA实验中,社区成立的大小= 10和最大迭代(麦克斯特)= 10。在CNNDE,人口规模= 10和麦克斯特= 10。在CNNHS,和谐内存大小= 10和麦克斯特= 10。因为它是难以确定的控制参数,在所有的实验值 对于SA, 德,HMCR = 0.8和HS PAR = 0.3。我们还设置CNN的参数,即学习速率( )和批量大小(100)。

至于时代参数,时代的数量是1到10每实验。MATLAB-R2011a实现的实验,与英特尔酷睿i7处理器的个人电脑- 4500 u, 8 GB RAM内存,运行Windows 10,有5个独立的运行时。这个模拟的原始程序DeepLearn工具箱从棕榈23]。

提出的方法的实验结果都与实验结果相比从原始CNN。这些结果为i-6c-2s-12c-2s总结在表的设计1准确性,表2计算时间和数字3对误差及其标准偏差以及图4计算时间和它的标准差。结果i-8c-2s-16c-2s总结在表的设计3准确性,表4计算时间和数字5对误差及其标准偏差以及图6计算时间和它的标准差。

CNN最初的实验只进行了一次对每个时代因为其准确性的价值不会改变如果实验重复相同的条件。一般而言,实验表明时代价值越高,准确性就越好。例如,在一个时代,而CNN(82.39),精度提高到5.73 CNNSA (88.12), 3.91 CNNDE(86.30),和4.84 CNNHS (87.23)。在5世纪,CNN(93.11)相比,精度的提高是3.18 CNNSA (96.29), 2.04 CNNDE(94.15),和1.78 CNNHS (94.89)。在100年的时代,如图7相比,精度的增加为CNNSA CNN(98.65)只有0.16 (98.81),0.13 CNNDE(98.78),和0.09 CNNHS (98.74)。

实验结果表明,CNNSA礼物最好的所有时代的准确性。CNNSA精度提高,相比原来的CNN,每个时代不同,大量的值介于1.74(9世纪)和5.73(1期)。该方法的计算时间,而原始的CNN,在1.01倍的范围(CNNSA,两个时代:246/244)1.70倍(CNNHS、九世:1246/856)。

此外,我们还与CIFAR10测试方法(加拿大先进的研究所)数据集。60000年的这个数据集由彩色图像,每个图像的大小 。有五个批次的培训,由50000图片,和一批测试图像包含10000张图片。CIFAR10数据集分为十类,每个类都有6000张图片。这个数据集的一些示例图像显示在图8

CIFAR10数据集的实验是在MATLAB-R2014a进行的。我们使用的数量时代对这次试验1 - 15。原计划是MatConvNet从[24]。在这篇文章中,程序修改了SA算法。结果图中可以看到9为目标,图10(错误,和图11五大错误,表5CNN的比较和CNNSA火车以及表6CNN和CNNSA比较验证。总的来说,这些结果表明,CNNSA作品比原始CNN CIFAR10数据集。

6。结论

本文表明,SA、德和HS算法提高CNN的准确性。虽然有计算时间的增加,该方法的误差小于原来的CNN对所有时代的变化。

可以验证此方法的性能等其他基准数据集ORL、法国好莱坞二世,ImageNet。这种策略也可以为其他metaheuristic算法如算法,开发算法,BCO优化CNN。

在未来的研究中,metaheuristic算法应用于其他DL方法需要探索,如递归神经网络,深信念网络,AlexNet (CNN)的新变种。

相互竞争的利益

作者宣称没有利益冲突。

确认

这项工作是由高等教育卓越中心的科研补助金由印尼的研究、技术和高等教育(合同编号。1068 / UN2.R12 / HKP.05.00/2016)。