研究文章|gydF4y2Ba开放获取gydF4y2Ba
约翰·w·胡椒gydF4y2Ba,gydF4y2Ba ”gydF4y2Ba有效利用的变异进化优化gydF4y2Ba”,gydF4y2Ba应用计算智能和软计算gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2010年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba696345年gydF4y2Ba,gydF4y2Ba 7gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2010年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2010/696345gydF4y2Ba
有效利用的变异进化优化gydF4y2Ba
文摘gydF4y2Ba
进化算法面临着一个根本性的勘探和开发之间的权衡。快速提高性能往往是伴随着人口的迅速丧失多样性潜在解决方案,导致过早收敛在本地而不是全球最适条件。然而,从人口多样性丢失的速度不仅仅是一个函数的选择而且效率的力量,或性能改进率相对于变化的损失。选择效率可以量化的目标之间的线性相关和繁殖性能。常用的选择算法包含多个来源的低效率,其中一些很容易避免和其他人没有。选择算法基于连续不同世代时间而不是离散不同数量的后代可以在有效的使用方法的理论限制人口的多样性。gydF4y2Ba
1。介绍gydF4y2Ba
“过早收敛”,或多样性的丧失之前找到一个令人满意的解决方案,是一个持续的进化优化问题(gydF4y2Ba1gydF4y2Ba]。这反映了基本的勘探和开发之间的权衡,或者彻底性和速度之间进化搜索(gydF4y2Ba2gydF4y2Ba]。如果选择太弱,进步是缓慢的,很多代必须找到一个解决方案。另一方面,如果选择过于强劲,人口迅速失去了多样性和可能会滞留在当地健身高峰。提出了各种各样的技术来解决这个问题,但它通常是接近的gydF4y2Ba特别的gydF4y2Ba经验的基础上,和小理论已可用来指导选择算法的设计。gydF4y2Ba
而提高性能之间的平衡和保持多样性不可避免,它可以改善通过变异的有效利用。多样性的人口作为燃料的选择过程:选择需要采取行动,但本身就是消费的过程。然而,选择算法不仅速度不同,而且在“燃油效率”,或改善的速度相对于损失的变化。在下面几节中,我建立一个量化的方法效率的健身功能,这里定义的映射目标性能繁殖。(映射有时也被称为“选择方法”)。的方法是基于强大的形式主义进化生物学被称为“价格方程”,正越来越多地用于进化遗传学(gydF4y2Ba3gydF4y2Ba]。我下一个比较几种广泛使用的选择方法来表现其效率低下的来源,和说明的优点更有效的选择。我也考虑是否低效率的算法有任何抵消证明他们使用的优势。最后,我将讨论快速和有效的健身功能的设计,并提出一种新的算法,基于不同世代时间而不是数量的后代,那可以达到完美的遗传变异的使用效率。gydF4y2Ba
2。量化选择效率gydF4y2Ba
进化优化的最终目标是最大化一些客观测量的性能在一个给定的任务。这里我衡量进展优化的性能水平的人口(在进化计算应用程序中,最终的兴趣可能是最高的性能水平人口的候选解决方案,而不是意思。然而,数学理论只是用于量化总体均值的变化通过选择而不是人口最大的变化。作为一个实际问题,最大化意味着性能也将最大化的最佳性能,其他所有条件都相同)。提高性能的目标冲突部分子公司的目标:维护候选解决方案或“个人”的不同人口需要彻底探索搜索空间和找到最好的解决方案。冲突是因为驱动改善平均的不平等的繁殖性能也降低人口的多样性。下一代的基因池不平等的贡献不同的个体总是减少多样性除了负频率相关选择的特殊情况(增加多样性)。如果选择frequency-independent,不平等的繁殖减少多样性,生殖个体之间的方差成正比(见附录)。gydF4y2Ba
虽然选择不能提高人口的平均表现在没有不平等的繁殖的下一代,反过来是不正确的。不平等的繁殖和产生多样性的损失不需要提高平均性能。繁殖与性能可以减少不相关的差异基因多样性(尽管遗传漂变)尽快可以有效的选择,但不增加意味着性能。因为性能之间的相关性和繁殖是选择有效的优化,我专注于这种相关性的强度量化健身功能的效率。gydF4y2Ba
除了选择、变异等遗传算子和重组也可以改变人口的平均性能(尽管在不可预知的方向)。这里我只注重选择的影响,或微分繁殖,因为这是进化优化过早收敛的来源。让每个人在人口(索引gydF4y2Ba我gydF4y2Ba)有一个测量性能水平gydF4y2BapgydF4y2Ba我gydF4y2Ba。选择前的平均人口的性能gydF4y2Ba,在那里gydF4y2BaNgydF4y2Ba=人口规模。经过一代的选择,平均人口性能将父表演加权的平均每个父母给下一代的贡献:gydF4y2Ba,在那里gydF4y2Ba=产生的后代的数量gydF4y2Ba我gydF4y2Ba的个人。(注意,这个假设完美的性能从父母遗传后代。)为了简化符号,方便更换绝对繁殖gydF4y2Ba相对繁殖,gydF4y2Ba,所以这意味着后代一代性能gydF4y2Ba。平均表现的变化引起的一轮选择gydF4y2Ba,或gydF4y2Ba
作为一种选择的结果,在一代正是性能改进gydF4y2Ba以上。我们可以重写(gydF4y2Ba1gydF4y2Ba)一个有用的形式通过使用两个身份:首先,gydF4y2Ba协方差,其中“x”表示。其次,大街(gydF4y2Ba)= 1的定义。这些替换的改善性能从父母的后代一代gydF4y2Ba
(见[gydF4y2Ba4gydF4y2Ba])。突出影响因素优化率,用另一个身份是很有用的重写这个协方差作为一个产品的三个因素:gydF4y2Ba
在哪里gydF4y2Ba是一个标准偏差在性能(个人gydF4y2Ba)或相对繁殖gydF4y2Ba,gydF4y2Ba是两者之间的线性相关系数gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba
方程(gydF4y2Ba3gydF4y2Ba)提供了洞察如何选择效率最大化,或性能改进的比率多样性的丧失。偏差在个别性能(gydF4y2Ba给定人口)是固定的,但是gydF4y2Ba和gydF4y2Ba取决于选择方法。偏差在繁殖(gydF4y2Ba)随选择的力量。增加gydF4y2Ba可以增加性能改善,但在快失去多样性的成本。线性相关性和繁殖性能gydF4y2Ba对应选择的效率,在某种意义上,增加这一项增加的性能提升gydF4y2Ba没有gydF4y2Ba增加多样性损失和性能变化。当gydF4y2Ba= 0,选择完全是效率低下:消耗变化并没有提高平均性能。语言的进化理论,称为“漂移”而不是“选择”。在另一个极端gydF4y2Ba= 1,性能提升的比率减少方差最大化。因此丢失从人口变化的速度不仅仅是一个函数的选择强度(gydF4y2Ba),有时是假定,也选择效率(gydF4y2Ba)。gydF4y2Ba
3所示。资源效率低下的健身功能gydF4y2Ba
完美的线性适应度函数(gydF4y2Ba= 1)是一种理想的效率,没有意识到任何算法通常使用。所有标准健身功能偏离线性相关性通过确定性非线性随机非线性波动,或两者兼而有之。确定性非线性适应度函数的一个例子是阈值选择,繁殖是一个孤注一掷的阶跃函数的性能(图gydF4y2Ba1(一)gydF4y2Ba)。任何这样的高度非线性的适应度函数一定会有一个线性相关性低于1。健身功能没有任何确定性非线性称为“fitness-proportionate选择”,因为预计繁殖性能成正比(gydF4y2Ba1gydF4y2Ba]。然而,这些函数引入波动的随机非线性转换将实际的繁殖,所以预计繁殖性能完美的线性相关性,但实际没有再生产。这是很难避免,因为不像预期的后代,后代的实际数量是整数约束,所以必须改变随机期望值。例如,常用“随机通用抽样”算法(gydF4y2Ba5gydF4y2Ba是这样工作的:一个预期的再生产gydF4y2BaωgydF4y2Ba划分一个小数部分(gydF4y2Ba)和(出现整数部分gydF4y2Ba),gydF4y2Ba模运算符。整数的算法产生的后代,再加上一个额外的后代分数的概率(gydF4y2Ba)。尽管缺乏确定性的非线性性能和实际数量的后代之间的相关性小于1,因为随机波动(例如,图gydF4y2Ba1 (b)gydF4y2Ba,在那里gydF4y2Ba为每个单独的,但是gydF4y2Ba随机变化)。我将把这个算法称为“随机比例的选择”(SPS)。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
(c)gydF4y2Ba
实际繁殖的随机波动较大的其他实现fitness-proportionate选择、抽样(如“轮盘赌”gydF4y2Ba2gydF4y2Ba]。还有一些算法,如锦标赛选择(gydF4y2Ba1gydF4y2Ba),包括确定性和随机非线性的来源。这两个人的选择比较随机,而选择其中的两个繁殖取决于他们的相对性能等级,这是一个确定性的非线性函数的性能。确定性和随机非线性健身功能降低繁殖性能和实际之间的相关性,从而减少选择效率。gydF4y2Ba
检查效率选择多样性的影响,我使用一个100人口的个人组成的数值模拟(候选解决方案)与性能值来自正态分布意味着= 10和标准偏差= 1。我对比了单轮选择使用阈值选择的影响(图gydF4y2Ba1(一)gydF4y2Ba),随机比例的选择(SPS)(图gydF4y2Ba1 (b)gydF4y2Ba),并确定适当的选择(DPS) ((gydF4y2Ba8gydF4y2Ba),图gydF4y2Ba1 (c)gydF4y2Ba)。数值模拟允许部分后代,但如何实现确定性比例的选择问题与个人的整数是延迟的部分gydF4y2Ba6gydF4y2Ba在下面。调整阈值的适应度函数给相同的性能改进其他两个函数,我只能繁殖表现最好的76%的人口。确定性比例选择生成更少的方差比其他两个繁殖,但繁殖更多的是高度相关的性能(图gydF4y2Ba2gydF4y2Ba)。这两个差异导致同等性能增加后代一代所有三个健身功能(图gydF4y2Ba3gydF4y2Ba)。因此,确定适当的选择功能消耗更少的性能变化而产生相同的性能改进。我下了DPS是否还保存更多的基因型多样性而产生相同的性能改进。gydF4y2Ba
量化多样性,我使用了Shannon-Weiner从进化生物学多样性指数,相当于熵基因型的人口:gydF4y2Ba
在哪里gydF4y2Ba索引中的基因型人口和gydF4y2BafgydF4y2BaggydF4y2Ba人口基因型的频率gydF4y2BaggydF4y2Ba。熵最大化时,每个人都是独一无二的,最小化当所有人共享相同的基因型。简化计算,我认为每个人的人口是独一无二的选择之前,但违反这一假设不会改变结果定性。选择减少多样性多方面的不确定性下比例函数比随机比例或阈值函数,同时提高性能以同样的速度(图gydF4y2Ba3gydF4y2Ba)。gydF4y2Ba
4所示。是低效的选择是否有用?gydF4y2Ba
我的优势主要集中在线性健身功能保护遗传多样性。然而,确定性非线性和随机效应都有一些潜在的优势。这些证明的使用非线性健身功能尽管低效率?gydF4y2Ba
允许更强的选择(更高的确定性非线性健身功能gydF4y2Ba)比线性函数。在最极端的情况下,生殖只有最高的个人(s)性能增加平均表现gydF4y2Ba。更普遍的是,更大的一代改进可能与线性与非线性的健身功能。然而,这种短期快速改善所需付出的成本变化长期的改善。在每一代遗传变异可能会被重新创建,但这是需要大量的计算,减少低效hill-climbers进化搜索算法。出于这个原因,确定性非线性健身功能在大多数应用程序中不太可能有帮助。gydF4y2Ba
随机健身功能提供一个不同的潜在的优势,帮助人口逃离当地的性能峰值。稍微有害突变可以持续或随机选择下铺,使人口跨越低档次健身山谷需要多个突变。随机效应也使人口漂移在不同基因型与平等的表现。这可能会促进“中立网络”的探索基因型空间,导致更高的性能峰值的发现(gydF4y2Ba6gydF4y2Ba]。然而,随机对繁殖的影响也有缺点。他们可以从全球推开人群以及当地的山峰。在一些算法,它们也可能减缓更高性能的峰值的发现通过允许有益的新的突变丢失。它仍然是一个悬而未决的问题的频率随机健身功能改善进化优化,和特性转化是可取的。探讨这些问题,这将有助于算法的随机效应可直接由实验者控制而不是使用的特定算法的副产品。这很容易通过添加一个确定性线性适应度函数的随机项。这种方法的额外优势,随机效应可以减少任何所需的大小不会导致计算成本。相比之下,本质上随机算法需要非常大的人口规模驱动随机影响的低水平。gydF4y2Ba
5。快速和有效的健身功能gydF4y2Ba
适应度函数如何被设计来最大化性能提升的速度,同时优化效率呢?效率定义为线性相关性gydF4y2Ba是最大化当繁殖是一个线性函数的性能。方便代表这样的健身功能在标准线性形式:gydF4y2Ba
在哪里gydF4y2Ba和gydF4y2Ba分别的个人表现和繁殖,gydF4y2Ba一个gydF4y2Ba和gydF4y2BabgydF4y2Ba系统参数。与离散的一代,它通常是可取的跨代人口规模保持稳定,这限制了每个个体的平均数量的后代gydF4y2Ba为1。这都限制了的价值gydF4y2Ba来gydF4y2Ba
用(gydF4y2Ba6gydF4y2Ba)(gydF4y2Ba5gydF4y2Ba)给了我们一个线性适应度函数产生一个稳定的人口规模:gydF4y2Ba
的值是多少gydF4y2BabgydF4y2Ba最大化性能改善的速度吗?回想一下(gydF4y2Ba3gydF4y2Ba),平均性能的改进一代选择是一个产品的三个量:gydF4y2Ba,gydF4y2Ba,gydF4y2Ba。第一个是固定财产的人口。第二个已经最大化1下线性健身功能。这使得只在个别生殖方差gydF4y2Ba是最大化,以最大限度地提高性能gydF4y2Ba。当gydF4y2Ba是一个线性的函数gydF4y2Ba,其方差gydF4y2Ba通过最大化最大化适应度函数的斜率,定义在(gydF4y2Ba5gydF4y2Ba),gydF4y2Ba。方程(gydF4y2Ba6gydF4y2Ba)表明,gydF4y2Ba增加gydF4y2BabgydF4y2Ba方法gydF4y2Ba,所以gydF4y2Ba应该尽可能接近gydF4y2Ba最大化的提高。然而,有一个约束,个人繁殖(gydF4y2Ba)不能是负数,这意味着gydF4y2Ba对所有gydF4y2Ba(gydF4y2Ba5gydF4y2Ba)。如果人群中最糟糕的表现来标示gydF4y2Ba,然后尽可能低的值gydF4y2Ba是gydF4y2Ba,从而导致个人(s)最低的性能已经完全零的后代。用这个值代替gydF4y2Ba到(gydF4y2Ba7gydF4y2Ba)收益率稳定线性适应度函数的性能提升的最大速率:gydF4y2Ba
6。一个Variable-Generation算法高效的选择gydF4y2Ba
如果一个确定性线性适应度函数的理论理想,如何在实践中实现吗?正如上面所讨论的,效率低下的常用的健身功能部分来自轻易可避免的非线性的来源。然而,所有标准算法也含有非线性引起的性能是一个连续变量,而后代是离散的。随机将实数的后代将整个实际数量的后代减少了实际性能和繁殖之间的线性相关性。gydF4y2Ba
我们可以克服这个问题,认识到选择基因型单位时间通过他们的繁殖率。不同的数量的后代,而不是一个可以独立改变一代时间为每个单独的(gydF4y2Ba7gydF4y2Ba]。这需要一个算法将世代交叠和连续的时间。个体繁殖率可以不断变化而不是离散,并且可以完全与个人绩效相关联。gydF4y2Ba
要实现这个想法,个体繁殖被当作一个增长率,通过类比与人口增长率。人口增长率告诉我们多大的人口将会在一个给定的时间:gydF4y2Ba
在哪里gydF4y2Ba是初始人口规模,gydF4y2Ba后人口规模gydF4y2Ba时间单位,gydF4y2Ba增长速度。重新安排(gydF4y2Ba9gydF4y2Ba)告诉我们多长时间给定的人口规模变化的因素gydF4y2Ba在一个给定的增长率gydF4y2Ba:gydF4y2Ba
我们当前的问题涉及个人而不是数量,但我们可以使用相同的推理要求多长时间一个人死亡(相当于收缩大小为零)或复制(相当于两倍大小)作为其个人成长率的函数gydF4y2Ba。因为人离散,我们圆了个人“大小”到最近的整数。因此,对于gydF4y2Ba,我们可以问多长时间对个人低于初始大小的一半,鉴于其负增长率。在这一点上,个人的大小接近0比1,我们认识到这一点通过删除它的人口。类似地,如果一个人的增长率大于一,我们问需要多长时间的大小超过1.5。在这一点上它比一个更接近于两个人,并通过繁殖我们承认这增加一倍。(注意与舍入的后代数量随机fitness-proportionate算法下,舍入个人大小整数不是随机的,并不在适应度函数中引入随机非线性。因为等待时间不断变化,基因型的增长速度也不断变化的确定性线性函数性能)。gydF4y2Ba
为gydF4y2Ba等待时间,死亡是发现用0.5代替gydF4y2Ba在(gydF4y2Ba10gydF4y2Ba),给gydF4y2Ba
为gydF4y2Ba发现,等待时间繁殖用1.5gydF4y2Ba给:gydF4y2Ba
当一个个体的生殖率是评估其未来的死亡或繁殖定于未来的时间点在时间线被指定为一个实数。这些事件将在遥远的未来计划生殖率接近1时,在不久的将来,当它远离1(图gydF4y2Ba4gydF4y2Ba)。gydF4y2Ba
在运行的开始,每个人的绩效评估和预计其繁殖或死亡。之后,反复循环的算法仅仅包括以下步骤:(gydF4y2Ba)执行第一个事件的时间表。(gydF4y2Ba)如果事件是一个出生,评估新个体的性能。(gydF4y2Ba重新计算所有等待时间平均性能,以反映新的和更新的时间表。在实践中,它可能是有用的重新计算等待时间少,以减少计算负荷。gydF4y2Ba
例如,每个人的等待时间可以计算在出生然后才重新计算它的预定事件是一些指定的时间范围内。gydF4y2Ba
7所示。结论gydF4y2Ba
在这些结果,真正线性健身功能,确定适当的选择的形式,减少人口的多样性和性能变化小于其他健身功能,提高性能相同数量在一个轮的选择。这强烈表明,历经几代之后,同样的性能改善的速度将会持续减少多样性的损失。因此,DPS应该产生更好的解决方案,特别是对于任务,过早收敛另有一个问题。上述variable-generation算法允许繁殖率实际性能成正比,提供一种方法来实现DPS。虽然随机健身功能,可能最终被证明有用的一些健身景观,本质上线性健身功能提供最好的基础设计他们,因为他们允许随机控制的方式添加。gydF4y2Ba
一个重要的警告是,这些结论是基于孤立地考虑单个轮选择。长期的选择也受到遗传算子产生变异,变异和重组等,他们的交互与选择。特别是,本文并没有解决的问题如何选择与重组上位基因座之间的交互(例如,(gydF4y2Ba8gydF4y2Ba])。虽然我不知道任何原因的结论达到这里不会在长期进化的更广泛的上下文与重组;这还有待调查。gydF4y2Ba
附录gydF4y2Ba
这个附录的目的是量化的程度不平等繁殖减少人口的多样性。它将显示在选择frequency-independent,不平等的繁殖减少多样性生殖个体之间的方差成正比。我跟着节gydF4y2Ba3gydF4y2Ba以上量化多样性Shannon-Wiener多样性指数,相当于基因型的熵。gydF4y2Ba
在选择之前,方差替代基因型的频率gydF4y2Ba
经过一轮的选择gydF4y2Ba
(var)和期望方差(gydF4y2Ba在基因型)操作,gydF4y2Ba每个基因型的频率,gydF4y2Ba是每个基因型相对于人口的再生产的意思。如果选择是frequency-independent,那么gydF4y2Ba和gydF4y2Ba是独立的,所以,gydF4y2Baa .gydF4y2Ba)可以写成gydF4y2Ba
因为gydF4y2Ba= 1根据定义,(gydF4y2Baa .gydF4y2Ba)简化为gydF4y2Ba
让gydF4y2Ba表示变量的变化(gydF4y2Ba)引起的一轮选择。减去(gydF4y2Ba. 1gydF4y2Ba)(gydF4y2Ba各gydF4y2Ba)给gydF4y2Ba
因为gydF4y2Ba= 1,右边第二项,gydF4y2Ba。替换gydF4y2Ba为gydF4y2Ba给了gydF4y2Ba
因此,减少基因型频率的方差方差成正比的繁殖。因此减少方差在繁殖也最大限度地减少损失的多样性(gydF4y2Ba)。gydF4y2Ba
确认gydF4y2Ba
这项工作是支持的,在圣菲研究所进行。作者感谢h . Bagheri-Chaichian l . Pagie和c . Shalizi有益的讨论,和约翰。h .荷兰评论较早的一份草案,以及建议的想法variable-generation选择方法。gydF4y2Ba
引用gydF4y2Ba
- m·米切尔gydF4y2Ba介绍了遗传算法gydF4y2Ba英国剑桥,麻省理工学院出版社,1996年。gydF4y2Ba
- j . h .荷兰,gydF4y2Ba适应在自然和人工系统gydF4y2Ba,密歇根大学出版社,安阿伯市,密歇根州,美国,1975年。gydF4y2Ba
- 答:弗兰克,“进化遗传学,乔治价格的贡献”gydF4y2Ba理论生物学杂志》上gydF4y2Ba,卷175,不。3、373 - 388年,1995页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- g . r .价格、选择和协方差,gydF4y2Ba自然gydF4y2Ba卷,227年,第521 - 520页,1970年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j·e·r·贝克”减少偏见和选择算法效率低下,”gydF4y2Ba第二届国际会议对遗传算法及其应用gydF4y2Baj·j·Grefenstette et al .,艾德,页14号至21号Erlbaum Associates山谷,新泽西,美国,1987年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- w·丰塔纳和p .舒斯特尔,”演化的连续性:在转换的本质,“gydF4y2Ba科学gydF4y2Ba,卷280,不。5368年,第1455 - 1451页,1998年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j . h .荷兰“积木、群体遗传算法和hyperplane-defined功能,“gydF4y2Ba进化计算gydF4y2Ba,8卷,不。4、373 - 391年,2000页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j . w .胡椒,“可进化性遗传连锁模式的演变”,gydF4y2Ba生物系统gydF4y2Ba卷,69年,第126 - 115页,2003年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
版权gydF4y2Ba
版权©2010年约翰·w·胡椒。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba