2。量化选择效率
进化优化的最终目标是最大化一些客观测量的性能在一个给定的任务。这里我衡量进展优化的性能水平的人口(在进化计算应用程序中,最终的兴趣可能是最高的性能水平人口的候选解决方案,而不是意思。然而,数学理论只是用于量化总体均值的变化通过选择而不是人口最大的变化。作为一个实际问题,最大化意味着性能也将最大化的最佳性能,其他所有条件都相同)。提高性能的目标冲突部分子公司的目标:维护候选解决方案或“个人”的不同人口需要彻底探索搜索空间和找到最好的解决方案。冲突是因为驱动改善平均的不平等的繁殖性能也降低人口的多样性。下一代的基因池不平等的贡献不同的个体总是减少多样性除了负频率相关选择的特殊情况(增加多样性)。如果选择frequency-independent,不平等的繁殖减少多样性,生殖个体之间的方差成正比(见附录)。
虽然选择不能提高人口的平均表现在没有不平等的繁殖的下一代,反过来是不正确的。不平等的繁殖和产生多样性的损失不需要提高平均性能。繁殖与性能可以减少不相关的差异基因多样性(尽管遗传漂变)尽快可以有效的选择,但不增加意味着性能。因为性能之间的相关性和繁殖是选择有效的优化,我专注于这种相关性的强度量化健身功能的效率。
gydF4y2Ba除了选择、变异等遗传算子和重组也可以改变人口的平均性能(尽管在不可预知的方向)。这里我只注重选择的影响,或微分繁殖,因为这是进化优化过早收敛的来源。让每个人在人口(索引<我t一个lic>
我我t一个lic>)有一个测量性能水平<我t一个lic>
p<年代ub>我年代ub>
。选择前的平均人口的性能<我nline-formula>
p
̅
=
∑
p
我
/
N
,在那里<我t一个lic>
N我t一个lic>=人口规模。经过一代的选择,平均人口性能将父表演加权的平均每个父母给下一代的贡献:<我nline-formula>
p
¯
′
=
∑
p
我
w
我
/
∑
w
我
,在那里<我nline-formula>
w
我
=产生的后代的数量<我t一个lic>
我我t一个lic>的个人。(注意,这个假设完美的性能从父母遗传后代。)为了简化符号,方便更换绝对繁殖<我nline-formula>
w
我
相对繁殖,<我nline-formula>
w
̃
我
=
w
我
/
w
̅
,所以这意味着后代一代性能<我nline-formula>
p
¯
′
=
大街
(
p
我
w
̃
我
)
。平均表现的变化引起的一轮选择<我nline-formula>
Δ
p
̅
=
p
¯
′
- - - - - -
p
¯
,或
(1)
Δ
p
̅
=
大街
(
p
w
̃
)
- - - - - -
大街
(
p
)
。
作为一种选择的结果,在一代正是性能改进<我nline-formula>
Δ
p
̅
以上。我们可以重写(
1 )一个有用的形式通过使用两个身份:首先,<我nline-formula>
大街
(
p
w
̃
)
=
大街
(
p
)
·
大街
(
w
̃
)
+
浸
(
p
w
̃
)
协方差,其中“x”表示。其次,大街(<我nline-formula>
w
̃
)= 1的定义。这些替换的改善性能从父母的后代一代
(2)
Δ
p
̅
=
浸
(
p
,
w
̃
)
(见[
4 ])。突出影响因素优化率,用另一个身份是很有用的重写这个协方差作为一个产品的三个因素:
(3)
Δ
p
̅
=
σ
p
·
σ
w
̃
·
ρ
p
w
̃
,
在哪里<我nline-formula>
σ
是一个标准偏差在性能(个人<我nline-formula>
p
)或相对繁殖<我nline-formula>
(
w
̃
)
,<我nline-formula>
ρ
p
w
̃
是两者之间的线性相关系数
4 ]。
gydF4y2Ba方程(
3 )提供了洞察如何选择效率最大化,或性能改进的比率多样性的丧失。偏差在个别性能(<我nline-formula>
σ
p
给定人口)是固定的,但是<我nline-formula>
σ
w
̃
和<我nline-formula>
ρ
p
w
̃
取决于选择方法。偏差在繁殖(<我nline-formula>
σ
w
̃
)随选择的力量。增加<我nline-formula>
σ
w
̃
可以增加性能改善,但在快失去多样性的成本。线性相关性和繁殖性能<我nline-formula>
(
ρ
p
w
̃
)
对应选择的效率,在某种意义上,增加这一项增加的性能提升<我t一个lic>
没有我t一个lic>增加多样性损失和性能变化。当<我nline-formula>
ρ
p
w
̃
= 0,选择完全是效率低下:消耗变化并没有提高平均性能。语言的进化理论,称为“漂移”而不是“选择”。在另一个极端<我nline-formula>
ρ
p
w
̃
= 1,性能提升的比率减少方差最大化。因此丢失从人口变化的速度不仅仅是一个函数的选择强度(<我nline-formula>
σ
w
̃
),有时是假定,也选择效率(<我nline-formula>
ρ
p
w
̃
)。
年代ec>
3所示。资源效率低下的健身功能
完美的线性适应度函数(<我nline-formula>
ρ
p
w
̃
= 1)是一种理想的效率,没有意识到任何算法通常使用。所有标准健身功能偏离线性相关性通过确定性非线性随机非线性波动,或两者兼而有之。确定性非线性适应度函数的一个例子是阈值选择,繁殖是一个孤注一掷的阶跃函数的性能(图
1(一) )。任何这样的高度非线性的适应度函数一定会有一个线性相关性低于1。健身功能没有任何确定性非线性称为“fitness-proportionate选择”,因为预计繁殖性能成正比(
1 ]。然而,这些函数引入波动的随机非线性转换将实际的繁殖,所以预计繁殖性能完美的线性相关性,但实际没有再生产。这是很难避免,因为不像预期的后代,后代的实际数量是整数约束,所以必须改变随机期望值。例如,常用“随机通用抽样”算法(
5 是这样工作的:一个预期的再生产<我t一个lic>
ω我t一个lic>划分一个小数部分(<我nline-formula>
ω
%
1
)和(出现整数部分<我nline-formula>
ω
- - - - - -
(
ω
%
1
)
),<我nline-formula>
%
模运算符。整数的算法产生的后代,再加上一个额外的后代分数的概率(<我nline-formula>
ω
%
1
)。尽管缺乏确定性的非线性性能和实际数量的后代之间的相关性小于1,因为随机波动(例如,图
1 (b) ,在那里<我nline-formula>
ω
=
1
为每个单独的,但是<我nline-formula>
w
随机变化)。我将把这个算法称为“随机比例的选择”(SPS)。
三个健身功能使用同一组100个模拟个体与性能值来自正态分布意味着= 10和标准偏差= 1。(a) (b)随机阈值选择适当的选择(SPS), (c)确定适当的选择(使用(
8 ))。每个标记都代表一个人。
(一)
(b)
(c)
实际繁殖的随机波动较大的其他实现fitness-proportionate选择、抽样(如“轮盘赌”
2 ]。还有一些算法,如锦标赛选择(
1 ),包括确定性和随机非线性的来源。这两个人的选择比较随机,而选择其中的两个繁殖取决于他们的相对性能等级,这是一个确定性的非线性函数的性能。确定性和随机非线性健身功能降低繁殖性能和实际之间的相关性,从而减少选择效率。
gydF4y2Ba检查效率选择多样性的影响,我使用一个100人口的个人组成的数值模拟(候选解决方案)与性能值来自正态分布意味着= 10和标准偏差= 1。我对比了单轮选择使用阈值选择的影响(图
1(一) ),随机比例的选择(SPS)(图
1 (b) ),并确定适当的选择(DPS) ((
8 ),图
1 (c) )。数值模拟允许部分后代,但如何实现确定性比例的选择问题与个人的整数是延迟的部分
6 在下面。调整阈值的适应度函数给相同的性能改进其他两个函数,我只能繁殖表现最好的76%的人口。确定性比例选择生成更少的方差比其他两个繁殖,但繁殖更多的是高度相关的性能(图
2 )。这两个差异导致同等性能增加后代一代所有三个健身功能(图
3 )。因此,确定适当的选择功能消耗更少的性能变化而产生相同的性能改进。我下了DPS是否还保存更多的基因型多样性而产生相同的性能改进。
图2
这三个因素相比性能改进/(1轮选择跨三个健身功能使用数值模拟:阈值选择,随机比例的选择(SPS),和确定适当的选择(DPS)。每个样本包括100个模拟个体与性能值来自正态分布意味着= 100,SD = 1。标记显示方式,和酒吧<我nline-formula>
±
标准误差超过100个样本。(注意,误差太小,不足以超越标记符号。)
图3
同样的三个健身功能如图
2 一代变化意味着生产的性能相比,人口和多样性。酒吧显示标准错误。(注意,误差太小超越标记符号)。
量化多样性,我使用了Shannon-Weiner从进化生物学多样性指数,相当于熵基因型的人口:
(4)
H
=
- - - - - -
∑
g
f
g
罗
g
2
f
g
,
在哪里<我nline-formula>
g
索引中的基因型人口和<我t一个lic>
f<年代ub>g年代ub>
人口基因型的频率<我t一个lic>
g我t一个lic>。熵最大化时,每个人都是独一无二的,最小化当所有人共享相同的基因型。简化计算,我认为每个人的人口是独一无二的选择之前,但违反这一假设不会改变结果定性。选择减少多样性多方面的不确定性下比例函数比随机比例或阈值函数,同时提高性能以同样的速度(图
3 )。
年代ec>
4所示。是低效的选择是否有用?
我的优势主要集中在线性健身功能保护遗传多样性。然而,确定性非线性和随机效应都有一些潜在的优势。这些证明的使用非线性健身功能尽管低效率?
gydF4y2Ba允许更强的选择(更高的确定性非线性健身功能<我nline-formula>
σ
w
̃
)比线性函数。在最极端的情况下,生殖只有最高的个人(s)性能增加平均表现<我nline-formula>
Δ
p
̅
=
p
马克斯
- - - - - -
p
̅
。更普遍的是,更大的一代改进可能与线性与非线性的健身功能。然而,这种短期快速改善所需付出的成本变化长期的改善。在每一代遗传变异可能会被重新创建,但这是需要大量的计算,减少低效hill-climbers进化搜索算法。出于这个原因,确定性非线性健身功能在大多数应用程序中不太可能有帮助。
gydF4y2Ba随机健身功能提供一个不同的潜在的优势,帮助人口逃离当地的性能峰值。稍微有害突变可以持续或随机选择下铺,使人口跨越低档次健身山谷需要多个突变。随机效应也使人口漂移在不同基因型与平等的表现。这可能会促进“中立网络”的探索基因型空间,导致更高的性能峰值的发现(
6 ]。然而,随机对繁殖的影响也有缺点。他们可以从全球推开人群以及当地的山峰。在一些算法,它们也可能减缓更高性能的峰值的发现通过允许有益的新的突变丢失。它仍然是一个悬而未决的问题的频率随机健身功能改善进化优化,和特性转化是可取的。探讨这些问题,这将有助于算法的随机效应可直接由实验者控制而不是使用的特定算法的副产品。这很容易通过添加一个确定性线性适应度函数的随机项。这种方法的额外优势,随机效应可以减少任何所需的大小不会导致计算成本。相比之下,本质上随机算法需要非常大的人口规模驱动随机影响的低水平。
年代ec>
5。快速和有效的健身功能
适应度函数如何被设计来最大化性能提升的速度,同时优化效率呢?效率定义为线性相关性<我nline-formula>
ρ
p
w
̃
是最大化当繁殖是一个线性函数的性能。方便代表这样的健身功能在标准线性形式:
(5)
w
我
=
一个
(
p
我
+
b
)
,
在哪里<我nline-formula>
p
我
和<我nline-formula>
w
我
分别的个人表现和繁殖,<我t一个lic>
一个我t一个lic>和<我t一个lic>
b我t一个lic>系统参数。与离散的一代,它通常是可取的跨代人口规模保持稳定,这限制了每个个体的平均数量的后代<我nline-formula>
(
w
̅
)
为1。这都限制了的价值<我nline-formula>
一个
来
(6)
一个
=
1
大街
(
p
我
+
b
)
=
1
p
̅
+
b
。
用(
6 )(
5 )给了我们一个线性适应度函数产生一个稳定的人口规模:
(7)
w
我
=
(
p
我
+
b
)
(
p
̅
+
b
)
。
的值是多少<我t一个lic>
b我t一个lic>最大化性能改善的速度吗?回想一下(
3 ),平均性能的改进一代选择是一个产品的三个量:<我nline-formula>
σ
p
,<我nline-formula>
ρ
p
w
̃
,<我nline-formula>
σ
w
̃
。第一个是固定财产的人口。第二个已经最大化1下线性健身功能。这使得只在个别生殖方差<我nline-formula>
σ
w
̃
是最大化,以最大限度地提高性能<我nline-formula>
Δ
p
。当<我nline-formula>
w
我
是一个线性的函数<我nline-formula>
p
我
,其方差<我nline-formula>
σ
w
通过最大化最大化适应度函数的斜率,定义在(
5 ),<我nline-formula>
一个
。方程(
6 )表明,<我nline-formula>
一个
增加<我t一个lic>
b我t一个lic>方法<我nline-formula>
- - - - - -
p
̅
,所以<我nline-formula>
b
应该尽可能接近<我nline-formula>
- - - - - -
p
̅
最大化的提高。然而,有一个约束,个人繁殖(<我nline-formula>
w
我
)不能是负数,这意味着<我nline-formula>
b
≥
- - - - - -
p
我
对所有<我nline-formula>
我
(
5 )。如果人群中最糟糕的表现来标示<我nline-formula>
p
最小值
,然后尽可能低的值<我nline-formula>
b
是<我nline-formula>
- - - - - -
p
最小值
,从而导致个人(s)最低的性能已经完全零的后代。用这个值代替<我nline-formula>
b
到(
7 )收益率稳定线性适应度函数的性能提升的最大速率:
(8)
w
我
=
(
p
我
- - - - - -
p
最小值
)
(
p
̅
- - - - - -
p
最小值
)
。
6。一个Variable-Generation算法高效的选择
如果一个确定性线性适应度函数的理论理想,如何在实践中实现吗?正如上面所讨论的,效率低下的常用的健身功能部分来自轻易可避免的非线性的来源。然而,所有标准算法也含有非线性引起的性能是一个连续变量,而后代是离散的。随机将实数的后代将整个实际数量的后代减少了实际性能和繁殖之间的线性相关性。
gydF4y2Ba我们可以克服这个问题,认识到选择基因型单位时间通过他们的繁殖率。不同的数量的后代,而不是一个可以独立改变一代时间为每个单独的(
7 ]。这需要一个算法将世代交叠和连续的时间。个体繁殖率可以不断变化而不是离散,并且可以完全与个人绩效相关联。
gydF4y2Ba要实现这个想法,个体繁殖被当作一个增长率,通过类比与人口增长率。人口增长率告诉我们多大的人口将会在一个给定的时间:
(9)
年代
t
=
年代
0
w
t
,
在哪里<我nline-formula>
年代
0
是初始人口规模,<我nline-formula>
年代
t
后人口规模<我nline-formula>
t
时间单位,<我nline-formula>
w
增长速度。重新安排(
9 )告诉我们多长时间给定的人口规模变化的因素<我nline-formula>
年代
t
/
年代
0
在一个给定的增长率<我nline-formula>
w
:
(10)
t
=
ln
(
年代
t
/
年代
0
)
ln
(
w
)
。
我们当前的问题涉及个人而不是数量,但我们可以使用相同的推理要求多长时间一个人死亡(相当于收缩大小为零)或复制(相当于两倍大小)作为其个人成长率的函数<我nline-formula>
w
我
。因为人离散,我们圆了个人“大小”到最近的整数。因此,对于<我nline-formula>
w
我
<
1
,我们可以问多长时间对个人低于初始大小的一半,鉴于其负增长率。在这一点上,个人的大小接近0比1,我们认识到这一点通过删除它的人口。类似地,如果一个人的增长率大于一,我们问需要多长时间的大小超过1.5。在这一点上它比一个更接近于两个人,并通过繁殖我们承认这增加一倍。(注意与舍入的后代数量随机fitness-proportionate算法下,舍入个人大小整数不是随机的,并不在适应度函数中引入随机非线性。因为等待时间不断变化,基因型的增长速度也不断变化的确定性线性函数性能)。
gydF4y2Ba为<我nline-formula>
w
<
1
等待时间,死亡是发现用0.5代替<我nline-formula>
年代
t
/
年代
0
在(
10 ),给
(11)
t
d
=
- - - - - -
0.693
ln
(
w
)
。
为<我nline-formula>
w
>
1
发现,等待时间繁殖用1.5<我nline-formula>
年代
t
/
年代
0
给:
(12)
t
r
=
0.405
ln
(
w
)
。
当一个个体的生殖率是评估其未来的死亡或繁殖定于未来的时间点在时间线被指定为一个实数。这些事件将在遥远的未来计划生殖率接近1时,在不久的将来,当它远离1(图
4 )。
图4
等待时间死(虚线)或繁殖(实线)作为个体生长速率的函数。(从(
11 )和(
12 )。)
在运行的开始,每个人的绩效评估和预计其繁殖或死亡。之后,反复循环的算法仅仅包括以下步骤:(<我nline-formula>
1
)执行第一个事件的时间表。(<我nline-formula>
2
)如果事件是一个出生,评估新个体的性能。(<我nline-formula>
3
重新计算所有等待时间平均性能,以反映新的和更新的时间表。在实践中,它可能是有用的重新计算等待时间少,以减少计算负荷。
gydF4y2Ba例如,每个人的等待时间可以计算在出生然后才重新计算它的预定事件是一些指定的时间范围内。
年代ec>
7所示。结论
在这些结果,真正线性健身功能,确定适当的选择的形式,减少人口的多样性和性能变化小于其他健身功能,提高性能相同数量在一个轮的选择。这强烈表明,历经几代之后,同样的性能改善的速度将会持续减少多样性的损失。因此,DPS应该产生更好的解决方案,特别是对于任务,过早收敛另有一个问题。上述variable-generation算法允许繁殖率实际性能成正比,提供一种方法来实现DPS。虽然随机健身功能,可能最终被证明有用的一些健身景观,本质上线性健身功能提供最好的基础设计他们,因为他们允许随机控制的方式添加。
gydF4y2Ba一个重要的警告是,这些结论是基于孤立地考虑单个轮选择。长期的选择也受到遗传算子产生变异,变异和重组等,他们的交互与选择。特别是,本文并没有解决的问题如何选择与重组上位基因座之间的交互(例如,(
8 ])。虽然我不知道任何原因的结论达到这里不会在长期进化的更广泛的上下文与重组;这还有待调查。
年代ec>
附录
这个附录的目的是量化的程度不平等繁殖减少人口的多样性。它将显示在选择frequency-independent,不平等的繁殖减少多样性生殖个体之间的方差成正比。我跟着节
3 以上量化多样性Shannon-Wiener多样性指数,相当于基因型的熵。
gydF4y2Ba在选择之前,方差替代基因型的频率
(.)
var
(
f
)
=
E
(
f
2
)
- - - - - -
E
(
f
)
2
,
经过一轮的选择
(a)
var
(
w
̃
f
)
=
E
(
w
̃
2
f
2
)
- - - - - -
E
(
w
̃
f
)
2
,
(var)和期望方差(<我nline-formula>
E
在基因型)操作,<我nline-formula>
f
每个基因型的频率,<我nline-formula>
w
̃
是每个基因型相对于人口的再生产的意思。如果选择是frequency-independent,那么<我nline-formula>
w
和<我nline-formula>
f
是独立的,所以,
a . )可以写成
(a)
var
(
w
̃
f
)
=
(
E
(
w
̃
2
)
·
E
(
f
2
)
]
- - - - - -
(
E
(
w
̃
)
2
·
E
(
f
)
2
)
。
因为<我nline-formula>
E
(
w
̃
)
= 1根据定义,(
a . )简化为
(各)
var
(
w
̃
f
)
=
E
(
w
̃
2
)
·
E
(
f
2
)
- - - - - -
E
(
f
)
2
。
让<我nline-formula>
Δ
var
(
f
)
表示变量的变化(<我nline-formula>
f
)引起的一轮选择。减去(
. 1 )(
各 )给
(本)
Δ
var
(
f
)
=
E
(
f
2
)
·
(
E
(
w
̃
2
)
- - - - - -
1
]
。
因为<我nline-formula>
E
(
w
̃
)
= 1,右边第二项,<我nline-formula>
E
(
w
̃
2
)
- - - - - -
1
=
E
(
w
̃
2
)
- - - - - -
(
E
(
w
̃
)
]
2
=
var
(
w
̃
)
。替换<我nline-formula>
var
(
w
̃
)
为<我nline-formula>
E
(
w
̃
2
)
- - - - - -
1
给了
(要求寄出)
Δ
var
(
f
)
=
E
(
f
2
)
·
var
(
w
̃
)
。
因此,减少基因型频率的方差方差成正比的繁殖。因此减少方差在繁殖也最大限度地减少损失的多样性(<我nline-formula>
H
)。
一个pp>一个pp-group>
确认
这项工作是支持的,在圣菲研究所进行。作者感谢h . Bagheri-Chaichian l . Pagie和c . Shalizi有益的讨论,和约翰。h .荷兰评论较早的一份草案,以及建议的想法variable-generation选择方法。
一个ck>
[
]1
米切尔年代urname>
M。
介绍了遗传算法我t一个lic>
1996年
英国剑桥
麻省理工学院出版社
[
]2
荷兰年代urname>
j . H。
适应在自然和人工系统我t一个lic>
1975年
美国密歇根州安娜堡
密歇根大学出版社
[
]3
弗兰克年代urname>
美国一个。
乔治价格对进化遗传学的贡献一个rt我cle-title>
理论生物学杂志》上我t一个lic>
1995年
175年
3我年代年代ue>
373年
388年
2 - s2.0 - 0029023813
10.1006 / jtbi.1995.0148
[
]4
价格年代urname>
g·R。
选择和协方差一个rt我cle-title>
自然我t一个lic>
1970年
227年
520年
521年
2 - s2.0 - 0029671437
10.1016 / s0303 - 2647 (02) 00134 - x
[
]5
贝克年代urname>
j·e·R。
Grefenstette年代urname>
J·J。
在选择算法减少偏见和低效一个rt我cle-title>
第二届国际会议对遗传算法及其应用我t一个lic>
1987年
山谷,新泽西,美国
Erlbaum同事
14
21
[
]6
丰塔纳年代urname>
W。
舒斯特尔年代urname>
P。
演化的连续性:在过渡的性质一个rt我cle-title>
科学我t一个lic>
1998年
280年
5368年我年代年代ue>
1451年
1455年
2 - s2.0 - 0030798341
10.1126 / science.280.5368.1451
[
]7
荷兰年代urname>
j . H。
积木、群体遗传算法和hyperplane-defined功能一个rt我cle-title>
进化计算我t一个lic>
2000年
8
4我年代年代ue>
373年
391年
2 - s2.0 - 0034543055
[
]8
胡椒年代urname>
j·W。
jpepper@santafe.edu
可发展性的进化遗传连锁模式一个rt我cle-title>
生物系统我t一个lic>
2003年
69年
115年
126年
2 - s2.0 - 0029671437
10.1016 / s0303 - 2647 (02) 00134 - x