研究文章|
阿南德•j . Kulkarni Tai
一个概率集体为约束优化方法与Feasibility-Based规则
Anand j . Kulkarni<年代up>1和年代p一个n><年代p一个ncl一个年代s="">英国大<一个cl一个年代年代=”年代c-htpNat bUhGXt link" href="mailto:" aria-label="Mail Option">
1年代up><年代p一个n>机械和航空航天工程学院50南洋大道,新加坡南洋理工大学年代p一个n>
文摘
本文演示了企图把一个简单的和通用的约束处理技术的概率集体(PC)方法求解约束优化问题。个人电脑优化任何复杂系统的方法将它分解为更小的子系统和进一步的分布式和分散的方式对待他们。多智能体系统,这些子系统可以被视为一种理性和自私的代理优化当地的目标。然而,由于没有固有的约束处理能力在个人电脑的方法,一个真正的挑战是同时考虑约束和使代理工作集体避免公地的悲剧来优化全球/系统目标。个人电脑优化的核心方法是确定性退火的概念在统计物理、博弈论和纳什均衡。此外,基于规则的程序合并处理解决方案基于约束违反的数量和驱动融合的可行性。两个特别发达的情况下,圆与已知的解决方案解决包装问题并得到真正的最优结果以合理的计算成本。该算法证明是足够强劲,和方法的优缺点进行了讨论。
<年代p一个ncl一个年代年代="end-abs">1。介绍
日益增长的复杂性和不确定性问题域动机的一些研究人员采取分布式和分散优化方法(<一个href="#B1">1一个>- - - - - -<一个href="#B5">5一个>]。这种方法可以将整个系统分解为较小的子系统为个体优化达到系统最优水平。这些子系统可以看作是一个集体,换句话说是一群学习代理或多重代理系统(MAS)。在分布式MAS,代理人的理性和自私的行为是非常重要的实现最好的本地目标/奖励/回报,但它不是琐碎让这样的代理工作集体实现最好的全球或系统目标。此外,在分布式MAS的背景下,“公地的悲剧”的概念也就变得很重要,需要特别注意。它指的是理性、自私自利的独立的个人情况耗尽贪婪的方式共享有限的资源,即使它很好理解,它可能不是有利于长远利益集体所有;也就是说,一个人可能会获得好处,但另一方面损失将所有[之间共享<一个href="#B6">6一个>]。在分布式MAS,如果每个理性和自利的经纪人试图贪婪的方式实现个人目标,这可能会造成系统性能不佳<一个href="#B7">7一个>]。另一方面,为了实现真正的全球最佳,而不是每一个人代理可以收到最好的可能。达到最好的系统目标分布式MAS,应该避免公地的悲剧。此外,与传统(集中式)优化方法类似,所涉及的问题越来越难当约束,从而约束处理仍然是一个需要解决的关键问题(<一个href="#B8">8一个>- - - - - -<一个href="#B10">10一个>]。
gydF4y2Ba一个新兴的人工智能工具的框架集体智慧(硬币)的建模和控制分布式MAS称为概率集体(PC)首次提出了大卫·沃伯特博士在1999年技术报告提交给美国国家航空航天局(<一个href="#B11">11一个>]。从sociophysics观点启发与博弈论联系紧密,统计物理,和优化<一个href="#B2">2一个>,
gydF4y2Ba这是证明(<一个href="#B16">29日一个>谢弗的功能优化,搜索过程在PC和GA相比更健壮的/可再生的。此外,电脑也在下降速度优于GA,被困在错误的最小值和长期优化多峰性测试和比较,非线性,薛佛nonseparability解决其他基准等问题的函数。函数Ackley路径功能,和Michalewicz上位性作用。的一些基本GA和PC之间的差异进行了讨论(<一个href="#B17">16一个>]。GA优化算法的核心是人口的解决方案。在每次迭代中,每个解决方案的人口是检测其健康问题(<一个href="#B17">16一个>),并相应地更新人口。GA情节迄今最佳曲线显示最好的个人健身的预设代。在电脑,另一方面,可能的解决方案的概率分布迭代更新。一个预定义的迭代次数后,可用的策略在变量的概率分布的空间是在个人电脑优化策划的一个相关的同伦函数。也直接包含不确定性由于不完美的抽样和随机独立代理人的行为(<一个href="#B17">16一个>]。上面的比较与GA表示,个人电脑可以应用于广泛的应用领域。
gydF4y2Ba分散的优越性PC架构在一个集中的一个是强调在<一个href="#B7">7一个>解决八皇后问题。这两种方法相互之间的差别,因为分布式样本生成和更新前的概率方法。另外,电脑与回溯算法相比也称为异步分布式优化(采用)<一个href="#B18">30.一个>]。虽然采用的算法是一种分布式的方法,通信和计算负载不均匀分布的代理商之一。也表明,尽管采用保证在每次运行找到解决方案,通信和计算需要使用电脑超过同样的问题解决了。
gydF4y2Ba电脑的方法成功应用解决复杂组合优化问题的飞机舰队任务最小化的目标的数量184航班129变量和约束。一个集中的方法应用到这个问题可能会增加通信和计算负载。此外,它可能会增加延迟系统中冲突不断增长的可能性和结果的时间表和连续性。使用PC,集体的目标是实现利用分布式的优点和分散的方法通过飞机选择他们自己的时间表取决于个人回报的可能的途径(<一个href="#B13">13一个>]。电脑也成功应用的方法解决组合优化问题,如联合优化路由和资源分配的无线网络(<一个href="#B19">17一个>- - - - - -<一个href="#B25">23一个>]。
gydF4y2Ba提出了两种不同的电脑的方法(<一个href="#B26">25一个>)避免飞机碰撞。在第一种方法,每一架飞机被认为是一个自治代理。这些代理选择自己的路径和避免碰撞与其他飞机在附近旅游。为了实现这种方法,一个复杂的谈判机制是飞机所需的沟通和合作。在semicentralized方法中,所有飞机都有机会成为一个主机飞机计算和分布式的解决方案所有其他飞机。提到主机飞机计算是很重要的解决方案的基础上,独立的解决方案由以前的共享主机的飞机。这个过程持续在一个序列,直到所有的飞机选择自己的路径。这两种方法都是有效解决飞机的一个有趣的飞机冲突问题是等距排列的外围一圈。个人的目标飞机被设置为相反的点圆的边缘设置圆的中心点作为一个点的冲突。在这两种方法中,防撞约束结合使用罚函数方法。
(原电脑的方法的一个变体<一个href="#B3">3一个>,
gydF4y2Ba抽样方法抽样空间更新方案以及相关的原始PC方法是本文的作者修改。修改电脑的方法被成功验证优化。函数(<一个href="#B5">5一个>]。也是申请解决np难组合的两个测试用例问题Multidepot多个旅行推销员问题(MDMTSP) [<一个href="#B1">1一个>)以及病例single-depot MTSP (SDMTSP) [<一个href="#B28">26一个>]。在解决MDMTSP SDMTSP,为了处理约束,一些启发式技术被成功注册。此外,限制个人电脑的方法使用罚函数方法成功地提出了解决三个测试问题[<一个href="#B29">27一个>]。
gydF4y2Ba电脑的潜力在机械设计了优化个人酒吧和段的截面十杆桁架的<一个href="#B14">14一个>)和一个分段梁(<一个href="#B4">4一个>),分别。十杆桁架问题[<一个href="#B14">14一个>)是解决离散约束问题而分段梁问题[<一个href="#B4">4一个>)是作为一个连续的无约束问题来解决。在[<一个href="#B14">14一个>),解决方案是可行的,但不如其他方法获得的(<一个href="#B30">31日一个>- - - - - -<一个href="#B32">33一个>]。电脑的方法<一个href="#B13">13一个>,
gydF4y2Ba上面的讨论表明,PC是通用的,适用于组合领域包括约束优化问题如舰队的任务(<一个href="#B13">13一个>],十杆桁架问题[<一个href="#B14">14一个>],米DMTSP [<一个href="#B1">1一个>],年代DMTSP [<一个href="#B28">26一个>),大学课程安排(<一个href="#B33">28一个>),等等。重要的是要注意,在<一个href="#B13">13一个>,
gydF4y2Ba本文演示了试图开发一个通用的PC的约束处理技术以使它更加通用的优化算法。feasibility-based规则最初提议的变化(<一个href="#B34">34一个>和进一步实现<一个href="#B35">35一个>- - - - - -<一个href="#B40">40一个>)采用圆包装问题的解决两种情况(CPP)。此外,类似于(<一个href="#B34">34一个>- - - - - -<一个href="#B40">40一个>),额外的技术实现,以避免过早收敛,摄动方法成立。此外,实现真正的最优解决方案使用PC CPP显然证明它能够避免公地的悲剧。
gydF4y2Ba本文的其余部分组织如下。部分<一个href="#sec2">2一个>讨论各种PC的突出特征法强调其能力比其他算法优化集体。约束PC方法的框架和详细的制定提出了部分<一个href="#sec3">3一个>。它包括制定同伦函数,使用feasibility-based规则约束处理技术,纳什均衡的概念。节<一个href="#sec4">4一个>的验证约束个人电脑的方法是解决两个测试用例所示的CPP。它还包括具体的启发式技术相关的问题。明显的特征、优点和一些限制的约束PC的方法讨论了部分<一个href="#sec5">5一个>。最后,结束语以及未来的发展方向提出了部分<一个href="#sec6">6一个>。Broyden-Fletcher-Goldfarb-Shanno(高炉煤气)计划减少在附录中提供了讨论的同伦函数结束的时候。
电脑的方法具有以下主要特征,使其比其他算法优化集体竞争选择。<年代p一个ncl一个年代年代=”l是t”>(1)年代p一个n><年代p一个ncl一个年代s="list-content">PC是一种分布式解决方案方法,每个代理独立更新其概率分布在任何时候可以应用实例和连续,离散,或混合变量,等等,<一个href="#B2">2一个>,
用电脑解决优化问题作为一个MAS,值得讨论它的一些特征比较的异同和可替换主体强化学习(泥灰岩)的方法。大多数泥灰岩等方法充分合作,完全竞争,和混合(不管是合作还是竞争)是基于博弈理论,优化和进化计算(<一个href="#B41">41一个>]。根据(<一个href="#B41">41一个>),大多数这些类型的方法具有更少的可伸缩性和对不完美的敏感观察。任何不确定或不完整的信息可能会导致意外的行为的代理。然而,完全的可伸缩性合作方法如coordination-free方法可以通过显式地使用增强的通信不确定性和/或技术(<一个href="#B41">41一个>- - - - - -<一个href="#B44">44一个>]。另一方面,电脑是可伸缩的,可以处理不确定性的概率。此外,随机选择策略通过任何代理都可以协调或与其他代理社会习俗的基础上,对通信,等等。这种社会方面使得PC合作方法。此外,间接coordination-based方法工作偏压的概念选择好策略的可能性。这个概念类似于一个用于本文提供的计算机算法,代理人选择策略集只有在附近的前一个迭代中所确定的最佳策略。混合泥灰岩的算法,代理没有限制在他们的回报。它类似于电脑算法的经纪人回应或选择策略和表现出自私的行为。然而,混合泥灰岩算法可能会遇到多个纳什均衡在电脑可以实现一个独特的纳什均衡。
3所示。概念框架约束的电脑
电脑将优化问题中的变量视为个人利己主义的迭代学习代理/游戏的玩家玩(<一个href="#B13">13一个>]。虽然在一些明确的方向,这些代理选择行为在一个特定的间隔和接收一些当地的奖励系统目标实现的基础上,因为这些行为。换句话说,这些代理优化当地奖励或报酬,也优化系统级性能。迭代过程和达到平衡(称为纳什均衡)当不可能进一步增加奖励个人代理进一步通过改变它的行为。此外,PC理论的方法是一种有效的抽样联合概率空间的方法,将问题转化为凸空间的概率分布。电脑分配概率值直接包含每个代理的举动,因此不确定性。这是基于先验知识的最近的行动或行为选择其他代理。简而言之,代理在PC框架需要的知识环境以及其他代理最近的行动或行为。
在每次迭代中,每个代理随机样本在其自己的战略以及在其他代理的策略集和计算相应的系统目标。其他代理的策略集是由每个代理根据他们最近的行动或行为,也就是说,基于局部知识。通过最小化系统目标的集合,每个代理识别可能的战略贡献最对的集合系统的极小化目标。这样的集合函数计算成本最小化,也可能导致局部最小值(<一个href="#B3">3一个>]。为了避免以上的困难,系统目标是畸形的集合到另一个拓扑空间形成了同伦函数参数化计算温度<年代vgheight="10.325" id="M1" style="vertical-align:-0.0pt;width:11.225px;" version="1.1" viewbox="0 0 11.225 10.325" width="11.225" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba在每一个迭代结束时,每个代理<年代vgheight="9.9250002" id="M2" style="vertical-align:-0.13794pt;width:4.9875002px;" version="1.1" viewbox="0 0 4.9875002 9.9250002" width="4.9875002" xmlns="http://www.w3.org/2000/svg">
除了上述之外,微扰方法也将避免过早收敛。它扰乱个人代理的有利战略制定基于互惠和相关的预定义的时间间隔。解决方案是可行性的。通过这种方式,该算法通过选择样本附近继续直到收敛最近的优惠策略。社区空间减少或者扩大系统的改善目标预定义的迭代次数。
gydF4y2Ba在一些应用程序中,代理还需要提供interagent关系的知识。这是一个信息/策略集的其他资格代理应该知道。还有全球信息,每个代理都应该知道。这允许代理知道正确的其他代理的行动或行为模式。所有的决策都是被每个代理自动考虑可用的信息以优化当地的目标,从而达到最优或系统客观的全球目标。下一节详细讨论了约束的电脑程序。
考虑一个通用约束问题(最小化意义上)如下:<年代p一个ncl一个年代年代=”equation" id="EEq1">
根据(<一个href="#B8">8一个>- - - - - -<一个href="#B10">10一个>等式约束)<年代vgheight="17.0875" id="M4" style="vertical-align:-5.04861pt;width:40.012501px;" version="1.1" viewbox="0 0 40.012501 17.0875" width="40.012501" xmlns="http://www.w3.org/2000/svg">
因此,<年代vgheight="7.4499998" id="M7" style="vertical-align:-0.11285pt;width:12.2375px;" version="1.1" viewbox="0 0 12.2375 7.4499998" width="12.2375" xmlns="http://www.w3.org/2000/svg">
在电脑,问题的变量是计算代理/社交游戏的玩家扮演迭代(<一个href="#B3">3一个>,
gydF4y2Ba每个代理<年代vgheight="9.9250002" id="M16" style="vertical-align:-0.13794pt;width:4.9875002px;" version="1.1" viewbox="0 0 4.9875002 9.9250002" width="4.9875002" xmlns="http://www.w3.org/2000/svg">
每个代理都有相同数量的策略;也就是说,<年代vgheight="11.05" id="M22" style="vertical-align:-3.2316pt;width:256.11249px;" version="1.1" viewbox="0 0 256.11249 11.05" width="256.11249" xmlns="http://www.w3.org/2000/svg">