1。介绍
预计Multirobot系统完成任务不可行,费力、效率低下的一个代理来完成(
1 ]。用人multirobot系统需要解决各种问题的主题任务分配(
2 ,探索
3 [],协调
4 )、学习(
5 ),群体行为(
6 ,
7 ),和异质性
8 ]。在所有的这些问题,multirobot任务分配的问题(MRTA),这是一组的任务分配给个人机器人,是最深层的问题,在动态环境中大幅增加其复杂性。因为在动态任务是不知不觉地分布在一个环境问题,MRTA问题需要解决任务计划和multirobot探索视角。前被解决是hunter-and-gatherer方法在我们之前的工作
9 ,
10 )除以每个任务为两个连续的子任务,其中每个子任务只能由某种类型的代理。这部小说的方法提出了一个未知的MRTA问题的探索和协调互补的团队是这个工作的动机。
gydF4y2Ba根据提出的分类(
11 ],single-robot问题(ST)的任务,每个任务都需要努力的一个机器人完成,是最原始的MRTA病例。例如,在[工作
12 )地址MRTA协调一组自主车辆提出了两种基于拍卖的分布式算法和包的方法。然而,在实际问题中,有情况下,每个任务需要多个机器人要完成的工作。这种情况下分类学的称为multirobot (MT)任务问题,研究[
13 ,
14 ]。前者提出了一个分布式蜜蜂算法(DBA)和优化的DBA适用于分布式目标分配在成群的机器人。后者提出了一种新颖的加权协作图模型,然后介绍了学习算法提出了模型系统的学习软件代理之间的交往。在这两种情况下,瞬间被分配的任务。,我t我年代一个年代年代u米ed that the tasks are identifiable for robots before the mission. Nonetheless, in a dynamic environment, in which tasks are unknowingly distributed over the environment, instantaneous assignment (IA) is infeasible and instead time-extended assignment (TA) must be dragged in.
的助教,主要有两个范例作品解决动态问题,任务是不知不觉地分布在一个环境:(1)作品从勘探角度解决这个问题纯粹和(2)从MRTA解决这一问题的观点。关于第一个范例,作者的
15 ,
16 ]目前一个非常基本的frontier-based算法一个自主机器人和多机器人探索,分别。加强frontier-based探索算法的有效性,Zlot et al。
17 )进一步发展frontier-based勘探方法通过引入一个以市场为基础的方法来最大化信息增益发生同时最小化成本。利用信息增益的理论(
17 )打开地板,熵的概念融入multirobot探索算法。例如,巴塔查里亚等。
18 ,
19 )更关注信息理论,探索问题的地图熵最小化考虑机器人之间的沟通。与[
16 - - - - - -
19 ],考虑整个环境探索的目的,Lopez-Perez et al。
20. )提出了一个分布式multirobot系统算法探索附近区域减少穿越距离,而代理有效地使用资源来相互沟通。虽然[
16 - - - - - -
20. )应对未知的动态环境中通过引入不同性质multirobot勘探方法,他们都忽视MRTA解决方案整合到提出探索算法。
gydF4y2Ba作品落入第二范式进行环境组成的分布式任务,不知不觉地同时解决的MRTA方面问题。在这个问题上,Prorok et al。
21 )认为一个助教问题系统的异构机器人建模为一个社区的物种和发展集中和分散的方法来有效地控制机器人的异构群。在另一个工作,在
22 ),一种新颖的任务分配方法是开发基于基尼系数提高完成任务的数量考虑有限的能源资源。尽管Prorok等人,吴et al。
21 ,
22 )解决time-extended作业问题,探索环境探测未知任务解决方案尚未提供。尽管一些工作如(
23 ]试图调查任务分配算法的性能在frontier-based multirobot探索问题,大多数研究都忽略了集成multirobot探索动态MRTA ST-MR-TA等问题:SP或MT-MR-TA: SP (
24 ]。因此,最好的作者的知识,缺乏关键关注解决multirobot勘探和同时在助教任务分配问题,而这个问题是一个普遍的问题在各种各样的领域,如城市搜救(城市搜救)[
25 ),农业领域操作(
26 ),和安全巡逻
27 ]。
gydF4y2Ba除了上面两个范例了,觅食是另一个研究的趋势在解决multirobot任务分配问题
28 ]。虽然觅食问题分类学的落入了分类讨论的文献综述(
11 ,
24 ),这里我们简要比较了在这个范式与hunter-and-gatherer框架方法。作为一个整体,觅食更关心集体和群体行为的多重代理系统,从蚂蚁和蜜蜂蜂群优化算法(
29日 )可替换主体加固方法(
30. ]。集体行为的想法在觅食的研究强调需要相同的决策机制对所有代理和结果在决策依赖代理(
31日 ]。例如,它在理论上是具有挑战性的雇佣一个探索者剂具有独特的搜索算法在中央地方觅食算法(
32 )因为这个独家搜索行为影响的群体行为代理和扰乱系统的平衡由于决策代理人之间的依赖关系。通过对比,解决hunter-and-gatherer框架(
9 )提供一个通用平台动态可替换主体任务分配,更关注个人自主权,没有决策代理人之间的依赖关系。
gydF4y2Ba考虑城市搜救的灾区的受害者被困在未知位置,需要立即救援行动。每个受害者是一个任务,需要先发现,然后被救援行动,通常需要拯救了几个灵巧的动作。这种情况下是问题,multirobot勘探和任务分配方面同时需要解决。此外,救援机器人需要重型机械和灵巧的爪
33 ,
34 ),高功率驱动器、运动跟踪机制、高容量电池,和许多类型的传感器,摄像头,和通讯设备来完成这些任务,使得机器人相对较大,笨重,无法灵活的搜索操作。在这种情况下,“hunter-and-gatherer方法”毫无疑问是合理的,每一个任务由两个连续的子任务:检测和完成。已经说过,每个子任务只能由某种类型的代理,两个机器人工作小组:一个团队敏捷的机器人,可以迅速探索环境和检测任务,被称为“猎人”,和一个灵巧的机器人团队完成检测任务称为“采集者。“实际上,猎人可以一群小型无人机搜索网站找到受害者,和采集者可以一群maxi-sized [
35 )重型作出救援探测到受害者依赖他们的敏捷能力。
gydF4y2Ba本文出于上述问题解释说,这是分类学的称为ST-MR-TA: SP或MT-MR-TA: SP (
24 ),地址在未知环境中动态MRTA问题提出了一个集成multirobot任务分配和探索解决方案。根据hunter-and-gatherer方案,我们首先提出一个创新决策机制的基础上,小说预期获得的概念(如),衡量周围的信息密度的一个潜在的工作(任务/边界)。如测量已经集成到概念的确定性和不确定性的利润率水平的代理的信心和守恒性进行建模。这一创新决策机制的图形背景理论提出multirobot勘探和任务分配算法。除此之外,这项工作介绍了采集指定一个协调因素通过他们的行为完全从对环境高度协调的猎人的位置。通过大量的模拟,我们证明了提出算法的有效性优于基准的性能(工作
9 ]。此外,对仿真结果的统计分析表明,狩猎者和采集者之间缺乏有效的协调显著伤害总计划的有效性。最后,它是统计证明,整体工作负载分布同样为每个类型的代理,确保建议的解决方案不偏向一个代理,代理行为类似地在相似的特征。
gydF4y2Ba本文的其余部分组织如下:问题陈述提出了部分
2 。节
3 、方法和规划算法进行了讨论。仿真结果提出了部分
4 结论言论节紧随其后
5 。
年代ec><年代ec id="sec2">
2。问题陈述
在本节中,我们提出的问题制定动态MRTA hunter-and-gatherer方案的上下文中。假设有<我nline-formula>
米米米l:mi>
任务随机分布于环境,<我t一个lic>
E我t一个lic>。我们认为此案的数量和位置未知的前特工任务规划算法称为hunter-and-gatherer任务规划的执行(HGMP)。任务的设置来标示<我nline-formula>
T米米l:mi>
=米米l:mo>
T米米l:mi>
1米米l:mn>
,米米l:mo>
…米米l:mo>
,米米l:mo>
T米米l:mi>
米米米l:mi>
分为狩猎和采集每个任务的子任务,也就是说,<我nline-formula>
T米米l:mi>
k米米l:mi>
=米米l:mo>
t米米l:mi>
k米米l:mi>
h米米l:mi>
,米米l:mo>
t米米l:mi>
k米米l:mi>
g米米l:mi>
与<我nline-formula>
1米米l:mn>
≤米米l:mo>
k米米l:mi>
≤米米l:mo>
米米米l:mi>
,在那里<我nline-formula>
t米米l:mi>
k米米l:mi>
h米米l:mi>
和<我nline-formula>
t米米l:mi>
k米米l:mi>
g米米l:mi>
分别代表了狩猎和采集子任务。在这种情况下,代理的集合定义为<我nline-formula>
一个米米l:mi>
=米米l:mo>
一个米米l:mi>
h米米l:mi>
,米米l:mo>
一个米米l:mi>
g米米l:mi>
由两队的猎人<我nline-formula>
一个米米l:mi>
h米米l:mi>
=米米l:mo>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
和采集<我nline-formula>
一个米米l:mi>
g米米l:mi>
=米米l:mo>
一个米米l:mi>
j米米l:mi>
g米米l:mi>
,在那里<我nline-formula>
1米米l:mn>
≤米米l:mo>
我米米l:mi>
≤米米l:mo>
n米米l:mi>
h米米l:mi>
和<我nline-formula>
1米米l:mn>
≤米米l:mo>
j米米l:mi>
≤米米l:mo>
n米米l:mi>
g米米l:mi>
。相关的成本<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
的成就<我nline-formula>
t米米l:mi>
k米米l:mi>
h米米l:mi>
表示为<我nline-formula>
c米米l:mi>
k米米l:mi>
,米米l:mo>
我米米l:mi>
h米米l:mi>
和<我nline-formula>
c米米l:mi>
k米米l:mi>
,米米l:mo>
j米米l:mi>
g米米l:mi>
相关的成本吗<我nline-formula>
一个米米l:mi>
j米米l:mi>
g米米l:mi>
的成就<我nline-formula>
t米米l:mi>
k米米l:mi>
g米米l:mi>
。
gydF4y2Ba假设:在整个论文中,假设
(1)
任务是静止不动的,即,they一个re fixed to their locations.
(2)
每个任务的成本的成就是线性的距离成正比,一个代理移动任务。代理人被认为是完成一个任务时达到任务的位置。
(3)
同一团队的所有代理都是相同的。
(4)
所有代理都是理性的,即,they我ntend来马克斯我米我ze their expected utility.
(5)
所有代理都是全自动和有自己的效用函数,即:,没有全球效用函数存在。
(6)
代理从互补的团队可以互相交流使用一个稳定的网络连接。
(7)
每个网格地图的位置足够大同时举办多个代理。
(8)
代理自动避免碰撞而导航同时在一个特定的网格地图的位置。
现在,HGMP问题可以表示如下。假设存在一个元组等任务<我nline-formula>
HGMP米米l:mtext>
=米米l:mo>
E米米l:mi>
,米米l:mo>
α米米l:mi>
,米米l:mo>
T米米l:mi>
。<我nline-formula>
Π米米l:mi>
表示函数分配任务<我t一个lic>
米我t一个lic>任务<我nline-formula>
n米米l:mi>
=米米l:mo>
n米米l:mi>
h米米l:mi>
+米米l:mo>
n米米l:mi>
g米米l:mi>
代理,<我nline-formula>
Π米米l:mi>
:米米l:mo>
T米米l:mi>
↦米米l:mo>
一个米米l:mi>
。根据假设1 - 6,全球目标<我nline-formula>
Θ米米l:mi>
的集体成本降到最低<我nline-formula>
Π米米l:mi>
:
(1)米米l:mtext>
Θ米米l:mi>
=米米l:mo>
最小值米米l:mtext>
x米米l:mi>
k米米l:mi>
我米米l:mi>
,米米l:mo>
y米米l:mi>
k米米l:mi>
j米米l:mi>
ρ米米l:mi>
h米米l:mi>
∑米米l:mo>
我米米l:mi>
=米米l:mo>
1米米l:mn>
n米米l:mi>
h米米l:mi>
∑米米l:mo>
k米米l:mi>
=米米l:mo>
1米米l:mn>
米米米l:mi>
c米米l:mi>
k米米l:mi>
,米米l:mo>
我米米l:mi>
h米米l:mi>
x米米l:mi>
k米米l:mi>
我米米l:mi>
+米米l:mo>
ρ米米l:mi>
g米米l:mi>
∑米米l:mo>
j米米l:mi>
=米米l:mo>
1米米l:mn>
n米米l:mi>
g米米l:mi>
∑米米l:mo>
k米米l:mi>
=米米l:mo>
1米米l:mn>
米米米l:mi>
c米米l:mi>
k米米l:mi>
,米米l:mo>
j米米l:mi>
g米米l:mi>
y米米l:mi>
k米米l:mi>
j米米l:mi>
,米米l:mo>
在哪里<我nline-formula>
x米米l:mi>
k米米l:mi>
我米米l:mi>
和<我nline-formula>
y米米l:mi>
k米米l:mi>
j米米l:mi>
是二元决策变量<我nline-formula>
t米米l:mi>
k米米l:mi>
h米米l:mi>
和<我nline-formula>
t米米l:mi>
k米米l:mi>
g米米l:mi>
:
(2)米米l:mtext>
x米米l:mi>
k米米l:mi>
我米米l:mi>
∈米米l:mo>
1,0米米l:mn>
,米米l:mtext>
∀米米l:mo>
我米米l:mi>
,米米l:mo>
k米米l:mi>
,米米l:mo>
y米米l:mi>
k米米l:mi>
j米米l:mi>
∈米米l:mo>
1,0米米l:mn>
,米米l:mtext>
∀米米l:mo>
j米米l:mi>
,米米l:mo>
k米米l:mi>
。米米l:mo>
在(
1 ),加权参数<我nline-formula>
ρ米米l:mi>
h米米l:mi>
和<我nline-formula>
ρ米米l:mi>
g米米l:mi>
介绍了成本和相对集体互补的团队,因为每种类型的物理差异。
gydF4y2Ba这个问题有一个全球目标<我nline-formula>
Θ米米l:mi>
这可以通过确定二元决策变量优化。然而,找到最优解在multirobot路径规划和multirobot任务规划问题是np困难,作为证明(
36 - - - - - -
38 ),分别。话虽这么说,解决这些问题从代理的的观点是一个容许的方法找到相对更好的解决方案,即:局部最优解。因为代理是理性的,每个代理的目标是最大化自己的期望效用在分布式的方法。因此,本文的目的是设计一个分布式决策机制,允许代理自己的期望效用最大化而个人努力收敛于局部最优解从社会的角度来看。换句话说,二元决策变量<我nline-formula>
Θ米米l:mi>
需要由代理在探索和协调以分布式的方式。这种方法还需要研究该算法的hyperparameters证明局部最优解是通过调整这些参数对实际参数在每个场景的容许范围。
gydF4y2Ba除此之外,在提出问题的陈述,分配问题被认为是动态的多个原因。首先,任务是不知不觉地分布在环境。因此,代理没有任何先验信息的位置和需要探索的任务环境来识别它们。其次,基于问题的陈述,总有<我t一个lic>
米我t一个lic>任务环境,即。,when a task is accomplished by the agents, another task will be distributed randomly over the environment. Altogether, it is not feasible theoretically and practically to accomplish the planning right after the start of a mission. Instead, only dynamic planning algorithms can cope with the unknown and dynamic nature of the environment.
年代ec><年代ec id="sec3">
3所示。方法
3.1。概念框架
猎人被分配去探索未知的环境检测新任务。根据hunter-and-gatherer方案,检测任务只能由采集者的努力完成。因为我们的目标是开发规划算法在分布式的方式,应该有稳定连接代理从互补的团队之间的沟通。考虑到这一事实,猎人宣布任何最新发现的任务,以便采集者的位置可以决定实现他们。由于没有点对点通信和所有通信应该是广播,我们名字的通信平台的“在线板”通过采集通知新检测的位置。
gydF4y2Ba在本节中,我们制定两种类型的代理正确推理机制实现这项工作的全球目标中提到的部分
2 。我们首先说明概念的确定性和不确定性的利润率,推理机制的构建块的两种类型的代理。其次,我们提出一个multirobot探索算法猎人在一个分布式的方式通过引入的概念如纳入利润率的概念。随后,采集完成检测任务的方法是描述基于相同的理论框架。事实上,我们阐明相同的利润率和理论如如何推广开发multirobot任务规划和采集者的协调算法。
年代ec><年代ec id="sec3.2">
3.2。利润率的概念
利润率的想法背后的基本原理是将潜在的工作(任务/边界)的环境中盈利,weakly-profitable, nonprofitable类型。当工作是有利可图的,代理信心采取行动来完成它。另一方面,代理是保守对潜在工作weakly-profitable而忽略nonprofitable工作。所需的努力来完成工作,是决定的因素是盈利,weakly-profitable或nonprofitable。根据第二个假设,由代理人的努力完成工作对应的距离它旅行到这份工作。例如,采集者的努力使完成的工作是它传播的距离达到和完成任务。同样,一个猎人的努力使得完成行进的距离,它的工作就是探索到达边界的环境。
现在,我们定义了确定性和不确定性的利润率(CPM和芬欧蓝)更专门为这两种类型的代理对完成工作的成本。CPM是一个边缘的距离小于旅行<我nline-formula>
R米米l:mi>
c米米l:mi>
从代理的角度来看。芬欧蓝是一个边缘的旅行距离是不足<我nline-formula>
R米米l:mi>
u米米l:mi>
和更大的比<我nline-formula>
R米米l:mi>
c米米l:mi>
从代理的观点。图
1 显示了CPM公司芬欧汇川集团和概念上为两个同心圆的代理中心。在这个图中,工作1是包含在代理的CPM,所以它被认为是一个有利可图的工作,代理有信心完成它。此外,代理是保守的对完成工作2,因为它落在芬欧蓝和weakly-profitable工作。最后,工作3位于超出公司芬欧汇川集团代理的,所以这不是有利可图,代理会忽略它。
图1
CPM和其代理人:工作1和2在代理公司芬欧汇川集团的CPM和,分别。工作3超出代理的不确定性边界。
自代理两个类型的函数在一个环境中存在的障碍,我们解释CMP和人民运动联盟的代理功能的概念在一个占用网格地图(
39 ]。图
2 举例说明了一个占用网格地图与代理位于中心。在这个图中,利润率的概念已经应用于概率路线图(人口、难民和移民事务局)生成的代理的路径规划。换句话说,人物
2 解释了一个代理实际分类工作有利可图,弱有利可图,依赖于人口、难民和移民事务局和移植的地图。
图2
代理的前沿占用网格地图:(a)更新的地图从代理人的观点存在的障碍和检测领域,和(b)的分类根据公司芬欧汇川集团CPM的定义和边界。
(一)
(b)
(3)米米l:mtext>
ε米米l:mi>
c米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
=米米l:mo>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
d米米l:mi>
c米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
∑米米l:mo>
p米米l:mi>
=米米l:mo>
1米米l:mn>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
α米米l:mi>
p米米l:mi>
c米米l:mi>
。米米l:mo>
根据狩猎者和采集者计划,一个猎人代理依赖其利润率探索环境和采集者代理认为其利润率完成检测任务。关于公司芬欧汇川集团的定义和CPM和它可以应用于人口、难民和移民事务局,我们专注于开发这两种类型的推理机制hunter-and-gatherer代理在随后的部分。
年代ec><年代ec id="sec3.3">
3.3。推理机制:猎人
在本节中,我们的目标是开发一个基于利润的定义推理机制,猎人探索环境。在这方面,我们利用frontier-based探索概念开发CPM和UPM-based multirobot探索算法。frontier-based探索算法的基本思想是,浏览器代理选择一个边界点,然后走向选择的前沿探索未知区域迭代。虽然我们开发猎人的推理机制以分布式的方式,我们需要利用一个在线共享地图,地图上的某些信息和边界可为所有代理。因此,发展推理机制之前,我们定义一个代理商分享他们获得信息的平台。
gydF4y2Ba我们定义一个在线板包含集体获得的信息环境的地图。在每个任务的开始,所有的细胞都占用网格地图的标记为未知。而猎人探索地图,每个探索细胞可以标记为障碍(细胞的概率大于0.5占用网格地图),免费的,细胞或任务。此外,未知的细胞相邻的一个已知的细胞将被标记为一个边界单元。通过分析数据嵌入到在线板,每个猎人决定边界以分布式的方式选择和探索依赖其推理机制。推理机制分为两个步骤:(1)地图更新过程,即。,thehunter updates some additional information on each frontier cell collectively, and (2) the decision process, i.e., the process by which the hunter chooses a frontier cell to explore.
关于第一步,猎人代理将所有边界分为三类公司芬欧汇川集团根据CPM的定义和,如图
3 。然后,猎人在线董事会更新检测边界的位置和猎人代理表示,如果新领域属于其CPM或芬欧蓝。精心设计的,每个边界细胞保持两个因素被称为确定性和不确定性因素(CF和佛罗里达大学)。CF的边界表示的猎人的数量前沿细胞包含在他们的CPM。同样,佛罗里达大学前沿的细胞显示猎人边境细胞的数量在芬欧蓝。因此,猎人更新CF和佛罗里达大学的前沿在CPM和芬欧蓝。在每个迭代中,猎人地图更新过程,然后依靠CF和佛罗里达大学的前沿进行决策过程的信息。
图3
这图解释了CPM和芬欧蓝占用网格地图存在的障碍,在代理位于中心。在生成的人口、难民和移民事务局、灰色节点代表节点代理的利润之外,而绿色和红色节点代表节点在代理的CPM和芬欧蓝,分别。CPM和芬欧蓝已经计算了不同价值观的Rcand俄文:(a) RcŁ4曼俄文Ł10 m, (b) RcŁ8 m和俄文Ł16 m,和(c) RcŁ14曼俄文Ł25米
(一)
(b)
(c)
正如上面阐述的,我们需要开发一个决策过程,一个猎人决定选择哪个前沿探索依靠在线更新的信息。在这里,我们提出一个方法考虑了如可用某种前沿的探索和选择最大价值的前沿。这种方法有三个主要特点:(1)的计算方法是在一个分布式的方式开发,所以我们建议猎人代理实例的决策过程,(2)其他猎人的相对位置被认为是在决策过程(使用CFs和UFs)可以防止猎人冲向密切相似区域,和(3)所有邻居的CFs和UFs边界反映在为候选人前沿定义如保证之前的财产。事实上,社区的边界对应的CPM边界。
gydF4y2Ba作为地图更新的解释过程,猎人将所有边界分为3类关于其CPM和芬欧蓝。在这一步中,我们澄清如在代理的CPM边界是如何定义的。后来,我们将开发在猎人的芬欧蓝的如定义边界。不必提及,前沿超越猎人的芬欧蓝忽略由代理由于利润率的定义。
gydF4y2Ba假设有<我nline-formula>
λ米米l:mi>
c米米l:mi>
在猎人的CPM前沿<我nline-formula>
λ米米l:mi>
c米米l:mi>
≥米米l:mo>
1米米l:mn>
。然后,在其CPM组边界被定义为<我nline-formula>
F米米l:mi>
c米米l:mi>
=米米l:mo>
f米米l:mi>
z米米l:mi>
c米米l:mi>
,在那里<我nline-formula>
1米米l:mn>
≤米米l:mo>
z米米l:mi>
≤米米l:mo>
λ米米l:mi>
c米米l:mi>
。猎人,表示<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
需要计算的所有成员<我nline-formula>
F米米l:mi>
c米米l:mi>
然后选择一个前沿的最高价值。主要因素的影响如前沿是猎人和边界之间的距离<我nline-formula>
如米米l:mtext>
∝米米l:mo>
距离米米l:mtext>
−米米l:mo>
1米米l:mn>
。这个比例需要考虑其他条件完成的边境有一个更准确的定义。让<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
代表候选人前沿<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
旨在分析和计算它<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
需要知道如果它访问<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
,然后代理决定有多少其他领域中可用的CPM(社区),什么是集体CF的前沿。图
4(一) 展示了一个例子,一个猎人代理已经在在线分类所有可用前沿。最初,亨特选择<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
边界在所有候选人在猎人的CPM的前沿。此外,图
4 (b) 解释了猎人决定了前沿的CPM候选边界<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
。让<我nline-formula>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
表示的数量在CPM的前沿<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
。因此,预期的前沿对的集合<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
被定义为<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
c米米l:mi>
=米米l:mo>
f米米l:mi>
z米米l:mi>
,米米l:mo>
p米米l:mi>
c米米l:mi>
,在那里<我nline-formula>
1米米l:mn>
≤米米l:mo>
p米米l:mi>
≤米米l:mo>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
。接下来,<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
计算所有成员的集体CF<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
c米米l:mi>
。现在,<我nline-formula>
如米米l:mtext>
∝米米l:mo>
距离米米l:mtext>
−米米l:mo>
1米米l:mn>
完成通过添加的比例系数<我nline-formula>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
和集体CFs<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
c米米l:mi>
。我们只考虑CF的原因是候选边界本身是代理的CPM之内。组内的所有前沿的如代理的CPM来标示<我nline-formula>
ε米米l:mi>
c米米l:mi>
f米米l:mi>
=米米l:mo>
ε米米l:mi>
c米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
,在那里<我nline-formula>
1米米l:mn>
≤米米l:mo>
z米米l:mi>
≤米米l:mo>
λ米米l:mi>
c米米l:mi>
,<我nline-formula>
ε米米l:mi>
c米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
表示如候选人的边界,也就是说,<我nline-formula>
f米米l:mi>
z米米l:mi>
c米米l:mi>
。此外,CF的一员<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
c米米l:mi>
表示为<我nline-formula>
α米米l:mi>
p米米l:mi>
c米米l:mi>
。最后,<我nline-formula>
ε米米l:mi>
c米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
候选人边境内代理人的CPM定义如下:
图4
一个例子说明一个猎人的方式计算的数量和集体CF边界候选边界内的CPM: (a)分类的边界和选择候选人前沿,和(b)中可用的候选人前沿领域前沿的CMP是紫色的。换句话说,如果猎人访问候选人前沿,那么所有紫色的边界将访问在CPM(社区)。
(一)
(b)
简而言之,我们有<我nline-formula>
如米米l:mtext>
∝米米l:mo>
距离米米l:mtext>
−米米l:mo>
1米米l:mn>
为每一个边界。然后,<我nline-formula>
距离米米l:mtext>
−米米l:mo>
1米米l:mn>
乘以一个系数<我nline-formula>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
/米米l:mo>
∑米米l:mo>
p米米l:mi>
=米米l:mo>
1米米l:mn>
λ米米l:mi>
z米米l:mi>
c米米l:mi>
α米米l:mi>
p米米l:mi>
c米米l:mi>
其分子的前沿的总数在候选人前沿的社区和它的分母是集体CFs的前沿。换句话说,更高的价值的分子表明还有其他候选人前沿边界附近可访问的代理探索轻松地访问它。然而,分母反映了存在候选边界内的其他猎人的社区。
gydF4y2Ba总而言之,<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
计算<我nline-formula>
ε米米l:mi>
c米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
所有边界在CPM,然后选择一个前沿信息增益最大价值的预期,表示<我nline-formula>
f米米l:mi>
ζ米米l:mi>
c米米l:mi>
,这样
(4)米米l:mtext>
ζ米米l:mi>
f米米l:mi>
=米米l:mo>
argsmax米米l:mtext>
ε米米l:mi>
c米米l:mi>
f米米l:mi>
。米米l:mtext>
同样,例如可以为候选人前沿定义公司芬欧汇川集团在猎人的细微差别。在这种情况下,集体CFs和UFs都将被考虑为候选人定义如边境。解释,假设<我nline-formula>
λ米米l:mi>
u米米l:mi>
在猎人的芬欧蓝前沿<我nline-formula>
λ米米l:mi>
u米米l:mi>
≥米米l:mo>
1米米l:mn>
和<我nline-formula>
λ米米l:mi>
c米米l:mi>
=米米l:mo>
0米米l:mn>
。然后,前沿的集合在一个边境的芬欧蓝被定义为候选人<我nline-formula>
F米米l:mi>
u米米l:mi>
=米米l:mo>
f米米l:mi>
z米米l:mi>
u米米l:mi>
在哪里<我nline-formula>
1米米l:mn>
≤米米l:mo>
z米米l:mi>
≤米米l:mo>
λ米米l:mi>
u米米l:mi>
。<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
需要计算的所有成员<我nline-formula>
F米米l:mi>
u米米l:mi>
并选择一个边界值最高的。让<我nline-formula>
f米米l:mi>
z米米l:mi>
u米米l:mi>
表示的候选边界<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
旨在分析和计算它。猎人<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
需要知道访问<我nline-formula>
f米米l:mi>
z米米l:mi>
u米米l:mi>
内可用,那么有多少前沿CPM,和什么是集体CF和佛罗里达大学的前沿。让<我nline-formula>
λ米米l:mi>
z米米l:mi>
u米米l:mi>
表示的数量在CPM的前沿<我nline-formula>
f米米l:mi>
z米米l:mi>
u米米l:mi>
。因此,预期的前沿对的集合<我nline-formula>
f米米l:mi>
z米米l:mi>
u米米l:mi>
被定义为<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
u米米l:mi>
=米米l:mo>
f米米l:mi>
z米米l:mi>
,米米l:mo>
p米米l:mi>
u米米l:mi>
,在那里<我nline-formula>
1米米l:mn>
≤米米l:mo>
p米米l:mi>
≤米米l:mo>
λ米米l:mi>
z米米l:mi>
u米米l:mi>
。接下来,<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
计算的所有成员的集体CF和佛罗里达大学<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
u米米l:mi>
通过考虑在线。自<我nline-formula>
f米米l:mi>
z米米l:mi>
u米米l:mi>
坐落在芬欧蓝的<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
,那么它认为CF和佛罗里达大学计算EIG。组内的所有前沿的如代理的芬欧蓝来标示<我nline-formula>
ε米米l:mi>
u米米l:mi>
f米米l:mi>
=米米l:mo>
ε米米l:mi>
u米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
,在那里<我nline-formula>
1米米l:mn>
≤米米l:mo>
z米米l:mi>
≤米米l:mo>
λ米米l:mi>
u米米l:mi>
,<我nline-formula>
ε米米l:mi>
u米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
表示如候选人的前沿,也就是说,<我nline-formula>
f米米l:mi>
z米米l:mi>
u米米l:mi>
。此外,CF和佛罗里达大学的一员<我nline-formula>
f米米l:mi>
z米米l:mi>
∗米米l:mi>
u米米l:mi>
被表示为<我nline-formula>
α米米l:mi>
p米米l:mi>
u米米l:mi>
和<我nline-formula>
β米米l:mi>
p米米l:mi>
u米米l:mi>
,分别。最后,<我nline-formula>
ε米米l:mi>
u米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
对于一个候选人在公司芬欧汇川集团代理的定义为边界
(5)米米l:mtext>
ε米米l:mi>
u米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
=米米l:mo>
λ米米l:mi>
z米米l:mi>
u米米l:mi>
d米米l:mi>
u米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
∑米米l:mo>
p米米l:mi>
=米米l:mo>
1米米l:mn>
λ米米l:mi>
z米米l:mi>
u米米l:mi>
α米米l:mi>
p米米l:mi>
u米米l:mi>
+米米l:mo>
∑米米l:mo>
p米米l:mi>
=米米l:mo>
1米米l:mn>
λ米米l:mi>
z米米l:mi>
u米米l:mi>
β米米l:mi>
p米米l:mi>
u米米l:mi>
,米米l:mo>
在哪里<我nline-formula>
一个米米l:mi>
我米米l:mi>
h米米l:mi>
计算<我nline-formula>
ε米米l:mi>
u米米l:mi>
,米米l:mo>
z米米l:mi>
f米米l:mi>
所有公司芬欧汇川集团在其前沿领域,然后选择一个前沿的最大值,如表示<我nline-formula>
f米米l:mi>
ζ米米l:mi>
u米米l:mi>
,这样
(6)米米l:mtext>
ζ米米l:mi>
f米米l:mi>
=米米l:mo>
argsmax米米l:mtext>
ε米米l:mi>
u米米l:mi>
f米米l:mi>
。米米l:mtext>
上面的程序选择边界被认为是开发前沿选择功能。算法
1 说明了一个猎人的过程在其CPM公司芬欧汇川集团或选择一个前沿。在第3行,猎人使用利润的定义,也就是说,<我nline-formula>
R米米l:mi>
c米米l:mi>
和<我nline-formula>
R米米l:mi>
u米米l:mi>
,分类边界和更新的CF和佛罗里达大学在线板前沿。在5和9行,代理利用(
3 )和(
5 EGs)分别计算。此外,猎人使用(
4 )和(
6 )选择一个前沿的最高价值如在7和9行,分别。
<大胆>算法1:< /大胆>前沿选择功能。
1:
函数 ChooseFrontier (<我nline-formula>
R米米l:mi>
c米米l:mi>
,<我nline-formula>
R米米l:mi>
u米米l:mi>
在线板)
2:
为 所有检测到的前沿网络
做
3:<我nline-formula>
F米米l:mi>
=米米l:mo>
F米米l:mi>
c米米l:mi>
,米米l:mo>
F米米l:mi>
u米米l:mi>
←米米l:mo>
分类边界
4:
结束了
5:
如果
F米米l:mi>
c米米l:mi>
≠米米l:mo>
∅米米l:mo>
,然后
6:<我nline-formula>
ε米米l:mi>
c米米l:mi>
f米米l:mi>
←米米l:mo>
计算如设置
7:<我nline-formula>
f米米l:mi>
ζ米米l:mi>
c米米l:mi>
←米米l:mo>
选择最高的前沿
8:
返回
f米米l:mi>
ζ米米l:mi>
c米米l:mi>
9:
其他的如果
F米米l:mi>
c米米l:mi>
=米米l:mo>
∅米米l:mo>
和<我nline-formula>
F米米l:mi>
u米米l:mi>
≠米米l:mo>
∅米米l:mo>
,
然后
10:<我nline-formula>
ε米米l:mi>
u米米l:mi>
f米米l:mi>
←米米l:mo>
计算如设置
11:<我nline-formula>
f米米l:mi>
ζ米米l:mi>
u米米l:mi>
←米米l:mo>
选择最高的前沿
12:
返回
f米米l:mi>
ζ米米l:mi>
u米米l:mi>
13:
其他的
14:
返回
∅米米l:mo>
15:
如果
16:
结束函数
前沿选择函数解释算法
1 需要调用在猎人的主要算法。为此,算法
2 说明了一个猎人的主要决策过程的代理。在1号线,<我nline-formula>
τ米米l:mi>
马克斯米米l:mi>
表示的最大迭代数的主要过程是执行。在第2行,猎人检查知道其边界缓冲区为空来调用前沿选择功能。在第4行,代理更新在线董事会选定的前沿地位。事实上,自董事会网店所有代理的位置还有环境的边界地图,每个边界计算的CF和佛罗里达大学在一个集中的方式,是可用的。当选择前沿是位于代理的CPM,更新后,边境不选择其他代理。否则,代理仅更新的状态选择边境等待仍然允许其他代理,即。代理,所选的前沿是在他们的CPM,选择边界。换句话说,当选择的前沿是在公司芬欧汇川集团代理的,然后还有其他更紧密的代理选择前沿的机会。这是一个重新分配的过程,结果在改善迭代任务有关的动态环境。然而,当代理靠近选中的边境,边境成为包含在它的CPM,代理可以更新选中的前沿地位,不允许重新分配了。在第7行,代理检查条件,确保选定的边界是否仍然可用。 Obviously, when the agent selects a frontier within its CPM, then this condition is always true. When a frontier is selected and is still available, then the hunter iteratively moves towards the selected frontier. In line 9, relying on the sensor data, the hunter checks whether a new task is detected while moving towards the selected frontier. In line 16, the hunter updates the new detected frontiers on the online board according to the updated captured data, while moving towards the selected frontier. To clarify, when a selected frontier is within the agent’s CPM, then the agent is responsible for exploring the corresponding area of the selected frontier, which makes it impossible for other agents to select that frontier.
<大胆>算法2:< /大胆>一个猎人代理的迭代主循环。
1:
为
τ米米l:mi>
=米米l:mo>
1米米l:mn>
:米米l:mo>
τ米米l:mi>
马克斯米米l:mi>
,做
2:
如果
frontierBuffer米米l:mtext>
=米米l:mo>
∅米米l:mo>
,然后
3:frontierBuffer<我nline-formula>
←米米l:mo>
ChooseFrontier (<我nline-formula>
R米米l:mi>
c米米l:mi>
,<我nline-formula>
R米米l:mi>
u米米l:mi>
OB)
4:
如果
5:OB更新选中的前沿地位
6:
如果
frontierBuffer米米l:mtext>
≠米米l:mo>
∅米米l:mo>
,然后
7:
如果 选定的边界仍然是可用的,
然后
8:走向选择的边界
9:
如果 发现一个新任务,
然后
10:更新OB
11:
如果
12:
其他的
13:<我nline-formula>
frontierBuffer米米l:mtext>
←米米l:mo>
∅米米l:mo>
14:
如果
15:
如果
16:OB更新最新发现的前沿
17:
结束了