2。上下文传递问题gydF4y2B一个
定义上下文传递,在本节中,代理之间的知识转移问题是在相同的环境中做同样的任务,即使他们的政府行动空间是不同的。这是因为代理可以使用不同的传感器或执行器。也可能有一些代理使用相同的一组传感器虽然他们的感官信息的编码和表示是不同的。在实践领域,感觉信息的编码通常是冗余的,作为一个没有访问的最小表示状态。在这种情况下,一些药物可能有不同的状态空间和模型相同的环境。我们将讨论这个问题的mdp的概念。gydF4y2B一个
一个代理的MDP模型与环境的交互(gydF4y2B一个
7gydF4y2B一个 ]。我们限制讨论离散政府行动RL代理和制定问题的有限状态MDP同态的概念。在持续的政府行动代理人的情况下,这个问题比较复杂,不能模仿MDP同态。这将是一个具有挑战性的问题,并调用一个完全不同的方法,这是本文的范围。制定这个问题,首先,MDP及其元素的概念进行了综述和讨论。gydF4y2B一个
定义1。gydF4y2B一个
MDP是一个元组gydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
〉gydF4y2B一个
,在那里gydF4y2B一个
年代gydF4y2B一个
是所有国家的集合,gydF4y2B一个
一个gydF4y2B一个
是所有行动的集合,gydF4y2B一个
PgydF4y2B一个
:gydF4y2B一个
年代gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
×gydF4y2B一个
年代gydF4y2B一个
→gydF4y2B一个
(gydF4y2B一个
0 1gydF4y2B一个
]gydF4y2B一个
转移概率函数,gydF4y2B一个
rgydF4y2B一个
:gydF4y2B一个
年代gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
→gydF4y2B一个
RgydF4y2B一个
是奖励函数。gydF4y2B一个
在每个时间步长,gydF4y2B一个
tgydF4y2B一个
代理的感官环境的状态,gydF4y2B一个
年代gydF4y2B一个
tgydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
执行一个动作,gydF4y2B一个
一个gydF4y2B一个
tgydF4y2B一个
∈gydF4y2B一个
一个gydF4y2B一个
。作为其行动的后果,代理接收到一个数值奖励,gydF4y2B一个
rgydF4y2B一个
tgydF4y2B一个
+gydF4y2B一个
1gydF4y2B一个
∈gydF4y2B一个
RgydF4y2B一个
,发现自己在一个新的国家gydF4y2B一个
年代gydF4y2B一个
tgydF4y2B一个
+gydF4y2B一个
1gydF4y2B一个
。代理的目的是学习行为的政策,gydF4y2B一个
πgydF4y2B一个
:gydF4y2B一个
年代gydF4y2B一个
tgydF4y2B一个
→gydF4y2B一个
一个gydF4y2B一个
tgydF4y2B一个
,为了最大化其累计奖励。gydF4y2B一个
讨论不同种类的RL知识转移问题,Lazaric [gydF4y2B一个
1gydF4y2B一个 MDP的]定义了三个元素。gydF4y2B一个
定义2。gydF4y2B一个
一个任务gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
是一个元组定义的MDPgydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
我gydF4y2B一个
〉gydF4y2B一个
、国家和行动空间定义上下文,转换模型gydF4y2B一个
PgydF4y2B一个
我gydF4y2B一个
定义了动态和奖赏函数gydF4y2B一个
rgydF4y2B一个
我gydF4y2B一个
定义了目标。gydF4y2B一个
知识转移的定义如下的问题。gydF4y2B一个
定义3。gydF4y2B一个
让gydF4y2B一个
TgydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
TgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
}gydF4y2B一个
是一个家庭的任务,获得一些知识的学习任务gydF4y2B一个
TgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
。知识转移的问题是使用这些知识来提高的学习任务gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
。gydF4y2B一个
这些元素用于分类的知识转移问题[gydF4y2B一个
1gydF4y2B一个 ]。gydF4y2B一个
定义4。gydF4y2B一个
目标转移是一个问题的所有任务gydF4y2B一个
TgydF4y2B一个
共享相同的上下文(即。,年代t一个te和行动年代pace) and the same transition model. Dynamics transfer is a problem in which tasks share the same context and the same reward function. In the case of domain transfer, the agents may have different dynamics, goals, and contexts.
在本文中,我们定义另一个类别的转移问题gydF4y2B一个
上下文传递gydF4y2B一个 ;的任务gydF4y2B一个
TgydF4y2B一个
共享相同的动力学和奖励,但有不同的上下文。事实上,这需要一个潜在的普遍存在的MDP所有代理的MDP可以映射。这可以解释使用MDP同态的概念(gydF4y2B一个
5gydF4y2B一个 ,gydF4y2B一个
6gydF4y2B一个 ]。gydF4y2B一个
定义5。gydF4y2B一个
一个MDP同态gydF4y2B一个
hgydF4y2B一个
从一个MDPgydF4y2B一个
TgydF4y2B一个
=gydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
〉gydF4y2B一个
MDP的gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
=gydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
′gydF4y2B一个
〉gydF4y2B一个
是满射gydF4y2B一个
hgydF4y2B一个
:gydF4y2B一个
ΨgydF4y2B一个
→gydF4y2B一个
ΨgydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
ΨgydF4y2B一个
=gydF4y2B一个
年代gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
,gydF4y2B一个
ΨgydF4y2B一个
′gydF4y2B一个
=gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
′gydF4y2B一个
,满射的定义的元组gydF4y2B一个
〈gydF4y2B一个
fgydF4y2B一个
,gydF4y2B一个
{gydF4y2B一个
ggydF4y2B一个
年代gydF4y2B一个
∣gydF4y2B一个
年代gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
}gydF4y2B一个
〉gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
(gydF4y2B一个
fgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
)gydF4y2B一个
,gydF4y2B一个
ggydF4y2B一个
年代gydF4y2B一个
(gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
)gydF4y2B一个
,在那里gydF4y2B一个
fgydF4y2B一个
:gydF4y2B一个
年代gydF4y2B一个
→gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
和gydF4y2B一个
ggydF4y2B一个
年代gydF4y2B一个
:gydF4y2B一个
一个gydF4y2B一个
→gydF4y2B一个
一个gydF4y2B一个
′gydF4y2B一个
,这样gydF4y2B一个
(1)gydF4y2B一个
PgydF4y2B一个
′gydF4y2B一个
fgydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
ggydF4y2B一个
年代gydF4y2B一个
一个gydF4y2B一个
,gydF4y2B一个
fgydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
=gydF4y2B一个
∑gydF4y2B一个
年代gydF4y2B一个
′′gydF4y2B一个
∈gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
]gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
∣gydF4y2B一个
年代gydF4y2B一个
PgydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
′′gydF4y2B一个
,gydF4y2B一个
∀gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
∈gydF4y2B一个
一个gydF4y2B一个
(2)gydF4y2B一个
rgydF4y2B一个
′gydF4y2B一个
fgydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
ggydF4y2B一个
年代gydF4y2B一个
一个gydF4y2B一个
=gydF4y2B一个
rgydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
。gydF4y2B一个
作为gydF4y2B一个
hgydF4y2B一个
是满射,它引起一个分区gydF4y2B一个
ΨgydF4y2B一个
用gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
,gydF4y2B一个
(gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
]gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
表示块gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
而gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
是,这样gydF4y2B一个
(3)gydF4y2B一个
lllllllllllllllllllllllllllllllllllllllgydF4y2B一个
∀gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
;gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
=gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
⟺gydF4y2B一个
hgydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
=gydF4y2B一个
hgydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
。gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
∣gydF4y2B一个
年代gydF4y2B一个
的投影gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
在gydF4y2B一个
年代gydF4y2B一个
,这是一个分区上gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
]gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
∣gydF4y2B一个
年代gydF4y2B一个
是一块包含gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
;对于每一个gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
]gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
∣gydF4y2B一个
年代gydF4y2B一个
=gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
]gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
∣gydF4y2B一个
年代gydF4y2B一个
当且仅当每一块gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
包含的一对gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
是一个组件中还包含一个对吗gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
是一个组件。gydF4y2B一个
我们称之为gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
的gydF4y2B一个
同态的形象gydF4y2B一个 的gydF4y2B一个
TgydF4y2B一个
下gydF4y2B一个
hgydF4y2B一个
。从条件(gydF4y2B一个
1gydF4y2B一个 )我们可以看到,政府行动对下有相同的图像gydF4y2B一个
hgydF4y2B一个
有相同的块过渡行为gydF4y2B一个
TgydF4y2B一个
相同,即转入任何给定的概率与相同的图像块的状态gydF4y2B一个
fgydF4y2B一个
。条件(gydF4y2B一个
2gydF4y2B一个 )说,政府行动对下有相同的图像gydF4y2B一个
hgydF4y2B一个
有相同的期望的奖励。这些条件意味着gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
保存的动力学和奖励gydF4y2B一个
TgydF4y2B一个
消除一些原任务的细节gydF4y2B一个
TgydF4y2B一个
。gydF4y2B一个
现在,上下文的概念转移MDP同态的定义。gydF4y2B一个
定义6。gydF4y2B一个
的任务gydF4y2B一个
TgydF4y2B一个
被认为具有相同的环境的动态和奖励功能,如果有一个任务gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
=gydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
′gydF4y2B一个
〉gydF4y2B一个
和gydF4y2B一个
lgydF4y2B一个
同态gydF4y2B一个
hgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
lgydF4y2B一个
这满足了这些条件之一:(i)gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
是同态的形象gydF4y2B一个
TgydF4y2B一个
kgydF4y2B一个
下gydF4y2B一个
hgydF4y2B一个
kgydF4y2B一个
和gydF4y2B一个
kgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
1、2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
}gydF4y2B一个
或(2)gydF4y2B一个
TgydF4y2B一个
kgydF4y2B一个
是同态的形象gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
下gydF4y2B一个
hgydF4y2B一个
kgydF4y2B一个
和gydF4y2B一个
kgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
1、2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
}gydF4y2B一个
。这些任务被称为上下文转移和知识转移的问题gydF4y2B一个
TgydF4y2B一个
被称为上下文传递。gydF4y2B一个
换句话说,任务上下文可转让的,如果有一个任务gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
所有任务的任务是同态的图片吗gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
,或任务gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
是一个同态的所有任务的形象。解释的任务之间的关系gydF4y2B一个
TgydF4y2B一个
考虑下面的定义和定理gydF4y2B一个
6gydF4y2B一个 ]。gydF4y2B一个
定义7。gydF4y2B一个
政府行动对gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
和gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
如果同态是等价的gydF4y2B一个
hgydF4y2B一个
的gydF4y2B一个
TgydF4y2B一个
存在这样gydF4y2B一个
hgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
hgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
。州gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
和gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
如果(我)每一个行动都是相等的gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
∈gydF4y2B一个
一个gydF4y2B一个
,有一个行动gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
∈gydF4y2B一个
一个gydF4y2B一个
这样gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
和gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
是等价的,(2)对每一个行动gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
∈gydF4y2B一个
一个gydF4y2B一个
,有一个行动gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
∈gydF4y2B一个
一个gydF4y2B一个
,这样gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
和gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
是等价的。gydF4y2B一个
等价的概念使我们下面的最优值等价定理。gydF4y2B一个
定理8。gydF4y2B一个
让gydF4y2B一个
米gydF4y2B一个
′gydF4y2B一个
=gydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
′gydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
′gydF4y2B一个
〉gydF4y2B一个
MDP的同态象gydF4y2B一个
米gydF4y2B一个
=gydF4y2B一个
〈gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
,gydF4y2B一个
rgydF4y2B一个
〉gydF4y2B一个
下gydF4y2B一个
hgydF4y2B一个
。对于任何gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
hgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
)gydF4y2B一个
,在那里gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
是行动最优值函数。事实上,同态gydF4y2B一个
hgydF4y2B一个
我gydF4y2B一个
引起的分区gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
我gydF4y2B一个
在gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
如上所述。这实际上分区编码冗余任务的状态和行为的表征gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
。定理gydF4y2B一个
8gydF4y2B一个 州,如果gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
,gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
hgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
,然后gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
hgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
)gydF4y2B一个
。这意味着一块分区的元素gydF4y2B一个
BgydF4y2B一个
hgydF4y2B一个
我gydF4y2B一个
有相同的最优gydF4y2B一个
问gydF4y2B一个
等于一个最优值gydF4y2B一个
问gydF4y2B一个
值的任务gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
。它的结论是,对于每一个gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
lgydF4y2B一个
存在一个gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
在哪里gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
反之亦然。让gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
是一个源的任务。考虑以下定义。gydF4y2B一个
定义9。gydF4y2B一个
一个分区gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
在gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
=gydF4y2B一个
年代gydF4y2B一个
我gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
我gydF4y2B一个
据说是gydF4y2B一个
问gydF4y2B一个
价值尊重如果gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
,gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
和gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
≡gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
意味着gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
。gydF4y2B一个
换句话说,一个块gydF4y2B一个
问gydF4y2B一个
价值上的尊重分区gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
=gydF4y2B一个
年代gydF4y2B一个
我gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
我gydF4y2B一个
有相同的最优gydF4y2B一个
问gydF4y2B一个
值。这个分区的所有块用gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
/gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
。让gydF4y2B一个
CgydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
/gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
是一块分区gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
。相应的gydF4y2B一个
问gydF4y2B一个
价值这一块用gydF4y2B一个
问gydF4y2B一个
CgydF4y2B一个
⋆gydF4y2B一个
,在那里gydF4y2B一个
(4)gydF4y2B一个
问gydF4y2B一个
CgydF4y2B一个
⋆gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
;gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
CgydF4y2B一个
。gydF4y2B一个
所有最佳的集合gydF4y2B一个
问gydF4y2B一个
值的任务gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
用gydF4y2B一个
(5)gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
⋆gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
CgydF4y2B一个
⋆gydF4y2B一个
∣gydF4y2B一个
CgydF4y2B一个
∈gydF4y2B一个
ΨgydF4y2B一个
我gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
。gydF4y2B一个
这是一个定理的直接推论gydF4y2B一个
8gydF4y2B一个 。gydF4y2B一个
推论10。gydF4y2B一个
如果任务gydF4y2B一个
TgydF4y2B一个
然后,上下文可以转让吗gydF4y2B一个
fgydF4y2B一个
ogydF4y2B一个
rgydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
lgydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
jgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
1、2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
}gydF4y2B一个
(6)gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
⋆gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
jgydF4y2B一个
⋆gydF4y2B一个
。gydF4y2B一个
证明很简单。mdp的gydF4y2B一个
TgydF4y2B一个
有相同的同态形象吗gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
或同态的图像gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
,那么他们都有相同的一组最优的gydF4y2B一个
问gydF4y2B一个
值的gydF4y2B一个
TgydF4y2B一个
′gydF4y2B一个
。因此,最优的设置gydF4y2B一个
问gydF4y2B一个
价值观是相同的所有任务。gydF4y2B一个
这个推论表明最优gydF4y2B一个
问gydF4y2B一个
值的源任务可以使用目标任务加速学习。在转移问题,我们假定同态gydF4y2B一个
hgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
lgydF4y2B一个
不给,我们不知道确切的政府行动之间等效关系对不同的任务。相反,我们使用一个部分之间一对多映射的功能目标和任务转移的知识来源。这些知识表达和综合使用一些间隔gydF4y2B一个
问gydF4y2B一个
值。下面的例子阐明了上下文传递的问题。gydF4y2B一个
例11。gydF4y2B一个
考虑一个gydF4y2B一个
10gydF4y2B一个
×gydF4y2B一个
10gydF4y2B一个
网格作为一个农场有三个不同的作物;西红柿、黄瓜、西瓜(图gydF4y2B一个
1gydF4y2B一个 )。有三个收获机器人收集作物和聚集成三个不同的目标位置;西红柿在G1, G2的黄瓜,西瓜在G3。有五种类型的传感器模块;GPS,梁的信号距离指标,指南针、黑白相机,和color&weight传感器。机器人使用不同的传感器来估计它们的状态,如图gydF4y2B一个
1gydF4y2B一个 。GPS是一对的输出数据gydF4y2B一个
(gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
)gydF4y2B一个
,gydF4y2B一个
1gydF4y2B一个
≤gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
≤gydF4y2B一个
10gydF4y2B一个
,表明垂直和水平位置,输出光束的距离指示器是一对数字gydF4y2B一个
(gydF4y2B一个
bgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
bgydF4y2B一个
2gydF4y2B一个
)gydF4y2B一个
,gydF4y2B一个
2gydF4y2B一个
≤gydF4y2B一个
bgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
bgydF4y2B一个
2gydF4y2B一个
≤gydF4y2B一个
20.gydF4y2B一个
,在那里gydF4y2B一个
bgydF4y2B一个
1gydF4y2B一个
和gydF4y2B一个
bgydF4y2B一个
2gydF4y2B一个
1-norm距离光束。罗盘传感器使机器人的方向和其他传感器模块是用来区分的作物如表gydF4y2B一个
1gydF4y2B一个 。机器人1和3使用color&weight传感器和机器人2使用黑白相机来区分的作物,解释图gydF4y2B一个
1gydF4y2B一个 。gydF4y2B一个
考虑一个抽象的机器人的状态是一对gydF4y2B一个
(gydF4y2B一个
ngydF4y2B一个
,gydF4y2B一个
kgydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
′gydF4y2B一个
在哪里gydF4y2B一个
1gydF4y2B一个
≤gydF4y2B一个
ngydF4y2B一个
≤gydF4y2B一个
One hundred.gydF4y2B一个
是网格编号时,网格的数量从左到右,从下到上,然后呢gydF4y2B一个
kgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
来gydF4y2B一个
,gydF4y2B一个
铜gydF4y2B一个
,gydF4y2B一个
佤邦gydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
}gydF4y2B一个
。条款gydF4y2B一个
来gydF4y2B一个
,gydF4y2B一个
铜gydF4y2B一个
,gydF4y2B一个
佤邦gydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
代表西红柿,黄瓜,西瓜,和没有什么分别。的动作是一样的机器人的行动1;也就是说,gydF4y2B一个
一个gydF4y2B一个
′gydF4y2B一个
=gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
。一个可以很容易地检查有三个同态gydF4y2B一个
hgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
3gydF4y2B一个
从机器人的MDP 1、2和3的MDP的抽象机器人,有关等效双MDP的政府行动。例如,我们有gydF4y2B一个
(7)gydF4y2B一个
hgydF4y2B一个
1gydF4y2B一个
3、4gydF4y2B一个
,gydF4y2B一个
RgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
NgydF4y2B一个
=gydF4y2B一个
33gydF4y2B一个
,gydF4y2B一个
来gydF4y2B一个
,gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
1gydF4y2B一个
2、1gydF4y2B一个
,gydF4y2B一个
YgydF4y2B一个
HgydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
=gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
佤邦gydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
2gydF4y2B一个
5、1gydF4y2B一个
,gydF4y2B一个
EgydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
5gydF4y2B一个
,gydF4y2B一个
铜gydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
2gydF4y2B一个
10、2gydF4y2B一个
,gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
=gydF4y2B一个
20日0gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
3gydF4y2B一个
6、7gydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
GgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
FgydF4y2B一个
=gydF4y2B一个
85年gydF4y2B一个
,gydF4y2B一个
铜gydF4y2B一个
,gydF4y2B一个
EgydF4y2B一个
,gydF4y2B一个
hgydF4y2B一个
3gydF4y2B一个
18日8gydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
,gydF4y2B一个
FgydF4y2B一个
=gydF4y2B一个
93年0gydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
。gydF4y2B一个
因此,机器人1、2和3有相同的环境的动态和奖励和上下文可转让的,虽然他们没有相同的MDP和他们之间没有一对一的映射集的状态和行为。这是因为存在的冗余在表征的环境中,这种情况在大多数实际应用。gydF4y2B一个
表1gydF4y2B一个
传感器的输出模块对不同种类的作物。gydF4y2B一个
作物gydF4y2B一个
黑与白的相机gydF4y2B一个
颜色gydF4y2B一个
重量gydF4y2B一个
番茄gydF4y2B一个
小世界gydF4y2B一个
红色的gydF4y2B一个
光gydF4y2B一个
黄瓜gydF4y2B一个
杆gydF4y2B一个
绿色gydF4y2B一个
光gydF4y2B一个
西瓜gydF4y2B一个
全球大gydF4y2B一个
绿色或黄色gydF4y2B一个
重gydF4y2B一个
图1gydF4y2B一个
一个gydF4y2B一个
10gydF4y2B一个
×gydF4y2B一个
10gydF4y2B一个
网格与三个作物和三个农场收获机器人。机器人1:传感器模块:GPS, color&weight传感器,gydF4y2B一个
年代gydF4y2B一个
1gydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
,gydF4y2B一个
kgydF4y2B一个
∣gydF4y2B一个
1gydF4y2B一个
≤gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
≤gydF4y2B一个
10gydF4y2B一个
,gydF4y2B一个
kgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
RgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
GgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
GgydF4y2B一个
HgydF4y2B一个
,gydF4y2B一个
YgydF4y2B一个
HgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
}gydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
列号,gydF4y2B一个
ygydF4y2B一个
:行号,gydF4y2B一个
RgydF4y2B一个
:红、gydF4y2B一个
GgydF4y2B一个
:绿色,gydF4y2B一个
YgydF4y2B一个
:黄色,gydF4y2B一个
lgydF4y2B一个
:轻、gydF4y2B一个
HgydF4y2B一个
:重,0:没什么,gydF4y2B一个
一个gydF4y2B一个
1gydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
EgydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
,gydF4y2B一个
DgydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
NgydF4y2B一个
:北移动,gydF4y2B一个
年代gydF4y2B一个
:向南推进,gydF4y2B一个
EgydF4y2B一个
:往东走,gydF4y2B一个
WgydF4y2B一个
:西迁,0:没什么,gydF4y2B一个
PgydF4y2B一个
:皮卡,gydF4y2B一个
DgydF4y2B一个
:跳伞。机器人2:传感器模块:GPS,指南针,黑白相机,gydF4y2B一个
年代gydF4y2B一个
2gydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
(gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
,gydF4y2B一个
dgydF4y2B一个
,gydF4y2B一个
cgydF4y2B一个
)gydF4y2B一个
∣gydF4y2B一个
1gydF4y2B一个
≤gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
≤gydF4y2B一个
10gydF4y2B一个
,gydF4y2B一个
dgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
EgydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
cgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
SGgydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
,gydF4y2B一个
BGgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
}gydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
是一样的机器人,gydF4y2B一个
dgydF4y2B一个
:方向,gydF4y2B一个
SGgydF4y2B一个
:小世界,gydF4y2B一个
TgydF4y2B一个
:杆,gydF4y2B一个
BGgydF4y2B一个
:大全球,0:没什么,gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
FgydF4y2B一个
,gydF4y2B一个
BgydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
RgydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
FgydF4y2B一个
,gydF4y2B一个
RgydF4y2B一个
FgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
,gydF4y2B一个
PgydF4y2B一个
,gydF4y2B一个
DgydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
FgydF4y2B一个
:前进,gydF4y2B一个
BgydF4y2B一个
:向后移动,gydF4y2B一个
lgydF4y2B一个
:左转,gydF4y2B一个
RgydF4y2B一个
:向右转,gydF4y2B一个
lgydF4y2B一个
FgydF4y2B一个
:左转&gydF4y2B一个
FgydF4y2B一个
,gydF4y2B一个
RgydF4y2B一个
FgydF4y2B一个
:右转gydF4y2B一个
FgydF4y2B一个
0:没什么,gydF4y2B一个
PgydF4y2B一个
:皮卡,gydF4y2B一个
DgydF4y2B一个
:跳伞。机器人3:传感器模块:梁的信号距离指标,指南针、颜色和重量传感器,gydF4y2B一个
年代gydF4y2B一个
3gydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
(gydF4y2B一个
bgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
bgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
dgydF4y2B一个
,gydF4y2B一个
kgydF4y2B一个
)gydF4y2B一个
∣gydF4y2B一个
1gydF4y2B一个
≤gydF4y2B一个
bgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
bgydF4y2B一个
2gydF4y2B一个
≤gydF4y2B一个
20.gydF4y2B一个
,gydF4y2B一个
dgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
年代gydF4y2B一个
,gydF4y2B一个
EgydF4y2B一个
,gydF4y2B一个
WgydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
kgydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
RgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
GgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
GgydF4y2B一个
HgydF4y2B一个
,gydF4y2B一个
YgydF4y2B一个
HgydF4y2B一个
,gydF4y2B一个
0gydF4y2B一个
}gydF4y2B一个
}gydF4y2B一个
,gydF4y2B一个
bgydF4y2B一个
我gydF4y2B一个
梁:1-norm距离gydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
dgydF4y2B一个
是一样的机器人2gydF4y2B一个
kgydF4y2B一个
作为机器人1,gydF4y2B一个
一个gydF4y2B一个
3gydF4y2B一个
=gydF4y2B一个
一个gydF4y2B一个
2gydF4y2B一个
。gydF4y2B一个
3所示。为什么上下文传递重要gydF4y2B一个
大多数当前传输的学习方法在RL通常称作“利用知识学习提高学习任务来源相关,但不同,目标任务。这些方法能够成功地代理在不同的任务之间传输知识。gydF4y2B一个
论述了语境在RL转移,也就是说,代理与不同国家之间转移知识和行动空间。在这种类型的转移目标的问题是一样的:减少所需的时间与转让、学习目标相对于学而不转移。我们认为这是一个重要的问题,原因如下。gydF4y2B一个
首先,可能会有不同的代理商有不同传感器或执行器的环境以及它们之间的合作可以改善学习过程。这些代理可以类似于机器人的例子gydF4y2B一个
11gydF4y2B一个 。解决问题的上下文传递可以促进合作代理。gydF4y2B一个
其次,在许多真实世界的场景中,一个实际上没有使用最小化的MDP模型环境,而且通常有很多冗余的MDP模型。在这种情况下,可能会有一个代理,已经训练与一个特定的内部表示任务的状态和行为但性能很差。不同的内部表示可以让代理来实现更高的性能。上下文使代理可以使用前面的知识转移到加快学习与新状态和行动空间。gydF4y2B一个
第三,考虑实际工作学习系统。在某种程度上,我们决定升级其传感器和/或执行器模块。这些模块的任何变化都将导致不同的描述环境的动态和奖赏函数。因此,学习算法和训练知识不再适用。如果经验是昂贵的环境中,最好利用代理的现有知识提高学习新的传感器或执行器。上下文传递可以解决问题。gydF4y2B一个
为了解决这个问题,一个需要一个代理的政府行动空间之间的映射。泰勒et al。gydF4y2B一个
8gydF4y2B一个 )使用手工编码的状态和动作之间的映射的源和目标任务,即gydF4y2B一个
χgydF4y2B一个
年代gydF4y2B一个
和gydF4y2B一个
χgydF4y2B一个
一个gydF4y2B一个
。映射gydF4y2B一个
χgydF4y2B一个
年代gydF4y2B一个
目标任务的每个状态变量映射到源状态最相似的任务。同样,映射gydF4y2B一个
χgydF4y2B一个
一个gydF4y2B一个
目标任务的每个操作映射到源的最类似的行动任务。这双映射称为任务间的映射。他们使用任务间映射到传输行为价值函数从源到目标的任务,从而提高目标的学习任务。在[gydF4y2B一个
9gydF4y2B一个 ),任务间映射用于转移样品从源到目标的任务。在[gydF4y2B一个
10gydF4y2B一个 ),泰勒和石头使用任务间映射到传输源任务政策目标任务像一些规则。政策转移规则总结源任务。任务间的映射作为翻译的规则中使用的目标任务。在某些情况下,是不可能定义的关系政府行动空间代理的任务间的映射(一对映射)。例如,在示例gydF4y2B一个
11gydF4y2B一个 ,一个不能直接映射定义为机器人的动作1和2之间的关系;例如,没有行动相当于机器人1(上,下,左,右)的行动机器人的“前进”2。虽然可以定义一个政府行动之间的映射对机器人,当机器人的状态2是“了”和推进,它等于移动机器人1的“上”。因此,我们使用一个政府行动对之间的映射,而不是任务间的映射。gydF4y2B一个
Blockeel et al。gydF4y2B一个
11gydF4y2B一个 )用不同的状态转移关系中宏任务特性和行为。在这种方法中,关系宏被定义为有限状态机的转换条件和节点行为是由一阶逻辑的条款。宏描述成功的行为在源任务。归纳逻辑编程用来学习一个宏,然后使用它的早期学习阶段目标任务。gydF4y2B一个
文德兰花和BartogydF4y2B一个
12gydF4y2B一个 )、索尼和辛格(gydF4y2B一个
13gydF4y2B一个 )使用同态框架将任务映射到一个共同的抽象级别。选项上定义一个抽象的MDP,称为相对化选项,然后他们的政策将根据特定的目标任务。更具体地说,提供一组可能的转换和传输的目标是确定最合适的转换相对化的选项根据当前目标的任务。gydF4y2B一个
Konidaris和BartogydF4y2B一个
14gydF4y2B一个 ,gydF4y2B一个
15gydF4y2B一个 ]在更高层次的抽象定义选项,可以使用由目标任务没有任何明确的任务的状态和动作之间的映射。在这种方法中,任务的相似性被建模为agent-space和任务的差异是建模为问题空间。任务被认为有共同特性和reward-linked;奖励分配相似的任务。代理从经验中学习便携式塑造功能源任务agent-space改善性能的目标任务。提出定义reward-linked大多是定性的概念,而不是一个精确的数学定义。gydF4y2B一个
本文试图提出一个正式的定义上下文传递问题。这个定义有一些重叠的提到的方法,但其框架和数学公式首次给出。我们使用MDP同态的概念完全制定环境转移的任务。提出的算法来解决这个问题不需要一个精确的任务间的映射或任务之间存在的一些共享的特性就像前面提到过的方法;它只需要一个部分之间的映射源和目标任务的一些特性。它也有能力相结合的几种不同来源的知识任务使用的目标任务。gydF4y2B一个
4所示。特征空间之间的翻译任务gydF4y2B一个
在[gydF4y2B一个
14gydF4y2B一个 ),共享功能的概念用于任务之间的知识转移。代理使用的共享功能是学习一个便携式塑造功能的任务序列中显著提高性能在以后的相关任务。在本文中,我们遵循相同的使用功能空间的想法作为知识转移的工具。然而,我们的问题,它的配方,建议的解决方案是不同的。一般来说,一个代理配备一套传感器和致动器。代理的感官环境状况的使用传感器和执行一个操作的输出使用它的致动器。的元组传感器和致动器的输出是一个特征向量。让任务的传感器和执行器的数量gydF4y2Ba
TgydF4y2B一个
我gydF4y2B一个
是gydF4y2B一个
ngydF4y2B一个
,gydF4y2B一个
fgydF4y2B一个
jgydF4y2B一个
表示gydF4y2B一个
jgydF4y2B一个
th元素的特征向量。特征向量表示gydF4y2B一个
(gydF4y2B一个
fgydF4y2B一个
1gydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
fgydF4y2B一个
2gydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
fgydF4y2B一个
ngydF4y2B一个
我gydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
FgydF4y2B一个
我gydF4y2B一个
,在那里gydF4y2B一个
FgydF4y2B一个
我gydF4y2B一个
=gydF4y2B一个
FgydF4y2B一个
1gydF4y2B一个
我gydF4y2B一个
×gydF4y2B一个
FgydF4y2B一个
2gydF4y2B一个
我gydF4y2B一个
⋯gydF4y2B一个
×gydF4y2B一个
FgydF4y2B一个
ngydF4y2B一个
我gydF4y2B一个
的空间特征向量。gydF4y2B一个
FgydF4y2B一个
jgydF4y2B一个
我gydF4y2B一个
所有特征值的设置吗gydF4y2B一个
jgydF4y2B一个
th特性。这种映射分配一双政府行动的每一个特征向量:gydF4y2B一个
(8)gydF4y2B一个
lgydF4y2B一个
我gydF4y2B一个
:gydF4y2B一个
FgydF4y2B一个
我gydF4y2B一个
⟶gydF4y2B一个
年代gydF4y2B一个
我gydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
在哪里gydF4y2B一个
年代gydF4y2B一个
我gydF4y2B一个
和gydF4y2B一个
一个gydF4y2B一个
我gydF4y2B一个
的状态和动作的任务gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
,分别。gydF4y2B一个
源的知识转移到目标任务(有不同的上下文),需要一些信息有关gydF4y2B一个
问gydF4y2B一个
政府行动的价值观对源到目标的任务。这些信息可能是不确定的,模糊的,甚至在某些情况下无法使用。解决这个问题在这种情况下,我们使用领域知识的特征空间的特征向量之间的一些关系源和目标任务。这个信息可以表达的一个映射gydF4y2B一个
(9)gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
:gydF4y2B一个
FgydF4y2B一个
lgydF4y2B一个
⟶gydF4y2B一个
FgydF4y2B一个
我gydF4y2B一个
。gydF4y2B一个
这种映射关系源任务的一个特征向量gydF4y2B一个
我gydF4y2B一个
一个特征向量的目标任务。一般来说,这种映射可以是一对多的映射。如果这是一个一对一的映射,然后有一个确切的对应特征向量之间的源和目标任务和任务之间可以转移的知识没有任何歧义。上下文之间转移的过程任务来源gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
和目标任务gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
如图gydF4y2B一个
2gydF4y2B一个 。gydF4y2B一个
图2gydF4y2B一个
上下文之间转移的过程任务来源gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
和目标任务gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
所有映射是已知的除外gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
。gydF4y2B一个
在这个图中,gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
映射源任务的学习过程的结果gydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
和分配最优gydF4y2B一个
问gydF4y2B一个
的最优值gydF4y2B一个
问gydF4y2B一个
值,gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
⋆gydF4y2B一个
,在定义部分gydF4y2B一个
2gydF4y2B一个 ,每一个政府行动。源和目标任务上下文可转让,因此,gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
⋆gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
⋆gydF4y2B一个
。目标的学习过程代理估计映射gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
。我们使用其他映射来估计一个近似映射gydF4y2B一个
CTgydF4y2B一个
作为一个初始估计gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
从而加速学习过程的目标任务。这是图的图所示gydF4y2B一个
2gydF4y2B一个 。对于每一个gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
:gydF4y2B一个
(10)gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
∘gydF4y2B一个
lgydF4y2B一个
我gydF4y2B一个
∘gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
∘gydF4y2B一个
lgydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
在哪里gydF4y2B一个
GgydF4y2B一个
∘gydF4y2B一个
HgydF4y2B一个
(gydF4y2B一个
·gydF4y2B一个
)gydF4y2B一个
表示的映射组成gydF4y2B一个
GgydF4y2B一个
和gydF4y2B一个
HgydF4y2B一个
,即gydF4y2B一个
GgydF4y2B一个
∘gydF4y2B一个
HgydF4y2B一个
(gydF4y2B一个
·gydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
GgydF4y2B一个
(gydF4y2B一个
HgydF4y2B一个
(gydF4y2B一个
·gydF4y2B一个
)gydF4y2B一个
)gydF4y2B一个
。映射gydF4y2B一个
lgydF4y2B一个
我gydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
表示的逆映射gydF4y2B一个
lgydF4y2B一个
我gydF4y2B一个
,gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
是一个估计gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
使用上下文转移。gydF4y2B一个
示例12。gydF4y2B一个
指的是例子gydF4y2B一个
11gydF4y2B一个 ,假设机器人的任务2和3是源和目标任务,分别。任务之间的共享特性的值罗盘传感器和致动器。我们也知道这两个的值gydF4y2B一个
cgydF4y2B一个
=gydF4y2B一个
0gydF4y2B一个
机器人2,gydF4y2B一个
kgydF4y2B一个
=gydF4y2B一个
0gydF4y2B一个
机器人3指的是“没有什么价值。“我们使用此信息来与政府行动对源和目标任务。例如,我们有gydF4y2B一个
(11)gydF4y2B一个
KgydF4y2B一个
2gydF4y2B一个
(gydF4y2B一个
3、12gydF4y2B一个
,gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
RgydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
FgydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
,gydF4y2B一个
NgydF4y2B一个
,gydF4y2B一个
cgydF4y2B一个
,gydF4y2B一个
FgydF4y2B一个
∣gydF4y2B一个
1gydF4y2B一个
≤gydF4y2B一个
xgydF4y2B一个
,gydF4y2B一个
ygydF4y2B一个
≤gydF4y2B一个
10gydF4y2B一个
,gydF4y2B一个
cgydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
GgydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
,gydF4y2B一个
BgydF4y2B一个
GgydF4y2B一个
。gydF4y2B一个
5。知识融合和传输gydF4y2B一个
在[gydF4y2B一个
3gydF4y2B一个 ),RL转移问题的解决方法分为五类;起点方法、模拟方法、分层方法,改变方法和新的RL算法的方法。在起点的方法,而不是零个或随机初始化目标任务,目标任务是基于知识从源任务初始化。模仿的方法涉及到传输方法源任务策略应用时选择一些行动学习目标任务。第三类RL转移包括分级方法。这些方法查看源子任务的目标。RL传输方法的下节课涉及改变状态空间,操作空间,或奖励函数基于源任务目标任务的知识。它包括简化抽象状态空间的状态,减少和奖励塑造的行动空间。新的RL算法方法包括全新的RL算法。这些方法解决传输作为一个固有的RL的一部分。gydF4y2Ba
在本文中,我们采用一种起点方法转移的知识;我们使用的知识来源任务初始化目标的学习任务,而不是零个或随机初始化。假设源的学习任务是停在一个特定的时间,因为学习和标准gydF4y2B一个
问gydF4y2B一个
值的源使用的任务目标的任务,这是学习的初始步骤。gydF4y2B一个
现在,考虑的集合gydF4y2B一个
TgydF4y2B一个
=gydF4y2B一个
{gydF4y2B一个
TgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
}gydF4y2B一个
在哪里gydF4y2B一个
TgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
是源和gydF4y2B一个
TgydF4y2B一个
lgydF4y2B一个
是目标任务部分中解释gydF4y2B一个
2gydF4y2B一个 。映射gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
与最优gydF4y2B一个
问gydF4y2B一个
价值的政府行动对gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
×gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
。的映射gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
可能是一对多的映射,因此,gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
是一个多值函数,然后呢gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
是一个给定值,而不是单个值,也就是说,gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
⊆gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
⋆gydF4y2B一个
。为gydF4y2B一个
我gydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
1、2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
}gydF4y2B一个
,我们将gydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
不同的设置值一双政府行动的目标任务。人们很容易把不同来源的知识任务使用的交叉算子gydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
设置值,gydF4y2B一个
(12)gydF4y2B一个
CTgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
⋂gydF4y2B一个
我gydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
}gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
。gydF4y2B一个
这是可能的gydF4y2B一个
问gydF4y2B一个
两个值gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
使用任务的知识来源。这些定义是用来初始化gydF4y2B一个
问gydF4y2B一个
值目标的任务。我们可以使用一个统计平均算子来估计一个值设定值gydF4y2B一个
CTgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
作为一个初始值gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
。例如,我们可以使用gydF4y2B一个
的意思是gydF4y2B一个 ,gydF4y2B一个
中位数gydF4y2B一个 ,或gydF4y2B一个
中档gydF4y2B一个 操作符。在本文中,我们使用gydF4y2B一个
中档gydF4y2B一个 算子,定义如下:gydF4y2B一个
(13)gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
~gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
中档gydF4y2B一个
CTgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
在哪里gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
~gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
的初始估计吗gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
和gydF4y2B一个
(14)gydF4y2B一个
中档gydF4y2B一个
xgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
kgydF4y2B一个
=gydF4y2B一个
马克斯gydF4y2B一个
gydF4y2B一个
(gydF4y2B一个
xgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
kgydF4y2B一个
)gydF4y2B一个
+gydF4y2B一个
最小值gydF4y2B一个
gydF4y2B一个
(gydF4y2B一个
xgydF4y2B一个
1gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
xgydF4y2B一个
kgydF4y2B一个
)gydF4y2B一个
2gydF4y2B一个
。gydF4y2B一个
这个操作符有一些优势gydF4y2B一个
的意思是gydF4y2B一个 或gydF4y2B一个
中位数gydF4y2B一个 运营商,因为一些实现问题。也有一些直观的解释使用这个操作符作为下一节讨论。gydF4y2B一个
6。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M276 " > < mml: mrow > < mml: mi > Q < / mml: mi > < / mml: mrow > < / mml:数学> < / inline-formula >间隔对知识融合gydF4y2B一个
前一节中所说明的,上下文转换映射,gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
,通常是一个一对多的映射。因此,的价值gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
⊆gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
⋆gydF4y2B一个
和gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
∈gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
是一个给定值,而不是一个单一值。我们使用一个基于间隔的方法来表示这个给定值的不确定性。考虑以下定义:gydF4y2B一个
(15)gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
- - - - - -gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
+gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
在哪里gydF4y2B一个
(16)gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
- - - - - -gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
最小值gydF4y2B一个
gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
∈gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
+gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
=gydF4y2B一个
马克斯gydF4y2B一个
gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
∈gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
(gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
)gydF4y2B一个
问gydF4y2B一个
⋆gydF4y2B一个
。gydF4y2B一个
我们称之为gydF4y2B一个
问gydF4y2B一个
时间间隔。每一个gydF4y2B一个
问gydF4y2B一个
间隔,两个措施有关gydF4y2B一个
(17)gydF4y2B一个
容器gydF4y2B一个
问gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
+gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
- - - - - -gydF4y2B一个
+gydF4y2B一个
问gydF4y2B一个
+gydF4y2B一个
2gydF4y2B一个
,gydF4y2B一个
UncrgydF4y2B一个
问gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
+gydF4y2B一个
=gydF4y2B一个
问gydF4y2B一个
- - - - - -gydF4y2B一个
- - - - - -gydF4y2B一个
问gydF4y2B一个
+gydF4y2B一个
。gydF4y2B一个
这些措施被称为gydF4y2B一个
中心gydF4y2B一个 和gydF4y2B一个
不确定性gydF4y2B一个 的措施gydF4y2B一个
问gydF4y2B一个
分别间隔。让gydF4y2B一个
(gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
]gydF4y2B一个
和gydF4y2B一个
(gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
]gydF4y2B一个
是两个gydF4y2B一个
问gydF4y2B一个
时间间隔。这些定义上产生两个序gydF4y2B一个
问gydF4y2B一个
间隔,如下所示:gydF4y2B一个
(18)gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
≤gydF4y2B一个
RgydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
⟺gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
≤gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
≤gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
≤gydF4y2B一个
KgydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
⟺gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
≤gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
≤gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
。gydF4y2B一个
第一个命令可以被理解为更多的奖励,和第二个可以被认为是更准确的订购。这些序可以诱导数学bilattice结构(gydF4y2B一个
16gydF4y2B一个 - - - - - -gydF4y2B一个
18gydF4y2B一个 )的集合gydF4y2B一个
问gydF4y2B一个
时间间隔。在[gydF4y2B一个
19gydF4y2B一个 ,gydF4y2B一个
20.gydF4y2B一个 ),bilattices讨论作为一种工具的推理知识当多个代理。考虑以下定义。gydF4y2B一个
我们使用以下操作结合的知识不同的代理:gydF4y2B一个
(19)gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
⊕gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
=gydF4y2B一个
最小值gydF4y2B一个
gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
- - - - - -gydF4y2B一个
,gydF4y2B一个
马克斯gydF4y2B一个
gydF4y2B一个
问gydF4y2B一个
1gydF4y2B一个
+gydF4y2B一个
,gydF4y2B一个
问gydF4y2B一个
2gydF4y2B一个
+gydF4y2B一个
。gydF4y2B一个
这个操作符叫做bilattices轻信。gydF4y2B一个
一个可以很容易地显示设置值的上下文映射和相应的转移gydF4y2B一个
问gydF4y2B一个
间隔有以下属性:gydF4y2B一个
(20)gydF4y2B一个
中档gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
容器gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
CTgydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
⊆gydF4y2B一个
CTgydF4y2B一个
jgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
⟹gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
≤gydF4y2B一个
KgydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
jgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
CTgydF4y2B一个
kgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
CgydF4y2B一个
TgydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
∩gydF4y2B一个
CTgydF4y2B一个
jgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
⟹gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
kgydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
⊕gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
。gydF4y2B一个
有一些直观的解释这些关系。例如,第二个关系说,随着设定值趋于单一,相应的gydF4y2B一个
问gydF4y2B一个
间隔将去一个精确值,代表高阶的知识。第三个关系的直觉轻信bilattices的运营商。因此,我们只需要记录的最小值和最大值的设置值(或相应的gydF4y2B一个
问gydF4y2B一个
间隔),使用下面的关系将不同来源的知识任务:gydF4y2B一个
(21)gydF4y2B一个
问gydF4y2B一个
lgydF4y2B一个
~gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
=gydF4y2B一个
容器gydF4y2B一个
⨁gydF4y2B一个
我gydF4y2B一个
∈gydF4y2B一个
{gydF4y2B一个
1、2gydF4y2B一个
,gydF4y2B一个
…gydF4y2B一个
,gydF4y2B一个
lgydF4y2B一个
- - - - - -gydF4y2B一个
1gydF4y2B一个
}gydF4y2B一个
我gydF4y2B一个
问gydF4y2B一个
我gydF4y2B一个
年代gydF4y2B一个
lgydF4y2B一个
,gydF4y2B一个
一个gydF4y2B一个
lgydF4y2B一个
。gydF4y2B一个