CINgydF4y2B一个 计算智能和神经科学gydF4y2B一个 1687 - 5273gydF4y2B一个 1687 - 5265gydF4y2B一个 Hindawi出版公司gydF4y2B一个 10.1155 / 2014/428567gydF4y2B一个 428567年gydF4y2B一个 研究文章gydF4y2B一个 上下文传递强化学习使用行为价值的功能gydF4y2B一个 穆萨维gydF4y2B一个 阿明gydF4y2B一个 1gydF4y2B一个 Nadjar AraabigydF4y2B一个 BabakgydF4y2B一个 1、2gydF4y2B一个 Nili AhmadabadigydF4y2B一个 马吉德gydF4y2B一个 1、2gydF4y2B一个 VialattegydF4y2B一个 弗朗索瓦•B。gydF4y2B一个 1gydF4y2B一个 认知机器人实验室gydF4y2B一个 卓越中心的控制和智能处理gydF4y2B一个 电气和计算机工程学院工程学院gydF4y2B一个 德黑兰大学,邮政信箱14395 - 515gydF4y2B一个 德黑兰gydF4y2B一个 伊朗gydF4y2B一个 ut.ac.irgydF4y2B一个 2gydF4y2B一个 认知科学学院gydF4y2B一个 研究基本科学研究所(IPM)gydF4y2B一个 邮政信箱19395 - 5746,德黑兰gydF4y2B一个 伊朗gydF4y2B一个 ipm.ac.irgydF4y2B一个 2014年gydF4y2B一个 30.gydF4y2B一个 12gydF4y2B一个 2014年gydF4y2B一个 2014年gydF4y2B一个 30.gydF4y2B一个 07年gydF4y2B一个 2014年gydF4y2B一个 08年gydF4y2B一个 12gydF4y2B一个 2014年gydF4y2B一个 31日gydF4y2B一个 12gydF4y2B一个 2014年gydF4y2B一个 2014年gydF4y2B一个 版权©2014阿明穆萨维等。gydF4y2B一个 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2B一个

论述了在强化学习任务上下文的概念转移。上下文传递,本文定义意味着源和目标之间的知识转移任务,共享相同的环境动力学和奖赏函数但不同状态或行动空间。换句话说,代理学习相同的任务而使用不同的传感器和执行器。这需要一个潜在的普遍存在的马尔可夫决策过程(MDP)所有代理商的MDP可以映射。这是制定的MDP同态的概念。学习框架gydF4y2B一个 问gydF4y2B一个 则将。这些任务之间的知识转移,特征空间作为翻译和表达的部分政府行动空间之间的映射不同的任务。的gydF4y2B一个 问gydF4y2B一个 值学习的学习过程中源任务映射到组gydF4y2B一个 问gydF4y2B一个 值为目标的任务。这些转移gydF4y2B一个 问gydF4y2B一个 值合并在一起,并被用来初始化目标任务的学习过程。一种基于间隔的方法用于表示任务和合并的知识来源。实证结果表明,初始化传输可以有利于学习过程的目标任务。gydF4y2B一个

1。介绍gydF4y2B一个

转移的概念学习是一个具有挑战性的领域领域的强化学习(RL) [gydF4y2B一个 1gydF4y2B一个- - - - - -gydF4y2B一个 3gydF4y2B一个]。目标是加速学习过程的目标任务代理通过使用不同的代理的知识已经学到了相关的任务。Lazaric [gydF4y2B一个 1gydF4y2B一个)将RL的转移问题分为三类:目标,动力,和域转移问题。代理的目标转移问题是一个问题(即共享相同的上下文。,年代t一个te和行动年代paces) and the same transition model but have different reward functions. A dynamics transfer problem is a problem in which agents share the same context and the same reward function but have different transition models. In the case of domain transfer, the agents may have different dynamics, goals, and state-action spaces. This is the most general and complex problem of transfer.

泰勒和石(gydF4y2B一个 4gydF4y2B一个)讨论代理的另一个类别的问题有不同的表示。他们把它称为表示转移。摘要代理人被认为有不同的上下文(状态和行动空间)。换句话说,在同样的环境,同样的代理行为奖励函数即使它们的状态和行为是不同的。gydF4y2B一个

例如,考虑两个学习机器人表演在同一网格世界问题。第一个机器人使用全球定位系统(GPS)传感器和第二个机器人使用距离感应器来表示他们的位置。所以,每个网格的位置都是由机器人,不同。机器人可以使用不同的致动器。在这篇文章中,这样的代理商之间知识转移的问题gydF4y2B一个 上下文传递gydF4y2B一个。这是制定和讨论使用马尔可夫决策过程(MDP)同态的概念(gydF4y2B一个 5gydF4y2B一个,gydF4y2B一个 6gydF4y2B一个]。gydF4y2B一个

我们使用功能空间任务的翻译。我们假设有一个部分的特性之间一对多映射任务。一种基于间隔的方法用于表示、传输和合并任务的知识来源。gydF4y2B一个

节gydF4y2B一个 2gydF4y2B一个,上下文转移问题是正式制定和讨论。描述的问题的重要性和应用程序部分gydF4y2B一个 3gydF4y2B一个。讨论的功能空间之间的映射部分gydF4y2B一个 4gydF4y2B一个。知识融合和传输方法部分中解释gydF4y2B一个 5gydF4y2B一个。两个案例研究和结果讨论部分gydF4y2B一个 7gydF4y2B一个。部分gydF4y2B一个 8gydF4y2B一个包含一个简短的结论。gydF4y2B一个

2。上下文传递问题gydF4y2B一个

定义上下文传递,在本节中,代理之间的知识转移问题是在相同的环境中做同样的任务,即使他们的政府行动空间是不同的。这是因为代理可以使用不同的传感器或执行器。也可能有一些代理使用相同的一组传感器虽然他们的感官信息的编码和表示是不同的。在实践领域,感觉信息的编码通常是冗余的,作为一个没有访问的最小表示状态。在这种情况下,一些药物可能有不同的状态空间和模型相同的环境。我们将讨论这个问题的mdp的概念。gydF4y2B一个

一个代理的MDP模型与环境的交互(gydF4y2B一个 7gydF4y2B一个]。我们限制讨论离散政府行动RL代理和制定问题的有限状态MDP同态的概念。在持续的政府行动代理人的情况下,这个问题比较复杂,不能模仿MDP同态。这将是一个具有挑战性的问题,并调用一个完全不同的方法,这是本文的范围。制定这个问题,首先,MDP及其元素的概念进行了综述和讨论。gydF4y2B一个

定义1。gydF4y2B一个

MDP是一个元组gydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 〉gydF4y2B一个 ,在那里gydF4y2B一个 年代gydF4y2B一个 是所有国家的集合,gydF4y2B一个 一个gydF4y2B一个 是所有行动的集合,gydF4y2B一个 PgydF4y2B一个 :gydF4y2B一个 年代gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 ×gydF4y2B一个 年代gydF4y2B一个 →gydF4y2B一个 (gydF4y2B一个 0 1gydF4y2B一个 ]gydF4y2B一个 转移概率函数,gydF4y2B一个 rgydF4y2B一个 :gydF4y2B一个 年代gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 →gydF4y2B一个 RgydF4y2B一个 是奖励函数。gydF4y2B一个

在每个时间步长,gydF4y2B一个 tgydF4y2B一个 代理的感官环境的状态,gydF4y2B一个 年代gydF4y2B一个 tgydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 执行一个动作,gydF4y2B一个 一个gydF4y2B一个 tgydF4y2B一个 ∈gydF4y2B一个 一个gydF4y2B一个 。作为其行动的后果,代理接收到一个数值奖励,gydF4y2B一个 rgydF4y2B一个 tgydF4y2B一个 +gydF4y2B一个 1gydF4y2B一个 ∈gydF4y2B一个 RgydF4y2B一个 ,发现自己在一个新的国家gydF4y2B一个 年代gydF4y2B一个 tgydF4y2B一个 +gydF4y2B一个 1gydF4y2B一个 。代理的目的是学习行为的政策,gydF4y2B一个 πgydF4y2B一个 :gydF4y2B一个 年代gydF4y2B一个 tgydF4y2B一个 →gydF4y2B一个 一个gydF4y2B一个 tgydF4y2B一个 ,为了最大化其累计奖励。gydF4y2B一个

讨论不同种类的RL知识转移问题,Lazaric [gydF4y2B一个 1gydF4y2B一个MDP的]定义了三个元素。gydF4y2B一个

定义2。gydF4y2B一个

一个任务gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 是一个元组定义的MDPgydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 我gydF4y2B一个 〉gydF4y2B一个 、国家和行动空间定义上下文,转换模型gydF4y2B一个 PgydF4y2B一个 我gydF4y2B一个 定义了动态和奖赏函数gydF4y2B一个 rgydF4y2B一个 我gydF4y2B一个 定义了目标。gydF4y2B一个

知识转移的定义如下的问题。gydF4y2B一个

定义3。gydF4y2B一个

让gydF4y2B一个 TgydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 TgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 }gydF4y2B一个 是一个家庭的任务,获得一些知识的学习任务gydF4y2B一个 TgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 。知识转移的问题是使用这些知识来提高的学习任务gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 。gydF4y2B一个

这些元素用于分类的知识转移问题[gydF4y2B一个 1gydF4y2B一个]。gydF4y2B一个

定义4。gydF4y2B一个

目标转移是一个问题的所有任务gydF4y2B一个 TgydF4y2B一个 共享相同的上下文(即。,年代t一个te和行动年代pace) and the same transition model. Dynamics transfer is a problem in which tasks share the same context and the same reward function. In the case of domain transfer, the agents may have different dynamics, goals, and contexts.

在本文中,我们定义另一个类别的转移问题gydF4y2B一个 上下文传递gydF4y2B一个;的任务gydF4y2B一个 TgydF4y2B一个 共享相同的动力学和奖励,但有不同的上下文。事实上,这需要一个潜在的普遍存在的MDP所有代理的MDP可以映射。这可以解释使用MDP同态的概念(gydF4y2B一个 5gydF4y2B一个,gydF4y2B一个 6gydF4y2B一个]。gydF4y2B一个

定义5。gydF4y2B一个

一个MDP同态gydF4y2B一个 hgydF4y2B一个 从一个MDPgydF4y2B一个 TgydF4y2B一个 =gydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 〉gydF4y2B一个 MDP的gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 =gydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 ′gydF4y2B一个 〉gydF4y2B一个 是满射gydF4y2B一个 hgydF4y2B一个 :gydF4y2B一个 ΨgydF4y2B一个 →gydF4y2B一个 ΨgydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 ΨgydF4y2B一个 =gydF4y2B一个 年代gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 ,gydF4y2B一个 ΨgydF4y2B一个 ′gydF4y2B一个 =gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 ′gydF4y2B一个 ,满射的定义的元组gydF4y2B一个 〈gydF4y2B一个 fgydF4y2B一个 ,gydF4y2B一个 {gydF4y2B一个 ggydF4y2B一个 年代gydF4y2B一个 ∣gydF4y2B一个 年代gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 }gydF4y2B一个 〉gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 (gydF4y2B一个 fgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 )gydF4y2B一个 ,gydF4y2B一个 ggydF4y2B一个 年代gydF4y2B一个 (gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 )gydF4y2B一个 ,在那里gydF4y2B一个 fgydF4y2B一个 :gydF4y2B一个 年代gydF4y2B一个 →gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 和gydF4y2B一个 ggydF4y2B一个 年代gydF4y2B一个 :gydF4y2B一个 一个gydF4y2B一个 →gydF4y2B一个 一个gydF4y2B一个 ′gydF4y2B一个 ,这样gydF4y2B一个 (1)gydF4y2B一个 PgydF4y2B一个 ′gydF4y2B一个 fgydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 ggydF4y2B一个 年代gydF4y2B一个 一个gydF4y2B一个 ,gydF4y2B一个 fgydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 =gydF4y2B一个 ∑gydF4y2B一个 年代gydF4y2B一个 ′′gydF4y2B一个 ∈gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ]gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ∣gydF4y2B一个 年代gydF4y2B一个 PgydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 ′′gydF4y2B一个 ,gydF4y2B一个 ∀gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ∈gydF4y2B一个 一个gydF4y2B一个 (2)gydF4y2B一个 rgydF4y2B一个 ′gydF4y2B一个 fgydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 ggydF4y2B一个 年代gydF4y2B一个 一个gydF4y2B一个 =gydF4y2B一个 rgydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 。gydF4y2B一个

作为gydF4y2B一个 hgydF4y2B一个 是满射,它引起一个分区gydF4y2B一个 ΨgydF4y2B一个 用gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ,gydF4y2B一个 (gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ]gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 表示块gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 而gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 是,这样gydF4y2B一个 (3)gydF4y2B一个 lllllllllllllllllllllllllllllllllllllllgydF4y2B一个 ∀gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 ;gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 =gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ⟺gydF4y2B一个 hgydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 =gydF4y2B一个 hgydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 。gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ∣gydF4y2B一个 年代gydF4y2B一个 的投影gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 在gydF4y2B一个 年代gydF4y2B一个 ,这是一个分区上gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ]gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ∣gydF4y2B一个 年代gydF4y2B一个 是一块包含gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ;对于每一个gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ]gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ∣gydF4y2B一个 年代gydF4y2B一个 =gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ]gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 ∣gydF4y2B一个 年代gydF4y2B一个 当且仅当每一块gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 包含的一对gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 是一个组件中还包含一个对吗gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 是一个组件。gydF4y2B一个

我们称之为gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 的gydF4y2B一个 同态的形象gydF4y2B一个的gydF4y2B一个 TgydF4y2B一个 下gydF4y2B一个 hgydF4y2B一个 。从条件(gydF4y2B一个 1gydF4y2B一个)我们可以看到,政府行动对下有相同的图像gydF4y2B一个 hgydF4y2B一个 有相同的块过渡行为gydF4y2B一个 TgydF4y2B一个 相同,即转入任何给定的概率与相同的图像块的状态gydF4y2B一个 fgydF4y2B一个 。条件(gydF4y2B一个 2gydF4y2B一个)说,政府行动对下有相同的图像gydF4y2B一个 hgydF4y2B一个 有相同的期望的奖励。这些条件意味着gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 保存的动力学和奖励gydF4y2B一个 TgydF4y2B一个 消除一些原任务的细节gydF4y2B一个 TgydF4y2B一个 。gydF4y2B一个

现在,上下文的概念转移MDP同态的定义。gydF4y2B一个

定义6。gydF4y2B一个

的任务gydF4y2B一个 TgydF4y2B一个 被认为具有相同的环境的动态和奖励功能,如果有一个任务gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 =gydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 ′gydF4y2B一个 〉gydF4y2B一个 和gydF4y2B一个 lgydF4y2B一个 同态gydF4y2B一个 hgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 lgydF4y2B一个 这满足了这些条件之一:(i)gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 是同态的形象gydF4y2B一个 TgydF4y2B一个 kgydF4y2B一个 下gydF4y2B一个 hgydF4y2B一个 kgydF4y2B一个 和gydF4y2B一个 kgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 1、2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 }gydF4y2B一个 或(2)gydF4y2B一个 TgydF4y2B一个 kgydF4y2B一个 是同态的形象gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 下gydF4y2B一个 hgydF4y2B一个 kgydF4y2B一个 和gydF4y2B一个 kgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 1、2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 }gydF4y2B一个 。这些任务被称为上下文转移和知识转移的问题gydF4y2B一个 TgydF4y2B一个 被称为上下文传递。gydF4y2B一个

换句话说,任务上下文可转让的,如果有一个任务gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 所有任务的任务是同态的图片吗gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 ,或任务gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 是一个同态的所有任务的形象。解释的任务之间的关系gydF4y2B一个 TgydF4y2B一个 考虑下面的定义和定理gydF4y2B一个 6gydF4y2B一个]。gydF4y2B一个

定义7。gydF4y2B一个

政府行动对gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 和gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 如果同态是等价的gydF4y2B一个 hgydF4y2B一个 的gydF4y2B一个 TgydF4y2B一个 存在这样gydF4y2B一个 hgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 hgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 。州gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 和gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 如果(我)每一个行动都是相等的gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 ∈gydF4y2B一个 一个gydF4y2B一个 ,有一个行动gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 ∈gydF4y2B一个 一个gydF4y2B一个 这样gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 和gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 是等价的,(2)对每一个行动gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 ∈gydF4y2B一个 一个gydF4y2B一个 ,有一个行动gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 ∈gydF4y2B一个 一个gydF4y2B一个 ,这样gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 和gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 是等价的。gydF4y2B一个

等价的概念使我们下面的最优值等价定理。gydF4y2B一个

定理8。gydF4y2B一个

让gydF4y2B一个 米gydF4y2B一个 ′gydF4y2B一个 =gydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ′gydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 ′gydF4y2B一个 〉gydF4y2B一个 MDP的同态象gydF4y2B一个 米gydF4y2B一个 =gydF4y2B一个 〈gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ,gydF4y2B一个 rgydF4y2B一个 〉gydF4y2B一个 下gydF4y2B一个 hgydF4y2B一个 。对于任何gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 hgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 )gydF4y2B一个 ,在那里gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 是行动最优值函数。事实上,同态gydF4y2B一个 hgydF4y2B一个 我gydF4y2B一个 引起的分区gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 我gydF4y2B一个 在gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 如上所述。这实际上分区编码冗余任务的状态和行为的表征gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 。定理gydF4y2B一个 8gydF4y2B一个州,如果gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ,gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 hgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 ,然后gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 hgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 )gydF4y2B一个 。这意味着一块分区的元素gydF4y2B一个 BgydF4y2B一个 hgydF4y2B一个 我gydF4y2B一个 有相同的最优gydF4y2B一个 问gydF4y2B一个 等于一个最优值gydF4y2B一个 问gydF4y2B一个 值的任务gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 。它的结论是,对于每一个gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 lgydF4y2B一个 存在一个gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 在哪里gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 反之亦然。让gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 是一个源的任务。考虑以下定义。gydF4y2B一个

定义9。gydF4y2B一个

一个分区gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 在gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 =gydF4y2B一个 年代gydF4y2B一个 我gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 我gydF4y2B一个 据说是gydF4y2B一个 问gydF4y2B一个 价值尊重如果gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ,gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 和gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ≡gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 意味着gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 。gydF4y2B一个

换句话说,一个块gydF4y2B一个 问gydF4y2B一个 价值上的尊重分区gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 =gydF4y2B一个 年代gydF4y2B一个 我gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 我gydF4y2B一个 有相同的最优gydF4y2B一个 问gydF4y2B一个 值。这个分区的所有块用gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 /gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 。让gydF4y2B一个 CgydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 /gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 是一块分区gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 。相应的gydF4y2B一个 问gydF4y2B一个 价值这一块用gydF4y2B一个 问gydF4y2B一个 CgydF4y2B一个 ⋆gydF4y2B一个 ,在那里gydF4y2B一个 (4)gydF4y2B一个 问gydF4y2B一个 CgydF4y2B一个 ⋆gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ;gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 CgydF4y2B一个 。gydF4y2B一个 所有最佳的集合gydF4y2B一个 问gydF4y2B一个 值的任务gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 用gydF4y2B一个 (5)gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 ⋆gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 CgydF4y2B一个 ⋆gydF4y2B一个 ∣gydF4y2B一个 CgydF4y2B一个 ∈gydF4y2B一个 ΨgydF4y2B一个 我gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 。gydF4y2B一个 这是一个定理的直接推论gydF4y2B一个 8gydF4y2B一个。gydF4y2B一个

推论10。gydF4y2B一个

如果任务gydF4y2B一个 TgydF4y2B一个 然后,上下文可以转让吗gydF4y2B一个 fgydF4y2B一个 ogydF4y2B一个 rgydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 lgydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 jgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 1、2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 }gydF4y2B一个 (6)gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 ⋆gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 jgydF4y2B一个 ⋆gydF4y2B一个 。gydF4y2B一个

证明很简单。mdp的gydF4y2B一个 TgydF4y2B一个 有相同的同态形象吗gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 或同态的图像gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 ,那么他们都有相同的一组最优的gydF4y2B一个 问gydF4y2B一个 值的gydF4y2B一个 TgydF4y2B一个 ′gydF4y2B一个 。因此,最优的设置gydF4y2B一个 问gydF4y2B一个 价值观是相同的所有任务。gydF4y2B一个

这个推论表明最优gydF4y2B一个 问gydF4y2B一个 值的源任务可以使用目标任务加速学习。在转移问题,我们假定同态gydF4y2B一个 hgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 lgydF4y2B一个 不给,我们不知道确切的政府行动之间等效关系对不同的任务。相反,我们使用一个部分之间一对多映射的功能目标和任务转移的知识来源。这些知识表达和综合使用一些间隔gydF4y2B一个 问gydF4y2B一个 值。下面的例子阐明了上下文传递的问题。gydF4y2B一个

例11。gydF4y2B一个

考虑一个gydF4y2B一个 10gydF4y2B一个 ×gydF4y2B一个 10gydF4y2B一个 网格作为一个农场有三个不同的作物;西红柿、黄瓜、西瓜(图gydF4y2B一个 1gydF4y2B一个)。有三个收获机器人收集作物和聚集成三个不同的目标位置;西红柿在G1, G2的黄瓜,西瓜在G3。有五种类型的传感器模块;GPS,梁的信号距离指标,指南针、黑白相机,和color&weight传感器。机器人使用不同的传感器来估计它们的状态,如图gydF4y2B一个 1gydF4y2B一个。GPS是一对的输出数据gydF4y2B一个 (gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 )gydF4y2B一个 ,gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ≤gydF4y2B一个 10gydF4y2B一个 ,表明垂直和水平位置,输出光束的距离指示器是一对数字gydF4y2B一个 (gydF4y2B一个 bgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 bgydF4y2B一个 2gydF4y2B一个 )gydF4y2B一个 ,gydF4y2B一个 2gydF4y2B一个 ≤gydF4y2B一个 bgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 bgydF4y2B一个 2gydF4y2B一个 ≤gydF4y2B一个 20.gydF4y2B一个 ,在那里gydF4y2B一个 bgydF4y2B一个 1gydF4y2B一个 和gydF4y2B一个 bgydF4y2B一个 2gydF4y2B一个 1-norm距离光束。罗盘传感器使机器人的方向和其他传感器模块是用来区分的作物如表gydF4y2B一个 1gydF4y2B一个。机器人1和3使用color&weight传感器和机器人2使用黑白相机来区分的作物,解释图gydF4y2B一个 1gydF4y2B一个。gydF4y2B一个

考虑一个抽象的机器人的状态是一对gydF4y2B一个 (gydF4y2B一个 ngydF4y2B一个 ,gydF4y2B一个 kgydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 ′gydF4y2B一个 在哪里gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 ngydF4y2B一个 ≤gydF4y2B一个 One hundred.gydF4y2B一个 是网格编号时,网格的数量从左到右,从下到上,然后呢gydF4y2B一个 kgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 来gydF4y2B一个 ,gydF4y2B一个 铜gydF4y2B一个 ,gydF4y2B一个 佤邦gydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 }gydF4y2B一个 。条款gydF4y2B一个 来gydF4y2B一个 ,gydF4y2B一个 铜gydF4y2B一个 ,gydF4y2B一个 佤邦gydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 代表西红柿,黄瓜,西瓜,和没有什么分别。的动作是一样的机器人的行动1;也就是说,gydF4y2B一个 一个gydF4y2B一个 ′gydF4y2B一个 =gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 。一个可以很容易地检查有三个同态gydF4y2B一个 hgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 3gydF4y2B一个 从机器人的MDP 1、2和3的MDP的抽象机器人,有关等效双MDP的政府行动。例如,我们有gydF4y2B一个 (7)gydF4y2B一个 hgydF4y2B一个 1gydF4y2B一个 3、4gydF4y2B一个 ,gydF4y2B一个 RgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 =gydF4y2B一个 33gydF4y2B一个 ,gydF4y2B一个 来gydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 1gydF4y2B一个 2、1gydF4y2B一个 ,gydF4y2B一个 YgydF4y2B一个 HgydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 =gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 佤邦gydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 2gydF4y2B一个 5、1gydF4y2B一个 ,gydF4y2B一个 EgydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 5gydF4y2B一个 ,gydF4y2B一个 铜gydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 2gydF4y2B一个 10、2gydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 =gydF4y2B一个 20日0gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 3gydF4y2B一个 6、7gydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 FgydF4y2B一个 =gydF4y2B一个 85年gydF4y2B一个 ,gydF4y2B一个 铜gydF4y2B一个 ,gydF4y2B一个 EgydF4y2B一个 ,gydF4y2B一个 hgydF4y2B一个 3gydF4y2B一个 18日8gydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 ,gydF4y2B一个 FgydF4y2B一个 =gydF4y2B一个 93年0gydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 。gydF4y2B一个

因此,机器人1、2和3有相同的环境的动态和奖励和上下文可转让的,虽然他们没有相同的MDP和他们之间没有一对一的映射集的状态和行为。这是因为存在的冗余在表征的环境中,这种情况在大多数实际应用。gydF4y2B一个

传感器的输出模块对不同种类的作物。gydF4y2B一个

作物gydF4y2B一个 黑与白的相机gydF4y2B一个 颜色gydF4y2B一个 重量gydF4y2B一个
番茄gydF4y2B一个 小世界gydF4y2B一个 红色的gydF4y2B一个 光gydF4y2B一个
黄瓜gydF4y2B一个 杆gydF4y2B一个 绿色gydF4y2B一个 光gydF4y2B一个
西瓜gydF4y2B一个 全球大gydF4y2B一个 绿色或黄色gydF4y2B一个 重gydF4y2B一个

一个gydF4y2B一个 10gydF4y2B一个 ×gydF4y2B一个 10gydF4y2B一个 网格与三个作物和三个农场收获机器人。机器人1:传感器模块:GPS, color&weight传感器,gydF4y2B一个 年代gydF4y2B一个 1gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ,gydF4y2B一个 kgydF4y2B一个 ∣gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ≤gydF4y2B一个 10gydF4y2B一个 ,gydF4y2B一个 kgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 RgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 HgydF4y2B一个 ,gydF4y2B一个 YgydF4y2B一个 HgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 }gydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 列号,gydF4y2B一个 ygydF4y2B一个 :行号,gydF4y2B一个 RgydF4y2B一个 :红、gydF4y2B一个 GgydF4y2B一个 :绿色,gydF4y2B一个 YgydF4y2B一个 :黄色,gydF4y2B一个 lgydF4y2B一个 :轻、gydF4y2B一个 HgydF4y2B一个 :重,0:没什么,gydF4y2B一个 一个gydF4y2B一个 1gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 EgydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ,gydF4y2B一个 DgydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 :北移动,gydF4y2B一个 年代gydF4y2B一个 :向南推进,gydF4y2B一个 EgydF4y2B一个 :往东走,gydF4y2B一个 WgydF4y2B一个 :西迁,0:没什么,gydF4y2B一个 PgydF4y2B一个 :皮卡,gydF4y2B一个 DgydF4y2B一个 :跳伞。机器人2:传感器模块:GPS,指南针,黑白相机,gydF4y2B一个 年代gydF4y2B一个 2gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 (gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ,gydF4y2B一个 cgydF4y2B一个 )gydF4y2B一个 ∣gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ≤gydF4y2B一个 10gydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 EgydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 cgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 SGgydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 ,gydF4y2B一个 BGgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 }gydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 是一样的机器人,gydF4y2B一个 dgydF4y2B一个 :方向,gydF4y2B一个 SGgydF4y2B一个 :小世界,gydF4y2B一个 TgydF4y2B一个 :杆,gydF4y2B一个 BGgydF4y2B一个 :大全球,0:没什么,gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 FgydF4y2B一个 ,gydF4y2B一个 BgydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 RgydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 FgydF4y2B一个 ,gydF4y2B一个 RgydF4y2B一个 FgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 ,gydF4y2B一个 PgydF4y2B一个 ,gydF4y2B一个 DgydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 FgydF4y2B一个 :前进,gydF4y2B一个 BgydF4y2B一个 :向后移动,gydF4y2B一个 lgydF4y2B一个 :左转,gydF4y2B一个 RgydF4y2B一个 :向右转,gydF4y2B一个 lgydF4y2B一个 FgydF4y2B一个 :左转&gydF4y2B一个 FgydF4y2B一个 ,gydF4y2B一个 RgydF4y2B一个 FgydF4y2B一个 :右转gydF4y2B一个 FgydF4y2B一个 0:没什么,gydF4y2B一个 PgydF4y2B一个 :皮卡,gydF4y2B一个 DgydF4y2B一个 :跳伞。机器人3:传感器模块:梁的信号距离指标,指南针、颜色和重量传感器,gydF4y2B一个 年代gydF4y2B一个 3gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 (gydF4y2B一个 bgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 bgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ,gydF4y2B一个 kgydF4y2B一个 )gydF4y2B一个 ∣gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 bgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 bgydF4y2B一个 2gydF4y2B一个 ≤gydF4y2B一个 20.gydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 年代gydF4y2B一个 ,gydF4y2B一个 EgydF4y2B一个 ,gydF4y2B一个 WgydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 kgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 RgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 HgydF4y2B一个 ,gydF4y2B一个 YgydF4y2B一个 HgydF4y2B一个 ,gydF4y2B一个 0gydF4y2B一个 }gydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 bgydF4y2B一个 我gydF4y2B一个 梁:1-norm距离gydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 是一样的机器人2gydF4y2B一个 kgydF4y2B一个 作为机器人1,gydF4y2B一个 一个gydF4y2B一个 3gydF4y2B一个 =gydF4y2B一个 一个gydF4y2B一个 2gydF4y2B一个 。gydF4y2B一个

3所示。为什么上下文传递重要gydF4y2B一个

大多数当前传输的学习方法在RL通常称作“利用知识学习提高学习任务来源相关,但不同,目标任务。这些方法能够成功地代理在不同的任务之间传输知识。gydF4y2B一个

论述了语境在RL转移,也就是说,代理与不同国家之间转移知识和行动空间。在这种类型的转移目标的问题是一样的:减少所需的时间与转让、学习目标相对于学而不转移。我们认为这是一个重要的问题,原因如下。gydF4y2B一个

首先,可能会有不同的代理商有不同传感器或执行器的环境以及它们之间的合作可以改善学习过程。这些代理可以类似于机器人的例子gydF4y2B一个 11gydF4y2B一个。解决问题的上下文传递可以促进合作代理。gydF4y2B一个

其次,在许多真实世界的场景中,一个实际上没有使用最小化的MDP模型环境,而且通常有很多冗余的MDP模型。在这种情况下,可能会有一个代理,已经训练与一个特定的内部表示任务的状态和行为但性能很差。不同的内部表示可以让代理来实现更高的性能。上下文使代理可以使用前面的知识转移到加快学习与新状态和行动空间。gydF4y2B一个

第三,考虑实际工作学习系统。在某种程度上,我们决定升级其传感器和/或执行器模块。这些模块的任何变化都将导致不同的描述环境的动态和奖赏函数。因此,学习算法和训练知识不再适用。如果经验是昂贵的环境中,最好利用代理的现有知识提高学习新的传感器或执行器。上下文传递可以解决问题。gydF4y2B一个

为了解决这个问题,一个需要一个代理的政府行动空间之间的映射。泰勒et al。gydF4y2B一个 8gydF4y2B一个)使用手工编码的状态和动作之间的映射的源和目标任务,即gydF4y2B一个 χgydF4y2B一个 年代gydF4y2B一个 和gydF4y2B一个 χgydF4y2B一个 一个gydF4y2B一个 。映射gydF4y2B一个 χgydF4y2B一个 年代gydF4y2B一个 目标任务的每个状态变量映射到源状态最相似的任务。同样,映射gydF4y2B一个 χgydF4y2B一个 一个gydF4y2B一个 目标任务的每个操作映射到源的最类似的行动任务。这双映射称为任务间的映射。他们使用任务间映射到传输行为价值函数从源到目标的任务,从而提高目标的学习任务。在[gydF4y2B一个 9gydF4y2B一个),任务间映射用于转移样品从源到目标的任务。在[gydF4y2B一个 10gydF4y2B一个),泰勒和石头使用任务间映射到传输源任务政策目标任务像一些规则。政策转移规则总结源任务。任务间的映射作为翻译的规则中使用的目标任务。在某些情况下,是不可能定义的关系政府行动空间代理的任务间的映射(一对映射)。例如,在示例gydF4y2B一个 11gydF4y2B一个,一个不能直接映射定义为机器人的动作1和2之间的关系;例如,没有行动相当于机器人1(上,下,左,右)的行动机器人的“前进”2。虽然可以定义一个政府行动之间的映射对机器人,当机器人的状态2是“了”和推进,它等于移动机器人1的“上”。因此,我们使用一个政府行动对之间的映射,而不是任务间的映射。gydF4y2B一个

Blockeel et al。gydF4y2B一个 11gydF4y2B一个)用不同的状态转移关系中宏任务特性和行为。在这种方法中,关系宏被定义为有限状态机的转换条件和节点行为是由一阶逻辑的条款。宏描述成功的行为在源任务。归纳逻辑编程用来学习一个宏,然后使用它的早期学习阶段目标任务。gydF4y2B一个

文德兰花和BartogydF4y2B一个 12gydF4y2B一个)、索尼和辛格(gydF4y2B一个 13gydF4y2B一个)使用同态框架将任务映射到一个共同的抽象级别。选项上定义一个抽象的MDP,称为相对化选项,然后他们的政策将根据特定的目标任务。更具体地说,提供一组可能的转换和传输的目标是确定最合适的转换相对化的选项根据当前目标的任务。gydF4y2B一个

Konidaris和BartogydF4y2B一个 14gydF4y2B一个,gydF4y2B一个 15gydF4y2B一个]在更高层次的抽象定义选项,可以使用由目标任务没有任何明确的任务的状态和动作之间的映射。在这种方法中,任务的相似性被建模为agent-space和任务的差异是建模为问题空间。任务被认为有共同特性和reward-linked;奖励分配相似的任务。代理从经验中学习便携式塑造功能源任务agent-space改善性能的目标任务。提出定义reward-linked大多是定性的概念,而不是一个精确的数学定义。gydF4y2B一个

本文试图提出一个正式的定义上下文传递问题。这个定义有一些重叠的提到的方法,但其框架和数学公式首次给出。我们使用MDP同态的概念完全制定环境转移的任务。提出的算法来解决这个问题不需要一个精确的任务间的映射或任务之间存在的一些共享的特性就像前面提到过的方法;它只需要一个部分之间的映射源和目标任务的一些特性。它也有能力相结合的几种不同来源的知识任务使用的目标任务。gydF4y2B一个

4所示。特征空间之间的翻译任务gydF4y2B一个

在[gydF4y2B一个 14gydF4y2B一个),共享功能的概念用于任务之间的知识转移。代理使用的共享功能是学习一个便携式塑造功能的任务序列中显著提高性能在以后的相关任务。在本文中,我们遵循相同的使用功能空间的想法作为知识转移的工具。然而,我们的问题,它的配方,建议的解决方案是不同的。一般来说,一个代理配备一套传感器和致动器。代理的感官环境状况的使用传感器和执行一个操作的输出使用它的致动器。的元组传感器和致动器的输出是一个特征向量。让任务的传感器和执行器的数量gydF4y2Ba TgydF4y2B一个 我gydF4y2B一个 是gydF4y2B一个 ngydF4y2B一个 ,gydF4y2B一个 fgydF4y2B一个 jgydF4y2B一个 表示gydF4y2B一个 jgydF4y2B一个 th元素的特征向量。特征向量表示gydF4y2B一个 (gydF4y2B一个 fgydF4y2B一个 1gydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 fgydF4y2B一个 2gydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 fgydF4y2B一个 ngydF4y2B一个 我gydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 FgydF4y2B一个 我gydF4y2B一个 ,在那里gydF4y2B一个 FgydF4y2B一个 我gydF4y2B一个 =gydF4y2B一个 FgydF4y2B一个 1gydF4y2B一个 我gydF4y2B一个 ×gydF4y2B一个 FgydF4y2B一个 2gydF4y2B一个 我gydF4y2B一个 ⋯gydF4y2B一个 ×gydF4y2B一个 FgydF4y2B一个 ngydF4y2B一个 我gydF4y2B一个 的空间特征向量。gydF4y2B一个 FgydF4y2B一个 jgydF4y2B一个 我gydF4y2B一个 所有特征值的设置吗gydF4y2B一个 jgydF4y2B一个 th特性。这种映射分配一双政府行动的每一个特征向量:gydF4y2B一个 (8)gydF4y2B一个 lgydF4y2B一个 我gydF4y2B一个 :gydF4y2B一个 FgydF4y2B一个 我gydF4y2B一个 ⟶gydF4y2B一个 年代gydF4y2B一个 我gydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 在哪里gydF4y2B一个 年代gydF4y2B一个 我gydF4y2B一个 和gydF4y2B一个 一个gydF4y2B一个 我gydF4y2B一个 的状态和动作的任务gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 ,分别。gydF4y2B一个

源的知识转移到目标任务(有不同的上下文),需要一些信息有关gydF4y2B一个 问gydF4y2B一个 政府行动的价值观对源到目标的任务。这些信息可能是不确定的,模糊的,甚至在某些情况下无法使用。解决这个问题在这种情况下,我们使用领域知识的特征空间的特征向量之间的一些关系源和目标任务。这个信息可以表达的一个映射gydF4y2B一个 (9)gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 :gydF4y2B一个 FgydF4y2B一个 lgydF4y2B一个 ⟶gydF4y2B一个 FgydF4y2B一个 我gydF4y2B一个 。gydF4y2B一个 这种映射关系源任务的一个特征向量gydF4y2B一个 我gydF4y2B一个 一个特征向量的目标任务。一般来说,这种映射可以是一对多的映射。如果这是一个一对一的映射,然后有一个确切的对应特征向量之间的源和目标任务和任务之间可以转移的知识没有任何歧义。上下文之间转移的过程任务来源gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 和目标任务gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 如图gydF4y2B一个 2gydF4y2B一个。gydF4y2B一个

上下文之间转移的过程任务来源gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 和目标任务gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 所有映射是已知的除外gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 。gydF4y2B一个

在这个图中,gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 映射源任务的学习过程的结果gydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 和分配最优gydF4y2B一个 问gydF4y2B一个 的最优值gydF4y2B一个 问gydF4y2B一个 值,gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 ⋆gydF4y2B一个 ,在定义部分gydF4y2B一个 2gydF4y2B一个,每一个政府行动。源和目标任务上下文可转让,因此,gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 ⋆gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 ⋆gydF4y2B一个 。目标的学习过程代理估计映射gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 。我们使用其他映射来估计一个近似映射gydF4y2B一个 CTgydF4y2B一个 作为一个初始估计gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 从而加速学习过程的目标任务。这是图的图所示gydF4y2B一个 2gydF4y2B一个。对于每一个gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 :gydF4y2B一个 (10)gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 ∘gydF4y2B一个 lgydF4y2B一个 我gydF4y2B一个 ∘gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 ∘gydF4y2B一个 lgydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 在哪里gydF4y2B一个 GgydF4y2B一个 ∘gydF4y2B一个 HgydF4y2B一个 (gydF4y2B一个 ·gydF4y2B一个 )gydF4y2B一个 表示的映射组成gydF4y2B一个 GgydF4y2B一个 和gydF4y2B一个 HgydF4y2B一个 ,即gydF4y2B一个 GgydF4y2B一个 ∘gydF4y2B一个 HgydF4y2B一个 (gydF4y2B一个 ·gydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 GgydF4y2B一个 (gydF4y2B一个 HgydF4y2B一个 (gydF4y2B一个 ·gydF4y2B一个 )gydF4y2B一个 )gydF4y2B一个 。映射gydF4y2B一个 lgydF4y2B一个 我gydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 表示的逆映射gydF4y2B一个 lgydF4y2B一个 我gydF4y2B一个 ,gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 是一个估计gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 使用上下文转移。gydF4y2B一个

示例12。gydF4y2B一个

指的是例子gydF4y2B一个 11gydF4y2B一个,假设机器人的任务2和3是源和目标任务,分别。任务之间的共享特性的值罗盘传感器和致动器。我们也知道这两个的值gydF4y2B一个 cgydF4y2B一个 =gydF4y2B一个 0gydF4y2B一个 机器人2,gydF4y2B一个 kgydF4y2B一个 =gydF4y2B一个 0gydF4y2B一个 机器人3指的是“没有什么价值。“我们使用此信息来与政府行动对源和目标任务。例如,我们有gydF4y2B一个 (11)gydF4y2B一个 KgydF4y2B一个 2gydF4y2B一个 (gydF4y2B一个 3、12gydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 RgydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 FgydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 ,gydF4y2B一个 cgydF4y2B一个 ,gydF4y2B一个 FgydF4y2B一个 ∣gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ≤gydF4y2B一个 10gydF4y2B一个 ,gydF4y2B一个 cgydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 GgydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 ,gydF4y2B一个 BgydF4y2B一个 GgydF4y2B一个 。gydF4y2B一个

5。知识融合和传输gydF4y2B一个

在[gydF4y2B一个 3gydF4y2B一个),RL转移问题的解决方法分为五类;起点方法、模拟方法、分层方法,改变方法和新的RL算法的方法。在起点的方法,而不是零个或随机初始化目标任务,目标任务是基于知识从源任务初始化。模仿的方法涉及到传输方法源任务策略应用时选择一些行动学习目标任务。第三类RL转移包括分级方法。这些方法查看源子任务的目标。RL传输方法的下节课涉及改变状态空间,操作空间,或奖励函数基于源任务目标任务的知识。它包括简化抽象状态空间的状态,减少和奖励塑造的行动空间。新的RL算法方法包括全新的RL算法。这些方法解决传输作为一个固有的RL的一部分。gydF4y2Ba

在本文中,我们采用一种起点方法转移的知识;我们使用的知识来源任务初始化目标的学习任务,而不是零个或随机初始化。假设源的学习任务是停在一个特定的时间,因为学习和标准gydF4y2B一个 问gydF4y2B一个 值的源使用的任务目标的任务,这是学习的初始步骤。gydF4y2B一个

现在,考虑的集合gydF4y2B一个 TgydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 TgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 }gydF4y2B一个 在哪里gydF4y2B一个 TgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 是源和gydF4y2B一个 TgydF4y2B一个 lgydF4y2B一个 是目标任务部分中解释gydF4y2B一个 2gydF4y2B一个。映射gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 与最优gydF4y2B一个 问gydF4y2B一个 价值的政府行动对gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ×gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 。的映射gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 可能是一对多的映射,因此,gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 是一个多值函数,然后呢gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 是一个给定值,而不是单个值,也就是说,gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 ⊆gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 ⋆gydF4y2B一个 。为gydF4y2B一个 我gydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 1、2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 }gydF4y2B一个 ,我们将gydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 不同的设置值一双政府行动的目标任务。人们很容易把不同来源的知识任务使用的交叉算子gydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 设置值,gydF4y2B一个 (12)gydF4y2B一个 CTgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 ⋂gydF4y2B一个 我gydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 }gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 。gydF4y2B一个

这是可能的gydF4y2B一个 问gydF4y2B一个 两个值gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 使用任务的知识来源。这些定义是用来初始化gydF4y2B一个 问gydF4y2B一个 值目标的任务。我们可以使用一个统计平均算子来估计一个值设定值gydF4y2B一个 CTgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 作为一个初始值gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 。例如,我们可以使用gydF4y2B一个 的意思是gydF4y2B一个,gydF4y2B一个 中位数gydF4y2B一个,或gydF4y2B一个 中档gydF4y2B一个操作符。在本文中,我们使用gydF4y2B一个 中档gydF4y2B一个算子,定义如下:gydF4y2B一个 (13)gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 ~gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 中档gydF4y2B一个 CTgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 在哪里gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 ~gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 的初始估计吗gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 和gydF4y2B一个 (14)gydF4y2B一个 中档gydF4y2B一个 xgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 kgydF4y2B一个 =gydF4y2B一个 马克斯gydF4y2B一个 ⁡gydF4y2B一个 (gydF4y2B一个 xgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 kgydF4y2B一个 )gydF4y2B一个 +gydF4y2B一个 最小值gydF4y2B一个 ⁡gydF4y2B一个 (gydF4y2B一个 xgydF4y2B一个 1gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 kgydF4y2B一个 )gydF4y2B一个 2gydF4y2B一个 。gydF4y2B一个 这个操作符有一些优势gydF4y2B一个 的意思是gydF4y2B一个或gydF4y2B一个 中位数gydF4y2B一个运营商,因为一些实现问题。也有一些直观的解释使用这个操作符作为下一节讨论。gydF4y2B一个

6。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M276 " > < mml: mrow > < mml: mi > Q < / mml: mi > < / mml: mrow > < / mml:数学> < / inline-formula >间隔对知识融合gydF4y2B一个

前一节中所说明的,上下文转换映射,gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 ,通常是一个一对多的映射。因此,的价值gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 ⊆gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 ⋆gydF4y2B一个 和gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 ∈gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 是一个给定值,而不是一个单一值。我们使用一个基于间隔的方法来表示这个给定值的不确定性。考虑以下定义:gydF4y2B一个 (15)gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 - - - - - -gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 +gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 在哪里gydF4y2B一个 (16)gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 - - - - - -gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 最小值gydF4y2B一个 ⁡gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 ∈gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 +gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 =gydF4y2B一个 马克斯gydF4y2B一个 ⁡gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 ∈gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 (gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 )gydF4y2B一个 问gydF4y2B一个 ⋆gydF4y2B一个 。gydF4y2B一个 我们称之为gydF4y2B一个 问gydF4y2B一个 时间间隔。每一个gydF4y2B一个 问gydF4y2B一个 间隔,两个措施有关gydF4y2B一个 (17)gydF4y2B一个 容器gydF4y2B一个 问gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 +gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 - - - - - -gydF4y2B一个 +gydF4y2B一个 问gydF4y2B一个 +gydF4y2B一个 2gydF4y2B一个 ,gydF4y2B一个 UncrgydF4y2B一个 问gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 +gydF4y2B一个 =gydF4y2B一个 问gydF4y2B一个 - - - - - -gydF4y2B一个 - - - - - -gydF4y2B一个 问gydF4y2B一个 +gydF4y2B一个 。gydF4y2B一个 这些措施被称为gydF4y2B一个 中心gydF4y2B一个和gydF4y2B一个 不确定性gydF4y2B一个的措施gydF4y2B一个 问gydF4y2B一个 分别间隔。让gydF4y2B一个 (gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 ]gydF4y2B一个 和gydF4y2B一个 (gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 ]gydF4y2B一个 是两个gydF4y2B一个 问gydF4y2B一个 时间间隔。这些定义上产生两个序gydF4y2B一个 问gydF4y2B一个 间隔,如下所示:gydF4y2B一个 (18)gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 ≤gydF4y2B一个 RgydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 ⟺gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ≤gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 ≤gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 ≤gydF4y2B一个 KgydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 ⟺gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ≤gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 ≤gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 。gydF4y2B一个 第一个命令可以被理解为更多的奖励,和第二个可以被认为是更准确的订购。这些序可以诱导数学bilattice结构(gydF4y2B一个 16gydF4y2B一个- - - - - -gydF4y2B一个 18gydF4y2B一个)的集合gydF4y2B一个 问gydF4y2B一个 时间间隔。在[gydF4y2B一个 19gydF4y2B一个,gydF4y2B一个 20.gydF4y2B一个),bilattices讨论作为一种工具的推理知识当多个代理。考虑以下定义。gydF4y2B一个

我们使用以下操作结合的知识不同的代理:gydF4y2B一个 (19)gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 ⊕gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 =gydF4y2B一个 最小值gydF4y2B一个 ⁡gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 - - - - - -gydF4y2B一个 ,gydF4y2B一个 马克斯gydF4y2B一个 ⁡gydF4y2B一个 问gydF4y2B一个 1gydF4y2B一个 +gydF4y2B一个 ,gydF4y2B一个 问gydF4y2B一个 2gydF4y2B一个 +gydF4y2B一个 。gydF4y2B一个 这个操作符叫做bilattices轻信。gydF4y2B一个

一个可以很容易地显示设置值的上下文映射和相应的转移gydF4y2B一个 问gydF4y2B一个 间隔有以下属性:gydF4y2B一个 (20)gydF4y2B一个 中档gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 容器gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 CTgydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ⊆gydF4y2B一个 CTgydF4y2B一个 jgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ⟹gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ≤gydF4y2B一个 KgydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 jgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 CTgydF4y2B一个 kgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 CgydF4y2B一个 TgydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ∩gydF4y2B一个 CTgydF4y2B一个 jgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ⟹gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 kgydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 ⊕gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 。gydF4y2B一个 有一些直观的解释这些关系。例如,第二个关系说,随着设定值趋于单一,相应的gydF4y2B一个 问gydF4y2B一个 间隔将去一个精确值,代表高阶的知识。第三个关系的直觉轻信bilattices的运营商。因此,我们只需要记录的最小值和最大值的设置值(或相应的gydF4y2B一个 问gydF4y2B一个 间隔),使用下面的关系将不同来源的知识任务:gydF4y2B一个 (21)gydF4y2B一个 问gydF4y2B一个 lgydF4y2B一个 ~gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 =gydF4y2B一个 容器gydF4y2B一个 ⨁gydF4y2B一个 我gydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 1、2gydF4y2B一个 ,gydF4y2B一个 …gydF4y2B一个 ,gydF4y2B一个 lgydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 }gydF4y2B一个 我gydF4y2B一个 问gydF4y2B一个 我gydF4y2B一个 年代gydF4y2B一个 lgydF4y2B一个 ,gydF4y2B一个 一个gydF4y2B一个 lgydF4y2B一个 。gydF4y2B一个

7所示。案例研究和结果gydF4y2B一个

来验证提出的算法的有效性,两个案例研究。在下一节中,我们讨论这些案例研究。gydF4y2B一个

7.1。代理不同的传感器或执行器gydF4y2B一个

有一些代理的环境中做相同的任务,即使使用不同的传感器或执行器。这些代理之间的合作或知识转移可以提高学习。这些代理可以使用上下文传递分享他们的知识。考虑到机器人的例子gydF4y2B一个 11gydF4y2B一个;让机器人1和2是源和机器人3是目标代理。农场是一个假设gydF4y2B一个 50gydF4y2B一个 ×gydF4y2B一个 50gydF4y2B一个 网格与一些随机水坑。奖励函数如下:gydF4y2B一个 (22)gydF4y2B一个 奖励gydF4y2B一个 =gydF4y2B一个 - - - - - -gydF4y2B一个 1gydF4y2B一个 采取gydF4y2B一个 一个gydF4y2B一个 行动gydF4y2B一个 除了gydF4y2B一个 的gydF4y2B一个 后gydF4y2B一个 - - - - - -gydF4y2B一个 10gydF4y2B一个 进入gydF4y2B一个 一个gydF4y2B一个 水坑gydF4y2B一个 ,gydF4y2B一个 错误的gydF4y2B一个 皮卡gydF4y2B一个 或gydF4y2B一个 跳伞gydF4y2B一个 One hundred.gydF4y2B一个 达到我们的目标。gydF4y2B一个

源代理(机器人1和2)学会了1000集的任务。检查算法,目标任务的学习过程运行的4倍;第一没有转移,第二,从机器人1,第三,从机器人2,与转移,从机器人1和2后知识融合。gydF4y2B一个

学习的目标代理500集,整个学习重复50次。softmax行动选择策略,和学习参数如下;学习速率(gydF4y2B一个 αgydF4y2B一个 )是0.1,折扣因子(gydF4y2B一个 γgydF4y2B一个 )被设置为0.9和温度(gydF4y2B一个 τgydF4y2B一个 )减少指数函数(gydF4y2B一个 τgydF4y2B一个 =gydF4y2B一个 egydF4y2B一个 - - - - - -gydF4y2B一个 0.1gydF4y2B一个 ngydF4y2B一个 +gydF4y2B一个 0.5gydF4y2B一个 ),gydF4y2B一个 ngydF4y2B一个 是集的数量。gydF4y2B一个

最后的学习曲线平均50独立的学习曲线。平均奖励和后悔学习数据所示的函数gydF4y2B一个 3gydF4y2B一个和gydF4y2B一个 4gydF4y2B一个,分别。遗憾是预期的减少执行算法不是最优行为的奖励,因为从一开始(gydF4y2B一个 21gydF4y2B一个]。结果显示平均报酬的增加和减少后悔一开始学习。的知识融合机器人1和2显著提高学习。gydF4y2B一个

的平均回报的比较学习的4例转移:没有转移,转移从机器人1,从机器人2,转移和转移从机器人。gydF4y2B一个

后悔的比较学习的四例转移:没有转移,转移从机器人1,从机器人2,转移和转移从机器人。gydF4y2B一个

7.2。学习代理的感觉运动系统的变化gydF4y2B一个

表示是一个关键的组件的强化学习算法。表示的任何改变将导致不同的描述环境的动态和奖赏函数,和学习算法不再适用。仅对整个学习过程是不可取的,尤其是,当经验是昂贵的。例如,升级感觉运动系统的代理,即使保存以前的知识。上下文从任务感觉器官与旧系统转移到任务感觉器官与新系统可以解决这个问题。gydF4y2B一个

我们使用“十字路口交通控制器”任务为例。这个问题是讨论的场景的修改版(gydF4y2B一个 22gydF4y2B一个),这是一个随机任务。有一个十字路口的双向道路导致正方形网格中心,一个水平和垂直。任务是控制交通灯通过切换垂直和水平之间的绿灯车道保持队列在红绿灯前尽可能小(图gydF4y2B一个 5gydF4y2B一个)。在每个车道的光面前,只有五个正方形。奖励总额的汽车在红绿灯前*−1。切换光原因4次步骤的过渡时期,一个红绿灯是橙色的,另一个是红色的。在这个过渡时期没有汽车可以通过十字路口和行动在这个时期没有效果。汽车的速度是每时间步广场。gydF4y2B一个

十字路口交通控制器。旧系统:传感器:距离传感器,gydF4y2B一个 年代gydF4y2B一个 老gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ∣gydF4y2B一个 1gydF4y2B一个 ≤gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ≤gydF4y2B一个 10gydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 VgydF4y2B一个 ,gydF4y2B一个 HgydF4y2B一个 }gydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 :距离第一辆车在垂直通道,gydF4y2B一个 ygydF4y2B一个 :距离第一辆汽车在水平巷,gydF4y2B一个 VgydF4y2B一个 :垂直巷是绿色的,gydF4y2B一个 HgydF4y2B一个 :横巷是绿色的,gydF4y2B一个 一个gydF4y2B一个 老gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 GgydF4y2B一个 VgydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 HgydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 GgydF4y2B一个 VgydF4y2B一个 :垂直车道改为绿色,gydF4y2B一个 GgydF4y2B一个 HgydF4y2B一个 :横向车道改为绿色,gydF4y2B一个 NgydF4y2B一个 :不行动。新系统:传感器:相机,gydF4y2B一个 年代gydF4y2B一个 新gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ∣gydF4y2B一个 0gydF4y2B一个 ≤gydF4y2B一个 xgydF4y2B一个 ,gydF4y2B一个 ygydF4y2B一个 ≤gydF4y2B一个 1023年gydF4y2B一个 ,gydF4y2B一个 dgydF4y2B一个 ∈gydF4y2B一个 {gydF4y2B一个 VgydF4y2B一个 ,gydF4y2B一个 HgydF4y2B一个 }gydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 xgydF4y2B一个 :汽车存在编码前十平方的垂直通道,gydF4y2B一个 ygydF4y2B一个 :汽车的存在编码前十横巷的广场,gydF4y2B一个 VgydF4y2B一个 :垂直巷是绿色的,gydF4y2B一个 HgydF4y2B一个 :横巷是绿色的,gydF4y2B一个 一个gydF4y2B一个 新gydF4y2B一个 =gydF4y2B一个 {gydF4y2B一个 CgydF4y2B一个 ,gydF4y2B一个 NgydF4y2B一个 }gydF4y2B一个 ,gydF4y2B一个 CgydF4y2B一个 :改变光线,gydF4y2B一个 NgydF4y2B一个 :不行动。gydF4y2B一个

系统正在与一个旧的传感器,给出了距离第一辆车接近每个车道的十字路口。因此,旧的系统gydF4y2B一个 5gydF4y2B一个 ×gydF4y2B一个 5gydF4y2B一个 ×gydF4y2B一个 5gydF4y2B一个 ×gydF4y2B一个 5gydF4y2B一个 ×gydF4y2B一个 2gydF4y2B一个 图中描述gydF4y2B一个 5gydF4y2B一个。目的是提高传感器系统的传感器,使汽车在每平方的存在。系统的行为也发生了变化,如图gydF4y2B一个 5gydF4y2B一个。我们使用旧的和新的传感器的关系特性的知识转移。gydF4y2B一个

通过100辆汽车被认为是学习的一集。重复学习40 000集。行为选择策略softmax和学习参数如下;学习速率(gydF4y2B一个 αgydF4y2B一个 )是0.1,折扣因子(gydF4y2B一个 γgydF4y2B一个 )被设置为0.9和温度(gydF4y2B一个 τgydF4y2B一个 )减少指数函数(gydF4y2B一个 τgydF4y2B一个 =gydF4y2B一个 5gydF4y2B一个 egydF4y2B一个 - - - - - -gydF4y2B一个 0.1gydF4y2B一个 ngydF4y2B一个 +gydF4y2B一个 0.5gydF4y2B一个 ),gydF4y2B一个 ngydF4y2B一个 是集的数量。gydF4y2B一个

最后的学习曲线平均50独立学习曲线和数据所示gydF4y2B一个 6gydF4y2B一个和gydF4y2B一个 7gydF4y2B一个。平滑的曲线移动窗口平均执行更好的表示。窗外是50集的长度。结果显示平均报酬的增加和减少学习使用知识转移时的遗憾。gydF4y2B一个

平均奖励学习的比较有和没有转移对十字路口交通控制器。gydF4y2B一个

后悔学习的比较有和没有转移对十字路口交通控制器。gydF4y2B一个

8。结论gydF4y2B一个

异构RL转移学习任务是一个具有挑战性的领域。任务之间的异质性之间的差异可能是因为政府行动空间和过渡的模型环境或奖励功能。定义上下文传递,本文讨论了任务之间的知识转移与不同的政府行动空间。具有相同的任务环境下的动力学和奖赏函数但不同的政府行动空间被称为上下文可转让的任务。问题是制定MDP同态。结果表明,转移任务上下文中有相同的最优行动集值。之间的特征空间用作翻译不同的任务转移的知识从源到目标的任务。一种基于间隔的方法被用来表示和任务结合的知识来源。提出了知识转移的方法测试在两个不同的案例研究。结果表明该方法的有效性。gydF4y2Ba

利益冲突gydF4y2B一个

作者宣称没有利益冲突有关的出版。gydF4y2B一个

LazaricgydF4y2B一个 一个。gydF4y2B一个 知识转移在强化学习(博士学位。论文)gydF4y2B一个 2008年gydF4y2B一个 米兰理工大学gydF4y2B一个 泰勒gydF4y2B一个 m E。gydF4y2B一个 石头gydF4y2B一个 P。gydF4y2B一个 转移学习强化学习领域:一项调查gydF4y2B一个 机器学习研究杂志》上gydF4y2B一个 2009年gydF4y2B一个 10gydF4y2B一个 1633年gydF4y2B一个 1685年gydF4y2B一个 MR2534874gydF4y2B一个 托里gydF4y2B一个 lgydF4y2B一个 ShavlikgydF4y2B一个 J。gydF4y2B一个 的索里亚gydF4y2B一个 E。gydF4y2B一个 马丁gydF4y2B一个 J。gydF4y2B一个 马格达莱纳gydF4y2B一个 R。gydF4y2B一个 马丁内斯gydF4y2B一个 M。gydF4y2B一个 萨拉诺gydF4y2B一个 一个。gydF4y2B一个 转移学习gydF4y2B一个 研究机器学习应用程序的手册gydF4y2B一个 2009年gydF4y2B一个 IGI全球gydF4y2B一个 泰勒gydF4y2B一个 M。gydF4y2B一个 石头gydF4y2B一个 P。gydF4y2B一个 为强化学习表示转移gydF4y2B一个 AAAI学报2007年秋季研讨会上表示的计算方法在学习和发展变化gydF4y2B一个 2007年gydF4y2B一个 美国弗吉尼亚州阿灵顿gydF4y2B一个 RavindingydF4y2B一个 B。gydF4y2B一个 BartogydF4y2B一个 a·G。gydF4y2B一个 KoeinggydF4y2B一个 年代。gydF4y2B一个 HoltegydF4y2B一个 r . C。gydF4y2B一个 最小化在分层强化学习模型gydF4y2B一个 学报》第五届研讨会上抽象,再形成和近似(SARA ' 02)gydF4y2B一个 2002年gydF4y2B一个 2371年gydF4y2B一个 纽约,纽约,美国gydF4y2B一个 施普林格gydF4y2B一个 196年gydF4y2B一个 211年gydF4y2B一个 在人工智能课堂讲稿gydF4y2B一个 RavindingydF4y2B一个 B。gydF4y2B一个 BartogydF4y2B一个 a·G。gydF4y2B一个 对称性和最小化的马尔可夫决策过程模型gydF4y2B一个 2001年gydF4y2B一个 01-43gydF4y2B一个 阿默斯特,美国质量gydF4y2B一个 马萨诸塞大学gydF4y2B一个 萨顿gydF4y2B一个 r S。gydF4y2B一个 BartogydF4y2B一个 a·G。gydF4y2B一个 加强学习:介绍gydF4y2B一个 1998年gydF4y2B一个 美国马萨诸塞州剑桥市gydF4y2B一个 麻省理工学院出版社gydF4y2B一个 泰勒gydF4y2B一个 m E。gydF4y2B一个 石头gydF4y2B一个 P。gydF4y2B一个 刘gydF4y2B一个 Y。gydF4y2B一个 转移通过inter-task映射时间差异学习学习gydF4y2B一个 机器学习研究杂志》上gydF4y2B一个 2007年gydF4y2B一个 8gydF4y2B一个 2125年gydF4y2B一个 2167年gydF4y2B一个 MR2353830gydF4y2B一个 泰勒gydF4y2B一个 M。gydF4y2B一个 郑大世gydF4y2B一个 K。gydF4y2B一个 石头gydF4y2B一个 P。gydF4y2B一个 将基于模型的强化学习的实例gydF4y2B一个 机器学习的欧洲会议(ECML ' 08)gydF4y2B一个 2008年gydF4y2B一个 488年gydF4y2B一个 505年gydF4y2B一个 泰勒gydF4y2B一个 M。gydF4y2B一个 石头gydF4y2B一个 P。gydF4y2B一个 强化学习的跨域转移gydF4y2B一个 24日国际会议的程序机器学习gydF4y2B一个 2007年gydF4y2B一个 科瓦利斯,矿石,美国gydF4y2B一个 BlockeelgydF4y2B一个 H。gydF4y2B一个 拉蒙gydF4y2B一个 J。gydF4y2B一个 ShavlikgydF4y2B一个 J。gydF4y2B一个 TadepalligydF4y2B一个 P。gydF4y2B一个 在强化学习关系宏转移gydF4y2B一个 17会议程序归纳逻辑编程gydF4y2B一个 2007年6月gydF4y2B一个 科瓦利斯,矿石,美国gydF4y2B一个 文德兰花gydF4y2B一个 B。gydF4y2B一个 BartogydF4y2B一个 a·G。gydF4y2B一个 相对化选项:选择正确的转换gydF4y2B一个 20国际会议的程序机器学习(ICML ' 03)gydF4y2B一个 2003年gydF4y2B一个 608年gydF4y2B一个 615年gydF4y2B一个 索尼gydF4y2B一个 V。gydF4y2B一个 辛格gydF4y2B一个 年代。gydF4y2B一个 利用同态跨连续强化学习领域转移选项gydF4y2B一个 21国家会议上18创新应用人工智能和人工智能会议(AAAI / IAAI 06年)gydF4y2B一个 2006年7月gydF4y2B一个 494年gydF4y2B一个 499年gydF4y2B一个 2 - s2.0 - 33750690679gydF4y2B一个 KonidarisgydF4y2B一个 G。gydF4y2B一个 ScheidwassergydF4y2B一个 我。gydF4y2B一个 BartogydF4y2B一个 a·G。gydF4y2B一个 转移在强化学习通过共享功能gydF4y2B一个 机器学习研究杂志》上gydF4y2B一个 2012年gydF4y2B一个 13gydF4y2B一个 1333年gydF4y2B一个 1371年gydF4y2B一个 MR2930641gydF4y2B一个 KonidarisgydF4y2B一个 G。gydF4y2B一个 BartogydF4y2B一个 一个。gydF4y2B一个 自主塑造:强化学习的知识转移gydF4y2B一个 学报》第23届国际会议上机器学习(ICML 06年)gydF4y2B一个 2006年6月gydF4y2B一个 489年gydF4y2B一个 496年gydF4y2B一个 2 - s2.0 - 33749243349gydF4y2B一个 金斯堡gydF4y2B一个 m . L。gydF4y2B一个 多值逻辑:一个统一的方法在人工智能推理gydF4y2B一个 计算机智能gydF4y2B一个 1998年gydF4y2B一个 4gydF4y2B一个 256年gydF4y2B一个 316年gydF4y2B一个 金斯堡gydF4y2B一个 M。gydF4y2B一个 阅读在Non-Monotonic推理gydF4y2B一个 1987年gydF4y2B一个 洛杉矶,加州,美国gydF4y2B一个 摩根考夫曼gydF4y2B一个 金斯堡gydF4y2B一个 M。gydF4y2B一个 多值逻辑gydF4y2B一个 第五届国家会议上人工智能(AAAI 86)gydF4y2B一个 1986年gydF4y2B一个 洛斯拉图斯,加利福尼亚州,美国gydF4y2B一个 摩根考夫曼gydF4y2B一个 243年gydF4y2B一个 247年gydF4y2B一个 穆萨维gydF4y2B一个 一个。gydF4y2B一个 Jabedar-MaralanigydF4y2B一个 P。gydF4y2B一个 相关集和粗糙集gydF4y2B一个 国际应用数学和计算机科学杂志》上gydF4y2B一个 2001年gydF4y2B一个 11gydF4y2B一个 3gydF4y2B一个 637年gydF4y2B一个 653年gydF4y2B一个 MR1866103gydF4y2B一个 穆萨维gydF4y2B一个 一个。gydF4y2B一个 Jabedar-MaralanigydF4y2B一个 P。gydF4y2B一个 双面粗糙集和粗糙的交流gydF4y2B一个 信息科学gydF4y2B一个 2002年gydF4y2B一个 148年gydF4y2B一个 1 - 4gydF4y2B一个 41gydF4y2B一个 53gydF4y2B一个 10.1016 / s0020 - 0255 (02) 00275 - xgydF4y2B一个 MR1947112gydF4y2B一个 2 - s2.0 - 0036891649gydF4y2B一个 浆果gydF4y2B一个 d . A。gydF4y2B一个 FristedtgydF4y2B一个 B。gydF4y2B一个 土匪问题:顺序分配的实验gydF4y2B一个 1985年gydF4y2B一个 英国伦敦gydF4y2B一个 查普曼&大厅gydF4y2B一个 10.1007 / 978-94-015-3711-7gydF4y2B一个 MR813698gydF4y2B一个 SeijengydF4y2B一个 H。gydF4y2B一个 赞美上帝gydF4y2B一个 B。gydF4y2B一个 科斯特gydF4y2B一个 lgydF4y2B一个 在强化学习之间切换不同的状态表示gydF4y2B一个 学报》第26届应用人工智能国际会议和应用程序(友邦保险' 08)gydF4y2B一个 2008年gydF4y2B一个 226年gydF4y2B一个 231年gydF4y2B一个