上下文传递强化学习使用行为价值的功能

文摘

论述了在强化学习任务上下文的概念转移。上下文传递,本文定义意味着源和目标之间的知识转移任务,共享相同的环境动力学和奖赏函数但不同状态或行动空间。换句话说,代理学习相同的任务而使用不同的传感器和执行器。这需要一个潜在的普遍存在的马尔可夫决策过程(MDP)所有代理商的MDP可以映射。这是制定的MDP同态的概念。学习框架则将。这些任务之间的知识转移,特征空间作为翻译和表达的部分政府行动空间之间的映射不同的任务。的值学习的学习过程中源任务映射到组值为目标的任务。这些转移值合并在一起,并被用来初始化目标任务的学习过程。一种基于间隔的方法用于表示任务和合并的知识来源。实证结果表明,初始化传输可以有利于学习过程的目标任务。

1。介绍

转移的概念学习是一个具有挑战性的领域领域的强化学习(RL) [1- - - - - -3]。目标是加速学习过程的目标任务代理通过使用不同的代理的知识已经学到了相关的任务。Lazaric [1)将RL的转移问题分为三类:目标,动力,和域转移问题。代理的目标转移问题是一个问题(即共享相同的上下文。,state and action spaces) and the same transition model but have different reward functions. A dynamics transfer problem is a problem in which agents share the same context and the same reward function but have different transition models. In the case of domain transfer, the agents may have different dynamics, goals, and state-action spaces. This is the most general and complex problem of transfer.

泰勒和石(4)讨论代理的另一个类别的问题有不同的表示。他们把它称为表示转移。摘要代理人被认为有不同的上下文(状态和行动空间)。换句话说,在同样的环境,同样的代理行为奖励函数即使它们的状态和行为是不同的。

例如,考虑两个学习机器人表演在同一网格世界问题。第一个机器人使用全球定位系统(GPS)传感器和第二个机器人使用距离感应器来表示他们的位置。所以,每个网格的位置都是由机器人,不同。机器人可以使用不同的致动器。在这篇文章中,这样的代理商之间知识转移的问题上下文传递。这是制定和讨论使用马尔可夫决策过程(MDP)同态的概念(5,6]。

我们使用功能空间任务的翻译。我们假设有一个部分的特性之间一对多映射任务。一种基于间隔的方法用于表示、传输和合并任务的知识来源。

节2,上下文转移问题是正式制定和讨论。描述的问题的重要性和应用程序部分3。讨论的功能空间之间的映射部分4。知识融合和传输方法部分中解释5。两个案例研究和结果讨论部分7。部分8包含一个简短的结论。

2。上下文传递问题

定义上下文传递,在本节中,代理之间的知识转移问题是在相同的环境中做同样的任务,即使他们的政府行动空间是不同的。这是因为代理可以使用不同的传感器或执行器。也可能有一些代理使用相同的一组传感器虽然他们的感官信息的编码和表示是不同的。在实践领域,感觉信息的编码通常是冗余的,作为一个没有访问的最小表示状态。在这种情况下,一些药物可能有不同的状态空间和模型相同的环境。我们将讨论这个问题的mdp的概念。

一个代理的MDP模型与环境的交互(7]。我们限制讨论离散政府行动RL代理和制定问题的有限状态MDP同态的概念。在持续的政府行动代理人的情况下,这个问题比较复杂,不能模仿MDP同态。这将是一个具有挑战性的问题,并调用一个完全不同的方法,这是本文的范围。制定这个问题,首先,MDP及其元素的概念进行了综述和讨论。

定义1。MDP是一个元组,在那里是所有国家的集合,是所有行动的集合,转移概率函数,是奖励函数。

在每个时间步长,代理的感官环境的状态,执行一个动作,。作为其行动的后果,代理接收到一个数值奖励,,发现自己在一个新的国家。代理的目的是学习行为的政策,,为了最大化其累计奖励。

讨论不同种类的RL知识转移问题,Lazaric [1MDP的]定义了三个元素。

定义2。一个任务是一个元组定义的MDP、国家和行动空间定义上下文,转换模型定义了动态和奖赏函数定义了目标。

知识转移的定义如下的问题。

定义3。让是一个家庭的任务,获得一些知识的学习任务。知识转移的问题是使用这些知识来提高的学习任务。

这些元素用于分类的知识转移问题[1]。

定义4。目标转移是一个问题的所有任务共享相同的上下文(即。,state and action space) and the same transition model. Dynamics transfer is a problem in which tasks share the same context and the same reward function. In the case of domain transfer, the agents may have different dynamics, goals, and contexts.

在本文中,我们定义另一个类别的转移问题上下文传递;的任务共享相同的动力学和奖励,但有不同的上下文。事实上,这需要一个潜在的普遍存在的MDP所有代理的MDP可以映射。这可以解释使用MDP同态的概念(5,6]。

定义5。一个MDP同态从一个MDPMDP的是满射,,,满射的定义的元组,,在那里和,这样

作为是满射,它引起一个分区用,表示块而是,这样的投影在,这是一个分区上,是一块包含;对于每一个,当且仅当每一块包含的一对是一个组件中还包含一个对吗是一个组件。

我们称之为的同态的形象的下。从条件(1)我们可以看到,政府行动对下有相同的图像有相同的块过渡行为相同,即转入任何给定的概率与相同的图像块的状态。条件(2)说,政府行动对下有相同的图像有相同的期望的奖励。这些条件意味着保存的动力学和奖励消除一些原任务的细节。

现在,上下文的概念转移MDP同态的定义。

定义6。的任务被认为具有相同的环境的动态和奖励功能,如果有一个任务和同态这满足了这些条件之一:(i)是同态的形象下和或(2)是同态的形象下和。这些任务被称为上下文转移和知识转移的问题被称为上下文传递。

换句话说,任务上下文可转让的,如果有一个任务所有任务的任务是同态的图片吗,或任务是一个同态的所有任务的形象。解释的任务之间的关系考虑下面的定义和定理6]。

定义7。政府行动对和如果同态是等价的的存在这样。州和如果(我)每一个行动都是相等的,有一个行动这样和是等价的,(2)对每一个行动,有一个行动,这样和是等价的。

等价的概念使我们下面的最优值等价定理。

定理8。让MDP的同态象下。对于任何,,在那里是行动最优值函数。事实上,同态引起的分区在如上所述。这实际上分区编码冗余任务的状态和行为的表征。定理8州,如果,,,然后。这意味着一块分区的元素有相同的最优等于一个最优值值的任务。它的结论是,对于每一个存在一个在哪里反之亦然。让是一个源的任务。考虑以下定义。

定义9。一个分区在据说是价值尊重如果和意味着。

换句话说,一个块价值上的尊重分区有相同的最优值。这个分区的所有块用。让是一块分区。相应的价值这一块用,在那里所有最佳的集合值的任务用这是一个定理的直接推论8。

推论10。如果任务然后,上下文可以转让吗

证明很简单。mdp的有相同的同态形象吗或同态的图像,那么他们都有相同的一组最优的值的。因此,最优的设置价值观是相同的所有任务。

这个推论表明最优值的源任务可以使用目标任务加速学习。在转移问题,我们假定同态不给,我们不知道确切的政府行动之间等效关系对不同的任务。相反,我们使用一个部分之间一对多映射的功能目标和任务转移的知识来源。这些知识表达和综合使用一些间隔值。下面的例子阐明了上下文传递的问题。

例11。考虑一个网格作为一个农场有三个不同的作物;西红柿、黄瓜、西瓜(图1)。有三个收获机器人收集作物和聚集成三个不同的目标位置;西红柿在G1, G2的黄瓜,西瓜在G3。有五种类型的传感器模块;GPS,梁的信号距离指标,指南针、黑白相机,和color&weight传感器。机器人使用不同的传感器来估计它们的状态,如图1。GPS是一对的输出数据,,表明垂直和水平位置,输出光束的距离指示器是一对数字,,在那里和1-norm距离光束。罗盘传感器使机器人的方向和其他传感器模块是用来区分的作物如表1。机器人1和3使用color&weight传感器和机器人2使用黑白相机来区分的作物,解释图1。
考虑一个抽象的机器人的状态是一对在哪里是网格编号时,网格的数量从左到右,从下到上,然后呢。条款,,,代表西红柿,黄瓜,西瓜,和没有什么分别。的动作是一样的机器人的行动1;也就是说,。一个可以很容易地检查有三个同态,,从机器人的MDP 1、2和3的MDP的抽象机器人,有关等效双MDP的政府行动。例如,我们有
因此,机器人1、2和3有相同的环境的动态和奖励和上下文可转让的,虽然他们没有相同的MDP和他们之间没有一对一的映射集的状态和行为。这是因为存在的冗余在表征的环境中,这种情况在大多数实际应用。


作物	黑与白的相机	颜色	重量

番茄	小世界	红色的	光
黄瓜	杆	绿色	光
西瓜	全球大	绿色或黄色	重

图1

一个网格与三个作物和三个农场收获机器人。机器人1:传感器模块:GPS, color&weight传感器,,列号,:行号,:红、:绿色,:黄色,:轻、:重,0:没什么,,:北移动,:向南推进,:往东走,:西迁,0:没什么,:皮卡,:跳伞。机器人2:传感器模块:GPS,指南针,黑白相机,,是一样的机器人,:方向,:小世界,:杆,:大全球,0:没什么,,:前进,:向后移动,:左转,:向右转,:左转&,:右转0:没什么,:皮卡,:跳伞。机器人3:传感器模块:梁的信号距离指标,指南针、颜色和重量传感器,,梁:1-norm距离,是一样的机器人2作为机器人1,。

3所示。为什么上下文传递重要

大多数当前传输的学习方法在RL通常称作“利用知识学习提高学习任务来源相关,但不同,目标任务。这些方法能够成功地代理在不同的任务之间传输知识。

论述了语境在RL转移,也就是说,代理与不同国家之间转移知识和行动空间。在这种类型的转移目标的问题是一样的:减少所需的时间与转让、学习目标相对于学而不转移。我们认为这是一个重要的问题,原因如下。

首先,可能会有不同的代理商有不同传感器或执行器的环境以及它们之间的合作可以改善学习过程。这些代理可以类似于机器人的例子11。解决问题的上下文传递可以促进合作代理。

其次,在许多真实世界的场景中,一个实际上没有使用最小化的MDP模型环境,而且通常有很多冗余的MDP模型。在这种情况下,可能会有一个代理,已经训练与一个特定的内部表示任务的状态和行为但性能很差。不同的内部表示可以让代理来实现更高的性能。上下文使代理可以使用前面的知识转移到加快学习与新状态和行动空间。

第三,考虑实际工作学习系统。在某种程度上,我们决定升级其传感器和/或执行器模块。这些模块的任何变化都将导致不同的描述环境的动态和奖赏函数。因此,学习算法和训练知识不再适用。如果经验是昂贵的环境中,最好利用代理的现有知识提高学习新的传感器或执行器。上下文传递可以解决问题。

为了解决这个问题,一个需要一个代理的政府行动空间之间的映射。泰勒et al。8)使用手工编码的状态和动作之间的映射的源和目标任务,即和。映射目标任务的每个状态变量映射到源状态最相似的任务。同样,映射目标任务的每个操作映射到源的最类似的行动任务。这双映射称为任务间的映射。他们使用任务间映射到传输行为价值函数从源到目标的任务,从而提高目标的学习任务。在[9),任务间映射用于转移样品从源到目标的任务。在[10),泰勒和石头使用任务间映射到传输源任务政策目标任务像一些规则。政策转移规则总结源任务。任务间的映射作为翻译的规则中使用的目标任务。在某些情况下,是不可能定义的关系政府行动空间代理的任务间的映射(一对映射)。例如,在示例11,一个不能直接映射定义为机器人的动作1和2之间的关系;例如,没有行动相当于机器人1(上,下,左,右)的行动机器人的“前进”2。虽然可以定义一个政府行动之间的映射对机器人,当机器人的状态2是“了”和推进,它等于移动机器人1的“上”。因此,我们使用一个政府行动对之间的映射,而不是任务间的映射。

Blockeel et al。11)用不同的状态转移关系中宏任务特性和行为。在这种方法中,关系宏被定义为有限状态机的转换条件和节点行为是由一阶逻辑的条款。宏描述成功的行为在源任务。归纳逻辑编程用来学习一个宏,然后使用它的早期学习阶段目标任务。

文德兰花和Barto12)、索尼和辛格(13)使用同态框架将任务映射到一个共同的抽象级别。选项上定义一个抽象的MDP,称为相对化选项,然后他们的政策将根据特定的目标任务。更具体地说,提供一组可能的转换和传输的目标是确定最合适的转换相对化的选项根据当前目标的任务。

Konidaris和Barto14,15]在更高层次的抽象定义选项,可以使用由目标任务没有任何明确的任务的状态和动作之间的映射。在这种方法中,任务的相似性被建模为agent-space和任务的差异是建模为问题空间。任务被认为有共同特性和reward-linked;奖励分配相似的任务。代理从经验中学习便携式塑造功能源任务agent-space改善性能的目标任务。提出定义reward-linked大多是定性的概念,而不是一个精确的数学定义。

本文试图提出一个正式的定义上下文传递问题。这个定义有一些重叠的提到的方法,但其框架和数学公式首次给出。我们使用MDP同态的概念完全制定环境转移的任务。提出的算法来解决这个问题不需要一个精确的任务间的映射或任务之间存在的一些共享的特性就像前面提到过的方法;它只需要一个部分之间的映射源和目标任务的一些特性。它也有能力相结合的几种不同来源的知识任务使用的目标任务。

4所示。特征空间之间的翻译任务

在[14),共享功能的概念用于任务之间的知识转移。代理使用的共享功能是学习一个便携式塑造功能的任务序列中显著提高性能在以后的相关任务。在本文中,我们遵循相同的使用功能空间的想法作为知识转移的工具。然而,我们的问题,它的配方,建议的解决方案是不同的。一般来说,一个代理配备一套传感器和致动器。代理的感官环境状况的使用传感器和执行一个操作的输出使用它的致动器。的元组传感器和致动器的输出是一个特征向量。让任务的传感器和执行器的数量是,表示th元素的特征向量。特征向量表示,在那里的空间特征向量。所有特征值的设置吗th特性。这种映射分配一双政府行动的每一个特征向量: 在哪里和的状态和动作的任务,分别。

源的知识转移到目标任务(有不同的上下文),需要一些信息有关政府行动的价值观对源到目标的任务。这些信息可能是不确定的,模糊的,甚至在某些情况下无法使用。解决这个问题在这种情况下,我们使用领域知识的特征空间的特征向量之间的一些关系源和目标任务。这个信息可以表达的一个映射这种映射关系源任务的一个特征向量一个特征向量的目标任务。一般来说,这种映射可以是一对多的映射。如果这是一个一对一的映射,然后有一个确切的对应特征向量之间的源和目标任务和任务之间可以转移的知识没有任何歧义。上下文之间转移的过程任务来源和目标任务如图2。

在这个图中,映射源任务的学习过程的结果和分配最优的最优值值,,在定义部分2,每一个政府行动。源和目标任务上下文可转让,因此,。目标的学习过程代理估计映射。我们使用其他映射来估计一个近似映射作为一个初始估计从而加速学习过程的目标任务。这是图的图所示2。对于每一个: 在哪里表示的映射组成和,即。映射表示的逆映射,是一个估计使用上下文转移。

示例12。指的是例子11,假设机器人的任务2和3是源和目标任务,分别。任务之间的共享特性的值罗盘传感器和致动器。我们也知道这两个的值机器人2,机器人3指的是“没有什么价值。“我们使用此信息来与政府行动对源和目标任务。例如,我们有

5。知识融合和传输

在[3),RL转移问题的解决方法分为五类;起点方法、模拟方法、分层方法,改变方法和新的RL算法的方法。在起点的方法,而不是零个或随机初始化目标任务,目标任务是基于知识从源任务初始化。模仿的方法涉及到传输方法源任务策略应用时选择一些行动学习目标任务。第三类RL转移包括分级方法。这些方法查看源子任务的目标。RL传输方法的下节课涉及改变状态空间,操作空间,或奖励函数基于源任务目标任务的知识。它包括简化抽象状态空间的状态,减少和奖励塑造的行动空间。新的RL算法方法包括全新的RL算法。这些方法解决传输作为一个固有的RL的一部分。

在本文中,我们采用一种起点方法转移的知识;我们使用的知识来源任务初始化目标的学习任务,而不是零个或随机初始化。假设源的学习任务是停在一个特定的时间,因为学习和标准值的源使用的任务目标的任务,这是学习的初始步骤。

现在,考虑的集合在哪里是源和是目标任务部分中解释2。映射与最优价值的政府行动对。的映射可能是一对多的映射,因此,是一个多值函数,然后呢是一个给定值,而不是单个值,也就是说,。为,我们将不同的设置值一双政府行动的目标任务。人们很容易把不同来源的知识任务使用的交叉算子设置值,

这是可能的两个值使用任务的知识来源。这些定义是用来初始化值目标的任务。我们可以使用一个统计平均算子来估计一个值设定值作为一个初始值。例如,我们可以使用的意思是,中位数,或中档操作符。在本文中,我们使用中档算子,定义如下: 在哪里的初始估计吗和这个操作符有一些优势的意思是或中位数运营商,因为一些实现问题。也有一些直观的解释使用这个操作符作为下一节讨论。

6。时间间隔对知识融合

前一节中所说明的,上下文转换映射,,通常是一个一对多的映射。因此,的价值和是一个给定值,而不是一个单一值。我们使用一个基于间隔的方法来表示这个给定值的不确定性。考虑以下定义: 在哪里我们称之为时间间隔。每一个间隔,两个措施有关这些措施被称为中心和不确定性的措施分别间隔。让和是两个时间间隔。这些定义上产生两个序间隔,如下所示: 第一个命令可以被理解为更多的奖励,和第二个可以被认为是更准确的订购。这些序可以诱导数学bilattice结构(16- - - - - -18)的集合时间间隔。在[19,20.),bilattices讨论作为一种工具的推理知识当多个代理。考虑以下定义。

我们使用以下操作结合的知识不同的代理: 这个操作符叫做bilattices轻信。

一个可以很容易地显示设置值的上下文映射和相应的转移间隔有以下属性: 有一些直观的解释这些关系。例如,第二个关系说,随着设定值趋于单一,相应的间隔将去一个精确值,代表高阶的知识。第三个关系的直觉轻信bilattices的运营商。因此,我们只需要记录的最小值和最大值的设置值(或相应的间隔),使用下面的关系将不同来源的知识任务:

7所示。案例研究和结果

来验证提出的算法的有效性,两个案例研究。在下一节中,我们讨论这些案例研究。

7.1。代理不同的传感器或执行器

有一些代理的环境中做相同的任务,即使使用不同的传感器或执行器。这些代理之间的合作或知识转移可以提高学习。这些代理可以使用上下文传递分享他们的知识。考虑到机器人的例子11;让机器人1和2是源和机器人3是目标代理。农场是一个假设网格与一些随机水坑。奖励函数如下:

源代理(机器人1和2)学会了1000集的任务。检查算法,目标任务的学习过程运行的4倍;第一没有转移,第二,从机器人1,第三,从机器人2,与转移,从机器人1和2后知识融合。

学习的目标代理500集,整个学习重复50次。softmax行动选择策略,和学习参数如下;学习速率()是0.1,折扣因子()被设置为0.9和温度()减少指数函数(),是集的数量。

最后的学习曲线平均50独立的学习曲线。平均奖励和后悔学习数据所示的函数3和4,分别。遗憾是预期的减少执行算法不是最优行为的奖励,因为从一开始(21]。结果显示平均报酬的增加和减少后悔一开始学习。的知识融合机器人1和2显著提高学习。

7.2。学习代理的感觉运动系统的变化

表示是一个关键的组件的强化学习算法。表示的任何改变将导致不同的描述环境的动态和奖赏函数,和学习算法不再适用。仅对整个学习过程是不可取的,尤其是,当经验是昂贵的。例如,升级感觉运动系统的代理,即使保存以前的知识。上下文从任务感觉器官与旧系统转移到任务感觉器官与新系统可以解决这个问题。

我们使用“十字路口交通控制器”任务为例。这个问题是讨论的场景的修改版(22),这是一个随机任务。有一个十字路口的双向道路导致正方形网格中心,一个水平和垂直。任务是控制交通灯通过切换垂直和水平之间的绿灯车道保持队列在红绿灯前尽可能小(图5)。在每个车道的光面前,只有五个正方形。奖励总额的汽车在红绿灯前*−1。切换光原因4次步骤的过渡时期,一个红绿灯是橙色的,另一个是红色的。在这个过渡时期没有汽车可以通过十字路口和行动在这个时期没有效果。汽车的速度是每时间步广场。

图5

十字路口交通控制器。旧系统:传感器:距离传感器,,:距离第一辆车在垂直通道,:距离第一辆汽车在水平巷,:垂直巷是绿色的,:横巷是绿色的,,:垂直车道改为绿色,:横向车道改为绿色,:不行动。新系统:传感器:相机,,:汽车存在编码前十平方的垂直通道,:汽车的存在编码前十横巷的广场,:垂直巷是绿色的,:横巷是绿色的,,:改变光线,:不行动。

系统正在与一个旧的传感器,给出了距离第一辆车接近每个车道的十字路口。因此,旧的系统图中描述5。目的是提高传感器系统的传感器,使汽车在每平方的存在。系统的行为也发生了变化,如图5。我们使用旧的和新的传感器的关系特性的知识转移。

通过100辆汽车被认为是学习的一集。重复学习40 000集。行为选择策略softmax和学习参数如下;学习速率()是0.1,折扣因子()被设置为0.9和温度()减少指数函数(),是集的数量。

最后的学习曲线平均50独立学习曲线和数据所示6和7。平滑的曲线移动窗口平均执行更好的表示。窗外是50集的长度。结果显示平均报酬的增加和减少学习使用知识转移时的遗憾。

8。结论

异构RL转移学习任务是一个具有挑战性的领域。任务之间的异质性之间的差异可能是因为政府行动空间和过渡的模型环境或奖励功能。定义上下文传递,本文讨论了任务之间的知识转移与不同的政府行动空间。具有相同的任务环境下的动力学和奖赏函数但不同的政府行动空间被称为上下文可转让的任务。问题是制定MDP同态。结果表明,转移任务上下文中有相同的最优行动集值。之间的特征空间用作翻译不同的任务转移的知识从源到目标的任务。一种基于间隔的方法被用来表示和任务结合的知识来源。提出了知识转移的方法测试在两个不同的案例研究。结果表明该方法的有效性。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

a . Lazaric知识转移在强化学习(博士学位。论文)米兰理工大学,2008。
m·e·泰勒和p的石头,“转移学习强化学习领域:一项调查,“机器学习研究杂志》上,10卷,第1685 - 1633页,2009年。视图:谷歌学术搜索|MathSciNet
l .托里和j . Shavlik”转移学习”研究机器学习应用程序的手册大肠的索里亚,j·马丁,r·马格达莱纳·m·马丁内斯和a·塞拉诺,Eds。,2009年IGI全球。视图:谷歌学术搜索
m·泰勒和p .石头”表示转移强化学习,”AAAI学报2007年秋季研讨会上表示的计算方法在学习和发展变化阿灵顿,弗吉尼亚州,美国,2007年。视图:谷歌学术搜索
b . Ravindin和a·g·Barto“最小化在分层强化学习模型,”学报》第五届研讨会上抽象,再形成和近似(SARA ' 02)、美国Koeing和r . c . Holte Eds。卷,2371在人工智能课堂讲稿施普林格,页196 - 211年,纽约,纽约,美国,2002年。视图:谷歌学术搜索
b . Ravindin和a·g·Barto对称性和最小化的马尔可夫决策过程模型,”科技,众议员01-43马萨诸塞大学阿默斯特,质量,美国,2001年。视图:谷歌学术搜索
r·s·萨顿和a·g·Barto加强学习:介绍美国剑桥,麻省理工学院出版社,质量,1998年。
m·e·泰勒,p .石头,y . Liu”转移通过inter-task映射时间差异学习学习,”机器学习研究杂志》上,8卷,第2167 - 2125页,2007年。视图:谷歌学术搜索|MathSciNet
m·泰勒,k .郑大世,p .石头,“实例对基于模型的强化学习,转移”机器学习的欧洲会议(ECML ' 08),第505 - 488页,2008年。视图:谷歌学术搜索
m·泰勒和p的石头,“跨域转移强化学习,”24日国际会议的程序机器学习科瓦利斯,矿石,美国,2007年。视图:谷歌学术搜索
h . Blockeel j .雷蒙j . Shavlik, p . Tadepalli“关系宏在强化学习转移”17会议程序归纳逻辑编程科瓦利斯,矿石,美国,2007年6月。视图:谷歌学术搜索
b .文德兰花和a·g·Barto“相对化选项:选择正确的转换,”20国际会议的程序机器学习(ICML ' 03),第615 - 608页,2003年。视图:谷歌学术搜索
诉索尼和美国辛格用同态转移选择跨连续强化学习领域,”21国家会议上18创新应用人工智能和人工智能会议(AAAI / IAAI 06年)2006年7月,页494 - 499。视图:谷歌学术搜索
g . Konidaris i Scheidwasser, a·g·Barto”转移通过共享功能,在强化学习”机器学习研究杂志》上13卷,第1371 - 1333页,2012年。视图:谷歌学术搜索|MathSciNet
g . Konidaris和a . Barto”自主塑造:强化学习的知识转移,”学报》第23届国际会议上机器学习(ICML 06年)2006年6月,页489 - 496。视图:谷歌学术搜索
m·l·金斯堡,“多值逻辑:一个统一的方法在人工智能推理,”计算机智能4卷,第316 - 256页,1998年。视图:谷歌学术搜索
m·金斯堡阅读在Non-Monotonic推理摩根考夫曼,洛杉矶,加州,美国,1987年。
在m·金斯堡,”多值逻辑。第五届国家会议上人工智能(AAAI 86)摩根考夫曼,页243 - 247年,洛斯拉图斯,加州,美国,1986年。视图:谷歌学术搜索
a·穆萨维,p . Jabedar-Maralani相对集和粗糙集。”国际应用数学和计算机科学杂志》上,11卷,不。3、637 - 653年,2001页。视图:谷歌学术搜索|MathSciNet
a·穆萨维,p . Jabedar-Maralani双面粗糙集和粗糙的沟通。”信息科学,卷148,不。1 - 4,41-53,2002页。视图:出版商的网站|谷歌学术搜索|MathSciNet
d·a·贝瑞和b . Fristedt土匪问题:顺序分配的实验查普曼&大厅,伦敦,英国,1985年。视图:出版商的网站|MathSciNet
h . Seijen b,他和l·科斯特”在强化学习切换不同的状态表示,”学报》第26届应用人工智能国际会议和应用程序(友邦保险' 08),第231 - 226页,2008年。视图:谷歌学术搜索

计算智能和神经科学

文摘

1。介绍

2。上下文传递问题

3所示。为什么上下文传递重要

4所示。特征空间之间的翻译任务

5。知识融合和传输

6。时间间隔对知识融合

7所示。案例研究和结果

7.1。代理不同的传感器或执行器

7.2。学习代理的感觉运动系统的变化

8。结论

利益冲突

引用

版权

更多相关文章

相关文章

计算智能和神经科学

上下文传递强化学习使用行为价值的功能

文摘

1。介绍

2。上下文传递问题

3所示。为什么上下文传递重要

4所示。特征空间之间的翻译任务

5。知识融合和传输

6。 时间间隔对知识融合

7所示。案例研究和结果

7.1。代理不同的传感器或执行器

7.2。学习代理的感觉运动系统的变化

8。结论

利益冲突

引用

版权

更多相关文章

相关文章

6。时间间隔对知识融合