TY -的A2 Vialatte弗朗索瓦•b . AU -穆萨维,阿明AU - Nadjar Araabi, Babak AU - Nili Ahmadabadi, Majid PY - 2014 DA - 2014/12/31 TI -上下文传递强化学习使用行为价值函数SP - 428567六世- 2014 AB -探讨上下文的概念转移在强化学习任务。上下文传递,本文定义意味着源和目标之间的知识转移任务,共享相同的环境动力学和奖赏函数但不同状态或行动空间。换句话说,代理学习相同的任务而使用不同的传感器和执行器。这需要一个潜在的普遍存在的马尔可夫决策过程(MDP)所有代理商的MDP可以映射。这是制定的MDP同态的概念。学习框架 则将。这些任务之间的知识转移,特征空间作为翻译和表达的部分政府行动空间之间的映射不同的任务。的 值学习的学习过程中源任务映射到组 值为目标的任务。这些转移 值合并在一起,并被用来初始化目标任务的学习过程。一种基于间隔的方法用于表示任务和合并的知识来源。实证结果表明,初始化传输可以有利于学习过程的目标任务。SN - 1687 - 5265你2014/428567 / 10.1155——https://doi.org/10.1155/2014/428567——摩根富林明-计算神经科学情报和PB Hindawi出版公司KW - ER