最佳跳过:培训代理使用深强化学习与细粒度控制

文摘

这些天游戏AI是专注和活跃的研究领域之一人工智能,因为电脑游戏是最好的试验台测试理论思想在AI几乎应用他们在现实生活世界。同样,ViZDoom末日游戏人工智能研究平台是基于用于视觉深度强化学习等3 d游戏环境的第一人称射击游戏(FPS)。而训练,学习代理的速度很大程度上取决于帧代理的数量允许跳过。本文跳过帧率如何影响代理的学习和最终性能提出了,尤其是使用深q学习,经验重复记忆,ViZDoom游戏AI研究平台。代理在末日的基本训练和测试场景(s)的结果进行比较,发现10%比现有最先进的研究工作在Doom-based代理。实验表明,盈利和最优跳帧率下降3 - 11的范围,提供了最好的学习速度和最终性能之间的平衡剂的展览人类行为和人类优于平均球员和内置的游戏代理。

1。介绍和研究动机

由于谷歌的成功和成就DeepMind [1)技术,深度学习方法广泛用于视频游戏尤其是第一人称视角射击游戏(FPS)如厄运获得人类控制通过原始像素信息(2]。所以为此ViZDoom介绍这是一个独特的试验台平台基于FPS厄运深度学习研究从原始的视觉信息,第一人称视角的部分真实的3 d世界,允许编程人员玩这个游戏消费屏幕内存缓冲区。

实现这样的目标已成为可能的现在计算机系统通过人类的复杂计算和大量原始数据处理;然而,他们仍然挣扎在匹配他们的反应能力在复杂的3 d现实环境3]。

此外,视觉信号的主要根源是生活的环境和人工存在物的信息。因为处理视觉信息的进步,进步已经观察到在这个领域的研究的形式采用深架构在雅达利2600场比赛(一组4从原始像素信息,雅达利2600游戏被广泛接受为标准视觉学习系统。现在更重大进展预计在3 d现实环境中由于计算能力的增加(GPU的5]和TPU的[6])和机器学习中进步尤其是视觉学习和神经网络的进化(7]。

视觉深度强化学习是人工智能的研究领域,因为它把球员和人工智能代理在类似的特别是当它到达部分可观测的环境(8]。ViZDoom创新之前,第一人称视角射击环境,允许研究基于代理没有完全依赖原始的视觉信息,可以被认为是一个严重的导致妨碍建立深厚的强化学习,因为涉及的发展应用强化学习需要大量的编码工作(9]。存在一个现成的工具协助管理实验,和专注于研究的目标的工作玩第一人称视角射击游戏在3 d现实环境中比许多雅达利游戏困难得多,因为它包含一个巨大的各种各样的技能,如路由通过一个地图,收集物品,并识别和对抗的对手(10]。促进和支持计算密集的机器学习研究ViZDoom提供萤幕下的执行或呈现特征。离屏执行最小化的性能责任真正显示屏幕上的游戏,使其可行的在服务器上运行模拟通过消除需要使用GUI [11]。

到目前为止,在研究了现有研究的第一人称视角射击游戏,特别是厄运,我们想提出一个专门研究显示跳帧的数量如何影响学习过程尤其是使用ViZDoom AI研究平台可研究团体的一个极端的好处有一个先进的框架跳过规模虽然培训代理或机器人使用任何3 d ViZDoom等现实的环境。因此,本文提出了基于工作找到一个最优帧跳过规模,提供了最佳的学习速度和代理之间平衡或调整的最终性能,这可能有助于让FPS游戏进一步改善和研究基地。厄运的示例屏幕如图1。

为了进一步详细地解释该研究工作,本文准备在不同的部分。部分2解释了研究使用ViZDoom厄运AI研究平台。部分3介绍了提出方法。部分4显示结果与实验。最后,部分5结论与未来的工作。

2。研究使用ViZDoom厄运AI研究平台

ViZDoom Doom-based AI研究平台用于强化学习从原始的视觉信息。它允许开发人工智能机器人,玩厄运只用视觉信息(屏幕缓冲区)。它主要用于机器视觉的研究学习,特别是对深的强化学习。基于视觉的一个最近的研究工作提出了强化学习和ViZDoom AI研究平台(12通过训练一个人工智能代理游戏厄运。代理表现人类玩家和内置的游戏代理。然而,相比之下,这一概念提出了不同的形式提出一个最优规模帧跳跃而训练游戏AI代理或机器人。

基于视觉的早期研究工作进行了强化学习很久以前在13,14)通过发展机器人足球技能是紧随其后的是最先进的作品使用ViZDoom AI研究平台培训等智能代理(15)在深基于强化学习的代理克莱德是末日来玩这个游戏。克莱德参与视觉厄运AI竞争IEEE会议举行计算智能和游戏在2016年(16]。在这种竞争中,克莱德竞争与其他8实现机器人和幸存下来的地方。此外,它也表现在部分可观测的多重代理3 d虚拟环境使用深度视觉强化学习方法之前应用传统的完全可观测的2 d环境。

同样的,另一个深度视觉基于强化学习的自主和全面代理称为阿诺德显示有用的性能在末日的第一人称视角射击游戏。它表现良好,只需考虑屏幕上的信息形式的原始像素。此外,深入强化学习行动导航架构基于卷积神经网络训练阿诺德用于探索和战斗游戏地图上的对手。此外,有效的培训等技术被增加高水平比赛信息,奖励塑造,并使用顺序更新支持阿诺德优于平均人类玩家和内置的游戏代理不同的死亡获得最高kill-to-death比率对跟踪的视觉厄运AI竞争阿诺德在哪里放置第二的碎片弹的数量(17]。

人工智能代理已经训练使用ViZDoom AI研究平台(18),这是一个相关研究工作培训的代理执行在两个不同的场景,即。,a simple basic move-and-shoot scenario and a complex maze exploring problem scenario using the convolutional deep neural networks, Q-learning [19),和经验回放记忆存储游戏的转换(20.]。代理测试类似游戏的场景或地图,展示了人类行为和能够超越内置游戏代理。

人工智能代理是训练在两个不同的地图,即。,FlatMap CIGTrack-1 [21)使用深度视觉强化学习和课程学习的第一人称视角射击游戏厄运。后来,这个游戏人工智能代理的轨道1 ViZDoom AI竞争IEEE会议举行的2016年计算智能和游戏得分比已知的地图上35%的代理获得了第二的位置。拟议的框架,这个代理是简单和链接的最先进的强化学习概念A3C模型(22课程学习,不依赖于对手(对手)信息;而它使用从人工智能实时游戏状态信息。

强化学习和深度学习是真正的通用的和有用的方法来训练人工智能机器人或代理,导致理性为智能决策和组织良好的行为。在这方面,一个相关的例子可以发现在23)雇佣了深度视觉强化学习方法训练人工智能机器人或代理基本和交互式智能决策。RL和DL等基础方法是数学建模使用马尔可夫决策过程(mdp) [24]。MDP是由多个部分组成的数据结构或更具体的有序集合数据记录或元组构成如(S, P, R,γ),“S”的不同,“A”是改变行为的集合代理通常需要在每个时间步“t”,“P”过渡的概率从一个状态(S)到另一个状态( )采取的行动(a),“R”是奖励函数代表了信号后,代理会采取一些行动和改变国家,和“γ“是折扣的因素。通常,使用深度视觉强化学习方法的目标是安全的一项政策π:s→提高平均预期贴现回报和著名的一般动作值函数(s)学习政策评估常规的预期回报。

此外,支持第一人称视角射击游戏的时代,技术先进,已经升级到一个高的程度上,它是极端意义分析跳过数量的影响(跳过帧率),而培训使用ViZDoom AI人工智能代理特别研究平台。以同样的方式,除了电脑游戏,在图像和视频处理的影响研究框架不也是从一群巨大的用户研究通过观察性能在不同的实验中,在某些情况下,数据是正常人在一系列帧重复通常评估视频显示跳过帧率的意义在人工智能的研究领域。

此外,帧重复发现重要的代理的动作作为任务的性能退化相关代理或玩家的动作从较低的跳帧率不尽快下降任务相关的跳帧率高的射击。此外,现有的文献训练机器人和代理表明,只有最优跳帧率(帧重复)是可以接受的平衡代理与更好的性能(25]。

在第一人称视角射击游戏,帧重复产生重大影响代理的性能,所以有时选择帧重复可以保留,即使场景决议有时是牺牲为了减少训练表土和复杂性水平。另一方面,值得注意的是,该场景细节如地图和他们的黑暗与光明的背景以及几种武器添加一个研究感兴趣的第一人称视角射击游戏,所以权衡需要决定在选择任何选项,战利品的真正期望的结果或需求。

支持和现在更多的相关工作的第一人称视角射击游戏,可以训练一个通用模型类似的(26同时学习游戏特性等信息的存在对手(对手)或对象在减少q学习的客观揭示一个进度模型的训练速度和性能。在这方面,本文提到的建议的体系结构是模块化培训两种不同形式的自治模式的许多阶段的比赛。挑逗性的架构比内置游戏AI代理和人类玩家死亡场景。

现在整体的数学模型,在这一节中提出的概念,这是到目前为止,最先进的DQN模型选择,使用深度视觉强化学习学习策略培训代理商增加预期贴现回报的总和,也就是说, ;它可以在数学上表示如下: 在“T”表示游戏终止时间和“γ”代表了贴现因子,即 ,计算未来回报的重要性。预测Q-function返回后执行一个动作“a”在“s”对于一个给定的政策可以在数学上定义如下。使用函数近似者获得最大回报估计activation-value函数Q, DQN可以使用神经网络的参数化 ,和实现估计Q-function毗邻最优Q-function当前的政策,在数学上可以表示如下。换句话说,目标是找到这样最优Q-function验证贝尔曼最优方程。如果 ,这是明显的指定需要相邻验证下面的贝尔曼方程导致损失函数: t是当前时间步的地方, 。的价值是固定的,对应下面的梯度。的近似(7)也可以用来计算梯度而不是使用一个精确的估计结果(6)获得梯度。一个众所周知的方法打破连续样本之间的相关性是使用经验回放记忆;即。,at each time step the agent experiences ( , 保存在回放记忆;此外,q学习上执行批量更新的经验主观抽样从回放记忆。一个 (27)可以用来创建下一个行动在每个培训与概率随机选择下一个操作和一个概率1 -允许网络的最佳动作。在实践中,这是常见的并逐步衰减其限制。

一种方法使用监督学习技术提出了(28感觉运动机制的浸入式环境,这是另外一个相关的概念培训代理或使用ViZDoom人工智能机器人研究的平台。高维度的方法实践感觉流和低维测量流。流提供了丰富的监控信号的并行结构,使培训与环境交互的感觉运动控制模型。模型学习行动基于原始感觉输入复杂的3 d环境中。这种配方使学习没有固定的目标训练时间和追求不断变化的目标在测试时间29日]。通过这种方式,广泛的实验管理3 d模拟基于经典的末日的第一人称视角射击游戏;结果验证,这种方法可以超越当前革命性的发明主要是具有挑战性的工作,使用这种方法和模型训练可以有效地推广在环境和目标;例如,一个模型训练的概念赢得的全部死亡跟踪视觉厄运AI比赛早些时候看不见的环境。

在研究研究工作等人工智能在电脑游戏和比赛相关的研究开发和培训代理使用ViZDoom AI研究平台,到目前为止没有文章可以指定一个专门研究最优帧跳跃训练人工智能代理费率基于厄运,这是一个严重的妨碍因素建立强化学习的提高。简而言之,它是重要的,感兴趣的社区研究代理和机器人有一个基本的框架跳过规模使用游戏AI研究平台ViZDoom等视觉深度强化学习。总之,是一个重要的研究问题有足够的(至少在其当前状态)来找到一个最佳的规模跳帧可以简要定义如下。

2.1。研究问题

所需的最优跳数是什么规模(范围)来开发一个平衡,训练有素,和健壮的代理特别使用任何3 d AI研究平台如ViZDoom ?

时学习是最慢的代理不跳过任何框架和学习代理跳过时更快更流畅更框架,研究的主要目的是检查跳过计数的数量如何影响学习过程和找到一个标准和优化跳过数量规模(范围),可以提供一个平衡或权衡最终性能和学习速度,特别是使用任何3 d ViZDoom等人工智能研究平台。但相反,太大跳跃计数可以让代理粗野的由于缺乏导致次优的平衡控制结束的结果。

3所示。提出的方法

一个矩形腔被认为是一个基本场景如图2地方代理生成中间的房间的长墙,和一个静态怪物产生在任意位置对面墙上。代理朝着左右和竹笋。一个人足以屠杀怪物。完成的场景通过杀死怪物或者完成300帧,以先到期者作准。代理得到101分,如果杀死怪物,否则成绩5 1打小姐和分数为每个行动(生活奖励)。

卷积神经网络(CNN)体系结构的三个卷积层32平方过滤器,7日,4日和2个像素宽,使用,分别如图所示3。每个卷积的一层一层由max-pooling落后和最大池大小2 ReLU函数激活。此外,有一个完全连接层800漏水的解决线性单元和一个输出层8线性单元对应8的组合3可用的行动,即。,左,右,和射击12]。

q学习的深处,深入强化学习的方法(见部分2),使用学习策略。为了实验,问题是建模为马尔可夫决策过程(MDP)。一个贪婪策略用于选择一个动作与线性衰减。卷积神经网络用于近似Q-function训练与“随机梯度体面”[30.]。此外,回复记忆是用于存储游戏过渡。

4所示。实验和结果

实验的主要目的是确定一个最优跳数(范围)生产规模(发展中)平衡和健壮的代理或机器人和显示跳过帧的数量如何影响学习过程,特别是使用任何3 d游戏AI ViZDoom等研究平台。

4.1。实验一(步长= 2000)

跳数的影响是由培训每个跳过的代理数到20世纪。贴现因子设置为γ= 0.99,学习速率α= 0.00025,重演10000元素的内存容量,决议(45、60)和minibatch大小32。每次代理学习为40000步涉及执行一个动作,感知一个过渡,更新网络。确定和监控跳过计数的数量如何影响学习的过程,而代理学习,100年测试集后每个2000后学习步骤,以及代理得到了充分的训练。

所有的实验都是在PyCharm 2017.2专业版使用ViZDoom 1.1.5, OpenCV 3.3 [31日,CMake 2.8 + GCC 4.6 +, Python 3.6(64位)与英特尔®服务器上一个Ubuntu 16.04.3 NumPy™核心i7 - 7700 CPU @3。60 GHz x 8和NVIDIA GeForce 1080 GTX公司/作为PCIe / SSE2 GPU处理cnn。整个学习和测试过程图4持续了约2小时30分钟,并在图5约1小时30分钟的集体玩游戏大约超过35000集。

在图4(左)中,x轴表示学习步骤和y轴表示平均学习代理的结果。跳过数传说显示了19个不同的标签跳过重要的考虑在实验。

代理对于每一个被跳过的性能统计图中可以观察到的代理学会得到完美的分数逐渐但平均学习成绩(结果)不是更好的和高的糟糕表现,跳过数量因为存在甚至低于50的分数。然而,跳过计数的结果,被认为是最优(通过实验)高,达到70以上可以明显观察到图(左)。

在图4(R)中,x轴表示测试步骤和y轴代表的平均测试成绩(结果)的代理。

学习能力测试和验证代理,代理测试在同一场景(s)它被训练,观察到代理不是高度精确的射击性能和最佳所有跳过重要的除了最优跳过数量从3 - 11,可以观察到在图进行进一步的研究和理解(R)。

学习和理解只代理的性能最优的跳过计数(3-11),一个清晰的和简单的图在图视图4提供在图5不考虑跳过计数,导致非理性行为和糟糕的性能。

4.2。实验二(步长= 6000)

同样,另一个二次实验是为了进行确认验证提出的研究问题的学习速率和实验一描述的实验设置是一样的除了学习步骤的不同设置为6000年为了看到任何改进或改变代理学习和测试性能,或换句话说观察跳过计数的影响。后设置的学习步长为1 6000每次代理了,20000的步骤,包括通过执行一个动作,感知一个过渡,更新网络。分析和观察代理人的行为和性能,同样的,100年测试集后每个6000后学习步骤,以及代理得到了充分的训练。

这一次整个学习和测试过程持续了将近8小时30分钟,大约超过5,79292游戏情节。

表1显示代理平均最后得分为每个跳过数集的总数和时间的总量。值得注意的是,“集”专栏,这表明迅速的学习系统的数量很大程度上取决于帧代理允许跳过学习期间,意味着跳过计数的数量越多,事件的数量越多,反之亦然。在表中,“平均最后得分”列显示了每个跳过代理的最终性能计算的最高得分最佳跳过数量规模(范围3-11)在斜体字体。


跳过计数	平均最后得分	集	学习时间(分钟)

1	67.1	1913年	45.2
2	68.5	5729年	31.1
3	77.7	8855年	27.6
4	77.6	11733年	25.4
5	75年	14423年	28.9
6	74.8	19332年	28.7
7	84.2	23182年	28.4
8	74.1	22121年	28.2
9	83.1	26520年	27.3
10	74.1	28411年	28.5
11	80.3	28884年	27.1
15	61.9	32597年	27.2
20.	70.7	42156年	27.4
25	66年	46985年	26.2
30.	73.6	45704年	27.1
35	40.8	53034年	27.4
40	61.4	52483年	27.2
45	45.8	57653年	27.5
50	43.4	57577年	26.3

在图6中,x轴表示跳过计数和y轴表示平均代理的最终得分。图表显示了所有的性能(平均成绩)考虑跳过数量只有上面的数据点或虚线是关于高分的跳过数量从3 - 11是最优规模(范围)提出了培训游戏代理或机器人如厄运。

4.3。比较、新奇和讨论

比较是用”。基础实验”出版从米甲et al .(2016),一个神经网络架构用于实验,提出了由两个卷积层,提供了一个基础提出最优的跳跃数4到10的规模。

然而,本文提出的神经网络架构包括三个卷积层差异的学习和游戏设置,这意味着最优跳过数量规模确定神经网络结构的三个卷积层hyperparameters修改,根据实验和结果提出,最好的最优跳数在于规模的范围3 - 11所示。

进一步在一个简单的move-and-shoot基本场景中,没有奖励塑造存在的概念或应用,不计算最后得分,但实际上它是在训练使用代理来帮助理解它的目标。在这种类型的场景(s),代理运动很重要,是不允许除了左和右,向前或向后移动。

此外,米甲et al。(2016)实验是基于15跳过,其中7画(图7)。然而,我们提出的实验中,相比之下,是基于19跳过数量(图4最新)上执行一个强大的GPU机技术。此外,不像米甲et al .,实验环境和学习环境也部分不同学习速率将α= 0.00025平方滤波宽度2(第三层)minibatch大小为32。

本文最后的平均结果代理培训不同跳数至少10%比米甲et al .(2016)提出的结果(18)当他们面临几个突然,但短暂,滴在最好的和平均分数的学习动态,可以观察到,想出了通过比较图4与图7因为学习的特工跳过数量小于3更健壮,不能给一个准确和最好的结果,和较高的特工训练跳过数量更容易受到非理性的行为,如等待空闲或与怪物的方式,从而导致更高的变化对故事情节。同时,过于巨大的跳跃数使代理笨拙由于缺乏导致次优总结分数的细粒度控制。另一方面,某些低跳过计数的特工训练发现健壮,但是学习消耗大量的时间和结果在一个较小的场景。简而言之,最后,跳过数为3—11范围内提供最大的稳定性之间的学习速度和最终的性能。结果还指定,将盈利开始学习以非凡的跳跃计数机动陡峭的学习曲线,它来调整性能逐渐下降。

5。结论和未来的工作

在本文中,我们提出了跳过计数的数量如何影响学习过程采用卷积深层神经网络与q学习和经验回放(CDNN)新游戏被称为ViZDoom学习环境。根据实验,结果达到至少10%比米甲的出版et al . (2016)。因此,得出的结论是,跳过3 - 11帧是有利可图的为了实现人类行为的代理在人类优于平均球员或内置的游戏代理。学习步骤设置为2000年和6000年和测试集100年2000年和6000年的学习步骤每个时代,保持活力和更大在未来的工作中为不同的场景(收集地图),如致命的走廊,维护中心,维护,和健康聚会场景(s)。

术语表

人工智能:	人工智能。
雅达利2600游戏:	雅达利2600,最初叫雅达利风投,是现代视频游戏系统的教父,孕育一个数十亿美元的产业。雅达利游戏机的销量超过三千万,和其他公司一起卖成千上万的游戏。
啤酒:	商场的学习环境是一个框架,允许研究人员开发人工智能代理的雅达利2600场比赛,目前支持超过50场比赛。
有线电视新闻网:	卷积神经网络。
DL:	深度学习。
厄运:	1993年的第一人称视角射击游戏(FPS) id软件。它被认为是最重要的、最具影响力的视频游戏头衔的历史。
死亡:	一个游戏模式,让两个或两个以上的玩家在战斗中死亡。
帧:	第一人称射击游戏(FPS)是一个视频游戏围绕着枪和其他weapon-based战斗从第一人称的角度来看。
游戏人工智能:	游戏人工智能或人工智能电脑游戏。
谷歌DeepMind:	DeepMind技术是人工智能的一个英国公司成立于2010年9月,目前由字母Inc .公司总部设在伦敦,另外有研究中心在加拿大、法国和美国。他们的目标是解决情报和用它来让世界变得更美好。
GPU:	是一个处理单元,执行快速的数学计算,主要为目的的渲染图像。它能够使图像更迅速比中央处理单元(CPU)由于其并行处理架构,它可以同时执行多个计算。
GUI:	图形用户界面。
地图:	地图是一个部分的虚拟和身临其境的世界在视频游戏场景包含多个地图可以选择。
RL:	强化学习。
场景:	在视频游戏中,它定义了一个世界是如何运作的,看起来像(地图)。
TPU:	一个张量处理单元(TPU)是一种专用的处理器由谷歌于2016年设计使用神经网络和机器学习项目。tpu可以提供一个优势为所有毫升Tensorflow中实现的应用程序。
ViZDoom:	Doom-based AI研究平台,强化学习从原始的视觉信息。它允许开发人工智能机器人,游戏末日只使用屏幕缓冲区。ViZDoom主要是用于研究特别是在机器视觉学习和强化学习。

数据可用性

研究数据(原材料)用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作由MOE-Microsoft重点实验室的自然语言处理和演讲中,哈尔滨工业大学,哈尔滨,黑龙江,150001年中国;中国的主要国家基础研究发展计划(973计划2015 cb351804);中国的国家自然科学基金批准号61572155,61672188,61272386;高等教育部门肃贪会,巴基斯坦。作者还想承认并感谢NVIDIA公司捐赠两股强大的GPU的机器。

引用

c·比蒂j . z . Leibo d Teplyashin et al .,“DeepMind实验室”https://arxiv.org/abs/1612.03801。视图:谷歌学术搜索
d .银、黄,c·j·麦迪森et al .,“掌握围棋和深层神经网络树搜索,“自然,卷529,不。7587年,第489 - 484页,2016年。视图:出版商的网站|谷歌学术搜索
b·科特b . Wuensche j .心胸狭窄的人,j .霍斯金表示:“信息可视化利用3 d电脑游戏引擎的案例研究,”《第六届ACM SIGCHI新西兰章的国际会议,页53-60,奥克兰,新西兰,2005年7月。视图:出版商的网站|谷歌学术搜索
诉Mnih k . Kavukcuoglu d银et al .,“与强化学习,玩雅达利”https://arxiv.org/abs/1312.5602。视图:谷歌学术搜索
j·d·欧文斯m .休斯顿,d . Luebke et al .,“GPU计算”IEEE学报》,2008年版卷。96 5,页879 - 899。视图:出版商的网站|谷歌学术搜索
n . p . Jouppi c .年轻:帕蒂尔et al .,“In-datacenter性能分析的张量处理单元,”《计算机体系结构(ISCA ACM和IEEE第44届国际研讨会上,2017年ACM SIGARCH计算机体系结构的新闻。视图:谷歌学术搜索
d . Hafner“深度强化学习从原始像素在厄运,“https://arxiv.org/abs/1610.02164。视图:谷歌学术搜索
Koenig和西蒙斯提出的,“泽维尔:机器人导航架构基于部分可观测马尔可夫决策过程模型,”基于人工智能的移动机器人:机器人系统的成功案例,没有。部分,91 - 122年,1998页。视图:谷歌学术搜索
,的j。施密德胡贝尔表示“深度学习神经网络:概述”,神经网络卷,61年,第117 - 85页,2015年。视图:出版商的网站|谷歌学术搜索
d . Perez-Liebana s Samothrakis j . Togelius t . Schaul和s·m·卢卡斯,”鲁棒性的分析一般玩电子游戏代理”计算智能学报2016年IEEE会议和游戏(是到岸价),页1 - 8,圣托里尼岛,希腊,2016年9月。视图:出版商的网站|谷歌学术搜索
m . Wydmuch m . Kempka, w . Jaskowśki“ViZDoom竞赛:玩厄运从像素,”https://arxiv.org/abs/1809.03470。视图:出版商的网站|谷歌学术搜索
k·阿迪勒江,刘,眼镜,比比古普塔和美国ρ,“培训代理使用视觉强化学习和vizdoom末日fps游戏,”国际期刊《先进的计算机科学和应用程序,8卷,不。12日,2017年。视图:出版商的网站|谷歌学术搜索
m .浅田和另外e . Uchibe野田佳彦,s . Tawaratsumida和k . Hosoda”协调的强化学习建立足球玩的行为,”学报aaai学报》- 94年研讨会AI和生活和娱乐美国西雅图,1994年。视图:谷歌学术搜索
m .浅田和另外,野田佳彦,s . Tawaratsumida, k . Hosoda“有目的的行为习得的强化学习建立真正的机器人,”机器学习,23卷,不。2 - 3、279 - 303年,1996页。视图:出版商的网站|谷歌学术搜索
d·拉特克利夫·德夫林,Kruschwitz et al .,“末日克莱德:深强化学习玩代理。人工智能的下一步计划是什么,“在在游戏中:AAAI 2017车间美国,旧金山,2017。视图:谷歌学术搜索
g . n . Yannakakis和j . Togelius”全景人工和计算智能的游戏,“IEEE计算智能和人工智能在游戏中,7卷,不。4、317 - 335年,2015页。视图:出版商的网站|谷歌学术搜索
d . s . Chaplot和g . Lample”阿诺:一个自治代理FPS游戏,”学报》31日AAAI会议上人工智能,AAAI 2017,页5085 - 5086,美国2017年2月。视图:谷歌学术搜索
m . Kempka m . Wydmuch g . Runc et al .,“ViZDoom: doom-based AI研究视觉强化学习的平台,”https://arxiv.org/abs/1605.02097。视图:谷歌学术搜索
c·j·沃特金斯和p·达扬q学习的。”机器学习,8卷,不。3 - 4、279 - 292年,1992页。视图:出版商的网站|谷歌学术搜索
t . Schaul j ., i Antonoglou et al .,“优先体验回放,”https://arxiv.org/abs/1511.05952。视图:谷歌学术搜索
吴y, y田”,培训代理的第一人称射击游戏actor-critic课程学习,”会议论文2017 ICLR学报》上,2017年。视图:谷歌学术搜索
m . Babaeizadeh Frosio,美国批et al .,“强化学习通过异步优势actor-critic GPU”。视图:谷歌学术搜索
巴蒂,a . Desmaison o . Miksik et al .,“slam-augmented深强化学习,玩《毁灭战士》”https://arxiv.org/abs/1612.00380。视图:谷歌学术搜索
m . Hausknecht和p .石头,深部分可观测的mdp复发性q学习的、abs / 1507.06527,, 2015。
m . Adamsson“课程学习提高强化学习代理的性能在一个静态的第一人称射击游戏2018”。视图:谷歌学术搜索
g . Lample和d s Chaplot”与深强化学习FPS游戏”,https://arxiv.org/abs/1609.05521。视图:谷歌学术搜索
m . Tokic“适应性ε贪婪的探索强化学习基于价值差异,”KI 2010:人工智能的发展卷,6359在计算机科学的课堂讲稿海德堡,页203 - 210,激飞柏林,柏林,海德堡,2010年。视图:出版商的网站|谷歌学术搜索
a . Dosovitskiy诉Koltun,“学习”预测未来的行为,https://arxiv.org/abs/1611.01779。视图:谷歌学术搜索
p . Agrawal“计算感觉运动学习,”科技。代表,2018年。视图:谷歌学术搜索
s .粗鲁的“梯度下降优化算法,概述”https://arxiv.org/abs/1609.04747。视图:谷歌学术搜索
g . Bradski和a . Kaehler”博士。多布斯杂志软件工具。”OpenCV,3卷,2000年。视图:谷歌学术搜索

机器人杂志

多个自主机器人协调和导航

文摘