科学的规划

在这一页上

文摘介绍结果与讨论结论和讨论数据可用性的利益冲突引用版权相关文章

特殊的问题

下一代在云和雾计算优化模型和算法

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID5812546| https://doi.org/10.1155/2022/5812546

深入强化学习股票预测

Junhao张 ¹ 和Yifei Lei²

学术编辑器: Punit古普塔

收到了 2021年12月11日

修改后的 2022年1月21日

接受 2022年1月25日

发表 2022年4月30日

文摘

投资者往往关注的潜在回报公司的股票价格的变化。然而,股票价格的波动往往高度非线性和非平稳的,使他们无法控制的主要原因大多数投资者获得长期回报低。历史上,人们总是模拟和预测使用经典计量经济学模型和简单的机器学习模型。近年来,越来越多的研究进行了使用更复杂的机器学习和深入学习方法预测股票价格,和他们的研究报告也表明,其预测精度逐渐提高。虽然这些模型的预测结果和精度改善随着时间的推移,他们的适应性在动荡的市场环境中受到质疑。高度优化的机器学习算法包括以下:模糊神经网络和RNN不能预测股票价格的随机漫步和他们的结果经常与股票价格波动不一致。本文的目的是增加股票价格波动预测的准确性和速度将PG方法的深度强化学习模型。最后,我们的测试表明,新算法的预测精度和奖励收敛速度明显高于传统DRL的算法。因此,新算法更适应市场环境波动。

1。介绍

最常见的问题之一,金融分析师和投资者对股票价格做出准确的预测(1),但他们也是一个艰巨的任务2]。这是因为大多数的股票价格是高度不稳定的。众多不同类型的因素影响股票价格。直接的经济指标,如消费者供给和需求的波动和大宗商品价格指数不够复杂。股票价格变化导致越来越难以捉摸的全球环境和投资者的行为(3]。每个因素生成在不同的方向,最终导致股票价格的变化。各种因素之间的关系经常是如此模糊,很难识别影响股票价格的因素,更不用说建立股票价格预测模型在此基础上。

根据当今流行的价值投资理论,股票的真实价值通常是由发行公司的市场价值。然而,偶尔,股票价格偏离理性的市场预期。股票价格的波动性和动态直接反驳了统计模型和基础的假设,经常导致不准确甚至消极预测结果(4,5]。

著名的有效市场假说认为,不可能预测股票的价值,他们的运动是随机的,有效无效无数尝试使用历史数据来预测股票价格。然而,十年的技术分析显示,多数股票的值包含在他们的历史股票价格;因此,收集和分析历史股票价格波动对预测未来的股票价格(至关重要6]。

机器学习(ML)是一种非常有效的技术,使机器能够通过自主学习算法。学术界一般认为,机器学习有很强的能力来识别有用的数据和推广模式(7]。机器学习的出现解决最复杂的问题之一,股票价格预测:非线性。机器学习是特别善于检测非线性数据中的模式。此外,深度学习(DL),从非线性时间序列中提取关键信息的方法,使用多级网络结构,执行得更好。

最近机器学习和深度学习的进步使得更准确的股票预测,和大多数的论文和研究已经证明,他们的模型可以比市场平均或产生相当高的回报。某些基本的机器学习(ML)模型,如前馈神经网络(FFNN)和深度学习模型,如递归神经网络(RNN)内存结构和动力学,与不稳定,然而,无法预测数据时间序列和长期自回归(8]。

强化学习(RL)深度学习的一个分支,它是不同于其他领域,如统计数据分析和监督学习。这是一个策略,寻求利润最大化而不断适应环境的变化在其运作。监督学习的目标是浓缩从输入到输出的映射,这经常导致重要信息的遗漏。由于股票价格波动的频率和持续时间,强化学习(RL)是一个更合适的预测工具,统计分析数据的非监督学习。

RL可以分为五个类别根据其样本效率:(1)基于模型,(2)off-policy, (3) actor-critic,(4)政策,(5)进化非常宽。在这种情况下,1是最有效的样本大小的选择,5是最有效的。其中,基于模型和non-policy方法,比如TD-learning [9),问则(10),被称为“critic-only方法”(11),用于解决离散优化问题。罗等人率先使用TD算法(12]。她认为股票价格预测问题可以使用强化学习算法优化作为一个马尔可夫过程。她用一个名为TD(0)的强化学习算法,它只通过学习经验,来确定每个州的状态值对应于当前股票价格趋势。

在政策和进化非常宽的方法通常被称为“actor-only方法”(13]。它的一个应用程序策略梯度(14通过连续性],它可以参数化的学习策略。中间部分,被称为“actor-critic方法,”[15),是一个综合前面所讨论的两种方法。它能够优化最终返回,同时计算参数化战略,坚持效益原则的价值创造。

在RL,代理选择何种行动为了最大化他或她的奖励。这意味着在整个学习过程中,代理积累回报最大化,因此发展各种各样的问题的最优策略。现在,研究人员可以将强化学习应用到各种有趣的项目,包括解决魔方(16),提高无人驾驶(17],雅达利和第一人称射击游戏(18,19]。

已经有许多研究利用强化学习来预测股票价格和构造交易模型。李等人扩大了研究领域从简单的股票交易系统预测与风险管理能力(8)之后,他们改变了原单药可替换主体研究研究,这增加了系统的复杂性和更多的适应2007年股票的研究方法(1]。

其他研究者的方法从原始数据输入的角度来看问题。穆迪等人以及其他使用公司的财务数据作为定量的基础上(20.]。越等人提出了一个最佳的交易系统受稀疏编码,非常适合实时高频交易(21]。这种方法极大地提高了原始数据选择的结果。

然而,之前的研究没有完全提取有用的财务数据由于固有的噪声和波动在一个波动的市场。本文将使用两种机器学习框架分析和预测数据:“critic-only DQN”和“actor-critic深PG。”DQN将单层与多层网络卷积网络。它不仅使经历重演,也使我们的网络self-train利用其记住历史,更紧密地与时间自相关匹配和跨时期的相关性,出现在美国市场。PG梯度下降算法是一种优越的战略“贪婪的政策。“这决定的上升方向计算目标函数的梯度,然后调整行动的概率根据其性能最大化回报。由于股票市场相对脆弱的市场力量,它是经常容易受到其他因素。最优策略基于贪婪的概念经常需要大量的时间去学习和容易过载问题。实施后PG,机器的负载可以显著减少和优化策略可以显著减少所需的时间。

2。强化学习原理

在强化学习的背景下,一个代理从环境中获得信息。代理适应环境接收的数据的当前状态。AI然后决定要采取行动基于与每一个选择相关的奖励。此外,每个操作改变了环境和报酬点的总数。增援部队的奖励或惩罚具体行动立即的基础上添加新的状态。这个动作和环境之间的相互作用将持续至代理大师的艺术选择策略,最大化总回报的决定。

上面的条款中,奖励和环境,指的是两个的四个关键因素影响RL萨顿和Barto描述问题。策略类似规则时,我们对自己的环境。奖励函数作为培训的总体目标,作为标准来衡量其他因素。值函数指定一对国家或政府行动的价值,这表明长期的国家或政府行动。

流程图如图1。RL的流程图说明了RL agent-environment交互过程在一个较高的水平。在一个过程中,代理执行一个动作,在回复当前状态。由于这个动作,系统接收到信号时,奖励,r_{t+ 1},直接行动的行为在随后的时间步长和调整状态在随后的时间步,使用概率函数f(一个_t,年代_t)。

2.1。在强化学习Agent-Environment交互

RL的目标是最大化代理的奖励在环境状态映射到有限数量的行动,行动。马尔可夫决策过程(MDP)是RL的数学模型问题。四(年代,一个, , )通常表示为一种MDP的状态。

在这种情况下,年代表示所有环境状态的集合。表示当前状态集合中的所有环境状态的时间t;可能采取的行动的集合代理用这封信一个。表示代理人的行动时间t; 是奖励函数。是一个奖励和惩罚表格。它总结了所有的好处,一个可能的行动, ,可以获得在一个给定的状态, 。状态转换的概率分布函数。状态的概率成功地过渡到状态, 。,用。

强化学习的最终目标是使代理能够发现一个最优的行动模式,因此,在此过程中我们使用的策略是至关重要的。的策略,π:年代⟶一个表明,最优动作步骤取决于当前环境条件 ,也就是说,π(年代_t)=一个_t。假设在每个获得的即时回报未来时期应该乘以折扣因素为了避免无限的回报和贴现未来价值到现在,时间T表示图的结论。以下是一个典型的功能:

在这里,γ(0 <γ< 1)代表一个恒定的贴现率为未来和当前的奖励。接下来的策略是直到训练完成,方程(2)是指行动在当前状态年代。在另一方面,它显示了一个国家行动价值函数。代理的累计回报在这个过程表示如下:

如果有一个策略 ,的预期收益大于或等于其他一切国家战略行动对,我们称它为最优策略。的战略被称为最优状态动作值函数,公式如下:

然后遵循贝尔曼最优方程,我们有以下:

的问价值函数通常是通过迭代解决贝尔曼方程在传统强化学习框架如下:

这个公式时自动方式 _,这表明如果政府行动值函数不断迭代,它最终将收敛于最优策略:

然而在实践中,迭代的贝尔曼方程来确定问价值是不切实际的在大样本空间中由于难以想象的大量计算。

2.2。深入强化学习基于价值函数

Mnih是第一个提出一个深问网络(DQN)模型结合深度学习和卷积神经网络问学习算法在传统强化学习(18,22]。这个模型包含一个回旋的层,大大提高了学习效率和性能(23]。

四前预处理图像当前时刻被送入DQN模型。它成为非线性经过三个卷积层和两层完全连接。最后,输出层产生Q值与每个操作有关。TheDQN结构如图2:

DQN传统进行了三次重大改进问学习算法来解决相关的不稳定以及其他问题的非线性网络用于表示值函数。DQN算法流程如图3。

DQN训练过程中利用经验回放机制(24](重播)经验。转移的样本。当代理人和环境样品转移到播放内存单元在给定的时间t,它们存储在那里。小批量随机选择样本转移D每一次,和随机梯度下降法(SGD)算法用于更新网络参数在培训。在开发深度网络时,通常需要独立的样本。随着增加算法的稳定性,这种随机抽样方法可以显著减少intersample相关性。

在这个过程中,代理和转移的样本。获得环境交互回放存储在内存单元在每个时间步t。当训练深度网络,每个样本都必须完全独立于其他的数据集。随机抽样通过减少intersample相关性提高了算法的稳定性。

除了之前的价值函数,DQN使用深卷积网络估计当另一个网络单独使用来获得所需的Q值。网络的当前值输出, ,是用来计算价值函数对当前状态的行动。目标价值网络的输出表示为使用以下公式:

这是一个粗略的表示值函数的优化,获得目标的目的问价值。网络的当前值参数在实时改变。网络参数的当前值将被用作目标价值网络的参数N迭代。的联合方差最小化的原则可以减少所需的问价值和目前的问价值。误差函数如下:

不同的参数得到以下梯度:

引入目标价值网络后,目标问一段时间价值保持不变,增加算法的稳定性通过减少当前和目标之间的相关性问值。通过利用DQN,奖励和错误条件只局限于一个小范围内,问和梯度值保证在可容忍的范围内,并改进算法的稳定性。DQN已被证明在实验中能够解决的问题在雅达利2600场比赛。当面对复杂的现实情况(19),它演示了一个竞争水平与人类的球员。即使在困难的非战略游戏,DQN优于经验丰富的人类玩家。DQN使用相同的网络模型、参数设置和培训方法视觉感知是DRL听觉感知的任务。这演示了如何适应和灵活DQN方法。

3所示。股票预测与RL

3.1。深基于策略梯度的强化学习股票预测

政策梯度战略(PG)主要是通过修改设置为了优化奖励函数。这一战略的关键是改变这个政策的参数通过广泛的计算和迭代。调整参数将被包括在决策方程和连续的基础上进行修改,以适应更准确的政策。通过拟合的方法,它最终将收敛于最优计划(奖励价值最大化的15]。在最优状态,该策略集包含特定参数(或策略),确保这一战略的奖励价值等于或大于任何其他的奖励价值战略。

参数化解决DRL优化问题是必要的。构造深度学习的基本方程后,PG通常用于选择参数,改变变量computer-constructed模型中的权重,最后选择最大化函数的奖励值的方法。这个策略,有各种优势的主要条件之一就是它减少了计算机的性能。这种方法简化了耗时的动态迭代过程,允许更精确的优化预测回报价值,也不需要沉重的中间业务,从而大幅度减少计算资源消耗。因此,DQN及其先进的模型相比,DRL技术经常达到更好的优化结果和计算最低入住率在模型优化降维方法在使用政策。此外,政策直接降维方法可能得到最好的政策策略集,大大减少计算成本。因此,酒吧实现这项技术在实践中较低,应用领域广泛。

在实践中,该策略梯度方法是一种技术,它使用一个近似者直接近似和优化策略,导致最优策略。这种方法最大化策略的预期总奖励如下: 表示获得的奖励的数量在一个阴谋。梯度的最常用的方法是提高遇到的可能性更高的总回报阴谋。策略梯度方法在以下方式:我们将假定这里,动作序列,和奖励的一个完整的序列图如下, 。然后PG公式表示如下:

这种梯度可以用来调整政策参数: 。在这其中,决定政策参数更新的频率,它被称为学习速率。 ,梯度项,梯度项表示的潜在方向发生轨迹可以增加。总回报就越大(在一个单一的情节),越“拉伸”概率密度乘以后变成了R。概率密度将倾向于最高的轨迹总奖励如果大量的路径不同奖励总额,从而增加的可能性高回报的轨迹。

然而,在某些情况下,总回报R每个情节都是积极的,这意味着所有的梯度值大于或等于0。在这一点上,每一个轨迹τ在培训过程中遇到导致概率密度“拉”在积极的方向发展,显著放缓学习速率。这个结果在一个相对大的梯度差异。因此,低梯度的方差通过使用任何标准化操作R。这种策略使算法能够提高轨迹的可能性τ发生(更大的总回报R)和减少轨迹的概率τ出现(一个较低的总回报R)。

威廉姆斯et al。25,26)提出了加强方法,它改变了政策梯度成下面的形式:

R的方差可以减少使用一个预期的估计b作为当前的基线轨迹。之间有很强的相关性R和b差异和轨迹被选中相关的的可能性更大。对大规模DRL挑战,战略参数可以使用深层神经网络参数化和最优策略可以使用标准的解决策略梯度方法。

此外,另一个策略来优化策略是提高执行“好”活动的可能性。在强化学习中,优势函数通常是用来量化一个动作的质量。因此,策略梯度可以构造函数项使用以下优势:

其中,代表了一个估计的行动的主导功能状态,通常构造如下: 表明折扣因素。和奖励的折扣和折扣状态值函数是一样R和基准b在方程(12)。当 ,适当的行动被选中的可能性增加。当 ,它将减少相关的行动被选中的可能性。

Hafner et al。27]估计使用价值的折扣奖励求和函数,从而降低梯度项的方差。在这一点上,一步截断,的表达式如下:

此外,两步截断的表达式如下:

然而,这种策略介绍了估算偏差的因素。方差最小化,同时保持有点偏见,舒尔曼et al。28)提出了一个广义优势函数来解决这个缺点如下:

这一概念再推进一步,舒尔曼et al。29日然后引入了一个称为信赖域的技术政策优化(TRPO)。扩大应用程序状态空间大规模DRL任务,TRPO方法参数化策略使用深层神经网络和实现端到端控制只使用原始输入图像。

3.2。RL应用程序

在实践中,在白天,当交易系统预测股价会继续上升,将会有一个判断是否购买。当股票价格预测不断下跌,卖出的操作将被执行。

在这项研究中,我们使用单药训练方法。的变化率单个股票的价格在市场环境是我们关注的,我们认为,在市场上的所有信息已经包含在环境信息和股票本身的状态。虽然市场是复杂多变的,市场价格也最终获得表达游戏的许多中国投资者的行为。然而,在一个相对长期的RL训练,结果理论上可以反映市场中包含的信息更全面,因此,这种假设也是无害的。

国家政策是一个独特的参数方程。因此,如果假定所有投资者的政策不灵活,行动的选择仅仅是基于给定的状态。因此,在5分钟数据,其他投资者的政策可以被看作是国家的市场。

股票信息的指标包括以下几点:(1)开盘价格,收盘价(2),(3)每日最高价值,日常最小值(4),(5)每日平均值和(6)交易数量。上面的六个数据将作为状态指标在股票市场环境。O:当日的开盘价。C:一天的收盘价。H:白天最高价格。L:白天最低价格。年代:一天的平均价格。Aq:成功交易的数量和数量。

4所示。结果与讨论

4.1。仿真结果

本文的目标是建立一个短期股价预测框架回顾特色。换句话说,过去的股票价格波动作为一个参考今天的股票价格预测。我们使用历史日报美国所有股票和交易所买卖基金的价格和销量来验证我们提出的方法。首先,我们训练DRL模型与数据从2014年7月到2016年1月和测试该模型使用的数据从2016年1月到2017年7月。结果如图所示4从图可以看出,在训练阶段和测试阶段,模型的输出结果非常符合实际的股票价格。

过程中使用的数据集训练模式,随着时代数据的增加,损失函数将逐渐减少。在这个培训过程中,培训结果的损失函数如图5。从图可以看出,从10期数据,损失函数往往是最小的。

此外,在训练和测试数据集的过程中,我们将观察到的变化奖励DRL模型,如图6。如图4,奖励变化显著的训练和测试,但稳定随着时代的数量增加,表明DRL模型训练。

往下,我们预测股票价格使用DRL-based策略梯度方法提出了,如图7。如图7,本文的方法在预测股票价格的趋势更准确的数据。分析模型的损失函数的结果和回报函数如图8。DRL的结果相比,本文发现,虽然方法很差损失函数稳定,很快就稳定在奖励曲线。

5。结论和讨论

改善每日股票价格预测的准确性,提出了一种新的强化学习方法,包含政策梯度。进行了比较每日预测的股票价格变化的基本DRL和每日股票价格变化的预测提出了基于DRL策略梯度方法在本研究中。尽管损失函数的收敛时间较长,由于使用不同的降维方法,实验结果表明,新方法在预测的准确性以及快速预测的稳定性都明显增强。这表明我们的新方法能够更容易地捕捉市场变化的信息。因此,它更适合用在市场动荡时期相比,传统的方法。然而,这项研究仍有改进的余地。股票价格研究盘中股票价格的波动往往很大。使用这项研究贸易的结果有时会减少的回报率,这将造成一定损失的投资者持有大量股票时减少持有。此外,在数据量方面,因为只有几件每天生成的数据,这些数据用于预测每天的股票价格往往有一个长期的跨度,在不同的年份和市场信息不能通用。因此,每天的股票价格的预测频率提高到5分钟甚至1分钟的水平可能对投资者更大的参考。 Compared with the daily data, the data every five minutes have less information density, but they will more clearly reflect the overall picture of stock price fluctuations, which is conducive to the prediction of future stock price fluctuations and can also provide a better reference for investors to increase returns.

数据可用性

和/或使用的数据集分析在当前研究可从相应的作者以合理的要求。

的利益冲突

作者宣称没有利益冲突。

引用

f . Agostinelli s Mcaleer a Shmakov, p . Baldi”解决魔方与强化学习和搜索,“自然机器智能,1卷,不。8,356 - 363年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
s . Asadi大肠Hadavandi、f . Mehmanpazir和m . m . Nakhostin”杂交Levenberg-Marquardt进化神经网络和数据预处理的股市预测,“以知识为基础的系统,35卷,第258 - 245页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
邓y, y香港、f·鲍和戴,“高频交易行业,稀疏coding-inspired最佳交易系统”IEEE工业信息,11卷,不。2、467 - 475年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
r . Hafner和m . Riedmiller”,强化学习在反馈控制,”机器学习,卷84,不。1 - 2、137 - 169年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
诉Konda和j . Tsitsiklis Actor-critic算法”,先进的神经信息处理系统,12卷,1999年。
视图: 谷歌学术搜索
g . Lample和d s Chaplot FPS游戏深度强化学习,”2017年,https://arxiv.org/abs/1404.3978。
视图: 谷歌学术搜索
j·w·李,“股票价格预测使用强化学习,”学报2001年IEEE国际研讨会工业电子程序695年,页690 - 2001年6月,韩国釜山。
视图: 谷歌学术搜索
j·w·李,e .香港和j .公园,“基于q学习的方法来设计智能股票交易代理”《2004年IEEE国际工程管理会议新加坡,页1289 - 1292年,2004年10月。
视图: 谷歌学术搜索
Schervish Lehoczky和m .,”概述,股市的历史统计数据。”年度回顾的统计及其应用,5卷,不。1,第288 - 265页,2018。
视图: 出版商的网站 | 谷歌学术搜索
L.-J。林,强化学习机器人使用神经网络(科技众议员)。,1993年,DTIC文档。
j·w·李,j .公园,j . O, j . Lee m方法和大肠香港。问则将日常股票交易,”IEEE系统,人,Cybernetics-Part答:系统和人类,37卷,不。6,864 - 877年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
b·罗·d·刘,H.-N。吴,d . Wang和f·l·刘易斯“基于数据的最优控制策略梯度自适应动态规划,“IEEE控制论47卷,第3354 - 3341页,2016年。
视图: 谷歌学术搜索
k .苗族f·陈,李振国赵,“股票价格预测基于菌落RBF神经网络,”青岛大学学报(自然科学版),2卷,2007年。
视图: 谷歌学术搜索
诉Mnih k . Kavukcuoglu d银et al .,“和深度强化学习玩雅达利,”2013年,https://arxiv.org/abs/1312.5602。
视图: 谷歌学术搜索
诉Mnih k . Kavukcuoglu d银et al .,“人类控制通过强化学习,”自然,卷518,不。7540年,第533 - 529页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
j·e·穆迪·m·Saffell y辽、和l .吴强化学习系统和交易的投资组合1998年,页279 - 283,https://www.aaai.org/papers/kdd/1998/kdd98 - 049. - pdf。
m . Nabipour p . Nayyeri h . Jabani a . Mosavi e . Salwana和美国该导弹,“深度学习股票市场预测,”熵,22卷,不。8,840年,页2020。
视图: 出版商的网站 | 谷歌学术搜索
m·p·Naeini h . Taremian, h . b . Hashemi“使用神经网络预测股票市场价值,”《2010年国际会议上计算机信息系统和工业管理应用程序IEEE,页132 - 136年,克拉科夫,波兰,2010年10月。
视图: 谷歌学术搜索
e·s·奥利瓦,j·d·m·格雷罗州m . Martinez-Sober j . r . Magdalena-Benedito和l . Serrano手册的研究机器学习应用程序和趋势:算法、方法、和技术:算法,方法和技巧,IGI全球,宾夕法尼亚州,美国,2009年。
d·s·s·平托和k·r·g·达席尔瓦在管道使用“机器人位置控制问学习”,在学报2016年IEEE国际会议系统,人,控制论IEEE,页004609 - 004613年,布达佩斯,匈牙利,在2016年10月。
视图: 谷歌学术搜索
s•j•舒尔曼,p . Abbeel m·乔丹和p·莫里茨,在信赖域策略优化美国第32国际会议上机器学习PMLR,页1889 - 1897年,里尔,法国,2015年7月。
视图: 谷歌学术搜索
s•j•舒尔曼·莫里茨·m·乔丹和p . Abbeel“高维连续控制使用广义优势估计,2015年,https://arxiv.org/abs/1506.02438。
视图: 谷歌学术搜索
r·s·萨顿d . Mcallester s·辛格和y .曼苏尔,“政策梯度与函数逼近的强化学习方法,“先进的神经信息处理系统,12卷,1999年。
视图: 谷歌学术搜索
y . h . Wang, g . Min j .徐和p .唐,“数据驱动的动态资源调度网络切片:深强化学习方法,“信息科学卷,498年,第116 - 106页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
c·j·c·h·沃特金斯从延迟奖励,学习“1989。
视图: 谷歌学术搜索
r . j·威廉姆斯,“简单统计梯度跟随联结主义强化学习算法,”机器学习,8卷,不。3 - 4、229 - 256年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
p .狼,c . Hubschneider m .韦伯et al .,“学习如何驾驶与深Q-Networks,模拟现实世界”学报2017年IEEE智能车辆研讨会IEEE,页244 - 250年,洛杉矶,美国,2017年7月。
视图: 谷歌学术搜索
t, s .邹,梁y”两个时间尺度off-policy TD学习:non-asymptotic在马尔可夫过程的样本分析,“先进的神经信息处理系统32卷,2019。
视图: 谷歌学术搜索
y元,z l . Yu z顾et al .,“一种新颖的多步q学习方法为深强化学习,提高数据效率”以知识为基础的系统卷,175年,第117 - 107页,2019年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

4354年

下载

1060年

引用