复杂性

PDF
复杂性/2019年/文章
特殊的问题

2019年金融网络

把这个特殊的问题

研究文章|开放获取

体积 2019年 |文章的ID 3582516 | https://doi.org/10.1155/2019/3582516

Taewook Kim Ha年轻的金, 优化Pairs-Trading策略使用深强化学习和交易和止损的界限”,复杂性, 卷。2019年, 文章的ID3582516, 20. 页面, 2019年 https://doi.org/10.1155/2019/3582516

优化Pairs-Trading策略使用深强化学习和交易和止损的界限

客座编辑:本杰明·m·Tabak
收到了 2019年2月06
修改后的 2019年4月14日
接受 2019年6月11日
发表 2019年11月12日

文摘

许多研究人员试图优化对交易机会套利利润的数量逐渐减少。对交易是一种中性策略;利润如果给定的条件是满足在一个给定的交易窗口,如果没有,有损失的风险。在这项研究中,我们提出一个优化pairs-trading策略使用深层加固learning-particularly深Q-network-utilizing各种交易和止损的界限。更具体地说,如果利差交易阈值和反向的意思是代理收到积极的奖励。然而,如果利差触及止损阈值或未能扭转冲击后的平均交易门槛,代理收到负面的奖励。代理是训练有素的选择最优离散交易和止损水平边界给定一个传播最大化预期贴现未来利润的总和。对标准普尔500指数从股票选择使用协整检验。我们比较该方法与传统pairs-trading策略使用常数交易和止损的界限。我们发现我们的模型是训练好,优于传统pairs-trading策略。

1。介绍

对交易的方法获得套利利润当有两个股票具有类似特征的统计差异共合体或高度相关。这是可能的因为统计原因,差价由两只股票有一个长期均值回归(1]。在早期,pairs-trading方法很受欢迎,因为机会获得套利利润(1- - - - - -4]。然而,正如许多投资者包括对冲基金寻求这些套利机会执行pairs-trading策略,其盈利能力开始恶化[5,6]。为了克服这些缺点,进行了大量研究,提高pairs-trading策略7- - - - - -10]。

对交易的机制如下。首先,确定股票类似的趋势。第二,回归分析,如普通的最小二乘(OLS),总体最小二乘(TLS)和误差修正模型(ECM)用于计算这些股票的传播。最后,如果传播达到预设的界限,投资者将打开一个组合,这需要很长的位置上被低估的股票和短裤估值过高的股票。随后,如果反向传播的意思是,投资者的投资组合将关闭开放的投资组合是相反的位置。在这种情况下,投资者获得套利利润通过执行这一策略。然而,有一个风险当不反向传播的意思。在这种情况下,投资者的风险很高,因为他们不能关闭组合。通过设置止损边界,投资者可以对冲风险(11- - - - - -13]。

许多研究人员运用各种统计方法来提高对交易的效率和性能。他们尤其关注使用传播作为交易信号。这项研究在1)收集对股票基于偏差的平方和最小化之间的两只股票,然后执行交易策略如果之间的差异对传播的标准差的两倍。他们使用规范化的从1962年到2002年美国股票价格数据测试对交易的盈利能力。这项研究在14)利用协整方法保护pairs-trading策略从严重的损失。他们应用OLS方法创建和设置各种条件转化为交易行为。从这些模型,他们实现了一个交易策略免受损失风险最低水平的利润。结果显示约11%的年化超额收益在整个时期。研究[15相比)的距离和协整方法为每个高频和日常数据集来检查是否为挪威海产品公司盈利。两种方法之间的性能是相似的。文献[16)用卡尔曼滤波计算传播,当时用作高频交易信号,100年股票构成KOSPI指数。他发现pairs-trading策略的性能是重要的综合和更好的在日常的市场条件在市场打开和关闭。此外,(7)优化pairs-trading系统随机控制问题。他们用Ornstein-Uhlenbeck过程来计算传播作为贸易信号与模拟数据和测试他们的模型;结果表明,他们的策略执行。此外,(17建议Ornstein-Uhlenbeck过程做出市场微观结构噪音用作交易信号成对交易策略。性能更好的在这种方法比传统的估计如ARIMA(1,1)和最大似然。文献[18]运用协整方法从2006年到2016年中国商品期货检查对交易是否适合这个市场。他们使用OLS回归创造传播的对。此外,(10]应用协整检验各种对股票和向量误差修正模型来创建一个交易信号。

重要的是设置一个边界优化pairs-trading策略。这个边界是决定是否执行的标准pairs-trading策略。如果边界设置较低,许多策略将被执行,但利润会降低;如果设置了较高的边界,投资者将获得高回报在执行策略时。然而,所有这些假设均值回归。如果传播不返回指定交易的平均窗口,损失将会发生。如果设置较低的边界,将损失小。然而,如果战略执行高边界,损失将会增加。因此,对交易的性能取决于边界设置。文献[14)建议minimum-profit条件,可有效减少损失pairs-trading系统。他们设定一个交易规则与多样化的开放条件:例如,如果传播高于0.3,0.5,0.75,1.0,和1.5个标准差。他们使用每日收盘价从1月2日,2001年8月30日,2002年,两只股票,澳大利亚新西兰银行和阿德莱德银行。结果表明,作为开放条件值减少,交易和利润的增加。也(19]建议优化预设边界计算平均贸易持续时间的估计参数,intertrade间隔,和交易的数量和使用他们的最低总利润最大化。他们使用每日收盘价数据从1月2日,2004年6月30日,2005年,七对股票在澳大利亚证券交易所。结果表明,他们的方法是使用pairs-trading策略有效的盈利。文献[18)检查是否pairs-trading策略可以应用到日常的回归中国商品期货从2006年到2016年使用三种方法:古典、闭环和动态的止损。闭环方法只需要一个stop-profit障碍执行战略和不考虑风险如果价差回归的意思。经典的方法增加了闭环的止损边界的方法。动态的止损方法使用各种stop-profit和止损障碍适应传播如果传播大于标准差,设置使用标准基于传播的历史平均水平。结果表明,这些方法获得的年化收益率超过15%,尤其是闭环方法,获得最高利润的26.94%。此外,(20.)尝试用固定的最优阈值选择,条件波动性,百分位,光谱分析,神经网络在pairs-trading阈值策略。其中,神经网络阈值超过所有其他策略。

强化学习的成功,证明了其成功的性能在雅达利游戏21),许多研究人员试图将这种算法应用到金融交易系统。文献[22)提出了一种深Q-trading系统使用强化学习方法。他们应用q学习的自动交易系统交易。他们设定一个三角洲价格使用数据从过去120天,有三个离散的行动空间(买入,持有,并出售),并使用长期利润作为奖励。他们每天使用的数据从2001年1月1日,12月31日,2015年,香港恒生指数和标准普尔500指数。实验结果表明,提出的方法优于“买入并持有”策略和反复强化学习方法。文献[23]提出三个步骤将强化学习应用到金融交易系统。首先,他们相对减少回放大小以适应金融交易。其次,他们提出了一个动作增加技术提供更多的反馈从行动到代理。第三,他们使用长序列递归神经网络作为强化数据进行训练。实验数据包括实时数据从2012年1月至2017年12月12日外汇货币对。结果表明,动作增加技术比epsilon-greedy政策产生了更多的利润。文献[10)使用一个N-armed土匪问题优化pairs-trading策略。他们把传播使用纠错模式,发现利用网格搜索算法的参数。他们比较他们与一个常数模型参数模型,这是类似于一个传统pairs-trading策略。他们使用数据库FactSet的一些股票盘中一分钟数据从2015年6月到2016年1月。他们提出的模型的性能优于常量参数模型。

我们不仅研究基于动态边界蔓延在每一个交易窗口也可以获得更高的利润比固定边界用于传统对交易经营策略还能否在火车深强化学习方法遵循这一机制。为此,我们提出一个新方法来优化配对交易策略使用深强化学习,特别是深Q-networks,由于对交易策略可以被认为是一个游戏。打开一个组合位置后,利润可以组合是否关闭,设置止损位置。因此,如果我们把这一战略游戏通过设置边界优化的利差在交易窗口中,我们可以获得更多的利润比传统配对交易策略。特别是,我们设置了pairs-trading系统是一种游戏,获得最优边界,交易的门槛,止损阈值根据计算扩散。这个建筑的原因是,如果投资组合在交易窗口中打开和关闭在计算扩散,将无条件地有利可图的投资组合是否关闭。如果投资组合边界到达止损或不收敛的意思是,可能发生的损失。因此我们组DQN学习通过积极有益的如果它需要关闭位置和负奖励它如果它到达止损或退出阈值。我们进行了以下实验来验证该方法相比传统的优化方法。首先,我们使用不同的传播计算使用OLS和TLS,看看结果取决于不同传播用于输入。 Second, depending on the formation window and trading window, the spread and hedge ratio will be varied. We therefore set a total of six window sizes for selecting the optimal window size which had the best performance. Finally, we compared the proposed method with the traditional pairs-trading strategy using the test data with the optimal window size. In this experiment, we use the daily adjusted closing prices from January 2, 1990, to July 31, 2018, of 50 stocks in the S&P 500 Index. Experimental results show that our proposed method outperforms the traditional pairs-trading strategy across all the pairs. In addition, we can confirm that the performance measure varies according to the spread.

本研究的主要贡献如下。首先,我们提出一个新颖的方法来优化配对交易策略使用深强化学习,特别是深Q-networks交易和止损的界限。实验结果表明,我们的方法可以应用在对交易系统以及其他各种领域,包括财经、当有一个需要优化基于规则的策略更有效。其次,我们提出一个优化的动态边界基于蔓延在每一个交易窗口。我们提出的方法优于传统配对交易策略设定一个固定的边界。最后,我们发现,我们的方法优于传统的配对交易策略在所有对标准普尔500指数基于成分股票。自我们的方法选择最优边界基于传播,它可以应用于其他股市如综合,日经指数和恒生指数。应该注意的是,目前的工作是一个硕士论文的一部分(24]。

本文的其余部分组织如下。部分2解释了技术背景。部分3描述了材料和方法。部分4显示的结果和讨论提供了一个实验。部分5为本研究提供我们的结论。

2。技术背景

2.1。传统的Pairs-Trading策略

对交易是一个代表中性交易策略,同时渴望被低估的股票和短裤估值过高的股票。这个策略是一种统计套利交易假设这两种资产的价格的运动类似于以前的趋势(1]。这是假设资产价格将回到长期均衡。这种策略从套利机会存在的想法当价格两种资产之间的差距扩大或过去一定水平。这也是基于相信历史价格波动不会改变在未来显著。

在图1,蓝色的画是一个传播由两股共合体,红线是交易边界,绿线是止损的界限。这种传播到达交易边界时,投资组合时打开,只有关闭返回平均传播。然而,损失发生当价格到达止损的边界组合后打开,不返回到平均水平。此外,投资组合后,如果交易信号没有逆转意味着在交易窗口,以关闭组合的力量;这就是所谓的出口位置的组合。

2.1.1。协整测试

有许多方法等对选择离散方法(11,25- - - - - -27),协整方法(10,16,27),和随机方法(7,8]。在这项研究中,我们利用协整方法选择对长期均衡。一般来说,一个线性组合的非平稳变量也是一个不稳定的关系。假设 有单位根;正如前面提到的,这些变量的线性组合是不稳定条件。 然而,它可以是一个固定关系的非平稳变量共合体。在这种情况下,这个回归必须检查以确定是否这是一个虚假的回归或共合体。Johansen协整的方法被广泛用于测试(28]。在这种方法中,协整关系的数量和模型的参数估计和测试使用最大似然估计(标定)。因为所有变量视为内生变量,不需要选择因变量和多个确定协整关系。此外,我们使用标定估计与向量自回归模型和协整关系确定协整系数基于似然比的测试。因此执行各种优势假说测试相关协整估计参数和其他模型协整时的设置,而不是仅仅为协整测试。

2.2。传播计算
2.2.1。普通最小二乘法

在OLS回归分析被广泛用于估计参数通过最小化的平方误差的总和(29日]。假设 , , 是一个独立的变量,因变量,和一个误差项。我们可以估计 从以下方程通过偏导数: 从方程(获得价值5)用于股票数量的订单。ε值也被用作一个交易信号通过z分数,在由formation-window大小。

2.2.2。总体最小二乘

TLS估计参数测量距离的总和最小化和回归直线之间的垂直距离(30.]。自垂直距离不会改变X和Y坐标时改变,的价值 计算一致。TLS方法,观察到的值 有以下错误: 在哪里 真值和 误差项独立后是相同的分布。假设有真值的线性组合。为了方便起见,我们代表的误差方差比例方程(10): 正交回归估计量的计算方法是通过最小化的和测量距离和回归直线方程之间的垂直距离(11): 从方程(获得价值12)是使用相同的方式,从方程(5)和ε值也被用作一个交易信号通过z分数formation-window大小组成的国家。

2.3。强化学习和Q-Network深处

强化学习的想法是找到一个最优政策,最大化的预期和贴现未来回报(31日]。这些奖励来自选择每个操作的最优值,称为最优核反应能量。强化学习基本上解决问题定义的马尔可夫决策过程(MDP)。它由一个元组 ,在哪里 是一个有限集的状态, 是一组有限的操作, 是一个状态转换概率矩阵, 是一个奖励函数, 是一个折扣因素。在环境 ,agent-observed状态 在时间 ,行动 被选中。从这些序列的结果,环境反馈提供给代理的形式奖励 和下一个状态 选择一个动作的行为价值函数 代表的预期和贴现未来的回报。 在这个行为价值函数 ,我们找到一个最优行为价值函数 ,后最优政策,最大化的预期和折现未来的回报。 这个最优行为价值函数可以被制定为贝尔曼方程。 DQN使用非线性函数近似者估计动作值函数。这个网络是由一系列损失最小化训练功能 ,每个序列的变化 的重量 随着序列的进行更新:

3所示。材料和方法

3.1。数据

在这项研究中,标普500指数的50只股票选择基于他们的交易量和市值。开展实验,数据必须覆盖。因此,选择相应的股票,共25个股票。表1代表股票的数据集名称,缩写的股票,和各自的部门。我们收集了调整每日收盘价使用汤森路透的数据库。训练数据集的周期从1月2日,1990年12月31日,2008年,由4792数据点;测试数据集涵盖了从1月2日,2009年7月31日,2018年,由2411年的数据点。从这些数据集,选择一双股票数据集训练期间使用协整检验。


不。 股票行情自动收录器 股票 部门

1 apple 苹果(aapl . o:行情)。 技术
2 微软 微软公司 技术
3 正当外界 伯克希尔哈撒韦公司。 金融服务
4 摩根大通 摩根大通(jpm . n:行情)。 金融服务
5 johnson & johnson 强生公司 医疗保健
6 XOM 埃克森美孚公司 能源
7 BAC 美国银行公司 金融服务
8 wells 富国银行(Wells Fargo &公司 金融服务
9 京东商城 沃尔玛公司。 消费者的防守
10 主要研究 联合健康集团股份有限公司 医疗保健
11 雪佛龙公司 能源
12 T 美国电话电报公司。 通信服务
13 pfizer 辉瑞公司 医疗保健
14 奥多比公司 技术
15 价格上调 麦当劳公司 消费者的周期性
16 联合化疗 美敦力公司 医疗保健
17 3 m公司 工业
18 亲爱的 霍尼韦尔国际公司。 工业
19 通用电气 通用电气公司 工业
20. ABT 雅培公司 医疗保健
21 奥驰亚集团、公司。 消费者的防守
22 UNP 联合太平洋铁路公司 工业
23 时候 德州仪器公司合并 技术
24 联合技术 联合技术公司 工业
25 增加 礼来公司和公司 医疗保健

3.2。选择对使用协整检验

有必要对股市的长期统计关系或类似的价格变动。可以确定的两只股票有类似的价格变动通过关联的值。此外,一双股票的长期均衡的一个重要特征对交易的执行。在这项研究中,我们使用了协整方法选择对股票。通过Johansen的方法,我们选择11对股票的长期平衡。表2显示了对股票,结果被确定基于t统计量和图2显示了价格波动的股票XOM和CVX共合体。使用这个数据集,我们将验证我们提出的方法是否比传统pairs-trading方法更好的性能。


不。 t统计量 相关

1 microsoft /摩根大通 −3.5423 0.9165
2 microsoft /公司 −3.448 0.8641
3 berkshire hathaway / ABT −3.5148 0.9493
4 berkshire hathaway /联合 −3.3992 0.9609
5 摩根大通/ T −3.5882 0.8486
6 摩根大通/亲爱的 −5.8209 0.9250
7 摩根大通/通用电气 −3.4494 0.9105
8 公司/ wells −3.5696 0.9693
9 XOM / CVX −4.05 0.9879
10 亲爱的/公司 −4.0625 0.7469
11 通用电气/公司 −3.467 0.9148

注意: 表示拒绝零假设的重要性水平,1%和5%。
3.3。交易信号

选择双后,有必要提取交易信号。提取信号,我们选择OLS或TLS方法。首先,因为股票价格遵循随机游走32),我们需要确保它遵循 通过增强Dickey-Fuller测试过程。随后, 过程应该创建使用股票价格的对数差然后应用OLS和TLS方法。在方程(18), 是一个恒定值, 是一个对冲比率(用作交易的大小), 误差项, 股票价格的对数差异吗 在时间 我们转换的值 成为一种z分数作为交易信号。例如,如果交易信号达到阈值时,我们简短的一个被高估的股票(表示为 )和长 被低估的股票(表示为 )。对冲比率是根据窗口大小决定的。我们组总共六个离散窗口大小为实验获得最优窗口大小。交易窗口构成使用formation-window大小的一半。这里获得传播作为应用强化学习时(即状态。,作为一个输入DQN)。

3.4。方法:优化Pairs-Trading策略使用DQN方法

在这项研究中,我们优化pairs-trading策略使用DQN类型的游戏。我们将尝试实现一个最优pairs-trading策略通过最优交易和止损边界对应于给定的传播,因为性能取决于交易和止损边界设置成对交易(14]。图3显示了我们提出的机制pairs-trading策略。在协整检验,我们确定双,使用回归分析,获得对冲比率作为交易量和传播作为交易信号和状态。DQN的情况下,设置和两个隐藏层神经元的数目优化通过通过试验和错误输入的一半大小。动作值由六个离散空间表3。每个值的 交易和止损的界限值。


行动
A0 A1 A2 A3 A4 A5

交易边界
止损边界

pairs-trading系统可以使利润如果接触传播阈值并返回这样的投资组合平均在每个交易窗口关闭。另一方面,如果交易边界是感动,达到止损边界,系统会尝试减少损失通过停止交易。如果接触传播交易边界但未能回归平均,这个策略可能会以利润或损失。在这项研究中,因此pairs-trading策略视为一种游戏;关闭一个投资组合收益率积极的奖励和一个投资组合,达到止损阈值产生一个负的奖励。尽管退出组合可能产生积极的利润,也有可能损失的发生,因此将会产生负的奖励。我们设置了其他条件(如投资组合的维护或不执行组合)为零,集中精力,止损、出口位置。 我们解决投资组合的值接近,止损,并退出+ 1000−1000−500分别。当我们更新q值时,我们必须考虑到奖励DQN有效训练的一个重要组件。因此我们将奖励值设置为有一系列类似的核反应能量。此外,我们包括相应的损益值以反映交易结束后的重量。在方程(19), 股票的股票订单吗 在时间 , 股票的价格吗 在时间 , 股票的价格吗 在时间

算法1展示了我们的方法的过程。在我们开始我们的方法之前,我们设置一个回放记忆和批量大小和选择对使用协整检验。在每一个时代,我们总利润1.0初始化。培训计划,我们设置一个状态已形成窗口内传播和选择行为作为交易和止损的界限。在交易窗口,我们执行类似传统pairs-trading策略使用的策略行动选择。执行战略后,我们获得一个奖励基于投资组合的结果。最后,q学习的过程,我们更新Q-networks通过执行一个梯度下降法的步骤。

初始化回放记忆 和批量大小
初始化深度Q-network
选择对使用协整检验
(1)每一个时代
(2)利润= 1.0
(3)步骤t = 1,…,直到结束的训练数据集
(4)使用OLS或TLS方法计算传播
(5)获得初始状态将蔓延到z分数基础上形成窗口
(6)使用epsilon-greedy方法,随机选择一个行动
(7)否则选择
(8)执行传统pairs-trading策略基于所选择的行动
(9)获得奖励 通过执行pairs-trading策略
(10)设置下一个状态
(11)商店过渡
(12)样本minibatch过渡
(13)
(14)更新Q-network通过执行梯度下降的一步
(15)结束
(16)结束
3.5。性能测量

我们检查我们的实验结果基于利润,最大限度的减少,夏普比率。利润是常用的作为交易策略的性能测量。它计算回报考虑交易费用的总和。因为许多交易可以增加总利润,它是必要的,以确定的总利润考虑交易成本取决于交易量。在这项研究中,我们设置一个交易成本5英国石油(bp);方程(21方程()几乎是一样19),但它并不包括绝对值,和 交易成本。最大下降代表最大累计损失从最高到最低的组合值给定的投资时期 是投资组合的价值 是终端时间价值。夏普比率是一个程度的指标超额利润投资于高风险资产用于评估投资组合(33]。在方程(23), 是预期的投资回报和总和 是无风险利率;我们将这个值设置为0 投资组合的标准差的回报。 材料与方法部分应该包含足够的细节,使所有程序可以重复。它可以分成部分如果几个方法。

4所示。结果与讨论

我们使用股票对XOM和CVX,拒绝零假设在1%的显著性水平,来验证我们提出的模型是否训练有素。窗口的长度大小等形成窗口和交易窗口选择从训练数据集的性能结果。从这些结果,我们选择一个优化的窗口大小和比较模型与传统的双盘,将一组常数的操作和测试数据集。

4.1。培训结果

找到最优的窗口大小优化pairs-trading系统,我们试验了6例。基于六个窗口大小,我们进行了实验,结果为每个窗口大小的平均值计算了前5的结果共有11条。从表45,我们可以发现,获得最佳的性能,当形成30和15和培训窗口,分别基于OLS和TLS方法所产生的利润。当我们训练网络,我们将采取更积极的奖励关闭位置和更少的止损和出口位置。我们可以找到最低的投资组合比关闭职位空缺职位的数量的基础上,形成和交易窗口30和15天(0.68)。这个结果相反,关闭头寸的数量比例最高的形成和交易windows 120和60天(0.73)。然而,最高的利润报告形成和交易窗口30和15天。这可以解释当我们检查止损组合的数量的比率。形成交易窗口大小30和15天止损位置组合的比例是0.13,但形成和交易窗口大小是0.20。这一结果表明,重要的是要减少止损位置,同时增加了关闭位置。此外,我们可以看到交易信号由TLS方法比用离散的OLS方法在所有六个窗口大小。这样做的原因是基于对冲比率的两种方法之间的区别。 In OLS, when one side is the reference, the relative change of the other side is estimated. Since the assumption is that there is no error component on the reference side and there is an error only on the other side, the hedge ratio varies depending on the side used as the reference. However, in TLS, hedging ratios are the same regardless of which side is used as the reference. For this reason, the experimental results confirm that the TLS method is better able to determine when to execute the pairs-trading strategy. From these results, we take the optimum window size when we verify our proposed method in the test dataset. However, we first need to ensure that the model we proposed is well-trained.


形成窗口 交易窗口 MDD 夏普比率 利润 #开放的投资组合 #封闭的投资组合 #止损的组合 #组合的出口

30. 15 −0.3682 0.1197 2.7344 328年 225年 44 58
60 30. −0.3779 0.1327 2.5627 210年 147年 41 21
90年 45 −0.4052 0.1409 2.4112 160年 114年 34 11
120年 60 −0.4383 0.1165 2.0287 134年 98年 28 8
150年 75年 −0.4395 0.1244 2.0098 110年 80年 24 6
180年 90年 −0.5045 0.1180 1.9390 One hundred. 73年 21 5


形成窗口 交易窗口 MDD 夏普比率 利润 #开放的投资组合 #封闭的投资组合 #止损的组合 #退出的投资组合

30. 15 −0.4422 0.1061 2.9436 320年 229年 46 44
60 30. −0.5031 0.1143 2.5806 204年 144年 42 17
90年 45 −0.5824 0.1072 2.4588 155年 110年 36 9
120年 60 −0.5768 0.1181 2.4378 136年 98年 31日 6
150年 75年 −0.5805 0.1245 2.4127 110年 79年 26 5
180年 90年 −0.5467 0.1209 2.3570 One hundred. 72年 23 4

重要的是要检查是否我们的强化学习算法训练。文献[21)表明,稳步增加平均q值是证据表明DQN学习。图4(一)显示的平均q值鸿和公司培训发展。我们发现平均q值稳步增加,表明我们提出的模型是正确地训练。此外,我们提供了一个积极的奖励当组合关闭和消极的奖励当组合达到止损阈值或者退出。图4 (b)显示的数量的比例组合的职位是培训的进展。关闭打开组合头寸的比率增加,投资组合的比例达到止损阈值打开组合头寸减少。我们还发现,组合退出打开组合头寸的比例略有增加。可能回报给开放组合位置相比给出一个封闭组合位置相对较小。因此DQN训练防止组合达到他们的止损阈值(更重要的目标)退出。这个结果也可以作为判断依据该模型是否正确地训练。

67代表XOM和CVX的性能结果的训练数据集。我们调用模型pairs-trading DQN (PTDQN)和传统对贸易与常数行动值作为对贸易行动0 (PTA0)对交易行动5 (PTA5)。从这个结果,我们可以确认,我们的方法比常数pairs-trading更有利可图的策略。此外,我们可以看到,TLS方法具有更高的盈利能力比OLS方法。从PTA0 PTA5,交易边界和止损边界越来越大;开放和封闭的投资组合,投资组合的数量达到了止损阈值降低。换句话说,有利润的机会越少,但损失的概率也降低。重要的是不仅要花费很多封闭的立场,但也最好的行动来打开和关闭的投资组合。例如,如果一个投资组合由边界对应开启和关闭行动0在同一传播和如果一个投资组合是开启和关闭边界对应动作1,相应的利润是不同的。假设均值回归肯定会发生,如果我们把最大边界条件开立一个投资组合,我们将获得更大的利润比我们更小的边界条件。 We can see that the PTDQN returns are higher than the strategy with the highest return among the traditional pairs trading strategies that take the constant action. Figures5- - - - - -8显示交易和止损的变化边界和最高的利润不断行动应用DQN时使用OLS和TLS方法在训练期间。


模型 MDD 夏普比率 利润 #开放的投资组合 #封闭的投资组合 #止损的组合 #退出的投资组合

PTDQN −0.0842 0.1835 3.4068 469年 336年 64年 96年
PTA0 −0.2014 0.1452 2.5934 565年 382年 132年 50
PTA1 −0.1431 0.1773 2.7603 409年 279年 45 84年
PTA2 −0.1234 0.1955 2.6307 325年 191年 16 118年
PTA3 −0.2586 0.0861 1.3850 208年 86年 2 120年
PTA4 −0.2591 0.0803 1.1933 124年 39 2 83年
PTA5 −0.2448 −0.0638 0.8588 47 11 0 36


模型 MDD 夏普比率 利润 #开放的投资组合 #封闭的投资组合 #止损的组合 #退出的投资组合

PTDQN −0.0944 0.2133 4.8760 541年 399年 104年 63年
PTA0 −0.1210 0.1522 4.1948 579年 413年 125年 41
PTA1 −0.1015 0.1650 3.8834 430年 310年 50 70年
PTA2 −0.1483 0.1722 3.3425 320年 209年 13 98年
PTA3 −0.1386 0.1771 2.4385 217年 101年 3 113年
PTA4 −0.1749 0.1602 1.6852 119年 38 2 79年
PTA5 −0.2862 0.0137 1.0362 55 10 0 45

数据56显示PTDQN和PTA1使用TLS方法的比较。图5包括传播、交易和止损的界限。我们发现交易和止损在PTDQN边界有不同的值,表明它已经学会找到最优边界根据每个传播。PTDQN相比,PTA1在图6不断的交易和止损的边界。数据78表现出同样的特性我们看到数字56。这些方法之间的区别在于传播:可以获得不同的结果取决于所使用的传播。做出更好的传播因此可以提高性能。

数据910代表对应的利润DQN使用TLS和OLS和持续行动。文献[34]表明,平均价值应该提交给多个试验显示深度强化学习的再现性,因为可能会有不同的结果从高方差在试验和随机种子。因此,我们进行了五个试验用不同的随机种子。的利润图DQN代表这些试验的平均利润和利润最大和最小值之间的填充区域。我们可以看到,PTDQN有较高利润比传统pairs-trading策略培训期间。这意味着,即使我们可以看到相同的传播,利润将会改变随着边界发生了变化。换句话说,找到最优边界传播优化对交易的盈利能力的一个重要因素。

4.2。测试结果

89显示每组的平均绩效指标测试通过应用前5训练模型。我们可以看到,不断行动回报最高的每一对都是不同的,和TLS方法更高的对基于利润比OLS方法,如上所示。我们还发现PTDQN更好的性能比传统pairs-trading策略。最高的一对利润使用该方法是鸿和公司(3.2755);它也显示了DQN最大的区别方法和最优行动(0.9377)。我们发现,该方法有更高的夏普比率在所有对除了莫和TLS方法时所使用。如果我们增加夏普比率除了总利润为目标函数,我们可以构建一个更加优化的pairs-trading系统。基于这些结果,我们可以确保我们的数据集的方法的鲁棒性。该方法也适用于其他对股票在全球其他市场。


模型 MDD 夏普比率 利润 #开放的投资组合 #封闭的投资组合 #止损的组合 #退出的投资组合

microsoft /摩根大通 PTDQN −0.1122 0.2294 3.0446 186年 126年 38 62年
PTA0 −0.3411 0.0742 1.6236 211年 136年 57 18
PTA1 −0.2907 0.0979 1.8001 162年 104年 26 32
PTA2 −0.1507 0.1936 2.6303 131年 64年 7 60
PTA3 −0.4032 0.1542 1.8282 97年 39 1 57
PTA4 −0.4340 0.0400 1.0480 55 13 0 42
PTA5 −0.1836 0.3098 1.5524 30. 7 0 23

microsoft /公司 PTDQN −0.3420 0.1001 1.5423 204年 132年 47 65年
PTA0 −1.2094 −0.0571 0.0013 244年 152年 76年 16
PTA1 −0.9225 −0.0177 0.6131 178年 110年 25 43
PTA2 −0.5574 0.0351 1.0887 134年 68年 8 58
PTA3 −0.5375 −0.0128 0.8326 97年 34 1 62年
PTA4 −0.4485 0.0260 1.0118 66年 15 1 50
PTA5 −0.1048 0.1233 1.1502 32 5 0 27

berkshire hathaway / ABT PTDQN −0.0740 0.3159 2.3655 162年 111年 30. 43
PTA0 −0.1392 0.1554 1.7157 182年 128年 35 18
PTA1 −0.1048 0.2464 2.1508 138年 96年 15 27
PTA2 −0.1133 0.2538 1.9578 108年 64年 3 40
PTA3 −0.1040 0.2480 1.7576 76年 35 1 40
PTA4 −0.0829 0.2087 1.3171 44 13 0 31日
PTA5 −0.0704 0.4366 1.4013 19 7 0 12

berkshire hathaway /联合 PTDQN −0.5401 0.1174 1.5744 167年 105年 35 58
PTA0 −1.2143 −0.0199 0.5918 192年 117年 55 19
PTA1 −0.9340 0.0346 1.0701 147年 89年 12 45
PTA2 −0.9099 −0.0009 0.8435 122年 60 5 57
PTA3 −0.5673 0.0473 1.1520 89年 32 1 56
PTA4 −0.3641 0.0694 1.1628 53 9 0 44
PTA5 −0.2309 0.0408 1.0405 18 3 0 15

摩根大通/ T PTDQN −0.1384 0.1283 1.4653 175年 113年 42 53
PTA0 −0.3630 0.0071 0.8968 205年 129年 60 15
PTA1 −0.2801 0.0460 1.1595 144年 94年 17 32
PTA2 −0.3750 0.0192 0.9987 119年 62年 5 51
PTA3 −0.5241 −0.0717 0.6609 92年 35 0 56
PTA4 −0.3607 −0.0550 0.8411 56 18 0 38
PTA5 −0.2235 0.0061 0.9851 22 6 0 16

摩根大通/亲爱的 PTDQN −0.1872 0.1523 2.2510 223年 155年 39 62年
PTA0 −0.6769 0.0190 1.0077 274年 180年 70年 23
PTA1 −0.4644 0.0622 1.6331 201年 139年 24 38
PTA2 −0.4537 0.0840 1.7165 149年 87年 2 60
PTA3 −0.2410 0.1414 1.7648 107年 43 0 64年
PTA4 −0.3313 0.0879 1.3150 62年 16 0 46
PTA5 −0.1693 0.1803 1.2777 28 7 0 21

摩根大通/通用电气 PTDQN −0.1098 0.2123 2.8250 193年 124年 46 65年
PTA0 −0.3897 0.0507 1.5137 224年 142年 65年 17
PTA1 −0.3404 0.0640 1.6912 163年 109年 18 36
PTA2 −0.1628 0.1284 1.9032 132年 73年 6 53
PTA3 −0.2980 0.1142 1.7555 106年 38 1 67年
PTA4 −0.2817 0.0790 1.2884 55 13 0 42
PTA5 −0.0612 0.4776 1.7489 21 6 0 15

公司/ wells PTDQN −0.1576 0.2437 2.3741 143年 One hundred. 28 38
PTA0 −0.2872 0.0892 1.4932 164年 115年 37 12
PTA1 −0.2219 0.1948 2.1147 127年 90年 15 21
PTA2 −0.3188 0.1322 1.6362 99年 55 5 38
PTA3 −0.2324 0.1084 1.3141 68年 27 0 41
PTA4 −0.1532 0.1043 1.1228 40 14 0 26
PTA5 −0.0970 0.1203 1.0734 16 6 0 10

XOM / CVX PTDQN −0.4265 0.0605 1.1924 218年 135年 45 77年
PTA0 −0.6189 0.0236 0.8812 256年 161年 67年 28
PTA1 −0.5999 0.0154 0.8809 197年 118年 25 54
PTA2 −0.6034 −0.0073 0.7792 153年 70年 8 75年
PTA3 −0.5628 −0.0224 0.7734 114年 38 2 74年
PTA4 −0.5311 −0.0200 0.8643 70年 18 1 51
PTA5 −0.2583 0.0060 0.9692 31日 4 0 27

亲爱的/公司 PTDQN −0.0874 0.2679 3.2755 233年 164年 49 63年
PTA0 −0.5108 0.1080 1.9219 276年 186年 66年 23
PTA1 −0.5841 0.1625 2.3378 207年 140年 28 38
PTA2 −0.1926 0.2086 2.3096 158年 92年 4 62年
PTA3 −0.1611 0.1557 1.7100 114年 49 2 63年
PTA4 −0.1254 0.2289 1.6374 69年 23 0 46
PTA5 −0.1578 0.1924 1.1925 28 9 0 19

通用电气/公司 PTDQN −0.1133 0.1871 2.1398 172年 117年 30. 48
PTA0 −0.3348 0.0967 1.6398 201年 136年 44 21
PTA1 −0.1656 0.1070 1.6355 153年 101年 19 33
PTA2 −0.2043 0.1388 1.7568 117年 68年 8 41
PTA3 −0.2335 0.1591 1.5555 89年 39 2 48
PTA4 −0.3847 −0.1355 0.6570 45 7 0 38
PTA5 −0.3489 −0.2730 0.7218 21 2 0 19

MO /联合 PTDQN −0.5264 0.0840 1.2940 150年 88年 35 58
PTA0 −1.0950 −0.0272 0.6231 178年 102年 56 19
PTA1 −0.7205 0.0286 1.0362 125年 73年 12 39
PTA2 −0.8361 −0.0040 0.8658 105年 51 3 50
PTA3 −0.4311 0.0052 0.9323 79年 24 0 54
PTA4 −0.3916 0.1141 1.2129 48 12 0 36
PTA5 −0.1311 0.2948 1.1276 14 3 0 11


模型 MDD 夏普比率 利润 #开放的投资组合 #封闭的投资组合 #止损的组合 #退出的投资组合

microsoft /摩根大通 PTDQN −0.2096 0.1228 1.9255 215年 137年 54 62年
PTA0 −0.3618 0.0492 1.3365 225年 141年 61年 23
PTA1 −0.5036 0.0188 1.0185 168年 102年 28 38
PTA2 −0.4045 0.0611 1.3591 124年 59 8 57
PTA3 −0.5055 −0.0094 0.8636 97年 33 3 61年
PTA4 −0.4195 −0.0009 0.9459 58 12 1 45
PTA5 −0.2018 0.1236 1.1593 29日 6 0 23

microsoft /公司 PTDQN −0.2878 0.0698 1.3466 244年 153年 65年 68年
PTA0 −0.5271 0.0070 0.8489 252年 156年 72年 24
PTA1 −0.4721 0.0255 1.0286 187年 117年 26 44
PTA2 −0.3816 0.0215 0.9912 145年 71年 10 64年
PTA3 −0.6553 −0.1015 0.5053 104年 30. 2 72年
PTA4 −0.2719 0.0422 1.0532 63年 16 1 46
PTA5 −0.1850 0.0068 0.9785 34 7 0 27

berkshire hathaway / ABT PTDQN −0.1282 0.1644 1.5076 180年 109年 48 57
PTA0 −0.5073 −0.0265 0.7070 183年 112年 48 22
PTA1 −0.2649 0.0453 1.0786 139年 80年 13 46
PTA2 −0.2246 0.1056 1.2942 121年 60 4 56
PTA3 −0.1686 0.1241 1.2718 91年 38 1 52
PTA4 −0.1483 0.0176 0.9778 49 12 0 37
PTA5 −0.1602 0.0004 0.9830 16 2 0 14

berkshire hathaway /联合 PTDQN −0.5231 0.0816 1.2976 215年 132年 57 69年
PTA0 −1.1928 −0.0647 0.3332 216年 133年 57 25
PTA1 −0.8697 −0.0157 0.7445 167年 One hundred. 15 51
PTA2 −0.7815 −0.0071 0.8391 135年 70年 5 60
PTA3 −0.3573 0.0315 1.0292 94年 36 0 58
PTA4 −0.2096 0.0684 1.0857 52 11 0 41
PTA5 −0.1317 −0.1174 0.9312 16 2 0 14

摩根大通/ T PTDQN −0.1338 0.1391 1.4547 205年 127年 60 50
PTA0 −0.3588 0.0069 0.9054 208年 130年 61年 16
PTA1 −0.2535 0.0405 1.0902 151年 96年 19 35
PTA2 −0.1872 0.0542 1.1198 119年 66年 5 48
PTA3 −0.2574 0.0336 1.0502 94年 39 0 55
PTA4 −0.2212 0.0345 1.0312 57 20. 0 37
PTA5 −0.2348 −0.1922 0.8299 20. 5 0 15

摩根大通/亲爱的 PTDQN −0.3869 0.1071 1.5175 250年 162年 57 68年
PTA0 −0.7141 0.0181 0.9444 256年 166年 59 30.
PTA1 −0.5065 0.0702 1.3071 198年 127年 22 49
PTA2 −0.4649 0.1071 1.4260 152年 84年 3 65年
PTA3 −0.4871 0.0763 1.2098 102年 44 0 58
PTA4 −0.3503 −0.0694 0.8178 50 13 0 37
PTA5 −0.2980 −0.1721 0.8040 23 6 0 17

摩根大通/通用电气 PTDQN −0.1195 0.1443 1.7682 226年 133年 64年 69年
PTA0 −0.4379 0.0036 0.8549 232年 137年 66年 29日
PTA1 −0.1523 0.0987 1.4814 165年 98年 16 51
PTA2 −0.1738 0.1264 1.5661 134年 62年 5 67年
PTA3 −0.2680 0.0729 1.2026 93年 29日 0 64年
PTA4 −0.2104 0.1298 1.3242 51 12 0 39
PTA5 −0.1461 −0.0423 0.9586 18 3 0 15

公司/ wells PTDQN −0.1890 0.1266 1.7194 202年 130年 47 56
PTA0 −0.8705 −0.0326 0.4635 207年 131年 53 22
PTA1 −0.6189 −0.0134 0.7318 150年 91年 19 39
PTA2 −0.4763 0.0309 1.0563 124年 57 4 62年
PTA3 −0.2318 0.1447 1.6072 97年 33 2 62年
PTA4 −0.2415 0.0549 1.0632 50 13 0 37
PTA5 −0.0880 0.2468 1.1886 20. 4 0 16

XOM / CVX PTDQN −0.3316 0.0265 1.1517 141年 81年 23 43
PTA0 −0.7629 −0.0547 0.4186 240年 149年 61年 30.
PTA1 −0.5648 0.0132 0.8754 193年 114年 23 56
PTA2 −0.6977 −0.0387 0.6655 154年 70年 7 77年
PTA3 −0.5235 0.0277 0.9865 117年 38 1 78年
PTA4 −0.4781 −0.0577 0.8117 63年 12 1 50
PTA5 −0.3787 −0.1492 0.8090 29日 3 0 26

亲爱的/公司 PTDQN −0.1339 0.1534 1.8852 270年 175年 64年 69年
PTA0 −0.4135 0.0212 0.9455 276年 177年 70年 28
PTA1 −0.2758 0.0666 1.3216 207年 124年 27 55
PTA2 −0.2614 0.1054 1.5031 159年 84年 5 69年
PTA3 −0.1759 0.1413 1.5617 117年 45 2 70年
PTA4 −0.0834 0.2650 1.7044 66年 23 0 43
PTA5 −0.0664 0.4606 1.6830 30. 13 0 17

通用电气/公司 PTDQN −0.1676 0.1263 1.6411 206年 140年 43 62年
PTA0 −0.6133 0.0178 0.9742 211年 144年 44 23
PTA1 −0.3085 0.0586 1.2743 166年 109年 19 38
PTA2 −0.2402 0.0585 1.2216 128年 68年 5 55
PTA3 −0.3190 −0.0013 0.9193 91年 31日 2 58
PTA4 −0.2493 −0.0285 0.9117 49 8 0 41
PTA5 −0.0862 0.1417 1.0936 23 4 0 19

MO /联合 PTDQN −0.3181 0.0524 1.1402 188年 117年 49 59
PTA0 −0.4688 0.0041 0.8667 195年 121年 52 21
PTA1 −0.6166 −0.0230 0.7470 144年 84年 13 46
PTA2 −0.5034 −0.0076 0.8666 115年 51 4 59
PTA3 −0.2833 0.0457 1.0873 88年 32 0 56
PTA4 −0.2901 0.0356 1.0280 44 12 0 32
PTA5 −0.1500 0.0992 1.0297 13 2 0 11

在图11,我们可以看到,我们的方法,PTDQN,优于传统的配对交易策略,不断行动在测试数据集。这个方法的关键方面是最优的选择边界的扩散,使最高的利润不断的行动,就像一个常数边界。因此,这一趋势是一样的传统配对交易策略;然而,当利润最高的最优边界传播相结合,PTDQN发现有更高的利润比传统配对交易策略。因此这种方法可以被应用在各个领域需要优化基于规则的策略的效率35,36]。在这项研究中,我们认为传播和边界是配对交易策略的重要因素。因此,我们试图优化配对交易策略与各种交易和止损边界使用深强化学习和我们的方法优于基于规则的策略。通过优化关键参数在基于规则的方法,它可以提高性能。

对使用两种类型的股票交易有相同的趋势。然而,它可以被由于各种因素,如经济问题和公司的风险。在这种情况下,两个股票之间的传播是非常大的。尽管这种情况无法避免,但我们对冲这种风险通过动态边界。在这个意义上,以最低的止损边界是最好的选择,因为它可以克服最少的损失。通过动态边界使用深层强化学习方法,我们可以看到,不仅利润增加,但也损失最小化比固定边界。

5。结论

我们提出一个新颖的方法来优化对交易策略使用深强化学习方法,尤其是Q-networks深处。有两个关键的研究问题。首先,如果我们设定一个动态边界基于蔓延在每一个交易窗口,可以获得更高的利润比传统的配对交易策略吗?第二,有可能,深入强化学习方法可以训练遵循这种机制吗?探讨这些问题,我们收集对选择使用协整检验。我们尝试了结果如何根据传播和使用的方法不同。因此我们使用OLS和TLS方法设置不同的利差作为输入DQN和交易信号。进行这个实验,我们建立一个窗口和一个交易窗口形成。对冲比率,这是一个重要的因素在决定多少股票,取决于这个值。因此我们应用OLS和TLS方法和试验找到最优窗口大小通过改变窗口,形成交易窗口。

67显示的平均表现值形成windows和交易的训练数据集。结果表明,所有六个窗口大小是当使用TLS利差高于OLS利差。此外,我们可以看到,盈利能力逐渐增加的估计windows和交易方法使用TLS和OLS下降。的原因是,虽然关闭位置组合的比例是最低的,我们组地层和交易窗口,止损位置组合的比例也是最低的与其他形成和交易窗口。这意味着减少止损位置组合是重要的以及增加关闭位置组合盈利。使用最优窗口大小,然后检查是否我们DQN是训练有素。在每个时代,我们发现平均核反应能量稳步增加,封闭的投资组合的比例增加,投资组合的比例,达到了止损阈值下降,证实我们的DQN训练。基于这些结果,我们发现我们的模型使用测试数据集的生成窗口30和交易窗口15的结果优于传统pairs-trading策略的样本外数据集。在图11,我们可以看到的利润路径PTDQN PTA5 PTA0相似,但比其他方法。这表明,采取动态边界基于我们的方法是有效的优化对交易策略。在经济问题上的不确定性,它可以是一个风险管理对交易策略包括我们提出的方法。然而,我们设置一个奖励函数如果突然高传播,我们的网络是训练来防止这种情况通过减少止损边界因为它是训练有素的最大化的预期和未来的回报。因此,我们的方法可以最小化风险,经济风险似乎与传统的配对交易策略相比固定边界。

从实验结果中,我们表明,我们的方法可以应用在对交易系统。它可以应用在各个领域,包括金融和经济,当有一个需要优化的效率,基于规则的策略。此外,我们发现,我们的方法优于传统的配对交易策略在所有对标准普尔500指数基于成分股票。如果我们选择合适的双共合体,我们可以应用方法等其他市场KOSPI指数,日经指数和恒生指数。这项研究只关注利差由两只股票,长期均衡模式。自我们的方法选择最优边界基于传播,它可以应用于其他股市如综合,日经指数和恒生指数。

在未来的工作,我们可以发展我们的模型如下。首先,如利润设置为目标函数在这项研究中,模型的性能比传统的双低交易时基于其他性能的措施。它可以因此有可能创建一个better-optimized pairs-trading策略,包括所有这些其他性能指标作为目标函数的一部分。第二,我们可以使用其他统计方法,如卡尔曼滤波器和纠错模型使用多样化的传播。最后,可以创建一个更为优化pairs-trading策略通过不断改变窗口大小和边界的离散集。我们将在将来的研究中解决这些困难。

数据可用性

使用的数据来支持本研究的发现已经存入figshare库(DOI: 10.6084 / m9.figshare.7667645)。

信息披露

投资者没有参与研究设计、数据收集和分析,决定发表,或准备的手稿。这个工作代表一个研究的一部分作为金融工程硕士论文亚州大学在2016年和2018年期间,韩国。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是由韩国国家研究基金会(NRF)由韩国政府拨款(MSIT:科技部和ICT)(没有。nrf - 2017 r1c1b5018038)。

引用

  1. e . Gatev w . n . Goetzmann和k . g . Rouwenhorst”对交易:性能买进套利的规则,”耶鲁ICF 08-03号工作报告,1998,https://ssrn.com/abstract=141615http://dx.doi.org/10.2139/ssrn.141615视图:谷歌学术搜索
  2. r . j .艾略特、j·范德Hoek和w·p·马尔科姆,“对交易,”定量金融学,5卷,不。3、271 - 276年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  3. 美国安德拉德,Di Pietro诉和m . Seasholes“理解成对交易的盈利能力,”2005年。视图:谷歌学术搜索
  4. 香港和r . Susmel“Pairs-trading亚洲ADR市场,”休斯顿大学Unpubl。Manuscr。,2003年。视图:谷歌学术搜索
  5. e . Gatev w . n . Goetzmann和k . g . Rouwenhorst”对交易:性能买进套利的规则,”金融研究,19卷,不。3、797 - 827年,2006页。视图:出版商的网站|谷歌学术搜索
  6. b . r .小题大作,”简单的配对交易还工作吗?”金融分析师期刊,卷66,不。4、83 - 95年,2018页。视图:出版商的网站|谷歌学术搜索
  7. s . Mudchanatongsuk j . A . Primbs, w . Wong“最佳配对交易:随机控制方法”《2008年美国控制会议,ACC美国,页1035 - 1039年,2008年6月。视图:谷歌学术搜索
  8. a . Tourin和r .燕”,动态对交易使用随机控制方法,”经济动力学与控制杂志》上,37卷,不。10日,1972 - 1981年,2013页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  9. z曾庆红和c·李,“对交易:最优阈值和盈利能力,”定量金融学,14卷,不。11日,第1893 - 1881页,2014年。视图:出版商的网站|谷歌学术搜索
  10. s . Fallahpour h . Hakimian、k·塔和e . Ramezanifar”对交易策略优化利用强化学习方法:协整方法,”软计算,20卷,不。12日,第5066 - 5051页,2016年。视图:出版商的网站|谷歌学术搜索
  11. p . Nath“高频率对贸易与美国国债:风险与回报的对冲基金”SSRN电子杂志,2004年。视图:出版商的网站|谷歌学术搜索
  12. t梁和李x”,最优均值回归与交易成本和止损退出交易,”国际理论和应用金融杂志》上,18卷,不。3,2013。视图:谷歌学术搜索|MathSciNet
  13. c·林德伯格大肠埃克斯特龙,j . Tysk“对贸易的最优清算”先进的金融数学方法施普林格,页247 - 255年,海德堡,2011年。视图:出版商的网站|谷歌学术搜索|MathSciNet
  14. 林y、m . McCrae和c . Gulati”损失保护成对交易通过最低利润范围:协整方法,”应用数学和决策科学杂志》上卷,2006年,页1 - 14,2006。视图:出版商的网站|谷歌学术搜索
  15. 米凯尔森a,“对交易:挪威海产品公司的情况下,“应用经济学,50卷,不。3、303 - 318年,2017页。视图:出版商的网站|谷歌学术搜索
  16. k金”,性能分析对交易策略利用高频数据与应用程序KOSPI 100股票,”SSRN电子杂志2011年,p . 24日。视图:出版商的网站|谷歌学术搜索
  17. 诉神圣和p . Tomanova估计Ornstein-Uhlenbeck盘中过程使用超高频数据与应用程序对交易策略, 2018年。
  18. 崔j . d . Chen, y高和l .吴”对中国商品期货交易市场:一个自适应协整方法,”会计与金融卷,57号5,1237 - 1264年,2017页。视图:出版商的网站|谷歌学术搜索
  19. h . Puspaningrum y林,c . m . Gulati”找到的最优预设边界对交易策略基于协整技术,”统计理论与实践杂志》上,4卷,不。3、391 - 419年,2010页。视图:出版商的网站|谷歌学术搜索
  20. 答:a . Roa,“对交易:最优thershold策略,”2018年。视图:谷歌学术搜索
  21. 诉Mnih k . Kavukcuoglu d银et al .,“与强化学习,玩雅达利”https://arxiv.org/abs/1312.5602,2013年。视图:谷歌学术搜索
  22. s . d . y . Wang Wang, y, s .李问:周,“深Q-trading”, 2017年,http://cslt.riit.tsinghua.edu.cn/视图:谷歌学术搜索
  23. 彭译葶。黄”,金融交易作为一个游戏:深强化学习方法,”2018年,https://arxiv.org/abs/1807.02787视图:谷歌学术搜索
  24. t·金优化配对交易策略使用深强化学习(硕士论文)亚州大学,韩国水原韩国,2019年。
  25. b, r .忙乱和k·哈姆扎,“一种新的建模和估计方法对交易,”《2006年金融管理协会欧洲会议,2006年。视图:谷歌学术搜索
  26. r·d·迪特玛c·j·尼利和p·a·韦勒是外汇市场技术分析盈利?遗传规划方法。”金融和定量分析杂志》上,43卷,p。1997。视图:出版商的网站|谷歌学术搜索
  27. h . Rad r·k·低,r .小题大作”配对交易策略的盈利能力:距离,协整和介体方法,”定量金融学,16卷,不。10日,1541 - 1558年,2016页。视图:出版商的网站|谷歌学术搜索
  28. s . Johansen协整向量的统计分析,“经济动力学与控制杂志》上,12卷,不。2 - 3、231 - 254年,1988页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  29. m·h·库特纳c . j . Nachtsheim j .净和w·李,“线性统计模型,应用”1996。视图:谷歌学术搜索
  30. g·h·戈卢布和c . f . Van Loan”分析的最小二乘问题。”暹罗在数值分析》杂志上,17卷,不。6,883 - 893年,1980页。视图:出版商的网站|谷歌学术搜索
  31. r·s·萨顿和a·g·Barto”强化学习概论”,学习,1998年。视图:谷歌学术搜索|MathSciNet
  32. e . f .农夫,“股票市场价格的随机漫步,”金融分析师期刊,51卷,不。1,第80 - 75页,1995。视图:谷歌学术搜索
  33. w·f·夏普,”夏普比率。”项目组合管理》杂志上,1994年。视图:谷歌学术搜索
  34. p·亨德森,r .伊斯兰教,p .巴赫曼,j . Pineau d . Precup d Meger,“深度强化学习问题,”人工智能学报Thirthy-Second AAAI会议(AAAI), 2018年。视图:谷歌学术搜索
  35. 黄懿慧李x m . Lu, n . c .凹地,“基于规则的控制策略与小说参数优化使用NSGA-II功率分流混合动力车的运营成本最小化,“IEEE车辆技术,卷63,不。7,3051 - 3061年,2014页。视图:出版商的网站|谷歌学术搜索
  36. l . Dymova p Sevastianov, k . Kaczmarek”一个股票交易专家系统规则库的基础上使用级别2引用证据推理,”专家系统与应用程序,39卷,不。8,7150 - 7157年,2012页。视图:出版商的网站|谷歌学术搜索

版权©2019 Taewook金和公顷年轻的金正云。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点9924年
下载3013年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读