研究文章|开放获取
Taewook Kim Ha年轻的金, ”优化Pairs-Trading策略使用深强化学习和交易和止损的界限”,复杂性, 卷。2019年, 文章的ID3582516, 20. 页面, 2019年。 https://doi.org/10.1155/2019/3582516
优化Pairs-Trading策略使用深强化学习和交易和止损的界限
文摘
许多研究人员试图优化对交易机会套利利润的数量逐渐减少。对交易是一种中性策略;利润如果给定的条件是满足在一个给定的交易窗口,如果没有,有损失的风险。在这项研究中,我们提出一个优化pairs-trading策略使用深层加固learning-particularly深Q-network-utilizing各种交易和止损的界限。更具体地说,如果利差交易阈值和反向的意思是代理收到积极的奖励。然而,如果利差触及止损阈值或未能扭转冲击后的平均交易门槛,代理收到负面的奖励。代理是训练有素的选择最优离散交易和止损水平边界给定一个传播最大化预期贴现未来利润的总和。对标准普尔500指数从股票选择使用协整检验。我们比较该方法与传统pairs-trading策略使用常数交易和止损的界限。我们发现我们的模型是训练好,优于传统pairs-trading策略。
1。介绍
对交易的方法获得套利利润当有两个股票具有类似特征的统计差异共合体或高度相关。这是可能的因为统计原因,差价由两只股票有一个长期均值回归(1]。在早期,pairs-trading方法很受欢迎,因为机会获得套利利润(1- - - - - -4]。然而,正如许多投资者包括对冲基金寻求这些套利机会执行pairs-trading策略,其盈利能力开始恶化[5,6]。为了克服这些缺点,进行了大量研究,提高pairs-trading策略7- - - - - -10]。
对交易的机制如下。首先,确定股票类似的趋势。第二,回归分析,如普通的最小二乘(OLS),总体最小二乘(TLS)和误差修正模型(ECM)用于计算这些股票的传播。最后,如果传播达到预设的界限,投资者将打开一个组合,这需要很长的位置上被低估的股票和短裤估值过高的股票。随后,如果反向传播的意思是,投资者的投资组合将关闭开放的投资组合是相反的位置。在这种情况下,投资者获得套利利润通过执行这一策略。然而,有一个风险当不反向传播的意思。在这种情况下,投资者的风险很高,因为他们不能关闭组合。通过设置止损边界,投资者可以对冲风险(11- - - - - -13]。
许多研究人员运用各种统计方法来提高对交易的效率和性能。他们尤其关注使用传播作为交易信号。这项研究在1)收集对股票基于偏差的平方和最小化之间的两只股票,然后执行交易策略如果之间的差异对传播的标准差的两倍。他们使用规范化的从1962年到2002年美国股票价格数据测试对交易的盈利能力。这项研究在14)利用协整方法保护pairs-trading策略从严重的损失。他们应用OLS方法创建和设置各种条件转化为交易行为。从这些模型,他们实现了一个交易策略免受损失风险最低水平的利润。结果显示约11%的年化超额收益在整个时期。研究[15相比)的距离和协整方法为每个高频和日常数据集来检查是否为挪威海产品公司盈利。两种方法之间的性能是相似的。文献[16)用卡尔曼滤波计算传播,当时用作高频交易信号,100年股票构成KOSPI指数。他发现pairs-trading策略的性能是重要的综合和更好的在日常的市场条件在市场打开和关闭。此外,(7)优化pairs-trading系统随机控制问题。他们用Ornstein-Uhlenbeck过程来计算传播作为贸易信号与模拟数据和测试他们的模型;结果表明,他们的策略执行。此外,(17建议Ornstein-Uhlenbeck过程做出市场微观结构噪音用作交易信号成对交易策略。性能更好的在这种方法比传统的估计如ARIMA(1,1)和最大似然。文献[18]运用协整方法从2006年到2016年中国商品期货检查对交易是否适合这个市场。他们使用OLS回归创造传播的对。此外,(10]应用协整检验各种对股票和向量误差修正模型来创建一个交易信号。
重要的是设置一个边界优化pairs-trading策略。这个边界是决定是否执行的标准pairs-trading策略。如果边界设置较低,许多策略将被执行,但利润会降低;如果设置了较高的边界,投资者将获得高回报在执行策略时。然而,所有这些假设均值回归。如果传播不返回指定交易的平均窗口,损失将会发生。如果设置较低的边界,将损失小。然而,如果战略执行高边界,损失将会增加。因此,对交易的性能取决于边界设置。文献[14)建议minimum-profit条件,可有效减少损失pairs-trading系统。他们设定一个交易规则与多样化的开放条件:例如,如果传播高于0.3,0.5,0.75,1.0,和1.5个标准差。他们使用每日收盘价从1月2日,2001年8月30日,2002年,两只股票,澳大利亚新西兰银行和阿德莱德银行。结果表明,作为开放条件值减少,交易和利润的增加。也(19]建议优化预设边界计算平均贸易持续时间的估计参数,intertrade间隔,和交易的数量和使用他们的最低总利润最大化。他们使用每日收盘价数据从1月2日,2004年6月30日,2005年,七对股票在澳大利亚证券交易所。结果表明,他们的方法是使用pairs-trading策略有效的盈利。文献[18)检查是否pairs-trading策略可以应用到日常的回归中国商品期货从2006年到2016年使用三种方法:古典、闭环和动态的止损。闭环方法只需要一个stop-profit障碍执行战略和不考虑风险如果价差回归的意思。经典的方法增加了闭环的止损边界的方法。动态的止损方法使用各种stop-profit和止损障碍适应传播如果传播大于标准差,设置使用标准基于传播的历史平均水平。结果表明,这些方法获得的年化收益率超过15%,尤其是闭环方法,获得最高利润的26.94%。此外,(20.)尝试用固定的最优阈值选择,条件波动性,百分位,光谱分析,神经网络在pairs-trading阈值策略。其中,神经网络阈值超过所有其他策略。
强化学习的成功,证明了其成功的性能在雅达利游戏21),许多研究人员试图将这种算法应用到金融交易系统。文献[22)提出了一种深Q-trading系统使用强化学习方法。他们应用q学习的自动交易系统交易。他们设定一个三角洲价格使用数据从过去120天,有三个离散的行动空间(买入,持有,并出售),并使用长期利润作为奖励。他们每天使用的数据从2001年1月1日,12月31日,2015年,香港恒生指数和标准普尔500指数。实验结果表明,提出的方法优于“买入并持有”策略和反复强化学习方法。文献[23]提出三个步骤将强化学习应用到金融交易系统。首先,他们相对减少回放大小以适应金融交易。其次,他们提出了一个动作增加技术提供更多的反馈从行动到代理。第三,他们使用长序列递归神经网络作为强化数据进行训练。实验数据包括实时数据从2012年1月至2017年12月12日外汇货币对。结果表明,动作增加技术比epsilon-greedy政策产生了更多的利润。文献[10)使用一个N-armed土匪问题优化pairs-trading策略。他们把传播使用纠错模式,发现利用网格搜索算法的参数。他们比较他们与一个常数模型参数模型,这是类似于一个传统pairs-trading策略。他们使用数据库FactSet的一些股票盘中一分钟数据从2015年6月到2016年1月。他们提出的模型的性能优于常量参数模型。
我们不仅研究基于动态边界蔓延在每一个交易窗口也可以获得更高的利润比固定边界用于传统对交易经营策略还能否在火车深强化学习方法遵循这一机制。为此,我们提出一个新方法来优化配对交易策略使用深强化学习,特别是深Q-networks,由于对交易策略可以被认为是一个游戏。打开一个组合位置后,利润可以组合是否关闭,设置止损位置。因此,如果我们把这一战略游戏通过设置边界优化的利差在交易窗口中,我们可以获得更多的利润比传统配对交易策略。特别是,我们设置了pairs-trading系统是一种游戏,获得最优边界,交易的门槛,止损阈值根据计算扩散。这个建筑的原因是,如果投资组合在交易窗口中打开和关闭在计算扩散,将无条件地有利可图的投资组合是否关闭。如果投资组合边界到达止损或不收敛的意思是,可能发生的损失。因此我们组DQN学习通过积极有益的如果它需要关闭位置和负奖励它如果它到达止损或退出阈值。我们进行了以下实验来验证该方法相比传统的优化方法。首先,我们使用不同的传播计算使用OLS和TLS,看看结果取决于不同传播用于输入。 Second, depending on the formation window and trading window, the spread and hedge ratio will be varied. We therefore set a total of six window sizes for selecting the optimal window size which had the best performance. Finally, we compared the proposed method with the traditional pairs-trading strategy using the test data with the optimal window size. In this experiment, we use the daily adjusted closing prices from January 2, 1990, to July 31, 2018, of 50 stocks in the S&P 500 Index. Experimental results show that our proposed method outperforms the traditional pairs-trading strategy across all the pairs. In addition, we can confirm that the performance measure varies according to the spread.
本研究的主要贡献如下。首先,我们提出一个新颖的方法来优化配对交易策略使用深强化学习,特别是深Q-networks交易和止损的界限。实验结果表明,我们的方法可以应用在对交易系统以及其他各种领域,包括财经、当有一个需要优化基于规则的策略更有效。其次,我们提出一个优化的动态边界基于蔓延在每一个交易窗口。我们提出的方法优于传统配对交易策略设定一个固定的边界。最后,我们发现,我们的方法优于传统的配对交易策略在所有对标准普尔500指数基于成分股票。自我们的方法选择最优边界基于传播,它可以应用于其他股市如综合,日经指数和恒生指数。应该注意的是,目前的工作是一个硕士论文的一部分(24]。
本文的其余部分组织如下。部分2解释了技术背景。部分3描述了材料和方法。部分4显示的结果和讨论提供了一个实验。部分5为本研究提供我们的结论。
2。技术背景
2.1。传统的Pairs-Trading策略
对交易是一个代表中性交易策略,同时渴望被低估的股票和短裤估值过高的股票。这个策略是一种统计套利交易假设这两种资产的价格的运动类似于以前的趋势(1]。这是假设资产价格将回到长期均衡。这种策略从套利机会存在的想法当价格两种资产之间的差距扩大或过去一定水平。这也是基于相信历史价格波动不会改变在未来显著。
在图1,蓝色的画是一个传播由两股共合体,红线是交易边界,绿线是止损的界限。这种传播到达交易边界时,投资组合时打开,只有关闭返回平均传播。然而,损失发生当价格到达止损的边界组合后打开,不返回到平均水平。此外,投资组合后,如果交易信号没有逆转意味着在交易窗口,以关闭组合的力量;这就是所谓的出口位置的组合。
2.1.1。协整测试
有许多方法等对选择离散方法(11,25- - - - - -27),协整方法(10,16,27),和随机方法(7,8]。在这项研究中,我们利用协整方法选择对长期均衡。一般来说,一个线性组合的非平稳变量也是一个不稳定的关系。假设和有单位根;正如前面提到的,这些变量的线性组合是不稳定条件。 然而,它可以是一个固定关系的非平稳变量共合体。在这种情况下,这个回归必须检查以确定是否这是一个虚假的回归或共合体。Johansen协整的方法被广泛用于测试(28]。在这种方法中,协整关系的数量和模型的参数估计和测试使用最大似然估计(标定)。因为所有变量视为内生变量,不需要选择因变量和多个确定协整关系。此外,我们使用标定估计与向量自回归模型和协整关系确定协整系数基于似然比的测试。因此执行各种优势假说测试相关协整估计参数和其他模型协整时的设置,而不是仅仅为协整测试。
2.2。传播计算
2.2.1。普通最小二乘法
在OLS回归分析被广泛用于估计参数通过最小化的平方误差的总和(29日]。假设 , ,和是一个独立的变量,因变量,和一个误差项。我们可以估计从以下方程通过偏导数: 从方程(获得价值5)用于股票数量的订单。ε值也被用作一个交易信号通过z分数,在由formation-window大小。
2.2.2。总体最小二乘
TLS估计参数测量距离的总和最小化和回归直线之间的垂直距离(30.]。自垂直距离不会改变X和Y坐标时改变,的价值计算一致。TLS方法,观察到的值和有以下错误: 在哪里和真值和和误差项独立后是相同的分布。假设有真值的线性组合。为了方便起见,我们代表的误差方差比例方程(10): 正交回归估计量的计算方法是通过最小化的和测量距离和回归直线方程之间的垂直距离(11): 从方程(获得价值12)是使用相同的方式,从方程(5)和ε值也被用作一个交易信号通过z分数formation-window大小组成的国家。
2.3。强化学习和Q-Network深处
强化学习的想法是找到一个最优政策,最大化的预期和贴现未来回报(31日]。这些奖励来自选择每个操作的最优值,称为最优核反应能量。强化学习基本上解决问题定义的马尔可夫决策过程(MDP)。它由一个元组 ,在哪里是一个有限集的状态,是一组有限的操作,是一个状态转换概率矩阵,是一个奖励函数,是一个折扣因素。在环境 ,agent-observed状态在时间 ,行动被选中。从这些序列的结果,环境反馈提供给代理的形式奖励和下一个状态 。选择一个动作的行为价值函数 代表的预期和贴现未来的回报。 在这个行为价值函数 ,我们找到一个最优行为价值函数 ,后最优政策,最大化的预期和折现未来的回报。 这个最优行为价值函数可以被制定为贝尔曼方程。 DQN使用非线性函数近似者估计动作值函数。这个网络是由一系列损失最小化训练功能 ,每个序列的变化 。的重量随着序列的进行更新:
3所示。材料和方法
3.1。数据
在这项研究中,标普500指数的50只股票选择基于他们的交易量和市值。开展实验,数据必须覆盖。因此,选择相应的股票,共25个股票。表1代表股票的数据集名称,缩写的股票,和各自的部门。我们收集了调整每日收盘价使用汤森路透的数据库。训练数据集的周期从1月2日,1990年12月31日,2008年,由4792数据点;测试数据集涵盖了从1月2日,2009年7月31日,2018年,由2411年的数据点。从这些数据集,选择一双股票数据集训练期间使用协整检验。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.2。选择对使用协整检验
有必要对股市的长期统计关系或类似的价格变动。可以确定的两只股票有类似的价格变动通过关联的值。此外,一双股票的长期均衡的一个重要特征对交易的执行。在这项研究中,我们使用了协整方法选择对股票。通过Johansen的方法,我们选择11对股票的长期平衡。表2显示了对股票,结果被确定基于t统计量和图2显示了价格波动的股票XOM和CVX共合体。使用这个数据集,我们将验证我们提出的方法是否比传统pairs-trading方法更好的性能。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
注意:和表示拒绝零假设的重要性水平,1%和5%。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.3。交易信号
选择双后,有必要提取交易信号。提取信号,我们选择OLS或TLS方法。首先,因为股票价格遵循随机游走32),我们需要确保它遵循通过增强Dickey-Fuller测试过程。随后,过程应该创建使用股票价格的对数差然后应用OLS和TLS方法。在方程(18),是一个恒定值,是一个对冲比率(用作交易的大小),误差项,和股票价格的对数差异吗和在时间 。我们转换的值成为一种z分数作为交易信号。例如,如果交易信号达到阈值时,我们简短的一个被高估的股票(表示为 )和长被低估的股票(表示为 )。对冲比率是根据窗口大小决定的。我们组总共六个离散窗口大小为实验获得最优窗口大小。交易窗口构成使用formation-window大小的一半。这里获得传播作为应用强化学习时(即状态。,作为一个输入DQN)。
3.4。方法:优化Pairs-Trading策略使用DQN方法
在这项研究中,我们优化pairs-trading策略使用DQN类型的游戏。我们将尝试实现一个最优pairs-trading策略通过最优交易和止损边界对应于给定的传播,因为性能取决于交易和止损边界设置成对交易(14]。图3显示了我们提出的机制pairs-trading策略。在协整检验,我们确定双,使用回归分析,获得对冲比率作为交易量和传播作为交易信号和状态。DQN的情况下,设置和两个隐藏层神经元的数目优化通过通过试验和错误输入的一半大小。动作值由六个离散空间表3。每个值的交易和止损的界限值。
|
|||||||||||||||||||||||||||||||||||||||||||||||||
pairs-trading系统可以使利润如果接触传播阈值并返回这样的投资组合平均在每个交易窗口关闭。另一方面,如果交易边界是感动,达到止损边界,系统会尝试减少损失通过停止交易。如果接触传播交易边界但未能回归平均,这个策略可能会以利润或损失。在这项研究中,因此pairs-trading策略视为一种游戏;关闭一个投资组合收益率积极的奖励和一个投资组合,达到止损阈值产生一个负的奖励。尽管退出组合可能产生积极的利润,也有可能损失的发生,因此将会产生负的奖励。我们设置了其他条件(如投资组合的维护或不执行组合)为零,集中精力,止损、出口位置。 我们解决投资组合的值接近,止损,并退出+ 1000−1000−500分别。当我们更新q值时,我们必须考虑到奖励DQN有效训练的一个重要组件。因此我们将奖励值设置为有一系列类似的核反应能量。此外,我们包括相应的损益值以反映交易结束后的重量。在方程(19),和股票的股票订单吗和在时间 , 和股票的价格吗和在时间 ,和和股票的价格吗和在时间 。
算法1展示了我们的方法的过程。在我们开始我们的方法之前,我们设置一个回放记忆和批量大小和选择对使用协整检验。在每一个时代,我们总利润1.0初始化。培训计划,我们设置一个状态已形成窗口内传播和选择行为作为交易和止损的界限。在交易窗口,我们执行类似传统pairs-trading策略使用的策略行动选择。执行战略后,我们获得一个奖励基于投资组合的结果。最后,q学习的过程,我们更新Q-networks通过执行一个梯度下降法的步骤。
| 初始化回放记忆和批量大小 | |
| 初始化深度Q-network | |
| 选择对使用协整检验 | |
| (1)为每一个时代做 | |
| (2)利润= 1.0 | |
| (3)为步骤t = 1,…,直到结束的训练数据集做 | |
| (4)使用OLS或TLS方法计算传播 | |
| (5)获得初始状态将蔓延到z分数基础上形成窗口 | |
| (6)使用epsilon-greedy方法,随机选择一个行动 | |
| (7)否则选择 | |
| (8)执行传统pairs-trading策略基于所选择的行动 | |
| (9)获得奖励通过执行pairs-trading策略 | |
| (10)设置下一个状态 | |
| (11)商店过渡在 | |
| (12)样本minibatch过渡从 。 | |
| (13) | |
| (14)更新Q-network通过执行梯度下降的一步 | |
| (15)结束 | |
| (16)结束 |
3.5。性能测量
我们检查我们的实验结果基于利润,最大限度的减少,夏普比率。利润是常用的作为交易策略的性能测量。它计算回报考虑交易费用的总和。因为许多交易可以增加总利润,它是必要的,以确定的总利润考虑交易成本取决于交易量。在这项研究中,我们设置一个交易成本5英国石油(bp);方程(21方程()几乎是一样19),但它并不包括绝对值,和交易成本。最大下降代表最大累计损失从最高到最低的组合值给定的投资时期是投资组合的价值是终端时间价值。夏普比率是一个程度的指标超额利润投资于高风险资产用于评估投资组合(33]。在方程(23),是预期的投资回报和总和是无风险利率;我们将这个值设置为0投资组合的标准差的回报。 材料与方法部分应该包含足够的细节,使所有程序可以重复。它可以分成部分如果几个方法。
4所示。结果与讨论
我们使用股票对XOM和CVX,拒绝零假设在1%的显著性水平,来验证我们提出的模型是否训练有素。窗口的长度大小等形成窗口和交易窗口选择从训练数据集的性能结果。从这些结果,我们选择一个优化的窗口大小和比较模型与传统的双盘,将一组常数的操作和测试数据集。
4.1。培训结果
找到最优的窗口大小优化pairs-trading系统,我们试验了6例。基于六个窗口大小,我们进行了实验,结果为每个窗口大小的平均值计算了前5的结果共有11条。从表4和5,我们可以发现,获得最佳的性能,当形成30和15和培训窗口,分别基于OLS和TLS方法所产生的利润。当我们训练网络,我们将采取更积极的奖励关闭位置和更少的止损和出口位置。我们可以找到最低的投资组合比关闭职位空缺职位的数量的基础上,形成和交易窗口30和15天(0.68)。这个结果相反,关闭头寸的数量比例最高的形成和交易windows 120和60天(0.73)。然而,最高的利润报告形成和交易窗口30和15天。这可以解释当我们检查止损组合的数量的比率。形成交易窗口大小30和15天止损位置组合的比例是0.13,但形成和交易窗口大小是0.20。这一结果表明,重要的是要减少止损位置,同时增加了关闭位置。此外,我们可以看到交易信号由TLS方法比用离散的OLS方法在所有六个窗口大小。这样做的原因是基于对冲比率的两种方法之间的区别。 In OLS, when one side is the reference, the relative change of the other side is estimated. Since the assumption is that there is no error component on the reference side and there is an error only on the other side, the hedge ratio varies depending on the side used as the reference. However, in TLS, hedging ratios are the same regardless of which side is used as the reference. For this reason, the experimental results confirm that the TLS method is better able to determine when to execute the pairs-trading strategy. From these results, we take the optimum window size when we verify our proposed method in the test dataset. However, we first need to ensure that the model we proposed is well-trained.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
重要的是要检查是否我们的强化学习算法训练。文献[21)表明,稳步增加平均q值是证据表明DQN学习。图4(一)显示的平均q值鸿和公司培训发展。我们发现平均q值稳步增加,表明我们提出的模型是正确地训练。此外,我们提供了一个积极的奖励当组合关闭和消极的奖励当组合达到止损阈值或者退出。图4 (b)显示的数量的比例组合的职位是培训的进展。关闭打开组合头寸的比率增加,投资组合的比例达到止损阈值打开组合头寸减少。我们还发现,组合退出打开组合头寸的比例略有增加。可能回报给开放组合位置相比给出一个封闭组合位置相对较小。因此DQN训练防止组合达到他们的止损阈值(更重要的目标)退出。这个结果也可以作为判断依据该模型是否正确地训练。
(一)
(b)
表6和7代表XOM和CVX的性能结果的训练数据集。我们调用模型pairs-trading DQN (PTDQN)和传统对贸易与常数行动值作为对贸易行动0 (PTA0)对交易行动5 (PTA5)。从这个结果,我们可以确认,我们的方法比常数pairs-trading更有利可图的策略。此外,我们可以看到,TLS方法具有更高的盈利能力比OLS方法。从PTA0 PTA5,交易边界和止损边界越来越大;开放和封闭的投资组合,投资组合的数量达到了止损阈值降低。换句话说,有利润的机会越少,但损失的概率也降低。重要的是不仅要花费很多封闭的立场,但也最好的行动来打开和关闭的投资组合。例如,如果一个投资组合由边界对应开启和关闭行动0在同一传播和如果一个投资组合是开启和关闭边界对应动作1,相应的利润是不同的。假设均值回归肯定会发生,如果我们把最大边界条件开立一个投资组合,我们将获得更大的利润比我们更小的边界条件。 We can see that the PTDQN returns are higher than the strategy with the highest return among the traditional pairs trading strategies that take the constant action. Figures5- - - - - -8显示交易和止损的变化边界和最高的利润不断行动应用DQN时使用OLS和TLS方法在训练期间。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
数据5和6显示PTDQN和PTA1使用TLS方法的比较。图5包括传播、交易和止损的界限。我们发现交易和止损在PTDQN边界有不同的值,表明它已经学会找到最优边界根据每个传播。PTDQN相比,PTA1在图6不断的交易和止损的边界。数据7和8表现出同样的特性我们看到数字5和6。这些方法之间的区别在于传播:可以获得不同的结果取决于所使用的传播。做出更好的传播因此可以提高性能。
数据9和10代表对应的利润DQN使用TLS和OLS和持续行动。文献[34]表明,平均价值应该提交给多个试验显示深度强化学习的再现性,因为可能会有不同的结果从高方差在试验和随机种子。因此,我们进行了五个试验用不同的随机种子。的利润图DQN代表这些试验的平均利润和利润最大和最小值之间的填充区域。我们可以看到,PTDQN有较高利润比传统pairs-trading策略培训期间。这意味着,即使我们可以看到相同的传播,利润将会改变随着边界发生了变化。换句话说,找到最优边界传播优化对交易的盈利能力的一个重要因素。
4.2。测试结果
表8和9显示每组的平均绩效指标测试通过应用前5训练模型。我们可以看到,不断行动回报最高的每一对都是不同的,和TLS方法更高的对基于利润比OLS方法,如上所示。我们还发现PTDQN更好的性能比传统pairs-trading策略。最高的一对利润使用该方法是鸿和公司(3.2755);它也显示了DQN最大的区别方法和最优行动(0.9377)。我们发现,该方法有更高的夏普比率在所有对除了莫和TLS方法时所使用。如果我们增加夏普比率除了总利润为目标函数,我们可以构建一个更加优化的pairs-trading系统。基于这些结果,我们可以确保我们的数据集的方法的鲁棒性。该方法也适用于其他对股票在全球其他市场。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在图11,我们可以看到,我们的方法,PTDQN,优于传统的配对交易策略,不断行动在测试数据集。这个方法的关键方面是最优的选择边界的扩散,使最高的利润不断的行动,就像一个常数边界。因此,这一趋势是一样的传统配对交易策略;然而,当利润最高的最优边界传播相结合,PTDQN发现有更高的利润比传统配对交易策略。因此这种方法可以被应用在各个领域需要优化基于规则的策略的效率35,36]。在这项研究中,我们认为传播和边界是配对交易策略的重要因素。因此,我们试图优化配对交易策略与各种交易和止损边界使用深强化学习和我们的方法优于基于规则的策略。通过优化关键参数在基于规则的方法,它可以提高性能。
(一)微软/摩根大通
(b)微软/公司
(c)近况/ ABT
(d)近况/属下
(e)摩根大通/ T
(f)摩根大通/亲爱的
(g)摩根大通/通用电气
(h)公司/ wells
(我)XOM / CVX
亲爱的/公司(j)
(k)通用电气/公司
对使用两种类型的股票交易有相同的趋势。然而,它可以被由于各种因素,如经济问题和公司的风险。在这种情况下,两个股票之间的传播是非常大的。尽管这种情况无法避免,但我们对冲这种风险通过动态边界。在这个意义上,以最低的止损边界是最好的选择,因为它可以克服最少的损失。通过动态边界使用深层强化学习方法,我们可以看到,不仅利润增加,但也损失最小化比固定边界。
5。结论
我们提出一个新颖的方法来优化对交易策略使用深强化学习方法,尤其是Q-networks深处。有两个关键的研究问题。首先,如果我们设定一个动态边界基于蔓延在每一个交易窗口,可以获得更高的利润比传统的配对交易策略吗?第二,有可能,深入强化学习方法可以训练遵循这种机制吗?探讨这些问题,我们收集对选择使用协整检验。我们尝试了结果如何根据传播和使用的方法不同。因此我们使用OLS和TLS方法设置不同的利差作为输入DQN和交易信号。进行这个实验,我们建立一个窗口和一个交易窗口形成。对冲比率,这是一个重要的因素在决定多少股票,取决于这个值。因此我们应用OLS和TLS方法和试验找到最优窗口大小通过改变窗口,形成交易窗口。
表6和7显示的平均表现值形成windows和交易的训练数据集。结果表明,所有六个窗口大小是当使用TLS利差高于OLS利差。此外,我们可以看到,盈利能力逐渐增加的估计windows和交易方法使用TLS和OLS下降。的原因是,虽然关闭位置组合的比例是最低的,我们组地层和交易窗口,止损位置组合的比例也是最低的与其他形成和交易窗口。这意味着减少止损位置组合是重要的以及增加关闭位置组合盈利。使用最优窗口大小,然后检查是否我们DQN是训练有素。在每个时代,我们发现平均核反应能量稳步增加,封闭的投资组合的比例增加,投资组合的比例,达到了止损阈值下降,证实我们的DQN训练。基于这些结果,我们发现我们的模型使用测试数据集的生成窗口30和交易窗口15的结果优于传统pairs-trading策略的样本外数据集。在图11,我们可以看到的利润路径PTDQN PTA5 PTA0相似,但比其他方法。这表明,采取动态边界基于我们的方法是有效的优化对交易策略。在经济问题上的不确定性,它可以是一个风险管理对交易策略包括我们提出的方法。然而,我们设置一个奖励函数如果突然高传播,我们的网络是训练来防止这种情况通过减少止损边界因为它是训练有素的最大化的预期和未来的回报。因此,我们的方法可以最小化风险,经济风险似乎与传统的配对交易策略相比固定边界。
从实验结果中,我们表明,我们的方法可以应用在对交易系统。它可以应用在各个领域,包括金融和经济,当有一个需要优化的效率,基于规则的策略。此外,我们发现,我们的方法优于传统的配对交易策略在所有对标准普尔500指数基于成分股票。如果我们选择合适的双共合体,我们可以应用方法等其他市场KOSPI指数,日经指数和恒生指数。这项研究只关注利差由两只股票,长期均衡模式。自我们的方法选择最优边界基于传播,它可以应用于其他股市如综合,日经指数和恒生指数。
在未来的工作,我们可以发展我们的模型如下。首先,如利润设置为目标函数在这项研究中,模型的性能比传统的双低交易时基于其他性能的措施。它可以因此有可能创建一个better-optimized pairs-trading策略,包括所有这些其他性能指标作为目标函数的一部分。第二,我们可以使用其他统计方法,如卡尔曼滤波器和纠错模型使用多样化的传播。最后,可以创建一个更为优化pairs-trading策略通过不断改变窗口大小和边界的离散集。我们将在将来的研究中解决这些困难。
数据可用性
使用的数据来支持本研究的发现已经存入figshare库(DOI: 10.6084 / m9.figshare.7667645)。
信息披露
投资者没有参与研究设计、数据收集和分析,决定发表,或准备的手稿。这个工作代表一个研究的一部分作为金融工程硕士论文亚州大学在2016年和2018年期间,韩国。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由韩国国家研究基金会(NRF)由韩国政府拨款(MSIT:科技部和ICT)(没有。nrf - 2017 r1c1b5018038)。
引用
- e . Gatev w . n . Goetzmann和k . g . Rouwenhorst”对交易:性能买进套利的规则,”耶鲁ICF 08-03号工作报告,1998,https://ssrn.com/abstract=141615或http://dx.doi.org/10.2139/ssrn.141615。视图:谷歌学术搜索
- r . j .艾略特、j·范德Hoek和w·p·马尔科姆,“对交易,”定量金融学,5卷,不。3、271 - 276年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 美国安德拉德,Di Pietro诉和m . Seasholes“理解成对交易的盈利能力,”2005年。视图:谷歌学术搜索
- 香港和r . Susmel“Pairs-trading亚洲ADR市场,”休斯顿大学Unpubl。Manuscr。,2003年。视图:谷歌学术搜索
- e . Gatev w . n . Goetzmann和k . g . Rouwenhorst”对交易:性能买进套利的规则,”金融研究,19卷,不。3、797 - 827年,2006页。视图:出版商的网站|谷歌学术搜索
- b . r .小题大作,”简单的配对交易还工作吗?”金融分析师期刊,卷66,不。4、83 - 95年,2018页。视图:出版商的网站|谷歌学术搜索
- s . Mudchanatongsuk j . A . Primbs, w . Wong“最佳配对交易:随机控制方法”《2008年美国控制会议,ACC美国,页1035 - 1039年,2008年6月。视图:谷歌学术搜索
- a . Tourin和r .燕”,动态对交易使用随机控制方法,”经济动力学与控制杂志》上,37卷,不。10日,1972 - 1981年,2013页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- z曾庆红和c·李,“对交易:最优阈值和盈利能力,”定量金融学,14卷,不。11日,第1893 - 1881页,2014年。视图:出版商的网站|谷歌学术搜索
- s . Fallahpour h . Hakimian、k·塔和e . Ramezanifar”对交易策略优化利用强化学习方法:协整方法,”软计算,20卷,不。12日,第5066 - 5051页,2016年。视图:出版商的网站|谷歌学术搜索
- p . Nath“高频率对贸易与美国国债:风险与回报的对冲基金”SSRN电子杂志,2004年。视图:出版商的网站|谷歌学术搜索
- t梁和李x”,最优均值回归与交易成本和止损退出交易,”国际理论和应用金融杂志》上,18卷,不。3,2013。视图:谷歌学术搜索|MathSciNet
- c·林德伯格大肠埃克斯特龙,j . Tysk“对贸易的最优清算”先进的金融数学方法施普林格,页247 - 255年,海德堡,2011年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 林y、m . McCrae和c . Gulati”损失保护成对交易通过最低利润范围:协整方法,”应用数学和决策科学杂志》上卷,2006年,页1 - 14,2006。视图:出版商的网站|谷歌学术搜索
- 米凯尔森a,“对交易:挪威海产品公司的情况下,“应用经济学,50卷,不。3、303 - 318年,2017页。视图:出版商的网站|谷歌学术搜索
- k金”,性能分析对交易策略利用高频数据与应用程序KOSPI 100股票,”SSRN电子杂志2011年,p . 24日。视图:出版商的网站|谷歌学术搜索
- 诉神圣和p . Tomanova估计Ornstein-Uhlenbeck盘中过程使用超高频数据与应用程序对交易策略, 2018年。
- 崔j . d . Chen, y高和l .吴”对中国商品期货交易市场:一个自适应协整方法,”会计与金融卷,57号5,1237 - 1264年,2017页。视图:出版商的网站|谷歌学术搜索
- h . Puspaningrum y林,c . m . Gulati”找到的最优预设边界对交易策略基于协整技术,”统计理论与实践杂志》上,4卷,不。3、391 - 419年,2010页。视图:出版商的网站|谷歌学术搜索
- 答:a . Roa,“对交易:最优thershold策略,”2018年。视图:谷歌学术搜索
- 诉Mnih k . Kavukcuoglu d银et al .,“与强化学习,玩雅达利”https://arxiv.org/abs/1312.5602,2013年。视图:谷歌学术搜索
- s . d . y . Wang Wang, y, s .李问:周,“深Q-trading”, 2017年,http://cslt.riit.tsinghua.edu.cn/。视图:谷歌学术搜索
- 彭译葶。黄”,金融交易作为一个游戏:深强化学习方法,”2018年,https://arxiv.org/abs/1807.02787。视图:谷歌学术搜索
- t·金优化配对交易策略使用深强化学习(硕士论文)亚州大学,韩国水原韩国,2019年。
- b, r .忙乱和k·哈姆扎,“一种新的建模和估计方法对交易,”《2006年金融管理协会欧洲会议,2006年。视图:谷歌学术搜索
- r·d·迪特玛c·j·尼利和p·a·韦勒是外汇市场技术分析盈利?遗传规划方法。”金融和定量分析杂志》上,43卷,p。1997。视图:出版商的网站|谷歌学术搜索
- h . Rad r·k·低,r .小题大作”配对交易策略的盈利能力:距离,协整和介体方法,”定量金融学,16卷,不。10日,1541 - 1558年,2016页。视图:出版商的网站|谷歌学术搜索
- s . Johansen协整向量的统计分析,“经济动力学与控制杂志》上,12卷,不。2 - 3、231 - 254年,1988页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m·h·库特纳c . j . Nachtsheim j .净和w·李,“线性统计模型,应用”1996。视图:谷歌学术搜索
- g·h·戈卢布和c . f . Van Loan”分析的最小二乘问题。”暹罗在数值分析》杂志上,17卷,不。6,883 - 893年,1980页。视图:出版商的网站|谷歌学术搜索
- r·s·萨顿和a·g·Barto”强化学习概论”,学习,1998年。视图:谷歌学术搜索|MathSciNet
- e . f .农夫,“股票市场价格的随机漫步,”金融分析师期刊,51卷,不。1,第80 - 75页,1995。视图:谷歌学术搜索
- w·f·夏普,”夏普比率。”项目组合管理》杂志上,1994年。视图:谷歌学术搜索
- p·亨德森,r .伊斯兰教,p .巴赫曼,j . Pineau d . Precup d Meger,“深度强化学习问题,”人工智能学报Thirthy-Second AAAI会议(AAAI), 2018年。视图:谷歌学术搜索
- 黄懿慧李x m . Lu, n . c .凹地,“基于规则的控制策略与小说参数优化使用NSGA-II功率分流混合动力车的运营成本最小化,“IEEE车辆技术,卷63,不。7,3051 - 3061年,2014页。视图:出版商的网站|谷歌学术搜索
- l . Dymova p Sevastianov, k . Kaczmarek”一个股票交易专家系统规则库的基础上使用级别2引用证据推理,”专家系统与应用程序,39卷,不。8,7150 - 7157年,2012页。视图:出版商的网站|谷歌学术搜索
版权
版权©2019 Taewook金和公顷年轻的金正云。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。