文摘

对交易是一个重要的和具有挑战性的研究领域在计算金融,对股票买卖的一对组合套利机会。传统方法解决这些问题主要依赖于回归等统计方法。在最近的统计方法相比,计算智能(CI)的进步导致承诺金融应用程序更有效地解决问题的机会。在本文中,我们提出一个新颖的方法使用遗传算法(GA)对交易。我们的研究结果表明,基于遗传模型能够显著跑赢基准和方法能够生成健壮的模型来解决金融应用程序的动态特性进行了研究。基于获得的有前景的结果,我们希望这个遗传方法计算智能研究的推进融资和提供一个有效的解决方案,在实践中对投资交易。

1。介绍

在过去的几十年中,由于传统统计方法的无效,回归和因子分析等方法来解决困难的金融问题,源于计算智能方法,包括模糊理论、人工神经网络(ANN),支持向量机(SVM)和进化算法(EA),开发更有效的替代解决金融领域的问题1,2]。

在CI-based技术研究了金融、模型可以分为两个主要应用领域:(1)选股,投资组合管理和优化(3- - - - - -6)和(2)的金融时间序列预测7,8]。对于第一类,早期的研究工作包括投资组合构建的模糊多属性决策分析(9]。Zargham和Sayeh10)采用模糊规则系统来评估一组股票相同的任务。Chapados和Bengio11]训练神经网络估计和预测资产行为来促进资产配置决策。

沿着这条线在EA应用程序的研究,贝克尔et al。12采用遗传规划(GP)为美国市场开发股票排序模型。赖et al。13)用双级遗传算法选择上海证券交易所的股票2001年至2004年的时间段。赖et al。s工作,用EPS、PE、和流动性比率是用来排名股票,他们使用遗传算法来计算最优比例的资本分配给每一个资产。赖昌星等人得出的结论是,他们的遗传优化的方法是更有效的金融应用程序比模糊或人工神经网络。最近,黄(5)设计了一个基于混合动力机器学习模型来确定承诺的特性和最优模型参数;黄的模型被证明是更有效的比基准和一些传统的统计方法对股票的选择。提高性能的单目标遗传模型,最近,Chen等人。14)提出了一种多目标遗传方法的目标同时增加投资收益,降低风险。在这种方法中,作者使用了nondominated排序搜索nondominated解决方案和表明,多目标方法优于黄提出的简略版本(5]。

另一个流行的研究计算智能尤其涉及金融时间序列的预测。一定数量的研究利用网络学习技术,包括前馈、径向基函数或复发性神经网络(7),和支持向量机(8]。其他智能方法,如基因进化回归模型(15)和归纳模糊推理系统(16),也可用在文献中。

对交易(17计算金融)是一个重要的研究领域,通常依赖于投资股票价格的时间序列数据,在对股票买卖的套利机会。它是一个著名的金融市场投机策略在1980年代开发的,作为一个重要的多头/空头股票投资工具对冲基金和机构投资者(18]。虽然已经有大量的CI-based研究金融应用程序,报告CI-based研究对交易是稀疏的,缺乏认真的分析。到目前为止,许多现有工作沿着这条线等传统统计方法的研究依赖于协整的方法(19),卡尔曼滤波器(20.,21),和主成分分析(18]。在CI地区,Thomaidis et al。17)采用神经网络的方法对成对公司印度Infosys和Wipro和完成合理的使用对股票的投资回报。萨克斯百货和马林(22)遗传规划用于各种对Eurostoxx 50股票和股市还发现好pair-trading策略。

尽管存在这些以前CI-based研究对交易,他们缺乏严重的时序分析等方法验证中使用(5,23)的进一步评估交易系统的鲁棒性。此外,在这些以往的研究,构建交易模型只使用两只股票作为交易对;在这里,我们提出一个通用的方法,使用两个以上的股票作为套利交易集团为了进一步提高模型的性能。在这项研究中,我们还采用遗传算法的优化问题提出套利模型。在过去的研究23),黄等人相比,传统的线性回归和任务的GA的股票选择和显示遗传模型优于线性回归模型的能力。出于这个研究工作,我们因此打算采用遗传算法来优化我们的智能系统对交易,和实验结果表明,我们提出的遗传方法的承诺是否优于基准。此外,在对比传统pairs-trading配对方法,针对股票具有类似特征,我们也表明,我们的方法可以构建工作具有不同特点的股票交易模型。在这项研究中,我们也调查方法的鲁棒性,结果表明,我们的方法确实有效地生成健壮的模型的动态环境pairs-trading问题。

本文分为四个部分。部分2概述了在我们的研究中提出的方法。节3在这项研究中,我们描述了使用研究数据和现在的实验结果和讨论。部分4本文总结道。

2。材料和方法

在本节中,我们提供了相关的背景和描述我们的pairs-trading系统的设计使用遗传算法对模型进行优化。

2.1。对交易

对交易被广泛认为是统计套利的“祖先”,这是一个交易策略来获得利润从一组股票的价格差异17]。传统投资决策通常依赖于基础公司评估其价值和股票价格,因此。随着股票的真实价值很少知道,pairs-trading技术是为了解决这个问题通过投资股票对具有类似特征(例如,相同行业的股票)。这两只股票之间的相互错误定价在理论上是由传播的概念,制定用于识别相对位置当一个市场效率低下导致股票错误定价(18,21]。因此,交易模型通常是中性的,不相关的市场,可能产生波动性的投资策略。

对交易的股票操作的典型形式通过出售股票以相对较高的价格和购买其他的《盗梦空间》以一个相对低的价格在交易期间,期待越高一个一个将下降而降低在未来将会上升。两只股票的价格差距,也称为扩散,因此作为一个信号的打开和关闭位置对股票。在交易期间,打开位置蔓延扩大的某一阈值时,和之后的职位已经关闭当传播股市恢复。这种多空策略的目的是获利的运动扩散,预计恢复到其长期的意思。

考虑初始资本 的利率 每年和复合频率 一年;首都 一年之后可以表示为 如果复合的频率 任意大, 在不断加剧,资本增值的过程被定义为 因此,不断加剧 以自然对数计算如下: 在哪里 自然对数函数。

现在考虑这两个价格时间序列, 的两只股票 具有类似特征,pairs-trading模型的过程可以描述如下18]: 在哪里 是一个静止不动的,向均数回归过程;的漂移 相比是小的波动 ,在许多应用程序中可将其忽略。

向均数回归过程背后的基本原理是,存在一个长期均衡(意味着)传播。投资者押注可能降级当前传播到其历史意思的买卖一个适当的数量的股票。(5)所示,一个预计股票的回报 在控制了适当的跟踪对方 。这个模型显示一个投资策略,长1美元的股票 和短 美元的股票 如果 很小。相反,如果 大,需要一个相反的策略,短 和长 。因此,多空组合的回报可能振荡统计平衡。

在实际实践中,多空的回归组合上面一段时间不得计算如下: 在哪里 表示股票的价格 我们长时间在哪里 分别;和 表示股票的价格 我们很短时间吗 ,分别。

pairs-trading方法可以推广到一组股票错误定价可能是通过正确的资产组合确定的时间序列向均数回归。考虑一组资产, 和相应的股票价格时间序列, ;一个统计错误定价可能被视为一个线性组合 这样 在哪里 是一个向均数回归的过程,向量 代表的比例的资本分配给每个资产的投资组合。均值回归在上面的方程中是指假设两种合成的高和低价格的资产 是暂时的,其价格往往会走向其平均价格。

2.2。交易系统
2.2.1。市场时机选择模型

在这部作品中,长期的资产的价格向均数回归过程中可能被著名的移动平均线(建模24),在指定时间内资产的平均价格。让 股票价格在时间 。移动平均线的时间 的意思是对应于最近的价格 时间,被定义为

在这项研究中,我们采用波林格区间(24)来确定一对股票离开它的传播动态平均值。通常,波林格区间开两个波动乐队放置上方和下方移动平均,波动性可能被定义为一个标准偏差的多个价格在过去。正式的波林格区间可以定义如下: 在哪里 是价格的标准偏差,在时间吗 ,在过去 时间段; 是一个参数用来控制上下带的宽度移动平均线。

一个成功的交易系统的一个重要组成部分是构建模型对市场时机,在市场上开有意义的入口点和出口点。在这项研究中,我们将使用移动平均线和波林格区间开发交易系统,在下一小节中描述。

2.2.2。交易策略和性能评估

我们计算的扩散合成所产生的资产 股票 在哪里 , 股票的价格 在时间 , 的是广义的模型参数估计成对交易。

在这项工作中,我们指定一个买(卖)的交易策略传播之后 (上图)其均值和标准差低于正常位置后关闭扩散比离我们越来越近 标准差的意思,

我们评估交易系统的性能的复合回报,即由交易模型的有关参数。我们首先定义了返回的交易系统 th贸易 ,在那里 表示模型的设定参数。然后我们在这里使用的性能指标是通过总累积(复合)返回, ,在那里 定义产品的投资回报率 连续交易, 因此,在资本增长的过程中,首都 结束的时候 交易是 在哪里 代表了初始资本。

2.3。优化交易系统

鉴于市场时机和pairs-trading模型,交易系统的性能由合适的增强值相应的模型参数。对于市场时机模型,参数包括 移动平均线和参数 的波林格区间控制倍数标准差的入口点和出口点的移动平均线。pairs-trading模型,参数的设置权重的术语( 在句法资产从()10)。在这项研究中,我们提出使用遗传算法(GA)的搜索最优参数的贸易体系。我们将介绍遗传算法的基本知识以及我们在下面提出优化方案。

遗传算法(25)被用作计算自然进化系统仿真模型和自适应算法求解复杂的优化问题在现实世界中。这类算法的核心在于生产的新的基因结构,在进化的过程中,提供创新解决方案的问题。通常,人工代理的GA操作进化群体的组成可以很简单,比如一个二进制字符串编码解决手边的问题和表型表示解决方案本身。在每个迭代中,新一代是由交叉和变异应用到候选人选为父母。迭代进化发生的随机变异的基因型和选择适合表型的环境中基于个体如何解决一个问题的解决方案。

在我们建议的编码设计中,染色体的组成是由四个部分组成,设计了编码参数 移动平均线的倍数 波林格区间的标准差、加权系数的设置( ' s) pairs-trading模型(10)。在这里,我们使用二进制编码方案来表示染色体遗传算法。在图1,基因座 通过 代表的编码 移动平均线。位点 通过 通过 代表的编码 分别为波林格区间。最后,基因座 通过 代表加权系数的编码 ,

在我们的编码方案中,染色体代表基因型的参数转换成的表型(13)以下为进一步健康计算。代表每个参数的精度取决于用于编码的比特数的染色体,决定如下: 在哪里 是为特定参数对应的表型; 参数的最小值和最大值; 对应的十进制值( 被截断的整数如果参数是整数类型),和 块的长度是用于编码参数的染色体。

有了这个计划,我们定义一个染色体的适应度函数的年回报率交易系统 年的投资: 在哪里 是总累积返回计算(11)。

我们总体遗传套利系统是一个多级的过程,包括同步优化股票的权重系数,移动平均线的时期,波林格区间的宽度。系统的输入是股票价格的时间序列数据集。对于任何给定的组合移动平均模型参数,波林格区间,和股票的权重系数,我们采用pairs-trading套利系统投资。在这部作品中,被指定为交易时机买入(卖出)传播它到达后一定距离(用标准差来衡量平均)下面(上图)平均和随后关闭位置后扩散接近的意思。长或短的股票权重确定的术语( 在句法资产从()10)。然后我们计算相应的回报的绩效评估系统。在这项研究中,遗传算法作为优化工具,同时这些模型参数的优化。最终的输出是一组模型参数(GA)优化的规定pairs-trading和时机模型。这个遗传的流程图贸易体系总结在图2

3所示。结果与讨论

在本节中,我们检查我们的性能提出了pair-trading系统方法。我们使用两套在台湾证券交易所上市的股票说明:(1)一组10只股票具有类似特征的半导体产业,这是最重要的工业部门在台湾过去二十年,和(2)组最大的10只股票市值从不同的领域,这表示在台湾独特的工业特性。

3.1。从半导体行业10只股票

每日10半导体类股的返回台湾从2003年至2012年被用来检查GA-optimized交易系统的性能。表1显示了本节使用的10只股票。图3显示说明到目前为止最曲线的积累(即返回。GA的累积总回报)获得的超过50代。(为了研究的质量解决方案随着时间的推移,传统的遗传算法的性能指标是到目前为止最“曲线情节健身最好的个人看到迄今为止的一代 ,即,a point in the search space that optimizes the objective function thus far. In addition, in this study, the GA experiments employ a binary tournament selection [26),单点交叉和变异率为0.7和0.005,分别地。我们也使用10位编码染色体中的每个变量和使用50个人在每一代人口的大小。)此图显示了GA搜索解决方案在进化的过程中逐步提高交易系统的性能。

4显示一个插图的累计回报基准和我们的遗传模型。(在本研究中,基准的定义是传统的“买入并持有”方法,我们分配一个首都在平等的比例每个股票和累积计算返回的产品平均每日返回所有的10只股票的十年;即。,an investor invests all the capital in the stocks initially and sell all of them only at the end of the course of investment.) This figure shows that the GA-based model gradually outperforms the benchmark and the performance discrepancy becomes quite significant at the end of year 2012. As opposed to the buy-and-hold method that allocates one’s capital in equal proportions to each stock, the GA proactively searches for the optimal proportions for long or short positions for each asset in order to construct the spread by (10)。此外,遗传算法搜索最优时机购买和使用波林格区间动态卖空股票。在我们的研究中,权重系数为资本的比例分配给股票,移动平均线的时期,波林格区间的宽度同时进行优化。结果,在我们提出的方法,一个交易系统优化的遗传算法是一种最优套利组合和市场时机模型。因此,可以预计,GA有利于建设的套利系统和图4的确表明,遗传模型优于基准从长远来看。因此,这些结果阐明如何GA的优化可能有利于pairs-trading模型。

为了进一步检验我们提出的方法的有效性,统计模型在本研究进行验证。在现实中,使用训练数据学习模型是由看不见的数据进行测试。在这里,如图5,我们使用前几个季度的股票数据训练模型,剩下的数据用于测试。这个设置是提供一组时间验证检查的有效性模型在动态环境下的金融问题,它不同于普通交叉验证过程的过程分成两个独立的数据集随机重复几次没有考虑数据的时间顺序。然而,金融研究,时间顺序是至关重要的因为一个想使用所有可用的数据到目前为止训练模型和应用模型的未来利润。

在每个电视的训练阶段,我们进行50分GA和最好的模型从每次运行测试阶段的检查。的培训和测试阶段,累计总回报(累积回报)在季度计算模型和相应的年回报率计算(14)。最好的50年化收益模型在每个电视然后平均显示表的培训和测试阶段2。在这个表中,我们还提供年度基准换取与遗传模型,进一步比较,累计总回报率为基准计算的平均季度收益的产品10半导体类股的时间在培训或测试中,和相应的年回报率再次计算(14)。

在表2,年化模型的检查手段返回显示在所有的39个电视培训情况下遗传方法优于基准。测试阶段,在30的39例遗传方法优于基准。图6进一步显示了一个视觉要点在这两种方法的性能差异在测试阶段。可以看到,在大多数的电视,年回报率的遗传模型比基准。因此这些结果证明我们的遗传方法是有前途的解决pairs-trading问题。

3.2。10大市值的股票

接下来我们使用最大的10只股票市值在台湾证券交易所上市,进一步检验我们提出的方法。每日回报的股票从2003年至2012年又用于GA的优化任务。表3显示了10只股票市值最大的用于本研究。

7显示一个插图的累计回报基准(再次定义为平均每日的产品回报的十大市值股票10年)和我们的遗传模型。可以看到,基于遗传模型逐渐优于基准的投资在2003年至2012年期间,和性能差异变得明显在2012年。因此这个数字说明了遗传模型可能跑赢基准从长远来看。

对于时间的验证,同样的程序使用在前面的小节中,表4显示了年度基准的返回和平均年化投资回报率模型训练和测试用例。可以看到从的年率化模型返回在训练的情况下,基于遗传方法优于基准的39个电视。测试阶段,在29日的39例遗传方法优于基准。图8然后显示表中的结果4对于每个测试阶段的电视。检查图8因此表明,在29日的39个电视、遗传模型优于基准的年化回报率。

3.3。模型的鲁棒性

最后,我们检查我们的方法所产生的模型的鲁棒性使用精密的测量研究[5),它被定义为

在这个定义中, 表示真阳性和假阳性的数量,分别。在这项研究中,一个真正积极的发生在一个模型优于基准在训练,和后来证明优于基准测试,;否则,模型生成一个假阳性。这个数据是一个重要的指标,表明我们的方法是否可以生成健壮的模型时,问题是在动态环境中,金融问题研究等。

通常,如果一个方法生成一个模型,该模型优于基准在训练阶段,一个想要模型继续跑赢基准测试阶段。因此,如果我们的方法能够生成许多真正的阳性导致精度高,这是一个迹象表明,我们的方法是有效地生成健壮的模型。表5显示结果的精度10半导体和最大市值的股票。可以看到,结果表明,该方法的精度是超过0.7在这两种情况下,从而表明我们的方法确实有效。

4所示。结论

在本文中,我们提出了一个基于遗传方法的应用对计算金融交易。为了检查提出的方法的有效性,我们进行了统计验证学习模型来解释股票的时间顺序和动态特性数据,为实际投资几乎是至关重要的一个预计模型构建在未来获得利润。通过优化参数的一组股票的交易模型,实验结果表明,我们的遗传方法能够显著跑赢基准,可以生成健壮的模型对交易。我们因此希望这个遗传方法计算智能研究的推进金融应用程序和对交易提供一种很有前途的解决方案。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是完全支持由国家科学委员会,台湾,在批准号大多数103 - 2221 - e - 390 - 019。作者还要感谢Chih-Hsiang Chang教授他的慷慨提供财务数据。