文摘

在这个研究中,提出了一种新颖的方法称为SMOTE-FRS运动预测和交易模拟300 (CSI300)中国股票指数期货,这是最重要的金融期货在中国a股市场。首先,击杀(合成少数过采样技术)为基础的方法解决样本不平衡问题,过采样的少数类采样多数类期货价格变化。然后,FRS -(基于模糊粗糙集)的方法,作为一种有效的工具来分析复杂和非线性信息噪音和不确定性高的金融时间序列,采用改变multiclassification CSI300期货价格。接下来,基于multiclassification期货价格运动的结果,研制了一种交易策略执行一年的模拟交易的样本外测试训练模型。从实验结果,发现该方法平均累计回报率为6.36%,F1-measure 65.94%,和62.39%的命中率的四个测试周期,表明该方法比标准更准确和更有利可图。因此,该方法可以应用的市场参与者作为替代预测和交易系统预测和贸易在中国金融期货市场。

1。介绍

作为一个至关重要的全球金融市场的一部分,中国金融期货市场可能对全球经济产生重大影响1,2]。股指期货,高效的金融衍生品进行对冲交易风险,已成为市场参与者之间越来越流行,很多学者进行了研究在价格预测3- - - - - -7]。随着通信技术的快速发展,在较短时间内实现投资者捕捉机会的能力逐渐增加(8]。随后,有越来越多的个人和机构投资者参与高频交易(高频交易),和许多研究人员专注于高频价格预测的研究9,10]。然而,一些学者发现,传统方法难以获得令人满意的性能由于金融时间序列的非线性和不确定字符(11,12]。

在过去的几十年里,人工智能(AI)技术的迅速发展,基于机器学习的方法已经广泛应用于大规模、非线性数据的分析在各种应用程序,其中包括金融领域(13- - - - - -15]。其中,模糊集和粗糙集是有效的工具,用于分析复杂与高噪声和不确定性和非线性信息。因此,一些研究人员结合模糊集和粗糙集合理论来解决相关问题。例如,杜波依斯和布雷德设计了模糊粗糙集合的方法通过结合两种理论(16,17,它已经被许多研究者广泛应用。复杂和非线性的概念是由模糊粗糙近似的上下近似,它允许元素互相辨认在某种程度上,而不是明显的或不是。

随着技术的快速发展,越来越多的投资者喜欢高频交易(9,10]。然而,交易决策支持模型的性能将受到显著差异的影响在各种股票的底价18]。因此,他们的交易决策支持系统倾向于预测价格变动的交易信号交易策略。此外,为解决multiclassification金融价格波动预测问题,每个类的训练样本通常是不平衡的,这可能导致偏见的预测结果和令人不满意的精度19,20.]。因此,它也需要平衡价格的样品标签CSI300期货方向和大小。

在本研究中,通过整合SMOTE-based过采样方法和模糊粗糙集(FRS),我们提出一个高频价格趋势multiclassification CSI300期货模拟交易方法,这是最重要的金融期货在中国a股市场。SMOTE-based方法采用平衡标签比率,以及采用FRS作为基分类器价格波动预测。根据multiclassification预测结果,我们也设计一个模拟交易的交易策略。可以总结本研究的主要贡献如下:(1)集成的击杀和FRS-based方法,一种新的价格运动multiclassification和CSI300期货模拟交易方法开发;(2)SMOTE-based方法应用于本研究处理不平衡样本,有效避免偏见的预测结果,提高了预测精度;和(3)交易策略基于multiclassification结果是专为提高交易方法的性能。

本文的其余部分安排如下:部分2介绍了本研究的相关工作。相关方法中描述的背景部分3。节4,我们提供详细的解释方法。报告实验结果和讨论部分5。节6,我们认为这项研究,并提供几个研究方向。

在过去的二十年里,基于机器学习的方法也被广泛用作高效、卓越的分类和回归工具在金融领域。例如,林等人建造了一个小说整体机器学习方法有六个常用的机器学习算法包括SVM(支持向量机)、射频(随机森林),然而,( - - - - - -最近邻)来预测股票的每日价格波动在中国股票市场。实验结果表明,该方法的准确性和盈利能力优于传统方法(21]。Kamalov提出了一种神经网络(NN)的基础方法在股票价格预测的重大改变,和实验结果表明,该方法获得的最好的准确性(22]。Yu和燕发达股票价格预测模型基于深度学习——(DL)算法为基础,他们得出结论,该方法产生一个更大的预测精度比传统模型(23]。然而,这些方法不仅需要耗费大量的完整的数据,还需要预处理模型前培训。

模糊集和粗糙集,作为有效的工具在机器学习算法来分析复杂的高噪音和不确定性和非线性信息,已广泛应用在金融领域。例如,太阳等人提出了一个价格指数预测模型在中国股票市场通过结合传统的模糊时间序列模型和粗糙集方法(24]。Kumar等人提出了股票价格预测方法基于模糊集,他们测试了它在印度股市。实验结果表明,该方法优于基准的方法(25]。除了这些模糊集和粗糙集的应用构建分类器预测股票价格,也广泛用于降低数据维数(26,27]。詹森等人提出了一个新颖的混合模糊粗糙规则归纳方法,结合规则归纳和属性约简的过程。他们改善了贪婪爬山策略,使它表现得更好比基准的方法(28,29日]。因此,在这篇文章中,沪深300指数期货预测为研究对象,选择和詹森提出的方法等。28,29日)是用来生成规则的价格变化的预测。

此外,为解决multiclassification金融价格波动预测问题,每个类的训练样本通常是不平衡,从而导致偏见的分类结果和低精度(30.,31日]。合成少数过采样技术(杀),提出了拉et al。32),是一种有效的方法解决不平衡样本采样过密的少数民族33),它已经成功地和广泛应用于许多领域33- - - - - -36]。因此,研究后拉et al。32],SMOTE-based方法是使用和集成到该方法平衡模型训练样本不同的类模糊粗糙集模型训练前(FRS)。

3所示。背景

模糊集的方法可以用来处理模糊数据,而粗糙集可以处理不完整的信息。通过扩展粗糙集的等价关系模糊等价关系,它导致一个集成的粗糙集和模糊集理论37- - - - - -39]。为变量 ( ),模糊等价关系 应该满足以下三个属性:(1)自反性: ;(2)对称性: ;(3)传递性: 的分区 ,由相关的等价关系 的非空的有限集 的属性, ,可以计算通过使用的结合组成的模糊等价类 ( )。对于任何一个模糊的概念 在论域近似( ),重新定义为模糊的上下近似 的元组 生成的模糊的模糊粗糙集的上下近似。模糊可以被定义为积极的区域

此外,模糊粗糙依赖函数可以定义如下:

的依赖 等于识别对象的比例在整个数据集,这对应于模糊基数的确定积极的地区吗 除以总数量的物体在宇宙中 是集的近似 当所有条件属性

模糊粗糙规则归纳和提出的特征选择方法Jensen et al .,它合并规则归纳和特征选择的过程,而且提高了爬山策略的算法,它可以动态生成规则,完全涵盖了训练样本(28,29日]。方程(4)是用来评估的质量近似的条件属性。的核心特性通过依赖关系来确定变化条件的全套功能,当个人属性删除:

属性集的一个子集,然后保持不变性与模糊粗糙积极地区定义为相对减少,和每个规则产生的模糊粗糙集将包含一个更紧凑的子集(29日,37]。

4所示。该方法

在这项研究中,提出了一种新颖的方法SMOTE-FRS multiclassification CSI300期货的价格运动。该方法的主要结构是呈现在图1。该方法的主要有四个部分:(1)数据预处理部分。在本部分中,1分钟的频率CSI300期货交易数据的收集和转换成小时的频率数据和特性。然后,包含规范化数据的数据集的特性分为几个训练和测试数据集。(2)训练样本重建的部分。SMOTE-based方法用于少数类过采样和多数类欠采样的训练数据集生成一个平衡组训练样本。(3)信号的生成部分。训练数据集用于模型训练生成交易信号基于模糊粗糙规则(看到更多的细节部分5.2)。(4)模拟交易和结果评价部分。在本部分中,应用预先设计的交易策略,模拟交易进行一年的样本外测试。最后,三个评价指标用来判断该方法的预测性能和盈利能力。

5。实验设计

5.1。数据预处理

在数据预处理部分,首先,1分钟频率CSI300期货的交易数据,从2020年1月至2021年12月来源于选择数据库(选择的正式网站数据库http://choice.eastmoney.com/)。交易数据的实验包括打开和关闭的价格、成交量、开放的兴趣1分钟时间。原始数据被用来计算每小时返回(返回),体积变化率(VCR)和开放的利益变化率(OICR)。这些指标的计算方法显示为方程(5)。前十个小时内的指标预测点然后标准化提供初始输入数据集的预测功能,表中列出1的回报,录像机,OICR用 , , ,分别。例如, 代表返回前4小时预测点。然后,整个数据集分为训练和测试数据集比例约4:1。接下来,SMOTE-based方法用于解决样本不平衡问题,过采样的少数类采样多数类样本。细节不平衡样本处理报道在表2,在这 ,2、3、4是multiclassification类代表了小幅上升,大量上升,小跌,价格大幅下跌,分别。 代表的轻微变化价格不符合交易条件。此外,实验数据集窗口将向前挪一个周期(三个月)的滑动窗口技术经过一轮的模型训练和测试,和整个测试周期持续一年。提供了详细的实验数据设计表3: 在哪里 ,分别代表收盘价,开盘价,成交量和未平仓的 小时。

5.2。交易策略设计

训练数据集用于生成规则基于模糊粗糙集的multiclassification CSI300期货方向变化,导致标签代表价格变化(表示为FR,预测返回)预测后一小时。此外,预先设计交易策略被用来验证该方法的预测精度和盈利能力在交易模拟基于分类结果。multiclassification和交易的一个例子的仿真方法是绘制在图2。如图2,每小时返回(返回),体积变化率(VCR)和持仓量变化率(OICR)在10小时前预测点是用作输入功能,和FRS作为基分类器预测价格变化后一小时预测点与价格变化的输出标签(标签)。如果预测返回(FR)大于 ,分类标签2;是否大于FR 和小于或等于 ,分类标签是1;当FR大于或等于 和小于或等于 ,分类标签是0;如果 大于或等于 ,不到 ,分类标签是3;如果FR小于 ,分类标签是4。报道在表4,multiclassification结果也用作交易信号设计一个交易策略,制定如下:如果分类标签2,杠杆的长事务2应用;如果分类标签1,小杠杆的长事务1将使用;分类标签= 0时,没有将执行事务;如果分类标签是3,小杠杆的卖空交易1执行;如果分类标签是4,该方法将执行2的卖空交易大杠杆。请注意,上述 , 阈值水平,在哪个 设置为﹣0.02, 设置为﹣0.01, 设置为0.01, 设置为0.02。此外,小的价值杠杆设置为1,和大型杠杆值设置为2。每个事务交易委员会设置为0.1%。最后,每个事务的位置持有期长度设置为5个小时。

5.3。基准设计

判断该方法SMOTE-FRS的性能,采用几种流行的机器学习方法设计的基准。基准方法,支持向量机,安,射频,XGBoost,深学习方法采用多层感知器(MLP)为基本分类器的multiclassification CSI300期货运动。注意每个基准方法,SMOTE-based方法也被他们用来生产平衡模型训练样本。此外,FRS-based方法不使用杀(FRS-no-SMOTE)设计的一个基准,这是用于测试的功能打方法该方法。此外,两个经典被动交易策略,“买入并持有”(呸)和Short-and-Hold (SAH),受聘为基准的方法来评估该方法的性能。

5.4。绩效评估措施
5.4.1之前。F1-Measure

为了评估该模型的性能在CSI300期货价格变化的预测,F1-measure(见方程(6)使用的精度评估者基于混淆矩阵的结果(见表5):

在表5,TP代表正确的积极的预测(包括小型和大型上涨价格变化, );TN代表正确的负次预测(这两个小型和大型下跌的价格变化, );FN表明积极的价格变化的时代错误预测的负面变化,和FP表示时间的负面变化错误预测的积极的变化。TPR和PPV代表真阳性和阳性预测值,分别。

5.4.2。命中率(人力资源)

人力资源是一个衡量的价格方向预测的准确性,可以计算出 在PF表示正确积极的预测,NF的时代是正确的消极的预测,然后呢 意味着方向预测的总时间。

5.4.3。累积回归(AR)

累积回归(AR)是一个措施的盈利能力的指标公式所示的交易系统 在哪里 表示返回的 从方程(th事务,可以计算11), 表明杠杆的选择 th事务; 表示每笔交易的交易成本。注意,交易成本 当前交易如果当前交易是零信号和前一个一样,因为没有必要关闭位置如果当前交易信号是与前一个相同。否则,交易成本的价值 是0.1%的往返。 意味着总事务时间。

6。实验结果

6.1。Multiclassification结果

在这项研究中,基于规则的分类器的FRS用作改变multiclassification CSI300期货价格,导致价格变化标签。FRS的决策规则提取基于if - then,的形式和规则的一些例子如下所示。

规则1。如果R6大约是0.0089和H3大约是0.1015,R1大约是0.0038和R5大约是0.0064和R8大约是0.0036然后V8大约是0.1866标签是4。

规则2。如果R4在﹣0.0113和H3大约是0.0918和R1是﹣0.0012和R5约0.0005﹣﹣0.0082和R8是左右然后V8大约是0.1072标签是0。

规则3。如果R7﹣0.0018和H3大约是0.1235左右,R1大约是0.0025和R5大约是0.0004和R8大约是0.0018然后V8大约是0.0648标签是3。

规则4。如果R10大约是0.0152和H3大约是0.1098和R1 R5约﹣﹣0.0034和0.0035和R8大约是0.0012然后V8大约是0.0726标签是1。

规则5。如果R9机型﹣0.0010和H3大约是0.1130左右,R1﹣0.0003和R5大约是0.0002左右,R8大约是0.0025然后V8大约是0.1536标签是1。

根据决策规则提取与FRS的训练数据集,一个预先设计的交易策略与multiclassification申请交易模拟结果样本外。混淆矩阵方法的结果在图中给出的四个测试期3,水平块在每个次要情节表明预测类和实际类纵块。较暗的颜色块,类的数量就越大。

基于混淆矩阵的结果,F1-measure方法和基准方法的结果在表的测试时间6。首先,如表所示6,平均结果F1-measure超过四个测试周期的方法(SMOTE-FRS)是65.94%,这比SMOTE-SVM的结果(60.63%)、SMOTE-ANN (60.66%)、SMOTE-RF(61.59%),和SMOTE-XGBoost (62.02%)。此外,所有基准方法的结果至少经历了一次F1-measure测试时间内低于60%。这表明,这些传统的机器学习算法相比,提出的方法产生一个更准确的价格和强劲的性能改变multiclassification CSI300期货。尽管SMOTE-MLP-based方法产生优秀F1-measure导致第四季度(72.41%),结果在第二和第三季度不到65%,而该方法始终成果F1-measure在所有四个季度超过65%。它可以得出结论,虽然深上优于算法可能产生美妙的性能比传统的机器学习模型,而在multiclassification CSI300期货价格趋势的情况下,可以由混淆矩阵结果图3,该方法提出了研究成功了一种更健壮的性能。此外,相比于F1-measure FRS的结果没有击杀(FRS-no-SMOTE),该方法采用SMOTE-based后产生一个优越的预测性能方法解决样本不平衡问题。

6.2。命中率结果

进一步评价该方法的性能价格变化预测,命中率结果产生的基准和方法报道在表7。首先,它可以观察到,该方法的平均命中率在四个分测验期为62.39%,优于基准的方法,包括SMOTE-SVM (59.94%)、SMOTE-ANN (59.16%)、SMOTE-RF (59.97%)、SMOTE-XGBoost(59.57%),和SMOTE-MLP (61.99%)。此外,该方法取得了最好的方向预测准确性的所有四个分测验时间,这表明最受欢迎的机器学习方法相比,该方法表现更好,当应用于CSI300期货的价格方向的预测。的结果相比,该方法更FRS没有击杀(FRS-no-SMOTE),这表明该方法的性能可以增强后应用SMOTE-based方法处理样本不平衡的问题。此外,弗里德曼测试(40是用来评估该方法是否表现显著优于基准。命中率的弗里德曼测试结果被发表在表8,从中我们可以发现的意义是在0.05级单侧检验,证明该方法的预测精度方向明显优于基准。

6.3。积累的返回结果

为市场参与者,一个优秀的交易决策支持系统不仅要提供准确价格信号方向改变,但是还拥有出色的盈利能力。表9该方法的积累提供了返回结果SMOTE-FRS基准。该方法的平均回报的四个分测验期为6.36%,优于基准测试的结果,包括SMOTE-SVM (﹣3.17%), SMOTE-ANN (﹣1.74%), SMOTE-RF (﹣7.82%), SMOTE-XGBoost (﹣4.19%), FRS-no-SMOTE(﹣1.40%),和SMOTE-MLP (﹣3.98%)。此外,该方法返回生成的子测验时期1 - 4是6.49%,5.90%,6.25%,和6.80%,都是积极的回报。相反,负的累积产生的基准方法几乎四个分测验时间返回结果。尽管经典被动交易策略呸了一位杰出的回报在第二季度,该方法也能创作出一种更健壮的回报在四个季度。因此,很明显,该方法优于基准方法的盈利能力。此外,弗里德曼积累返回测试结果显示在表中10。可以看出该方法的盈利能力明显优于标准的0.1水平,证明该方法在本研究提出可以应用作为一个另类交易支持系统的市场参与者CSI300期货市场。

7所示。结论

在本文中,我们提出一个新颖的方法SMOTE-FRS高频价格预测和模拟CSI300的期货交易。SMOTE-based方法应用于解决样本不平衡问题,而模糊粗糙集合的方法是用来生成运动预测和模拟交易信号。此外,为了提高盈利能力的方法,提出了一种预先设计的交易策略,进行了为期一年的模拟交易的样本外测试。对于该方法,其平均F1-measure为65.94%,平均命中率为62.39%,累计回报率为6.36%。总之,基准测试方法相比,该方法SMOTE-FRS产生最好的预测精度和营业利润的结果。的出色表现方法表明,提出的方法可以应用作为一种有效的预测和交易市场参与者的支持系统。此外,采用SMOTE-based解决样本不平衡问题的方法可以有效地提高该方法的性能。在未来的工作中,研究人员可以设计一个更复杂的交易策略来提高盈利能力的方法研究。

数据可用性

公开的数据集进行分析。这些数据可以在这里找到:http://choice.eastmoney.com/2022年6月1日访问。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由哲学和社会科学研究项目湖北省级教育部门(批准号21 q035)。