文摘
股票市场的不断发展,设计一个合理的风险识别工具将有助于解决投资者的非理性问题。本文首先选择最有价值的股票投资价值在未来通过随机森林算法在九因素模型,然后通过使用高阶矩模型分析发现不同投资者的偏好将使投资组合的重量变化因此,这最终将使最优回报和风险的投资组合的组成变化。风险识别系统设计的摘要可以为投资者提供一个有效的风险识别工具,帮助他们做出理性的判断。
1。介绍
随着中国股票市场的持续发展,如何识别许多金融资产和投资者的风险偏好和降低投资者的投资行为的偏差由于投机性和主观性质对投资者已成为一个日益严重的问题。目前,有三种主要的方式为投资者评估股票市场:第一,技术分析,基于股票价格波动的研究模式;第二,基本面分析,基于股票的内在价值的研究;第三,定量分析,基于历史信息的建模的股票。数据分析技术的发展,定量分析已经成为主流的研究方法;从战略的角度选股,价值投资策略是一个完美的融合传统价值和活跃的增长投资策略,认为资产在某种程度上低估了在当前阶段但同时有更好的持续增长潜力,投资空间。因此,使用价值增长股票选择投资策略可以产生更稳定的投资回报;指标选股、股票选择实际上是股票的影响因素的研究,和股票价格取决于组成一个多维空间系统的因素。因此,选股实际上探索最优分类在多维空间的问题。
近年来的不断发展,许多学者应用机器学习方法来选股策略;风扇和Palaniswami是第一个支持向量机算法应用于选股(1];金等人也用向量机对股票价格预测,效果很好2];玉等人支持向量机用于预测股票市场通过结合遗传算法改进的选择属性模型的效率(3];膝et al .,本·李et al .,和Ladyzynski等人应用随机森林算法实验结果相对较好(分类预测的问题4- - - - - -6];和希顿等人研究了应用reasset定价和基于深度学习的金融风险控制(7]。
投资者的风险识别、夏普提出了CAPM模型反映意味着回归和方差风险之间的关系,这对风险识别奠定了基础8];陈等人证明了存在问题最多的投资组合包含偏态与峰态和2006年使用segment-by-segment线性逼近的方法和非线性变换在2007年将它转化为解决线性规划问题的解决方案(9- - - - - -11];唐,唐的波动模型和理论框架的高阶高阶时刻时刻CAPM基于高阶的定义时刻(12];彭研究风险资产收益分配的角度有时间可变性和使用投资组合完全分布信息来研究最优优化问题(13];王等人提出了一种多因素结构状态静态MV模型,证明了最优解值条件下,不允许卖空(14];Niguez等人研究了高阶风险态度和统计时刻的影响风险资产的优化配置在一个标准的投资组合选择模型,使用数据从美国来说明这些高阶效应的引入在最大化期望效用的相对重要性的决定15];悦等人提供了相应的高阶时刻模型的优化处理(16- - - - - -18]。
随机森林算法和多因素模型更好的应用于选股,而高阶矩模型也更全面的风险分类相比,二阶的时刻。本文风险识别系统是基于数据挖掘方法和使用成熟的因素选股系统,结合投资者的偏好,旨在为投资者提供有效的股票风险识别工具,建立一个更为理性的投资理念,以更好地促进整个股票市场的健康发展。
2。数据源、数据处理和假设
2.1。数据来源
本文中的数据从重置数据库。数据选择在股票选择阶段都是上市公司股票数据,时间日期2016年,1月1日至12月31日,2019年,数据类型是季度;数据在风险识别阶段选择每日股票收益选股后,时间日期2018年,1月1日至12月31日,2019年,每日数据类型。
2.2。处理的数据
由于大量的原始数据中数据缺失值的存在,本文根据完整性以及预处理数据信息的有效性。主处理分为以下过程:数据筛选。原始数据冗余和缺失值。因此,首先,零记录删除筛选。其次,本文认为股市正常经营状态,因此,ST股票类别删除:数据集成。数据被归类在股票选择阶段,本文选择两个分类:二分分类和五个一组分类。在第二分类,那些季度收益大于0被归类为1类和季度收益小于0被归类为0类;在第五分类,那些季度收益大于0.05分为2类,那些季度回报小于0.05但大于0.01被归类为1类,那些季度收益大于小于0.01但大于−0.01分为0类季度返回小于−0.01但大于−0.05分为−1,和季度收益小于−0.05是归类为−2。
2.3。研究假设
2.3.1。假设1:基于随机森林算法的多因素选股模型是有效的选股策略
随机森林算法广泛应用于选股策略,结合完善的多因素模型,这使得股票选择可靠的结果。本文还使用了随机森林算法和选股的九因素模型,引用大量的文献表明,该方法具有较高的精度和稳定性。因此,本文的第一个假设是,基于随机森林算法的多因素模型在本文也有效。
2.3.2。假设2:组成的一套风险方差,偏态和峰态是一个更有效的措施的风险
传统上,方差可以衡量风险的波动性,但均值和antivariance措施单独不充分的投资策略。当金融时间序列满足正态分布均值和方差措施是有效的;然而,在现实中,大多数金融时间序列不符合正态分布,但更偏态分布,所以偏斜度和峰度系数需要被添加到一起测量。本文提出的假设方差的风险组成,偏态和峰态是一个更有效的措施的风险。
2.3.3。假设3:投资者不同的风险偏好不同资产分配权重,但投资组合的资产与金融的一般法律一致
不同的投资者有不同的风险偏好情绪上的差异,信息收集,等等,最终导致不同的加权资产池的资源。在资产池的假设下是相同的,最优投资组合的回报将会由于不同的权重不同的投资偏好。然而,投资组合的资产仍然满足金融资产的类别和符合金融的基本规律。因此,提出假设资产的权重分配有差异,投资者不同的风险偏好,但投资组合资产符合财政的一般规律。
3所示。股票选择策略和测试基于随机森林算法
3.1。随机森林的股票选择的结果
随机森林算法本质上是一个树分类器集合,基分类器由一个没有修剪的决策树算法,最后基于多数投票来确定分类结果(19- - - - - -22]。随机森林算法是决策树模型形成基于装袋框架,其中包含所有树的集合(23的过程,形成每棵树如图1。
因子的选择这个模型主要是指研究结果曹et al。九因素的选股模式21王)和et al。的eight-factor选股模型(20.)并添加适当的因素的基础上,价值的增长策略24- - - - - -26),所以整个因素系统既包含价值和生长因子。因此,本文选择的因素是净销售利润率反映公司的盈利能力指数的销售收入;流动比率反映了公司的短期偿债能力;长期负债比率反映了公司的长期偿债能力;每股收益增长率反映了公司的股票收益的增长水平;总资产增长率反映公司的总资产的增长水平;和资产收益率反映了公司的盈利水平。这些指标分为价值和生长因子根据因素维度,而响应因素相应的季度收益。表1显示了每个影响因素的信息。
表2显示了随机森林算法在股票选择的信息。由于随机森林算法有更好的模型预测在选股21),前六股的投票分数选择构造的组合条件下满足预测分为2 5岁以下分类和1两个分类。
3.2。选股结果的测试
表3显示了上述股票选择的测试结果。每月的测试选择返回,每月的无风险回报,每年返回相应的股票在2020年。比较相应的季度收益股票和无风险利率,它是发现,3/4的股票代码000768的份额超过无风险利率;7/12的股票代码000897、600313和600416年的份额超过无风险利率;几乎一半的股票代码600728年和600737年比无风险利率更大份额,这表明随机挑选的股票,森林有更高的几率有投资价值;从相应的股票的年收益率,几乎都是大于年度无风险利率,和年返回代码000768,600313,和6000416年度无风险利率50多倍,这反映了随机森林算法和九因素模型可以更好地为投资者选择股票投资价值。这反映了随机森林算法和九因素模型可以更好地为投资者选择股票投资价值。
4所示。基于高阶矩风险分类模型
4.1。模型的准备
根据马科维茨的均值-方差模型,三阶的时刻(偏斜度)和四阶时刻(峰度)被添加到测量不对称风险和峰度的风险金融资产,组建投资组合模型与高阶矩风险包括偏态和峰态。假设市场没有交易费用,没有税收,没有卖空和资产市场可以无限期地分裂。初的时期,投资者在风险资产分配财富N风险资产的比例 和计算投资回报率N资产的最后时期通过设置返回向量 和预期收益率向量 ,这样组成的投资组合N形成风险资产和投资组合的投资回报 。
H是维variance-covariance矩阵的资产组合(速记协方差阵),年代是维skewness-covariance矩阵的资产组合(速记协方差阵)K是维kurtosis-covariance矩阵的资产组合(速记协方差阵),定义如下: 在这个公式
计算期望、方差、偏态和峰态的组合:
上述方程是期望,方差,偏态和峰态的组合,在预期的假设下,方差,偏斜度和峰度的风险资产的回报 克罗内克积的存在,(表示矩阵,H投资组合的协方差阵,年代协方差阵,K协方差是峰度数组。
以下4.4.1。计算高阶矩风险
数据2- - - - - -7显示返回的波动性系列分别为每个组合成员。它可以发现有一个大变化在返回每个股票的波动幅度,聚合和对应的时间点。每个股票的波动率的回归不仅戏剧化,但不同波动状态的变化也反映了每个股票的风险。
金融时间序列的分布状态具有重要影响金融时间序列的规律性变化。当金融时间序列的分布满足正态分布,金融时间序列的规律性变化可以更好地分析了一阶矩均值和方差(即二阶矩均值-方差模型)。然而,当金融时间序列不满足正态分布,描述和分析是远远不够的特点只有均值和方差的两个订单的时刻。特别是,在风险的角度测量,非正态的分布意味着不对称风险和峰度风险的存在。不对称风险由偏态系数,表示一个负值,和一个重要的“厚尾”;如果偏态系数是正的,它有一个重要的“厚尾。”所表达的峰度风险是峰度系数;如果峰度系数是正的,这意味着系列是陡峭的分布不是正态分布;如果峰度系数为负,这意味着系列的分布比正态分布更温和。根据金融市场的特点,有重大偏差和overpeak影响金融市场时间序列的回报。左边偏差意味着时间序列的概率下降的回报的概率远远大于回报的时间序列,和superpeak意味着出现极端值的概率也大大增加,和“峰值”的现象出现。 Therefore, to deal with the actual more general financial time series, the third-order moment skewness is needed to measure asymmetric risk and the fourth-order moment kurtosis is needed to measure kurtosis risk.
回报的方差、偏斜度和峰度计算根据方程(1)- (3),在表4为每个股票回报,描述性统计系列。样本的观察期间,只有股票的第三和第五列在表4有负面的意思是回报,而其余的都是正的。和偏态,只有第五纵队是负的,这意味着有可能下降的回报;其余的都是正这意味着有一个上升趋势在其他股票的回报。峰度统计表明比正态分布厚尾特征。JB检验的统计显示,所有股票回报系列服从非正态的分布。从整体的结果,很明显,仅通过二阶力矩模型组合分析太有限,不满足实际分配的需要。因此,一个更精确的和金融风险的定量分析可以通过整体的角度研究和分析高阶的时刻。
5。基于PGP的风险识别技术:高阶矩模型
5.1。构建M-V-S-K模型
用多目标优化技术结合的四个相互冲突的个人目标方程(3)。高阶矩风险的投资组合模型是由最大化的一阶力矩(期望)和三阶力矩(偏态),减少二阶力矩(方差)和四阶力矩(峰态)27]。 在哪里我=(1,- 1,…,1)′是NX1向量的元素都是1。
5.2。解决Mean-High-Order时刻模型的技术
这里,mean-high-order时刻模型的相应的解决方案,使用PGP赖昌星等人提出的技术,在第一次多目标问题转化为简略的问题,这是第一次单独考虑,然后个人目标结合(28,29日]。满意度 , 决心,满意程度代表特定单目标最优水平不考虑其他客观条件:
找到最小和最优组合权重 :
在前面的方程,代表最优期望之间的偏差和 , 代表最优方差之间的偏差和 , 代表最优偏态之间的偏差和偏态 ,和代表最优峰态之间的偏差和峰态 。 , , ,和的意思是代表投资者偏好的程度,方差,偏态和峰态,分别。最优权值 由方程(7),形成最优组合投资的基础选择高阶矩风险条件下。
5.3。模型计算结果
表的两列5表明,mean-high-order时刻风险模型,衡量偏好设置将包括四个指标参数( )代表对预期收益的偏好,方差风险,偏态和峰态,分别。在这里,我们选择的值代表的偏好程度:0意味着没有偏爱一些指标,1意味着对一些指标的偏好,和2意味着一种特殊的偏爱一些指标。在这篇文章中,我们编码不同的偏好组合为每个不同的特点。当( )需要的价值(1,- 1,0,0),这意味着更多的考虑预期收益和方差风险;当( )需要的值(1,0,- 1),这意味着更多的考虑预期回报,方差和峰度风险。当( )是(1,1,1,1),预期收益率,方差,和峰度被认为是;当( )是(1,1,1,2),预期收益率,方差,和峰度被认为和峰度被认为是风险;当( )是(1,1,1,2),预期收益率,方差,和峰度被认为是;当( )是(1、1、2、1),这意味着预期收益率,方差,和考虑峰度和偏态风险考虑;当( )是(1、1、2、2),这意味着预期回报,方差,偏斜度和峰度风险考虑,,最后,大盘组合也计算进行比较分析。的重量每个资产的贡献程度反映了投资组合资产的一部分,和每个资产有助于投资组合包括风险和回报。不同风险偏好下的资产配置计算根据方程(4)- (10),第三至第八列在表5显示最优权重分配组合在不同的投资偏好。这表明资产对投资组合回报率和风险。
相应的结果计算投资组合的回报和风险也根据方程(4)- (10),在表6、列三到六最优组意味着回报和风险采取不同的投资偏好的资产配置。结果符合金融市场的基本原则:风险越高,回报越高。摘要风险是衡量风险组的组合方差风险,偏态风险,和峰度的风险。结果组合的偏好(C1-C7组合)也表明,更高的风险设置参数的绝对值,回报越高。mean-higher-order时刻风险模型,最大预期收益是0.0231 C1组合,而只考虑方差风险和需要财富的分配根据其相应的重量,和高阶矩风险很高,尽管多样化,特别是峰度风险,达到24.9089。最大的预期收益取决于不同类型的风险。的最大预期收益0.0145只有峰度被认为的风险降低,但是0.0252的最大预期收益减少当只偏态被认为是风险;从C1和C4组合的最大预期收益0.0156减少时,投资者关注的是高阶矩风险;从C4、C5、C6的投资组合,更多地关注一个特定的风险会使最大的回报不同程度的增加,但相比C7组合进行比较,发现C7的最大预期收益投资组合有一个很大的提高。相对于其他投资组合,这个组合风险但最低回报最高。 The above results found that investors must consider the risk factor when obtaining better returns; when investors switch from focusing only on returns to considering risk, the maximum expected return obtained will vary, but the maximum expected return obtained when considering risk more is constantly increasing.
6。结论及相关建议
6.1。结论
在本文中,我们首先将随机森林算法与九因素选股模型基于价值增长的投资策略,股票有更多的选票统计作为选股的最终结果,和选股结果测试发现,该方法同样有效使用。
风险测量而言,一套风险包括方差、偏斜度和峰度衡量风险的选择。发现风险方差,偏态,和峰态是一个更合理的衡量金融时间序列的特点比传统的方差衡量,和风险是一个更有效的措施的风险特征。
在风险识别方面,本文发现,不同投资者的偏好将导致相应的投资组合权重的变化,这将最终导致变化的最优回报和风险的投资组合。高阶矩风险模型对测量有很大的影响,还可以分散风险的高阶矩风险。与方差风险衡量风险,风险组成的三阶矩偏态风险和四阶矩峰度风险是更适合分析广义金融时间序列的风险。上述实证结果还表明,更大的风险的系数的绝对值,整体风险越高获得的风险越大;高阶矩模型将风险,从而实现更准确的分散风险。
6.2。相关政策建议
6.2.1。改善市场结构,防止金融风险
中国股市起步较晚和发展在短期内和在许多方面仍有缺陷30.- - - - - -31日]。科技创新委员会,新的第三董事会选择层,宝石登记制度改革,改革和SSE指数在最近推出无疑是重要举措改善市场结构。监管机构和政策制定者应继续推进市场结构改革,努力提高交易机制,鼓励机构投资者进入市场,大力发展金融衍生工具,在此基础上,规范市场交易实践。与此同时,有关部门也应该减少行政干预市场,所以市场起落根据自己的价值开发,创建一个良好的市场环境。目前,中国实现了上下极限和T + 1交易系统,但也有一些问题。例如,做空机制并不完美,有很多中小投资者在股票市场上,一些机构投资者。养老基金、企业年金、公共福利基金和其他基金市场在近几年才慢慢放松限制。这种情况下可能会导致投资者盲目风操作后,追逐,股票的内在价值无法体现,然后产生羊群效应,加剧了股票市场的风险。目前股指期货等金融衍生品和融资和融资工具,用于稳定股票市场,防止风险,有更少的类型和更高的阈值和由普通投资者很少访问,还有进一步提高的空间金融衍生品。
6.2.2。完善信息披露制度,加强对上市公司的监督
股票市场遭受过早和不准确的信息披露的问题,和假舆论很容易误导投资者。中小投资者无法获得正确的信息,而一些机构投资者提前的消息。在这种情况下的不对称和不完全信息,中小投资者容易从众心理和非理性行为,如追逐起来,杀下来,羊群效应。因此,监管机构应该努力完善信息披露机制,确保信息披露的及时性和准确性,并提出明确的要求信息披露的时间和方式来增强股市信息的透明度,提高市场效率。与此同时,上市公司的监督管理应加强,应该增加惩罚,应该改进和惩罚机制,以防止不规则的披露,虚假宣传,恶意投机的股票价格,和内幕交易,有效地保护中小投资者的利益。
6.2.3。加强投资者教育和提高投资者素质
绝大多数的参与者在中国股票市场的中小投资者和中小投资者自身往往缺乏相应的理论知识和容易赌徒的心态和频繁操作时投资,这将加强市场的羊群效应,不利于市场的健康稳定发展。因此,中小投资者刚刚进入市场应该进行一定的投资教育,使他们掌握必要的基本知识投资。同时,通过电视,网络,和其他媒体工具来鼓励学习的多数投资者相关的投资知识,建立正确的投资理念,引导投资者理性投资,提高投资者的整体质量。至于投资者自己,他们还应该继续学习专业知识,建立价值投资的理念,坚持理性投资,保持清醒的头脑,而不是盲目地追随风的投资。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
信息披露
刘的李俊和沈Wei-Kang co-first作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
作者的贡献
李俊刘和沈Wei-Kang同样本文,
确认
本研究支持下的国家社会科学基金重点项目“政策工具选择和研究方法论的创新稳定增长、调整结构”(15 azd006)。