投资者行为建模使用机器学习:均值回归和动量交易策略

文摘

我们模型的投资者行为与财务数据机器学习技术的培训,包括超过13000名投资者的大型银行在2016年到2018年在巴西。我们采取高频数据在每一个这些投资者的买卖操作每天让我们完全跟踪这些投资决策。然后我们分析这些投资是否与IBOVESPA指数变化。我们发现投资者决定投资策略使用最近价格变化。有某种程度的异质性在投资决策。总的来说,我们发现的证据向均数回归投资策略。我们还发现证据表明女性投资者少和更高的学位有明显向均数回归策略行为相对男性较低的投资者和那些学术学位。最后,本文提供了一个通用的方法论的方法来减轻潜在的偏见引起的特别的设计决定丢弃或引入变量的实证计量经济学。为此,我们使用特征选择技术从机器学习识别相关变量客观、简洁的方式。

1。介绍

本文研究投资者的行为的决定因素在股票市场投资者使用事务级数据买卖操作。我们的数据包含详细信息投资者的身份和她的社会经济特征,投资价值,变化由于买卖操作。数据是保密的,来自一个大型和代表巴西银行。丰富的数据集,我们可以研究投资者如何应对变化在巴西股票市场由于市场指数的变化,称为IBOVESPA。我们使用IBOVESPA指数的历史变化与不同的视野(窗口长度)来测试哪一个更好的预测,投资者的行为。

来减轻潜在的问题由于分析师和主观的决定也防止丢弃一个潜在相关见证选择使用一个客观的方法来识别那些视野最好的解释投资者的买卖操作。为此,我们使用一个健壮的特征选择技术借鉴机器学习文献称为弹性网。弹性网络的巨大优势是简单的损失函数(就像一个回归),也防止过度拟合的鲁棒性优化的凸组合使用套索和脊正则化方法。可能出现过度拟合的算法可以学习感兴趣的变量的动态,很适合在其他数据集训练数据集但可预测性较差。评估潜在的过度拟合对研究人员是至关重要的,因为这可能会破坏模型。我们明白,我们的方法寻求避免,在某种程度上,过度拟合的危险。脊和套索算法惩罚对于大型模型中的权重(1]。通过这种方式,他们倾向于减少模型的复杂性,从而能够减少担忧过度拟合。

投资者倾向于贸易使用不同的策略,如“买入并持有”(被动策略)或一个活跃的策略,他们寻求超越基准,例如,一个市场指数。如果投资者交易使用积极的策略,他们会使用两个不同的和众所周知的方法,向均数回归或动量策略。参见[2- - - - - -4];在这两种方法具有开创性的贡献。

在第一种情况下,他们对市场波动的反应通过押注市场将回归均值。因此,他们认为这种趋势将会改变,因此将大幅上涨后的变化和购买后下降的变化。动量策略,他们将押注这一趋势将持续下去。因此,他们将会增加投资在股票市场增加市场指数。

当我们明白他们可能其他的交易策略,我们集中在均值回归和动量策略,因为它们建立在文学和许多其他策略作为构建块。有大量的文献,讨论了在不同的上下文中使用(5- - - - - -11]。此外,他们很容易测试的实证规范。因此,我们试图理解如果投资者决定持有股票或卖出后正面/负面的冲击。

投资者将如何表现平均的问题是经验。有大量的文献,讨论了股票市场的可预测性(12- - - - - -16]。此外,还有另一个链关注认知偏差和过度交易股票和其他金融资产(17- - - - - -23]。我们的买卖操作的数据包含了事务级操作允许我们每个投资者的决策随着时间,因此测试他们是否使用后向均数回归或动量策略股票市场指数的变化。

必须注意,如果交易者使用这些策略,他们与他们的行动可能引发更高的市场波动。理论上,市场变化应该发生在新信息到达时,这是经济相关估计未来利润和股息分配。然而,价格大幅变化随着时间的推移和波动高于我们预期在一个理性的市场。因此,我们认为,交易员的决定贸易过度将导致更高的市场波动。投资者的决策,遵循不同的交易策略可能产生复杂的模式在价格和波动。他们可能诱发长程相关性,短期可预测性,随着时间的推移价格混沌动力学。有大量的文献,试图解释复杂macrobehavior使用当地规则构成的系统。,基于代理模型已被广泛用来解释价格和使用人工市场波动24]。(使用基于主体造型,LeBaron提示我们25]探索结构(宏观)特性,出现在一个参与者的市场适应和发展随着时间的推移,而Bertella et al。26]研究投资者的行为偏差的影响价格。了解投资者的行为和执行交易策略的第一步是更好地理解金融市场固有的复杂性。我们的论文也促成了这件事。

找出最相关的预测因子,解释投资者的行为,我们离开使用传统面板数据计量经济学技术和拟合优度措施,转而采用更健壮的方法借用了机器学习文学。对比常用的计量经济学技术总结关系使用线性回归分析,机器学习提供了一套工具,可以捕捉数据之间的非线性关系。根据瓦里安(27之间的鸿沟,机器学习和计量经济学是一种自然趋势主要是因为存在的大量的数据和complexity-potentially上升高度nonlinear-between数据关系。我们的工作有助于这努力通过提供一个真实的案例研究金融数据集使用机器学习技术。

相对计量经济学,机器学习技术有很强的模型选择技术,主要是通过使用交叉验证技术,这是一种反复的重采样随机数据集的子集。最初,交叉验证过程将数据集划分为两个独立和完整的子集:训练集和测试集,所有模型的参数调整只使用模型被选中后的训练集。(调)使用训练数据,我们对测试集运行它来检查其准确性或其他性能指标。基本原理是,通过与一些数据训练模型,测试对另一个子集,我们估计模型的样本外预测能力,而不是简单地学习数据。因此,测试集是一个模拟的真实(生产)数据和模型的性能在这个数据集将是一个粗略的估计模型的实际表现在现实看不见的数据。

由于我们的数据集包括超过350000个观测代表个人投资者的动作对他们的投资在2016年到2018年,我们应用正则化技术来防止在特征选择过程模型过度拟合训练数据。为此,我们应用一个弹性网过程(1控制模型的复杂性。弹性网络的泛化脊(规范)和套索( - - - - - -规范),因此更健壮。它使用一个最佳的两种类型的正规化的凸组合。套索倾向于收缩的大多数nonrelevant解释变量为零而只保留最重要的解释变量为非零。相比之下,岭会输出非零系数几乎所有解释变量。利用正则化方案,我们可以享受两个方案的积极的特点。

正则化在大型数据集是一个很重要的问题,因为它可以防止高方差方法和低偏压过度拟合(28,29日]。这是著名的偏见方差权衡在机器学习文献[30.]。在低偏压可以防止过度拟合,它可以生成underfitting数据集。相比之下,高方差的方法可以学习噪音数据和放手的真正关系数据集。低偏见倾向于低复杂性为代价的一个潜在的过度拟合模型。高方差会顺利成功捕捉数据之间的非线性关系的一个潜在的过度拟合。低偏差算法的例子有线性回归或与一层神经网络。的例子高方差算法是决策树和多层神经网络。重要的是第一组正则化过程背后的基本原理从金融的角度数据集的买卖操作。一方面,一缕在经济学文献中主张代理的决策是完全理性的,决定是由考虑所有信息从市场(完整的信息)31日]。另一方面,文学的另一个身体认为,投资者不可能考虑每一个信息从市场时他们的决定,因为(i)代理不完整的信息,(2)即使代理有完整的信息,她将无法执行所有必需的计算。通过这种方式,他们自然会关注最相关的变量。在这种情况下,我们说投资者有限理性,词首先由西蒙(32]。我们可以框架这两个理论在本文中使用的两种类型的正则化框架。投资者的理性,即。,that consider all potential variables, would better be modeled by a Ridge regularization procedure because it does not tend to place zero importance on any variables. In contrast, investors with bounded rationality would be better modeled by a Lasso regularization because it would choose a few (and more relevant) variables and set the remainder as zero. By using a weighted convex combination of both Ridge and Lasso regularization procedures, we are effectively considering both cases in our estimation process.

而巴西没有发达的股票市场发达经济体,这是一个重要的新兴国家,由于其大小和相对重要性同行,值得研究。此外,资本市场已经增加在过去年(根据巴西商品期货交易所,这是巴西证券交易所、投资者的数量从2017年到2018年增加了近20%),加强我们的工作的相关性。我们的主要结果表明,投资者使用向均数回归交易策略。因此,他们减少他们的投资在IBOVESPA积极变化后,增加后消极变化。

我们也测试是否投资者的生物和社会经济特征解释他们的交易行为。就教育而言,教育投资者,在理论上,应该更理性的行为方式和贸易较少没有新信息到达时不断在市场中,至少那些关于未来利润潜力不相关。因此,我们希望这些投资者对价格波动较小的反应。我们也测试的投资决策中出现的性别差异。Neyse et al。33)和Lundeberg et al。34男性和女性)部分属性投资差异由于过分自信的系统变化。过度自信与高水平的睾丸激素有关,男性更明显。过度自信可能促使投资者承担更高的风险,导致他们在短期内寻找更高的回报。通过这种方式,我们希望变化不太敏感的女性行为的过去IBOVESPA变化将价值更多的基本面和寻找长期收益率。实证分析证实了这些观点。

数篇论文研究投资者的行为。Onishchenko和Ulku35给外国投资者的变化,变得更加成熟。他们发现,外国投资者在韩国不追逐回报通常与前面的文献报道。他们的研究结果表明随着时间的推移从正到负的反馈交易。阿伯(36)发现,投资者购买权证有特定的特性,如年轻的年龄和受教育程度较低,或投资者提供赌博的态度(自信)(参见[37- - - - - -41])。我们所知,我们的论文是第一个使用机器学习技术推出的特征,最重要的是什么解释了投资者行为在分类级别。我们研究投资者的反应市场变化和测试他们是否采用动量或向均数回归策略。

2。数据

我们收集和匹配几个独特的私有和公共数据集。样本包括公共信息从IBOVESPA指数investor-specific信息和专有的客户数据库从一个大的巴西银行investor-specific匹配每日交易买卖操作IBOVESPA证券交易所市场。最后两个数据集是机密。

第一个来源是IBOVESPA巴西证券交易所指数( )。这被认为是巴西的股市基准指数。我们有747天在我们的样例生成在2016年到2018年。

第二个来源是投资者的注册信息,如职业、教育程度,和股票。信息从数据库的代理和客户关系管理(CRM)解决方案。我们的数据集是全面的,包括13634名投资者。

过去的来源提供了每个事务由每个投资者,1月2日之间,在每一天,2016年12月31日,2018年,以及日常控股。我们观察他们的日常交易活动投资决策。这个丰富的数据集使我们能够跟踪投资者的买卖业务随着时间的推移,因此允许我们测试他们是否使用向均数回归交易策略或动量交易策略应对IBOVESPA指数变化。这是两种常见的交易策略,讨论了文献[42,43]。其他策略存在,这可能是更复杂的,困难模式,他们不是我们的分析的对象。这样的一个例子是理性交易者使用基本面分析和预测上市公司未来的利润估计潜在的分红,这些股票的价值。样本有1099985交易决策(投资体积的变化)。我们也有358176客户持有。

表1报告汇总统计的数据,投资者对其投资的日常决策。我们可以看到,有一个大范围的日常投资变化,从几乎。平均而言,我们看到一个积极的投资变化(9.267%)。我们也显示IBOVESPA指数水平及其变化在过去1,2,3,5,30天。我们将使用这些IBOVESPA指数变化来检查他们如何与投资变化的变量。一个基本假设是,投资者看IBOVESPA指数决定他们的交易决策。


统计	N	的意思是	圣开发。	最小值	Pctl (25)	中位数	Pctl (75)	马克斯

投资变化(%)	356172年	9.267	68.389	−100.000	−6.680	0.510	8.770	499.879
天IBOVESPA变异	356172年	0.145	1.528	−4.870	−0.740	0.110	1.010	6.600
为期两天的IBOVESPA变异	355796年	0.323	2.160	−6.550	−1.140	0.290	1.600	9.130
为期3天的IBOVESPA变异	355419年	0.472	2.598	−7.950	−1.140	0.540	2.020	10.880
5天IBOVESPA变异	354588年	0.781	3.274	−8.250	−1.230	0.770	2.750	16.870
30天IBOVESPA变异	343592年	4.863	8.282	−19.060	−0.740	5.240	10.500	28.770
IBOVESPA指数	356176年	0.145	1.528	−4.870	−0.740	0.110	1.010	6.600

数据1(一)和1 (b)描绘工作日的热图显示平均每日2016分解由投资者的投资变化性别和教育程度(见[44])。首先,我们观察到丰富的数据集有一个大的异质性的投资者的投资决策的每天。第二,尽管有相似投资者决定投资为男性和女性和那些高,受教育程度较低,我们观察到一些差异在某些场合,表明这是两个重要的功能,我们应该在我们的实证分析研究。除了这种主观分析,我们的特征选择过程将使用客观、定量方法证实了这样的愿景。例如,我们观察到,平均而言,投资者大多购买的开始或者结束一周,他们出售在星期三。有证据表明行为变化的投资者在股票市场在工作日。例如,佩纳(45]研究改革在西班牙证券交易所市场的影响。他们发现,在改革之前,有积极的异常星期一超额回报,消失后,改革的效果。

(一)

(b)

图2显示了如何跨越巴西国家投资。正如我们所看到的,也有一些异质性在投资者居住在不同的州,这表明我们可能不得不控制国家起源的投资者。例如,有一些大型投资巴西北部地区的变化。

图3描述了投资的分布变化分解不同的巴西州投资者的性别(男性或女性)。每个分布条件状态和性别整合。有趣的是,大部分的分布有三个持续出现的情态动词不仅在不同的国家,不同性别。情态动词是集中在零投资(没有变化)和30%的投资变化的痕迹。同时,在大多数情况下,男性和女性的概要文件的投资变化基本上一致,有一些明显的例外。例如,在欠发达地区的北部和Northeast-the分布投资决策的男性和女性在某个日期明显不同。总的来说,男性更倾向于改变他们的投资头寸相对女性。然而,这样的特性是在欠发达地区更加明显。

图4巴西显示相同的投资分布变化在不同的国家但现在分解投资者的学历教育。我们认为投资者提供高等教育和高中或以下。同样,three-modal分布发现当我们抛锚了投资者的性别也出现当我们看他们的教育水平。在更发达的地区东南部和South-investors的决定是大致相同的不管他们的学术教育水平。这种相似性强化了散度的学位和金融知识的水平,特别是在交易。相比之下,我们观察一个大北地区异质性;教育程度较低的投资者倾向于改变他们的投资头寸超过投资者的高等教育。

3所示。使用机器学习的特征选择

在本节中,我们分析的预测能力属性解释投资者应对巴西股市指数的变化。我们使用不同的时间聚合IBOVESPA指数的变化,这是财务指标,仔细地打量了投资者在决定投资策略在巴西。我们使用2 -,3 -,5天IBOVESPA指数变化,以及3 - 5天IBOVESPA平均指数。这种分析揭示了投资者如何看待IBOVESPA变化在决定他们在股票市场交易策略。这是一个实证问题测试投资者是否非常短期的变化,如2 -或3天,或一个更长期的窗口,如5天的变化。

要测试的预测能力,我们使用数据驱动的机器学习方法来确定最相关的属性(46- - - - - -48]。因为我们有数据从13247年投资者从1月1日,2016年12月31日,2018年,在日常生活中,我们需要先清洗任何宏观经济因素会影响所有投资者以同样的方式在这个时间框架。这成为更重要的是因为,巴西正面临经济衰退从2014年第四季度到2016年第四季度,因此样本包含的一部分。我们执行这个预处理使均匀分布的数据,因为最好的机器学习方法进行横截面数据(30.,49]。

删除时间因素均匀投资者面临的在一段时间内,我们使用一个静态面板数据规范与时间固定效应清洗宏观经济组件如下: 在这表示体积变化在股票市场投资者的投资组合我在时间t,代表时间固定效果,是剩余的。在本规范中,我们解释剩余作为投资者的任何变化我的投资组合体积t这不是由于任何时间共同因素,如底层的宏观经济情况。通过使用而不是 ,我们可以有效地治疗作为一大截单元的数据。因此,我们可以充分利用机器学习方法在他们最好的设置中,我们进一步讨论。

我们选择一个弹性净回归估计模型中的每个属性的重要性。这种回归最优结合 - - - - - -规范(脊)和 - - - - - -规范(套索)正规化。因此,我们能够阻止任何在我们的经验模型过度拟合。此外,我们使用的凸组合 - - - - - -规范,倾向于收缩的大多数nonrelevant解释变量为零,保持最重要的非零,和 - - - - - -规范,往往输出非零和近似系数对所有类似的解释。利用正则化方案,我们可以享受两个方案的积极的特点。

选择最重要的属性,我们使用剩余 ,投资者的投资体积变化我在时间t不是因为共同的时间因素,作为因变量和不同IBOVESPA指数时间聚合和投资者的生物和教育特征作为独立变量如下: 在这向量由过去IBOVESPA变化与不同的窗口(1 - 2——3 - 5,10,20 - 30天IBOVESPA变化)和投资者的特征(居住状态、性别和教育水平)。这个词是标准的错误。根据弹性网过程,我们选择最小化以下损失函数 : 在这每天指数倍(从2016年1月1日至12月31日,2018年)我指数的投资者。这个词索引的jth回归量的投资者我在时间t。运营商和表明l₁——l₂规范了向量输入。

第一个表达式(3)表示传统数据拟合误差(残差),而第二个是正则化项。参数λ调节的重要性的传统、正规化。这个词α控制凸的混合物和正则化。正规化是通过惩罚大β系数。因此,缩小估计系数和整体健康数据分布函数变得平滑。

在弹性净回归,一个值在0和1之间。我们优化调整一个和λ使用嵌套的交叉验证过程折叠和100独立重复统计的鲁棒性29日,49]。在这个过程中,我们使用折叠培训和剩下的褶皱进行测试。这个过程是循环的k倍,这样每个折叠出现且仅用于测试一次。这种方法使我们能够调整模型的正则化参数,防止过度拟合。我们优化一个在网格搜索空间和λ在。作为标准的做法,我们所有解释变量通过应用进行预处理Z评分标准对所有数据点使用预定的值只从训练数据中提取(防止数据泄漏测试集)。

图5显示了不同时间的重要性我们的结果聚合IBOVESPA指数在解释投资者的行为。最优正则化参数和。我们标准化系数而言最重要的属性。属性“天IBOVESPA变异”是最有力的预测解释投资者的行为,其次是“为期两天的IBOVESPA变异”和“5天IBOVESPA变异。“这说明投资者更倾向于基地投资决策使用短期股票市场指数的变化。即使长时间的IBOVESPA指数变化是重要的,10 - 20和30天的变化比短期变化不太重要。此外,我们发现投资者的性别和教育水平也很重要的特征解释买卖操作在巴西证券交易所市场从2016年到2018年。我们也观察到一些地区变量是重要的,如圣卡塔琳娜州,里约热内卢联邦直辖区,米纳斯吉拉斯,巴拉那河和圣保罗。这可能表明一个不同质量的投资者的成分在不同的州。

特征选择过程给了我们一个客观的方式识别潜在的重要的变量应该占在我们的计量经济学运动。等工具结合分析师的专业评估其有效性的关系的分析测量是一个重要的一步生产计量经济学方法以更可靠的方式。我们的结果指出,我们应该控制对投资者的特征(性别和教育水平),也过去IBOVESPA变化。投资者的状态并不重要,因为我们将使用一个固定效应面板数据分析投资者的水平。因此,投资者与投资者的状态是共线的固定效应和在估计会下降。

4所示。计量经济学分析选择变量

在前面的小节中,我们已经发现,短期IBOVESPA指数的变化更好的预测在巴西证券交易所买卖业务市场的长期变化。特征选择过程是一个透明的方式以客观方式选择相关变量。然而,这些方法没有提供答案是否每个变量的贡献积极的还是消极的目标变量,即。投资者的投资决策(买卖)。在本节中,我们看到这样的方向,估计最相关的变量的大小由我们的特征选择技术发现的。

节4.1巴西,我们首先测试是否投资决策的投资者更好地适合mean-reversal或动量策略。为此,我们回归总投资的变化投资者对过去IBOVESPA指数的变化。鲁棒性,我们用1 - 2 -,3 -,5 -,30天IBOVESPA指数的变化。我们的回归是在投资者层面,这使我们能够控制未被注意的定常特征每个巴西投资者,否则将是不切实际的,以防我们聚合数据像大多数现有的研究。在那里,我们发现mean-reversal技术更好的解释了在巴西股市买卖业务从2016年到2018年期间。我们的结果证实了我们的特征选择技术的发现:短期买卖操作变化解释比长期变化。

在部分4.2和4.3,我们研究决定因素,缓解或加剧的mean-reversal行为巴西投资者通过观察性别和教育水平的作用,分别的投资者。这些练习与现有文献对社会经济的影响和生物特性在塑造了经济主体的行为。

4.1。投资者使用均值回归或动量策略的买卖操作吗?

回答投资者如何应对IBOVESPA指数的变化,我们运行以下计量规范: 在这是投资者的投资组合体积变化我在时间t。有一个积极的变化( )当投资者我购买更多的股票t和一个负变化( )当她卖。另外,当投资者持有投资随着时间的推移,她( )。的因素是标准的误差项。

我们的兴趣是系数β,抓住投资者的反应变化的IBOVESPA指数表示。我们测试投资者是否使用mean-reversal或动量策略如下(我们丢弃的假设投资者的买卖决策IBOVESPA指数的变化无关,因为我们的特征选择技术确认过去IBOVESPA指数的变化是最相关的预测investor-specific投资变化):(我)如果投资者使用mean-reversal策略,然后增加IBOVESPA index-i.e。——其次是销售业务,投资者的投资数量,平均减少( )。因此,mean-reversal策略是由消极的翻译β系数( )。(2)如果投资者使用动量策略,然后增加IBOVESPA index-i.e。——其次是购买操作,投资者的投资数量,平均增加( )。因此,动量策略是由积极的翻译β系数( )。

因为坚持过去IBOVESPA指数变化的建筑,我们测试投资者的投资体积响应1 - 2 -,3 -,5 -,和30天IBOVESPA指数的变化独立的方式。这个经验设计策略阻止标准错误过于膨胀由于高这些解释变量的两两相关。

这个词代表投资者固定效应和吸收任何nonobserved定常样本中的每个投资者的特征。这可以缓和潜在的省略变量可能倾向我们的结果,如投资者的技巧,这是很难衡量。我们应该注意到任何省略变量的时间变异不会吸收投资者固定效果。因此,当这样的固定效应的引入可以减轻遗漏变量偏差,它也不能完全避免。例如,如果投资者的能力显著增加随着时间的推移,我们会有遗漏变量偏差。由于我们小组跨越一个相对较小的时期——2016年到2018年——这是公平的假设投资者的技能仍大致不变。这个词在year-month级别意味着会期时间影响,吸收任何均匀时变效应,如巴西的经济衰退或month-wise汇率波动。因为我们的面板频率是每天,我们不能添加一个时间固定效应在同一频率,因为我们的兴趣——系数β——得到吸收时间固定效应,因为它仅因时间而异。为了防止这样的问题,我们使用粗粒度的时间固定效应,即法律。

我们的数据集包含13247名投资者在一个代表大银行在610年巴西和时间点。由于这种配置,我们遵循彼得森(50)和双星星群标准误差在投资者和时间的水平。这是一个健壮的策略,是重要的面板与大量的个人和时间点,因为它减轻了异方差和序列相关。最后,我们的数据百分比。

表2报告我们的回归估计(4)。我们观察到IBOVESPA指数associates的增加1%,平均减少9.693%的投资者投资组合卷当我们看天IBOVESPA变异。结果仍有统计上显著的系数在不同长度的过去IBOVESPA变化(2 -,3 -和5天的变化),除了30天的变化,统计学意义就消失了。此外,系数的大小减少我们使用更少最近IBOVESPA指数的变化,这是一致的观点,即在我们的样例的投资者更关心短期,而长期IBOVESPA指数的变化。消极和显著迹象证实了假设投资者使用向均数回归的交易策略,它们倾向于大幅上涨后卖出IBOVESPA指数的变化,并倾向于购买后下降的变化。


因变量	投资者的投资组合体积变化( )
因变量	(1)	(2)	(3)	(4)	(5)

回归量与
天变化	−9.693
	(1.580)
为期两天的变化		−4.656
		(1.160)
为期3天的变化			−2.400
			(0.964)
5天的变化				−2.265
				(0.852)
30天的变化					0.058
					(0.680)

固定的影响
投资者	是的	是的	是的	是的	是的
法律	是的	是的	是的	是的	是的

观察	356172年	355796年	355419年	354588年	343592年
R²	0.037	0.036	0.036	0.035	0.033
聚类错误	投资者	投资者	投资者	投资者	投资者
	时间	时间	时间	时间	时间

表2

从回归输出(4)。我们要求投资者如何应对IBOVESPA指数的变化。我们只使用变化而不是过去的平均水平,因为前者更大的预测能力据我们的特征选择过程。因变量的变化组合投资的投资者我在时间t在巴西股票市场从2016年初到2018年底。解释变量是1 -(1),2 -(2),3 -(3),5 -(4),30天(5)IBOVESPA指数变化。面板是在每日频率的基础上。彼得森(后50),我们双星星群标准误差在投资者和时间的水平。重要性级别: , ,和。

4.2。性别影响投资者响应IBOVESPA指数变化吗?

我们有经验证据表明,投资者的策略,平均而言,更适合向均数回归行为在巴西股市。积极的变化后,他们倾向于出售IBOVESPA指数和购买后的负面变化。在本节中,我们问IBOVESPA指数投资者的敏感性取决于他们的生物学特性,在特殊的他们的性别。生物因素,特别是gender-have被广泛探讨的投资决策。著名的生物因素有关的工作,包括性别,希拉和Loibl51];Lundeberg et al。34];Neyse et al。33];和Sunden瑟特(52]。本文提供了进一步的证据,这种性别差异的存在在投资决策使用微数据investor-matched买卖操作。

在这方面的研究,Neyse et al。33)和Lundeberg et al。34雄性和雌性]部分属性行为差异由于过分自信的系统变化。过度自信与高水平的睾丸激素有关,男性更明显。过度自信可能促使投资者承担更高的风险,导致他们在短期内寻找更高的回报。通过这种方式,我们可以期待女性的变化不太敏感,过去IBOVESPA变化的价值更多的基本面和寻找长期收益率。因此,短期IBOVESPA指数的变化可以解释男性的买卖业务相对较小。经验回答这个问题,我们构建计量经济学规范如下: 在这是一个虚拟变量,当投资者的价值我是女性和0。我们不添加投资者独自的性别(5),因为它会吸收投资者固定效果。我们的兴趣是系数 ,捕获任何行为偏差的女性IBOVESPA指数的变化对整个样本的平均值(男性和女性)。如果 ,然后mean-reversal策略是不太明显的女性,显示一个更强调行为向mean-reversal策略。在的情况下 ,然后男女回应,平均而言,相当于IBOVESPA指数的变化。讨论后,过度自信对短期决策及其影响在男性和女性,我们的假设是, 。

表3报告我们的回归估计(5)。我们之前的结果有关的mean-reversal战略投资者在巴西股市保持不变。我们观察到的变化之间的相互作用IBOVESPA指数和虚拟女性积极和统计学意义。这经验发现证实了观点,女性明显mean-reversal战略投资者有一个低于男性,因为他们看长期的回报,而不太关注短期IBOVESPA指数的变化,这可能会出现由于嘈杂的信息。例如,看规范(1),1%的积极变化IBOVESPA指数associates的减少投资者投资数量的女性。相比之下,整个样本(男性和女性)减小了投资组合的体积,平均IBOVESPA指数1%的积极变化。有趣的是,尽管统计无关紧要,30天IBOVESPA指数的变化与投资卷雌性呈正相关,表明一个动量策略的特征。这也暗示的证据表明,女性倾向于看时间视野时投资决策。


因变量	投资者的投资组合体积变化( )
因变量	(1)	(2)	(3)	(4)	(5)

回归量与
天变化	−10.345
	(1.754)
为期两天的变化		−5.019
		(1.275)
为期3天的变化			−2.650
			(1.055)
5天的变化				−2.315
				(0.886)
30天的变化					−0.001
					(0.693)

的相互作用与性别
天变化女	6.543
	(2.392)
为期两天的变化女		3.708
		(1.264)
为期3天的变化女			2.585
			(1.212)
5天的变化女				0.517
				(1.538)
30天的变化女					0.572
					(0.831)

固定的影响
投资者	是的	是的	是的	是的	是的
法律	是的	是的	是的	是的	是的

观察	356172年	355796年	355419年	354588年	343592年
R²	0.039	0.037	0.036	0.035	0.034
聚类错误	投资者	投资者	投资者	投资者	投资者
	时间	时间	时间	时间	时间

表3

从回归输出(5)。我们问女性投资者是否有不同的敏感性对其投资组合IBOVESPA指数变化。我们只使用变化而不是过去的平均水平,因为前者更大的预测能力据我们的特征选择过程。因变量的变化组合投资的投资者我在时间t在巴西股票市场从2016年初到2018年底。解释变量是1 -(1),2 -(2),3 -(3),5 -(4),和30天(5)IBOVESPA指数变化,以及他们与投资者的性别的交互。面板是在每日频率的基础上。彼得森(后50),我们双星星群标准误差在投资者和时间的水平。重要性级别: , , 。

4.3。正规教育影响投资者响应IBOVESPA指数变化?

在本节中,我们看看正规教育(学位或教育水平)会影响投资者的敏感性IBOVESPA指数变化。有几个作品在行为金融学文献,试图建立一个教育水平之间的联系和投资者对股市的认识及其决策因素。我们突出Grinblatt等的研究。53]和新郎Jappelli [54]。理论上,受过教育的投资者应该更理性的行为方式和贸易的频率更低时没有新的相关信息到达市场,但噪音。因此,我们希望这些投资者对价格波动较小,因为他们能够更好的从噪声识别信息。检验这一行为,我们运行以下规范: 在这是一个虚拟变量,当投资者的价值我高等教育(至少有一个大学学位)和0(高中或更低的程度)。我们的兴趣是系数 ,捕获任何正规教育较高的投资者行为偏差IBOVESPA指数的变化对整个样本的平均值。的假设是 ,更多受过教育的投资者倾向于更好的辨别信息从噪声IBOVESPA指数的变化,因此mean-reversal策略不太明显。

表4报告我们的回归估计(6)。平均而言,mean-reversal策略仍然存在。我们注意到IBOVESPA指数变化的交互和虚拟高等教育是积极和统计学意义。这表明投资者更高的学位有明显mean-reversal策略比教育程度较低的投资者,这支持了我们的假设。看规范(3),我们观察一个积极的,尽管近乎显著,IBOVESPA体积变化和投资之间的关系(−2.750 + 2.864 = 0.114)更多受过教育的投资者,建议一个动量策略的特征。


因变量	投资者的投资组合体积变化( )
因变量	(1)	(2)	(3)	(4)	(5)

回归量与
天变化	−10.347
	(1.795)
为期两天的变化		−5.136
		(1.299)
为期3天的变化			−2.750
			(1.076)
5天的变化				−2.565
				(0.931)
30天的变化					0.085
					(0.695)

的相互作用与学位
天变化高等教育	5.347
	(1.520)
为期两天的变化高等教育		3.915
		(1.040)
为期3天的变化高等教育			2.864
			(1.573)
5天的变化高等教育				2.471
				(1.398)
30天的变化高等教育					−0.237
					(0.647)

固定的影响
投资者	是的	是的	是的	是的	是的
法律	是的	是的	是的	是的	是的

观察	356172年	355796年	355419年	354588年	343592年
R²	0.038	0.036	0.036	0.035	0.035
聚类错误	投资者	投资者	投资者	投资者	投资者
	时间	时间	时间	时间	时间

表4

这个表报告输出回归(6)。我们问投资者更高的学位是否有不同的敏感性对其投资组合IBOVESPA指数变化。我们只使用变化而不是过去的平均水平,因为前者更大的预测能力据我们的特征选择过程。因变量的变化组合投资的投资者我在时间t在巴西股票市场从2016年初到2018年底。解释变量是1 -(1),2 -(2),3 -(3),5 -(4),和30天(5)IBOVESPA指数变化,以及他们与投资者互动的学位。面板是在每日频率的基础上。彼得森(后50];在投资者和时间我们双星星群标准错误的水平。重要性级别: , , 。

5。结论

我们使用机器学习技术与计量经济学技术投资者行为模型使用一个独特的数据集投资者关注投资股票市场。我们提出一个方法的方法将机器学习方法广泛应用于计算机科学标准的计量经济学技术普遍采用在社会科学中。

使用独特的数据集和高频每日一组广泛的投资者的投资决策在巴西,我们提供的证据表明,投资者看过去的表现的基准股指以决定自己的投资决策。投资者似乎更喜欢向均数回归策略在短期内,而不是动力。这可能是与处置效应,投资者更愿意出售赢家和输家(买55,56]。此外,研究可以利用替代解释这种行为。

此外,我们研究的决定因素,缓解或加剧的mean-reversal行为巴西投资者通过观察性别和教育水平的作用。我们发现女性和更多的教育投资者过去IBOVESPA变化的变化不太敏感,这是与行为金融学文献一致。

本文强调了使用非传统方法计量经济分析的重要性。使用机器学习的方法允许我们的自动化通常是主观的过程变量的选择是很重要的在任何计量经济学分析。通过使用特征选择scheme-such弹性网的这篇文章中,我们能够识别那些最好的属性描述投资者决定买进或卖出头寸客观、正确统计方式。除此之外,业务专家可以评估这些变量指出为最重要的,分析其经济意义。

数据可用性

数据是保密的。

的利益冲突

作者宣称没有利益冲突。

确认

蒂亚戈·c·席尔瓦(批准号408546/2018-2)和本杰明·m·Tabak(批准号310541/2018-2 425123/2018-9)感激地承认CNPq基金会的资金支持。

引用

h .邹和t . Hastie正规化和变量选择通过弹性网”英国皇家统计学会杂志》:系列B(统计方法),卷67,不。2、301 - 320年,2005页。视图:出版商的网站|谷歌学术搜索
e . f .农夫和k . r .法国“永久和临时股票价格的组成部分,“政治经济学杂志,卷96,不。2、246 - 273年,1988页。视图:出版商的网站|谷歌学术搜索
a . w . Lo和a·c·MacKinlay”股票市场价格不遵循随机漫步:证据从一个简单的规范测试,”金融研究,1卷,不。1,41 - 66,1988页。视图:出版商的网站|谷歌学术搜索
j·m·波特和l·h·萨默斯(lawrence Summers)在股价均值回归,”金融经济学杂志,22卷,不。1,27-59,1988页。视图:出版商的网站|谷歌学术搜索
j·康拉德·g·科尔,“交易策略的解剖学,”金融研究,11卷,不。3、489 - 519年,1998页。视图:出版商的网站|谷歌学术搜索
c·恩格尔和j·d·汉密尔顿,”美元的波动:他们是在数据和市场知道吗?”美国经济评论卷,80年,第713 - 689页,1990年。视图:谷歌学术搜索
n Jegadeesh和s . Titman“动力”,金融经济学的年度审查,3卷,不。1,第509 - 493页,2011。视图:出版商的网站|谷歌学术搜索
r . s . j . Koijen j·c·罗德里格斯,a . Sbuelz”战略资产配置,动力和均值回归”管理科学,55卷,不。7,1199 - 1213年,2009页。视图:出版商的网站|谷歌学术搜索
m . Morrin j·雅各比g . v . Johar x,他与库,和d . Mazursky”采取股票的股票经纪人:探索动量与反向投资者策略和配置文件,”消费者研究杂志卷,29号2、188 - 198年,2002页。视图:出版商的网站|谷歌学术搜索
j . Okunev和d .白:“锦上添花的策略仍在外汇市场工作吗?”《金融和定量分析,38卷,不。2、425 - 447年,2003页。视图:出版商的网站|谷歌学术搜索
d Schiereck、损坏:De Bondt w . m .韦伯“反向和动量策略在德国,”金融分析师期刊,55卷,不。6,104 - 116年,1999页。视图:出版商的网站|谷歌学术搜索
d . o . Cajueiro和b . m . Tabak”测试可预测性在股本回报率为欧洲市场过渡,“经济系统,30卷,不。1,56 - 78,2006页。视图:出版商的网站|谷歌学术搜索
d . o . Cajueiro和b . m . Tabak”测试时变远程依赖在现实国家股本回报,”混乱,孤波和分形,38卷,不。1,第307 - 293页,2008。视图:出版商的网站|谷歌学术搜索
e . j . Chang e·j·a·利马,b . m . Tabak“测试新兴股票市场的可预测性,”新兴市场回顾,5卷,不。3、295 - 316年,2004页。视图:出版商的网站|谷歌学术搜索
a . Sensoy k . Ozturk大肠Hacihasanoglu, b . m . Tabak“不是所有的新兴市场都是一样的:一个分类方法与相关的基础网络,”《金融稳定33卷,第186 - 163页,2017年。视图:出版商的网站|谷歌学术搜索
b . m . Tabak e·j·a·利马,“市场效率的巴西汇率:证据从方差比统计数据和技术交易规则,”欧洲运筹学杂志》上,卷194,不。3、814 - 820年,2009页。视图:出版商的网站|谷歌学术搜索
c . m .博雅”,从有效市场适应市场:证据来自法国证券交易所”在国际商业和金融领域的研究49卷,第165 - 156页,2019年。视图:出版商的网站|谷歌学术搜索
r·丁和p . Cheng投机性交易,价格压力,高估。”杂志的国际金融市场,机构和金钱,21卷,不。3、419 - 442年,2011页。视图:出版商的网站|谷歌学术搜索
李和n . Piqueira知情交易者的行为偏差:证据从52周高位的内幕交易,”实证金融杂志52卷,56 - 75,2019页。视图:出版商的网站|谷歌学术搜索
T.-Y。Pak和p . Babiarz“认知老化影响投资组合的选择吗?”经济心理学杂志卷,66年,页1 - 12,2018。视图:出版商的网站|谷歌学术搜索
t·铃木和y Ohkura“金融技术指标基于混沌装袋预测自适应选股在日本和美国市场,”自然史答:统计力学及其应用卷。442年,50 - 66年,2016页。视图:出版商的网站|谷歌学术搜索
a·厄克特和f . McGroarty股市真的有效吗?适应性市场假说的证据。”国际金融分析评论卷,47 39-49,2016页。视图:出版商的网站|谷歌学术搜索
李x, x, y孟,d .沈,“适应性市场假说的实证分析与日历效应:来自中国的证据,”金融研究快报2019年,卷。31日。视图:出版商的网站|谷歌学术搜索
h .高桥和t . Terano分析过度自信投资者对金融市场的影响通过基于代理模型”智能数据工程与自动化Learning-IDEAL 2007殷h . p .天奴,e . Corchado w·伯恩和x姚明,Eds。施普林格,柏林,德国海德堡2007。视图:谷歌学术搜索
交互,b . LeBaron提示我们“经验规律从长期和短期记忆一个基于主体的股市,投资者”IEEE进化计算,5卷,不。5,442 - 455年,2001页。视图:出版商的网站|谷歌学术搜索
m·a·Bertella f·r·皮雷l·冯·h·e·斯坦利,“信心和股票市场:一个基于代理的方法,”《公共科学图书馆•综合》,9卷,不。1,文章ID e83488, 2014。视图:出版商的网站|谷歌学术搜索
h·r·瓦里安,”大数据:计量经济学的新把戏”,《经济视角,28卷,不。2,3-28,2014页。视图:出版商的网站|谷歌学术搜索
g .詹姆斯d·威滕、t . Hastie和r . Tibshirani在介绍统计学习:应用程序R斯普林格出版公司,合并,瑞士,2014。
t·c·席尔瓦和l .赵机器学习在复杂网络斯普林格出版公司合并,瑞士,2016年版,1日。
t . Hastie r . Tibshirani和j·弗里德曼,统计学习的元素:数据挖掘、推理与预测施普林格,柏林,德国海德堡第二版,2009年版。
k·j·阿罗和g·德布鲁,”一个均衡的存在性竞争力的经济体,“费雪,22卷,不。3、265 - 290年,1954页。视图:出版商的网站|谷歌学术搜索
h·a·西蒙模型的男人:社会和理性——数学论文理性的人类行为在社交场合美国新泽西州霍博肯市威利,1957年。
l . Neyse美国博斯沃思、p环和施密特,“过分自信,激励和足趾率”,科学报告》第六卷,没有。1,2016。视图:出版商的网站|谷歌学术搜索
m·a·Lundeberg p·w·福克斯,j .双关coha”高度自信但错误:性别差异和相似之处的信心判断,“教育心理学杂志,卷86,不。1,第121 - 114页,1994。视图:出版商的网站|谷歌学术搜索
奥尼先科o .和n . Ulku“外国投资者交易行为的发展,”跨国公司财务管理杂志》上,51卷,第115 - 98页,2019年。视图:出版商的网站|谷歌学术搜索
m·阿伯,“有偏见的个人投资者的行为在认股权证吗?”在国际商业和金融领域的研究47卷,第149 - 139页,2019年。视图:出版商的网站|谷歌学术搜索
J.-C。李,y。李,N.-S。唐,华盛顿特区。梅,“平均停留时间的角色在金融市场羊群行为,”自然史答:统计力学及其应用卷,462年,第357 - 350页,2016年。视图:出版商的网站|谷歌学术搜索
c .刘和李x”,媒体报道和投资者恐慌行为扩散,”自然史答:统计力学及其应用,第527卷,第121398页,2019年。视图:出版商的网站|谷歌学术搜索
k . w .公园,s . h .宋和j . y . j .哦,”门口的外国人?外国投资者交易和国内个人投资者的处置效应,”北美经济和金融杂志》上49卷,第180 - 165页,2019年。视图:出版商的网站|谷歌学术搜索
Y.-r y史。唐,w .长,“互动投资者情绪蔓延分析:证据来自中国股票论坛”自然史答:统计力学及其应用卷,523年,第259 - 246页,2019年。视图:出版商的网站|谷歌学术搜索
j·r·魏j.p.黄,p . m .回族“基于个体模型的股市将动量投资者,”自然史答:统计力学及其应用,卷392,不。12日,第2735 - 2728页,2013年。视图:出版商的网站|谷歌学术搜索
r . j . Balvers和吴y”,跨国家股票市场动量和均值回归,”实证金融杂志,13卷,不。1、24 - 48,2006页。视图:出版商的网站|谷歌学术搜索
d·b·查维斯和诉Viswanathan动量和大宗商品现货和期货市场的均值回归,”《大宗商品市场,3卷,不。1,39-53,2016页。视图:出版商的网站|谷歌学术搜索
b·m·巴伯和t·奥丁,“本性难移:性别,过度自信和普通股投资”经济学的季刊,卷116,不。1,第292 - 261页,2001。视图:出版商的网站|谷歌学术搜索
j . i .佩纳“每日季节性因素和股票市场改革在西班牙,”运用金融经济学,5卷,不。6,419 - 423年,1995页。视图:出版商的网站|谷歌学术搜索
t·c·席尔瓦和l .梁赵“基于网络的高水平的数据分类、”IEEE神经网络和学习系统,23卷,不。6,954 - 970年,2012页。视图:出版商的网站|谷歌学术搜索
t·c·席尔瓦和l .梁赵“基于网络的随机semisupervised学习”,IEEE神经网络和学习系统,23卷,不。3、451 - 466年,2012页。视图:出版商的网站|谷歌学术搜索
t·c·席尔瓦和l .梁赵”,在复杂网络随机竞争学习,”IEEE神经网络和学习系统,23卷,不。3、385 - 398年,2012页。视图:出版商的网站|谷歌学术搜索
c . m .主教模式识别和机器学习(信息科学和统计)斯普林格出版社,柏林,德国海德堡2006。
m·a·彼得森,“估计标准误差在金融面板数据集:比较的方法,”金融研究,22卷,不。1,第480 - 435页,2009。视图:出版商的网站|谷歌学术搜索
t·k·希拉和c . Loibl“投资行为的性别差异,”消费金融研究的手册埃德·j·j·肖,施普林格,纽约,纽约,美国,2008年。视图:谷歌学术搜索
a . e . Sunden b·j·瑟特,“性别差异的分配资产的退休储蓄计划,”美国经济评论卷,88年,第211 - 207页,1998年。视图:谷歌学术搜索
m . Grinblatt m . Keloharju, j . Linnainmaa“智商和股票市场的参与,”《金融,卷66,不。6,2121 - 2164年,2011页。视图:出版商的网站|谷歌学术搜索
l .新郎和t . Jappelli”意识和股票市场的参与,“财务审核,9卷,不。4、537 - 567年,2005页。视图:出版商的网站|谷歌学术搜索
n barberi和w·熊”,处置效应的动力是什么?一个长期存在的个性化的分析解释,“《金融,卷64,不。2、751 - 784年,2009页。视图:出版商的网站|谷歌学术搜索
h·舍夫和m·斯塔特曼”处理销售赢家过早,骑输家太长:理论和证据,”《金融,40卷,不。3、777 - 790年,1985页。视图:出版商的网站|谷歌学术搜索

复杂性

应用机器学习方法在复杂经济和金融网络

文摘