文摘

本研究比较因素模型基于主成分分析(PCA)和偏最小二乘(PLS) Autometrics,弹性顺利剪绝对偏差(E-SCAD)和极大极小凹点球(MCP)在不同模拟方案像多重共线性,异方差性、自相关。比较用不同的样本大小和协变量。我们发现,在低和温和的多重共线性,MCP经常产生优越的预测与小样本情况下,而E-SCAD仍然是更好的。对于高多重共线性,PLS-based因素模式仍然占主导地位,但渐近的预测准确性E-SCAD和其他方法相比显著增强。根据异方差性,MCP表现很好,大多数时候胜过竞争对手的方法。在某些情况下,在大样本,MCP Autometrics提供了类似的预测。在低和适度的自相关,MCP显示了突出预测性能除了小样本情况下,而E-SCAD产生显著的预测。在极端的情况下自相关,E-SCAD优于竞争对手的技术下的中小样本,但是进一步增加样本容量使MCP预测更准确的比较。比较所有方法的预测能力,我们把数据分割成两半(即。在1973 - 2007年,数据作为训练数据和数据超过2008 - 2020作为测试数据)。基于均方根误差和平均绝对误差,PLS-based因素模型优于竞争对手模型的预测性能。

1。介绍

宏观经济变量的预测是非常重要的在宏观经济研究中,货币政策分析和环境经济学。准确预测诱导健康见解机制活力的经济体(1),更有效的货币政策(2),和更好的投资组合管理和对冲策略3]。数据丰富的环境中现有的这些日子里,许多宏观经济系列追踪的经济学家和决策者。

低维模型通常包括一些指定的经济例如反是;向量自回归,因此有一个并发症在捕捉动态和复杂的模式,其中包含巨大的时间序列(面板4]。事实上,丢失重要的变量(s)导致遗漏模型,诱导偏见的结果。有一个强烈的需要提出更新统计模型和分析框架与扩大低维的目的为改善预测。因此,在最近的时代,分析“大数据”已经成为经济学研究的核心。这反过来又导致了特别关注的巨大类技术可用在机器学习领域,降维,处罚回归(5,6]。最近,在回归背景下,Doornik和亨德利(7)分类大数据分为三类:高的大数据,巨大的大数据,大数据和脂肪。每种类型可以定义如下:(我)高的大数据:更多的观察和几个协变量(N> > )(2)巨大的大数据:更多的观察和协变量(N> )(3)胖大数据:更少的观察和更多的协变量(N< )在哪里N 分别代表观察和协变量的数量。我们在图以图形方式表示大数据1

有许多相关的研究基于因素的宏观经济预测模型和机器学习技术。在过去的二十年里,使用大型数据集和预测研究pseudo-out-of-sample预测蒂斯把那些et al。8];Boivin和Ng (9,10];弗尼et al。11];Armah和Swanson12,13];股票和沃森(14- - - - - -18];瓦里安(5];金姆和Swanson [19,20.];城堡等。21,22];Luciani [23];Kristensen [24];Swanson和熊6,25];你和李26];Swanson et al。27];Maehashi和Shintani28];金姆和Ko (29日];金等。30.];Abdićet al。31日];和金正日和施32]。

此外,股票和沃森(17精心讨论过去研究因素的效用模型预测。有一个密集的和越来越多的文学在这一领域。其中的一些相关,解决理论和实证问题,包括Armah和Swanson [12,13];阿提斯动物园等。8];白和Ng (1,33,34],Banerjee和Marcellino [35];Boivin和Ng (9,10),丁和黄36];杜福尔和Stevanovic37];股票和沃森(15- - - - - -18];和Smeekes Wijler [38]。

上述论文考虑主成分分析、独立成分分析、稀疏主成分分析模型建设的因素。然而,还有一个小的和越来越多的文学研究的经典方法(Autometrics)在宏观经济预测的背景下7,21,22]。我们未能发现任何纸到目前为止,调查使用偏最小二乘(PLS)理论在我们的背景。然而,该方法已经应用在各领域的经验。除此之外,一些论文收缩和岭回归方法,利用套索,弹性网,适应性套索,和非负绞死,但迄今为止没有一个文件使用的更新形式收缩方法在我们的背景。

填充空白,这项工作实现大数据的增量更新一些技术文献的宏观经济预测理论以及经验。从降维方面,我们打算建立因素模型强调这样的宏观经济预测模型的重要性。特别是在构建因子模型,我们采用主成分分析(PCA)和偏最小二乘(PLS)。此外,我们也评估最后版本的经典方法(Autometrics)和收缩方法的更新版本,包括弹性顺利剪绝对偏差(E-SCAD)和极大极小凹点球(MCP)。我们评估这些技术的性能在模拟环境中,真实的数据生成过程模型(文章)的因素。整个讨论,总结我们的主要贡献是比较的形式更新收缩方法和Autometrics因素模型通过预测模拟场景下有多重共线性,异方差性、自相关以及应用程序的宏观经济数据提供一个结论性的解决方案可预测性。这项研究的目的是产生一种改进的方法来帮助决策者;改进的工具并不局限于工人的汇款或股票市场(在我们的案例中),但对任何时间序列是有效的。

论文的其余部分组织如下。节2,我们提供详细讨论有关因素模型基于主成分分析和偏最小二乘法。节3,我们将讨论大数据技术,如经典方法和收缩的方法。蒙特卡罗证据比较性能章节中讨论的几个预测技术4。实证研究结果给出了部分5。部分6提供结论。

2。方法

我们打算申请的技术在图在后面的部分2

本研究旨在比较因素模型的预测能力基于主成分分析和偏最小二乘法Autometrics,弹性顺利剪绝对偏差(E-SCAD)和极小极大不同场景下凹惩罚像多重共线性,异方差性、自相关。宏观经济和金融数据集用于真实现象的分析。

2.1。因素模型

因素的概念模型也称为扩散指数需要正确地提取隐藏的常见因素的效用,蒸馏从一组巨大的特征作为输入的识别吝啬的模型。更具体地说,让X是一个N×P维矩阵的数据点和定义N×k维矩阵的潜在因素。

股票和沃森(17深度)划定文献关于预测通过因子模型。下面详细讨论的因子模型的方法,我们跟随股市和沃森(15]: 在哪里 表示随机误差矩阵, P×k系数矩阵,F是矩阵的一个因素N×k维度。

我们构建以下预测模型基于白和Ng的工作39],金姆和Swanson [19)、股票和沃森(15]: 在哪里 是一个结果变量预测,h显示了预测地平线 是向量的因素维度,蒸馏的F在方程(1)。相关系数 是一个向量的未知参数, 是随机误差。因子模型预测的整个过程包括两个步骤:第一步,我们估计k潜在的(未被注意的)因素,为代表 , 可观察到的预测因子。获得方便的降维,k应该是小于多少 (例如,k )。在第二步中,我们估计 ,利用手头的数据 随后,构造一个样本外预测。

金姆和Swanson [19]利用PCA方法实现的估计未被注意的因素,即主成分(pc)。的电脑是不相关的使用获得的数据投影的方向最大方差,和自然,电脑是命令基于方差的贡献。第一个电脑反映数据方差最大的方向,第二个电脑反映了方向,解释了其他地区的最大方差正交的子空间,等等。

这种方法是最常用在因子分析的文献,因为电脑很容易推导出通过使用奇异值分解(15,33,34]。

Boivin和Ng (10),然而,认为因子模型的性能更有可能更糟在预测如果合并因素被排除的因素。同样,你和李26)表示,PCA强加的因素结构X结果,不考虑变量。它表明PCA忽略了因变量在执行它。凭借忽视当时的结果变量因素,提取诱发低效的预测的结果变量。解决这个问题在下一节中给出。

2.2。偏最小二乘(PLS)方法

本研究着眼于另一个方法,称为偏最小二乘(PLS)回归的山地开发的(40]。数据丰富的环境中这种方法是合适的,可能被视为替代PCA-based因素模型。与PCA方法不同,请确认新的因素以监督的方式;即,它利用响应变量来确定新的因素,不仅近似旧的因素但也反应变量相关。大致说来,请方法试图找到最大方差的方向,帮助解释反应变量和解释变量。请给一个结果变量是出于一个统计模型如下: 在哪里 = 是一个n×1协变量的向量t= 1,…,T, 是一个n×1相关系数向量, 是干扰项。金姆和Ko (29日)认为,请模型是有用的特别是当协变量的有很多。而不是使用一个模型中给出(3),可以采用另一个数据降维方法通过以下线性回归Z×1向量的分量 = 如下:

我们定义 : 在哪里 = ( , ,…, )是n×Z矩阵的每一列, = ,z= 1,2,…Z协变量,表示向量的权重z因素或组件, Z×1请系数向量。我们可以用下面的方程预测k步骤之前模型;也就是说, ,k= 1,2,…

3所示。经典方法和收缩的方法

基本比较感兴趣的是自动选择之间变量对PC和PLS-based因素的预测。因素往往被视为必要的总结大量的信息,但经典方法和收缩方法的选择。

3.1。经典的方法

Autometrics是一个著名的大数据算法,由五个步骤组成。在第一步中,我们开始与线性模型的建设过程,指一般无限制模型(口香糖);在第二步中,我们获得未知参数的估计和测试统计;第三步需要presearch过程;第四步将树路径搜索;最后一步导致了最终模型的选择。

Doornik [41)精心描述完整的算法。关键概念是开始建模与一个线性模型,其中包括所有候选人特性(口香糖)。由最小二乘法估计口香糖,然后进行统计检验来验证模型的一致。如果估计口香糖包含统计无关紧要的系数在预定的标准,然后估计更简单的模型,利用不同的路径搜索和批准诊断测试。像一些终端检测到模型,Autometrics进行联合测试。拒绝模型被丢弃,那些幸存下来的终端模式的结合导致了另一个树路径搜索迭代的新胶。整个检查过程所得,终端模型是统计检查反对他们的联盟。如果两个或多个终端模型明确包含测试,然后预选的信息标准决定最后的选择。

计量经济学模型通过运用Autometrics胶:

Autometrics之下,两个主要策略通常用于模型选择、保守和superconservative也称为自由策略。我们的研究实现了自由主义策略,通常是基于百分之十一显著性水平,而不是百分之五。换句话说,每个估计系数的统计显著性是基于百分之一水平的意义。

3.2。收缩的方法

另一个突出的方法来处理许多特性是家族panelized回归方法,它包括许多技巧,但我们的研究采用以下形式:更新弹性顺利剪绝对偏差和极大极小凹点球。

3.2.1之上。弹性顺利剪绝对偏差

风扇和李42)增加了一个新的处罚技术文献称为竹荚鱼。技术非凸和享受一个oracle产权:稀疏,连续性和无偏性。这种技术和他们的大小渐近协变量选择有用的在一个有效的方式如果底层真实模型(即而闻名。甲骨文的属性)。竹荚鱼函数涵盖了所有现有方法所面临的局限性如脊和套索。竹荚鱼的罚函数定义如下:

未知的调优参数k由广义交叉验证的方法,他们认为的价值 是3.7。正如上面给出的,罚函数是连续的,并给出最终的解决方案

可以诱导调优参数的数据驱动技术。竹荚鱼的局限性是它只选择一个变量从一组相关的预测。曾和谢43]扩展增加许多 点球,称之为弹性竹荚鱼(E-SCAD)。在数学上,它可以写成

由于 点球,E-SCAD达到一个额外的属性以及oracle属性;即罚函数应该刺激高度相关的特性,同时该模型。因此,拟议的形式选择整个集团的相关预测因子,而不是一个变量。

3.2.2。极大极小凹点球

张(44]提出了极大极小凹点球(MCP),而收益率的凸性惩罚稀疏地区的损失大大给特定的阈值特性选择以及无偏性。MCP描述如下:

调优参数( )减少最大凹度以下限制下无偏性和选择的特点:

dual-tuning参数在凹点球回归发挥关键作用的控制数量的正规化。同样,MCP的凹性惩罚远远躲避稀疏凸性凭借最大凹度递减。2010年,作者表明,正则化参数值的上升会导致轴承凸性和几乎达到一个公正的惩罚。MCP的罚函数通常属于二次样条函数。

4所示。蒙特卡罗证据预测性能

我们的模拟部分由三个主要场景,即模拟数据生成过程(文章),(我)多重共线性,(2)异方差性,(3)自相关。在每个模拟场景中,不同方面的文章属性之间的关联强度特性,误差项的方差的大小,和误差项的相关性的大小与先前的值(滞后)。

4.1。数据生成过程

我们生成数据从以下方程:

的预测因素 , ,…, 生成从多元正态分布 N(0, )。相同的数据生成过程(文章)被38]所(13人工数据生成)。我们的研究认为仿真实验的三种类型的样本大小。我们假设一个双重的特性改变活动(的数量p)和不活跃的特性(),分别描述,如图3

在仿真实验中,我们假设三种情况如下:在第一个场景中:我们生成预测之间的两两相关(例如, 作为 )。人口的协方差矩阵在以下方式:

而改变参数 ,我们得到不同的相关结构。在我们的工作中,我们假设值 ∈{0.25,0.5,0.9},紧随其后的是肖和徐45]。在第二个场景中,我们生成当前和残差滞后之间的相关性(相关)和象征 自相关产生如下:

我们的实验假设低风险、中度风险和高情况下的自相关,例如ρ∈{0.25,0.5,0.9}。第三个场景是检验异方差性(即。,米eans that the variance of the error term is not constant and alters across data points by )。

所以,我们把方差 为两个组件(例如, )。让我们有“n“观察;我们组的方差(n/ 2)观察 剩下的方差的观察 我们的模拟实验假设3例异方差性和设置的值 = ( / ),= 1、2、3 ∈{0.1/0.3 0.2/0.6 0.3/0.9}。十倍交叉验证来确定执行调优参数的最优值(s)。

评估所有方法的预测性能,我们把每一个实现,80%的数据被用来训练模型和剩余的数据用于模型的评估之后,(46]。整个过程将被复制= 1000次。的平均均方根(RMSE)和平均绝对误差(MAE)计算结束”“评估预测性能。RMSE值和梅越小,越接近实际值的预测值和预测相对越好。进行分析,我们依赖于几个包,glmnet, ncvreg,请插入符号,预测,指标R编程语言。

4.2。仿真结果

预测比较来自蒙特卡洛实验结果发表在表1- - - - - -3。所有的方法都是通过增加观测的数量提高性能。增加相关的数量和候选人变量预测能力带来负面影响。场景1。在低,温和的多重共线性,MCP的性能优于其他竞争对手的方法,除了一个小样本的情况下,E-SCAD和PLS-based因素模型是主导。更具体地说,在低,温和的多重共线性,E-SCAD经常产生更好的预测。在我们考虑高多重共线性的情况下,特别是PLS-based因子模型优越,而渐近E-SCAD优于其他方法。场景2。存在异方差性的所有计划,MCP的性能通常优于所有竞争对手模型。当预测的数量等于50,Autometrics MCP在大样本提供了类似的预测。场景3。在低和适度的自相关,MCP显示一位杰出的性能预测方面的尤其是当我们增加样本量。相反,当n= 100,E-SCAD产生了显著的预测。在极端的情况下自相关,E-SCAD优于竞争对手的技术下两小和温和的样本,但随着我们进一步扩大样本等于400,MCP诱导一个相对更精确的预测。

5。实际数据分析

蒙特卡罗实验后,本研究使用大数据执行实际数据分析。对于真正的数据分析,我们关注的是两个数据集:宏观经济数据和金融市场。在两个数据集的背景下,研究认为工人的汇款流入和股票市场数据,分别。事实上,有很多因素会影响工人的汇款流入股市。其中,一些则反是推荐的经济和金融理论被包括在模型中。除此之外,一长串变量已经被过去的研究建议。基于本研究考虑所有可能的决定因素理论和文学的一般模型。计量经济学文献中,这种模式被称为一般无限制模型(口香糖)。

5.1。数据源

本研究收集巴基斯坦从1973年到2020年的年度数据。数据来自《世界发展指标" (WDI)、国际金融(IFS)的统计数据,国际国家风险指导,巴基斯坦国家银行。中的一些失踪的观测数据集替换为平均邻居的观察。大多数变量转换为对数形式,确保正常。

详细给出了变量用于分析在附录表4。

5.2。相关矩阵

实证分析,我们把数据集分割成部分:观察从1973年到2007年是用来训练模型和剩余的数据被用来评估他们的预测性能。但在计算预测误差,我们发现协变量之间的相关结构通过可视化方法。在数据45,蓝色和红色的颜色表现出积极的和消极的相关性,分别。颜色的严重性和圆的面积与相关系数直接相关。相关图的右侧,传奇的颜色显示了相关系数和相应的颜色。我们可以观察到有许多深色在蓝色和红色圆圈,这清楚地说明高两两相关。换句话说,我们可以得出结论,存在高之间的多重共线性预测在两个数据集。图6表明,股票市场数据的分布几乎是对称的。除此之外,诊断测试显示估计的残差模型独立同分布。我们注意到在模拟实验,在存在多重共线性,PLS-based因素模型优于其他方法的预测误差特别是样本量很小。它表明,PLS-based因素是在这种情况下更健壮。

5.3。预测比较基于两个真实的数据集

均方根误差和平均绝对误差计算确定MCP的预测能力,E-SCAD Autometrics和因子模型,基于PCA和请在图78,分别。研究结果显示,PLS-based因素模型比竞争对手样本外预测方法。这说明PLS-based因素比其他竞争对手模型,模型具有良好的预测能力方面拥有最低的预测错误的多步向前预测时期(2008年至2020年)。它支持真实数据集下的仿真结果。

6。结束语

本研究比较因素模型基于主成分分析和偏最小二乘法与经典方法(Autometrics)以及(即收缩过程。顺利,极大极小凹点球(MCP)和弹性夹绝对偏差(E-SCAD))。比较下存在多重共线性,异方差性、自相关与改变协变量的样本大小和数量。我们进行了蒙特卡洛实验比较方法的预测。所有方法正在改善他们的表现与越来越多的样本在各场景。扩大的数量无关,候选人变量消极地影响预测的准确性。在低,温和的多重共线性,MCP经常产生更好的预测相对除了少量的观测,E-SCAD占主导地位。在极端的情况下多重共线性,PLS-based因子模型优越,但由于增加样本量,E-SCAD显著增强的预测精度比其他方法。存在异方差性的所有计划,MCP比所有竞争对手模型的性能。当预测的数量等于50,Autometrics MCP在大样本提供了类似的预测。在低和适度的自相关,MCP显示一位杰出的性能预测方面的除了小样本情况E-SCAD产生了显著的预测。 In the case of extreme autocorrelation, E-SCAD outperformed the rival techniques under both the smallest and medium samples, but as we further augment the sample equal to 400, the MCP induced a more accurate forecast comparatively.

对于经验的应用程序,使用宏观经济和金融数据集。比较所有方法的预测性能,我们把数据分成两部分(即。,data over 1973–2007 as training data and data over 2008–2020 as testing data), using both datasets. All methods are trained on training data and subsequently, their performance was evaluated through testing data. Based on RMSE and MAE, the PLS-based factor model is more robust in terms of forecasting than competitor models. This study has several recommendations, reported in Table4

6.1。局限性和未来方向

本研究的一些局限性,它只专注于线性模型,并考虑年度数据。仿真部分本研究局限于高斯分布的错误,但在实践中,这并不是必要的,模型的错误总是正常。因此,研究可以发现先进的预测性能进行统计和机器学习技术在非正规的残差以及缺少观测数据集。这项研究可以扩展检查性能的非线性和非参数算法人工神经网络、随机森林、支持向量机等。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有利益冲突有关这项研究的出版物。

补充材料

附录表4。变量描述。(补充材料)