文摘
这项工作比较Autometrics与双重处罚等技术极大极小凹点球(MCP)和顺利剪绝对偏差(竹荚鱼)等不对称误差分布指数,γ,邻不同样本大小以及预测。全面的模拟,基于各种各样的场景,揭示的方法被认为是显示改进的性能增加样本量。在低多重共线性的情况下,这些方法展示良好的性能在效力方面,但是在衡量,收缩方法崩溃,和更高的规导致overspecification的模型。高水平的多重共线性影响Autometrics的性能。相比之下,收缩方法是健壮的高多重共线性在效力方面,但是他们倾向于选择一个大规模组不相关的变量。此外,我们发现,扩大数据降低了高多重共线性的不利影响Autometrics迅速,逐渐纠正收缩的测量方法。对于经验的应用程序,我们把黄金价格从1981年到2020年的数据。虽然所有选定方法的预测性能比较,我们把数据分成两个部分:数据作为训练数据,1981 - 2010年和2011 - 2020年以上作为测试数据。所有方法训练的训练数据,然后通过测试评估的性能数据。基于均方根误差和平均绝对误差,Autometrics保持最好的获取黄金价格趋势和生产预测比MCP和竹荚鱼。
1。介绍
在回归分析中,它的核心问题是研究人员发现的关键预测实现更好的响应变量的预测。因此,识别潜在的预测对知识发现和提高模型的预测能力是非常有益的1]。然而,构造一个线性回归模型、变量选择是最重要的步骤之一。在实践中,大量的预测可以提高拟合模型的方差,并选择若干预测可能导致不可预测的输出或有偏见的结果。换句话说,将更多的预测模型中可能会导致高的变化最小二乘匹配,,反过来,导致过度拟合模型,因此,它的收益率差预测未来(2]。此外,如果预测是高度相关的,然后与每个相关的标准误差回归系数往往会增加,从而导致无效的推论(3- - - - - -5]。另一方面,错过一个重要的预测可能导致模型mis-specification,和结论的基础上一个特定的模型可能会误导人6]。
在最近的时代,相当一部分研究集中于分析高维数据的财经纪律。合成,相当关注的品种技术适用于数据挖掘的领域,降维,和机器学习7,8]。其中,处罚技术和Autometrics处理大数据集(很受欢迎9]。
许多研究文献中存在的性能确定Autometrics理论上以及经验。其中有一些是(9- - - - - -16]。同样,许多研究人员评估了处罚技术在时间序列建立如摩尔et al。17),井上和克里安18),白和Ng (19],金姆和Swanson [20.,21],Luciani [22),Swanson和熊8,23),Swanson et al。24];和Maehashi Shintani [25]。
在上面的论文,经常惩罚技术相比,和几个论文相比Autometrics与处罚等技术至少绝对收缩选择算子(套索),自适应套索,加权自适应套索。迄今为止,所有的论文已被处罚的改良型技术在我们的背景。因此,本研究在二维空间中。首先,我们考虑两个修改处罚技术:极大极小凹点球(MCP)和顺利剪绝对偏差(竹荚鱼)和与Autometrics理论以及经验。其次,比较了在不对称误差分布而不是高斯。
我们的研究旨在比较Autometrics处罚技术的提高包括顺利剪绝对偏差和极大极小凹下处罚等不对称误差分布指数,γ,邻通过蒙特卡洛模拟。此外,我们改变样本的大小,数量的预测,和震级的多重共线性,以确定他们的影响被认为是技术。真实的现象分析,我们考虑一个金融数据集。
的其余部分被组织在以下方式工作。节2,我们有精心讨论了模型选择技术和数据生成过程。蒙特卡罗证据比较性能的各种模型选择方法讨论了部分3。真实的数据部分中描述的应用程序4。部分5给出了结论。
2。模型选择方法
模型选择的关键步骤之一是在所有学科的实证研究,在早期理论并不预先确定一个完整的和正确的规范。经济学无疑是其中的一个,因为宏观经济过程通常是高维、非平稳的,复杂的26]。通常,许多不同的解决方案推荐适合的数据。因此,统计模型的选择成为一个初级和无处不在的实证经济研究的任务。
选择程序信息标准等,逐步,处罚回归是不可避免的。永远不可能有一个共识关于这模型是最好的,因为有大量的标准来评估模型的性能。幸运的是,在过去的二十年里,一场新的革命已经存在的模型构建,general-to-specific建模的形式,所示,包含在计算机程序,命名为PcGive。计算机自动化的方法揭示统计模型的选择上以一种新的方式。
PcGive是一个计算机程序,自动选择一个计量经济学模型。这绝对是一个新的方法来制定经济数据处理模型和特别设计的正确形式下的一个方程分析是未知的。在PcGive,自动模型选择的工作是由Autometrics。因此,在下一节中,我们提供一个Autometrics的详细解释。
2.1。Autometrics
自动变过程几乎是被视为一个“黑盒子”:最后一个模型是选择从模型由一组初始的候选人变量。最初的模式指的是一般无限制模型(口香糖)。大多数情况下,一组终端候选模型。在这种情况下,信息标准是利用决胜局。有可能,我们可以选择分批试验过程的最后口香糖,终端候选模型的结合。
自动获得过程的目的是口香糖好指定的统计,这是受到mis-specification测试。以后,诊断测试保证所有潜在终端候选模型阐明这些测试。Simplication口香糖是通过路径搜索。这种类型的搜索需要解决复杂的自相关,通常存在于宏观经济数据。简化是可以接受提供了驱逐变量是微不足道和新模型是一个声音砍的口香糖。后者也称为条件包括口香糖或val,线性回归模型的上下文中,基于F以及删除变量。
在Autometrics的应用,减少 - - - - - -价值是主要的选择用于val和个人系数的意义。有一些工具来避开估计模型(27]。这个方法是非常有效的,尽管统计推断的成本不能规避和搜索成本显著低。一双自动模型选择框架未能适应模型内general-to-specific(变得)方法如下:(1)逐步回归:从空模型,在模型中添加最重要的遗漏变量。高度无关紧要的变量从模型中删除观察在任何阶段。因此,在每次迭代中,我们包括一个重要变量,丢弃一个无关紧要的变量(28]。这种方法重复直到我们把所有变量在模型中是重要的,和所有省略变量必须是无关紧要的。(2)反向淘汰:所有的预测都进入了初始模型;然后预测一次抛出一个从最重要的开始。这个过程一直持续到所有预测都有 - - - - - -的价值或小。
存在三个主要差异与自动得到:(i)缺乏搜索,(ii)没有val,(3)没有mis-specification测试/诊断跟踪。图1描述的方式如何Autometrics自动选择模型。
2.1.1。方法
Autometrics包含以下五个基本阶段:(我)在第一阶段,线性模型被称为所谓的“一般无限制模型(牙龈)组成(2)在第二阶段,参数估计以及测试的统计学意义口香糖(3)在第三阶段,presearch流程执行(iv)第四阶段产生树路径搜索(v)在最后阶段,最后的选择模型
Doornik [27Autometrics而]阐述了整个算法的步骤运行Autometrics如下。首先考虑所有候选人变量线性模型(牙龈),由最小二乘法估计,然后通过诊断测试验证。无关紧要的系数,那么简单的模型估计利用树路径减少搜索通过诊断测试和验证。如果检测到一些终端模式,Autometrics进行联合测试。拒绝删除模型,那些幸存下来的终端模式的结合为另一个树路径搜索迭代诱发新的口香糖。这个检验过程继续,终端模型是统计评估反对他们的联盟。如果两个或多个终端模型明确包含测试,然后prechosen信息标准是通向最终决定。
2.2。收缩的方法
经典线性回归模型的假设之一是没有关联的,这往往在实践中并不存在。如果违反了这一假设,那么这种现象被称为多重共线性的问题。在存在多重共线性,这是一项具有挑战性的任务估算可靠的一个特定的协变量的影响。更具体地说,有很高的抽样方差的估计系数随着假信号,由于估计和预测不受影响。
另一种方法来处理最常用的家庭很多特性是正则化/处罚回归,其中包括很多方法,但是我们的研究选择最知名和健壮的方法:极大极小凹点球和顺利剪绝对偏差。正则化最小二乘估计的一种形式是给定的目标函数的最小值: 在哪里 , ,和是系数矩阵 。在这里,和米分别表示协变量的数量和观察。方程(1)中的第二项代表了罚函数,采用不同形状不同的程序。这个词指的是调优参数控制的收缩量。调优参数的范围是0到无穷大之间。
我们提供的简短讨论下面的方法:至少绝对收缩和选择算子:标准的定义是 倾向于套索估计量,指的是调优参数,通过交叉验证选择(29日]。规范减少一些解释变量系数为零只保留相关的预测。规范减少一些解释变量系数为零只保留相关的预测。如果有高相关预测因子的组中,然后从集团套索仅保留一个预测。此外,套索偏见在特征选择30.]。顺利剪绝对偏差:连续可微的罚函数可以定义为: 如果的结果> 2,> 0,年代> 0然后产生的处罚是指竹荚鱼(31日), 和 3.7推荐陆et al。32]。极大极小凹点球:极大极小凹处罚说明如下: ,的价值是3.7。这个过程提供了凸性的惩罚稀疏地区的损失大大给某些阈值变量选择和无偏性(33]。
2.3。调优参数的选择
调优参数λ通常选择使用交叉验证方法,旨在实现最优预测解决方案。它需要随机给定的数据分割为两个部分:一个训练数据集和测试数据集(或抵抗组)。训练数据集被用来适应模型和装配模型将被用来预测验证集数据的响应。验证测试出错率估计的出错率,这是通常的上下文中使用MSE计算数值响应。的k倍交叉验证方法包括随机分割数据收集k组,或折叠,大致相似的大小,使用k倍的简历;通常,我们使用k这等于10 - 5。该算法在剩余的安装折叠,最初的褶皱作为验证集。在观察抵抗折叠,均方误差, ,计算。这个技术是重复k次,每个验证集组成的一套独特的观察。均方误差1,MSE2MSE,…k是测试这种方法产生的误差估计。这些值平均收益率k倍的简历估计。
2.4。人工的数据生成过程
在最近的部分中,我们介绍了一些场景打算证明Autometrics对收缩性能的划定方法前面已经介绍。我们考虑两种类型的协变量之间的相关结构,也就是说,低(0.25)、高(0.90)不同误差项的分布。我们的研究使用的数据生成过程Doornik和亨德利(紧随其后13),瓦希德et al。34)生成人工数据如下: 在哪里是响应变量。协变量的集合, ,生成从多元正态分布 协变量的均值为零,在哪里是variance-covariance矩阵。这是事实,variance-covariance矩阵包含方差和协方差。在我们的例子中,方差为1,和之间的协方差和生成以下列方式: (34]。 这对监管许可协变量之间的两两相关的程度米和n通过改变一个参数 。此外,代表了回归系数,是干扰项,这是来自以下三个不对称概率分布在这项研究。分布是指数分布、伽玛分布和f分布。
这些分布的原因选择一组巨大的分布是:指数分布基本上是一个文学的标准分布不对称分布。此外,f分布,这也被称为逆威布尔分布,和伽马分布是指数分布的广义形式。大多数情况下,财务数据是右偏态的分布35]。
在我们的研究中,我们考虑三个不对称分布的概率分布从一个巨大的列表。有很多:(我) (2) (3)
2.4.1。场景1
我们进行仿真实验考虑协变量的三种情况: 。在每个实验中,我们假设15相关预测,剩下的是无关紧要的。(我) (2) (3)
我们考虑两种情况下的样本大小 。在这个场景中,我们产生错误模型的指数分布。
2.4.2。场景2
此外,这个场景是一样的第一个实验;只有从伽马分布生成错误。
2.4.3。场景3
这个场景是一样的第一个实验;此外,产生的错误是邻分布。
2.5。方法性能的措施
有一些方法来评估模型的变量选择方面的性能,我们采用强度和衡量。计被划定为实证零保留频率的频率无关的则反是保留。Autometrics处罚方法的比较评估的形式正确识别解释为效力和不正确的0标识称为计(13]。
在数学上,测量描述如下:
压力表指示无关紧要的部分对应于名义显著性水平(α),显示一组初始模型和协变量无关显示了估计的设置无关的协变量(36]。
效能的定义如下:
这表明相关的部分显示了初始模型和协变量组相关点估计协变量相关的集合,因此预期效力趋近值1是一个好的模型的证据(36]。此外,我们每个仿真实验重复1000次,和预期的效力和衡量评估相对最好的方法。我们使用R整个软件分析。
3所示。仿真结果和讨论
场景我:表1为指数分布提供了仿真结果错误,不同样本大小和协变量。所有方法在改善与增加样本量。对于低多重共线性,在几乎所有情况下,Autometrics和收缩方法如竹荚鱼和MCP持有所有相关的预测因子,但收缩方法也持有大量的无关紧要的因素。往往会导致一个overspecified模型保留无关变量。增加水平的多重共线性,Autometrics发现,61%相关变量(力量)以及3%左右无关变量(指标),而收缩方法保留80%以上相关变量与一个更高比例的不相关的变量。当我们增加样本量,Autometrics的效力也显著增强和收益指标的改善。收缩的方法改善了计,但它仍然是非常高的。场景二:表2提出了伽马分布的仿真结果错误,不同样本大小和协变量。所有结果都提高与扩大数据窗口。在这个场景中,所有方法都正确地指定相关的变量在大多数情况下,但收缩方法保留一些不相关的变量。换句话说,它可以得出结论,收缩overspecified模型方法。场景三:表3描述了f分布的仿真结果错误,不同样本大小和协变量。几乎所有的力量和计方法改善和增加样本量。在存在多重共线性低,所有方法选择相关变量在一个大样本的100%。Autometrics经常选择1%左右不相关的变量(指标),而收缩的方法选择一个大比例的不相关的变量。含量的增加,多重共线性,所有方法都不利影响。Autometrics保留72%相关变量大约3%不相关的变量。另一方面,收缩方法持有超过90%活跃变量随着大规模组不相关的变量。当我们增加数量的观察,合成的效力Autometrics改善,减少了测量到1%。改善收缩的测量方法,实现了但它仍被认为是高。
现在我们比较所有方法的效力和计在不同误差分布。伽马分布下我们可以看到错误,效力高,计低于指数下的效力和衡量我们实现和f分布的错误。
4所示。实证分析
补充蒙特卡洛实验,本研究使用巴基斯坦执行实际数据分析金融数据集,数据集包含12个时间序列观察到一年一度的频率跨度从1981年到2020年,从世界发展指标,国际金融统计,Yahoo !金融网站,国际和国家风险指南。在12个变量中,黄金价格的响应变量,和其余变量被当作预测研究中。选择预测通过理论和文学做一个一般模型称为一般无限制模型(口香糖)。分析之前,一些失踪的观测数据集取而代之的是平均邻居的观察和标准化的数据集,以减少变异,进而提供稳定的结果(37]。关于变量已在表细节4。表4描述了变量、符号和数据来源。
从图2,它可以观察到的频率分布目标变量(在我们的例子中,黄金价格)是右偏态,箱线图,如图2(b)也显示,有一些偏远的观察中。然而,古吉拉特语等。4]图示视为一个非正式的方法因此确认黄金价格的分布;我们朝着一个统计检验,被称为夏皮罗测试。
(一)
(b)
应用夏皮罗的测试后,我们得到一个 - - - - - -值几乎为零;的零假设数据是正态分布的拒绝。这意味着考虑分布是高度倾斜。表5描绘了真实数据的结果考虑11协变量。Autometrics GDP,红外,UEMP, SP,协变量和实际有效汇率,这表明这些明显导致黄金价格。MCP协变量选择所有除了通货膨胀(正)和市场利率(先生),和许多持有所有反是。
这是我们不知道的数据生成过程在现实世界中。因此,很难比较基于能力模型的性能和测量使用真实的数据。在这种情况下,最好的和广泛使用的替代方法是一个样本外预测模型的评估。但它需要将数据划分为两个部分:一个训练集和测试集。因此,在这个工作中,我们把数据集分割成两部分:数据从1981年到2010年是用来训练模型,和其余的数据(2011 - 2020)是用来评估他们的预测性能。均方根误差(RMSE)和平均绝对误差(MAE)计算评估所有考虑方法的预测性能,如图3。RMSE值和梅越小,越接近实际值的预测值,结果表明更好的预测。预测错误的酒吧在图所示3,建议Autometrics样本外预测方法优于竞争对手的方法。这说明Autometrics比其他竞争对手模型具有良好的预测能力,它有着最低的预测在未来多步预测错误。
5。结论的话
在这项工作中,我们比较两个处罚Autometrics与技术,也就是说,极大极小凹点球(MCP)和顺利剪绝对偏差(竹荚鱼)等不对称误差分布指数,γ,邻改变样本大小以及预测。使用各种各样的场景模拟证明所有方法改善大样本大小。在低多重共线性的情况下,这些方法执行的效力,但在测量方面,收缩方法崩溃。高规导致overspecification模型。水平的增加解释变量之间的多重共线性产生的不利影响的性能Autometrics很少收缩方法的效力。同时,收缩的方法选择一个大规模组不相关的变量。我们已经观察到扩大高多重共线性的数据窗口减轻不利影响在效力与Autometrics稳步迅速,矫正规处罚技术。
对于真正的数据分析,我们认为黄金价格数据沿11共从1981年到2020年。比较所选方法的预测性能,我们把数据分成两部分,即1981 - 2010年作为训练数据和2011 - 2020的测试数据。这些方法在训练数据训练,并通过测试数据评估他们的表现。基于RMSE和梅,Autometrics保持最佳处理黄金价格趋势和提供更好的预测比MCP和竹荚鱼。我们观察到处罚技术有许多无关紧要的协变量与Autometrics相比,因此倾向于增加预测误差比较。
数据可用性
数据可以提供特殊要求。
的利益冲突
作者宣称没有利益冲突。