文摘
在这篇文章中,最优带宽参数调查加仑小时算法。首先,结合金融时间序列的程式化的事实,我们生成长的记忆序列利用ARFIMA (1,d,1)的过程。其次,我们使用蒙特卡罗方法研究加仑小时算法存在的影响试验、持久性或antipersistence判断长记忆,长记忆参数的估计精度。结果表明,以上三个因素在长期记忆测试精度达到了一个相对较高的水平的带宽参数区间内0.5 <一个< 0.7。不同长度的时间序列、带宽参数一个= 0.6可以用作加仑小时估计的最佳选择。此外,我们给加仑小时算法存在的计算精度,持久性或antipersistence长记忆,和长记忆参数d当一个= 0.6。
1。介绍
长期记忆广泛存在于生物学、医学、地质、水文、气候和社会科学领域(1- - - - - -3]。它指的是事实,观察相互依赖的长期和一个序列的自相关函数衰减缓慢。与长期记忆系统中,一些重要的历史事件影响未来长时间跨度,有助于长期记忆的形成。例如,它表明,股票市场的价格起伏和极端高温和低温影响相应序列的长记忆(4,5]。根据长期记忆和近似熵之间的关系揭示了平卡斯卡尔曼,序列的长记忆越强,其可预测性就越好(6]。此外,柏丽发现,如果一个时间序列长记忆,很难描述的内部结构特点与短记忆模型,如ARMA模型。此外,这些模型的模拟和预测精度相对较低(7]。因此,对长期记忆的研究具有十分重要的理论和实际应用8,9]。有两种类型的长记忆时间序列。一个是持久的长期记忆,这意味着时间序列的发展趋势将保持与当前的运动方向在未来。相应的长记忆参数 。持续的长记忆相反,另一种是antipersistent长记忆,表明未来的运动将相反的现状,及其长记忆参数 。人们普遍认为,英国水文学家赫斯特是第一个系统研究的长记忆特征。他利用赫斯特指数( )描述时间序列的长记忆强度(10]。赫斯特指数和长记忆参数之间的关系 (11,12]。当 (或 ),这意味着持续的长记忆时间序列的强。当 (或 ),这表明antipersistent长记忆时间序列是强大的。当 (或 ),时间序列随机游走,建议在理论上它的不可预见性。
到目前为止,有不少于十长记忆参数的工程计算方法,大致可以分为三类。第一个算法估计在时域,如聚合方差、差分方差(13],Higuchi [14),R / S分析和去趋势波动分析(DFA) [15]。第二个算法是频域估计,如惠特尔和平均周期图估计(16,17]。第三个算法是小波域估计方法,如小波最大估计量和小波估计18,19]。此外,基于上述算法,研究人员提出了许多改进的评估方法,如修改新范围(20.),准确的当地惠特尔的方法,和修改本地惠特尔估计(21,22]。然而,随着时域估计方法而言,很难判断长期记忆的意义从长记忆参数的统计分布不能。小波域估计算法,一个序列的结构特点的要求往往是过于严厉的正确提取模量,有时从定性分析结果的不同。full-parameter估计方法在频域,它要求随机摄动项具有高斯分布,如惠特尔估计,包括积分操作,在实践中难以满足。例如,众所周知,返回股市时间序列的分布曲线具有顶点和重尾特征23,24]。如果时间的评估方法和小波域被认为是一个非参数方法,研究半参数方法的逐步发展之间的妥协full-parameter和非参数方法在频域。不同于以前的方法,提出的加仑小时Geweke和Porter-Hudak25]在半参数估计有更好的优势,如它能减少随机项的正常需求的估计及其统计分布估计量在一定的范围内提供。基于加仑小时方法的框架,一些改进算法来估计提出了长记忆的序列(26,27],加仑小时方法的应用程序扩展到不同的长时间记忆序列,简化的概念,提高了算法的计算速度。罗宾逊建立加仑小时估计量的渐近正态性,结果表明,它适用于静止的和可逆的高斯向量序列(28]。Hurvich等人建立的渐近性质加仑小时估计方法和派生的渐近表达式的偏见,方差,和估计的均方误差,有效地评估的准确性均方误差的渐近理论有限样本大小(29日]。在此基础上,Velasco广义罗宾逊的结果,表明,锥有足够的数据,任何的修订预算d(包括不稳定和不可逆过程)和渐近正态分布相一致30.]。此外,Velasco的一致性证明了对数周期图的回归估计的长记忆参数系列学习时获得的远程相关线性时间序列和渐近周期图估计的渐近分布下的远程依赖时间序列可能非高斯观测(31日]。然而,一方面,从应用程序的观点,加仑小时方法仍然是一个基本估计方法(32,33]。另一方面,新方法需要编程操作,而加仑小时算法实现了菜单操作一些计量软件,如牛软件和R。因此,加仑小时方法是不可或缺的方法估计长时间记忆的普遍性和可操作性的应用程序。然而,有三个问题在使用加仑小时测试的长记忆时间序列(财务数据)34- - - - - -37]。首先,为参数的带宽 (N是序列长度),大多数的研究主要是选择0.5,0.6,0.7,和0.8或直接选择呢 估计长期记忆,它是由作者的主观性。其次,我们没有清晰的理解如何带宽参数的作用机理影响长期记忆的存在,长期记忆的持久性或antipersistence,估计参数的准确性的长记忆,利用加仑小时计算算法。第三,作为宋et al。38加仑小时]提出,是一种常见的问题和其他方法来估计序列的长期记忆,也就是说,一些作者进行了接近实际的仿真分析序列测试参数的准确性 。
本文基于ARFIMA (1,d,1)过程和一些典型的金融时间序列的特性,我们使用蒙特卡罗方法来测试参数的影响的存在长记忆,持久性或antipersistence长记忆,长记忆参数的估计精度 ,以给最优带宽加仑小时算法。
本文的结构安排如下:部分2是加仑小时的引入方法。部分3给出了蒙特卡罗模拟方法和验证规则。部分4仿真结果的分析。结论总结了部分5。
2。长期记忆的加仑小时半参数法估计
许多学者研究[39]表明,加仑小时半参数方法的基础是数据的过程是一个部分白噪声过程。因此,部分白噪声过程满足 ,在哪里是一个固定的过程。如果的谱密度函数吗 ,谱密度函数的可以表示为
离散化方程的对数形式(1), 在哪里 , ,和 。 序列的长度吗 ,和被称为样本数据的谐波频率。上学期Geweke和Porter-Hudak证明了 在方程(2)是微不足道的或接近一个常数足够小的谐波频率坐标。因此,普通最小二乘(OLS)算法可以在方程(2)来估计长记忆参数 。
此外,当 ,Geweke和Porter-Hudak估计量的说明方程(2)有一个近似分布: 在哪里 和 。为 ,方程(3)是实证检验,证明其理论仍然是一个悬而未决的问题。然而,对于实际序列,很难知道的真正价值提前。随着估计方程(2),长期记忆的存在可以通过判断估计是否进行验证是明显不同于0。忽略了 部分,方程(2)改变如下: 在哪里是克,也就是说。,the square of the magnitude of the spectral density function. Porter-Hudak proved that 听从耿贝尔分布与负欧拉常数,−0.57721的意思是,, 方差。因此,方程(3)进一步简化 在哪里 和 在大样本下的场景。的可以估计方程(5)。测试序列的长记忆的存在可以判断如下: 在哪里 , ,和 。当样本容量很大,t分布接近正态分布,估计量的统计检验由方程(6)可以约等于方程(3)。设置一个置信水平 ,我们可以检查的存在长记忆参数 。本文考虑的鲁棒特征加仑小时算法估计长期记忆,我们将让 。大样本,Agiakloglou等人,索厄尔提到方程(5)仍然可以估计序列的长记忆,即使有短期组件序列,如ARFIMA过程(39,40]。此外,Geweke和Porter-Hudak证明了长记忆参数之间的关系和赫斯特指数结构化方法,即 。
3所示。模拟方法和验证规则
3.1。模拟方法
在实证金融的研究中,人们普遍认为,一阶模型可以充分描述自相关和金融时间序列的波动41]。结合金融时间序列的典型特征,如顶点,沉重的尾巴,不对称分布,和长记忆,本文利用ARFIMA (1,d,1)模型和影响学生的t分布(SKST)生成仿真数据接近实际序列,以便测试带宽参数的影响加仑小时的长记忆估计算法。ARFIMA (1,d,1)模型表示为 在哪里 , ,和 。 和是偏态系数和自由程度的偏置学生的t分布。我们随机选择从(3、3)和设置= 4。和是自回归系数(AR)和移动平均系数(MA),分别。发现大部分的金融时间序列的自回归和移动平均系数模型与一阶1和1之间。因此,和从(1)随机。我们与长记忆参数生成9个类型的数据d0.2 0.3 0.4 =−−−−0.1,0,0.1,0.2,0.3,和0.4由方程(7)。鉴于加仑小时算法序列长度估计长记忆,我们产生5000序列长度N= 100,200,300,400,500,600,700,800,900,1000,2000,5000,10000,50000为每个长记忆参数。因此,有9145000 = 630000序列。图1显示了一个模拟序列及其概率分布。可以看出,模拟数据有一个顶点,沉重的尾巴,和不对称特征。应用加仑小时时算法来估计序列长期记忆,大多数的文献表明带宽参数 , ,和 (42,43]。为了充分理解不同带宽的影响参数在加仑小时估计在不同长记忆参数和序列长度,本文以 和离散化步长为0.01, 。
(一)
(b)
3.2。验证规则
主要从三个方面来分析带宽参数的影响一个测试序列的长记忆,包括长期记忆的存在,长期记忆的持久性和antipersistence,长记忆参数的计算精度与不同的序列长度。前两个方面的验证应该是一个进步的关系。长期记忆的存在首先测试序列。如果一个序列长记忆,我们判断的持久性或antipersistence长记忆。然而,根据我们的仿真结果,发现如果我们分析带宽参数的影响检查长记忆如上所述,许多有用的信息将会丢失。最优的参数范围一个来自长期记忆的存在的判断可能是一个非常小的间隔,甚至只有一个点。因此,很难全面调查不同带宽参数的影响长期记忆的持久性或antipersistence判断和估计的准确性长记忆参数 ,这并不有利于找出最优带宽参数一个。为此,我们设置以下规则来选择最优带宽参数 。
规则1。基于蒙特卡罗模拟和加仑小时算法,最优带宽参数集存在测试,持久性或antipersistence判断长记忆,和长记忆参数的估计精度被记录为 , ,和 。
规则2。根据不同的需求对测试序列的长记忆加仑小时算法,三个最优参数的相关子集一个构造, , ,和 。 表示最优参数集满足测试和持久性或antipersistence判断存在长记忆同步。 代表了最优参数一个设置满足测试,存在持久性或antipersistence判断长记忆,和长记忆参数的估计精度。根据上述定义,判断准确性存在下测试参数属于集是高于其他组。适用于相同的意义 和 集。
规则3。给定一个时间序列,我们假设其长记忆,没有内存的概率是相等的,即0.5点。,与长记忆时间序列不同的长记忆参数的概率是相等的。
3.2.1之上。存在长记忆的考验
当 ,我们设置 。此外,当 ,我们假设 , , ,和 。 是t统计的在带宽参数 。 代表的数量估计的值拒绝零假设下带宽参数 ,相当于的数量吗 ;同样的, 代表的数量估计的值不拒绝零假设下带宽参数 ,相当于的数量吗 。 是存在的判断精度测试的内存使用加仑小时算法在带宽参数和长记忆参数 。显然,越接近 方法1加仑小时算法更准确。 是用于测量的准确性测试序列不存在长记忆。为了全面判断的能力加仑小时算法来估计序列长记忆不同,我们给的均值 ( ),也就是说, 。作为 ,我们设置 进行比较分析。在实际的分析中,为一个序列 ,是不可能提前知道它长期记忆。因此,构建了测试序列的长记忆是否存在不同的带宽参数下不 。
3.2.2。长期记忆的持久性或Antipersistence判断
作为 和 表示长期记忆的持久性和antipersistence参数,分别构建评价精度和研究加仑小时算法不同参数的影响在漫长的记忆测试。
设置 , 在哪里 表示数量的估计和实际相同的正负符号下的带宽参数 。 判断精度持久性或antipersistence长期记忆下长记忆参数和带宽参数 。 和判断准确性的持久性和antipersistence长记忆,分别。综合判断准确性的持久性和antipersistence长记忆。
3.2.3。长记忆参数的估计精度
根据仿真结果,如果出错率 用于验证加仑小时算法的精度,发现有几个数量级之间的大或小 。这是不利于找到带宽参数的最佳范围 。本文作了一些规则如下。如果估计落在附近的真值 ,也就是说, ,它被认为是估计加仑小时算法的精度是有效的 。一个基本的选择原则是邻居 不同的参数不互相重叠。加仑小时算法的估计效率下长记忆参数和带宽参数定义如下:
是指估计参数的数量落在附近 。 平均估计加仑小时算法的效率与不同的长记忆参数。越大估计的效率越高,加仑小时算法在估计精度是多少。一般来说,较小的的选择 ,社区之间的距离越远 不同的参数和估计的数量越少落入 ,这样的歧视程度 可能下降,不利于发现带宽参数的最佳范围 。根据长记忆参数在蒙特卡洛斯模拟,我们集 在这篇文章中。
4所示。结果分析
4.1。判断存在长记忆
我们可以看到在图2的判断准确性测试存在长记忆逐渐增加的带宽参数 ,虽然没有长记忆的判断准确性,逐步减少。更具体地说,在范围内 带宽的参数 ,无论多长时间序列(本文模拟的长度),如果序列长记忆,判断精度小于0.3。当 ,判断的准确性只有0.1。然而,如果一个序列不长记忆,加仑小时算法的判断精度可以达到0.9左右。是不可能知道的长记忆时间序列是否存在提前,所以很难区分长记忆从没有内存加仑小时算法合理的带宽参数 。范围内 的带宽参数 ,对于不同长度的序列,如果序列长记忆,判断精度约为0.9加仑小时的算法。序列不长记忆,判断精度小于0.2。因此,与带宽参数 ,它不是适合区分长期记忆从长记忆。进一步分析表明,不适合使用加仑小时方法估计的存在长记忆时间序列的带宽参数 。根据存在的判断准确率曲线测试长记忆,没有记忆,两条曲线的交点 。在左边的点,没有长期记忆的判断准确性很低,和右边的点,长期记忆的判断准确性也较低。因此,判断的准确性没有长期记忆和长期记忆达到一个相对高的水平,这有利于加仑小时估计长期记忆的算法。此外,时间序列长度越长,判断准确率越高对应点。为了找出最优带宽参数的范围一个,我们绘制判断准确性的曲线在图3。当序列长度是2000或更多,这是见过的超过0.75在吗 。
4.2。长期记忆的持久性或Antipersistence判断
见图4对于不同长度的时间序列,判断准确率曲线长记忆的持久性或antipersistence呈现抛物线的形状相同。在带宽参数 ,判断精度达到一个相对较高的值。图5给出了综合评判的准确性的持久性和antipersistence。在带宽参数 ,看到的是判断准确性与时间序列长度的增加逐渐增加,当序列的长度超过2000,判断的准确性在0.9。
4.3。长记忆参数估计
在图6不同长度的时间序列和长记忆参数d,估计精度与长期记忆曲线参数表现出类似的形状。在带宽参数 ,精度达到一个相对较高的值。在图7,平均估计精度加仑小时算法。在带宽参数 ,可以看出,在时间序列长度的增加,平均估计精度下逐渐增加 ,这表明估计的概率值落入附近 增加与序列长度的增加和加仑小时算法是有效的。
为了使最优参数一个适合三个分支的长记忆测试,十带宽参数相应的判断精度高加仑小时估计在不同序列长度记录作为最优带宽参数范围,见表1。
根据表1,我们使用交叉指的共同部分不同,找出最优带宽参数范围在几个场景。没有考虑到序列长度,我们可以选择[0.59,0.62]的最佳带宽范围加仑小时算法测试和持久性或antipersistence判断存在长记忆,而最优带宽参数估计精度的长记忆参数d属于[0.6,0.67]。通过最优带宽参数存在的交叉测试,持久性或antipersistence判断长记忆,和长记忆参数的估计精度,可以得出以下结论:①如果加仑小时算法只需要估计存在长记忆的考验,带宽参数的理想范围[0.59,0.62]。②如果存在测试和长记忆的持久性或antipersistence判断同步估计,理想的范围是[0.59,0.61]。③除了上述两个方面的长期记忆,如果长记忆参数的估计精度是进一步的要求,理想的带宽参数范围可以不同[0.6,0.61]。考虑到序列的长度,我们可以应用的带宽参数范围的[0.58,0.61]存在测试,持久性或antipersistence判断长记忆,长记忆参数的估计精度与序列长度低于1000。考虑到操作方便, 建议作为最优带宽参数估算加仑小时长记忆的算法。
表2提供加仑小时算法的计算精度估计长时间内存的带宽参数 。 表示加仑小时算法存在的计算精度测试的长记忆,等于 。 是令人满意的计算精度测试和持久性或存在antipersistence判断长内存同步。
的计算步骤 是之间的最小数目的比率存在测试和长记忆的持久性或antipersistence判断总模拟数字,这是类似的计算 ,也就是说,
是令人满意的计算精度测试,存在长记忆,持久性或antipersistence判断和估计的准确性长记忆参数同步。的计算过程 是
从表2与序列长度的增加, , ,和 正逐渐扩大。当序列长度超过700超过0.7, 是超过0.7当序列长度超过1000人。然而,对于 ,当序列长度是5000,它的值只有0.4822,这主要是由于穷人加仑小时算法在估计精度长记忆参数。在图7当序列长度短,如300年,估计精度下的判断准确性只有0.2 ,这意味着大约80%的估计参数不在附近的真正价值 。结果是一致的结论26]。因此,加仑小时算法估计长记忆参数时具有一定的缺陷。只有当序列长度超过10000,估计的结果是有效的。
5。结论
在本文中,我们使用蒙特卡罗模拟方法生成与不同长度长记忆序列利用ARFIMA (1,d,1)过程,研究加仑小时算法存在的影响试验、持久性或antipersistence判断长记忆,和长记忆参数的估计精度。在带宽参数 ,对于不同长度的时间序列,判断加仑小时算法存在精度测试,持久性或antipersistence判断长记忆,长记忆参数的估计精度都达到一个相对高的水平。 可以选择在应用程序作为最优带宽参数。与时间序列的长度增加从100年到50000年,加仑小时估计算法的准确率测试存在长记忆的增加从0.5612到0.8786。加仑小时算法的计算精度持久性或antipersistence判断长期记忆是从0.4697到0.8673。令人满意的计算精度测试和持久性或antipersistence判断存在长记忆从0.0623到0.6624。长期记忆的规则用于分析加仑小时估计的算法逐渐从实验结果讨论。这是一个实用而新颖的方法,可以作为参考的其他方法测试长期记忆。
数据可用性
在这项研究中使用的数据都可以在请求从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由中国国家自然科学基金(批准号71701024和71701024)和国家社会科学基金(20号&zd128, 20 crk018 20 ctj015和21 bjy007)。