文摘

变化点检测的目标是识别时间序列数据的突然变化。这是合适的,例如,查找事件描述金融市场或检查数据流的股票回报。回归模型分为监督方法变点检测中发挥了重要作用。然而,由于变化点可能不是可事先训练模型,因为序列数据可能是统计非典型,回归模型的适用性是有限的。为避免统计假设,本研究采用灰色理论,一种人工智能的工具,通过灰色关联分析来衡量序列之间的关系(GRA)。本文提出一种无监督的方法有助于检测可能的变化在时间序列点草。变点分析方法进行S&P100股票回报。评估识别准确率的实验结果显示,该方法比其他方法表现良好考虑变点检测。

1。介绍

变化点代表一个不同的序列或国家之间的过渡的时间序列(1]。从统计的角度来看,两个连续的序列的概率密度函数产生一个变化点是不同的(2,3]。检测转换在时间序列数据变得越来越重要。许多变点检测(CPD)方法已经提出了一系列现实问题的检测和反应有趣的事件,诸如气候变化检测(4,5),图像分析(6)、水文(2,7,8],医疗问题[9,10)、旅游预测(11,12]。统计方法,如似然比检验、标准正态同质化过程(13),回归,在CPD采取了一个重要的角色。

学习方法应用于CPD问题可以监督或无监督。回归模型逻辑回归等(14)和支持向量机(15,16)可视为一种监管方法,与足够的训练数据和标签需要提供合理的性能1,17,18]。然而,它是可能的变化点是完全未知的,或者只有几个可用之前培训。此外,收集的时间序列数据很可能不符合统计特性如同质性和错误的常态。因此,回归应用于CPD时受到限制。监督方法相比,非监督学习使用无标号数据找到想要的模式(19]。因此,扩大回归的适用性,我们尝试使用regression-like方法来测量反应和解释变量之间的关系,以开发CPD的无监督方法。

给定一个时间序列,每个变量在系列可以扩展一个滑动窗口的时间序列变量序列(14,20.,21]。它是发现,灰色理论,分为人工智能工具(22),可以有效地测量之间的关系的度序列通过灰色关联分析(GRA) [23- - - - - -27]。估计之间的关系一套参考序列和比较序列,抓住治疗参考序列作为所需的目标或响应变量(28]。的确,草已被广泛应用于各种现实问题(例如,[29日- - - - - -40])。在实践中,草地上分配一个所谓的灰色关联度(GRG)各比较序列,这样GRG越大,越接近参考序列的关系。CPD,给定一个参考序列,当时间序列变量的各自GRGs获得一组比较序列,我们可以研究如何使用这些评级来确定所有可能的变化点。因为它不需要训练之前,本文有助于提出CPD的方法检测多个变化点在时间序列。

尽管掌握的有用性,很少有研究解决CPD的采用。例如,黄等。2)用草来分析水文时间序列变化点。提出了灰色CPD方法之间的主要区别和黄et al。年代GRA-based (WGM)方法,该方法可以检测多个变化点从收集到的数据,但只有一个可以被WGM变化点。因为多个变化点通常存在于时间序列数据,这使得WGM限制。评估的性能提出了灰色CPD法是否可以检测到变化点,几个指标可以采用,包括敏感性,特异性,G意思是(1]。

剩下的纸是组织如下。部分2介绍了regression-like草。部分3提出了灰色CPD法。节4,我们检验该方法的检测性能使用真实的数据从日常日志返回股票上市的标准普尔100指数(S&P100)。部分5提供了一个讨论和本研究的结论。

2。Regression-Like草

让(x1,x2、…xn)表示时间序列的序列长度n,在那里x(1≤n在时间戳)代表一个变量。在一个时间序列,滑动窗口X= (x,x+ 1、…x+年代−1)与长度年代(1≤年代n)可以代替使用x。此外,+年代不能大于−1n。参考序列X= (x(1),x(2)、…x(年代))= (x,x+ 1、…x+年代−1),+ 1比较序列,X,X+ 1= (x+ 1(1),x+ 1(2)、…x+ 1(年代))= (x+ 1,x+ 2、…x+年代),X+ 2= (x+ 2(1),x+ 2(2)、…x+ 2(年代))= (x+ 2,x+ 3、…x+年代+ 1),…X+= (x+(1),x+(2)、…x+(年代))= (x+,x++ 1、…xn),准备CPD,=n年代+ 1。例如,给定n= 6,= 3,年代= 3,它遵循= 1,+年代−1≤n持有。因此,X3= {x3,x4,x5}是参考序列,两者兼而有之X3X4= {x4,x5,x6}成为比较序列。

从多属性决策的角度,草可以用来评估决策问题+ 1替代和年代属性。因此,年代不应小于2。之间的关系Xx(k),Xj(j++ 1)xj(k(1)≤k年代)可以推导出的灰色关联系数(GRC),用ξk(Xj,X),如下所示(24]: 在哪里ρ(0≤ρ≤1)是歧视系数和

需要指出的是,ρ通常被指定为0.5 (23- - - - - -25),但这显然不是一个最优的设置。

整体的关系,r(X,Xj之间),XXj可以获得通过聚合吗ξk(X,Xj)如下:

这意味着每个变量在一个序列是相同的重量。XXj依赖和独立变量类似于在传统回归,然后呢r(X,Xj)类似于回归系数XjX

3所示。提出了灰色CPD法

r(X,Xj)提出的灰色CPD法的基础。在变量的集合{x,x+ 1、…x+},CPD可以进行检查的绝对比变化对xj,δ(Xj),作为制定。 δ(Xj)也各种程度的措施r(X,Xj)。如果x是一个候选人的变化点,然后δ(X)之间的最大价值δ(Xk),这样 反之亦然。xj可以判断作为改变点什么时候δ(X)≥θ,在那里θ表示削减非负价值。的价值就越大θ更少的可能的变化点,可以被发现。

未来可能的变化点可以发现在{x+ 1,x+ 2、…x+},=n年代,因为之前的候选人变化点(x)。在实践中,X+ 1= (x+ 1(1),x+ 1(2)、…x+ 1(年代))= (x+ 1,x+ 2、…x+年代)可以作为参考序列,X+ 1,X+ 2= (x+ 2(1),x+ 2(2)、…x+ 2(年代))= (x+ 2,x+ 3、…x+年代+ 1),X+ 3= (x+ 3(1),x+ 3(2)、…x+ 3(年代))= (x+ 3,x+ 4、…x+年代+ 2),…X++ 1= (x++ 1(1),x++ 1(2)、…x++ 1(年代))= (x++ 1,x++ 2、…xn)作为比较序列。然后,被设置为+ 1。考虑到序列长度年代之间的年代1年代2(1)<年代1<年代2),这CPD过程反复进行,直到+年代−1 >n为每一个可能的值ρ从0到1。图1证明了提出的灰色CPD方法的流程图。

4所示。实证结果

4.1。CPD方法考虑

由于草地的主要应用是替代评价和聚类,两个无监督聚类方法被认为是在实证分析CPD方法截然不同的特性,即黄等的GRA-based方法(WGM) [2),clustering-based改变探测器(CBCD) [41),和分段线性函数。这些方法简要描述如下。

以下4.4.1。WGM

WGM最初被设计成检测水文时间序列变化点。该方法考虑了参考序列X1= (x1,x2、…x年代),n−2年代+ 1比较序列,X年代+ 1= (x年代+ 1,x年代+ 2、…x2年代),X年代+ 2= (x年代+ 2,x年代+ 3、…x2 s+ 1),…,Xn年代+ 1= (xn年代+ 1,xn年代+ 2、…xn)。后计算r(X1,X年代+ 1),r(X1,X年代+ 2),…,r(X1,Xn年代+ 1),的关系程度X1比较序列被定义为所有

随后,X1取而代之的是(x1,x2、…x年代+ 1),而X年代+ 2= (x年代+ 2,x年代+ 3、…x2 s+ 2),X年代+ 3= (x年代+ 3,x年代+ 4、…x2 s+ 3),…,Xn年代= (xn年代,xn年代+ 2、…xn)变得比较序列,r(年代+ 1)可以因此获得n−2年代−1比较平均序列。这个过程直到执行r(n/ 2)。CPD可以通过检查进行的相对各种比例关系程度 在哪里k=年代,年代+ 1…n/ 2−1。WGM检测xj作为一个时刻变化η(j)满足

很明显,只能检测到一个变化点与WGM一系列时间序列,序列的长度无关。此外,比较序列生成的一个时间序列变量方法不同于WGM。然而,由于多个变化点通常存在于时间序列数据,没有考虑WGM的实证研究。

4.1.2。CBCD

CBCD执行CPDK——集群。最初,一个参考窗口(x1,x2、…x年代)是给定的K创建集群。的重心cp和半径rp集群的p(1≤pK)可以计算如下: 在哪里np表示集群的大小p,xp,k代表了样本k在集群中p。然后,当前窗口(x2,x3、…x年代+ 1)生成取代x1新上任的x年代+ 1和之间的距离x年代+ 1cp是计算

如果d(x年代+ 1,cp)>rp,然后x年代+ 1不是一个成员的集群p

作为一个结果,x年代+ 1可以考虑改变点时不能被归类到任何集群。在这个时候,(x2,x3、…x年代+ 1)成为参考窗口K可以创建新集群的新参考窗口。随后,抓住当前窗口x年代+ 2生成(x3,x4、…x年代+ 2),x年代+ 2是检查是否变化点。这个过程终止后检查xn

4.1.3。分段线性函数

分段线性函数已经被发现用于CPD的关节部分通过近似函数连续(42]。李和Yu (43]提出了分段回归分析,要求用户prespecify变化点的数量虽然这很可能是事先未知。基奥et al。44)提出了几个有用的CPD方法不需要prespecifying变化点的数量,其中自底向上的方法似乎表现最好的。自底向上方法决定了一块近似每个州,属性近似函数的连续性并不存在。我们稍微修改自底向上方法符合连续性的角度。

起初,一块凹陷(表示为x−1,x)是生成的(x−1,x)通过连接x−1x(2≤n),合并的成本每一对相邻块然后计算。例如,如果合并凹陷的成本(x一个,x一个+ 1)和赛格(x一个+ 2,x一个+ 3)是最低的,如果小于指定合并阈值,然后一块新赛格(x一个,x一个+ 3可以通过删除赛格(生成)x一个,x一个+ 1)和赛格(x一个+ 2,x一个+ 3)。产生凹陷的成本(x一个,x一个+ 3)是由加法的计算r在赛格(x一个,x一个+ 3),x一个,x一个+ 1,x一个+ 2,x一个+ 3。合并成本的赛格(x一个−2,x一个−1)和赛格(x一个,x一个+ 3合并赛格(的),x一个,x一个+ 3)和赛格(x一个+ 4,x一个+ 5可以计算)。然后,该方法迭代合并成本最低的两人,直到合并任何一对相邻块的成本大于阈值。

一种新方法,称为滑动窗口和自底向上(棍)方法,研制了在线检测(44]。拭子有效地产生结果相同的自底向上的方法。我们用棉签来实现分段线性函数,但为了简单起见,我们省略介绍这种方法。

4.2。CPD绩效评估

为了比较另类CPD方法,适当措施的性能是必要的。因为改变指向数据总量的比例很小,CPD通常参与学习问题类分布不平衡。当治疗CPD作为一种模式分类问题,G意思是结尾的一个常用指标CPD性能(16]。

混淆矩阵用于评估性能表1CPD方法表示如下。

G意思是然后利用敏感性和特异性评估性能的措施,在正确认识变化的敏感性是指比点,和正确识别的特异性是指比率nonchange点。 敏感性和特异性的配方是在哪里

4.3。应用S&P100股票回报
4.3.1。数据收集和准备

实证研究进行了使用一个真实的数据集比较该方法的CPD能力CBCD和棉签。CPD的任务进行的每日收盘值取股票S&P100指数组成。变化点在股票收益可以更好地发现事件表明金融市场的特点。88系列来自不同机构而言,Barigozzi et al。45)利用时间序列因素模型,从而衍生出多个主要变化点之间在日常日志返回4 2000年1月至2016年8月10日。变化点他们发现可以被视为真正的变化点。此外,在这些88系列,系列中提到的两个代表(45),即,高盛(GS)和美国银行(Bank of America)都考虑进去。所有的数据都可以从雅虎财经。

实证研究的目的是检查G意味着CBCD,棉签,提出灰色CPD法通过仔细调优参数规格。因为时间,包括太少或没有变化点是无益的寻找参数规格,从2004 - 2006和2011 - 2016年的数据被排除在GS和BAC系列。因此,8年时间序列仍然GS和BAC 31日变化点(日期为每个系列)。

除了,因为变化点是与事件,它是合理的分析改变通过月点及其对应的事件,而不是特定的天报道(45]。例如,互联网泡沫的破裂发生在2000年3月和2002年10月之间。因此,31日变化点最初由一个特定的日期表示被月减少到21点变化表示。例如,2000年5月4日和2000年5月10日被发现变化点,但是我们这两天换成一个变化点:2000年5月。

4.3.2。CPD结果

程序实现该灰色CPD法被编码在Delphi 7.0个人电脑的英特尔酷睿i3 - 8100 CPU、Microsoft Windows 10 8 GB RAM和时钟频率为3.60 GHz。两个参数显著影响的性能提出了灰色CPD方法随着时间的八段:序列长度年代和减少值θ。的部分k(1≤k≤8),年代之间的年代1年代2,θ从零到6是仔细调整,最大化G的意思是k,如下所示: 在敏感性k和特异性k表示部分的敏感性和特异性k,分别。例如,G的意思是2,灵敏度2和特异性2与时间相关联部分2001年1月至2001年12月。的最大G的意思是2值可以通过调优θ。最后,所有的八段的最优结果被用来总结整个CPD的结果。该方法的结果总结了GS系列表2G意味着= 0.713由该方法获得的最佳性能。

2表明,该方法的性能可以通过选择适当的改进年代1年代2。因此,该方法进一步应用到BAC系列通过寻找适当的参数规范的范围内年代(3≤年代≤12)。因此,当年代1= 5,年代2= 12,敏感性和特异性分别为0.714和0.72,分别获得最好的G意思是(0.717)的方法BAC系列。

(1)与CBCD比较。改善CPD结果,确定的规则x年代+ 1不是一个成员的集群p应该修正。在我们的设计中,如果d(x年代+ 1,cp)大于一个指定半径阈值而不是rp,然后x年代+ 1不是一个成员的集群p,反之亦然。相比之下,CBCD敏感集群的数量K、序列长度年代和半径的阈值。半径的阈值为0.005和0.01,性能值的CBCD GS系列中描述的人物2- - - - - -7,虚线表示该方法的性能值。BAC的性能值系列中描述的人物8- - - - - -13。因为最好的G意味着在GS系列是0.598K= 4,年代= 15,半径阈值为0.01,和0.556 BAC系列K= 3,年代= 5,半径阈值为0.01,该方法优于CBCD条款G的意思是。

此外,更大的半径阈值(0.01)会导致更少的变化点的发现更高的特异性。相比之下,半径较低阈值(0.005)会导致更好的敏感性的特异性。这就是为什么该方法的敏感性和特异性都大大优于CBCD的半径或高或低的阈值的情况下,分别。

(2)比较拭子。合并阈值显著影响拭子的性能。拭子的性能在不同的合并阈值GS和BAC系列中描述的人物1415,分别。合并阈值越大,越少的数量变化点,可以发现,随着低敏感性和高特异性。最好的G意味着对GS系列0.690合并阈值为1.8和0.661的BAC系列合并阈值为1.9。因此,最好的G意味着,该方法优于拭子和两个系列。

5。讨论和结论

在金融市场,CPD可以应用于发现异常一系列股票收益的波动。使用检测到的变化点,我们可以找到并占事件描述这种波动。这可以帮助有关部门检查或设置管理机制来应对这些非凡的情况。正确识别变化点,开发一个精确的和高性能的CPD是至关重要的方法。本文收集系列的地址的变量不能被标记,因为变化点是未知的。在这种情况下,传统的回归方法不能执行CPD。因此,我们提出了一个无监督regression-like方法使用草。绿草是一种多属性决策方法,它能够有效地评估替代品的整体性能46]。

有几个优势,使用提出的灰色CPD法。首先,没有限制的时间序列数据,如平稳性,数据不需要独立且同分布。第二,没有必要prespecify变化点的数量。最后,该方法是足够简单的实现作为一个程序没有任何统计假设。实证结果在两个代表一系列股票收益令人鼓舞的使用提出了灰色CPD法获得的性能。这表明用草来测量反应,说明时间序列变量之间的关系可以提高该方法的性能。应该注意的是,CBCD和拭子比该方法可以获得更好的灵敏度,但只有牺牲特异性。(1)GS系列,CBCD最好的敏感性为0.905K= 3,年代= 5,半径阈值为0.005。的拭子1合并阈值为0.5。前者和后者的特异性是0.36和0.053,分别。(2)BAC系列,CBCD最好的敏感性为0.762K= 4,年代= 20,半径阈值为0.005。的拭子是0.857合并阈值为0.5。前者和后者的特异性是0.347和0.147,分别。

这是的原因G敏感性和特异性相结合,意思是常用的测量性能的CPD方法从分类的角度。因此,它是不可能的结论是否分类方法是“最好的”因为没有所谓的最佳分类器(47]。

这项研究促使我们进一步探索研究。首先,提出了灰色CPD方法可以进一步应用于其他现实问题。例如,它可以用来发现异常交易在股票市场。检测异常波动的股票价格可以为管理者提供关于投资和防止犯罪的有用信息。我们将在未来的研究探索这个应用程序。此外,GRG是使用加权平均的方法实现,noninteraction被认为所涉及的属性之一。尽管如此,可加性的假设与许多应用程序(可能是不现实的48]。因此,未来的工作将探索的发展非相加灰色CPD法使用非相加GRG与模糊积分(39,49),检查结果对性能的影响。应该注意的是,模糊积分已被证明是有效的在处理绩效评估和优先属性之间的依赖50- - - - - -52]。

数据可用性

作者宣称没有利益冲突。本文不包含任何研究与人类参与者由作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是财务科技部的支持下,台湾,在格兰特最110 - 2410 h - 033 - 013 my2。