文摘
时间序列表示,分段趋势近似(PTA),提出了提高效率的高维时间序列数据挖掘大型数据库。家长会代表时间序列以简洁的形式,同时保留原始时间序列的主要趋势;原始数据的维数是因此减少,维护的关键特性。不同于基于原始数据空间的表征,PTA变换原始数据空间的特征空间比任何两个连续的数据点之间的原始时间序列的表示符号和大小变化的方向和程度的当地趋势,分别。执行基于ratio-based特征空间,分割,每两个相连的部分有不同的趋势,然后分段段近似的比率之间的第一个和最后一个点内段。验证提出的家长会,与古典时间序列表示PAA和APCA在两个经典事例数据集通过应用常用的分类算法。ControlChart数据集,PTA优于3.55%和2.33%更高的分类精度和高8.94%和7.07% Mixed-BagShapes数据集,分别。表示,拟议的家长会是有效的高维时间序列数据挖掘。
1。介绍
时间序列表示时间序列数据挖掘的一个关键问题,因为合适的选择表示极大地影响缓解和时间序列数据挖掘的效率。为了解决高维度问题在现实世界的时间序列数据,通过应用大量的时间序列表示提出了降维。
降维方法帮助比较有效时间序列的时间序列建模成一个更紧凑的形式,而重要的主要趋势时间序列信息,是必不可少的有效的相似性搜索,可能会丢失。支持精确和快速的在时间序列相似性检测,许多特殊要求应满足任何表示模型总结如下(1]。(我)时间Warping-Awareness。时间序列建模应该成一种可以自然地映射到时域。这将使它可行的受益于使用动态时间扭曲(DTW)可以比较与当地时间变化和不同长度时间序列相似性检测。(2)低复杂度。由于高维度的时间序列数据,建模应该保持合理的执行时间序列复杂性较低,这可能是线性的系列长度。(3)对相关特性。显然是可取的,时间序列近似能够保存尽可能多的原创剧集中的信息。为此,近似一个时间序列应该以这样的方式完成它裁缝自己地方特色的系列,为了捕捉系列的一个重要趋势。(iv)没有参数。大多数表示模型和降维方法需要用户指定某些输入参数,例如,系数或符号的数量。然而,先验领域知识往往是不可用,对输入参数的敏感性可以严重影响模型的准确性表示或降维方法。
从实证角度,它最近注意到,没有绝对的赢家在时间序列表示在每一个应用程序域。因此,它是至关重要的时间序列表示保持特性,对相应的应用程序域很重要。敏感的特性可以被认为是根据三个主要subrequirements段在单个时间序列中发现:(a)段可能有不同的长度,(b)任何部分代表不同的斜坡(趋势)的一个数据点的子序列,和(c)段捕捉系列趋势(1]。
斜坡(2)和导数估计(1)是用来表示时间序列的趋势通常在文献中。由于正切函数的性质,是用来计算斜坡上,很难区分两种趋势的度角接近利用斜率代表趋势。在时间序列分段近似导数(DSA)表示(1原始时间序列,首先转化为一阶导数的估计点,分割和近似是基于导数的估计时间序列。已经观察到相对变化,任何两个连续的数据点之间的比率在给定时间序列,适合代表趋势时间序列(3]。率的大小反映了变化的趋势和程度的标志自然比率代表了趋势的改变方向。基于ratio-based时间序列,时间序列表示,分段趋势近似(PTA),提出,保留原始时间序列的主要趋势的重要特征降维的简洁。相比传统的表征原始时间序列数据的基础上,提出PTA表示是基于当地的原始时间序列数据的趋势。也就是说,原始数据首先转换为本地趋势(比率),细分不同趋势的时间序列分为段然后执行基于比率,和每一段终于近似的比率第一个和最后一个数据点之间的部分。
家长会可以满足前面提到的前三个要求。(我)可以直接使用DTW相比PTA表示。(2)ratio-based特性生成允许代表一个时间序列通过关注系列的趋势特征。(3)计算复杂度与系列的长度,PTA是线性和PTA的维度是自适应的确定趋势。
验证提出的家长会,家长会的时间序列分类的性能比传统表示。这些实验是基于两个经典数据集通过应用最近的邻居(神经网络分类方法。比较实验结果表明,PTA在分类精度优于传统的表示。
节2、时间序列表示对不同的维数降低,技术进行了综述。提出了部分PTA表示3和实验验证提出了时间序列分类PTA节4。
2。时间序列表示
减少维数的时间序列分段不连续函数或低阶连续函数通常是应用于近似成一个紧凑的形式。本研究着重于第一个降维方法,并基于分段时间序列表示不连续函数进行了综述如下。
分段approximation-based表示包括离散小波变换(DWT) [4,5摆着门(SD) []。6],分段线性近似(PLA) [7,8],分段聚合近似(PAA) [9- - - - - -11),自适应分段常数近似(APCA) [12),符号集合近似(SAX) [13),而时间序列分段近似导数(DSA) (1]。
利用DWT,时间序列表示的有限长度、衰减快,振荡,并离散采样波形(母小波),比例和翻译为了创建一个标准正交小波基。每个函数的小波基与一个真正的系数;原系列重建通过计算加权和所有功能的基础上,使用相应的权重系数。哈雾基础(14在小波变换)是使用最广泛的。的DWT表示时间序列的长度由识别小波系数,而降维是通过保持第一系数()。
SD是一种数据压缩技术,属于分段线性趋势的家庭功能。SD相比,小波压缩。SD算法采用启发式决定是否一个值是存储在段生长或者是新一段的开始。给定一个枢轴点,这表明一段的开始,两行(“门”)是来自它笼罩着所有的点被认为是下一个。包裹有一个三角形的形式根据参数,指定的初始振幅线。该参数的设置对数据压缩的影响水平。
在中国人民解放军方法,时间序列是由一个分段线性函数表示,也就是说,一组线段。提出了几种方法来识别解放军片段(例如,7,8])。
PAA转换的时间序列在一个新的由点段(),其中每个组件的大小等于并由数据点的平均值下降段内。
像PAA, APCA接近段序列的时间序列,每一个由数据点的平均值。PAA的主要区别是APCA可以识别可变长度的片段。APCA算法也能够生产高质量的近似诉诸解决方案采用了时间序列的小波域。
在SAX方法中,维度的原始时间序列首先减少应用PAA,然后PAA系数是量子化的,最后每个量化级别是通过一个符号表示时间序列的SAX是一个象征性的表示。
DSA表示是基于原始时间序列的衍生版本。DSA需要导数估计、细分和细分建模一个时间序列映射到不同的域值可以维持原系列的重要特征信息密集的简洁。
为代表的时间序列点,它可以执行利用DWT, SD,最快的版本的解放军,PAA, SAX,和DSA,而APCA的复杂性。
有一些其他类型的应用时间序列表示连续的多项式函数来近似时间序列,包括奇异值分解(计算)15,16),离散傅里叶变换(DFT) [17,18),样条函数、非线性回归和切比雪夫多项式(19,20.),其中的细节请参考引用。
相比传统表示原始数据的基础上,基于时间序列表示比率之间的任何两个连续的数据点在给定时间序列,提出了采用分段段近似减少部分的维度3。
3所示。PTA:分段趋势近似
给定一个时间序列,在那里是一个真正的数值和是时间戳,它可以表示成一个家长会表示吗 在哪里是正确的的终点段,之间的比率是和在th段,之间的比率是第一点吗和。的长度段可以计算。
PTA接近一个时间序列,运用分段不连续函数来降低维数。PTA的算法包括三个主要步骤:(1)当地趋势转换:原始时间序列转换成一个新的系列,数据点的值比率之间的任何两个连续的数据点原始系列;(2)细分:改变了当地的趋势系列分为变长段,这样两个连接段代表不同的趋势;(3)段近似:每一部分代表了第一个和最后一个数据点之间的比率在段内,这表明趋势的特点。
3.1。当地趋势变换
给定一个时间序列,,一个新的系列实现从由当地趋势改变,比率的值是,。
每两个连续的数据点之间的比率根据证明方程计算(1)如下: 的确是一个当地的趋势特征空间映射与一维原始数据空间减少。虽然坡常被用来代表趋势在文献中,很难区分两种趋势的度角接近由于属性的正切函数用于计算斜坡。比例,然而,更适合代表趋势因为比率的大小反映了变化的趋势和程度的标志自然比率代表趋势的改变方向。虽然一维简化,对于许多实际应用是不够的。因此,通过接下来的两个步骤将被压缩成一个更简洁的形式。
3.2。分割
给定一个时间序列,,是划分为,在那里子序列的决定的关键,某些行为发生变化。在PTA,分割是基于当地趋势系列原系列的。也就是说,序列分为序列组成的变长段。每两个连续的部分代表不同的趋势。由于PTA的分割是基于比例由当地趋势变换,信号代表趋势的方向,细分的主要思想是分开的通过找出第一点,这样它的符号是不同于以前的点。假设表示比率和的门槛表示的符号在,序列被确定为一段当且仅当吗,,,。
因此,原始数据分割为,,。
这种分割总量数据点拥有相同的改变方向,使子序列代表原始数据直观地波动。因此,降低维数是适应性趋势波动和不需要参数。
3.3。段近似
近似的片段,,,这个比例在每段之间的第一个和最后一个点来表示计算主要趋势信息的任何部分。最后,PTA表示,,,就是这样了
家长会表示维护的重要特征趋势变化以简洁的形式,虽然它的计算复杂性是线性长度的序列,。此外,由于PTA表示的长度是由原始时间序列的波动,相似性PTA表示可以比较通过应用动态时间扭曲。
3.4。距离测量
比较两个时间序列数据相似性搜索任务,介绍了各种距离的措施。到目前为止最常见的距离度量时间序列的欧几里得距离21,22]。给定两个时间序列和同样的长度,它们之间的欧氏距离定义为
在原始时间序列分段PTA表示,据当地的变化趋势,并因此改变了PTA表示的长度自适应与原始时间序列的趋势变化。欧几里得距离有限比较等效长度的时间序列,因此无法直接应用于时间序列相似性搜索PTA。
解决欧几里得距离的限制,动态时间规整(DTW)提出了评估变长时间序列的相似性(23]。与欧氏距离,DTW允许弹性变化的序列提供了一个更好的匹配与另一个序列;因此,它可以处理与当地转移和不同长度时间序列。因此,DTW可以直接应用于测量的时间序列相似性家长会的形式。
4所示。实验时间序列分类
时间序列的分类已经吸引了来自数据挖掘社区的利益更大(24- - - - - -26]。验证的性能提出PTA表示时间序列相似性搜索的数据,我们设计一个分类实验基于两个经典数据集ControlChart和Mixed-BagShapes27]运用最常见的分类算法,最近的邻居(神经网络分类。ControlChart合成数据集的六类:正常循环,增加趋势,下降趋势,向上移,向下转移。每个类包含100个实例。图1表明,代表性实例ControlChart数据集的每一个类。Mixed-BagShapes包含时间序列来自160个形状与九类的对象,包括骨、杯、设备,叉,玻璃,铅笔,兔子,和工具。每个类的样本实例Mixed-BagShape图所示2。
(一)
(b)
(c)
(d)
(e)
(f)
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
拟议的家长会比较两个经典表示,PAA和APCA介绍部分2。的简要评述了神经网络分类算法4.1,介绍了数据预处理部分4.2,实验结果说明部分4.3。
4.1。最近的邻居(nn)分类
神经网络是一种应用最广泛的基于实例的学习方法(28]。给定一组的训练的例子,在接收一个新实例预测,神经网络分类器将确定最近的邻国培训新实例的例子,然后分配最多的类标签拿邻居的新实例(29日]。对时间序列数据进行分类,它是简单的调查能力的时间序列相似性搜索通过应用表征神经网络算法相比,由于时间序列可以在其他实例神经网络。
4.2。数据预处理
为了减少噪音数据,原始时间序列通常由平滑预处理技术在时间序列数据挖掘。有必要使数据服从通过去噪进一步数据挖掘任务。在家长会,有必要消除干扰时间序列数据在本地趋势转换,以避免噪声的主要趋势是平庸的。因此,应用平滑降噪前原始数据本地趋势转型PTA。
常用的平滑技术是移动平均模型包括简单的移动平均线,加权移动平均、指数移动平均线。在我们的实验中,应用指数平滑法对原始数据进行预处理,以减少噪音。给定一个时间序列,输出被定义为的指数平滑算法 在哪里平滑系数和吗。
4.3。时间序列分类的实验结果
最常用的神经网络算法是用来促进独立确认提出PTA表示。与邻域大小有关在神经网络算法,采用简单而竞争非常激烈的1-NN算法在这个实验中,也就是说,神经网络与等于1。滑动窗口的参数PAA表示和PTA需要预定义的阈值。段的数量对PAA决定的滑动窗口而PTA和APCA适应性与原始数据的波动。比较有效地表征,参数试了好几次,按压(即。,段数)表示相等或者至少很近。分类精度的定义是 在哪里是出错率。
比较结果ControlChart和Mixed-BagShapes利用leaving-one-out交叉验证表所示1。每个代表的结果是最好的结果,试验不同的参数。ControlChart,提出PTA优于PAA和APCA 3.55%和2.33%更高的分类精度,分别。Mixed-BagShapes, PTA收益率8.94%和7.07%改善分类精度与PAA和APCA相比,分别。表明PTA优于竞争表示更高的分类精度,这表明PTA为时间序列分类是有效的代表原始数据简明地保留重要的特性变化趋势。
5。结论
为了提高效率,在高维时间序列数据挖掘大型数据库、分段趋势时间序列表示近似(PTA)提出了代表原始时间序列为一个简洁的形式,同时保留重要的特性变化趋势。不同于基于原始数据的表示空间,PTA变换原始数据空间到特征空间中的任何两个连续的数据点之间的比率原始时间序列,其中指示符号和大小变化的方向和程度的当地趋势,分别。执行基于ratio-based特征空间,分割,每两个相连的部分有不同的趋势,然后分段段近似的比率之间的第一个和最后一个品脱段内;维数,因此,减少了在保持原始数据的主要趋势的重要特性。
基于两个经典的数据集,ControlChart Mixed-BagShapes,运用常用的时间序列分类算法nn, PTA与古典PAA和APCA表示使用DTW距离测量。ControlChart结果表明PTA收益率3.55%和2.33%改善分类精度与PAA和APCA相比,分别。Mixed-BagShapes, PTA优于PAA和APCA提高8.94%和7.07%,分别。PTA算法的时间复杂度是线性与原始时间序列的长度。时间序列数据挖掘的效率,因此,增强通过应用PTA表示。PTA的应用时间序列聚类、索引和其它相似搜索任务将验证来自PTA和一个象征性的表示可以进一步发展。
承认
这个工作是在项目没有。基础研究基金支持的0216005202035中央大学在中国。