混合数据流中子流的峰值预测方法

摘要

在资源活动弹性缩放中需要进行子流预测，但现有的单流预测方法不能准确预测混合数据流中的子流峰值变化，不考虑子流之间的相关性，难以计算混合流中不同数据流之间的相关性。为了解决这个问题，本文提出了一种新的方法DCCSPP（基于延迟相关系数的混合数据流亚流峰值预测）为了预测混合数据流的峰值，首先建立了基于滑动时间窗的延迟相关系数模型，确定了延迟时间和延迟相关系数；其次，基于该模型，建立了混合数据流的亚流峰值预测模型和算法，实现了对混合数据流的精确峰值预测ubflow.实验表明，我们的预测模型取得了较好的效果，与LSTM相比，MAE降低了18.36%，RMSE降低了13.50%，与线性回归相比，MAE和RMSE分别降低了27.12%和25.58%。

1.介绍

混合数据流量广泛用于实际应用。例如，阿里巴巴的电子商务平台使用大规模的混合动力技术。该技术将在线服务与离线任务混合。混合数据流包括在线服务和脱机任务。它们同时进入群集，并节省成本而不影响服务质量。

流量峰值预测对于系统的主动弹性膨胀非常重要[1］．Lombardi等人[2]提出一种新颖的弹性缩放方法，名为Elysium，其中包含“预测inputload”方法来预测最大负载。Bauer等人。[3.描述了一种新的混合自动缩放机制，叫做变色龙。变色龙采用按需的、基于时间序列的自动化预测方法来预测到达的负荷强度。Hirashima等人[4.]给出了一种新的自动缩放机制，该机制根据预测的工作负载改变目标系统的规模。

在流动处理系统的主动弹性标度中，对流量峰值预测进行了一些研究。在现有的网络流量预测方法中，作者将网络流量视为一个整体。传统的网络流量预测方法有ARIMA线性模型和基于组合优化理论的无线网络流量预测模型。同时，随着神经网络的发展，出现了基于机器学习算法的支持向量机(SVM)等预测模型。一些作者使用神经网络模型，如RNN [5.， NARX递归神经网络模型，LSTM [6.]，以及预测网络峰值流量的GRU。这些预测模型能很好地解释流动的随机性和周期性。

然而，上述方法都是基于单流预测，没有考虑混合数据流中各流之间可能存在的相关性，因此，针对数据相关性对峰值流量预测的影响，本文提出了一种流量预测方法DCCSPP（基于延迟相关系数的混合数据流的亚流峰值预测）建立了一个延迟相关系数模型来求解不同子流的相关不确定性，并根据单流的预测结果考虑子流间的相关影响，流量峰值的预测越准确，系统流量信息越可靠，这将有助于进一步研究。为系统的弹性缩放提供更好的索引参数。

近年来，基于时间序列的流量预测一直是一个有吸引力的研究领域。开发预测模型在解释复杂的现实世界元素中扮演着重要的角色[7.］．

许多传统的学习方法被用于时间序列预测。Zhang等[1]提出了一种敏捷感知方法来预测异常行为。Yu等人[8.提出了一种预测网络流量序列的ARIMA线性模型。针对单一模型无法完全描述变化特征的问题，Chen和Liu提出了一种基于组合优化理论的无线网络流量预测模型[9.］．Liu等[10]给出了在噪声项宽松假设下估计ARIMA模型的在线学习算法。Adebiyi等人[11检验了ARIMA和人工神经网络模型的预测性能。吴和王[12通过使用非线性滤波方法和前馈神经网络（FNN）的组合来研究时间序列预测算法。joo和金[13提出了一种基于小波滤波的预测方法。Han等人[14引入一个多输出最小二乘支持向量回归器。Chandra和Al-Deek [15探讨了一种用于高速公路短期流量预测的矢量自回归模型。传统的时间序列预测技术在处理高维大数据和有效表示复杂函数方面存在一定的局限性。如果线性数据的量不是很大，统计方法是足够可靠的，可以用于预测。同时，生成的模型非常复杂，难以用非线性数据类型实现，在数据量大的情况下，预测结果不是很准确。

基于深度学习的模型已经成功地应用于时间序列预测的许多领域，有许多基于机器学习的预测模型被提出[16引入NARX递归神经网络模型来预测网络流量。聂等人[17“基于深度信仰网络（DBN）和网络流预测的逻辑回归模型提出了一种新的网络流预测方法。在 [18] RNN的神经网络模型的网络流预测[5.]，LSTM[6.]使用GRU。Hoermann等。[19]报告一个深度CNN模型，用于使用来自多个传感器的数据进行动态占用网格预测。高斯过程的优点在于它能够对数据中隐藏的不确定性进行建模，这是由预测分布提供的[20］．基于深度学习的模型擅长在大数据集中发现复杂的结构[7.］．这些预测模型能很好地解释流动的随机性和周期性。

如上所述，上述方法均为单流预测，未考虑混合流中数据流之间可能存在的相关性。然而，在混合数据流中，对混合数据流的预测研究较少。因此，本文主要研究混合流中不同子流之间的相关性以及各子流的峰值预测。

3.基于滑动时间窗的时延相关系数模型

在混合数据流中，不同子流之间存在不同程度的相关性。考虑到子流之间的相关性和时间分析引起的伪相关性，本文提出了一种延迟相关系数模型，该模型根据Pearson相关系数和时差分析增加了滑动时间窗[21］．该模型用于计算不同子流之间的时延相关系数和时延时差。基于延迟系数，过滤掉对目标子流预测有影响的数据流。

相关分析[21是指两个或两个以上相关变量之间变量的紧密程度的度量。相关要素需要有一定的联系或概率才能进行相关分析。

皮尔逊相关系数，又称皮尔逊积差相关系数，表示两组变量之间的线性相关性和．公式如下:

方程(1）是协方差公式。通过两个相关变量的标准偏差除以公式中描述的Pearson相关系数的标准偏差。2)．是为了补偿随机变量相关程度协方差值的弱表示:

Pearson相关系数总是可以在．系数越接近两端的极端情况，两个随机变量之间的线性关系越大。如果系数接近0，则意味着两个变量不是线性相关的。如果系数接近1，则意味着和可以用直线方程很好地描述，所有的数据点都落在一条直线上，并且增加为增加。趋近于−1的系数表示所有数据点落在一条直线上，且减少为增加。

在流处理系统中，数据的输入通常由多个子流组成，我们称之为混合数据流

定义1。的混合数据流周期是那哪里表示有各种数据流和表示数据属于数据流到达系统时．

定义2。构成企业的数据集是那哪里表示服务的数据集由各种数据流。因此，这些数据中存在服务相关性。例如，由设备登录信息和用户行为信息组成的混合数据流。用户行为信息流受设备登录信息流的影响，并且两者具有偏序关系。由于不同的服务数据流需要对于不同的处理操作和计算资源，有必要对混合数据流的数据执行分流操作，如图所示1．
通过对离散混合数据的统计，得到各子流的观测序列。定义了一组由子流观测序列组成的混合数据流观测序列。

定义3。混合数据流观测序列集为那哪里N代表m包含N数据流。表示观察到的一世中的数据流m就是，那哪里表示数据流的观测值在T.时间和L.代表了L.数据流的观察值．表示对象的观察序列j中的数据流m就是，那哪里表示数据流的观测值在时间T.和L.代表L.数据流中的观察．和．

定义4。这一世混合数据流中的子流．

定义5。延迟时间E.如图所示2．它的意思是在时间影响在时间T.．

定义6。滑动时间窗口的大小是H，如图所示3.．
让那哪里那所以．让那哪里那所以．

定义7。的相关系数和当延迟时间是．计算公式公式如下: 哪里和．和．和如图所示4.．

定义8。最大延迟相关系数和是．其计算公式如下：当预测那有必要选择数据流具有辅助预测的最高延迟相关性。选择公式详情如下: 算法1提供伪代码，用于选择如下所示的辅助数据流算法。

	输入:蒸汽清单;窗户的大小;预测的蒸汽数量
	输出:辅助蒸汽数量;延迟时间的数目
（1）	程序chooseSteam（）
（2）	为迭代steam列表做
（3）	为迭代所有的延迟时间做
（4）	为遍历窗口的所有大小做
(5）	计算并得到延迟时间与窗口的相关系数
(6）	把相关系数加起来
（7)	计算并得到相关系数的平均值
（8)	更新最大延迟相关系数和延迟时间
（9)	更新最大延迟相关系数和延迟时间
(10）	更新辅助数据流编号
（11）	返回辅助数据流量的数量和延迟时间

4.混合数据流子流峰值预测模型

选定的数据流(例如,X)分别用单一的流量预测方法和初始预测结果集进行预测的X获得,表示值的初始预测结果在时间T.在X．

定义9。变化X在时间T.是．表示同一时刻单个预测结果之间的差值T.和时间．计算公式如下:

定义10。改变的量y在时间T.是．表示当时观察到的值之间的差值和．计算公式如下:

定义11。扩大y到X在同一层面上，我们定义了那哪个描述如下：

定义12。当时T.的最终预测结果是．计算公式如下: 哪里为相关系数的权重，计算公式如下: 算法2为混合数据流相关预测算法提供伪代码如下。
本文中的评估指标是均均方误差（RMSE）和平均误差（MAE）。计算公式如下：平均绝对误差指标值越小，预测结果越准确。均方根误差值越小，异常离散点越少，预测精度越高。

	输入：预测蒸汽清单；首次预测流量清单；辅助蒸汽清单；延迟时间数量；窗口大小；时间数量
	输出: t时刻最终预测值的个数
（1）	程序预测()
（4）	计算,得到根据公式(6.）
(5）	计算,得到根据公式(7.）
(6）	计算,得到根据公式(8.）
（7)	计算,得到根据公式(10）
（8)	根据公式(9.）
（9)	返回最终预测结果

5.实验验证

5．1.数据集

为了分析本文提出的预测方法的预测性能，选取了某信贷公司手机APP提供的三个时间段的设备登录数据和行为采集数据，时间为三个月。我们收集了6月份某一时间段的设备登录数据13567条，行为数据282685条，作为数据集1，如图所示5.和6.．选取7月份某一时间段的设备登录记录27,381条，行为数据344,109条，数据集2，如图所示7.和8.．数据集3选取了11月份某一时间段的17550条设备登录记录和755693条行为数据，如图所示9.和10．每个子集选择4465个观察结果。从数据5.-10，可以看出设备登录统计和行为采集统计的变化趋势是密切的，并且两者之间存在相关性。实验中，首先将LSTM和一元线性回归模型预测的结果作为对照组。然后，将模型的结果作为实验组。最后比较了它们的预测指标和峰值预测的误差指标。

5.2.与LSTM预测方法相比

本文选取每个数据集的前90%观测值作为训练集来训练LSTM学习模型，后10%作为测试集来分析模型的预测能力。得到数据集1、数据集2、数据集3三个测试集的总体预测结果，如图所示11-13.数据集1、数据集2和数据集3中具有高观测值的时段的预测结果如图所示14-16．在DCCSPP中，有必要拦截时间窗口大小的观察值进行计算，因此在90之前，预测方法不能给出预测结果，并且该值为0。

在本文中，我们需要讨论时间窗口的影响，对数据集2的实验结果如图所示17．

与LSTM模型相比，可以从图中看到14-16DCCSPP的结果变化更接近实际观测值。

从图中可以看出17时间窗的选择对预测结果有一定的影响。时间窗过小或过大都会对预测结果产生不良影响。因此，在数据集3的基础上，本文选取90作为时间窗的大小。在数据集3上，当时间窗口大小为240时，预测方法可以得到较好的预测结果。

本文中的数据集1，数据集2和数据集3的预测结果误差如表所示1．预测方法在数据集1中改进最为明显。MAE和RMSE分别下降13.46%和17.80%。我们发现数据集2的测试集的值越小，数据集2的MAE和RMSE就越小。最后，整体结果表明，基于LSTM模型的预测结果，使用相关系数算法可以提高预测结果的准确性。


数据集	率	LSTM	新	改善(%)

数据集1	美	68.85	59.58	13.46
数据集1	RMSE	98.32	80.83	17.80

数据集2	美	13.39	12.36	7.73
数据集2	RMSE	17.34	16.13	7

数据集3	美	59.57	53.86	9.59
数据集3	RMSE	90.98	87.01	4.36

本文比较了数据集1、数据集2、数据集3中多个最大峰值点预测结果的计算指标，结果如表所示2．说明由于数据集1的训练集的数据不理想，测试集的峰值预测不准确。本文提出的方法可以显著提高峰值预测指标，MAE和RMSE分别提高了41.46%和33.79%。在数据集2和数据集3中，MAE平均降低了12.83%。然而，RMSE指数的改善有限，平均增长3.3%。总之，本文提出的方法可以提高最终的峰值预测结果。


数据集	峰值点数	改善美(%)	改进的RMSE (%)

数据集1	13	41.46	33.79
数据集2	8.	12.63	6.54
数据集3	11	13.03	０．１６

5.3。与简单的线性回归相比

本文采用一元线性回归模型对数据集1、数据集2、数据集3中的检验集进行预测。通过实验，数据集1、数据集2、数据集3的预测结果如图所示18-20,分别。对于观测值较高的时段，预测结果如图所示21-23,分别。

从数字可以得出结论21-23与整体线性回归模型相比，本文预测模型的结果更接近观察结果的实际变化。

本文对数据集1、数据集2、数据集3的预测结果的误差比较如表所示3.. 从图中可以看出，一元线性回归模型在MAE和RMSE指数方面的预测结果不如LSTM模型。通过本文提出的方法，数据集1上的预测结果指标优于LSTM。本文提出的方法应用于一元线性回归预测模型。实验结果表明，MAE值和RMSE值降低了15%-26%。综上所述，本文提出的方法应用于一元回归模型中，可以大大提高预测结果的准确性。


数据集	率	简单线性回归	新	改善(%)

数据集1	美	75.21	63.60	15.44
数据集1	RMSE	102.58	87.01	16.90

数据集2	美	21.17	15.67	26.00
数据集2	RMSE	27.19	20.11	26.03

数据集3	美	80.73	67.09	16.90
数据集3	RMSE	121.77	95.17	21.84

本文比较了数据集1、数据集2、数据集3中多个最大峰值点的预测结果，结果如表所示4.. 从图表中可以看出，在数据集1中选择了13个具有最高观测值的峰值点，以计算MAE和RMSE的改善。分别增长33.45%和28.73%。在数据集2中选择观测值最高的8个峰值点来计算MAE和RMSE的改善。它们分别提高了32.40%和29.49%。在数据集3中，选择观察值最高的11个峰值点来计算MAE和RMSE，分别增加15.50%和18.52%。综上所述，本文提出的方法可以改善单变量线性回归模型峰值预测结果中的最终峰值预测结果。


数据集	峰值点数	改善美(%)	改进的RMSE (%)

数据集1	13	33.45	28.73
数据集2	8.	32.40	29.49
数据集3	11	15.50.	18.52

实验1和实验2的图表信息都可以得到。本文提出的方法可以提高整体预测和峰值预测的预测结果。与LSTM方法相比，MAE和RMSE分别降低了18.36%和13.50%。与一元线性回归方法相比，MAE和RMSE降低了在总体预测中，MAE和RMSE分别上升了约14.85%和15.66%；在峰值预测中，MAE和RMSE分别下降了约24.75%和19.54%。因此，本文提出的混合数据子流峰值预测方法可以有效地改善基于预测的结果n结果。

6.结论

对于混合数据流，各子流在不同时间存在相关的不确定性。本文建立了延迟相关系数模型。通过该模型计算了延迟相关系数和延迟时间。采用混合数据流的峰值预测方法计算了各流的预测结果。实验表明，当混合流中各子流之间存在不确定性时，DCCSPP模型具有良好的预测效果。

在未来的工作中，我们将在机器学习模型中引入子流之间的相关性。使用机器学习方法提高了延迟相关系数计算和预测结果的准确性。同时，该模型还可以应用于动态混合数据流。根据每个子流的预测峰值结果设计动态分配方案，将资源动态分配给需要弹性伸缩的系统。

数据可用性

本文使用的数据来自中国的一家保险公司。根据保密协议，实验数据集不能向公众披露，论文中也不能提及公司名称。但是，我们保证所使用的数据集对公司是真实的。

的利益冲突

作者声明本文的发表不存在利益冲突。

致谢

上海市自然科学基金资助项目(no。上海市科技创新行动计划项目(no. 19ZR1401900);国家自然科学基金项目(no . 61472004, no . 61602109)。

参考文献

Z. Zhang和J. Cui，“大型网络服务系统中的行为异常敏捷感知方法”，计算机学报，第40卷，第2期，第503-5192017页，中文版。视图:谷歌学者
F. Lombardi, L. Aniello, S. Bonomi和L. Querzoni，“流处理系统中运营商和资源的弹性共生扩展”，IEEE并行和分布式系统汇刊，第29卷，第2期3, pp. 572-585, 2017。视图:出版商网站|谷歌学者
A. Bauer，N. Herbst，S. Spinner，A. Ali-Eldin和S. Kounev，“Chameleon：一个杂交，主动自动缩放机制在一个级别的播放场上”，“IEEE并行和分布式系统汇刊，第30卷，第2期4、2018年第800-813页。视图:出版商网站|谷歌学者
Y.Hirashima、K.Yamasaki和M.Nagura，“不可预测负荷变化的主动-反应式自动缩放机制”，年第五届IIAI国际高级应用信息学大会论文集， pp. 861-866, IEEE，熊本，日本，2016年7月。视图:出版商网站|谷歌学者
R. Madan和P. SarathiMangipudi，“预测计算机网络流量:使用DWT、ARIMA和RNN的时间序列预测方法”第十一届当代计算国际会议论文集(IC3)，第1-5页，IEEE, Noida，印度，2018年8月。视图:出版商网站|谷歌学者
Y. Tian和L. Pan，“通过长期内记忆经常性神经网络预测短期交通流量”IEEE智慧城市/社会通讯/可持续通讯国际会议论文集， pp. 153-158, IEEE，成都，2015年12月。视图:出版商网站|谷歌学者
韩志强，赵建军，王伟，“深度学习模型在时间序列预测中的应用研究进展”IEEE传感器杂志，第1-1页。视图:出版商网站|谷歌学者
Y. Yu，J. Wang，M. Song等，“基于季节性Arima和相关系数的网络流量预测和结果分析”智能系统设计与工程应用国际会议论文集，卷。1，pp。980-983，IEEE，Changsha，中国，2010年10月。视图:出版商网站|谷歌学者
H.Chen和J.Liu，“基于组合优化理论的无线网络流量建模和预测，”现代电子技术第39卷第3期23, pp. 43-47, 2016。视图:谷歌学者
赵平等，“时间序列预测的在线arima算法”，出版第三十届AAAI人工智能会议记录，美国亚利桑那州凤凰城，2016年2月。视图:谷歌学者
刘志强，刘志强，刘志强，“基于神经网络模型的股票价格预测方法研究[J]，”应用数学学报，卷。2014年，第614342号，7页，2014年。视图:出版商网站|谷歌学者
吴新宇，“基于扩展和无迹卡尔曼滤波的前馈神经网络的时间序列预测”，应用数学建模第36卷第2期3, pp. 1123-1131, 2012。视图:出版商网站|谷歌学者
T. W. Joo和S. B. Kim，《基于小波滤波的时间序列预测》，专家系统与应用，卷。42，不。8，pp。3868-3874,2015。视图:出版商网站|谷歌学者
ZH.Han，Y.Liu，J.Zhao和W.Wang，“基于多输出最小二乘支持向量回归的转炉煤气罐液位实时预测，”控制工程实践，第20卷，第2期。12, pp. 1400-1409, 2012。视图:出版商网站|谷歌学者
S. R. Chandra和H. Al-Deek，“利用矢量自回归模型预测高速公路交通速度和流量”，智能交通系统学报，第13卷，第2期，第53-72页，2009年。视图:出版商网站|谷歌学者
Haviluddin和R. Alfred，“使用非线性归类与外源投入（NARX）在网络流量预测中进行建模时间序列的表现，”国际信息技术科学会议论文集， IEEE，印度尼西亚日惹，2016年10月。视图:出版商网站|谷歌学者
Nie，D.Jiang，L.Guo，S.Yu和H.Song，“基于数据中心网络深度学习的流量矩阵预测和估计”，年Globecom讲习班论文集， IEEE，华盛顿DC，美国，2017年12月。视图:出版商网站|谷歌学者
R. Vinayakumar, K. P. Soman，和P. Poornachandran，“应用深度学习方法进行网络流量预测”2017计算、通信和信息学进展国际会议论文集(ICACCI)，第2353-2358页，IEEE, Udupi，印度，2017年9月。视图:出版商网站|谷歌学者
S.Hoermann、M.Bach和K.Dietmayer，“城市自主驾驶的动态占用率网格预测：一种具有全自动标记的深度学习方法”，年IEEE机器人与自动化国际会议记录（ICRA）， pp. 2056-2063, IEEE，布里斯班，澳大利亚，2018年5月。视图:出版商网站|谷歌学者
c·k·i·威廉姆斯和c·e·拉斯穆森，用于机器学习的高斯过程，麻省理工学院新闻，剑桥，马，美国，2006年。
H. Wang，Z. Zhang和P. Wang，基于多源数据融合的特定域的情况分析方法，“国际智能计算会议论文集， pp. 160-171，施普林格，中国武汉，2018年8月。视图:出版商网站|谷歌学者

科学的规划