短期使用天气和传染性痢疾预测搜索数据在厦门,中国

文摘

感染性腹泻具有较高的发病率和死亡率在世界各地。出于这个原因,腹泻预测已成为一个重要问题,防止和控制疫情。许多研究已经建立了疾病预测模型使用大规模数据。然而,这些方法对腹泻数据表现不佳。为了解决这个问题,本文提出了一种简洁的模型(PM),将历史门诊访问计数,气象因素(MFs)和百度搜索指数(bsi)作为输入进行预测。实验评价做了比较的短期预测性能十算法四组的输入,在中国厦门,使用收集的数据。结果表明,该方法有效地提高了预测精度。

1。介绍

跟上步伐的收入增长,城市化、传染病和全球化,风险管理在公共场合已成为一个关键的任务(1]。感染性腹泻(ID)2)是世界上最常见的传染病之一,感染了超过10亿人。它成为了第37合法的法定传染病在中国国家法定传染病报告和监测系统,必须在24小时内报告和任何新病例的诊断(3]。

早期预警技术(4)开发了监测传染病的地位和对医疗保健的需求和健康服务。这些技术可以支持医疗干预策略决策(5),通过预先通知人们,健康服务提供者,政府。

预测即将到来的腹泻门诊访问的问题可以看作是时间序列预测问题。在过去的几十年里,许多研究已经使用自回归(AR)、自回归移动平均模型(ARIMA)集成,和机器学习方法来预测即将到来的基于过去观测值。广泛使用的机器学习方法是多元线性回归(高),支持向量回归(SVR)和随机森林回归(RFR) [6- - - - - -8]。一个著名的盒子和詹金斯(自回归方法9),已被应用在许多领域10),比如电力负荷预测和股票价格的预测。另一个著名的统计方法是样条插值(11),学习和使用三次样条插值来预测未来值。但这些方法降解的性能在处理非平稳的混沌时间序列,如腹泻门诊病人。

最近,为了缓解不确定性时间序列,外生数据被收集并融合到机器学习方法来实现更好的预测(12- - - - - -14]。本方法使用外源性数据被称为NARX [15]。根据NARX的结构,我们对图像进行分类广泛的模型和深模型。

广泛的一般模型构建超过两个组件层。捕捉时间序列的时序特性,一个递归神经网络(RNN) [16采用过程外生数据。有区别地过程外生数据和历史观察,encoder-decoder框架(17]介绍了进行预测。与此同时,封闭的递归单位(格勒乌)18)是用于替换RNN的框架,它捕获长期和短期记忆(LSTM) [19]。此外,注意机制旨在调整外源输入和历史输入的值在编码和解码的阶段,分别为(20.- - - - - -22]。

深模型连续连接组件使用超过两个神经网络从输入到输出层。例如,DL4Epi (23)由CNN层,RNN层和链路层残留。DilatedRNN (24)扩张三个RNN从输入层到预测葡萄糖发病率。TPA-LSTM (25)使用时间模式关注层加深一个模型。

然而,不仅广泛的模型,而且深模型需要大量样本的问题。给定一个时间序列的每周或每月腹泻门诊,训练样本的数量通常在数百人。如果一个模型有很多参数和训练样本很少,学习模型泛化性能很差。在下面,我们称之为模型有许多参数沉重的模型。在现实中,沉重的模型几乎记得训练样本,从而预测未知输入表现不佳。

如何构建一个吝啬的模型,从数以百计的一些参数和学习的样品吗?从先前的模型表明,模型对输入元素分配权重,然后传递权重转化为目标。元素的权重可以减少吗?可以传递给输出减少的重量吗?

为了解决这些问题,我们提出一个简洁的模型(PM)。该模型首先分配一个向量每个输入维度,然后向量是连接到目标。

本文的其余部分组织如下。部分2简要介绍了研究区和数据来源。部分3说明了问题,并提出了该方法定义。部分4描述了实验设置和相关标准。部分5比较不同的方法和分析自己的敏感。最后,在得出结论部分6。

2。学习材料

本部分首先介绍了研究区域,即。,厦门城市。然后,简要描述了气象因素和搜索行为在这个城市使用基本的描述性统计。

基本统计变量的输入和目标表中列出1。


符号	参数(单位)	范围		的意思是	中位数	性病	PCC
符号	参数(单位)	最小值	马克斯	的意思是	中位数	性病	PCC

	最高温度(°C)	14	39	29.21	31日	5.64	−0.342
	最低温度(°C)	1	27	16.9	18	6.54	−0.304
	平均温度(°C)	9.29	31.29	22.32	23.14	6.03	−0.317
	最高露温度(°C)	9	29日	22.32	23	4.94	−0.385
	露水最低温度(°C)	−12	24	10.57	11	9.32	−0.345
	露水平均温度(°C)	3.57	26.71	17.47	18.14	6.54	−0.393
	最大相对湿度	69年	One hundred.	98.33	One hundred.	4.25	−0.092
	最小相对湿度	9	70年	39.78	42	13.59	−0.372
	平均相对湿度	52.14	94.71	75.18	75.43	9.5	−0.339
	最大的大气压力	1004年	1037年	1018.84	1019年	7.12	0.381
	最低气压	964年	1021年	1007.3	1008年	7.46	0.392
	平均大气压力	998.1	1026.6	1013.56	1013.7	6.63	0.342
	在PC BSI“腹泻”,中国(计数)	1953年	6000年	3804.34	3584年	998.43	−0.181
	BSI的“腹泻”移动、中国(计数)	5764年	9121年	6415.20	6328年	447.32	−0.241
	BSI的“腹泻”,中国(计数)	7971年	12500年	10219.53	10046年	978.45	−0.325
	BSI的“腹泻”电脑,厦门(计数)	0	440年	311.03	303年	85.07	−0.323
	在移动BSI“腹泻”,厦门(计数)	0	515年	307.31	430年	205.63	−0.348
	BSI的“腹泻”,厦门(计数)	0	925年	618.34	683年	194.09	−0.324
	感染性腹泻门诊访问(案例)	15	349年	69.7	52	50.03	- - - - - -

“性病”表示标准偏差。^∗∗表明值小于 ,这意味着显著相关。

的原因选择气象因子(MF)数据和百度搜索指数(BSI)数据作为外生的数据,这些数据是显著相关的传染病。曼氏金融数据已被证明是相关传染病的发病率(26,27),如ID和“手,脚,口病”(手足口病)。作为一种重要的入口为用户获取数字信息资源在互联网上,搜索引擎提供了很多有用的信息。特定关键字的搜索索引直接反映了社会关注传染病(28- - - - - -30.]。因此,曼氏金融数据和BSI数据视为外生输入模型。

为了确定外生变量和目标变量之间的关系,相关系数(PCC)值的人找到了表的最后一列1。所有的外生因素显著相关每周outpaitent计数除了每周最高温度。作为一个重要的输入,因为湿度是视为一个重要因素27]。

2.1。研究领域

厦门是一个发展中城市,人口大约有400万名常住居民和400万临时居民在2018年左右。这是一个重要的自1980年以来中国的经济特区,位于中国东南部。它涵盖了土地面积1699 .39点,海洋面积超过390在2017年。厦门有一个季风潮湿的亚热带气候,特点是长,热,潮湿的夏季温和(但比大部分其他省)和短,温和,干燥的冬季,年平均温度为20.7°C (31日]。

,详细的人口从2012年到2016年是列在表中2作为这项研究的背景。人口的年增长率在1.3%和2.1%之间,这是相对稳定的。发病率和死亡率的一段时间内受到疾病的影响趋势。与此同时,感染性腹泻是最常见的传染病。因此,感染性腹泻门诊访问量的关键监测传染病在城市的地位。


一年	人口(万)	人口增长率(%)

2012年	3.67
2013年	3.73	1.6
2014年	3.81	2。1
2015年	3.86	1.3
2016年	3.92	1.6

2.2。气象因子(MF)

曼氏金融数据从2012年1月1日,12月31日,2016年,收集从地下气象(http://www.wunderground.com天气),这是一个受欢迎的个人网站。这些数据从气象监测全球网站提供全面、及时、可靠的气象数据。目前,本网站为用户提供了基于web的应用程序编程接口下载数据或开发第三方应用程序。

提供天气信息格式化在天。我们计算261每周天气信息对那些每天记录。选择的天气信息在几周内由12个因素,例如,最高温度(°C),平均露点(°C),最低的大气压力 ,和平均相对湿度。因此,我们得到了12组外生数据来描述天气状况。

2.3。百度搜索指数(BSI)

百度是最广泛使用的搜索引擎(http://index.baidu.com)在中国,也是中国最大的搜索平台。人在厦门,中国习惯使用搜索引擎。百度搜索索引记录许多条件的搜索量,由用户查询2011年1月以来,这是公开的。BSI被用来监测流感流行的发生率[33),分析地区传染病,进行实时监控和预防28]。

主要关注获取查询数据(搜索指数)是找到适当的查询词(29日],它反映了用户行为对寻找感染性腹泻。引擎返回日常项给定的关键字,它可以由一个地区和一个平台条件。六时间序列的每个查询词下载通过选择一个地区从{厦门、全国}和一个平台{手机、个人电脑、总},分别。这些数据对计算周。我们有六组搜索指数,他们为每个关键字作为外生数据。进行相关系数分析的输入指标和目标输出(即。病例数)。我们发现的指数字“腹泻”(即。,ID) have significant correlation, while others do not. Hence, we adopt the six group indices as inputs of models.

3所示。方法

本节首先定义了使用外源性数据的时间序列预测的问题,然后介绍了数据预处理和后处理。最后,给出了该方法。

3.1。问题公式化

流行预测问题可以看作是一个时间序列预测的任务(10]。时间序列被定义为一个序列的观测值和连续相同的间隔长度。

让表示观察测量时间和表示外生数据测量时间 ,在哪里是输入的数量。此外,让是一个时间窗口大小。已知的外生系列与窗口大小是象征 ,和历史观察被指示为目标。

我们的目标是预测未来的时间点的值 ,鉴于历史观察和外生系列。在细节,一个非线性映射应用到预测公式:

此外,让表示可用的训练数据的时间间隔的大小和是最近的历史门诊访问计数。

3.2。向前一步分割和归一化

3.2.1之上。向前一步分割

一个时间序列回归模型不能直接作为输入。因此,我们进行一步向前分裂将监督数据的时间序列。一步分割的公式如下所示: 在哪里输入时间序列的长度是窗口大小。

3.2.2。归一化

它是一个尺度改变的过程数据从原来的范围,使所有值在一定范围内(34),通常在0和1或0.05和0.95。(即min-max标准化和标准。,z-score) normalization methods are commonly applied to normalize time series data.

Min-max标准化量表在[0,1]区间的数据使用的最小值和最大值的范围。标准化的数据集需要重新调节值的分布,以便观测值为0的均值和标准偏差是1。平均值和标准偏差估计的数据集可以更健壮的新的数据比最小值和最大值。

我们选择标准规范化重新调节输入和目标,因为我们认为门诊访问计数是高斯分布,以及标准化符合高斯分布。输入的标准制定和恢复在哪里表示观测样本的特性,是观察到的样本的数量,规范化数据,的平均值 ,和是标准的变化。恢复公式应用于模型输出在后处理阶段。因为正常化是只应用于外源数据,恢复操作时可以跳过生成预测。

3.3。吝啬模型(PM)

提出点图如图1。这个图由三个阶段组成:数据预处理、点和后处理。在预处理阶段,外生时间序列规范化,结合目标时间序列将监督数据使用向前一步。在下午处理阶段,一个参数层模式特征的提取是利用来自异构输入。模型的输出是由线性生成摘要的中间状态的结果。

图的左边底部1给玩具的例子的结构简洁的方法对输入和权值。黄色实心圆表示外源输入,如气象因素或百度搜索索引。蓝色实心矩形表示历史观察门诊访问,和红色的固体矩形是目标。黄色实心矩形权重是习得的。目标是减少这些复杂的模型,找到一个简洁的模型在腹泻学好和预测数据集合。

因此,第一层的权值神经网络利用重新考虑模型结构。图的左边底部1给(即外生的输入数据。,MF, BSI, or MF + BSI) and historical cases, and the right part indicates the weights and connections among them (arrows between circles and rectangles). The two following definitions are introduced to provide clearer explanations.

定义1。重量是分配给每个输入元素。
定义1制定如下: 在哪里 (即是输入给定的样本。输入矩阵),这个样例的目标,这意味着门诊访问项即将到来的一周, 是输入(即对应的重量。、体重矩阵),是一个线性或非线性映射输入矩阵和体重的目标。
两种宽模型和深模型研究领域的流行预测是基于这个定义。一个广泛的过程建模和在不同的组件。例如,encoder-decoder结构编码 ,将代码传递到译码器和解码器处理代码和做出预测。深模型增加了层的顺序 ,如CNN和RNN。
当学习与少量的样本,样本的数量通常在数百,和这些模型参数训练的负担。在现实中,参数的个数大于样本的数量乘以外生因素的数量。因此,这些训练有素的模型会记得所有的训练样本和有价值的损失接近0,但是他们缺乏预测即将到来的事件。
因此,宽模型和深模型被压缩到一个光神经网络通过设置一个线性函数或非线性函数,如乙状结肠函数。但凝聚光神经网络有很多参数。因此,我们尝试使用两个向量来恢复体重在方程(4)。目的不仅是有更少的参数在训练阶段也获得更好的性能在预测阶段。

定义2。权重分配给每个输入维度。
定义2制定如下: 在哪里是输入矩阵,预测目标(即。,the upcoming week outpatient counts), 和是相对应的权重(即两个输入维度。、体重向量),是一个线性函数或一个非线性映射输入矩阵和体重的目标。
准确地捕捉有限制一个样本的输入矩阵只使用两个向量的基础上,其长度是一样的输入矩阵的大小。因此,我们利用两种方法来恢复在方程(4)使用和 :添加法和乘法的方法。
为每个元素在 ,它可以恢复使用的方法。添加恢复公式在哪里是恢复值, 表示 - - - - - -th元素 ,和表示 - - - - - -th元素的向量 ,分别。方程(6)表明,两个向量的矩阵可以恢复,这将减少训练参数。
另一种恢复方法是乘法运算的方法。为每个元素在 ,它可以恢复使用乘法的方法。乘法公式是复苏在哪里是恢复值, 表示 - - - - - -th元素 ,和表示 - - - - - -th元素的向量 ,分别。方程(7)表明,两个向量的矩阵可以恢复,这将减少训练参数。
从两种方法有利于经济复苏的影响,我们把它们加在一起,得到的根据方程(8)和(5),我们有在哪里。很多方法应用于方程(5)可用于方程(6),而本文的目的是试图找到一种吝啬很适合小规模数据集的方法。因此,在方程(9)应该尽可能简单。
我们采用总结和乙状结肠激活函数来代替是简单的。是制定的预测函数在哪里表示的元素 - - - - - -th行和 - - - - - -列的输入矩阵。方程(10)提出的预测功能点。

4所示。实验设置

本部分首先描述了外生特征选择、实验设置、及相关相关工作,相比之下,我们的方法。最后,提供类似的分析结果。

4.1。实验配置

疾病数据采集分为两个子集:第一部分,从2012年的1星期到2015年52周,用于构建和训练模型;剩下的部分,从1日到2016年52周,利用评估模型。

所有神经模型训练使用亚当优化器(35]。批处理大小设置为32。他们的学习速率设置为0.001,均方误差(MSE)选择作为损失函数。RNN和LSTM隐藏神经元的数量设置为{64、128}。

我们跑五次每个方法和报告中值。最优的RMSE值模型大胆和输入数据类型。DA-RNN [20.]和DL4Epi [23)已被应用于输入的四组,和他们不是聚集在培训阶段。因此,他们没有列出并比较结果。

4.2。评价指标

许多性能评价标准被用来评估和比较模型的性能,但没有统一标准。因此,我们基于误差指标评估模型,通常采用回归性能评估。

评估标准包括平均绝对误差(MAE)、均方根误差(RMSE),和确定系数。这些指标是表示为以下数学表达式: 在哪里一周的实际价值(相对时间)在测试集,是周的预报值(相对时间) , 测试集的平均值,在测试期间的周数。模型提供RMSE美和最小的和最大的被认为是最佳的性能。

4.3。类似的方法

根据输入变量的类型,预测方法分为单变量模型和多变量模型。我们选择模型可以处理多个输入和不稳定的序列并保持ARIMA作为基准。

4.3.1。看不到多元线性回归(MLR)

模型是广泛采用几个独立变量和因变量之间的关系。基于广义高钙高的预测模型分析公式如下所示: 在哪里和可以学到重量和偏见,历史数据的大小,表示随机误差项, 。

我们高扩展到模型外生输入和目标如下: 在哪里表示重量的外源输入和在过去的历史数据时间间隔。

4.3.2。随机森林回归(RFR)

这是一个购物车(36)方法。它被用来预测病人的死亡特征,术后肝细胞癌的预后,和其他数据(37]。随机森林回归(RFR)由一组unpruned回归树使用不同的引导训练数据样本。在每个引导样本,随机样本替换和相同的长度,一些数据是重复的,忽略时样品被称为包(OOB)。在实践中,树木的数量和变量子集的大小应优化达到理想的森林通过最小化OOB错误。参数的值和同时进行了优化利用网格搜索方法从10到1000与步长(10),从1到9(与步长1),分别。给的参数值最低的RMSE OOB数据被选作为性能指标。

4.3.3。支持向量回归(SVR)

它是一种基于非线性回归方法,试图找到最好的回归超平面在高维特征空间结构风险最小。它已经被用于许多医学相关的应用程序,如诊断感染性腹泻的发病率(26]。输入(或输入)和输出之间的关系是制定在哪里表示内核函数,是一个向量的输入时间吗 ,和是一种偏见。径向基函数表示为被用作核函数因其优点和简单的实现只有一个调优参数。

4.3.4。梯度提高回归(GBR)

这是一个强大的回归模型,使用梯度增加,增强了决策树模型产生一个回归模型相结合的一系列疲弱的预测模型(38]。

GBR迭代构造决策树,新添加的决策树训练根据损失函数的负梯度信息从当前的模型。GBR是学习的目标最优模型,最大限度地减少为指定的损失函数。最优模型GBR可以计算如下: 在哪里是第一个建立决策树,是迭代的数量,代表了收缩参数控制GBR的学习速率,表示树的训练 - - - - - -th迭代,的重量是。生成的最优模型是用于测试。

4.3.5。极端的梯度增加回归(XGBoost)

这是一个改进梯度增强算法(39]。XGBoost添加正则化项在决策树构建阶段。损失函数在哪里代表的预测 - - - - - -训练样本,正则化项。正则化项计算如下: 在哪里是叶节点的数量,是向量由所有叶子节点值的决策树,然后呢和手动设置参数。类似于GBR, XGBoost也把损失减小到最低限度的目标函数。此外,XGBoost使用重量收缩和列抽样技术来抵抗过度拟合。

4.3.6。卷积神经网络(CNN1d)

美国有线电视新闻网(40)由卷积层基于卷积操作。与内核过滤窗口函数给出了一个利用图像或系列处理CNN架构用更少的参数,这是有利于计算和存储(41- - - - - -43]。显示了基本的卷积操作如下: 在哪里表示映射空间和表示内核。CNN被验证具有良好的精度结果当应用于模式识别(44]。

4.3.7。神经网络回归(NNR)

的神经网络(NN)近似和泛化属性,NN-based预测被广泛使用。递归神经网络是一种深层神经网络专门为序列模型(16]。RNN的主要想法是提供一个加权反馈意义层的神经元之间的连接和添加时间整个人工神经网络。但RNN可能面临的问题消失在反向传播梯度或梯度爆炸。在[的LSTM提出Hochreiter和。施密德胡贝尔表示45]。

我们采用lite RNN像NARX模型(15),它由一个输入层、一个RNN层和一个输出层,测试其性能。非线性连续层可以是LSTM层或封闭的复发性单元(格勒乌)18)层。

5。实验结果和分析

本节提出了强化实验的结果来评估算法在四种输入和分析。图2显示点的性能与不同的窗口大小。图3显示了所有方法的评价结果在所有输入的指标。图4给点方法的视觉比较四组的输入。

(一)

(b)

(c)

图2

点不同窗口大小的性能的美、RMSE和R ²。(一)点有不同的美。找到最小值 (见红色虚线)。(b)的RMSE点不同。找到最小值 (见红色虚线)。(c)R ²点的不同。最大值是发现 (见红色虚线)。

(一)

(b)

(c)

(一)

(b)

(c)

(d)

5.1。窗口大小的影响

参数敏感性实验分析的重要组成部分。在时间序列预测的研究中,是最有趣的时间延迟参数。不同的窗口大小会影响参数复杂性和总体预测性能的方法。此外,窗口大小是一个重要的指标,揭示了传染性疾病的潜伏期。因此,本研究可视化不同的窗口大小对该模型的影响。点不同窗口大小的性能的美、RMSE和R²绘制在图2。

结果显示,当我们有所不同并保持其他参数固定,很容易观察到,下午退化时的性能从4到20增加,性能往往会变得更糟,延迟时间的长度的步骤继续增加。一个可能的原因是,滞后时间越长时间延迟会导致更大的输入特征维度,导致回归函数的复杂性增加的培训过程,直接影响小规模样本加权参数表示,导致回归函数无法准确地适应输入。通过设置 ,我们通常注意点达到最佳的性能,这可能表明,腹泻感染周期模式滞后4天在厦门。这是一个重要的人工预测模型所需的参数。

5.2。时间序列预测的性能

的最优性能指标,提出的方法被发现。因此,所有同类方法的评价结果在图所示2当固定在4。

几个重要的观察结果是由这些结果:(1)得益于MF和BSI数据,点模型获得最佳性能的三个指标(2)高钙的表演和GBR比一些复杂RNN方法,和时间序列ARIMA不能下很好地执行不稳定(3)CNN1d RNN的方法可以实现性能稳定在处理每种类型的输入(4)MF和BSI数据可以提高预测精度的腹泻门诊在即将到来的几周。

展示点的有效性,我们比较点的性能对一些常见的方法相同的预测任务。类似实验选择高钙,GBR RFR, SVR, XGBoost为代表的传统方法和其他三个深度学习的方法。深入学习方法包括CNN, RNN和LSTM{64、128}隐藏节点。

比较的所有方法的表演四个输入,根据预测的结果根据历史情况下,我们可以观察到下午的方法显示了最佳性能,和CNN1d RNN, GBR,高钙也有好的结果。高钙的性能比深学习方法的性能,当输入是完全根据历史情况。一个可能的原因是,小规模的数据收集并不能培养深刻的学习方法,尤其是LSTM方法,过度拟合或underfitting。根据预测的结果基于案例+ BSI,我们可以观察到传统的m不能常见的学习方法不能从高维输入提取足够的特性来预测即将到来的值。根据预测的结果根据历史情况下,BSI,我们可以观察到的所有方法的性能退化,这表明太多缺失值将大大影响模型的预测性能。然而,下午有能力适应输入和处理缺失值,显著高于其他模型。仅仅根据输入的基础上预测基于案例+ MF + BSI,下午我们可以观察,获得最好的结果。CNN1d方法相比,它是困难的对传统学习模式与外源输入给性能稳定。LSTM方法的预测精度略有改进与高钙相比。RNN方法的预测效果显著波动。 It is suggested that exogenous inputs can effectively improve model performance, but it also related to the adaptability of the model’s structure to exogenous inputs.

有两个潜在原因的改善点的方法。一方面,RNN模型只考虑外源输入的时序动态。与小规模样本,这些模型不能提取足够的特性来预测目标。传统的机器学习方法很容易聚合和预测即将到来的性能要差值与外源输入。一个可能的原因是,这些方法不能捕捉输入的不同组件之间的相关性。该方法具有学习能力不同的外生因素的交互通过引入加权层,可有效改善模型性能在小规模的数据收集更加简洁特性表示。另一方面,为每个输入元素和两个重量大大降低了需要的参数,可以更新的培训过程中,采取了相应的两个加权向量学习时间权重和因素权重。

与CNN1d相比,该方法利用两个向量的乘法和加法生成预测而不是使用一个内核矩阵计算输入2d数据输出值。当很小,CNN的卷积内核表现不佳,因为内核大小应该小于输入大小。此外,不仅宽或深模型,而且机器学习模型能力使用衰减权重(即克服过度拟合。正则化项),他们的损失函数。关键问题是更多的参数会导致刻苦训练在小规模的数据收集。因此,点更简洁有效,更好的结果,更好的适应广泛的输入。

另一个相当大的结果是方法是扩大之间的性能差异结果与复杂的输入。例如,当只考虑到门诊病例 ,点类似于其他模型的表现。但性能差异变得更大融合外源输入时,由于开采从异构数据模式更复杂的比那些只在门诊病例数据。下午有更好的能力来处理小规模异构输入数据。相关实验的结果还表明,完全可行的使用外源性因素预测感染性腹泻的发病率在厦门。

5.3。预测的可视化分析

在时间序列预测中,有时更有趣的比较表现获取所谓的极端事件,例如,一个振荡后稳定增长或衰退,或一个巨大的振荡过程中突然改变。因此,提出了一种可视化比较实际值和点预测图4。红色虚线标志着10^th和23^{理查德·道金斯}上周,其值遵循最高及最低的实际价值,分别。

时间序列的预测极端事件已经被先前的研究提出(46]。我们可以看到,门诊病人的数量达到9^th周和10^th星期,和他们的门诊病人数量显著下降。在这种情况下,点模型与BSI + MF符合实际价值优于其他方法,在总结说明了加权的能力层外源输入的交互,以及异构数据融合是一种有效的方法来提高预测精度。优势也保留在MF和BSI的方法。还应该注意的是,在9^th星期,病例数达到高峰值,和曼氏金融有效地提高了在这个时间戳精度,弥补损失的融合精度BSI和历史数据的预测。历史在13例和MF略有波动^th的一周。通过合并BSI数据,随机干扰的影响在这个时间戳显然是减少预测的结果。当价值23^{理查德·道金斯}一周之后最低的真正价值,点模型的性能与所有异构数据融合是不稳定的。

此外,预测值利用MF或BSI 45^th星期显然更高,这种情况反映在MF和BSI的融合。一个可能的原因是外生的内部随机干扰数据并未完全消失在预处理阶段。因此,极端天气条件或特殊事件和降低预测的性能。

6。结论

在本文中,我们专注于预测感染性腹泻门诊访问的数量在即将到来的一周。一个吝啬的模型(PM)提出了冷凝先前的预测模型。四组的十个算法的基准输入显示我们的方法的优势。它通过合并来实现更好的预测性能曼氏金融数据和BSI数据。

在未来,我们将努力调查其他城市的预测和改进点在预测这些城市的鲁棒性。此外,多个城市的同时预测将是未来的研究方向。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢厦门疾病控制和预防中心的共享数据。本研究支持部分由中国福建省自然科学基金(2018 j01539和2019号j01713)和厦门城市的科学项目(没有。2019 sh400060)。

引用

c . t . Wu Perrings, a . Kinzig j·p·柯林斯,b . a . Minteer和p . Daszak”经济增长、城市化、全球化和新发传染病的风险在中国:一个评论,”中记录,46卷,不。1日~ 29,2017页。视图:出版商的网站|谷歌学术搜索
p·凯利,“传染性腹泻”,医学卷,47号6,341 - 346年,2019页。视图:出版商的网站|谷歌学术搜索
l . l . Wang Jin, w .熊”在中国2-infectious疾病监测,章,“对传染病疫情早期预警w·杨,艾德。,页23-33,学术出版社,剑桥,妈,美国,2017年。视图:谷歌学术搜索
y局域网,d .周,h·张,s .赖“早期预警模型,第三章—发展”,对传染病疫情早期预警艾德,w·杨,页35 - 74,学术出版社,剑桥,妈,美国,2017年。视图:谷歌学术搜索
i n Soyiri和d·d·Reidpath”的概述健康预测,”环境卫生和预防医学,18卷,不。1、1 - 9,2013页。视图:出版商的网站|谷歌学术搜索
l, l, l . Tan et al。”应用程序的多个季节性arima模型预测手足口病发病率在武汉,中国,“国际传染病杂志》上p . 271,卷。21日,2014年。视图:出版商的网站|谷歌学术搜索
舒p, s, m .周”在线故障检测模型和策略基于SVM-grid云,“IEEE / CAA自动化杂志》上,5卷,不。2、445 - 456年,2018页。视图:出版商的网站|谷歌学术搜索
j . Cai k .徐朱y, f . Hu和l·李”的预测和分析净生态系统碳交换基于梯度提高回归和随机森林,”应用能源文章ID 114566卷,262年,2020年。视图:出版商的网站|谷歌学术搜索
r·奥本海姆“通过box-jenkins预测方法,”学院的营销科学》杂志上》第六卷,没有。3、206 - 221年,1978页。视图:出版商的网站|谷歌学术搜索
g . Mahalakshmi s Sridevi, s·拉贾拉姆”预测的时间序列数据,调查”学报2016年国际会议上计算技术和智能数据工程(ICCTIDE 16)Kovilpatti,页1 - 8,印度,2016年1月。视图:出版商的网站|谷歌学术搜索
陈,x, y吴et al .,”气象数据和搜索索引数据的应用在提高手足口病的预测:一项研究的两个城市在广东省,中国,“科学的环境卷,652年,第1021 - 1013页,2019年。视图:出版商的网站|谷歌学术搜索
r . Adhikari和r·k·Agrawal”一个介绍性的研究时间序列的建模和预测,”2013年,https://arxiv.org/abs/1302.6613。视图:谷歌学术搜索
m . h . Liu周、刘问:“嵌入式特征选择的不平衡数据分类的方法,”IEEE / CAA自动化杂志》上》第六卷,没有。3、703 - 715年,2019页。视图:出版商的网站|谷歌学术搜索
美国高,m .周y . Wang h . Yachi j . Cheng和j·王,“神经元树突与有效的学习算法分类模型,近似,并预测,“IEEE神经网络和学习系统,30卷,不。2、601 - 614年,2019页。视图:出版商的网站|谷歌学术搜索
e·迪亚科内斯库”的使用NARX神经网络预测混沌时间序列,”计算机研究圆柱事务,3卷,2008年。视图:谷歌学术搜索
r·威廉姆斯和d .拉链”,连续不断地学习算法完全复发性神经网络,”神经第一版1卷,第280 - 270页,1998年。视图:出版商的网站|谷歌学术搜索
即Sutskever, o . Vinyals诉勒,“序列序列学习神经网络,”2014年,https://arxiv.org/abs/1409.3215。视图:谷歌学术搜索
k .赵b . Merrienboer y Bengio et al .,”神经机器翻译的性质:encoder-decoder方法,”2014年,https://arxiv.org/abs/1409.1259。视图:谷歌学术搜索
z . c .立顿”的复发性神经网络评论序列学习,”2015年,https://arxiv.org/abs/1506.00019。视图:谷歌学术搜索
y秦,d的歌,h . Chen等人”的双阶段引起复发性神经网络时间序列预测,”《国际人工智能IJCAI2017联合会议26日澳大利亚墨尔本,页2627 - 2633,,2017年8月。视图:出版商的网站|谷歌学术搜索
g .赖w . Chang和y杨”建模长期和短期时间与深层神经网络模式,”美国第41届国际市立图书馆会议信息检索的研究与开发, 2018年。视图:出版商的网站|谷歌学术搜索
y . Chang, f .太阳,黄懿慧吴et al .,“多元时间序列预测的记忆网络为基础的解决方案,”2018年,https://arxiv.org/abs/1809.02105。视图:谷歌学术搜索
y, y, h . Nishiura et al .,“深度学习流行病学的预测,”美国第41届国际市立图书馆信息检索SIGIR2018研发会议,页1085 - 1088,安阿伯市,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
p . k . j . Chen Li Herrero et al .,“扩张递归神经网络的短时预测的葡萄糖浓度,”学报》第41届国际市立图书馆信息检索SIGIR2018研发会议,页95 - 103,安阿伯市,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
美国施、f .太阳和h·李,“多元时间序列预测,时间模式的关注”机器学习,卷108,不。8 - 9,1421 - 1441年,2019页。视图:出版商的网站|谷歌学术搜索
周顾j . y . Wang, z, z . Wang“腹泻门诊访问基于时间序列分解预测和multi-local预测融合,“以知识为基础的系统于,卷88,页12日至23日,2015年。视图:出版商的网站|谷歌学术搜索
j . y . Wang, j .顾z, z .王,“传染性腹泻预测人工神经网络在上海(中国)使用气象因素,”应用软计算,35卷,第290 - 280页,2015年。视图:出版商的网站|谷歌学术搜索
李,t . Chen l . Wang和c·明,“有效的旅游容量预测使用百度指数,利用主成分分析法(PCA)支持和改进摘要”旅游管理卷,68年,第126 - 116页,2018年。视图:出版商的网站|谷歌学术搜索
朱z, t . Liu g . et al .,“登革热百度搜索索引数据可以提高当地登革热疫情的预测:一个案例研究在广州,中国,“《公共科学图书馆·被忽视的热带疾病,11卷,不。3,1-13,2017页。视图:出版商的网站|谷歌学术搜索
黄y z . Wang TDDF b他et al。。”:HFMD outpatients prediction based on time series decomposition and heterogenous data fusion in Xiamen, China,” in第十五届国际研讨会论文集,ADMA 2019大连,页658 - 667年,中国,2019年11月。视图:谷歌学术搜索
2020年从维基百科,“厦门”,https://en.wikipedia.org/wiki/Xiamen。
2018年厦门统计局,http://tjj.xm.gov.cn/tjnj/2018/。
k, t . Wang z杨et al .,“使用百度搜索指数预测登革热疫情在中国,“科学报告》第六卷,38040页,2016年。视图:出版商的网站|谷歌学术搜索
j . Brownlee“长短期记忆与python网络:开发序列预测模型与深度学习,“机器学习掌握,2017年,https://machinelearningmastery.com。视图:谷歌学术搜索
d . p . Kingma和j .英航“亚当:随机优化方法,”2015年,https://arxiv.org/abs/1412.6980。视图:谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
c . c . r .回来和a·l·p·里贝罗“象征性的特性和分类,通过支持向量机预测恰加斯病,患者的死亡”计算机在生物学和医学卷,70年,第227 - 220页,2016年。视图:出版商的网站|谷歌学术搜索
h·f·杰罗姆,“贪婪的近似函数:一个梯度增加机器,”统计年报卷,29号5,1189 - 1232年,2001页。视图:谷歌学术搜索
t·陈和c . Guestrin“Xgboost:一个可伸缩的树增加系统”《学报》22日ACM SIGKDD国际会议上知识发现和数据挖掘,2016年8月。视图:出版商的网站|谷歌学术搜索
勒存y、y Bengio和p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2324 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
美国巴姨,j . z科特勒和诉Koltun,“实证评价通用卷积序列建模和复发性网络,”2018年,https://arxiv.org/abs/1803.01271。视图:谷歌学术搜索
s . Barra s . m .的法令,a . Corriga a . s . Podda和d·r·Recupero“深度学习和时间series-to-image编码金融预测,“IEEE / CAA自动化杂志》上,7卷,不。3、683 - 692年,2020页。视图:出版商的网站|谷歌学术搜索
m·m·哈桑·A . Gumaei g . Aloi g . Fortino和m .周”smartphone-enabled下降检测框架连接家里的老年人医疗、”IEEE网络,33卷,不。6日,58 - 63、2019页。视图:出版商的网站|谷歌学术搜索
d . Freire-Obregon f . Narducci、美国Barra和m . Castrillon-Santana“深度学习源相机识别在移动设备上,“模式识别的字母卷,126年,第91 - 86页,2019年。视图:出版商的网站|谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
d .叮,m .张x锅et al .,“极端事件在时间序列建模预测,”《学报》25日ACM SIGKDD国际会议上知识发现和数据挖掘2019年7月,页1114 - 1122。视图:出版商的网站|谷歌学术搜索

科学的规划

对智能世界2020年科学规划

文摘

1。介绍

2。学习材料

2.1。研究领域

2.2。气象因子(MF)

2.3。百度搜索指数(BSI)

3所示。方法

3.1。问题公式化

3.2。向前一步分割和归一化

3.2.1之上。向前一步分割

3.2.2。归一化

3.3。吝啬模型(PM)

4所示。实验设置

4.1。实验配置

4.2。评价指标

4.3。类似的方法

4.3.1。看不到多元线性回归(MLR)

4.3.2。随机森林回归(RFR)

4.3.3。支持向量回归(SVR)

4.3.4。梯度提高回归(GBR)

4.3.5。极端的梯度增加回归(XGBoost)

4.3.6。卷积神经网络(CNN1d)

4.3.7。神经网络回归(NNR)

5。实验结果和分析

5.1。窗口大小的影响

5.2。时间序列预测的性能

5.3。预测的可视化分析

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章