如何确定气象因素对流感的早期预警阈值通过大数据分析和机器学习

文摘

传染病对全球人口是一个主要的健康挑战。因为他们的快速传播可以造成巨大痛苦到现实世界中,除了采取适当措施控制传染病的传播事件的爆发,适当的预测和预警之前爆发的传染病的威胁可以提供早期的一个重要基础和合理的响应政府卫生部门,减少发病率和死亡率,大大减少国家损失。然而,如果只涉及传统的医学数据,可能是太晚或太难以实现传染病疫情的预测和预警。最近,医学大数据已经成为一个研究热点,并发挥了越来越重要的作用在公共卫生、精密医学和疾病预测。在本文中,我们专注于探索流感预测和预警方法的帮助下医学大数据。众所周知,气象条件会影响流感暴发。因此,我们试图找到一种方法来确定流感疫情的预警阈值通过大数据分析有关气象因素。结果表明,气象条件分析的基础上结合历史数据,流感爆发流感疫情的预警阈值可以建立合理的精度高。

1。介绍

流感,俗称流感,是一种流感病毒引起的急性呼吸道疾病A和B,这是一个典型的传染病(1]。它发生在世界各地,每年造成相当大的发病率和死亡率。传输速度高、频繁的病原体变异和广泛的影响,快速反应和预防流感仍然是一个严重的全球性挑战的2,3]。世卫组织估计,流感影响5%至10%的成年人,每年全世界有超过20%的儿童(4]。大约250000到500000人每年死于流感。如果我们能找到一种方法来科学监测,预测,并提供早期预警的流感,政府可以准备预防流感的爆发和传播尽可能早。因此,流感预警已经收到有关部门的高度重视。

最近,医学大数据已经成为一个研究热点,并发挥了越来越重要的作用在公共卫生、精密医学和疾病预测(5- - - - - -8]。在本文中,我们专注于探索流感预测和预警方法的帮助下医学大数据。

众所周知,流感传播疾病和季节密切相关,地区,天气和环境、人口因素、气象因素和人类行为,其中的关键影响因素在一定地区流感的爆发。将气象数据和流感发病率数据集成在一个特定区域通过机器学习和数据分析挖掘气象因素对流感发病率的影响和效应是本文的重点。

传统的流行病学监测系统有可能推迟报告确诊病例。因此,在这篇文章中,我们将研究流感病例数之间的关系在当前时期和气象因素在一段时间之前,从而考虑滞后的影响和疫情监测系统的延迟,因此探索一个更准确的气象因素之间的相关性和流感疫情。

先前的研究主要应用机器学习或深学习算法,通过相关分析和特征选择工作;首先筛选出重要的预测因子如温度、降雨、相对湿度;然后做了一个预测流感发病率的数量,但不研究建立流感预警阈值基于气象因素(9,10]。

本文研究如何确定气象因素对流感的早期预警阈值,从而提供一种方式来建立流感疫情预测和预警。

我们的贡献如下:(1)建立一个预处理过程集成气象数据和流感发病率数据(2)选择重要的气象指标特性预测和预警的流感疫情通过相关分析和功能建设(3)建立流感疫情预测和预警方法使用机器学习和构建的早期警告阈值对流感爆发的气象数据通过数据可视化

下面是有组织的如下。相关工作提出了部分2。我们的方法是节中详细讨论3。实验和研究的结果发表在部分4。结论部分给出5。

医疗卫生行业的不断发展和加强公共卫生的重要性,越来越多的注意力都集中在监测、预测和预警的传染病如流感,以及使用的方法和技术不断得到改善和发展。

崔和查克利用ARIMA模型(自回归综合移动平均模型)在1981年估计肺炎和流感死亡率,最早的研究时间序列(11]。

与肺炎和流感相关死亡的百分比作为评价指标量化流感对死亡率的影响。实验结果表明,基于ARIMA模型比规则更具体的回归模型。模型可以更准确地预测预期的肺炎和流感死亡率,但考虑的因素在这项研究中过于少了。

研究Ugarte et al。9]2010年,保罗和举行的研究(10]在2011年采用的方法统计方法应用到多变量时间序列的传染病。后者还引入了特定区域和可能与随机效应来解释不同级别的发病率或更改在跨区域传播的病原体。

Conesa等人使用贝叶斯层次泊松模型在2015年与隐马尔科夫结构检测流感流行[12]。通过自动监测相关的数据,他们发现流行立即在流感流行和暴发的疫情和预测趋势产生敏感,具体,和及时的预警警报。

马尔克斯和巴伦已经创建了一个智能系统,以支持使用相关因素的流感诊断基于历史数据的墨西哥人(13]。他们提出了支持第一个临床诊断与机器学习方法。

一些研究者也采用了更新奇技术或包含的其他影响因素来分析这些问题。

因为有很多不确定的因素影响禽流感疫情,(14)利用分类模型(OOC)解决禽流感疫情预测的任务。

戴et al。15)提出了词embedding-based聚类的方法。他们试图使用Twitter数据执行监测流感。

(16)结合疾病预防控制中心统计,谷歌趋势网络搜索数据和王净国民医疗诊断和咨询记录提出一个线性预测框架,表明大量的在线社交行为的信息可以用来间接监测流感活动。

然而,由于线性模型本身的局限性,预测效果相对一般。也有很多研究气象因素对流感样病例的影响。

(17)比较了模型误差和样本拟合精度的常见的回归模型和基于遗传算法和反向传播神经网络建模的高、低流感季节,分别。

(18)使用人工神经网络来预测季节性流感疫情在德黑兰。使用的数据集包含气候特征如温度、湿度、降水、风速、海平面压力,和病人的数量(推荐总数和流感样疾病患者的数量)。定义不同的损失函数。结果表明,该模型提供了一个令人满意的预测可能性。

Venna等人提出使用基于长期短期记忆——(LSTM)多级预测流感预测(16]。他们试图使用LSTM方法来捕捉季节性流感的时序动态。他们提出了一个技术捕捉外部变量的影响,包括地理环境和气候变量如湿度、温度、降水、日照。

基于理论的广义相加模型(GAM)和基于非线性回归数学模型,气象的影响因素对流感样病例的变化分析了乌鲁木齐(17]。单因素模型的结果表明,所有影响因素的差异具有统计学意义,和每月的阳光小时,月平均相对湿度,月平均温度是危险因素的变化引起流感样病例。多因素模型的结果表明,只有每月平均相对湿度和每月的平均温度是显著。

Jhuo et al。18]使用气象和污染参数和急性上呼吸道感染(AVRI)门诊数作为输入到一个多层感知器(MLP)来预测流感的病人数量和相关的肺炎在接下来的一周。他们使用的气象参数是温度和相对湿度,和空气污染参数颗粒物2.5(2.5点)和一氧化碳(CO)。

我们总结了所有这些工作表1。


参考	方法	数据	目标

(11]	华宇电脑	流感数据	预测的趋势
(9]	统计方法	流感数据	预测的趋势
(10]	统计方法	流感数据	预测的趋势
(12]	贝叶斯	流感数据	预测的趋势
(13]	机器学习方法	流感数据	支持诊断
(14]	记录	流感数据	预测疫情
(15]	聚类	社交媒体数据	监控流感
(19]	线性预测	医疗数据和搜索数据	监控流感
(20.]	遗传算法	流感数据	预测的趋势
(21]	安	气候数据和流感数据	预测的趋势
(16]	LSTM	地理数据和气候数据	预测的趋势
(17]	非线性回归	气象数据	监控流感
(18]	中长期规划	气象数据	预测的趋势

3所示。方法

3.1。概述

在这项工作中,我们结合流感发病率数据和气象数据的一个省在中国过去的四年中,探索一种有效的基于机器学习的早期预警方法和大数据算法,从而提供有用的信息在中国其他地区的流感预防。

整个框架由三个主要部分组成:(1)数据预处理。包括从互联网上气象数据的收集;清洁和集成流感发病率数据和气象数据;标准化和探索性数据分析;数据标签。(2)相关分析和特征选择。根据领域知识构建更复杂的特性,特性计算的重要性,通过单因素分析方法,计算特征选择是由过滤器和嵌入算法组合。(3)模型建设。传输数据到决策树模型,调整模型参数,构建预测模型,优化预测模型。

3.2。数据预处理

3.2.1之上。数据收集和数据清洗

从互联网上收集到的气象数据。这个工作请求使用Python库和爬虫框架Scrapy从国家温室数据采集气象数据系统。当爬行气象数据,首先确定爬行区域,然后使用urlencode函数发送一个HTTP请求获得相应的站_id气象站的这个区域,然后使用这个id的参数getWeatherData要求,加上所需的日期,发送一个HTTP请求。

收集到的气象数据的特点如表所示2:


的名字	意义	数据类型	数据单元

t_avg	每日平均温度	连续	°C
t_max	每日最高温度	连续	°C
t_min	每日最低温度	连续	°C
降雨	累积沉淀	连续	毫米
winds_avg	平均风速	连续	米/秒
winds_max	最大风速	连续	米/秒
rh_avg	平均相对湿度	连续	%
rh_min	最小相对湿度	连续	%
QNE_hPa	平均气压	连续	下丘脑-垂体-肾上腺轴的
辐射	每天累积辐射	连续	MJ / m²

3.2.2。数据标签

为了训练数据模型,我们需要注释的原始数据。流感发病率的数据收集和当地的气象数据集成在标记之前。

有两个基本思想研究气象因素的预警阈值。一是采取日常的流感发病率随着解释变量,即因变量,治疗和解决问题作为机器学习的一个回归问题,训练模型和预测未来的流感发病率的数量,和发布预警预测案例的数量大于某个阈值。

第二个是将连续的流感病例数转换成离散的0和1的标签通过特定的数据标记方法。这里使用的数据标记方法是定义流感暴发的阈值和测量当前发病率是否代表了流感疫情。标记完成后,问题可以解决机器学习中分类问题,而当数据预测,日期预计为1的日期被视为需要发出预警。

因为流感具有典型的季节性特征,比较是不太合理的预测连续值与一个特定的阈值根据第一个想法。如果我们的数据除以季节和火车多个模型,它使问题变得更加复杂。与第一个想法相比,第二个是更容易理解,更容易实现。经过全面的考虑和比较,决定选择第二个作为解决问题的方法。

根据流感爆发的具体问题,本文提出了三种方法的数据标签:(我)移动百分位数法。移动百分位数法比较局部电流观测周期的病例数与相应的实时历史基线数据。如果病例数发生在当前观测周期达到或超过警告阈值时,流感爆发被认为是;即数据标签被定义为1。例如,如果年的回顾历史的数量是3年,计算周期是7天,移动,和历史时期两个参考来回摇摆周期。假设我们设置一个P80流感疫情早期预警阈值;设置标签1只有病例数在当前观察期间(7天)大于或等于80%的历史基线数据;否则,设置为0。(2)每月Upquartile标记。每月upquartile标记,根据定义,定义了标签的数据对应的日期在每月的病例数超过每月upquartile为1。(3)双循环每日标记。通过探索性分析流感发病率的数据,可以发现,一年可以分为两个不同的周期根据每月的病例数。第一个周期是从11月到4月,是流感的最频繁的时期;第二个周期是5月至10月,流感的低阶段,平均约1/3的第一个周期。因为流感发病率数据的巨大的差距在两个周期,这是一个合理的方式来定义不同的数据标记方法对不同周期。具体定义如下:在第一个周期,有更多的流感病例,以天为基本单位,和每天的案件数量大于上部的四个四分位数这个循环被标记为1;也就是说,需要早期预警;在第二个周期,流感病例数较少,以天为基本单位。当每天的案件数量大于90的周期,数据标记为1。

3.3。相关分析和特征选择

如表所示2,我们收集了10个气象数据的基本特征。为了实现本研究的目标,我们需要使用该功能施工方法处理收集到的基本气象数据特性构建更复杂的数据特性,为了探索气象数据之间的关系和流感疫情从更全面的角度来看。根据获得的基本气象资料,我们构造48新的气象数据特性,主要是考虑到延迟效应的气象因素对流感的发病时间。

特征选择的目的是选择相关特性有利于学习算法从所有功能,筛选不相关和冗余特性来防止维度灾难问题。此外,特征选择还可以减少学习任务的难度,提高模型的效率。

本工作使用过滤器和嵌入特征选择的组合。我们首先使用滤波器进行特征选择,计算每个特性和输出值之间的相关性,去除明显无关的特性,降低特征维数,然后使用嵌入的过程融合特征选择和分类器学习的过程来选择特征的过程中学习。

特征选择阶段后,我们选择了26构造特征和10个基本特征训练模型。

3.4。模型建设

3.4.1。基本模型建设

在这项工作中,我们想要构建一个模型,该模型能产生流感疫情早期预警基于气象数据和流感发病率数据通过机器学习和数据可视化。

决策树算法可用于分类和回归。当自变量和因变量之间的关系是非线性的或有一个交互变量之间线性模型的效果会差,应该考虑和非线性模型。的一个重要特征的决策树算法与支持向量机相比,BP神经网络可解释性,因为构造决策树的过程相当于形成一个if - then规则集。根据数据可视化结果的决策树模型,气象条件流感警报的门槛。因此,在这项工作中,使用决策树构建的基本模型。

CART决策树算法使用基尼系数作为评价标准,取代了对数操作二次操作。基尼系数越小,杂质越小代表特征,决策树将优先选择分裂时最小的基尼系数的特点。与熵的基于模型的算法相比,CART算法的计算复杂度低得多。车只在每个节点上产生两个分支,所以形成一棵二叉树,每个特性可以重用。和购物车算法可用于处理连续变量。

,正如之前所讨论的,我们对待工作产生预警的流感爆发的一个分类问题;在这项工作中,我们选择购物车分类树算法构建的基本模型。

购物车分类树算法使用基尼系数来进行特征选择,通过下面的方程来描述: 在哪里样品中类的数量,而的概率是一个样本属于类。

因为我们治疗的工作产生预警流感爆发的0 - 1 two-classification问题,方程(1)可以进一步简化如下: 在哪里一个样本属于类的概率是0。

对于给定的数据集 ,假设类的数量作为。定义属于类的样本数量。然后,数据集的基尼系数可以计算如下:

对于数据集 ,当购物车树分裂根据特性 , 将分为和。在这种情况下,基尼系数将如下:

计算的基尼系数比这更简单的熵,尤其是two-classification问题,精度的损失也较小。此外,车分类树算法生成的决策树是一棵二叉树。与其他形成的multitree决策树算法相比,效率无疑是进一步改善。

购物车的流动决策树算法由两个阶段组成:决策树生成和决策树修剪。我们使用成本复杂性修剪(CCP)策略直接决策树修剪阶段我们的工作。

3.4.2。模型优化

为了充分利用CART算法的潜力,车的几个参数需要优化(如表所示3)。


的名字	意义	数据类型	默认值

max_depth	树的最大深度	没有一个
min_impurity_decrease	最小节点分裂的杂质	0
min_weight_fraction_leaf	一个叶节点的最低重量	0
class_weight	一个类的重量	没有一个

的马克斯_深度指定树的最大深度;限制这个参数可以确保预警模型的规模不是太复杂。的最小值_杂质_减少代表节点的最小杂质分离(即。基尼系数)。因为节点的杂质减少节点分裂时,节点的值时立即停止分裂杂质小于该阈值的值。这些参数,特别是马克斯_深度树的参数,是非常重要的限制分裂后的决策树的规模,减少过度拟合,提高模型的泛化性能。

因为有更少的日子每年的流感暴发和预警比没有预警,数据集本身具有不均匀样本比率。的样品占据了多数,和样品只有几个。机器学习模型,正负样本的比例不均将导致结果的偏差;也就是说,模型无法达到最好的效果,和预测的准确性是不好的。为此,需要调整的参数类_重量。我们的算法将计算所有样本并给予适当的体重在一个类根据每个类的比例在整个样本。的最小值_重量_分数_叶参数也起着重要的作用,因为不同的类都有一个不同的重量。因为upsampling会引入大量的冗余数据,将采样将失去的大部分信息,所以最常见的做法是分配不同的权重。

的设置马克斯_深度,最小值_杂质_减少,最小值_重量_分数_叶购物车算法将决定通过实验,这将稍后讨论。

集成学习方法几个简单的模型结合形成一个更复杂的和全面的模型。车可以通过整体优化的学习提高稳定性;然而,在整体学习优化,使用一个可视化方法是不可行的解释流感疫情的预警阈值之间的关系和气象数据的某些特性和流感发病率数据。因此,我们提出一个方法来提高预测精度,实现可视化的解释的决定同时流感疫情的预警阈值。

基于集成学习的想法,我们提供了一个优化模型来生成一个更准确的预测流感爆发基于气象数据和流感发病率数据通过结合购物车,XGBoost, LightGBM。XGBoost(极端的梯度增加)Tianqi陈等人提出的2015年,这是一个在GBDT优化。GBDT LightGBM是另一个优化,主要考虑如何减少内存的使用和如何减少多机通信的成本。

我们的方法是显示在图1。

车的基本模型是用于决定流感疫情的预警阈值通过数据可视化。如果车基本模型预测,达到预警阈值根据气象数据和流感发病率的数据,然后形成的组合模型用于预测,如果组合模型决定,确实达到预警阈值,那么我们的模型将预警信号。

这种方法减少了购物车中预测错误的概率模型单独使用,但当气象和流感发病率大数据满足警告车模型的条件,他们将发送到组合预测模型。

模型的运行效率可以大大提高。该算法的复杂性与基本CART算法相当,这是 ,在哪里代表了训练集样本的数量。

4所示。实验结果

4.1。实验框架

我们建立了我们的实验框架使用Python 3.5.5。将数据集的合作方法成两个互斥subdatasets和 ,训练模型 ,和测试模型的影响。合作方法是一种常见的方法来验证模型参数和评估模型的效果。一般来说,包含在样本大小至少应占2/3的整个数据集。在实践中,有一个广泛使用的合作方法(22:当数据具有明显的时间序列因素,在线数据的时间是在离线数据集。在这种情况下,训练集和测试集应该根据时间划分。

在这项工作中,我们遵守的方法。因为我们有总共有五年的数据从2012年到2016年,我们把数据从2012年到2015年数据作为训练集和测试集划分数据集。2016年在不破坏原始数据的特点,保留了数据分布的特点,在最大的程度上,并避免引入的噪音数据的分割。

我们使用的测量指标摘要如下:(1)ACC。准确性代表样本的数量的比率与预测值与实际值相同的总样本。当模型的精度较高,这表明该模型预测结果表现的更好。(2)f1-score。f1-score更指标相结合,可以计算的。而回忆计算 ,TP是真阳性样本的数量,虽然FN假阴性样本的数量。和精确计算 ,FP是假阳性样本的数量。(3)AUC(曲线下的面积)。AUC常被用来评估two-classification模型。AUC反映了一个概率值,可以直观地量化这种分类器的性能。AUC值越大,分类器的性能越好,最大值不超过1。AUC是相对稳定的,可以更好地衡量分类器的性能,即预警模型。

4.2。车参数决定

进行的实验是决定几车最重要的参数,如表所示3。移动百分位数法用于执行数据标记。

4.2.1。准备决定max_depth

实验结果为不同的马克斯_深度如表所示4。


max_depth	ACC	f1-score	AUC

2	0.8361	0.6562	0.8019
3	0.8126	0.6793	0.7798
4	0.8135	0.7087	0.7943
5	0.7621	0.6315	0.7109
6	0.7709	0.6107	0.6954
7	0.7891	0.6051	0.6598

从结果可以看到,当 ,ACC更高。当 ,ACC减少。f1-score到达时的最大数量。

和AUC也相对较高。f1-score和AUC减少马克斯_深度变得比4。我们可以得出这样的结论:如果马克斯_深度大于4,模型可能会过度拟合。因此,我们决定的设置。

4.2.2。决定min_impurity_decrease

实验结果为不同的最小值_杂质_减少如表所示5。


min_impurity_decrease	ACC	f1-score	AUC

0	0.8135	0.7087	0.7943
0.005	0.8135	0.7087	0.7943
0.01	0.8143	0.7165	0.8029
0.02	0.8177	0.7254	0.8087
0.05	0.8268	0.7301	0.8109
0.08	0.7521	0.6342	0.7651
0.1	0.7196	0.6072	0.7535

它可以看到,随着增加的最小值_杂质_减少、ACC f1-score, AUC显示的趋势先增加然后减少。后的值最小值_杂质_减少大于0.08,ACC, f1-score, AUC都有大幅下降。因此,可以认为模型参数时具有最好的效果在0.02至0.08的范围。进一步评估后,最后,我们集。

4.2.3。决定min_weight_fraction_leaf

实验结果为不同的最小值_重量_分数_叶如表所示6。


min_weight_fraction_leaf	ACC	f1-score	AUC

0	0.8291	0.7370	0.8153
0.01	0.8043	0.6909	0.7733
0.02	0.8105	0.7144	0.7992
0.05	0.8358	0.7451	0.8208
0.1	0.8470	0.6369	0.7384
0.2	0.8578	0.6882	0.7572
0.3	0.7329	0.6153	0.7023

它可以看到,当 ,f1-score和AUC都达到最大值,而ACC是相对较高的。尽管ACC增加min_weight_fraction_leaf增加时最小值_重量_分数_叶大于0.05,f1-score和AUC下降很大程度上。因此,我们可以得出这样的结论:该模型得到最好的效果最小值_重量_分数_叶大约是0.05。进一步评估后,我们集。

4.3。评估数据标记方法

一个实验进行评价是最好的为我们的模型数据标记方法。结果如表所示7和图2。


数据标记方法	ACC	f1-score	AUC

移动百分位数法	0.8586	0.7610	0.8429
每月upquartile标记	0.8317	0.6963	0.7967
双循环每日标记	0.8391	0.7129	0.7508

(一)中华民国移动百分位数法

(b)中华民国的月度upquartile标记

(c)中华民国双循环的日常标记

通过比较,我们可以决定移动百分位数法更适合我们的模型。

4.4。定义预警气象因素对流感的边界值

购物车的可视化结果基本模型图所示3。

正如我们之前说的,按照施工过程的决策树模型,分类规则可以直观地从树上结构图,然后是气象条件需要时发出预警。

因此,我们可以生成气象因素对流感预警边界值的基础上使用移动百分位数标记法和购物车从图基本模型3如下:(1)( )和( )和( );(2)( )和( )和( )和( );和(3)( )和( )和( )和( )。

很容易看到,三个条件是相互排斥的,只有其中一个会被满足。当一个条件满足,早期预警。

4.5。优化评价模型

我们使用移动百分位数法作为数据标记方法。和我们的优化模型和基线模型之间的比较如表所示8和图4。


方法	ACC	f1-score	AUC

优化模型	0.8721	0.7381	0.8709
车	0.8586	0.7610	0.8429
XGBoost	0.8804	0.6998	0.8561
LightGBM	0.8735	0.7321	0.8224

(一)中华民国的优化模型

购物车(b)中华民国的基本模型

(c)中华民国XGBoost基本的模型

(d)中华民国LightGBM基本的模型

它可以看到,ACC和AUC的优化模型比车基本模型。但f1-score优化模型比这小的车基本模型。根据我们的分析,优化模型的机制使样品的数量预计为1变得更少;因此,召回率和f1-score变得越来越低。ACC的车相对较低,但f1-score和AUC是相对较高的。XGBoost模型在准确性和AUC表现良好,但f1-score相对较低。在AUC LightGBM模型稍差,ACC和f1-score中间。

我们还展示了我们的方法之间的精度比较图和一些先进的方法5。

5。结论

在本文中,我们试图结合气象数据和流感发病率数据构建一个大数据模型来确定预警气象因素对流感的边界值。我们利用购物车数据可视化方法的基本模型,提供一种方法来生成一个流感疫情早期预警阈值基于气象数据的数据分析。我们提出了一个优化模型来生成一个更准确的预警信号。

我们的方法为代价的轻微减少召回率改善ACC和AUC,还充分利用车的结果通过数据可视化模型。只有当车基本模型表明,也许应该暗示一个预警,然后XGBoost的更复杂的组合模型,LightGBM需要。总的来说,这是一个合理的计划根据评估。

另一个策略可能采取“或”操作的建筑组合优化模型。当至少一个模型预计是1,最终的预测结果是1;也就是说,早期预警是必要的。然而,早期预警阈值不能通过数据可视化生成,因此没有可解释性。此外,计算更努力。在现实的条件下,可以选择不同的模型组合策略根据不同的需求。

实际上,在这个工作中,我们只介绍了关键气象因素,而流感疫情也与人类密切相关的流,城际迁移指数、疫苗接种、突发事件等因素。在未来的工作中,我们将努力建立一个更全面的方法来建立流感暴发的早期预警系统。

数据可用性

请求数据(6/12个月后发表这篇文章)将被相应的作者。

信息披露

资助者没有作用的设计研究;在收集、分析、解释数据;写的手稿;或决定发布结果。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

作者参与本研究的贡献如下:概念化,H.G.测向;方法,分子量;软件,l . j .;验证、X.W.,测向,M.W.; formal analysis, H.G.; investigation, L.J.; resources, X.Y.; data curation, D.F. and X. D.; writing–original draft preparation, H.G.; visualization, X.W.; supervision, X.Y.; project administration, X.Y.; and funding acquisition, H.G. and X.Y. All authors have read and agreed to the published version of the manuscript.

确认

这项工作是由中国国家科技重大项目批准号2018 zx10201 - 002和中国的国家自然科学基金批准号91846303。

引用

谁,”全球流行性传染病监测报告——流感,”技术。代表,2020年,https://www.who.int/csr/resources/publications/influenza/CSR_ISR_2000_1/en/。视图:谷歌学术搜索
m·罗宾逊y Drossinos, n . i Stilianakis“间接传输和季节性传染病病原体灭活在周期性的影响,“流行,5卷,不。2、111 - 121年,2013页。视图:出版商的网站|谷歌学术搜索
l .威廉f . Verelst j . Bilcke n .母鸡和p . beutel”十年的基于单独的教训对传染病传播模型:系统回顾(2006 - 2015),“《BMC传染病》杂志,17卷,不。1,p。612年,2017。视图:出版商的网站|谷歌学术搜索
s . c . Schoenbaum“大流感:历史上最致命的瘟疫的史诗故事,”公共卫生政策杂志》上,25卷,不。3 - 4、435 - 443年,2004页。视图:出版商的网站|谷歌学术搜索
问:姚明,y, P.-F。李,l l。田,Y.-M。钱,js。李:“医学大数据处理系统的设计和开发基于Hadoop,”医疗系统杂志,39卷,不。3、1 - 11,2015页。视图:谷歌学术搜索
w·林,w .窦、z周和c .刘”基于云框架home-diagnosis在大的医疗数据服务,“系统和软件杂志》上卷,102年,第206 - 192页,2015年。视图:出版商的网站|谷歌学术搜索
c·h·李和周宏儒。尹,“医学大数据:承诺和挑战,”肾的研究和临床实践,36卷,不。1,3-11,2017页。视图:出版商的网站|谷歌学术搜索
d . Windridge和m .鲍勃,”基于医学大数据分析框架”,激飞柏林海德堡,2014。视图:谷歌学术搜索
m·d·Ugarte t Goicoa, a . f . Militino“时空建模死亡率风险的使用惩罚样条函数”,Environmetrics,21卷,不。3 - 4、270 - 289年,2010页。视图:出版商的网站|谷歌学术搜索
m·保罗和l .举行“预测评估的多元时间序列的非线性随机效应模型的传染病,”医学统计,30卷,不。10日,1118 - 1136年,2011页。视图:出版商的网站|谷歌学术搜索
k . Choi和s . b .查克”评估流感死亡率监测,1962 - 1979。二世。肺炎和流感死亡的百分比作为流感活动的指标,“美国流行病学杂志》,卷113,不。3、227 - 235年,1981页。视图:出版商的网站|谷歌学术搜索
d . Conesa m·a . Martinez-Beneito r . Amoros和a . Lopez-Quilez“贝叶斯分层泊松模型的隐马尔科夫结构检测流感疫情暴发,”医学研究统计方法,24卷,不。2、206 - 223年,2011页。视图:出版商的网站|谷歌学术搜索
大肠马尔克斯和诉巴伦”人工智能系统,以支持临床决策的流感,”2019年IEEE国际秋季会议上力量,电子和计算(ROPEC),页1 - 5,Ixtapa,墨西哥,2019年11月。视图:出版商的网站|谷歌学术搜索
j . Zhang j . Lu, g .张“禽流感疫情,将一个类分类模型”2011年IEEE研讨会上计算智能在多准则决策(MDCM),页190 - 196年,巴黎,法国,2011年4月。视图:出版商的网站|谷歌学术搜索
戴x m . Bikdash里,b·迈耶”从社交媒体到公共卫生监测:字嵌入Twitter分类、基于聚类方法”SoutheastCon 2017,页1 - 7,IEE。视图:出版商的网站|谷歌学术搜索
s . r . Venna A . Tavanaei r . n . Gottumukkala诉诉Raghavan, A . s . Maida和s·尼科尔斯,“小说数据驱动模型实时预测流感,”IEEE访问7卷,第7701 - 7691页,2019年。视图:出版商的网站|谷歌学术搜索
g .丰韵f .徐成就、y Jian-Dong和w·凯”的影响,气象因素对流感样病例在乌鲁木齐,”职业与健康,2019年。视图:谷歌学术搜索
s . Jhuo m .谢长廷,t·翁m . Chen c·杨和c .叶”流感趋势预测和相关的肺炎在台湾使用机器学习,”2019年国际研讨会上智能信号处理和通信系统(ISPACS),1 - 2页,台北,台湾,2019年12月。视图:出版商的网站|谷歌学术搜索
郭宏源。陈,研究。陈,J.-L。陈,F.-C。常,“流感基于大量的数据分析,趋势预测”2018年IEEE第三国际会议上云计算和大数据分析(ICCCBDA)成都,页304 - 308年,中国,2018年4月。视图:出版商的网站|谷歌学术搜索
h·雪y白、h·胡和h .梁”流感活动监测多个回归模型和人工神经网络的基础上,“IEEE访问》第六卷,第575 - 563页,2018年。视图:出版商的网站|谷歌学术搜索
f . Saberian a . Zamani m . m . Gooya p . Hemmati m . a . Shoorehdeli和m . Teshnehlab”预测季节性流感流行使用人工神经网络在德黑兰,”2014年22日伊朗电气工程会议(ICEE),页1921 - 1923,德黑兰,伊朗,2014年5月。视图:出版商的网站|谷歌学术搜索
a . Mihalik f·s·费雷拉,m . Moutoussis et al .,“多个反对者稳定性:提高机器学习的概括性的分析思维的关系,“生物精神病学,卷87,不。4、368 - 376年,2020页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学