CMMMgydF4y2Ba 计算和数学方法在医学gydF4y2Ba 1748 - 6718gydF4y2Ba 1748 - 670 xgydF4y2Ba HindawigydF4y2Ba 10.1155 / 2020/8845459gydF4y2Ba 8845459gydF4y2Ba 研究文章gydF4y2Ba 如何确定气象因素对流感的早期预警阈值通过大数据分析和机器学习gydF4y2Ba 通用电气gydF4y2Ba 回族gydF4y2Ba 1gydF4y2Ba 风扇gydF4y2Ba 德宝gydF4y2Ba 2gydF4y2Ba 王ydF4y2Ba 明gydF4y2Ba 1gydF4y2Ba 金gydF4y2Ba LizhugydF4y2Ba 1gydF4y2Ba 王gydF4y2Ba 现任gydF4y2Ba 1gydF4y2Ba 杜gydF4y2Ba XuejiegydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0001 - 7983 - 6473gydF4y2Ba 杨gydF4y2Ba 徐gydF4y2Ba 2gydF4y2Ba 夏gydF4y2Ba KaijiangydF4y2Ba 1gydF4y2Ba 中国疾病预防控制中心gydF4y2Ba 102206年北京gydF4y2Ba 中国gydF4y2Ba chinacdc.cngydF4y2Ba 2gydF4y2Ba 计算机科学与技术学院的gydF4y2Ba 北京理工学院gydF4y2Ba 100081年北京gydF4y2Ba 中国gydF4y2Ba bit.edu.cngydF4y2Ba 2020年gydF4y2Ba 2gydF4y2Ba 12gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 11gydF4y2Ba 9gydF4y2Ba 2020年gydF4y2Ba 27gydF4y2Ba 10gydF4y2Ba 2020年gydF4y2Ba 23gydF4y2Ba 11gydF4y2Ba 2020年gydF4y2Ba 2gydF4y2Ba 12gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 版权©2020回族通用电气等。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

传染病对全球人口是一个主要的健康挑战。因为他们的快速传播可以造成巨大痛苦到现实世界中,除了采取适当措施控制传染病的传播事件的爆发,适当的预测和预警之前爆发的传染病的威胁可以提供早期的一个重要基础和合理的响应政府卫生部门,减少发病率和死亡率,大大减少国家损失。然而,如果只涉及传统的医学数据,可能是太晚或太难以实现传染病疫情的预测和预警。最近,医学大数据已经成为一个研究热点,并发挥了越来越重要的作用在公共卫生、精密医学和疾病预测。在本文中,我们专注于探索流感预测和预警方法的帮助下医学大数据。众所周知,气象条件会影响流感暴发。因此,我们试图找到一种方法来确定流感疫情的预警阈值通过大数据分析有关气象因素。结果表明,气象条件分析的基础上结合历史数据,流感爆发流感疫情的预警阈值可以建立合理的精度高。gydF4y2Ba

中国国家自然科学基金gydF4y2Ba 91846303gydF4y2Ba 中国国家科技重大项目gydF4y2Ba 2018 zx10201 - 002gydF4y2Ba
1。介绍gydF4y2Ba

传染病对全球人口是一个主要的健康挑战。因为他们的快速传播可以造成巨大痛苦到现实世界中,除了采取适当措施控制传染病的传播事件的爆发,适当的预测和预警之前爆发的传染病的威胁可以提供早期的一个重要基础和合理的响应政府卫生部门,减少发病率和死亡率,大大减少国家损失。然而,如果只涉及传统的医学数据,可能是太晚或太难以实现传染病疫情的预测和预警。gydF4y2Ba

流感,俗称gydF4y2Ba 流感gydF4y2Ba,是一种流感病毒引起的急性呼吸道疾病A和B,这是一个典型的传染病(gydF4y2Ba 1gydF4y2Ba]。它发生在世界各地,每年造成相当大的发病率和死亡率。传输速度高、频繁的病原体变异和广泛的影响,快速反应和预防流感仍然是一个严重的全球性挑战的gydF4y2Ba 2gydF4y2Ba,gydF4y2Ba 3gydF4y2Ba]。世卫组织估计,流感影响5%至10%的成年人,每年全世界有超过20%的儿童(gydF4y2Ba 4gydF4y2Ba]。大约250000到500000人每年死于流感。如果我们能找到一种方法来科学监测,预测,并提供早期预警的流感,政府可以准备预防流感的爆发和传播尽可能早。因此,流感预警已经收到有关部门的高度重视。gydF4y2Ba

最近,医学大数据已经成为一个研究热点,并发挥了越来越重要的作用在公共卫生、精密医学和疾病预测(gydF4y2Ba 5gydF4y2Ba- - - - - -gydF4y2Ba 8gydF4y2Ba]。在本文中,我们专注于探索流感预测和预警方法的帮助下医学大数据。gydF4y2Ba

众所周知,流感传播疾病和季节密切相关,地区,天气和环境、人口因素、气象因素和人类行为,其中的关键影响因素在一定地区流感的爆发。将气象数据和流感发病率数据集成在一个特定区域通过机器学习和数据分析挖掘气象因素对流感发病率的影响和效应是本文的重点。gydF4y2Ba

传统的流行病学监测系统有可能推迟报告确诊病例。因此,在这篇文章中,我们将研究流感病例数之间的关系在当前时期和气象因素在一段时间之前,从而考虑滞后的影响和疫情监测系统的延迟,因此探索一个更准确的气象因素之间的相关性和流感疫情。gydF4y2Ba

先前的研究主要应用机器学习或深学习算法,通过相关分析和特征选择工作;首先筛选出重要的预测因子如温度、降雨、相对湿度;然后做了一个预测流感发病率的数量,但不研究建立流感预警阈值基于气象因素(gydF4y2Ba 9gydF4y2Ba,gydF4y2Ba 10gydF4y2Ba]。gydF4y2Ba

本文研究如何确定气象因素对流感的早期预警阈值,从而提供一种方式来建立流感疫情预测和预警。gydF4y2Ba

我们的贡献如下:gydF4y2Ba

建立一个预处理过程集成气象数据和流感发病率数据gydF4y2Ba

选择重要的气象指标特性预测和预警的流感疫情通过相关分析和功能建设gydF4y2Ba

建立流感疫情预测和预警方法使用机器学习和构建的早期警告阈值对流感爆发的气象数据通过数据可视化gydF4y2Ba

下面是有组织的如下。相关工作提出了部分gydF4y2Ba 2gydF4y2Ba。我们的方法是节中详细讨论gydF4y2Ba 3gydF4y2Ba。实验和研究的结果发表在部分gydF4y2Ba 4gydF4y2Ba。结论部分给出gydF4y2Ba 5gydF4y2Ba。gydF4y2Ba

2。相关的工作gydF4y2Ba

医疗卫生行业的不断发展和加强公共卫生的重要性,越来越多的注意力都集中在监测、预测和预警的传染病如流感,以及使用的方法和技术不断得到改善和发展。gydF4y2Ba

崔和查克利用ARIMA模型(自回归综合移动平均模型)在1981年估计肺炎和流感死亡率,最早的研究时间序列(gydF4y2Ba 11gydF4y2Ba]。gydF4y2Ba

与肺炎和流感相关死亡的百分比作为评价指标量化流感对死亡率的影响。实验结果表明,基于ARIMA模型比规则更具体的回归模型。模型可以更准确地预测预期的肺炎和流感死亡率,但考虑的因素在这项研究中过于少了。gydF4y2Ba

研究Ugarte et al。gydF4y2Ba 9gydF4y2Ba]2010年,保罗和举行的研究(gydF4y2Ba 10gydF4y2Ba]在2011年采用的方法统计方法应用到多变量时间序列的传染病。后者还引入了特定区域和可能与随机效应来解释不同级别的发病率或更改在跨区域传播的病原体。gydF4y2Ba

Conesa等人使用贝叶斯层次泊松模型在2015年与隐马尔科夫结构检测流感流行[gydF4y2Ba 12gydF4y2Ba]。通过自动监测相关的数据,他们发现流行立即在流感流行和暴发的疫情和预测趋势产生敏感,具体,和及时的预警警报。gydF4y2Ba

马尔克斯和巴伦已经创建了一个智能系统,以支持使用相关因素的流感诊断基于历史数据的墨西哥人(gydF4y2Ba 13gydF4y2Ba]。他们提出了支持第一个临床诊断与机器学习方法。gydF4y2Ba

一些研究者也采用了更新奇技术或包含的其他影响因素来分析这些问题。gydF4y2Ba

因为有很多不确定的因素影响禽流感疫情,(gydF4y2Ba 14gydF4y2Ba)利用分类模型(OOC)解决禽流感疫情预测的任务。gydF4y2Ba

戴et al。gydF4y2Ba 15gydF4y2Ba)提出了词embedding-based聚类的方法。他们试图使用Twitter数据执行监测流感。gydF4y2Ba

(gydF4y2Ba 16gydF4y2Ba)结合疾病预防控制中心统计,谷歌趋势网络搜索数据和王净国民医疗诊断和咨询记录提出一个线性预测框架,表明大量的在线社交行为的信息可以用来间接监测流感活动。gydF4y2Ba

然而,由于线性模型本身的局限性,预测效果相对一般。也有很多研究气象因素对流感样病例的影响。gydF4y2Ba

(gydF4y2Ba 17gydF4y2Ba)比较了模型误差和样本拟合精度的常见的回归模型和基于遗传算法和反向传播神经网络建模的高、低流感季节,分别。gydF4y2Ba

(gydF4y2Ba 18gydF4y2Ba)使用人工神经网络来预测季节性流感疫情在德黑兰。使用的数据集包含气候特征如温度、湿度、降水、风速、海平面压力,和病人的数量(推荐总数和流感样疾病患者的数量)。定义不同的损失函数。结果表明,该模型提供了一个令人满意的预测可能性。gydF4y2Ba

Venna等人提出使用基于长期短期记忆——(LSTM)多级预测流感预测(gydF4y2Ba 16gydF4y2Ba]。他们试图使用LSTM方法来捕捉季节性流感的时序动态。他们提出了一个技术捕捉外部变量的影响,包括地理环境和气候变量如湿度、温度、降水、日照。gydF4y2Ba

基于理论的广义相加模型(GAM)和基于非线性回归数学模型,气象的影响因素对流感样病例的变化分析了乌鲁木齐(gydF4y2Ba 17gydF4y2Ba]。单因素模型的结果表明,所有影响因素的差异具有统计学意义,和每月的阳光小时,月平均相对湿度,月平均温度是危险因素的变化引起流感样病例。多因素模型的结果表明,只有每月平均相对湿度和每月的平均温度是显著。gydF4y2Ba

Jhuo et al。gydF4y2Ba 18gydF4y2Ba]使用气象和污染参数和急性上呼吸道感染(AVRI)门诊数作为输入到一个多层感知器(MLP)来预测流感的病人数量和相关的肺炎在接下来的一周。他们使用的气象参数是温度和相对湿度,和空气污染参数颗粒物2.5(2.5点)和一氧化碳(CO)。gydF4y2Ba

我们总结了所有这些工作表gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

比较不同的相关工作。gydF4y2Ba

参考gydF4y2Ba 方法gydF4y2Ba 数据gydF4y2Ba 目标gydF4y2Ba
(gydF4y2Ba 11gydF4y2Ba]gydF4y2Ba 华宇电脑gydF4y2Ba 流感数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 9gydF4y2Ba]gydF4y2Ba 统计方法gydF4y2Ba 流感数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 10gydF4y2Ba]gydF4y2Ba 统计方法gydF4y2Ba 流感数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 12gydF4y2Ba]gydF4y2Ba 贝叶斯gydF4y2Ba 流感数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 13gydF4y2Ba]gydF4y2Ba 机器学习方法gydF4y2Ba 流感数据gydF4y2Ba 支持诊断gydF4y2Ba
(gydF4y2Ba 14gydF4y2Ba]gydF4y2Ba 记录gydF4y2Ba 流感数据gydF4y2Ba 预测疫情gydF4y2Ba
(gydF4y2Ba 15gydF4y2Ba]gydF4y2Ba 聚类gydF4y2Ba 社交媒体数据gydF4y2Ba 监控流感gydF4y2Ba
(gydF4y2Ba 19gydF4y2Ba]gydF4y2Ba 线性预测gydF4y2Ba 医疗数据和搜索数据gydF4y2Ba 监控流感gydF4y2Ba
(gydF4y2Ba 20.gydF4y2Ba]gydF4y2Ba 遗传算法gydF4y2Ba 流感数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 21gydF4y2Ba]gydF4y2Ba 安gydF4y2Ba 气候数据和流感数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 16gydF4y2Ba]gydF4y2Ba LSTMgydF4y2Ba 地理数据和气候数据gydF4y2Ba 预测的趋势gydF4y2Ba
(gydF4y2Ba 17gydF4y2Ba]gydF4y2Ba 非线性回归gydF4y2Ba 气象数据gydF4y2Ba 监控流感gydF4y2Ba
(gydF4y2Ba 18gydF4y2Ba]gydF4y2Ba 中长期规划gydF4y2Ba 气象数据gydF4y2Ba 预测的趋势gydF4y2Ba
3所示。方法gydF4y2Ba 3.1。概述gydF4y2Ba

在这项工作中,我们结合流感发病率数据和气象数据的一个省在中国过去的四年中,探索一种有效的基于机器学习的早期预警方法和大数据算法,从而提供有用的信息在中国其他地区的流感预防。gydF4y2Ba

整个框架由三个主要部分组成:gydF4y2Ba

数据预处理gydF4y2Ba。包括从互联网上气象数据的收集;清洁和集成流感发病率数据和气象数据;标准化和探索性数据分析;数据标签。gydF4y2Ba

相关分析和特征选择gydF4y2Ba。根据领域知识构建更复杂的特性,特性计算的重要性,通过单因素分析方法,计算特征选择是由过滤器和嵌入算法组合。gydF4y2Ba

模型建设gydF4y2Ba。传输数据到决策树模型,调整模型参数,构建预测模型,优化预测模型。gydF4y2Ba

3.2。数据预处理gydF4y2Ba 3.2.1之上。数据收集和数据清洗gydF4y2Ba

从互联网上收集到的气象数据。这个工作请求使用Python库和爬虫框架Scrapy从国家温室数据采集气象数据系统。当爬行气象数据,首先确定爬行区域,然后使用gydF4y2Ba urlencodegydF4y2Ba函数发送一个HTTP请求获得相应的gydF4y2Ba 站gydF4y2Ba_gydF4y2Ba idgydF4y2Ba气象站的这个区域,然后使用这个gydF4y2Ba idgydF4y2Ba的参数gydF4y2Ba getWeatherDatagydF4y2Ba要求,加上所需的日期,发送一个HTTP请求。gydF4y2Ba

收集到的气象数据的特点如表所示gydF4y2Ba 2gydF4y2Ba:gydF4y2Ba

气象数据的特性。gydF4y2Ba

的名字gydF4y2Ba 意义gydF4y2Ba 数据类型gydF4y2Ba 数据单元gydF4y2Ba
t_avggydF4y2Ba 每日平均温度gydF4y2Ba 连续gydF4y2Ba °CgydF4y2Ba
t_maxgydF4y2Ba 每日最高温度gydF4y2Ba 连续gydF4y2Ba °CgydF4y2Ba
t_mingydF4y2Ba 每日最低温度gydF4y2Ba 连续gydF4y2Ba °CgydF4y2Ba
降雨gydF4y2Ba 累积沉淀gydF4y2Ba 连续gydF4y2Ba 毫米gydF4y2Ba
winds_avggydF4y2Ba 平均风速gydF4y2Ba 连续gydF4y2Ba 米/秒gydF4y2Ba
winds_maxgydF4y2Ba 最大风速gydF4y2Ba 连续gydF4y2Ba 米/秒gydF4y2Ba
rh_avggydF4y2Ba 平均相对湿度gydF4y2Ba 连续gydF4y2Ba %gydF4y2Ba
rh_mingydF4y2Ba 最小相对湿度gydF4y2Ba 连续gydF4y2Ba %gydF4y2Ba
QNE_hPagydF4y2Ba 平均气压gydF4y2Ba 连续gydF4y2Ba 下丘脑-垂体-肾上腺轴的gydF4y2Ba
辐射gydF4y2Ba 每天累积辐射gydF4y2Ba 连续gydF4y2Ba MJ / mgydF4y2Ba2gydF4y2Ba
3.2.2。数据标签gydF4y2Ba

为了训练数据模型,我们需要注释的原始数据。流感发病率的数据收集和当地的气象数据集成在标记之前。gydF4y2Ba

有两个基本思想研究气象因素的预警阈值。一是采取日常的流感发病率随着解释变量,即因变量,治疗和解决问题作为机器学习的一个回归问题,训练模型和预测未来的流感发病率的数量,和发布预警预测案例的数量大于某个阈值。gydF4y2Ba

第二个是将连续的流感病例数转换成离散的0和1的标签通过特定的数据标记方法。这里使用的数据标记方法是定义流感暴发的阈值和测量当前发病率是否代表了流感疫情。标记完成后,问题可以解决机器学习中分类问题,而当数据预测,日期预计为1的日期被视为需要发出预警。gydF4y2Ba

因为流感具有典型的季节性特征,比较是不太合理的预测连续值与一个特定的阈值根据第一个想法。如果我们的数据除以季节和火车多个模型,它使问题变得更加复杂。与第一个想法相比,第二个是更容易理解,更容易实现。经过全面的考虑和比较,决定选择第二个作为解决问题的方法。gydF4y2Ba

根据流感爆发的具体问题,本文提出了三种方法的数据标签:gydF4y2Ba

移动百分位数法gydF4y2Ba。移动百分位数法比较局部电流观测周期的病例数与相应的实时历史基线数据。如果病例数发生在当前观测周期达到或超过警告阈值时,流感爆发被认为是;即数据标签被定义为1。例如,如果年的回顾历史的数量是3年,计算周期是7天,移动,和历史时期两个参考来回摇摆周期。假设我们设置一个P80流感疫情早期预警阈值;设置标签1只有病例数在当前观察期间(7天)大于或等于80%的历史基线数据;否则,设置为0。gydF4y2Ba

每月Upquartile标记gydF4y2Ba。每月upquartile标记,根据定义,定义了标签的数据对应的日期在每月的病例数超过每月upquartile为1。gydF4y2Ba

双循环每日标记gydF4y2Ba。通过探索性分析流感发病率的数据,可以发现,一年可以分为两个不同的周期根据每月的病例数。第一个周期是从11月到4月,是流感的最频繁的时期;第二个周期是5月至10月,流感的低阶段,平均约1/3的第一个周期。因为流感发病率数据的巨大的差距在两个周期,这是一个合理的方式来定义不同的数据标记方法对不同周期。具体定义如下:在第一个周期,有更多的流感病例,以天为基本单位,和每天的案件数量大于上部的四个四分位数这个循环被标记为1;也就是说,需要早期预警;在第二个周期,流感病例数较少,以天为基本单位。当每天的案件数量大于90的周期,数据标记为1。gydF4y2Ba

3.3。相关分析和特征选择gydF4y2Ba

如表所示gydF4y2Ba 2gydF4y2Ba,我们收集了10个气象数据的基本特征。为了实现本研究的目标,我们需要使用该功能施工方法处理收集到的基本气象数据特性构建更复杂的数据特性,为了探索气象数据之间的关系和流感疫情从更全面的角度来看。根据获得的基本气象资料,我们构造48新的气象数据特性,主要是考虑到延迟效应的气象因素对流感的发病时间。gydF4y2Ba

特征选择的目的是选择相关特性有利于学习算法从所有功能,筛选不相关和冗余特性来防止维度灾难问题。此外,特征选择还可以减少学习任务的难度,提高模型的效率。gydF4y2Ba

本工作使用过滤器和嵌入特征选择的组合。我们首先使用滤波器进行特征选择,计算每个特性和输出值之间的相关性,去除明显无关的特性,降低特征维数,然后使用嵌入的过程融合特征选择和分类器学习的过程来选择特征的过程中学习。gydF4y2Ba

特征选择阶段后,我们选择了26构造特征和10个基本特征训练模型。gydF4y2Ba

3.4。模型建设gydF4y2Ba 3.4.1。基本模型建设gydF4y2Ba

在这项工作中,我们想要构建一个模型,该模型能产生流感疫情早期预警基于气象数据和流感发病率数据通过机器学习和数据可视化。gydF4y2Ba

决策树算法可用于分类和回归。当自变量和因变量之间的关系是非线性的或有一个交互变量之间线性模型的效果会差,应该考虑和非线性模型。的一个重要特征的决策树算法与支持向量机相比,BP神经网络可解释性,因为构造决策树的过程相当于形成一个if - then规则集。根据数据可视化结果的决策树模型,气象条件流感警报的门槛。因此,在这项工作中,使用决策树构建的基本模型。gydF4y2Ba

CART决策树算法使用基尼系数作为评价标准,取代了对数操作二次操作。基尼系数越小,杂质越小代表特征,决策树将优先选择分裂时最小的基尼系数的特点。与熵的基于模型的算法相比,CART算法的计算复杂度低得多。车只在每个节点上产生两个分支,所以形成一棵二叉树,每个特性可以重用。和购物车算法可用于处理连续变量。gydF4y2Ba

,正如之前所讨论的,我们对待工作产生预警的流感爆发的一个分类问题;在这项工作中,我们选择购物车分类树算法构建的基本模型。gydF4y2Ba

购物车分类树算法使用基尼系数来进行特征选择,通过下面的方程来描述:gydF4y2Ba (1)gydF4y2Ba 基尼gydF4y2Ba pgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba KgydF4y2Ba pgydF4y2Ba kgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba pgydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba KgydF4y2Ba pgydF4y2Ba 2gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba KgydF4y2Ba 样品中类的数量,而gydF4y2Ba pgydF4y2Ba kgydF4y2Ba 的概率是一个样本属于gydF4y2Ba kgydF4y2Ba 类。gydF4y2Ba

因为我们治疗的工作产生预警流感爆发的0 - 1 two-classification问题,方程(gydF4y2Ba 1gydF4y2Ba)可以进一步简化如下:gydF4y2Ba (2)gydF4y2Ba 基尼gydF4y2Ba pgydF4y2Ba =gydF4y2Ba 2gydF4y2Ba pgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba pgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba pgydF4y2Ba 一个样本属于类的概率是0。gydF4y2Ba

对于给定的数据集gydF4y2Ba DgydF4y2Ba ,假设类的数量gydF4y2Ba DgydF4y2Ba 作为gydF4y2Ba KgydF4y2Ba 。定义gydF4y2Ba CgydF4y2Ba kgydF4y2Ba 属于类的样本数量gydF4y2Ba kgydF4y2Ba 。然后,数据集的基尼系数gydF4y2Ba DgydF4y2Ba 可以计算如下:gydF4y2Ba (3)gydF4y2Ba 基尼gydF4y2Ba pgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba KgydF4y2Ba CgydF4y2Ba kgydF4y2Ba DgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

对于数据集gydF4y2Ba DgydF4y2Ba 显示购物车,当树分裂功能gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba DgydF4y2Ba 将分为gydF4y2Ba DgydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba DgydF4y2Ba 2gydF4y2Ba 。在这种情况下,基尼系数gydF4y2Ba DgydF4y2Ba 将如下:gydF4y2Ba (4)gydF4y2Ba 基尼gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba DgydF4y2Ba 1gydF4y2Ba DgydF4y2Ba 基尼gydF4y2Ba DgydF4y2Ba 1gydF4y2Ba +gydF4y2Ba DgydF4y2Ba 2gydF4y2Ba DgydF4y2Ba 基尼gydF4y2Ba DgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

计算的基尼系数比这更简单的熵,尤其是two-classification问题,精度的损失也较小。此外,车分类树算法生成的决策树是一棵二叉树。与其他形成的multitree决策树算法相比,效率无疑是进一步改善。gydF4y2Ba

购物车的流动决策树算法由两个阶段组成:决策树生成和决策树修剪。我们使用成本复杂性修剪(CCP)策略直接决策树修剪阶段我们的工作。gydF4y2Ba

3.4.2。模型优化gydF4y2Ba

为了充分利用CART算法的潜力,车的几个参数需要优化(如表所示gydF4y2Ba 3gydF4y2Ba)。gydF4y2Ba

车的关键参数。gydF4y2Ba

的名字gydF4y2Ba 意义gydF4y2Ba 数据类型gydF4y2Ba 默认值gydF4y2Ba
max_depthgydF4y2Ba 树的最大深度gydF4y2Ba 没有一个gydF4y2Ba
min_impurity_decreasegydF4y2Ba 最小节点分裂的杂质gydF4y2Ba 0gydF4y2Ba
min_weight_fraction_leafgydF4y2Ba 一个叶节点的最低重量gydF4y2Ba 0gydF4y2Ba
class_weightgydF4y2Ba 一个类的重量gydF4y2Ba 没有一个gydF4y2Ba

的gydF4y2Ba 马克斯gydF4y2Ba_gydF4y2Ba 深度gydF4y2Ba指定树的最大深度;限制这个参数可以确保预警模型的规模不是太复杂。的gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 杂质gydF4y2Ba_gydF4y2Ba 减少gydF4y2Ba代表节点的最小杂质分离(即。基尼系数)。因为节点的杂质减少节点分裂时,节点的值时立即停止分裂杂质小于该阈值的值。这些参数,特别是gydF4y2Ba 马克斯gydF4y2Ba_gydF4y2Ba 深度gydF4y2Ba树的参数,是非常重要的限制分裂后的决策树的规模,减少过度拟合,提高模型的泛化性能。gydF4y2Ba

因为有更少的日子每年的流感暴发和预警比没有预警,数据集本身具有不均匀样本比率。的样品gydF4y2Ba 标签gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 占据了多数,和样品gydF4y2Ba 标签gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 只有几个。机器学习模型,正负样本的比例不均将导致结果的偏差;也就是说,模型无法达到最好的效果,和预测的准确性是不好的。为此,需要调整的参数gydF4y2Ba 类gydF4y2Ba_gydF4y2Ba 重量gydF4y2Ba。我们的算法将计算所有样本并给予适当的体重在一个类根据每个类的比例在整个样本。的gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 重量gydF4y2Ba_gydF4y2Ba 分数gydF4y2Ba_gydF4y2Ba 叶gydF4y2Ba参数也起着重要的作用,因为不同的类都有一个不同的重量。因为upsampling会引入大量的冗余数据,将采样将失去的大部分信息,所以最常见的做法是分配不同的权重。gydF4y2Ba

的设置gydF4y2Ba 马克斯gydF4y2Ba_gydF4y2Ba 深度gydF4y2Ba,gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 杂质gydF4y2Ba_gydF4y2Ba 减少gydF4y2Ba,gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 重量gydF4y2Ba_gydF4y2Ba 分数gydF4y2Ba_gydF4y2Ba 叶gydF4y2Ba购物车算法将决定通过实验,这将稍后讨论。gydF4y2Ba

集成学习方法几个简单的模型结合形成一个更复杂的和全面的模型。车可以通过整体优化的学习提高稳定性;然而,在整体学习优化,使用一个可视化方法是不可行的解释流感疫情的预警阈值之间的关系和气象数据的某些特性和流感发病率数据。因此,我们提出一个方法来提高预测精度,实现可视化的解释的决定同时流感疫情的预警阈值。gydF4y2Ba

基于集成学习的想法,我们提供了一个优化模型来生成一个更准确的预测流感爆发基于气象数据和流感发病率数据通过结合购物车,XGBoost, LightGBM。XGBoost(极端的梯度增加)Tianqi陈等人提出的2015年,这是一个在GBDT优化。GBDT LightGBM是另一个优化,主要考虑如何减少内存的使用和如何减少多机通信的成本。gydF4y2Ba

我们的方法是显示在图gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

我们的方法。gydF4y2Ba

车的基本模型是用于决定流感疫情的预警阈值通过数据可视化。如果车基本模型预测,达到预警阈值根据气象数据和流感发病率的数据,然后形成的组合模型用于预测,如果组合模型决定,确实达到预警阈值,那么我们的模型将预警信号。gydF4y2Ba

这种方法减少了购物车中预测错误的概率模型单独使用,但当气象和流感发病率大数据满足警告车模型的条件,他们将发送到组合预测模型。gydF4y2Ba

模型的运行效率可以大大提高。该算法的复杂性与基本CART算法相当,这是gydF4y2Ba OgydF4y2Ba 日志gydF4y2Ba NgydF4y2Ba ,在那里gydF4y2Ba NgydF4y2Ba 代表了训练集样本的数量。gydF4y2Ba

4所示。实验结果gydF4y2Ba 4.1。实验框架gydF4y2Ba

我们建立了我们的实验框架使用Python 3.5.5。将数据集的合作方法gydF4y2Ba DgydF4y2Ba 成两个互斥subdatasetsgydF4y2Ba DgydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba DgydF4y2Ba 2gydF4y2Ba 、火车模型gydF4y2Ba DgydF4y2Ba 1gydF4y2Ba 和测试模型的影响gydF4y2Ba DgydF4y2Ba 2gydF4y2Ba 。合作方法是一种常见的方法来验证模型参数和评估模型的效果。一般来说,包含在样本大小gydF4y2Ba DgydF4y2Ba 1gydF4y2Ba 至少应占2/3的gydF4y2Ba DgydF4y2Ba 整个数据集。在实践中,有一个广泛使用的合作方法(gydF4y2Ba 22gydF4y2Ba:当数据具有明显的时间序列因素,在线数据的时间是在离线数据集。在这种情况下,训练集和测试集应该根据时间划分。gydF4y2Ba

在这项工作中,我们遵守的方法。因为我们有总共有五年的数据从2012年到2016年,我们把数据从2012年到2015年数据作为训练集和测试集划分数据集。2016年在不破坏原始数据的特点,保留了数据分布的特点,在最大的程度上,并避免引入的噪音数据的分割。gydF4y2Ba

我们使用的测量指标摘要如下:gydF4y2Ba

ACCgydF4y2Ba。准确性代表样本的数量的比率与预测值与实际值相同的总样本。当模型的精度较高,这表明该模型预测结果表现的更好。gydF4y2Ba

f1-scoregydF4y2Ba。f1-score更指标相结合,可以计算的gydF4y2Ba fgydF4y2Ba 1gydF4y2Ba 量gydF4y2Ba 分数gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba 精度gydF4y2Ba ×gydF4y2Ba 回忆gydF4y2Ba /gydF4y2Ba 精度gydF4y2Ba +gydF4y2Ba 回忆gydF4y2Ba 。而回忆计算gydF4y2Ba 回忆gydF4y2Ba =gydF4y2Ba TPgydF4y2Ba /gydF4y2Ba TPgydF4y2Ba +gydF4y2Ba FNgydF4y2Ba ,其中TP表示真阳性样本的数量,虽然FN假阴性样本的数量。和精确计算gydF4y2Ba 精度gydF4y2Ba =gydF4y2Ba TPgydF4y2Ba /gydF4y2Ba TPgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba ,FP是假阳性样本的数量。gydF4y2Ba

AUC(曲线下的面积)gydF4y2Ba。AUC常被用来评估two-classification模型。AUC反映了一个概率值,可以直观地量化这种分类器的性能。AUC值越大,分类器的性能越好,最大值不超过1。AUC是相对稳定的,可以更好地衡量分类器的性能,即预警模型。gydF4y2Ba

4.2。车参数决定gydF4y2Ba

进行的实验是决定几车最重要的参数,如表所示gydF4y2Ba 3gydF4y2Ba。移动百分位数法用于执行数据标记。gydF4y2Ba

4.2.1。准备决定max_depthgydF4y2Ba

实验结果为不同的gydF4y2Ba 马克斯gydF4y2Ba_gydF4y2Ba 深度gydF4y2Ba如表所示gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

评价max_depth购物车。gydF4y2Ba

max_depthgydF4y2Ba ACCgydF4y2Ba f1-scoregydF4y2Ba AUCgydF4y2Ba
2gydF4y2Ba 0.8361gydF4y2Ba 0.6562gydF4y2Ba 0.8019gydF4y2Ba
3gydF4y2Ba 0.8126gydF4y2Ba 0.6793gydF4y2Ba 0.7798gydF4y2Ba
4gydF4y2Ba 0.8135gydF4y2Ba 0.7087gydF4y2Ba 0.7943gydF4y2Ba
5gydF4y2Ba 0.7621gydF4y2Ba 0.6315gydF4y2Ba 0.7109gydF4y2Ba
6gydF4y2Ba 0.7709gydF4y2Ba 0.6107gydF4y2Ba 0.6954gydF4y2Ba
7gydF4y2Ba 0.7891gydF4y2Ba 0.6051gydF4y2Ba 0.6598gydF4y2Ba

从结果可以看到,当gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba _gydF4y2Ba dgydF4y2Ba egydF4y2Ba pgydF4y2Ba tgydF4y2Ba hgydF4y2Ba ≤gydF4y2Ba 4gydF4y2Ba ,ACC更高。当gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba _gydF4y2Ba dgydF4y2Ba egydF4y2Ba pgydF4y2Ba tgydF4y2Ba hgydF4y2Ba >gydF4y2Ba 4gydF4y2Ba ACC减少。f1-score到达时的最大数量gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba _gydF4y2Ba dgydF4y2Ba egydF4y2Ba pgydF4y2Ba tgydF4y2Ba hgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 。gydF4y2Ba

和AUC也相对较高gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba _gydF4y2Ba dgydF4y2Ba egydF4y2Ba pgydF4y2Ba tgydF4y2Ba hgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 。f1-score和AUC减少gydF4y2Ba 马克斯gydF4y2Ba_gydF4y2Ba 深度gydF4y2Ba变得比4。我们可以得出这样的结论:如果gydF4y2Ba 马克斯gydF4y2Ba_gydF4y2Ba 深度gydF4y2Ba大于4,模型可能会过度拟合。因此,我们决定的设置gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba _gydF4y2Ba dgydF4y2Ba egydF4y2Ba pgydF4y2Ba tgydF4y2Ba hgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba 。gydF4y2Ba

4.2.2。决定min_impurity_decreasegydF4y2Ba

实验结果为不同的gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 杂质gydF4y2Ba_gydF4y2Ba 减少gydF4y2Ba如表所示gydF4y2Ba 5gydF4y2Ba。gydF4y2Ba

评价min_impurity_decrease购物车。gydF4y2Ba

min_impurity_decreasegydF4y2Ba ACCgydF4y2Ba f1-scoregydF4y2Ba AUCgydF4y2Ba
0gydF4y2Ba 0.8135gydF4y2Ba 0.7087gydF4y2Ba 0.7943gydF4y2Ba
0.005gydF4y2Ba 0.8135gydF4y2Ba 0.7087gydF4y2Ba 0.7943gydF4y2Ba
0.01gydF4y2Ba 0.8143gydF4y2Ba 0.7165gydF4y2Ba 0.8029gydF4y2Ba
0.02gydF4y2Ba 0.8177gydF4y2Ba 0.7254gydF4y2Ba 0.8087gydF4y2Ba
0.05gydF4y2Ba 0.8268gydF4y2Ba 0.7301gydF4y2Ba 0.8109gydF4y2Ba
0.08gydF4y2Ba 0.7521gydF4y2Ba 0.6342gydF4y2Ba 0.7651gydF4y2Ba
0.1gydF4y2Ba 0.7196gydF4y2Ba 0.6072gydF4y2Ba 0.7535gydF4y2Ba

它可以看到,随着增加的gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 杂质gydF4y2Ba_gydF4y2Ba 减少gydF4y2Ba、ACC f1-score, AUC显示的趋势先增加然后减少。后的值gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 杂质gydF4y2Ba_gydF4y2Ba 减少gydF4y2Ba大于0.08,ACC, f1-score, AUC都有大幅下降。因此,可以认为模型参数时具有最好的效果在0.02至0.08的范围。进一步评估后,最后,我们集gydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba _gydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba pgydF4y2Ba ugydF4y2Ba rgydF4y2Ba 我gydF4y2Ba tgydF4y2Ba ygydF4y2Ba _gydF4y2Ba dgydF4y2Ba egydF4y2Ba cgydF4y2Ba rgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba egydF4y2Ba =gydF4y2Ba 0.04gydF4y2Ba 。gydF4y2Ba

4.2.3。决定min_weight_fraction_leafgydF4y2Ba

实验结果为不同的gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 重量gydF4y2Ba_gydF4y2Ba 分数gydF4y2Ba_gydF4y2Ba 叶gydF4y2Ba如表所示gydF4y2Ba 6gydF4y2Ba。gydF4y2Ba

评价min_weight_fraction_leaf购物车。gydF4y2Ba

min_weight_fraction_leafgydF4y2Ba ACCgydF4y2Ba f1-scoregydF4y2Ba AUCgydF4y2Ba
0gydF4y2Ba 0.8291gydF4y2Ba 0.7370gydF4y2Ba 0.8153gydF4y2Ba
0.01gydF4y2Ba 0.8043gydF4y2Ba 0.6909gydF4y2Ba 0.7733gydF4y2Ba
0.02gydF4y2Ba 0.8105gydF4y2Ba 0.7144gydF4y2Ba 0.7992gydF4y2Ba
0.05gydF4y2Ba 0.8358gydF4y2Ba 0.7451gydF4y2Ba 0.8208gydF4y2Ba
0.1gydF4y2Ba 0.8470gydF4y2Ba 0.6369gydF4y2Ba 0.7384gydF4y2Ba
0.2gydF4y2Ba 0.8578gydF4y2Ba 0.6882gydF4y2Ba 0.7572gydF4y2Ba
0.3gydF4y2Ba 0.7329gydF4y2Ba 0.6153gydF4y2Ba 0.7023gydF4y2Ba

它可以看到,当gydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba _gydF4y2Ba wgydF4y2Ba egydF4y2Ba 我gydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba _gydF4y2Ba fgydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba _gydF4y2Ba lgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba fgydF4y2Ba =gydF4y2Ba 0.05gydF4y2Ba 、f1-score和AUC都达到最大值,而ACC是相对较高的。尽管ACC增加min_weight_fraction_leaf增加时gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 重量gydF4y2Ba_gydF4y2Ba 分数gydF4y2Ba_gydF4y2Ba 叶gydF4y2Ba大于0.05,f1-score和AUC下降很大程度上。因此,我们可以得出这样的结论:该模型得到最好的效果gydF4y2Ba 最小值gydF4y2Ba_gydF4y2Ba 重量gydF4y2Ba_gydF4y2Ba 分数gydF4y2Ba_gydF4y2Ba 叶gydF4y2Ba大约是0.05。进一步评估后,我们集gydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba _gydF4y2Ba wgydF4y2Ba egydF4y2Ba 我gydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba _gydF4y2Ba fgydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ogydF4y2Ba ngydF4y2Ba _gydF4y2Ba lgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba fgydF4y2Ba =gydF4y2Ba 0.062gydF4y2Ba 。gydF4y2Ba

4.3。评估数据标记方法gydF4y2Ba

一个实验进行评价是最好的为我们的模型数据标记方法。结果如表所示gydF4y2Ba 7gydF4y2Ba和图gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

评估不同的数据标记方法。gydF4y2Ba

数据标记方法gydF4y2Ba ACCgydF4y2Ba f1-scoregydF4y2Ba AUCgydF4y2Ba
移动百分位数法gydF4y2Ba 0.8586gydF4y2Ba 0.7610gydF4y2Ba 0.8429gydF4y2Ba
每月upquartile标记gydF4y2Ba 0.8317gydF4y2Ba 0.6963gydF4y2Ba 0.7967gydF4y2Ba
双循环每日标记gydF4y2Ba 0.8391gydF4y2Ba 0.7129gydF4y2Ba 0.7508gydF4y2Ba

中华民国为不同的数据标记方法。gydF4y2Ba

中华民国移动百分位数法gydF4y2Ba

中华民国的月度upquartile标记gydF4y2Ba

中华民国的双循环日常标记gydF4y2Ba

通过比较,我们可以决定移动百分位数法更适合我们的模型。gydF4y2Ba

4.4。定义预警气象因素对流感的边界值gydF4y2Ba

购物车的可视化结果基本模型图所示gydF4y2Ba 3gydF4y2Ba。gydF4y2Ba

数据可视化的模型车。gydF4y2Ba

正如我们之前说的,按照施工过程的决策树模型,分类规则可以直观地从树上结构图,然后是气象条件需要时发出预警。gydF4y2Ba

因此,我们可以生成气象因素对流感预警边界值的基础上使用移动百分位数标记法和购物车从图基本模型gydF4y2Ba 3gydF4y2Ba如下:(1)(gydF4y2Ba 警告gydF4y2Ba _gydF4y2Ba 如果gydF4y2Ba _gydF4y2Ba 周gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba )和(gydF4y2Ba QNEgydF4y2Ba _gydF4y2Ba 上一周gydF4y2Ba ≤gydF4y2Ba 876.75gydF4y2Ba 下丘脑-垂体-肾上腺轴的gydF4y2Ba )和(gydF4y2Ba 风gydF4y2Ba _gydF4y2Ba 马克斯gydF4y2Ba _gydF4y2Ba 一天gydF4y2Ba 3gydF4y2Ba 前gydF4y2Ba >gydF4y2Ba 9.25gydF4y2Ba 米gydF4y2Ba /gydF4y2Ba 年代gydF4y2Ba );(2)(gydF4y2Ba 警告gydF4y2Ba _gydF4y2Ba 如果gydF4y2Ba _gydF4y2Ba 周gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba )和(gydF4y2Ba QNEgydF4y2Ba _gydF4y2Ba 上一周gydF4y2Ba >gydF4y2Ba 876.75gydF4y2Ba 下丘脑-垂体-肾上腺轴的gydF4y2Ba )和(gydF4y2Ba rhgydF4y2Ba _gydF4y2Ba avggydF4y2Ba _gydF4y2Ba 一天gydF4y2Ba 2gydF4y2Ba 前gydF4y2Ba ≤gydF4y2Ba 70年gydF4y2Ba %gydF4y2Ba )和(gydF4y2Ba tgydF4y2Ba _gydF4y2Ba 最小值gydF4y2Ba ≤gydF4y2Ba 2.4gydF4y2Ba °gydF4y2Ba CgydF4y2Ba );和(3)(gydF4y2Ba 警告gydF4y2Ba _gydF4y2Ba 如果gydF4y2Ba _gydF4y2Ba 周gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba )和(gydF4y2Ba QNEgydF4y2Ba _gydF4y2Ba 上一周gydF4y2Ba >gydF4y2Ba 876.75gydF4y2Ba 下丘脑-垂体-肾上腺轴的gydF4y2Ba )和(gydF4y2Ba rhgydF4y2Ba _gydF4y2Ba avggydF4y2Ba _gydF4y2Ba 一天gydF4y2Ba 2gydF4y2Ba 前gydF4y2Ba >gydF4y2Ba 70年gydF4y2Ba %gydF4y2Ba )和(gydF4y2Ba 辐射gydF4y2Ba _gydF4y2Ba 上一周gydF4y2Ba >gydF4y2Ba 29.85gydF4y2Ba 乔丹gydF4y2Ba /gydF4y2Ba 米gydF4y2Ba )。gydF4y2Ba

很容易看到,三个条件是相互排斥的,只有其中一个会被满足。当一个条件满足,早期预警。gydF4y2Ba

4.5。优化评价模型gydF4y2Ba

我们使用移动百分位数法作为数据标记方法。和我们的优化模型和基线模型之间的比较如表所示gydF4y2Ba 8gydF4y2Ba和图gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

对比我们的模型和基本模型。gydF4y2Ba

方法gydF4y2Ba ACCgydF4y2Ba f1-scoregydF4y2Ba AUCgydF4y2Ba
优化模型gydF4y2Ba 0.8721gydF4y2Ba 0.7381gydF4y2Ba 0.8709gydF4y2Ba
车gydF4y2Ba 0.8586gydF4y2Ba 0.7610gydF4y2Ba 0.8429gydF4y2Ba
XGBoostgydF4y2Ba 0.8804gydF4y2Ba 0.6998gydF4y2Ba 0.8561gydF4y2Ba
LightGBMgydF4y2Ba 0.8735gydF4y2Ba 0.7321gydF4y2Ba 0.8224gydF4y2Ba

中华民国为不同的基本模型。gydF4y2Ba

中华民国的优化模型gydF4y2Ba

中华民国的车基本模型gydF4y2Ba

中华民国XGBoost基本的模型gydF4y2Ba

中华民国LightGBM基本的模型gydF4y2Ba

它可以看到,ACC和AUC的优化模型比车基本模型。但f1-score优化模型比这小的车基本模型。根据我们的分析,优化模型的机制使样品的数量预计为1变得更少;因此,召回率和f1-score变得越来越低。ACC的车相对较低,但f1-score和AUC是相对较高的。XGBoost模型在准确性和AUC表现良好,但f1-score相对较低。在AUC LightGBM模型稍差,ACC和f1-score中间。gydF4y2Ba

我们还展示了我们的方法之间的精度比较图和一些先进的方法gydF4y2Ba 5gydF4y2Ba。gydF4y2Ba

与其他算法比较。gydF4y2Ba

5。结论gydF4y2Ba

在本文中,我们试图结合气象数据和流感发病率数据构建一个大数据模型来确定预警气象因素对流感的边界值。我们利用购物车数据可视化方法的基本模型,提供一种方法来生成一个流感疫情早期预警阈值基于气象数据的数据分析。我们提出了一个优化模型来生成一个更准确的预警信号。gydF4y2Ba

我们的方法为代价的轻微减少召回率改善ACC和AUC,还充分利用车的结果通过数据可视化模型。只有当车基本模型表明,也许应该暗示一个预警,然后XGBoost的更复杂的组合模型,LightGBM需要。总的来说,这是一个合理的计划根据评估。gydF4y2Ba

另一个策略可能采取“或”操作的建筑组合优化模型。当至少一个模型预计是1,最终的预测结果是1;也就是说,早期预警是必要的。然而,早期预警阈值不能通过数据可视化生成,因此没有可解释性。此外,计算更努力。在现实的条件下,可以选择不同的模型组合策略根据不同的需求。gydF4y2Ba

实际上,在这个工作中,我们只介绍了关键气象因素,而流感疫情也与人类密切相关的流,城际迁移指数、疫苗接种、突发事件等因素。在未来的工作中,我们将努力建立一个更全面的方法来建立流感暴发的早期预警系统。gydF4y2Ba

数据可用性gydF4y2Ba

请求数据(6/12个月后发表这篇文章)将被相应的作者。gydF4y2Ba

信息披露gydF4y2Ba

资助者没有作用的设计研究;在收集、分析、解释数据;写的手稿;或决定发布结果。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

作者的贡献gydF4y2Ba

作者参与本研究的贡献如下:概念化,H.G.测向;方法,分子量;软件,l . j .;验证、X.W.,测向,M。W。; formal analysis, H.G.; investigation, L.J.; resources, X.Y.; data curation, D.F. and X. D.; writing–original draft preparation, H.G.; visualization, X.W.; supervision, X.Y.; project administration, X.Y.; and funding acquisition, H.G. and X.Y. All authors have read and agreed to the published version of the manuscript.

确认gydF4y2Ba

这项工作是由中国国家科技重大项目批准号2018 zx10201 - 002和中国的国家自然科学基金批准号91846303。gydF4y2Ba

谁gydF4y2Ba 全球流行性传染病监测报告——流感gydF4y2Ba 2020年gydF4y2Ba https://www.who.int/csr/resources/publications/influenza/CSR_ISR_2000_1/en/gydF4y2Ba 罗宾逊gydF4y2Ba M。gydF4y2Ba DrossinosgydF4y2Ba Y。gydF4y2Ba StilianakisgydF4y2Ba n I。gydF4y2Ba 间接传播和季节性传染病病原体灭活在周期性的影响gydF4y2Ba 流行gydF4y2Ba 2013年gydF4y2Ba 5gydF4y2Ba 2gydF4y2Ba 111年gydF4y2Ba 121年gydF4y2Ba 10.1016 / j.epidem.2013.01.001gydF4y2Ba 2 - s2.0 - 84878909703gydF4y2Ba 23746804gydF4y2Ba 威廉gydF4y2Ba lgydF4y2Ba VerelstgydF4y2Ba F。gydF4y2Ba BilckegydF4y2Ba J。gydF4y2Ba 母鸡gydF4y2Ba N。gydF4y2Ba beutelgydF4y2Ba P。gydF4y2Ba 十年的基于单独的教训对传染病传播模型:系统回顾(2006 - 2015)gydF4y2Ba 《BMC传染病》杂志gydF4y2Ba 2017年gydF4y2Ba 17gydF4y2Ba 1gydF4y2Ba 612年gydF4y2Ba 10.1186 / s12879 - 017 - 2699 - 8gydF4y2Ba 2 - s2.0 - 85029219090gydF4y2Ba 28893198gydF4y2Ba SchoenbaumgydF4y2Ba s . C。gydF4y2Ba 大流感:传奇的故事,历史上最致命的瘟疫gydF4y2Ba 公共卫生政策杂志》上gydF4y2Ba 2004年gydF4y2Ba 25gydF4y2Ba 3 - 4gydF4y2Ba 435年gydF4y2Ba 443年gydF4y2Ba 10.1057 / palgrave.jphp.3190041gydF4y2Ba 姚gydF4y2Ba Q。gydF4y2Ba 田gydF4y2Ba Y。gydF4y2Ba 李gydF4y2Ba P.-F。gydF4y2Ba 田gydF4y2Ba l l。gydF4y2Ba 钱gydF4y2Ba Y.-M。gydF4y2Ba 李gydF4y2Ba js。gydF4y2Ba 医学大数据处理系统的设计和开发基于HadoopgydF4y2Ba 医疗系统杂志gydF4y2Ba 2015年gydF4y2Ba 39gydF4y2Ba 3gydF4y2Ba 1gydF4y2Ba 11gydF4y2Ba 林gydF4y2Ba W。gydF4y2Ba 窦gydF4y2Ba W。gydF4y2Ba 周gydF4y2Ba Z。gydF4y2Ba 刘gydF4y2Ba C。gydF4y2Ba 基于云的框架home-diagnosis在大的医疗数据服务gydF4y2Ba 系统和软件杂志》上gydF4y2Ba 2015年gydF4y2Ba 102年gydF4y2Ba 192年gydF4y2Ba 206年gydF4y2Ba 10.1016 / j.jss.2014.05.068gydF4y2Ba 2 - s2.0 - 84923257070gydF4y2Ba 李gydF4y2Ba c . H。gydF4y2Ba 尹gydF4y2Ba 周宏儒。gydF4y2Ba 医学大数据:承诺和挑战gydF4y2Ba 肾的研究和临床实践gydF4y2Ba 2017年gydF4y2Ba 36gydF4y2Ba 1gydF4y2Ba 3gydF4y2Ba 11gydF4y2Ba 10.23876 / j.krcp.2017.36.1.3gydF4y2Ba 2 - s2.0 - 85033328348gydF4y2Ba 28392994gydF4y2Ba WindridgegydF4y2Ba D。gydF4y2Ba 鲍勃gydF4y2Ba M。gydF4y2Ba 基于内核的医疗大数据分析的框架gydF4y2Ba 2014年gydF4y2Ba 激飞柏林海德堡gydF4y2Ba UgartegydF4y2Ba m D。gydF4y2Ba GoicoagydF4y2Ba T。gydF4y2Ba MilitinogydF4y2Ba 答:F。gydF4y2Ba 死亡率风险的时空建模使用惩罚样条函数gydF4y2Ba EnvironmetricsgydF4y2Ba 2010年gydF4y2Ba 21gydF4y2Ba 3 - 4gydF4y2Ba 270年gydF4y2Ba 289年gydF4y2Ba 10.1002 / env.1011gydF4y2Ba 2 - s2.0 - 77952410129gydF4y2Ba 保罗gydF4y2Ba M。gydF4y2Ba 举行gydF4y2Ba lgydF4y2Ba 预测评估的多元时间序列的非线性随机效应模型的传染病gydF4y2Ba 医学统计gydF4y2Ba 2011年gydF4y2Ba 30.gydF4y2Ba 10gydF4y2Ba 1118年gydF4y2Ba 1136年gydF4y2Ba 10.1002 / sim.4177gydF4y2Ba 2 - s2.0 - 79954579582gydF4y2Ba 21484849gydF4y2Ba 崔gydF4y2Ba K。gydF4y2Ba 查克gydF4y2Ba 美国B。gydF4y2Ba 评估流感死亡率监测,1962 - 1979。二世。肺炎和流感死亡的百分比作为流感活动的指标gydF4y2Ba 美国流行病学杂志》gydF4y2Ba 1981年gydF4y2Ba 113年gydF4y2Ba 3gydF4y2Ba 227年gydF4y2Ba 235年gydF4y2Ba 10.1093 / oxfordjournals.aje.a113091gydF4y2Ba 2 - s2.0 - 0019431789gydF4y2Ba 6258427gydF4y2Ba ConesagydF4y2Ba D。gydF4y2Ba Martinez-BeneitogydF4y2Ba m·A。gydF4y2Ba AmorosgydF4y2Ba R。gydF4y2Ba Lopez-QuilezgydF4y2Ba 一个。gydF4y2Ba 贝叶斯分层泊松模型的隐马尔科夫结构检测流感疫情暴发gydF4y2Ba 医学研究统计方法gydF4y2Ba 2011年gydF4y2Ba 24gydF4y2Ba 2gydF4y2Ba 206年gydF4y2Ba 223年gydF4y2Ba 10.1177 / 0962280211414853gydF4y2Ba 2 - s2.0 - 84927160022gydF4y2Ba 21873301gydF4y2Ba 马尔克斯gydF4y2Ba E。gydF4y2Ba 巴伦gydF4y2Ba V。gydF4y2Ba 人工智能系统,以支持流感的临床决策gydF4y2Ba 2019年IEEE国际秋季会议上力量,电子和计算(ROPEC)gydF4y2Ba 2019年11月gydF4y2Ba Ixtapa、墨西哥gydF4y2Ba 1gydF4y2Ba 5gydF4y2Ba 10.1109 / ROPEC48299.2019.9057056gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba 陆gydF4y2Ba J。gydF4y2Ba 张gydF4y2Ba G。gydF4y2Ba 结合一个类分类模型对禽流感暴发gydF4y2Ba 2011年IEEE研讨会上计算智能在多准则决策(MDCM)gydF4y2Ba 2011年4月gydF4y2Ba 法国巴黎gydF4y2Ba 190年gydF4y2Ba 196年gydF4y2Ba 10.1109 / SMDCM.2011.5949278gydF4y2Ba 2 - s2.0 - 79961154343gydF4y2Ba 戴gydF4y2Ba X。gydF4y2Ba Bikdash里gydF4y2Ba M。gydF4y2Ba 迈耶gydF4y2Ba B。gydF4y2Ba 从社交媒体到公共卫生监测:基于词嵌入Twitter分类的聚类方法gydF4y2Ba 2017年gydF4y2Ba SoutheastCon 2017gydF4y2Ba 美国夏洛特,数控gydF4y2Ba IEEgydF4y2Ba 1gydF4y2Ba 7gydF4y2Ba 10.1109 / SECON.2017.7925400gydF4y2Ba 2 - s2.0 - 85019673559gydF4y2Ba VennagydF4y2Ba s R。gydF4y2Ba TavanaeigydF4y2Ba 一个。gydF4y2Ba GottumukkalagydF4y2Ba r . N。gydF4y2Ba RaghavangydF4y2Ba 诉V。gydF4y2Ba MaidagydF4y2Ba 答:S。gydF4y2Ba 尼克尔斯gydF4y2Ba 年代。gydF4y2Ba 一种新颖的数据驱动模型实时流感预测gydF4y2Ba IEEE访问gydF4y2Ba 2019年gydF4y2Ba 7gydF4y2Ba 7691年gydF4y2Ba 7701年gydF4y2Ba 10.1109 / ACCESS.2018.2888585gydF4y2Ba 2 - s2.0 - 85058871396gydF4y2Ba 丰韵gydF4y2Ba G。gydF4y2Ba 徐成就gydF4y2Ba F。gydF4y2Ba Jian-DonggydF4y2Ba Y。gydF4y2Ba 凯gydF4y2Ba W。gydF4y2Ba 乌鲁木齐气象因素对流感样病例的影响gydF4y2Ba 职业与健康gydF4y2Ba 2019年gydF4y2Ba JhuogydF4y2Ba 年代。gydF4y2Ba 谢长廷gydF4y2Ba M。gydF4y2Ba 翁gydF4y2Ba T。gydF4y2Ba 陈gydF4y2Ba M。gydF4y2Ba 杨gydF4y2Ba C。gydF4y2Ba 叶gydF4y2Ba C。gydF4y2Ba 流感趋势预测和相关肺炎在台湾使用机器学习gydF4y2Ba 2019年国际研讨会上智能信号处理和通信系统(ISPACS)gydF4y2Ba 2019年12月gydF4y2Ba 台北,台湾gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 10.1109 / ISPACS48206.2019.8986244gydF4y2Ba 陈gydF4y2Ba 郭宏源。gydF4y2Ba 陈gydF4y2Ba 研究。gydF4y2Ba 陈gydF4y2Ba J.-L。gydF4y2Ba 常gydF4y2Ba F.-C。gydF4y2Ba 流感趋势预测基于大量的数据分析gydF4y2Ba 2018年IEEE第三国际会议上云计算和大数据分析(ICCCBDA)gydF4y2Ba 2018年4月gydF4y2Ba 成都,中国gydF4y2Ba 304年gydF4y2Ba 308年gydF4y2Ba 10.1109 / ICCCBDA.2018.8386532gydF4y2Ba 2 - s2.0 - 85050109790gydF4y2Ba 雪gydF4y2Ba H。gydF4y2Ba 白gydF4y2Ba Y。gydF4y2Ba 胡gydF4y2Ba H。gydF4y2Ba 梁gydF4y2Ba H。gydF4y2Ba 流感活动监视基于多元回归模型和人工神经网络gydF4y2Ba IEEE访问gydF4y2Ba 2018年gydF4y2Ba 6gydF4y2Ba 563年gydF4y2Ba 575年gydF4y2Ba 10.1109 / ACCESS.2017.2771798gydF4y2Ba 2 - s2.0 - 85035810681gydF4y2Ba SaberiangydF4y2Ba F。gydF4y2Ba ZamanigydF4y2Ba 一个。gydF4y2Ba GooyagydF4y2Ba M . M。gydF4y2Ba HemmatigydF4y2Ba P。gydF4y2Ba ShoorehdeligydF4y2Ba m·A。gydF4y2Ba TeshnehlabgydF4y2Ba M。gydF4y2Ba 预测季节性流感流行使用人工神经网络在德黑兰gydF4y2Ba 2014年22日伊朗电气工程会议(ICEE)gydF4y2Ba 2014年5月gydF4y2Ba 伊朗德黑兰gydF4y2Ba 1921年gydF4y2Ba 1923年gydF4y2Ba 10.1109 / IranianCEE.2014.6999855gydF4y2Ba 2 - s2.0 - 84943775247gydF4y2Ba MihalikgydF4y2Ba 一个。gydF4y2Ba 费雷拉gydF4y2Ba f·S。gydF4y2Ba MoutoussisgydF4y2Ba M。gydF4y2Ba 齐格勒gydF4y2Ba G。gydF4y2Ba 亚当斯gydF4y2Ba r。gydF4y2Ba 罗莎gydF4y2Ba m·J。gydF4y2Ba 您正在gydF4y2Ba G。gydF4y2Ba de OliveiragydF4y2Ba lgydF4y2Ba 佩雷拉gydF4y2Ba M。gydF4y2Ba 图像gydF4y2Ba e . T。gydF4y2Ba FonagygydF4y2Ba P。gydF4y2Ba 古蒂gydF4y2Ba i M。gydF4y2Ba 琼斯gydF4y2Ba p . B。gydF4y2Ba Shawe-TaylorgydF4y2Ba J。gydF4y2Ba 多兰gydF4y2Ba R。gydF4y2Ba Mourao-MirandagydF4y2Ba J。gydF4y2Ba 豪泽gydF4y2Ba T。gydF4y2Ba 这本书gydF4y2Ba 年代。gydF4y2Ba Romero-GarciagydF4y2Ba R。gydF4y2Ba 圣克莱尔gydF4y2Ba M。gydF4y2Ba 绿色gydF4y2Ba p E。gydF4y2Ba 惠特克gydF4y2Ba K。gydF4y2Ba 英克斯特gydF4y2Ba B。gydF4y2Ba Ooi认为gydF4y2Ba C。gydF4y2Ba ToseebgydF4y2Ba U。gydF4y2Ba WidmergydF4y2Ba B。gydF4y2Ba 巴蒂gydF4y2Ba J。gydF4y2Ba 绒毛gydF4y2Ba lgydF4y2Ba AlrumaithigydF4y2Ba 一个。gydF4y2Ba BirtgydF4y2Ba 年代。gydF4y2Ba 玩滚球的人gydF4y2Ba 一个。gydF4y2Ba CleridougydF4y2Ba K。gydF4y2Ba DadabhoygydF4y2Ba H。gydF4y2Ba 戴维斯gydF4y2Ba E。gydF4y2Ba 木制小桶gydF4y2Ba 一个。gydF4y2Ba 格兰维尔gydF4y2Ba 年代。gydF4y2Ba 哈丁gydF4y2Ba E。gydF4y2Ba 霍普金斯gydF4y2Ba 一个。gydF4y2Ba 艾萨克斯gydF4y2Ba D。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba KokorikougydF4y2Ba D。gydF4y2Ba 莫里斯gydF4y2Ba C。gydF4y2Ba 麦金托什gydF4y2Ba C。gydF4y2Ba MemarziagydF4y2Ba J。gydF4y2Ba 米尔斯gydF4y2Ba H。gydF4y2Ba 奥唐纳gydF4y2Ba C。gydF4y2Ba PantaleonegydF4y2Ba 年代。gydF4y2Ba 斯科特gydF4y2Ba J。gydF4y2Ba FearongydF4y2Ba P。gydF4y2Ba 乳臭未干的小子gydF4y2Ba J。gydF4y2Ba 范HarmelengydF4y2Ba a . L。gydF4y2Ba KievitgydF4y2Ba R。gydF4y2Ba 多个反对者稳定性:提高机器学习的概括性的分析思维的关系gydF4y2Ba 生物精神病学gydF4y2Ba 2020年gydF4y2Ba 87年gydF4y2Ba 4gydF4y2Ba 368年gydF4y2Ba 376年gydF4y2Ba 10.1016 / j.biopsych.2019.12.001gydF4y2Ba 32040421gydF4y2Ba