文摘

小说的快速崛起SARS-CoV-2构成挑战,举世瞩目。人工智能(AI)可以用来应对这种流行病的影响,控制病毒的传播。特别是深度上优于时间序列技术是用来预测全球COVID-19例短期和中期使用自适应学习的依赖性。本研究旨在预测每日COVID-19案例和调查的关键因素,增加此次疫情的传播率通过检查不同的影响因素。此外,研究分析了COVID-19预防措施的有效性。全连接神经网络,长期短期记忆(LSTM)和变压器模型被用作新COVID-19的人工智能模型预测情况。起初,数据预处理和特征提取进行了使用COVID-19数据集来自沙特阿拉伯。所有模型的性能指标计算,结果进行比较分析来检测最可靠的模型。此外,统计假设分析和相关性分析进行COVID-19数据集包括日常流动性等特征,总情况下,每几百人充分接种疫苗,每周每百万,住院重症监护室的病人,和新的死亡每百万。结果表明,LSTM算法精度最高的算法和误差小于2%。 The findings of this study contribute to our understanding of COVID-19 containment. This study also provides insights into the prevention of future outbreaks.

1。介绍

新兴市场和重现病毒对公共卫生构成严峻挑战。冠状病毒是高致病性的家庭笼罩RNA病毒,广泛传播在人类中(1]。在2019年12月,一个新的冠状病毒大流行爆发意外在武汉,中国,构成严重威胁人类的日常生活。新发现的病毒,即严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2)由世界卫生组织(2),使冠状病毒病(COVID-19),这往往导致死亡(1]。在接下来的几周,该病毒在中国爆发,并迅速蔓延到其他国家,引起全球恐慌。截至2020年2月底,至少有38个国家报告了83652例确诊病例(2),展示了病原体的惊人的传播速度3]。

应对大流行,许多国家已经实施了保护措施,如强制检疫甚至大规模的闭包。疫情的传播的模式和速度不同国家(4]。传播的速度在一个国家是由天气条件等因素决定的,城市人口密度、城市化水平、社会凝聚力和文化因素,可以认定为病毒的人际传播的影响因素。因此,要完全控制疫情,有效保护措施必须根据每个国家的环境,社会因素,文化。

变量的传播SARS-CoV-2引发了一个问题“是什么病毒的传播影响因素在沙特阿拉伯吗?“沙特阿拉伯是第一个国家做出反应和处理COVID-19展示了领导方式创新特征。图1显示的状态在沙特阿拉伯COVID-19截至5月7日,2020年。沙特政府开发了多方面的公共卫生干预措施,例如家庭隔离,全国性的封锁,交通和旅行禁令,集中隔离受感染的人。症状的个体的检疫,对患者密切接触者,和来自其他国家的旅行者在政府采取的措施减缓病毒的蔓延。此外,该国卫生部(5)为感染者提供早期治疗,以防止进一步的并发症。这是建立通过选择25医院,80000医院病床,2200的隔离疑似/隔离病例和8000年重症监护室(ICU)治疗COVID-19病人床上6]。这些干预措施,结合普遍症状筛查,大大减缓了传输速率(5]。

大流行有负面影响在经济和社会方面的社会。许多制造商正在COVID-19疫苗,旨在减少健康损害和减少病毒突变的机会(7]。应对大流行和其扩散缓慢,迫切需要开发有效的模型来确定的因素可能会增加受感染人群的数量。当前全球COVID-19形势表明,新的疾病和疾病可能会出现迅速。理解的因素导致这些病毒的传播缓慢的扩散和防止感染至关重要。此外,了解疾病的传播速度是至关重要的管理医疗保健服务提供给那些受到它的影响。因此,有必要开发工具和算法能够有效地解决和流行病暴发新病毒出现。

神经网络(NN)的预测模型有可能做出高度准确的预测。发自在流行病学开辟新天地。我们研究的优点是,我们比较不同模型的性能预测分析COVID-19病例:一个完全连接的神经网络,长期短期记忆(LSTM)和变压器模型(TM)。他们被用来预测要素,如数量的情况下,死亡,接种疫苗,极端贫困、洗手设施,每周一次的住院,每周每百万,住院ICU患者每百万,每周ICU招生每百万,每周ICU招生,每百万,住院病人住院病人,ICU患者,新疫苗,总每几百疫苗接种,新的平滑每百万接种新疫苗平滑,新的死亡每百万,在多大程度上人们检疫期间遵守政府法规。

大多数流行,包括COVID-19,表现出独特的传播模式。这种疾病并不以同样的方式体现在每一个国家或地区的国家(4]。在一些文化中,家庭经常交往,而在其他人,他们更喜欢孤独的生活方式。此外,不同的城市人口密度或依赖公共交通会影响传输速率。如果假设病毒行为一直在世界范围内,预测结果可能不准确。理解速度和病毒的传播在地方和国家层面的关键发展最好的模型是可能的,这激励我们用三种不同的模型来检查和比较在沙特阿拉伯影响因素。图2节目的传播COVID-19在沙特阿拉伯在不同的城市。

建模艾滋病COVID-19传播和识别潜在的决定因素在决定最脆弱的地区和人群。目标是有效地识别COVID-19传播因素和评估和验证开发模型的准确性。

一些研究人员专注于使用统计分析了解COVID-19的传播。在[3),基本的统计和线性回归是用来研究病毒在受感染国家的日常传播动力学评估控制措施的有效性。在[8),简单的统计方法被用来研究疾病严重程度和环境之间的关系,经济和社会因素。统计数据研究成果仅限于了解疫情的当前状态。

在[9),一个随机模型被开发来计算将病毒传染的概率从一个地区到另一个地方。本研究是基于在中国这些领域之间的交通。虽然该模型可以预测病毒传播,它只考虑旅游作为一个因素。的作者(10]研究了气象参数如温度和相对湿度的影响在中国从1月20日,2020年,2020年2月29日。研究发现积极的死亡和昼夜温度范围和消极的死亡和相对湿度之间的联系。

另一项研究调查了相关性的天气和传播COVID-19在雅加达(11];天气研究包括几个因素:最小、最大、平均气温、湿度、降雨量。斯皮尔曼等级相关的测试,并得出结论:平均温度有显著影响COVID-19的传播。另一项研究[12]在21个国家进行的显示,高温影响COVID-19分散和减少最初的传染率。

许多研究表明,人工智能和深度学习模型高度准确的预测为特定事件(13,14]。最近,机器学习和深度学习技术已经用于时间序列预测和产生了良好的效果。几个深度学习模型的结果是用来预测新COVID-19情况下,变化的速度,和其他因素。

得到能准确预测大流行的行为。作者在15]提出了一种基于二进制的方法分类和回归分析考虑日常天气参数如风力、温度、湿度、和城市的密度。这项研究是在中国湖北省,进行总结,湿度和温度显著影响确诊病例。平均相对湿度77.9%的积极影响了确诊病例,而平均温度15.4°C负面影响确诊病例。

另一项研究COVID-19传播在中国经济状况有关。该研究使用的数据科学和机器学习算法来解释关键因素在病毒的传播16]。的作者(17]研究流行病的传播之间的关系,增加了运输和贸易。研究辅助了解经济状况与疾病传播有关。

的作者(18]NNs预测风险类别每个国家使用贝叶斯优化趋势和天气数据。模糊规则是用来把一个国家的风险水平(高、中,恢复)。该模型的平均精度为78%的170个国家。

另一项研究中提出了一个COVID-19预测模型基于改善花授粉算法并结合樽海鞘蜂群算法(19]。该模型是测试确诊病例在美国和中国,发现是有前途的。的作者(20.应用自回归综合移动平均(ARIMA)预测的患病率COVID-19在意大利,西班牙和法国期间于2月21日至4月15日,2020年。ARIMA时间序列模型是有用的在预测疫情趋势三个国家,从而最终帮助当局计划在未来爆发和管理情况。

Perc et al。7)提出了一种迭代法预测COVID-19在不同的国家,如美国,斯洛文尼亚,和德国。该方法是基于日常确诊病例,预期的复苏,和死亡。结果表明,扩散COVID-19每天应少于5%控制流行病和达到高原。此外,另一项研究表明,病例的数量随着时间的推移和人口加剧COVID-19的传播(21]。然而,COVID-19倾向于减少传播的速度相比较小的大城市。

在另一项研究中,一种混合深层神经网络的基础上提出了预测COVID-19计算机断层扫描和x射线。研究中使用的数据集收集来自各种来源,例如,GitHub, COVID-19放射学数据库,Kaggle。该算法实现了99%的分类精度测试数据集(22]。另一种方法,COVID Inception-ResNet模型(CoVIRNet),提出了诊断COVID-19病人使用胸部x光检查[23]。这种方法利用深度学习和机器学习模型,取得了超过95%的准确性(23]。

的作者(24)提供了一个全球和国家比较分析使用ARIMA时间序列预测,LSTM,堆栈LSTM (SLSTM),和先知方法。分析预测的累积COVID-19新病例。它还包括不同特性的相关性来确定最佳的预测模型在统计假设检验。的准确性,SLSTM优于其它模型。在统计分析中,ARIMA优于LSTM模型。总的来说,SLSTM模型表现得比其他模型。

的作者(25)相比,六种不同的预测模型,包括ARIMA、非线性自回归神经网络,和LSTM预测累计确认新病例和总增长率。的平均绝对百分误差值LSTM模型显示更好的精度比其他模型。作者的26)也使用LSTM模型来估计确诊病例的数量和增长率进行比较。该模型显示92.67%的准确率。

我们的工作导致了现有文献三倍。

我们的分析与社会和流行病学文献因素和措施,防止和控制疫情。

我们的研究集中在大流行性流感传播在沙特阿拉伯和可以复制来补充国家的流行病学研究类似的社会和环境方面,如科威特、巴林。

我们介绍的比较分析三种不同深度学习时间序列预测模型预测COVID-19情况下接下来的五天。

的主要因素是以前的病例和在多大程度上人们遵守政府的法规。在这项研究中,我们使用一个完全连接的神经网络,LSTM和TM。这些模型利用历史数据的确诊病例,他们的主要区别是,他们认为影响的天数评估过程。

3所示。方法

该方法包括三个主要阶段:(1)收集、预处理、数据和准备COVID-19案件在沙特城市;(2)识别功能和预测;(3)应用三种神经网络模型预测的结果。的目标是开发一种预测模型的概率COVID-19传播的特定区域的沙特阿拉伯。图3说明了框图用于构建本研究的预测模型。每个阶段的细节在以下部分解释。

收集的数据是模型的输入。在这项研究中,在麦加省COVID-19每日数据的情况下选择了从麦加省移动数据作为案例研究。两个数据集都选择同一时期。随后,每个模型的训练和测试是单独使用收集的数据来建立模型。在这项研究中,三个模型,一个完全连接的深层神经网络(款),LSTM, TM,单独使用。所有模型中,施工阶段是相同的。我们80%的数据用于训练和验证(即20%。,测试数据集)。这意味着完成模型可以预测结果的情况下测试数据集。预测评估过程的结果,在模型相比,预测的性能结果。最终结果是预测未来COVID-19的情况下。

3.1。数据收集和准备

优化模型的精度取决于所选数据的预处理和模型验证。每日数据COVID-19病例在麦加省被选来预测新病例的数量从2020年2月到2021年6月。日期选择基于COVID-19的到达日期在沙特阿拉伯,3月2日,2020年,在第一次沙特公民COVID-19阳性。因此,确诊病例和死亡的数量开始增加。麦加省被选中,因为它是第三大州,也是人口最多的省在沙特阿拉伯。它占整个沙特人口的26.29%。因此,一个大COVID-19传播在这个地区会造成更大的伤害比任何其他地区。图4显示了在麦加省COVID-19例从2020年2月到2021年6月。

二十的特点选择学习。功能包括人们接种疫苗,人们完全接种疫苗,每几百人接种疫苗,每几百人充分接种疫苗,极端贫困、洗手设施,每周一次的住院,每周每百万,住院ICU患者每百万,每周ICU招生每百万,每周ICU招生,每百万,住院病人住院病人,ICU患者,新疫苗,每百总接种疫苗,接种疫苗,新的平滑每百万接种新疫苗平滑,新的疫苗平滑,新的死亡每百万。所有这些数据被卫生部报道在沙特阿拉伯5]。

几个因素影响的传播COVID-19在沙特阿拉伯和发挥着至关重要的作用在增加感染的风险。图5描述了不同人口统计的COVID-19确诊病例在沙特阿拉伯,有92%的病例的成年人更有可能影响其他人因为他们的流动性。

限制COVID-19的传播,政府实施的指导方针,包括self-quarantine、部分宵禁,并限制旅行的沙特阿拉伯,如在麦加朝圣和小朝。锁定执行4月21日至5月11日,下午6点和6点之间。然而,在大流行期间高峰,5月23日至5月27日,24小时宵禁被执行。锁定包括呆在家里;只有人去购买用品和必要的工人凭许可证被允许出去。这些政策有助于减少COVID-19的传播。因此,在这项研究中,移动数据被用作预测,也就是说,特性。数据从谷歌获得了麦加省COVID-19社区流动报告从2020年2月到2021年6月。报告描述了六个运动趋势:零售和娱乐、杂货和药房,公园,公交车站,工作场所和居民区27]。这些测量数据为百分比变化从一个基线。图6礼物百分比变化的一个例子从基线移动数据在同一时期的COVID-19病例。

使用的因素模型预测,也就是说,特性。特征提取是本研究中使用管理缺失值和处理非数字值。展示在表使用的数据源1

缺失值,重复的列和列值是相同的固定或数据预处理中删除。时间列与日常COVID-19加入移动数据使用情况数据确定流动数据兼容日期COVID-19案例数据的所有时间。

3.2。特征选择

第一步是要理解的分布模型和数据集的信息是否有相关关系。模型的精度是由预处理优化选择的数据和模型验证。因此,本研究旨在验证提出的数据驱动的模型通过确定主要影响因素的传播COVID-19在沙特阿拉伯,基于所收集的数据。

衡量公民遵守self-quarantine和政府的指导方针,我们收集了麦加省移动数据来自谷歌COVID-19社区流动报表。报告情节运动趋势在不同的地理位置,如杂货和药房,公园,工作场所和居民区27]。这些因素中使用的模型预测,预测编码中使用的模型通过识别他们的相关性。

3.3。人工神经网络预测模型

建立一个预测模型、模式中确定一组数据来获取答案(28]。预测模型使用神经网络可以实现精度高,因此可以用来开发工具和算法能够有效地解决和流行病暴发新病毒出现,在流行病学开设新的可能性。

时间序列预测的目的是预测一系列等间隔的离散数据点的时间29日]。款被广泛用于时间序列预测;例如,卷积神经网络,LSTM [30.),《变形金刚》,充分连接款(31日)已被用于COVID-19情况下预测。

本研究使用三个时间序列神经网络模型预测COVID-19病例数了五天。输入层提要预测{一个,B、…P}是过去的数据值到隐藏层。预测因子包括先前的案例信息和在多大程度上人们遵守政府法规,如部分所述3.2。隐藏层的预测使用数学函数修改输入数据。输出层聚集在隐藏层预测并产生一个预测。因此,预测模型涵盖了培训、测试和评估流程。

一个完全连接是一个前馈网络,包含款完全连接层。使用它,因为它不需要任何假设输入:它是一个通用的应用程序的一个人工神经网络。因此,它可以应用到不同的领域。请注意,对于n输入和输出,权重的数量n×(32]。基于LSTM是一个反复出现的网络体系结构结合梯度学习算法(33]。LSTM的一个优点是其学习能力即使吵闹,不可压缩输入序列没有效率的损失。变压器是一款模型,处理顺序输入数据点用于表示(31日]。

在这项研究中,由[TM是基于工作34与描述的注意机制[],30.]。这是因为输入不一定是为了处理。然而,这种机制提供了一个上下文中的任何位置输入数据点。此外,培训过程发生在平行,使培训更大的数据库。此外,该集团线性变换(GLT块)受到壮族et al。34提高学习的更广泛的用更少的参数表示。

3.4。评价指标

因为预测数值模型,定量评估统计数据作为评价的测量。R平方,范围从0%到100%,用于显示模型明显优于平均总情况的价值。显示模型的平均误差对应的日子和比较不同的预测模型,根均方误差(RMSE)和平均绝对误差(MAE)指标使用[15]。这些指标通常用于评估模型和一般应用于单一时间序列数据集。方程(1)- (3)的数学定义R分别平方,RMSE,美 观测值, th预测价值,N表示测试数据点的数量。定性评估的统计数据,模型的可视化输出形成确定的模型在某些领域工作。

4所示。结果与讨论

实验进行了在Windows 10×64,我英特尔酷睿i7 - 4770 k的CPU 3.50 GHz和16日0 GB DDR3内存。我们实现了我们的实验与木星笔记本Keras框架在Python中。所有模型的hyperparameters选择如表所示2。AdaBelief优化器与学习速率调度器预热被选中,因为它适应步长基于预测和观察到的梯度之间的区别34]。此外,梯度集中作为一种优化技术来提高收敛性(33]。阈值修正线性单元(ReLU) flatten-T嗖嗖声被用作一个激活函数,−0.2的门槛,允许负值传播在网络和提高性能35]。

过去的窗口参数和经验选择下一个参数值。足够的训练数据被用来减少预测的方差为0。因此,80%的选择输入数据进行训练。验证模型的优化算法使用一个测试数据集。测试数据从沙特阿拉伯的情况下收集,然后验证评价模型的效率。因此,20%的人被选为测试数据。参数使用的总数是2933993,其中包括2933941和52 nontrainable参数可训练的参数。总的来说,我们执行三个(方法)×5(下一个值)= 15实验。

款的预测速度、LSTM和TM是0.025,0.016,和0.036 s,分别。获得的模型需要一个可接受的计算时间。这是因为ReLU层减少了复杂性由于减少训练时间。然而,LSTM聚合速度比其他模型。

每个模型训练预测新病例,而不是整体的情况下达到一个数值稳定的模型。因此,评估模型稳定,每批新病例的平均总计算根据评价指标,R平方,RMSE梅,在1500 - 2000时期。数据78显示了R平方的和RMSE值平均总每批新病例,分别。从图可以看出7,TM达到最高的值和训练数据与测试数据但最低的价值观。因此,TM与测试数据不稳定。相反,我们可以看到从图8,TM达到最低的值和训练数据与测试数据但最高价值观。因此,TM与测试数据不稳定。因此,可以得出结论:TM overfitted,需要更多的数据来表现的更好。然而,简单的模型,和LSTM款,效果略好相同的数据。模型继续训练,直到他们可以分类最大测试数据,导致精度高。从数据可以看出78的数据量是训练不足一个健壮的模型。

9显示了三种模型的预测结果。每个点的预测值是病例数/天,这是通过使用生成观察病例数从之前的四天。因为测试数据集,真正的天的预报值是已知的。从图可以看出10,所有的模型预测值接近真实值。因此,模型是非常准确的,之间有很强的相关性的模型预测和实际价值。所有的模型已经成功地预测总整体情况下使用的测试数据。

模型训练后,整体为款RMSE值,LSTM,和TM是1235.577,241.933,和526.3385,分别。款,另外,整体美值LSTM,和TM是931.2212,166.332,和362.7718,分别。最后,LSTM款的整体美值,和TM是0.997,0.999,和0.999,分别。

3显示了预测的准确性分数,根据评估指标为每个方法在接下来的五天。评价指标计算基于整个测试的整体情况。模型预测的新病例,然后添加值的整体价值观。因此,它是聚合新总体情况。

如前所述,美之差的绝对值是预测和实际值;因此,值越小,模型的性能就越好。约±81款有一个错误的第二天,这是比这更好的TM的误差±131。然而,预测下滑到±339±431第四和第五。这显著下降之后天表明一个贫穷的预测能力。LSTM模型显示测试数据的最佳效果。从表中很明显,LSTM可以预测总体情况下新85天,并没有训练数据的一部分,一个错误的提前一天约±66例。然后,它下降到±213±273。

小RMSE值意味着模型估计的值接近真实值。LSTM最高精度基于RMSE获得最低,其次是款和TM。如图10,新病例的数量在这个区间范围从400∼∼1300。因此,LSTM展示三个模型之间的最佳性能。

此外,RMSE往往是大于美,尤其是当使用TM,因为RMSE处罚重大错误更多。因此,更多的错误被检测到,TM显示一个更大的错误的价值观差距比款和LSTM LSTM实现更好的结果。R平方显示总数的比例变化的模型。的值R平方范围从0到1。在这种情况下,所有模型实现值1或0.99,这是在接受范围内的R平方的分数。这表明回归预测完全符合数据。

5。结论

本研究解决了一个重要课题,并介绍先进技术领域的传染病。此外,它侧重于预测疾病传播可以使用在沙特阿拉伯和其他国家受到疾病的影响。分析和理解的因素,增加传播COVID-19在沙特阿拉伯是至关重要的减缓和防止更多的感染传播。调查措施应对流感大流行之间的联系和疾病传播将阐明应用预防措施的有效性。这使当局的目标努力更有效的行动。

在这项研究中,我们开发了三种预测模型使用一个款,LSTM,变压器来显示不同的影响因素对传播SARS-CoV-2在沙特城市。LSTM模型获得最好的预测结果与合理的计算时间。该模型可以有效地控制疫情和传染病当新病毒出现在未来。

在未来,我们将考虑更多沙特城市预测模型。此外,我们打算最具影响力的因素进行回归分析,发现影响新病例。本研究只使用下面的神经网络模型:款,LSTM和变压器。未来的研究要比当前的性能模型与卷积神经网络和支持向量机在同一数据集。

数据可用性

使用的数据来支持本研究的结果都包含在这篇文章中,从以下网站:https://www.moh.gov.sa/en/Pages/default.aspx、2020年和https://www.google.com/covid19/mobility/,2020年。

的利益冲突

作者宣称没有利益冲突有关这项研究的出版物。

确认

作者要感谢院长以来塔伊夫大学科研KSA的支持下格兰特号码:1-441-47。