冠状病毒(COVID-19)是一种传染性很强的疾病,已经引起全世界的关注。建模这样的疾病可以预测其影响是极其重要的。虽然经典,统计、建模可以提供满意的模型,也无法理解错综复杂中包含的数据。在本文中,作者使用一个公开的数据集,包含信息感染,恢复,并于406年去世的病人位置在51天(2020年1月22日到2020年3月12日)。这个数据集,时间序列数据集,数据集转换为回归和用于训练多层感知器(MLP)人工神经网络(ANN)。训练的目的是实现最大的全球模型在所有位置的患者数量在每一个时间单元。Hyperparameters中长期规划的使用网格搜索算法多种多样,共有5376 hyperparameter组合。使用这些组合,共有48384个人工神经网络训练(16128为每个病人group-deceased、恢复和感染),和每个模型评估使用确定系数(
代号为COVID-19,冠状病毒病是由病毒引起的一种传染性疾病,Betacoronavirus家庭成员叫严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2),以前被称为2019年的小说《冠状病毒(2019 - ncov) (
目前,没有批准疫苗或特定的抗病毒药物可供COVID-19 [
建模等病毒性疾病COVID-19决定他们的未来可能的影响是极其重要的。建模这种疾病的传播和影响可以在了解它的影响非常重要
研究,目的是通过利用实现准确的回归模型存在的人工智能算法使用数据时执行这项研究。这样做是为了演示使用人工智能算法的可能性在早期建模的感染性疾病,如COVID-19、传播。模型的目的是观察所有收集到的数据在一起,而不是分离成地方,观察模式可以让机器学习方法来实现更好的全局模型的病毒传播。延时算法训练使用“新型冠状病毒(COVID-19)案例”(
研究中使用的材料和方法提出了在这一节中。利用和转换过程可用的数据,建模用MLP与多种hyperparameter组合,最后的评估结果。图中给出了建模过程的概述
人工智能建模的过程。首先,数据被收集并放在一个数据集。部分数据用于训练和测试各种延时hyperparameter组合,试图找到最好的架构。最成功的模型可以用于决定未来的实例。
研究中使用数据集从公开可用的存储库获得由约翰霍普金斯大学系统科学与工程中心(JHU CSSE)和由ESRI生活图集团队和约翰霍普金斯大学应用物理实验室(JHU APL) [
感染的患者数量的概述的地理分布COVID-19 15岁th2020年2月(a)、(b) 2020年3月1日,12th2020年3月(c)。
数据集出版,被组织为时间序列数据显示疾病的传播在不同地点。当时收集的数据不足而进行的这项研究,试图制定一个时间序列人工智能建模。训练中的延时,数据集重新创建一组输入和输出。对于每一种情况下,数的经度和纬度位置,以及数据收集的日期。转化为日期的天数自第一个进入的数据集。通过这种方式,每个数据点都包含信息的患者数量(感染、恢复或死)在给定的位置,在某一天自第一指出。经度,纬度,因为第一种情况的天数作为输入数据,输出数据是每组患者的数量。在这种方式中,时间序列数据集重新排列的方式使它适合中长期规划训练回归。
最后,数据集,包含20706数据点,随机分成五个相等的部分,或者所谓的折叠。这些部分作为测试集,剩下的部分用作训练集。这意味着训练对于每个架构是重复5次,有80% / 20%(16565随机选择数据点4141年培训和测试数据点集)training-testing分布。
多层感知器(MLP)是一种完全连接,组成的前馈人工神经网络(ANN),神经元排列成层(
选择延时的原因,本研究中使用的方法是易于实现的方法。延时也提供高质量的模型,同时保持训练时间相对较低而更复杂的方法。
延时是基于计算的值在当前层的神经元激活的加权求和在前一层神经元的输出,连接到神经元(
由于简要解释变量只能回归单个值,如果问题由多个输出值,组成的模块化模型必须使用多个模型。而模型之间的相似之处是可能的;训练模型完全分开意味着所有的架构将受到考验,给一个更高的机会找到一个更好的预测模型为每个目标。的研究,三个独立的mlp为每个goals-infected,训练一恢复,和死去的病人。
确认结果的有效性,交叉验证过程已经完成。本研究中使用的交叉验证方法是K-Fold算法(
解决方案已经使用Python 3.8编程语言实现,使用scikit-learn库(
Hyperparameters值定义安的体系结构模型。正确的价值观hyperparameters实现质量模型中是至关重要的。确定最佳hyperparameter组合,网格搜索算法被使用。
网格搜索算法需要设置的参数为每个hyperparameters调整。然后,每个可能的组合hyperparameters决定(
solver-the算法用于重新计算反向传播过程中的延时的重量训练
最初的学习速率
调整学习方式还债学习速率将会改变在训练期间,如果它将调整根据代价函数的当前值
隐藏层和neurons-defined元组,每个整数定义一个隐藏层和整数的值定义了这一层的神经元数量
激活function-function用于转换的输入值神经元,神经元的输出值,和
正则化参数L2-parameter限制输入参数的影响,为了避免安正在训练偏向于一个单一的输入值相关性高的输出;影响较大的参数,是降低
可能hyperparameter值表
Hyperparameters用于培训。第一列列出hyperparameter名,可能值的hyperparameter第二列中列出。最后一列礼物hyperparameters的数量,最后一行显示的总数hyperparameter组合,获得和使用在网格搜索算法执行。
| Hyperparameter | 可能的值 | 数 |
|---|---|---|
| 解算器 | 亚当,LBFGS | 2 |
| 最初的学习速率 | 0.00001,0.01,0.1,0.5 | 4 |
| 学习速率调整 | 常数,适应性,invscaling | 3 |
| 隐层的大小 | (3),(6),(4,4),(3,3,3),(6 6 6),(4、3、4),(12)12日,12日,(4 4、3、3),(4、4、4、4),(6 6 6 6),(10、5、5、10),(3,3,3,3,3),(10、10、10、10、10),(12 12 6、6、3、3) | 14 |
| 激活功能 | ReLU,身份,物流,双曲正切 | 4 |
| 正则化参数 | 0.00001,0.001,0.01,0.1 | 4 |
| 总数hyperparameter组合 | 5376年 | |
每获得模型评估使用确定系数(
由于使用交叉验证,每个建筑都是训练5次不同的数据。呈现交叉验证的结果,平均的
在本节中,详细的描述并给出了实现结果。这些结果使用前一节中描述的方法来实现。演讲后的结果,结果进行了讨论。
最好的模型展示高质量的回归,实现
最好的模型实现这三个目标的感染、恢复和死亡)安有一个相同的基本架构。这些架构由四个隐藏层,16个总隐藏神经元layers-4神经元之间平均分配。
最佳模型这三个输出也使用ReLU激活函数和LBFGS解算器。确诊病例的最佳模式不断学习速率的0.1和0.0001的正则化参数。中长期规划恢复的情况下,使用一个常数学习速率的0.5和0.001的正则化参数。死去的患者数量预测模型使用自适应学习速率为0.01,与正则化参数设定在0.1。最好的hyperparameters模型表中列出
Hyperparameters mlp最佳模型的实现。每一列是一个预测模型,计算数量的感染,恢复,和死去的病人。Hyperparameters导致最好的模型行所示。
| Hyperparameter | 感染模型 | 恢复模式 | 已故的模型 |
|---|---|---|---|
| 解算器 | LBFGS | LBFGS | LBFGS |
| 最初的学习速率 | 0.1 | 0.5 | 0.01 |
| 学习速率调整 | 常数 | 常数 | 自适应 |
| 隐层的元组 | (4、4、4、4) | (4、4、4、4) | (4、4、4、4) |
| 激活函数 | 线性整流函数(Rectified Linear Unit) | 线性整流函数(Rectified Linear Unit) | 线性整流函数(Rectified Linear Unit) |
| L2正则化参数 | 0.0001 | 0.001 | 0.01 |
图
比较真实和模拟数据。比较的情况下为每个输入数据集的数量显示为感染(a),已故(c)和恢复(e)患者,而数据的趋势和分析模型通过天感染(b)所示,已故(d),恢复(f)的病人。
感染率数据比较
感染趋势比较
死亡率数据比较
死亡趋势比较
回收率数据比较
回收率数据比较
k-fold交叉验证的结果,(
| 目标 | 平均 |
|
|---|---|---|
| 确认 | 0.94 | 0.037 |
| 恢复 | 0.781 | 0.072 |
| 已故的 | 0.986 | 0.021 |
训练时间,使用5倍交叉验证,系统上的使用和描述的“
培训时间为每个目标在几分钟内,使用5倍交叉验证和网格搜索5376项。培训时间测量使用16 48-thread HPC节点。平均培训时间在所有目标底部所示。
| 目标 | 培训时间(分钟) |
|---|---|
| 确认 | 2428年 |
| 恢复 | 2436年 |
| 已故的 | 2209年 |
| 平均 | 2357.67 |
结果表明,相似结构可用于所有三个模型,显示所有三个目标之间类似的趋势。使用ReLU激活函数并不出人意料,因为它消除了消极的价值观,它是逻辑本身有一个模型预测只有积极的价值观。学习利率模型之间的不同,模型感染和恢复使用恒定的学习速率相对较高,而死者模型使用学习速率明显降低,但适应迭代。模型的正则化参数是相对较低的感染,但提出了恢复和已故models-pointing事实上有一个更高的某些输入参数对输出的影响的模型需要抑制。
模型显示跟踪差突然意想不到的变化,如突然跳感染22天左右。不过,整体模型的模型展示了良好的跟踪变化,给予良好的预测即使这样意想不到的leaps-if给定的时间调整。由于位于中国最大数量的情况下,模型主要是安装数据。未来变化的最大数量感染,死亡,或者恢复患者应该包含在模型中进一步测试其鲁棒性。
交叉验证执行显示整个解空间显示下降
本研究的目的是生成一个模型的冠状病毒疾病传播在全球范围内使用机器学习方法,是实现。创建的模型显示现有数据的高保真,除了恢复模型的病人。相比已经设计模型,提出了模型显示更高的精度,以及跟踪的死亡和复苏。此外,创建了模型使用一个简单的人工智能算法,并使用一个相对简单的结构,计算时间方面的性能优势和资源(
实现模型表明,可以获得质量模型的新型病毒感染使用人工智能方法、地理和时间数据作为输入。在这个研究中,高精度模型取得了所有回归的目标。实现结果证明这一事实,即人工智能模型可以用于建模问题,如传染性疾病的传播和影响。这意味着人工智能方法的应用程序应该试图在建模的现在和未来传播感染性疾病,为了预测这些感染对人类的影响。模型拟合主要中国患者人群表明,使用的患者数量每个国家不一定是一个好的度量作为培训goal-further研究应该投资于测试不同类型的指标(例如,疾病的人口比例)影响模型质量。代码和模型实现了在公共存储库,可以找到作者提供的(
未来的工作应该运用其他方法试图找到更好的模型或模型,使用更简单,或者更透明与延时比观察。比较模型不同的感染性疾病将会是很有趣的。更多的数据被收购应该支持使用其他技术,如复发性神经网络应用于感染模型使用时间序列数据的分析。
本研究使用一个公开的数据集“2019新型冠状病毒数据存储库”发表的约翰霍普金斯大学系统科学与工程中心(JHU CSSE)可以在:
作者宣称他们没有interest-financial或冲突。
Z.C.定义从S.B.S.假说和最初的想法与援助,I.L.,and N.A., and investigated potential AI methods which can be applied to the dataset. S.B.S., developed the dataset transformation from time series to a regression dataset, with assistance from N.A. and I.L., developed the grid search applied on the MLP modeling with assistance from N.A. N.A. searched for the relevant scientific papers. S.B.S. and V.M. defined how the models will be evaluated. N.A., S.B.S., I.L., and V.M. mutually wrote and structured the manuscript. I.L. designed the figures presented in the manuscript.
这个研究(部分)支持的CEEPUS网络ciii -人力资源- 0108,欧洲区域发展基金资助下KK.01.1.1.01.0009 (DATACROSS)项目下CEKOM格兰特KK.01.2.2.03.0004,大学里耶卡科学格兰特uniri - tehnic 18 - 275 - 1447。