使用多层感知器建模COVID-19感染的传播

摘要

冠状病毒(COVID-19)是一种高度传染性的疾病，引起了全世界的关注。这些疾病的建模对于预测它们的影响是极其重要的。虽然经典的统计建模可以提供令人满意的模型，但它也可能无法理解包含在数据中的复杂性。在本文中，作者使用了一个公开可用的数据集，其中包含51天内(2020年1月22日至2020年3月12日)406个地点的感染、康复和死亡患者的信息。该数据集被转换为回归数据集，并用于训练多层感知器(MLP)人工神经网络(ANN)。培训的目标是在每个时间单元的所有地点实现最大数量的患者的全球模型。利用网格搜索算法改变MLP的超参数，共有5376个超参数组合。使用这些组合，总共训练了48384个ann(每个患者组(死亡、恢复和感染)16128个)，每个模型使用决定系数( ）.交叉验证采用5倍的K-fold算法。获得的最佳模型由4个隐藏层组成，每层有4个神经元，并使用ReLU激活函数，与确诊患者模型得分为0.98599，死亡患者模型得分为0.99429，康复患者模型得分为0.97941。当执行交叉验证时，这些分数下降到0.94（确认）、0.781（恢复）和0.986（死亡患者模型），显示死亡患者模型的高鲁棒性、好鲁棒性（确认）和低鲁棒性（恢复患者模型）。

1.介绍

冠状病毒病，代号COVID-19，是由一种病毒引起的传染病，该病毒属于严重急性呼吸综合征冠状病毒2 (SARS-CoV-2)家族成员，以前称为2019新型冠状病毒(2019- ncov) [1那2］.据认为，病毒爆发有动物来源，它是2019年11月/ 12月在中国武汉省的人类传播给人类[3.-5.］.

目前，Covid-19没有批准的疫苗或特定的抗病毒毒率可以获得[6.那7.］.2002年和2003年的SARS大流行得到了控制，并最终通过常规控制措施(包括旅行限制和病人隔离)得以制止。目前，这些措施在COVID-19疫情暴发的几乎所有国家都适用;然而，它们的有效性取决于它们的严格程度[8.那9.］.由此可见，能够可靠预测COVID-19传播的方法将极大地有助于说服公众舆论，为什么在过去十年中坚持这些措施至关重要[10那11］.

对COVID-19等病毒性疾病进行建模对于确定其未来可能的影响极为重要。模拟这种疾病的传播和影响对于理解其影响极为重要[12］.而传统的统计建模可以提供精确的模型[13，人工智能技术可能是找到高质量预测模型的关键[14］.在本文中，作者提出了一种机器学习的解决方案，多层感知器(MLP)人工神经网络(ANN) [15]，以模拟疾病的传播，预测每个时间单位内每个地点感染疾病的最大人数，每个时间单位内每个地点恢复的最大人数，以及每个时间单位内每个地点的最大死亡人数。与其他人工智能算法相比，MLP之所以被选中，是因为它的简单性，因为作者希望测试使用相对简单的方法建模的可能性，因为与此类方法相关的训练时间更短，因为在建模疾病时，快速生成结果很重要，由于对具有足够好的回归性能的模型的尽可能快的要求。可以使用统计分析对现有数据进行建模。但是，当涉及到极其复杂的模型时，统计分析可能无法理解所分析数据中包含的复杂性[16]. 更复杂的算法，即人工智能算法，特别是机器学习算法，不仅可以用于“学习”总体趋势，还可以“学习”数据的复杂性，从而生成更高质量的模型[10］.人工智能算法已经越来越多地应用于科学和工业的各个分支，例如医学[17]，用于各种疾病的分类，并建立回归模型进行估计和预测。通过机器学习技术获得的模型调整其参数，使其预测与现有数据相符，不管现有数据包含什么。通过这样做，模型考虑了各种输入参数的相互影响，如果使用传统建模方法可能没有考虑到这些参数[11］.当使用回归Covid-19的复杂模型时使用时，这种考虑到存储内数据存储内部数据的复杂性的能力应该很好地宽松。目前，现有的Covid-19传播模型具有相对较差的结果[18]或作出了被证明与真实数据无关的预测[19那20.］.

在本研究中，目的是通过使用人工智能算法，利用本研究进行期间存在的数据，实现准确的回归模型。这是为了证明在新冠肺炎等传染病的早期建模中使用人工智能算法的可能性。该模型的目的是将所有收集到的数据放在一起观察，而不是将它们分散到不同的地方，因为这种观察模式可以让机器学习方法实现一个更好的病毒传播的全球模型。MLP算法使用“新型冠状病毒(COVID-19)病例”进行训练[21.]，作者：约翰·霍普金斯CSSE。在进行本研究时，数据集包含20706个数据点，并分为训练集（75%-15530个数据点）和测试集（25%-5176个数据点）。使用网格搜索算法确定MLP的超参数。采用K-fold交叉验证算法测试了不同模型的鲁棒性。然后使用公制。详细介绍使用的技术和方法。

2.材料和方法

本节中提出了研究中使用的材料和方法。使用和转换可用数据的过程，使用具有多个HyperParameter组合的MLP建模，并描述了结果的最终评估。建模过程的概述在图中给出1．

2.1。数据集描述

本研究中使用的数据集是由由约翰霍普金斯大学系统科学和工程中心（JHU CSSE）的公开的储存库获得，并由ESRI Living Atlas团队和约翰霍普金斯大学应用物理实验室（JHU APL）支持[21.］.它包含了冠状病毒患者的数据，描述了自COVID-19感染开始以来，某一地点(由地点、纬度和经度名称定义)每天的患者人数(22人)^nd至2020年1月12日^TH.2020年3月。数据集被分为三个组:感染病毒组、恢复组和死亡组。在进行这项研究时，数据集包含了406个地点和51天的数据。数据集中包含的数据的地理分布如图所示2，显示受感染病人在不同时间点的地理分布。

(一)

(b)

（C）

已公布的数据集组织为时间序列数据，显示疾病在不同地点随时间的传播情况。在进行这项研究时收集的数据不足以尝试时间序列人工智能建模。为了训练MLP，数据集被重新排列以创建一组输入和输出。对于每个案例数，添加位置的纬度和经度，以及数据收集的日期。日期被转换为自数据集的第一个条目以来的天数。这样，每个数据点都包含了自第一个病例以来，在特定地点、特定日期的患者(感染、康复或死亡)数量的信息。输入数据为纬度、经度和从第一个病例开始的天数，输出数据为每组的患者人数。通过这种方式，时间序列数据集被重新排列，使其适合于训练回归的MLP。

最后，数据集由总共20706个数据点组成，随机分成五个相等的部分，即所谓的折叠。这些部分中的每一部分都用作测试集，其余部分用作训练集。这意味着每个架构的训练重复5次，训练分布为80%/20%（16565个随机选择的数据点用于训练，4141个数据点用于测试集）。

２.２.多层感知器

多层erceptron（MLP）是一种完全连接的前馈人工神经网络（ANN），由布置在层中的神经元组成[11］.至少三个层组成MLP：输入层，输出层和一个或多个隐藏层。输出层由单个神经元组成，该值是MLP Ann的输出，在呈现的研究中，这是预测患者的数量。输入层由与数据集输入相同的数量的神经元组成[22.］.本研究中使用的MLPs在输入层有3个神经元——每个输入数据点有一个神经元(纬度、经度、感染后的天数)。

选择MLP作为本研究中使用的方法的原因是易于实施此类方法。也已知MLP提供高质量的型号，同时与更复杂的方法相比保持训练时间相对较低。

MLP是基于计算电流层神经元的值作为前一层神经元的加权输出的激活和，连接到该神经元[22.那23.］.激活是指的加权输入被用作输入所谓的激活函数,映射的输入输出直接(身份激活),在一定范围内(乙状结肠或双曲正切),或地图,删除不必要的值(例如,ReLU移除负面的价值观,和地图直接积极的)(24.］.神经元连接的权重最初是随机的，但随后通过后向传播过程调整，其中MLP结果的前向传播的误差被返回传播，并且重量按比例调整到误差[25.］.

由于MLP回归负胞只能回归单个值，如果问题包括多个输出值，则必须使用由多个模型组成的模块化模型。虽然模型之间的相似之处是可能的;完全分别培训模型意味着将测试所有架构，为每个目标找到更好的预测模型，给出更高的机会。在研究中提出的研究中，对于感染的目标，恢复和已故患者的每个目标训练了三个单独的MLP。

为了确认结果的有效性，进行了交叉验证过程。本研究采用的交叉验证方法为K-Fold算法[22.那26.］.在此过程中，数据集被分割为子集（在呈现的情况下）.然后，它们中的每一个用作测试集，剩余时间子集用作训练数据集[27.］.然后将结果呈现为实现得分的平均值，标准偏差指出。

该解决方案已经实现使用Python 3.8编程语言，使用scikit-learn库[28.］.由于易用性，已选择Scikit-reature，以及它包含本研究中使用的大多数方法的实施[29.］.ActiveState Python的activpython实现和所需的库已被使用[30.］.培训使用高性能计算机(HPC)布拉超级计算机进行。训练模型16个HPC节点，每个节点包含48个逻辑cpu (Intel Xeon E5上的24个物理核)，每个节点64gb RAM [31.] - 总共使用768个逻辑CPU。使用的操作系统是Red Hat Enterprise Linux，带内核3.10.0-957。

２.３.Hyperparameter决心

超参数是定义神经网络模型结构的值。正确的超参数值是实现高质量模型的关键。为了确定最优的超参数组合，采用了网格搜索算法。

网格搜索算法为每个调整过的超参数取一组可能的参数。然后，确定每个超参数的可能组合[32.］.每一种组合都用于训练MLP。为了避免初始权值随机设置导致解差的可能性，每组超参数都进行了三次训练。然后对每个实现的模型进行评估。在执行的研究中调整的超参数是[28.那29.]：(一)解算器：用于在训练中的反向传播过程中重新计算MLP权重的算法(2)初始学习率α-训练开始时的学习率值（iii）学习率的调整——学习率在训练过程中变化的方式，是否会根据成本函数的当前值进行调整(iv)定义为元组的隐藏层和神经元数量，其中每个整数定义单个隐藏层，整数值定义该层中的神经元数量(v)激活函数——将神经元的输入值转换为神经元的输出值的函数（vi）正则化参数L2-参数限制输入参数的影响，以避免在偏置朝向单个输入值的校正培训的ANN，这与输出具有高的相关性;更大的参数，更多的影响是降低的

表中给出了可能的超参数值1．


Hyperparameter	可能的值	计数

解算器	亚当,LBFGS	2
初始学习率	0.00001, 0.01, 0.1, 0.5	4.
学习速率调整	常数,适应性,invscaling	3.
隐藏层大小	(3),(6),(4, 4),(3, 3, 3),(6 6 6),(4、3、4),(12)12日,12日,(4 4、3、3),(4、4、4、4),(6 6 6 6),(10、5、5、10),(3,3,3,3,3),(10、10、10、10、10),(12 12 6、6、3、3)	14
激活功能	ReLU, identity, logistic, tanh	4.
正则化参数	0.00001, 0.001, 0.01, 0.1	4.
超参数组合总数		5376

２.４.模型质量评估

使用确定系数对每个获得的模型进行评估( ）.决定系数定义了如何用预测数据解释真实数据中存在的方差。真实的输出数据，即实际的患者数量，包含在向量中y，而从训练模型获得的预测数据被设置为向量y．有了这个，决定系数可确定为剩余方差与总方差之间的系数[33.]：与作为评估的样本数量（矢量长度yˆy）.定义在范围内 [0,1]， 0.0表示实际数据中的方差在预测数据中没有得到解释，1.0表示可能的最佳值，表示所有的方差在预测数据中得到了解释。

由于使用了交叉验证，每个体系结构都要对不同的数据进行5次训练。为了表示交叉验证的结果，将分数计算．为了表示不同折叠上的分数之间的方差，标准差还提供了分数．

3.结果与讨论

在本节中，对所取得的结果进行了详细的描述。这些结果是使用上一节描述的方法获得的。在给出结果后，对结果进行了讨论。

3．1.结果

实现的最佳模型显示出高质量的回归确诊患者模型的得分为0.98599，康复患者模型的得分为0.97941，死亡患者模型的得分为0.99429。

所有三个目标(感染数量、恢复和死亡)实现的最佳模型具有相同的基本ANN体系结构。这些结构由4个隐藏层组成，16个隐藏神经元平均分布在每层- 4神经元中。

所有三种输出的最佳模型也使用ReLU激活功能和LBFGS解算器。确诊病例的最佳模型的恒定学习率为0.1，正则化参数为0.0001。对于恢复的病例，MLP使用0.5的恒定学习率和0.001的正则化参数。预测死亡患者数量的模型使用自适应学习率0.01，正则化参数设置为0.1。表中列出了最佳模型的超参数2．


Hyperparameter	感染模型	恢复模型	已故的模型

解算器	LBFGS	LBFGS	LBFGS
初始学习率	0．1	0．5	0.01
学习速率调整	常数	常数	自适应
隐藏层元组	（4,4,4,4）	（4,4,4,4）	（4,4,4,4）
激活函数	雷卢	雷卢	雷卢
L2正则化参数	0.0001	0.001	0.01

数字3.显示真实数据与从模型中获得的数据的比较。按天数排序的实际数据以及所有三种建模案例的趋势，如下方图所示。子文件（a），（c）和（e）演示了实际数据的比较，按日期进行各种位置和模型预测的数据。每个条形为每个位置呈现给定群体中的许多患者。为了更容易观看，每个每日计数的最大值被绘制为（b），（d）和（f）中的绘制数据的包络。这些信封显示了每个患者组的最大疾病的近似值，用于真实数据和建模数据，这表明所建模的数据紧密遵循收集的数据。桌子3.显示了表中所示最佳模型的交叉验证结果2．

(a)感染率数据比较

（b）感染趋势比较

(c)死亡率数据比较

（d）死亡趋势比较

(e)回收率数据比较

(f)回收率数据比较


目标	平均数分数在折叠	σ

确认	0.94	0.037
恢复	0.781	0.072
死者	0.986	0.021

培训时间，使用5倍交叉验证，在使用和描述的系统上“材料和方法的章节见表4.．考虑到5376个训练项目，由于交叉验证而重复训练5次，总共训练了26880个模型，这意味着平均模型训练时间为0.088分钟或5.26秒。


目标	培训时间(分钟)

确认	2428.
恢复	2436.
死者	2209.
平均数	2357.67

３．２．讨论

结果表明，所有三种模型都可以使用类似的架构，暗示所有三个目标之间的相似趋势。使用Relu激活函数不会出乎意料，因为它消除了负值，它是逻辑的，它将很好地向其提供很好的型号，该模型仅预测正值。学习率在模型之间有所不同，用于感染和恢复的模型使用相对较高的持续学习率，而死者的模型使用显着降低的学习率，但在迭代中适应。对于感染的模型，正则化参数相对较低，但为恢复和死亡模型提高 - 指向某些输入参数对所需的那些模型的输出产生较高影响的事实。

模型表现出突然和意外变化的差，如突然跳跃在第22天突然跳跃。仍然，该模型仍然良好的追踪整体模型变化，即使在此类意外跳跃后，即使在调整时也会提供良好的预测。由于位于中国的案例最多，该模型主要适用于该数据。未来感染，死者或恢复患者最大数量的变化应包括在模型中，以进一步测试其稳健性。

跨解决方案空间执行的交叉验证显示了一个插入分数。对于死亡病人的模型显示了最低的评分下降。确诊病例模型从0.986降至0.94，降幅较大，但仍可接受。下降幅度最大的是在康复患者模型中评分从0.97941降至0.781，表明模型对康复患者的稳健性较低。当应用交叉验证时，显示最佳结果的模型体系结构保持不变。

这项研究的目的是利用机器学习方法生成一个冠状病毒疾病在全球范围内传播的模型，这一目标已经实现。创建的模型显示了现有数据的高保真度，除了康复患者的模型。与已经设计的模型相比，提出的模型显示了更高的准确性，以及对死亡和恢复的跟踪。此外，所提出的模型是使用更简单的人工智能算法和相对简单的架构创建的，这在计算时间和资源方面具有性能优势[22.］.结果表明，在相对有限的数据集上使用人工智能对传染病的传播进行数学建模的能力是明确的，这意味着相对较长的数据收集周期对于用人工智能算法实现良好的模型不是严格必要的。所获得的结果表明，未来可以使用这种算法来模拟类似的现象。

4.结论

所获得的模型表明，以地理和时间数据为输入，利用人工智能方法获得新型病毒感染的质量模型是可能的。在本研究中，所有回归目标都实现了高精度的模型。所取得的结果证明，人工智能模型可以用于模拟传染病的传播和影响等问题。这意味着，应该尝试应用人工智能方法来建模当前和未来的传染病传播，试图预测这类感染对人类的影响。模型很大程度上适合中国的患者群体，这表明使用每个国家的患者数量不一定是一个很好的指标，可以用作培训目标——进一步的研究应该投资于测试不同类型的指标(例如，人口中的疾病比例)如何影响模型质量。实现的代码和模型可以在公共存储库中找到，由作者提供[34.］.作者还计划在一个易于使用和广泛访问的web界面内实现已实现的模型。

未来的工作应采用其他方法，试图找到更好的模型或比MLP观察到的模型更易于使用或更透明的模型。比较不同传染病的模型会很有趣。正在获得的更多数据应能够使用其他技术，如使用时间序列数据对感染模型进行分析的递归神经网络。

数据可用性

该研究使用Johns Hopkins大学系统科学和工程中心（JHU CSSE）发布的公开可用的DataSet“2019年新型Coronavirus数据存储库”：https://github.com/CSSEGISandData/COVID-19．实现的模型，并且在其生成中使用的代码可在存储库中使用，位于：https://github.com/RitehAIandRobot/COVID-19-MLP[34.］.

的利益冲突

作者声明，他们没有任何经济或其他利益冲突。

作者的贡献

Z.C.在s.b.s.、i.l.和N.A.的帮助下定义了假设和最初的想法，并研究了可能应用于数据集的人工智能方法。在N.A.和i.l.的协助下，s.b.s.开发了时间序列数据集到回归数据集的转换，在N.A.和i.l.的协助下开发了应用于MLP建模的网格搜索，N.A.搜索相关的科学论文。S.B.S.和V.M.定义了如何评估模型。n.a.， s.b.s.， i.l.和V.M.共同撰写并组织了这份手稿。手稿中的数字是I.L.设计的。

致谢

该研究已由CIEPUS网络CIII-HR-0108（欧洲区域开发基金）在赠款KK.01.1.1.01.00.0009（DATACROSS），项目CEKOM下的欧洲区域开发基金（DATACROSS），授予KK.01.2.0.03.0004，里耶卡大学科学格兰特联鲁 - 18-275-1447。

参考文献

A. A. Gayle, A. Wilder-Smith, J. Rocklöv，“COVID-19的繁殖数量高于SARS冠状病毒，”旅行医学杂志，第27卷，第2期，2020年。视图:出版商网站|谷歌学者
疾病控制和预防中心（2020年3月4日），2019冠状病毒病(COVID-19) -如何传播那https://www.cdc.gov/coronavirus/2019-ncov/prepare/transmission.html．
M. Roser和H. Ritchie，冠状病毒病(COVID-19)。我们的数据世界，牛津马丁，2020年。
A. Al-Gheethi，E. Noman，Q. A. Al-Maqtari等，新型冠状病毒(2019-nCoV)疫情;对已发表论文的系统回顾，SSRN电子杂志，2020年。视图:出版商网站
周平，杨学林，王学刚等，“一种可能源自蝙蝠的新型冠状病毒的肺炎暴发”，自然，卷。579，没有。7798，pp。270-273,2020。视图:出版商网站|谷歌学者
T. P. Velavan和C. G. Meyer，《COVID-19流行病》，热带医学与国际健康，第25卷，第3期，第278-280页，2020年。视图:出版商网站|谷歌学者
M. Letko, A. Marzi和V. Munster，“SARS-CoV-2和其他B -冠状病毒的细胞进入和受体使用的功能评估，”微生物学性质，第5卷，第4期，第562-5692020页。视图:出版商网站|谷歌学者
世界卫生组织，2019冠状病毒病(covid-19)情况报告- 29，世界卫生组织2020年。
elewsvier，新型冠状病毒信息中心, 2020,https://www.elsevier.com/connect/coronavirus-information-center．
世界卫生组织，中国-世界卫生组织新冠肺炎联合考察团报告，世界卫生组织2020年。
D. S. Hui，E.I Azhar，T.A.Madani等，“新型冠状病毒的持续2019-NCOV流行威胁到全球健康 - 中国武汉最新的2019年新型冠状病毒爆发，”国际传染病杂志，卷。91，pp。264-266,2020。视图:出版商网站|谷歌学者
E. Vynnycky和R. White，传染病建模导论牛津大学，2010年。
A. B. Lawson，空间流行病学的统计方法，约翰瓦里和儿子，2013年。
Z.黄，J.周和Q. Zhang，“传染病的人工智能大数据分析”感染，疾病与健康，第24卷，第2期1，页44-48,2019。视图:出版商网站|谷歌学者
T. Hastie, R. Tibshirani, J. Friedman，统计学习的要素:数据挖掘、推理和预测， 2009，施普林格科学与商业媒体。视图:出版商网站
托勒纳尔和范德海登，“哪种方法最能预测惯犯?”:统计、机器学习和数据挖掘预测模型的比较，”皇家统计社会杂志：A系列（社会统计），卷。176，不。2，pp。565-584,2013。视图:出版商网站|谷歌学者
I. Lorencin, N. Anđelić， J. Španjol，和Z. Car，“使用多层感知器和拉普拉斯边缘检测器诊断膀胱癌”，医学中的人工智能，卷。102，第101746,2020条。视图:出版商网站|谷歌学者
Z. Hu，Q.Ge，L. Jin和M. Xiong，“中国Covid-19的人工智能预测”2020年，http://arxiv.org/abs/2002.07112．视图:谷歌学者
“2019-ncov终止传播的综合方法预测”，2020，http://arxiv.org/abs/2002.04945．视图:谷歌学者
S. J. Fong，G. Li，N. dey，R.G.Crespo和E. Herrera-Viedma，“从小数据集找到一个准确的早期预测模型：2019年 - Ncov新型冠状病毒爆发的案例”国际交互多媒体和人工智能杂志，第6卷，第2期1，页132-140,2020。视图:出版商网站|谷歌学者
约翰·霍普金斯CSSE新型冠状病毒(COVID-19)病例, 2020,https://github.com/CSSEGISandData/COVID-19．
I. Goodfellow，Y. Bengio和A. Courville，深度学习，麻省理工学院出版社，2016。
c . m .主教模式识别和机器学习, 2006年施普林格。
P拉马钱德兰，B。佐夫和Q。vLe，“搜索激活功能”，2017年，http://arxiv.org/abs/1710.05941．视图:谷歌学者
c . m .主教模式识别和前馈网络。在认知科学的麻省理工学院百科全书（第13卷，第2号）麻省理工学院出版社，1999年。
I. Lorencin, N. Anđelić， V. Mrzljak, Z. Car，“基于遗传算法的联合循环电厂电力输出估计的多层感知器设计”，能量，第12卷，第2期2019年第4352条第22条。视图:出版商网站|谷歌学者
T. Fushiki，“利用k倍交叉验证估计预测误差”，统计和计算，卷。21，不。2，pp。137-146，2011。视图:出版商网站|谷歌学者
F. Pedregosa，G. Varoquauaux，A.Gramfort等，“Scikit-Learn：Machion在Python中学习”机床学习研究，第12卷，第2825-2830页，2011年。视图:谷歌学者
L. Buitinck, G. Louppe, M. Blondel等人，“机器学习软件的API设计:来自scikit-learn项目的经验”，2013，http://arxiv.org/abs/1309.0238．视图:谷歌学者
Python从ActiveState的, 2020,https://www.activestate.com/products/python/．
计算资源, 2020,https://cnrm.uniri.hr/bura/．
J. Bergstra和Y. Bengio，《超参数优化的随机搜索》，机床学习研究，卷。13，pp。281-305,2012。视图:谷歌学者
N. J. D. Nagelkerke，《关于决定系数一般定义的注释》，生物统计学第78期3，第691-692页，1991。视图:出版商网站|谷歌学者
covid-19 mlp，Riteh AI和机器人集团，2020年，https://github.com/RitehAIandRobot/COVID-19-MLP．

医学中的计算和数学方法

摘要