文摘

新型冠状病毒快速传播,对整个世界产生巨大影响。根据新型冠状病毒的传播,我们开发一个大数据预测模型的新型冠状病毒流行的智能医疗、感染和死亡的考虑到所有的因素和实现新兴技术,如物联网(物联网)和机器学习。根据不同的应用特点,各种机器学习算法在医学领域,我们提出一个基于随机森林的人工智能预测模型。考虑之间的松散耦合的数据准备阶段和模型训练阶段,如数据收集和数据清洗的早期阶段,我们采用物联网技术平台集成数据收集、数据清洗、机器学习训练模型,和前置和后端框架,以确保每个模块的紧密耦合。验证该预测模型,我们执行评估工作。此外,预测模型的性能进行了分析,以确保信息的准确性预测平台。

1。介绍

据统计2019 (COVID-19)冠状病毒病的流行报告由世界卫生组织(世卫组织),已经有超过5600万个确诊病例和135万例死亡的15:59欧洲中部时间(CET), 11月20日,2020,表明全球疫情非常严重。COVID-19-infected病人的数量已经超过100万在许多国家,包括美国、印度、巴西和法国。尤其是美国,COVID-19有超过1000万例确诊病例。因此,它是至关重要的进行状态分析和研究的影响根据不同的疫情防疫和控制措施的国家。

数学模型往往被研究者用来推导出nonspreading传染病和条件预测和分析流行趋势和感染人群。相应地,有关相应的开发策略。目前使用的流行预测模型之一是马尔萨斯增长模式(1]。然而,这个模型还有很长的路要走在现实世界中被应用。逻辑回归模型(2),也被称为SI模型(年代=怀疑,=感染),提出了区分感染和未感染的个体。SI模型的预测也不现实当治愈因素不考虑。此外,SIS模型(年代=怀疑,我=感染,R=恢复)学习通过比较不同地区的行为。我们建议西珥流行模型(年代=怀疑,E=暴露,=感染,R=恢复)预测当治愈人口没有免疫力更容易再感染。相反,经典的爵士模型通常选择一个治愈的人口,并有很强的免疫力。这个经典模型被广泛用于描述爵士流行的总体趋势由于它易于操作,清晰和简洁的结构。先生这个经典模型,例如,分析从2003年的非典。流行的进化和疾病的整体传播模式描述(3]。西珥模型在此基础上,介绍了暴露,也就是说,类E人口,认为只有一部分的人很容易感染,接触受感染的人传染,使疾病的传播周期更长。然而,更详细的因素不考虑过程中流行的预测。

流行预测的完成任务,我们开发了一种新颖的基于人工智能(AI)的预测方法和互联网的东西。由于现有的模型,很多互联网的机器学习算法可以用于预测方法。因此,我们研究了一个研究性的工作,分析了常用算法在医学的预测。我们旨在找到一个最佳的算法具有良好的收敛特性和效率来完成预测。流行预测一个新的物联网平台建成使用现有的模型。进行了相关实验,也验证了算法的好处。

本文的其余部分组织如下。我们切开讨论相关工作2切口和算法模型3。切开4,我们目前预测的设计平台。我们切开执行仿真工作5。最后,我们得出结论。

2。RelatedWork

COVID-19现在没有真正控制世界。世界上约有1.7亿新诊断病例。以前,一天有445539例新诊断病例。全球总死亡人数约为3500000,与在一天的死亡人数是10000。有28个国家或地区在世界上有超过100万例新诊断病例。

流行病模型的结果接种天花疫苗研究的一篇论文中提出的丹尼尔·伯努利在1760年。数学模型研究始于二十世纪初。当Kermack McKendrick研究了1927年在伦敦黑死病流行,他们提议先生室模型。在分析传染病,先生有先决条件的数学模型。首先,它认为人口出生和死亡,这可能对人口规模产生影响,但影响是最小的。第二,爵士模型假定的敏感和受感染的人群有一定的流动性,和感染易感人口将迁移到人口的某些因素。最后,爵士模型假定受感染的人口将进入移民人口与一个固定的比例系数,和国家是不可逆转的。爵士是一种有效的传染病的仿真模型。除以人口结构分成三组,即易感,感染,和流离失所,我们可以简化传染病的传播规律,获得一个更精确的传染病传播定律。

传统爵士流行预测模型将人口划分为三类:那些没有生病,但有可能被感染,被感染的人,可以感染(),和那些已经痊愈或死亡(R)。然而,种群动态影响因素如出生、死亡、迁移和不考虑。人口是一个常数。

西珥与爵士模型相比,模型介绍了潜伏期并添加暴露在感染的潜伏期。健康的人接触到病人不生病,但作为病原体的载体,他或她E。这种机制非常符合新型冠状病毒预测。

国内外不同的团队使用统计模型对流行趋势预测研究,西珥模型提高了西珥模型,和机器学习模型;然而,预测结果有大的波动。学者西珥模型用来预测转折点和峰值。西珥的经典模型可以应用到任何类型的疫情,但必须考虑感染人才流动。修改后的西珥模型被用来适应和分析COVID-19的预测。然而,一个重要的区别是观察之间的预测结果与报道的国家健康委员会的人数因为预防和控制措施的影响的人没有考虑到。基于现有的防疫和控制措施,业内人士注册人员流动到西珥模型预测疫情以及得出结论的有效性旅游禁令。来自东南大学的研究人员发表了一篇论文在medRxiv评估COVID-19疫情的流行趋势和风险通过使用修改后的西珥模型。虽然有很多不确定因素的人员网络,西珥和修改西珥模型必须分析大量的参数,包括R0和去除率。在这方面,许多研究人员使用机器学习方法进行数据预测和随机森林方法将不同的城市划分为不同的预防和控制水平,为传染病预防和控制提供了一个良好的参考(4]。

与此同时,外国学者对疫情进行了许多研究。本文的主要研究目的和结果如下:(1)本文旨在分析和比较现有的机器学习算法在医学领域和找到最好的基于人工智能的算法模型来创建一个预测平台,防止和控制疫情。(2)本文旨在结合机器学习与物联网,物联网的平台COVID-19的预防和控制,基于传统的流行病模型。(3)本文旨在介绍设计COVID-19预测平台的数据收集、数据清洗、机器学习训练模型,和前置和后端框架。(4)仿真结果表明,预测由人工智能设计本文的随机森林模型更准确比逻辑回归和支持向量机(SVM)算法。

3所示。算法模型分析

本节回顾和比较了现有的机器学习算法用于医学领域,打算找出最合适的算法模型创建一个平台来预防和控制疫情的预测。

3.1。LogisticRegression

逻辑回归是一种常用的分类算法来解决二元分类问题。该算法在工业和医疗领域已经进行了广泛的研究,因为它不仅简单而且强大的可解释性。逻辑回归的本质是利用最大似然估计给定分布近似的参数(5]。迄今为止,逻辑回归已经应用于许多领域,其中有很多医疗场景(6]。不幸的是,这种算法不能解决非线性问题在医疗领域,虽然前景广阔卫生保健和大大在疾病诊断进行研究。通常,流行的预测并不是线性的,因此限制使用逻辑回归算法的流行预测。由于其形式简单,准确度无法保证,这使得拟合真实数据分布使用逻辑回归算法困难。因此,不推荐逻辑回归算法预测流行病[7]。

3.1.1。支持向量机

在深入学习算法的广泛应用机器学习算法,支持向量机被认为是小样本分类问题的优化方法。支持向量机是一种nonclustering技术可以计算飞机之外的距离。当给定的具体参数模型训练集被分配,支持向量机分类任务只响应数据的支持向量和没有关系维度。减少计算时间和存储需求,因为样本集的一个子集(8]。SVM分类器,最大间隔不同情况下它的主要指标。超平面的位置可以用来获得约束。换句话说,支持向量机主要用于确保正确分类的两个数据类型在未来。然而,约束需要之间的最大距离的分类线和点的最大可接受的误差范围之内。此外,支持向量机是一种基于技术,允许为高维空间转换使用内核函数。SVM超平面的结构解决方案可以解决二次规划问题,同时满足二元性和凸性的要求。事实上,求解凸优化问题,可以确定最优平面根据强对偶性(9]。

3.2。随机森林

使用对象属性和关系的决策树构建树状图,可以用概率分析。每个分支的决策树是一个预测的方向图,并且每个叶节点表示最终的预测结果。决策树预测模型将数据分为不同类别使用不同的对象类,允许决定信息直观地显示在决策过程(10]。相反,一个决策树容易过度拟合,导致可怜的泛化能力。当一个决策树进行特征选择,分类是实现基于最合适的特征(11]。已知,大多数分类的关键决策应基于一组特性,而不是一个特定的功能。结果,当处理疫情数据与大规模和多个特性等特点,传统的决策树算法是无效的12]。随机森林于2001年提出,已经被广泛用于分类和回归。提高分类效率,随机森林创建模型使用装袋方法结合决策树(13]。因为每一个决策树训练使用一组独立的随机样本,采用随机属性选择,他们之间没有相关性。当一个新的样品需要做出决定,在森林里每棵树是投票表决,多数投票类型被选中作为样本类型(14].Figure1介绍了随机森林分类方法。

假设模型的输出向量长度是3,概率向量可以首先通过训练多个集的决策树模型,和最终的输出可以由平均多组的概率值。在回归问题中,随机森林算法也可以使用。然而,过度拟合的决策树算法可能也是一个障碍。通过增加数量的决策树,随机森林可以防止过度拟合模型。同时,随机森林分类器可以处理缺失数据,该方法适用于分析大数据的流行环境中数据收集是很困难的。因此,流行预测模型在本文设计的基于随机森林算法。

作为提出了inTable1小型集群,支持向量机是有限的样本,其效率是低的时候有太多的观察样本。逻辑回归算法对模型的多重共线性的独立变量。减少候选人变量之间的关系,重要的是要选择使用因子分析代表独立变量或变量聚类分析。可以处理高维数据(即随机森林。,data with many characteristics) and does not require feature selection. It has excellent anti-interference and overfitting capabilities. In conclusion, for the input of epidemic data of a large order of magnitude, random forest algorithm is the most suitable.

随机森林算法是一种监督学习算法,它使用一个叫做装袋算法结合许多决策树和分类通过投票机制。训练速度快的优点,泛化能力强,良好的分类性能。以下介绍了决策树,然后随机森林算法作为本文的数学基础。(1)决策树:决策树,也称为分类和回归树(CART),可以用来描述不同的类或值后输出输入的一组功能。决策树是一个树结构。每个内部节点、分支和叶子节点代表一个不同的属性的测试,测试输出,或最终的测试结果。假设 是一个输入向量包含吗 特性和输出值, 是一个训练集,其中包含n观察 ,在哪里 在培训过程中,该算法将输入每个节点上。首先,CART算法递归地将输入空间 到两个不同的分支: 为了更好的部门, 应该最小化代价函数,通常的方差子节点。节点的方差 定义如下: 在哪里 表示的平均值 在节点 然后将子节点以同样的方式。树将会停止当达到的最大数量的水平或观察中包含一个节点的数量低于预定的号码。在培训结束时,预测函数 基于 将成立: (2)随机森林:随机森林算法使用引导抽样法来提取多个样本原始样品。它创建一个基于每个引导决策树模型样本。然后结合多个决策树的预测,并最终结果由投票决定。随机森林回归预测是一个重要因素,包含了许多薄弱。随机选择 观测数据从原始数据集所取代 获得一个引导样本。随机森林算法选择几个引导subdatasets ,然后车适用于这些subdatasets,构造一些树木,和得到一个预测函数,如(4)。

假设训练集是来自独立同分布随机向量 , 表示输入向量, 代表输出向量;然后,均方预测的泛化误差的输出 如下:

预测平均获得的随机森林回归的输出 决策树 ,下面的定理。

定理1。 ,

马克的部分(6), ,这是随机森林的泛化误差。每个决策树的平均泛化误差PE可以定义如下:

定理2。对所有 ,

的方程, 是剩余的加权相关系数 , 是相互独立的。

定理2提供了条件,获得一个精确的回归森林:低误差残差相关性低,决策树。随机森林回归算法降低了决策树的平均误差加权相关系数

随机森林回归算法的步骤可以概括如下:让 是一个随机参数向量,和相应的决策树 的域 ;也就是说, ,在哪里 表示自变量的维数。每个决策树的叶节点对应于一个矩形空间。记住每个叶节点的矩形空间 为每一个 ,当且仅当一个叶子节点满足 ,决策树的叶节点

步骤1。使用引导方法重新取样;随机生成 训练集 ;并使用每个训练集生成相应的决策树

步骤2。假设该特性 维度,随机抽取 的特性 - - - - - -维特征分割特性集的当前节点,并将节点的最佳分割方法中 特性。一般来说,森林的生长期间,的价值 保持不变。

步骤3。每个决策树得到的最大增长没有修剪。

步骤4。新数据,一个决策树的预测 可以获得的平均叶节点的观测值吗 如果一个观测值 属于叶节点 而不是0,让体重 权重之和等于1。

第5步。一个决策树的预测是通过观测值的加权平均的因变量 测量值的一个决策树可以获得使用以下方程:

步骤6。使用(11)每个观测获得的重量平均决策树的重量 : 然后,随机森林回归的预测价值可以被记录如下: 随机森林算法的流程图如图2

4所示。预测平台设计

鉴于全球COVID-19传播流行在2020年初,我们设计了一个基于机器学习的防疫和控制平台。这个项目的应用程序包括病人数据分析、疫情的早期检测和预警,快速筛选的疑似病人,和远程诊断和治疗。病人数据分析应用程序服务必须提取病人的数据信号相关检测,并通过知识地图平台分析数据在许多方面协助诊断,大大加速病毒的诊断。早期发现和早期预警的应用服务疫情需要进行定期和定点调查疾病的数据在不同的地区,使用知识地图进行深入分析,准确掌握疫情的预警。快速筛选应用服务对疑似病人从城市基础设施传感器和定点传感器收集数据。平台将匹配数据病毒的早期症状,和人暴露于病毒和工作在高危工作将得到特别关注下实现最佳的资源分配重量。远程诊断和治疗应用服务回家隔离人员,尤其是疑似或密切接触人员,可以很容易地和迅速进入他们的信息,实现高效、实时远程诊断和控制疫情,和普通病人可以访问在家里通过远程诊断和治疗功能,避免去医院,减少感染的风险。基于机器学习的防疫和控制平台设计在本文中实现的多进程一体化调查、预警、诊断、治疗后的爆发流行达到统一的分析各种数据,精度的特点,智力和易学性。平台架构提出了图3

在系统的整体集成,内部集成的建设单位应当做到第一,然后是集成不同的建设单位应当根据不同系统的接口定义进行了施工单位和强到弱的顺序耦合或操作限制。接口定义方法的总体设计应使用引用各种系统的集成在每个施工单位。建设单位内的各种子系统的接口是明确定义的。在此基础上,集成单元内和不同单位之间可以按照两种整合序列,可以交叉和共存:耦合的强度和限制操作的前提。分解之间的集成可用于集成特定单位。分解集成部分,结合本单位和其他单位的有关单位的形式分解单位降低集成的复杂性和方便的定位问题。集成和有关单位之间的整体集成测试每个分解单元完成后必须进行集成与特定的集成目标。同时,设备和软件产品必须选择具有良好的互连和互操作性。此外,必须注意在开发应用软件的交互与其他产品保持一致性。特别是,一个数据库的选择需要异构数据库的无缝连接。 The integrated system shall be convenient for expansion due to increased demand in the future.

4.1。数据源

数据源参与这个项目只包括硬件平台,访问的客户端,输入的数据和数据的原始医院系统(他的,电子病历、pac和RIS),而传输数据的类型包括用户的体征数据,基本信息数据、信息交互数据,医疗数据,宣传医学知识地图的数据。医学知识地图包含至少5000常见病数据和1000年病毒相关数据。这个项目涉及结构化、半结构式和非结构化数据。从医学的角度数据存储、医疗行业的整体数据存储容量主要是1-50结核病,和医疗机构之间有显著差异。医疗数据的时间周期,医疗记录通常保留很长一段时间,和在线时间的要求是高于其他行业。门诊和急诊记录的保留时间不得少于15年,和住院病人医疗记录的保留时间长(约30年)。一些名人的医疗记录将保持下去。数以百计的图像数据必须存储和访问期间患者的诊断活动。一般来说,临床电子病历数据使用一个XML文件格式符合标准,但文件格式将继续发展。医疗数据存储在医学数据库两个来源:一是底层硬件的获取和输入,另一个是数据分析产生的医疗数据中心。 These data will be stored in a structured format, and if they are retrieved, they will be subject to permission access control. After granting access, the system will also collect visitor information to ensure the privacy, security, and traceability of medical data.

4.2。数据访问

更低的医疗传感器由传感设备、终端设备、信息操作和维护设备使用移动医疗感知技术。无线传感技术、身体区域网络技术、通讯技术、终端直通远程医疗技术和定位技术,监测网络芯片技术和生理信号采集与处理技术是此类技术的例子。具体来说,较低的传感器设备主要由医疗传感器设备、终端设备、信息操作和维护设备和用于数据收集和输入的预测平台。一般来说,非结构化的医疗数据更为严重和可能影响数据库的存储质量。本文中描述的平台可以处理硬件设备从不同的生态环境中,数据结构使用算法和输出数据。由于非结构化移动医疗终端的多样性,预测平台我们设计了支持多种访问技术和网络的方法。通过收集多个现有移动医疗终端形成一个增强的虚拟终端,可以基于用户预测平台。它所在的环境自动选择一个合适的终端设备访问一个特定的无线网络和形成一个多端协作医疗终端系统通过虚拟终端由多个终端。协调访问、连接、传输和管理多个异构网络资源被称为multinetwork协调。因为不同的医疗系统使用不同的异构网络传输和使用多种无线接入技术,重要的是要克服单一网络的局限性为多个现有移动医疗终端以达到更准确和及时的传染病预测。

4.3。多平台、多系统数据标准化处理和智能分析

之前输入的数据为随机与森林有关的预测平台设计在这个研究中,数据需要预处理促进神经网络的训练和预测。数据归一化主要是指实验样本数据的分布区间[0,1]或[−1,1]通过多平台、多系统和异构医疗大数据,以便实验样本数据进行分析。是无量纲的信息。当收集实验数据样本,这个平台将产生独特的示例数据(奇异样本数据指的是巨大的样本向量生成相对于其他输入样本数据)。通过这个,问题的梯度爆炸和随后的减少学习速率是可以避免的。根据数据输入要求的人工智能模型和神经网络,一个适当的归一化法对健康大数据中应该选择的三种常用的归一化方法:min-max标准化、z分数标准化方法,简化和z分数。此外,应该分析慢性疾病数据的智能分析。

4.4。数据安全与隐私保护方法

这种预测平台的安全体系结构主要包括应用层安全、传输层安全、和感知层安全。感知层的安全策略主要包括设备认证、数据加密、安全编码、安全协议和访问控制。漏洞扫描等安全策略,主动防御安全协议,网络过滤和授权管理大多是在传输层。应用程序层主要包括安全策略和方法如安全审计、入侵检测、热机器灾难恢复、虚拟隔离、云杀毒,用户权限和安全管理。平台安全体系结构呈现在图4

5。RegressionValidation

新设计的摘要COVID-19预测平台包括以下五个部分:数据收集、数据清洗、机器学习训练模型,引导+ Vue前端框架,和Django端框架。

5.1。数据收集andData清洁

在模型训练之前,数据收集和数据清洗。数据集包含43特征值,包括单核细胞百分比,单核细胞数、淋巴细胞计数、血小板分布宽度,和标签的列表值。随机数据集分为训练集和测试集20% 80%使用Numpy矩阵运算库和熊猫图书馆基于Numpy进行数据处理。流程如图5

5.2。机器学习训练模型

训练模型创建使用逻辑回归算法,支持向量机,随机森林。训练集和测试集都有参数传递设置(15,16]。机器学习的主要目标是获得一个预测模型,挖掘历史训练数据的固有模式,然后将模型应用于类似的数据情况(17,18]。一般的工作流图呈现在图6

6,模型训练机制和预测精度是模拟和比较。

5.3。引导+ Vue前端框架

模型训练完成后,模型可视化进行了比较。登录和注册页面如图7。进行合法性验证,电子邮件和密码必须输入和发送回服务器。从注册页面注册信息发送到后台通过一个POST请求并保存在数据库中使用Django ORM模型。默认注册普通用户只能执行检测功能。进入系统后,相关的界面就会出现,这就需要患者不重复数字和介绍了所有患者的预测信息。用户点击“检测”按钮后在左上角,检测模型框将会出现。用户必须输入病人信息,如病人是否有发烧或COVID-19,以及血常规检测结果。预测的数据将被发送到后台处理,将返回结果。

5.4。Django端框架

Django的背景主要是用于提供前端接口请求和返回值所需的前端模板,以及管理用户权限。

数据,包括用户模型、用户详细信息和前端主页显示信息,通过ORM模型存储在数据库中,回到前台(图7)。

6。ModelPrediction模拟

本文仿真是基于流行包含40多个类型的特征数据的数据集,包括淋巴细胞百分比、分类是否疾病分类,设置五个中产训练随机森林模型和神经的未来,准确性和其他特征进行比较,得出结论。

6.1。仿真分析

一旦模型完成后,每个算法所需的参数,如树数量和最大深度模型,需要调整。

数据89上述参数的影响的随机森林模型在测试集上训练精度,分别。两个参数同时调整实际参数调优过程中选择最好的一套测试精度。同时,相同的参数调优过程应用于其他培训模型,这曲调的参数对每个最优算法精度影响最大的选择和保存最好的参数值作为局部模型。最后,仿真结果,预计的数据集使用真正的病人信息如下所示。

如图10- - - - - -12选择,随机森林作为预测分析在这种情况下最好的方法与其他方法相比,每一种都有其优点和缺点。在数据10- - - - - -12,红色的线表示积极的概率,和黑色线条代表消极的概率。

6.2。仿真原理的随机森林

该算法使用随机抽样的替代方法来选择训练集,并建立相应的分类器。此外,多个决策树建立和合并为更精确和稳定的预测。最后,选择最优的分类结果。

通过投票,随机森林算法的原理图13

随机森林是引导的基础。相同大小的,许多新的样品和可用性生成的示例中,生成和类似的样品从那些已经被创建。引导程序也被称为一个自助方法,因为它不使用任何其他示例数据19]。当样本容量小,该方法被认为是有用的。如果传统的方法用于验证和分割,样本容量将会更小,导致更大的偏差和nonoptimal解决方案(20.]。自助方法不仅不能减少训练样本的大小也离开了。

一套验证:随机森林算法的集成装袋和决策树。经过多次取样、部分不能提取训练集样本。这些未取样的数据被称为包(OOB)。OOB不加入训练集的拟合模型,使其适用于检测模型的泛化能力(21,22]。

7所示。结论

摘要基于人工智能比较COVID-19预测算法。基于考虑各种约束和预测结果精度特点,建立了一个预测平台。通过仿真,发现随机森林具有显著优势在流行预测逻辑回归和支持向量机。它将执行应用于医疗平台设计时令人钦佩。同时,辛格提出使用无人机[23)基于区块链COVID-19环境中实现非接触式传输(24,25]。类似的应用场景,如(26)将成为下一个平台的发展方向和努力支持更多的应用程序开发流行环境中基于预测分析(27]。

数据可用性

病人数据用于支持本研究的发现受到南京医科大学第一附属医院为了保护病人的隐私。数据可从南京医科大学第一附属医院为研究人员符合标准访问机密数据。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家重点研发项目(2018 yfc1314900)和江苏的主要研发项目(BE2020721)。