CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi 10.1155 / 2021/2203636 2203636 研究文章 小说COVID-19鉴定生物标记由多个特征选择策略 https://orcid.org/0000 - 0002 - 5824 - 7546 1 https://orcid.org/0000 - 0002 - 2567 - 789 x 根本 1 https://orcid.org/0000 - 0002 - 0282 - 8536 Pengyan 1 https://orcid.org/0000 - 0002 - 4472 - 3986 Shenghan 2 1 临床实验室的部门 烟台山医院 烟台 山东 中国 264000年 2 微生物实验室的部门 烟台芝罘区疾病控制和预防中心 烟台 山东 中国 264000年 2021年 27 9 2021年 2021年 11 6 2021年 20. 8 2021年 27 9 2021年 2021年 版权©2021帅Zhang et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

冠状病毒疾病2019 (COVID-19)引起的严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2)导致了自2019年12月首次报告全球大流行。到目前为止,SARS-CoV-2核酸检测被视为COVID-19诊断的金标准。然而,这种检测方法往往会导致假阴性,因此引发了COVID-19诊断。因此,迫切需要寻找新的生物标记物来增加COVID-19诊断的准确性。探索新的生物标志物的COVID-19在这项研究中,表达谱是首先从GEO数据库访问。在此基础上,筛选了500个功能基因minimum-redundancy maximum-relevancy (mRMR)特征选择方法。之后,增量特征选择(IFS)方法被用来从不同特性选择最佳性能的分类器以基因为基础的支持向量机(SVM)分类器。66年相应的功能基因设置为最优特性的基因。最后,最优功能基因进行功能富集分析,主成分分析(PCA)和蛋白质相互作用网络分析(PPI)。总而言之,它是指出,66年的功能基因能有效地分类积极和消极COVID-19和工作新疾病的生物标记物。

2020年烟台科技创新发展计划(特殊项目新型冠状病毒肺炎的预防和控制传染病) 2020年yjgg003
1。介绍

严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2)是一种积极意义单链RNA病毒(+ ssRNA病毒),引发了2019年全球冠状病毒病(COVID-19)流行病[ 1]。大多数<我talic> α和<我talic> β冠状病毒可能会导致轻微的流感样症状,而SARS-CoV-2感染可导致严重急性呼吸系统综合症( 2]。

antiepidemic事务COVID-19诊断是至关重要的一步。迄今为止,一些商业化SARS-CoV-2检测试剂盒获得紧急使用授权(协会)的美国食品和药物管理局(FDA),如存在化验(病毒)的特定序列检测,抗体测定(抗病毒抗体检测血清免疫球蛋白和IgM),和侧流试验(检测病毒抗原)。存在分析是广为接受的最可靠的方法和作为COVID-19诊断的金标准。然而,分析并不完美。敏感性的存在往往依赖于样本的病毒负荷,因此很容易造成假阴性结果。例如,保存不当导致病毒RNA样本退化;不合适的样本收集导致病毒RNA不足;或病毒负荷不足的患者样本中SARS-CoV-2感染的早期阶段( 1]。因此,迫在眉睫的是提出了一个新颖的COVID-19诊断方法提高特异性和敏感性。由于各种复杂的生物反应发生在病人的感染网站SARS-CoV-2感染期间,它可能是一个新奇的想法COVID-19诊断检测的几个关键基因在样品同时结合多种基因的表达。

机器学习可以根据已知的数据和预测未知数据被广泛应用于生命科学领域( 3]。支持向量机(SVM)作为一种机器学习方法,决定了病人的预后,药物疗效,肿瘤分类基于一个已知的基因表达谱( 4]。算法的基本原理是创建决策边界从已知数据和基于决策边界未知的数据进行分类。2017年,徐et al。 5)建立了一个15-gene-based分类器和有效地使用分类器预测术后结肠癌的发生。总之,支持向量机是一种高效的生物信息学方法分类。在这项研究中,应用生物信息学分析我主要特征基因的表达谱COVID-19正负样本。表达谱的基因是由功能重要性排名通过minimum-redundancy maximum-relevancy (mRMR)方法。SVM分类器不同的特征基因集的构造,和66年最佳功能基因筛选的增量特征选择(IFS)方法。最后,主成分分析(PCA)和功能富集分析是用来确定这些特性基因可以作为小说COVID-19的生物标志物。

2。材料和方法 2.1。表达谱和研究设计

在目前的研究中,表达谱(GSE152075)从基因表达综合下载(GEO)数据库( https://www.ncbi.nlm.nih.gov/geo/)。表达数据通过GPL18573 Illumina公司NextSeq 500(智人)测序平台,包括mRNA咽喉拭子样品的测序结果54 - 430 + COVID-19。矩阵,基因表达<我nline-formula> 平均 价值 < 1 和<我nline-formula> 最大 价值 < 5 被删除。其他基因的标准化使用磨边机方案,并取得了16032个基因( 6)(补充表 1)。生物信息学分析流程图如下图设计 1

生物信息学分析的流程图。

2.2。特征基因选择

功能基因与mRMR排名方法。mRMR获得特征值通过计算最大相关性和最小冗余 7]。马克斯相关性满足以下公式: (1) 马克斯 D 年代 , c , D = 1 年代 x 年代 x ; c

高冗余可能存在根据马克斯所选基因的相关性。因此,切除特征对分类结果不会有多大影响。进一步屏幕相对独立功能,最小冗余包括到特征值的算法。最小冗余满足以下公式: (2) 最小值 R 年代 , R = 1 年代 2 x , x j 年代 x , x j

在上面的公式(1)和(2),<我nline-formula> 年代 特性集,<我nline-formula> x 是功能,<我nline-formula> c 是分类。

算法相结合最大相关性和最小冗余被任命为mRMR和被定义为 (3) 马克斯 Φ D , R , Φ = D R

mRMR算法程序从网站下载( http://home.penglab.com/proj/mRMR/)。功能基因表达谱与下载的程序和排名得分得分。

2.3。筛选最优特性的基因

IFS进行进一步选择最优特性基因( 8]。特性集<我nline-formula> F (<我nline-formula> F = f 1 , f 2 , f 3 , , f N ,<我nline-formula> N 范围从1到500)首次建造。后来,相应的每个子集构造基于SVM分类器<我nline-formula> F 使用python包<我talic> sklearn。支持向量机是一种有效的分类器构造方法( 4]。具体方法是创建一个决策两种类型之间的界限以预测输入样本的类型。决定边界或超平面,定义距离最近的数据网站(称为支持向量)尽可能多的在每一个类。具体算法如下所示: (4) x 1 , y 1 , , x n , y n , x R d , y 1 1 , + 1

x 特征向量和吗<我nline-formula> y 是在训练集的类(正面或负面)。最优超平面的定义如下: (5) w x T + b = 0

w 权向量,<我nline-formula> x 是输入特征向量,然后呢<我nline-formula> b 偏差。这两个<我nline-formula> w 和<我nline-formula> b 满足下列条件: (6) w x T + b + 1 , ⅈf y = + 1 , w x T + b 1 , ⅈf y = 1

w 和<我nline-formula> b 由输入特征向量和类在训练集分类预测集。由于样本不平衡,python包吗<我talic> imblearn被用来放大小样本的数量一样大的样品( 9]。不同特性集作为训练集,训练模型进行构建一个支持向量机分类器对每个集合。建立了分类器的性能分析评估了交叉验证(LOOCV)和马修斯提出的相关系数(MCC)。MCC的皮尔森相关系数的实际值和预测值由混淆矩阵计算方法。世纪挑战帐户集团值是- 1和+ 1之间。MCC值接近+ 1意味着准确预测,接近于0意味着没有比随机预测,和接近1意味着分歧之间的预测和实际观察( 10]。一系列的MCC值对应不同的特性集是通过假设。IFS曲线绘制了MCC的价值<我nline-formula> y 设在和功能设置<我nline-formula> x 设在。最高的训练集MCC IFS的价值曲线选择和基因在这组被设置为最优特性的基因。

2.4。主成分分析

PCA主要适用于探索性空间数据分析和预测模型建设 11]。这种方法可以减少高纬度的维度数据。每个数据网站映射到简单,后者主要组件,和不同程度的每个数据网站尽可能地保存。在目前的研究中,第一和第二主成分的最佳特性基因R包<我talic> FactoMineR( 12]。表达数据基于这两个维度的高纬度地区功能基因被映射到一个二维平面PC1和PC2组成。

2.5。富集分析

基因本体论(去)富集分析最优功能基因筛选通过IFS使用R包<我talic> clusterProfiler( 13]。分类结果的生物过程(BP),细胞组件(CC)和分子功能(MF)。

2.6。蛋白质相互作用网络分析(PPI)

PPI网络分析(<我nline-formula> 最低 要求 交互 分数 = 0.7 ;其他人则默认参数)进行了最优功能基因筛选的IFS使用字符串( https://www.string-db.org/)数据库( 14]。最高的一组连接在PPI网络(主要集)被发现在Cytoscape使用MCODE插件。去进行富集分析主要集中在PPI网络通过在Cytoscape GlueGO插件。

3所示。结果 3.1。特征基因选择

基因表达谱的正面和负面的COVID-19咽喉拭子从GEO数据库访问。总之,16032个基因被标准化(补充表获得 1)。挖掘小说COVID-19从这些基因的生物标记物,表达谱基因被mRMR排名的表达功能。此后,排名前500的基因(补充表 2)被用于随后的基因筛查的最佳特性。

3.2。筛选最优的功能基因和富集分析

最优特征基因由IFS方法。特性集<我nline-formula> F (<我nline-formula> F = f 1 , f 2 , f 3 , , f N ,<我nline-formula> N 范围从1到500)是由500年的筛选功能基因,和一个支持向量机分类器对应每组也建立了。IFS曲线绘制了MCC的SVM分类器的价值<我nline-formula> y 设在和功能基因的数量<我nline-formula> x 设在(图 2(一个))。根据IFS曲线,前66名的MCC价值功能基因(补充表 3)是作为训练集。66强特性以基因为基础的支持向量机分类器的分类效果提出了MCC的值:0.894,灵敏度:0.991,特异性:0.889,和准确性:0.979。因此,排名前66的功能基因设置为最优特性的基因。接下来,去富集分析排名前66的功能基因。结果显示如下:在BP模块中,这些基因主要是丰富的蛋白质定位内质网,SRP-dependent cotranslational目标蛋白质膜,和cotranslational蛋白质定位膜。在CC模块中,这些基因主要是胞质核糖体丰富,核糖体亚基,核糖体。在曼氏金融模块,这些基因主要富集在核糖体的结构组成(图 2 (b))。富集分析展出,这些大多是核糖体蛋白相关的功能基因,蛋白质分泌,和膜的位置。

筛选最优特性的基因。(a) IFS SVM分类器的性能评估基于不同群体的特征基因。<我nline-formula> x 设在:功能基因数量;<我nline-formula> y 设在:MCC价值。(b)泡沫块去浓缩分析最优特性的基因。分类结果包括英国石油(BP)、CC、CF。

3.3。主成分分析

主成分分析对样本作证是否最优特征基因可以有效的正面和负面的样本进行分类。之间的明显分离被发现正示例集群(绿色三角形)和负示例集群(红圈)在二维平面PC1和PC2(图组成 3)。是照亮最优特征基因能有效区分正面和负面COVID-19。

主成分分析。主成分分析最优特性的基因。绿色的三角形指积极的样本。红圈是指负样本。

3.4。PPI网络分析

探索最优特性的基因之间的相互作用,PPI网络分析字符串进行( https://www.string-db.org/)数据库。最大设置在PPI网络构造选择使用MCODE插件(18节点,153行)(图 4(一))。进一步探索丰富的生物功能特性基因的选择集,18日去分析基因。这些基因被发现主要富集在胞质大核糖体亚基,polysomal核糖体,病毒基因表达,SRP-dependent cotranslational目标蛋白质的膜。这表明这些基因与核糖体蛋白质编码,病毒蛋白质翻译、和蛋白质膜的位置(数据 4 (b) 4 (c))。

PPI网络分析。(一)主要设置选择从PPI网络使用MCODE基于最优特征基因。(c)富集分析与ClueGO主要选择集。<我nline-formula> p < 0.01

4所示。讨论

在目前的研究中,mRMR特征选择方法已应用于屏幕前500功能的基因。66强最优功能基因筛选通过IFS方法和工作作为COVID-19的生物标志物。与传统的诊断方法相结合,一个相对新颖的长大。传统方法通常检测SARS-CoV-2核酸,抗原和抗体。尽管,我们提供一组专门表达基因在人类感染部分SARS-CoV-2感染期间,这些基因被COVID-19的生物标志物。这种诊断方法之间的差异和传统的(我)小说COVID-19标记是人类基因和(2)诊断方法区分正面或负面的样品通过检测多个基因,而传统方法只能检测到一个核酸片段或SARS-CoV-2抗体。以下是讨论最优特性的基因。

OAS2是顶级功能基因。<我talic> OAS2属于人类的2<我nline-formula> 5<我nline-formula> -oligoadenylate合成酶家族参与非特异性免疫在病毒感染通过干扰素诱导和降解病毒RNA ( 15]。与此同时,<我talic> OAS2据报道,高度表达积极COVID-19病人和作为候选药物靶标COVID-19治疗( 16- - - - - - 18]。根据引用和我们的生物信息学分析,推测<我talic> OAS2可能在SARS-CoV-2感染起着重要的作用。<我talic> RPLP0和<我talic> RPL15也是顶级的最佳特性的基因。他们编码不同的核糖体蛋白质<我talic> 在活的有机体内参与合成60和40 s核糖体亚基。核糖体<我talic> 在活的有机体内由一个小40 s亚基,一个大60 s亚基,和一些核糖体rna,与不同的核糖体蛋白质组成两个亚基( 19]。除了<我talic> RPLP0和<我talic> RPL15还有其他核糖体蛋白质编码基因(<我talic> RPLP1,<我talic> RPL10A,<我talic> RPL3,<我talic> RPL30,<我talic> RPL13,<我talic> RPL4,<我talic> RPL18,<我talic> RPL32,<我talic> RPL35),所有参与合成核糖体亚基。几项研究表明,非结构蛋白SARS-CoV-2(如<我talic> NSP1,<我talic> NSP16,<我talic> NSP8,<我talic> NSP9)结合核糖体亚基或核糖体RNA抑制非特异性免疫与信使核糖核酸的翻译与干扰素分泌( 2, 20., 21]。因此,推测SARS-CoV-2感染可能在很大程度上影响ribosome-related基因的表达干扰蛋白质的翻译和分泌与人类免疫功能有关。可以看到,这些特性与生物功能相关基因在SARS-CoV-2感染,证明我们的筛选功能基因COVID-19适合作为生物标志物。

富集分析66功能基因和主要设置在相应的PPI网络显示,这些基因主要是丰富的核糖体亚基,SRP-dependent cotranslational蛋白质定位膜。SARS-CoV-2可能影响核糖体合成、蛋白质翻译、和蛋白质的分泌细胞在病人的部分转录组水平的影响。同时,分析结果符合什么Banerjee等人发表在《细胞》杂志2020年11月( 20.]。这项研究表明,<我talic> NSP8和<我talic> NSP9蛋白质SARS-CoV-2绑定信号识别颗粒(SRP)核糖体的大亚基,抑制细胞膜上的蛋白质。此外,功能基因主要富集在SRP-dependent cotranslational蛋白质定位膜和大核糖体亚基。

特别是,许多研究都采用类似的分析方法研究。例如,程et al。 22]2020年筛选31日可以使用基于单细胞mRMR标记RNA序列数据从恶性神经胶质瘤和使用SVM作证的诊断性能31基因。徐et al。 23)建立了一个预测模型在肝内胆管癌术前淋巴结状态评估使用mRMR和支持向量机。可以看出,该方法可广泛用于预测或不同疾病的诊断。

总的来说,66年由多个特征选择最优功能基因筛选策略。这些基因的有效性作为COVID-19生物标记被富集分析证实,PPI网络分析和主成分分析。与此同时,一些最优特性与生物功能相关的基因被报道<我talic> 在活的有机体内在SARS-CoV-2感染。因此,我们的研究结果可以应用不仅COVID-19的准确诊断,而且对治疗指导。然而,这项研究仍然存在局限性。例如,我们不使用丰富的临床样品作证分类器的分类性能。因此,这些基因的应用价值COVID-19生物标志物在实际诊断仍然是模糊的。我们计划去收集大量临床样本和诊断通过传统和新方法比较的影响。

数据可用性

(数据类型)的数据用于支持本研究的结果中包括这篇文章。

同意

所有作者同意提交出版的手稿。

的利益冲突

作者宣称他们没有潜在的利益冲突。

作者的贡献

所有作者导致数据分析、起草和修改文章;最终批准的版本发布;并同意负责所有方面的工作。帅张和瞿根本贡献同样这项工作。

确认

这项研究是由2020年烟台科技创新发展计划(特殊项目新型冠状病毒肺炎的预防和控制传染病),项目编号:2020 yjgg003。

补充材料

补充表1:标准化后获得的基因。

补充表2:前500功能基因筛选后mRMR方法。

补充表3:IFS 66强功能基因筛选方法。

Yuce M。 Filiztekin E。 Ozkaya k·G。 COVID-19诊断——回顾当前的方法 生物传感器和生物电子学 2021年 172年 112752年 10.1016 / j.bios.2020.112752 托马斯 M。 Buschauer R。 Ameismeier M。 Koepke l 德克 T。 Hirschenberger M。 Kratzat H。 Hayn M。 Mackens-Kiani T。 J。 Straub j . H。 Sturzel c . M。 Frohlich T。 Berninghausen O。 贝克尔 T。 基尔霍夫 F。 争吵 k·m·J。 贝克曼 R。 结构性基础平动关闭和SARS-CoV-2 Nsp1蛋白免疫逃避的 科学 2020年 369年 6508年 1249年 1255年 10.1126 / science.abc8665 32680882 克鲁兹 j . A。 wishard d S。 机器学习在癌症中的应用预测和预后 癌症信息学 2007年 2 59 77年 19458758 年代。 N。 帕切科 P P。 Narrandes 年代。 Y。 W。 应用支持向量机(SVM)在癌症基因组学学习 癌症基因组蛋白质组学 2018年 15 1 41 51 10.21873 / cgp.20063 2 - s2.0 - 85040177449 29275361 G。 M。 H。 J。 15-gene签名结肠癌复发和预后的预测基于SVM 基因 2017年 604年 33 40 10.1016 / j.gene.2016.12.016 2 - s2.0 - 85008240306 27998790 罗宾逊 m D。 磨边机:bioconductor包微分表达式数字基因表达数据的分析 生物信息学 2010年 26 1 139年 140年 10.1093 /生物信息学/ btp616 2 - s2.0 - 75249087100 19910308 H。 F。 C。 基于互信息的特征选择:标准max-dependency, max-relevance, min-redundancy IEEE模式分析与机器智能 2005年 27 1226年 1238年 10.1109 / TPAMI.2005.159 2 - s2.0 - 24344458137 棕褐色 j . X。 f . Y。 Lv H。 p . M。 H。 蛋白质鉴定噬菌体病毒粒子通过两步特征选择方法 分子 2018年 23 10.3390 / molecules23082000 2 - s2.0 - 85053593258 Mishra 年代。 处理不平衡数据:击杀和随机采样 国际研究工程与技术杂志》上 2017年 4 Chicco D。 Jurman G。 马修斯相关系数的优点(MCC)在F1的分数和准确性二进制分类评价 BMC基因组学 2020年 21 1 6 10.1186 / s12864 - 019 - 6413 - 7 31898477 Ringner M。 主成分分析是什么? 自然生物技术 2008年 26 3 303年 304年 10.1038 / nbt0308 - 303 2 - s2.0 - 40449141013 年代。 Josse J。 小量 F。 FactoMineR: R包进行多变量分析 杂志的统计软件 2008年 25 1 1 8 G。 l·G。 clusterProfiler: R包比较生物主题之间的基因簇 组学 2012年 16 5 284年 287年 10.1089 / omi.2011.0118 2 - s2.0 - 84860718683 22455463 Szklarczyk D。 山墙 a . L。 里昂 D。 Junge 一个。 零八 年代。 Huerta-Cepas J。 Simonovic M。 Doncheva n . T。 莫里斯 j . H。 博克 P。 詹森 l . J。 仅仅是 c。 字符串v11:蛋白质协会与覆盖面,增加网络支持功能在全基因组发现实验数据集 核酸的研究 2019年 47 D1 D607 D613 10.1093 / nar / gky1131 2 - s2.0 - 85059797047 30476243 Hovnanian 一个。 Rebouillat D。 加尼姆 m·G。 莱维 e·R。 玛丽 我。 摩纳哥 答:P。 Hovanessian a·G。 人类的2<我nline-formula> ,5<我nline-formula> -oligoadenylate合成酶轨迹是由三个不同的基因集群q24.2编码100 - 12号染色体上的69年,40-kDa形式 基因组学 1998年 52 3 267年 277年 10.1006 / geno.1998.5443 2 - s2.0 - 0032531248 9790745 Vishnubalaji R。 沙斯 H。 Alajez n·M。 蛋白质编码和长非编码RNA (lncRNA)转录景观SARS-CoV-2感染支气管上皮细胞突出干扰素和炎症反应的作用 基因(巴塞尔) 2020年 11 10.3390 / genes11070760 普拉萨德 K。 Khatoon F。 拉希德 年代。 阿里 N。 AlAsmari 答:F。 艾哈迈德 m Z。 Alqahtani 答:S。 Alqahtani m . S。 库马尔 V。 针对中心COVID-19先天免疫反应的基因和途径:网络生物学角度 国际期刊的生物大分子 2020年 163年 1 8 10.1016 / j.ijbiomac.2020.06.228 32599245 沙斯 H。 Vishnubalaji R。 Elkord E。 Alajez n·M。 单细胞转录组分析突出了角色的中性粒细胞和巨噬细胞炎症严重COVID-19的发病机理 细胞 2020年 9 10.3390 / cells9112374 X。 w·J。 j . M。 P。 H。 核糖体蛋白质:功能超出了核糖体 分子细胞生物学杂志》上 2015年 7 2 92年 104年 10.1093 / jmcb / mjv014 2 - s2.0 - 84929849018 25735597 巴纳吉 答:K。 SARS-CoV-2扰乱了拼接、翻译、和蛋白质抑制宿主防御贩卖 细胞 2020年 183年 1325年 1339年e1321 10.1016 / j.cell.2020.10.004 舒伯特 K。 Karousis e . D。 Jomaa 一个。 Scaiola 一个。 埃切维里亚 B。 Gurzeler l。 Leibundgut M。 泰尔 V。 Muhlemann O。 禁止 N。 SARS-CoV-2 Nsp1结合核糖体mRNA通道抑制翻译 《自然结构和分子生物》上 2020年 27 10 959年 966年 10.1038 / s41594 - 020 - 0511 - 8 32908316 Q。 J。 风扇 F。 H。 z Y。 z Y。 美国年代。 胶质母细胞瘤的识别和分析基于单细胞测序的生物标志物 在生物工程和生物技术前沿 2020年 8 167年 10.3389 / fbioe.2020.00167 l P。 W。 W。 W。 C。 J。 Z。 l M。 年代。 妞妞 T。 先生radiomics方法基于支持向量机使用图像在肝内胆管癌术前淋巴结状态评估 开展 2019年 9 18 5374年 5385年 10.7150 / thno.34149 2 - s2.0 - 85070484844 31410221