研究文章|开放获取
帅,瞿根本,Shenghan Pengyan Wang Wang, ”小说COVID-19鉴定生物标记由多个特征选择策略”,计算和数学方法在医学, 卷。2021年, 文章的ID2203636, 8 页面, 2021年。 https://doi.org/10.1155/2021/2203636
小说COVID-19鉴定生物标记由多个特征选择策略
文摘
冠状病毒疾病2019 (COVID-19)引起的严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2)导致了自2019年12月首次报告全球大流行。到目前为止,SARS-CoV-2核酸检测被视为COVID-19诊断的金标准。然而,这种检测方法往往会导致假阴性,因此引发了COVID-19诊断。因此,迫切需要寻找新的生物标记物来增加COVID-19诊断的准确性。探索新的生物标志物的COVID-19在这项研究中,表达谱是首先从GEO数据库访问。在此基础上,筛选了500个功能基因minimum-redundancy maximum-relevancy (mRMR)特征选择方法。之后,增量特征选择(IFS)方法被用来从不同特性选择最佳性能的分类器以基因为基础的支持向量机(SVM)分类器。66年相应的功能基因设置为最优特性的基因。最后,最优功能基因进行功能富集分析,主成分分析(PCA)和蛋白质相互作用网络分析(PPI)。总而言之,它是指出,66年的功能基因能有效地分类积极和消极COVID-19和工作新疾病的生物标记物。
1。介绍
严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2)是一种积极意义单链RNA病毒(+ ssRNA病毒),引发了2019年全球冠状病毒病(COVID-19)流行病[1]。大多数α和β冠状病毒可能会导致轻微的流感样症状,而SARS-CoV-2感染可导致严重急性呼吸系统综合症(2]。
antiepidemic事务COVID-19诊断是至关重要的一步。迄今为止,一些商业化SARS-CoV-2检测试剂盒获得紧急使用授权(协会)的美国食品和药物管理局(FDA),如存在化验(病毒)的特定序列检测,抗体测定(抗病毒抗体检测血清免疫球蛋白和IgM),和侧流试验(检测病毒抗原)。存在分析是广为接受的最可靠的方法和作为COVID-19诊断的金标准。然而,分析并不完美。敏感性的存在往往依赖于样本的病毒负荷,因此很容易造成假阴性结果。例如,保存不当导致病毒RNA样本退化;不合适的样本收集导致病毒RNA不足;或病毒负荷不足的患者样本中SARS-CoV-2感染的早期阶段(1]。因此,迫在眉睫的是提出了一个新颖的COVID-19诊断方法提高特异性和敏感性。由于各种复杂的生物反应发生在病人的感染网站SARS-CoV-2感染期间,它可能是一个新奇的想法COVID-19诊断检测的几个关键基因在样品同时结合多种基因的表达。
机器学习可以根据已知的数据和预测未知数据被广泛应用于生命科学领域(3]。支持向量机(SVM)作为一种机器学习方法,决定了病人的预后,药物疗效,肿瘤分类基于一个已知的基因表达谱(4]。算法的基本原理是创建决策边界从已知数据和基于决策边界未知的数据进行分类。2017年,徐et al。5)建立了一个15-gene-based分类器和有效地使用分类器预测术后结肠癌的发生。总之,支持向量机是一种高效的生物信息学方法分类。在这项研究中,应用生物信息学分析我主要特征基因的表达谱COVID-19正负样本。表达谱的基因是由功能重要性排名通过minimum-redundancy maximum-relevancy (mRMR)方法。SVM分类器不同的特征基因集的构造,和66年最佳功能基因筛选的增量特征选择(IFS)方法。最后,主成分分析(PCA)和功能富集分析是用来确定这些特性基因可以作为小说COVID-19的生物标志物。
2。材料和方法
2.1。表达谱和研究设计
在目前的研究中,表达谱(GSE152075)从基因表达综合下载(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)。表达数据通过GPL18573 Illumina公司NextSeq 500(智人)测序平台,包括mRNA咽喉拭子样品的测序结果54 - 430 + COVID-19。矩阵,基因表达 和 被删除。其他基因的标准化使用磨边机方案,并取得了16032个基因(6)(补充表1)。生物信息学分析流程图如下图设计1。
2.2。特征基因选择
功能基因与mRMR排名方法。mRMR获得特征值通过计算最大相关性和最小冗余7]。马克斯相关性满足以下公式:
高冗余可能存在根据马克斯所选基因的相关性。因此,切除特征对分类结果不会有多大影响。进一步屏幕相对独立功能,最小冗余包括到特征值的算法。最小冗余满足以下公式:
在上面的公式(1)和(2),特性集,是功能,是分类。
算法相结合最大相关性和最小冗余被任命为mRMR和被定义为
mRMR算法程序从网站下载(http://home.penglab.com/proj/mRMR/)。功能基因表达谱与下载的程序和排名得分得分。
2.3。筛选最优特性的基因
IFS进行进一步选择最优特性基因(8]。特性集( , 范围从1到500)首次建造。后来,相应的每个子集构造基于SVM分类器使用python包sklearn。支持向量机是一种有效的分类器构造方法(4]。具体方法是创建一个决策两种类型之间的界限以预测输入样本的类型。决定边界或超平面,定义距离最近的数据网站(称为支持向量)尽可能多的在每一个类。具体算法如下所示:
特征向量和吗是在训练集的类(正面或负面)。最优超平面的定义如下:
权向量,是输入特征向量,然后呢偏差。这两个和满足下列条件:
和由输入特征向量和类在训练集分类预测集。由于样本不平衡,python包吗imblearn被用来放大小样本的数量一样大的样品(9]。不同特性集作为训练集,训练模型进行构建一个支持向量机分类器对每个集合。建立了分类器的性能分析评估了交叉验证(LOOCV)和马修斯提出的相关系数(MCC)。MCC的皮尔森相关系数的实际值和预测值由混淆矩阵计算方法。世纪挑战帐户集团值是- 1和+ 1之间。MCC值接近+ 1意味着准确预测,接近于0意味着没有比随机预测,和接近1意味着分歧之间的预测和实际观察(10]。一系列的MCC值对应不同的特性集是通过假设。IFS曲线绘制了MCC的价值 - - - - - -轴和功能设置 - - - - - -轴。最高的训练集MCC IFS的价值曲线选择和基因在这组被设置为最优特性的基因。
2.4。主成分分析
PCA主要适用于探索性空间数据分析和预测模型建设11]。这种方法可以减少高纬度的维度数据。每个数据网站映射到简单,后者主要组件,和不同程度的每个数据网站尽可能地保存。在目前的研究中,第一和第二主成分的最佳特性基因R包FactoMineR(12]。表达数据基于这两个维度的高纬度地区功能基因被映射到一个二维平面PC1和PC2组成。
2.5。富集分析
基因本体论(去)富集分析最优功能基因筛选通过IFS使用R包clusterProfiler(13]。分类结果的生物过程(BP),细胞组件(CC)和分子功能(MF)。
2.6。蛋白质相互作用网络分析(PPI)
PPI网络分析( ;其他人则默认参数)进行了最优功能基因筛选的IFS使用字符串(https://www.string-db.org/)数据库(14]。最高的一组连接在PPI网络(主要集)被发现在Cytoscape使用MCODE插件。去进行富集分析主要集中在PPI网络通过在Cytoscape GlueGO插件。
3所示。结果
3.1。特征基因选择
基因表达谱的正面和负面的COVID-19咽喉拭子从GEO数据库访问。总之,16032个基因被标准化(补充表获得1)。挖掘小说COVID-19从这些基因的生物标记物,表达谱基因被mRMR排名的表达功能。此后,排名前500的基因(补充表2)被用于随后的基因筛查的最佳特性。
3.2。筛选最优的功能基因和富集分析
最优特征基因由IFS方法。特性集( , 范围从1到500)是由500年的筛选功能基因,和一个支持向量机分类器对应每组也建立了。IFS曲线绘制了MCC的SVM分类器的价值 - - - - - -轴和功能基因的数量 - - - - - -轴(图2(一个))。根据IFS曲线,前66名的MCC价值功能基因(补充表3)是作为训练集。66强特性以基因为基础的支持向量机分类器的分类效果提出了MCC的值:0.894,灵敏度:0.991,特异性:0.889,和准确性:0.979。因此,排名前66的功能基因设置为最优特性的基因。接下来,去富集分析排名前66的功能基因。结果显示如下:在BP模块中,这些基因主要是丰富的蛋白质定位内质网,SRP-dependent cotranslational目标蛋白质膜,和cotranslational蛋白质定位膜。在CC模块中,这些基因主要是胞质核糖体丰富,核糖体亚基,核糖体。在曼氏金融模块,这些基因主要富集在核糖体的结构组成(图2 (b))。富集分析展出,这些大多是核糖体蛋白相关的功能基因,蛋白质分泌,和膜的位置。
(一)
(b)
3.3。主成分分析
主成分分析对样本作证是否最优特征基因可以有效的正面和负面的样本进行分类。之间的明显分离被发现正示例集群(绿色三角形)和负示例集群(红圈)在二维平面PC1和PC2(图组成3)。是照亮最优特征基因能有效区分正面和负面COVID-19。
3.4。PPI网络分析
探索最优特性的基因之间的相互作用,PPI网络分析字符串进行(https://www.string-db.org/)数据库。最大设置在PPI网络构造选择使用MCODE插件(18节点,153行)(图4(一))。进一步探索丰富的生物功能特性基因的选择集,18日去分析基因。这些基因被发现主要富集在胞质大核糖体亚基,polysomal核糖体,病毒基因表达,SRP-dependent cotranslational目标蛋白质的膜。这表明这些基因与核糖体蛋白质编码,病毒蛋白质翻译、和蛋白质膜的位置(数据4 (b)和4 (c))。
(一)
(b)
(c)
4所示。讨论
在目前的研究中,mRMR特征选择方法已应用于屏幕前500功能的基因。66强最优功能基因筛选通过IFS方法和工作作为COVID-19的生物标志物。与传统的诊断方法相结合,一个相对新颖的长大。传统方法通常检测SARS-CoV-2核酸,抗原和抗体。尽管,我们提供一组专门表达基因在人类感染部分SARS-CoV-2感染期间,这些基因被COVID-19的生物标志物。这种诊断方法之间的差异和传统的(我)小说COVID-19标记是人类基因和(2)诊断方法区分正面或负面的样品通过检测多个基因,而传统方法只能检测到一个核酸片段或SARS-CoV-2抗体。以下是讨论最优特性的基因。
OAS2是顶级功能基因。OAS2属于人类的2 - - - - - -5 - - - - - -oligoadenylate合成酶家族参与非特异性免疫在病毒感染通过干扰素诱导和降解病毒RNA (15]。与此同时,OAS2据报道,高度表达积极COVID-19病人和作为候选药物靶标COVID-19治疗(16- - - - - -18]。根据引用和我们的生物信息学分析,推测OAS2可能在SARS-CoV-2感染起着重要的作用。RPLP0和RPL15也是顶级的最佳特性的基因。他们编码不同的核糖体蛋白质在活的有机体内参与合成60和40 s核糖体亚基。核糖体在活的有机体内由一个小40 s亚基,一个大60 s亚基,和一些核糖体rna,与不同的核糖体蛋白质组成两个亚基(19]。除了RPLP0和RPL15还有其他核糖体蛋白质编码基因(RPLP1,RPL10A,RPL3,RPL30,RPL13,RPL4,RPL18,RPL32,RPL35),所有参与合成核糖体亚基。几项研究表明,非结构蛋白SARS-CoV-2(如NSP1,NSP16,NSP8,NSP9)结合核糖体亚基或核糖体RNA抑制非特异性免疫与信使核糖核酸的翻译与干扰素分泌(2,20.,21]。因此,推测SARS-CoV-2感染可能在很大程度上影响ribosome-related基因的表达干扰蛋白质的翻译和分泌与人类免疫功能有关。可以看到,这些特性与生物功能相关基因在SARS-CoV-2感染,证明我们的筛选功能基因COVID-19适合作为生物标志物。
富集分析66功能基因和主要设置在相应的PPI网络显示,这些基因主要是丰富的核糖体亚基,SRP-dependent cotranslational蛋白质定位膜。SARS-CoV-2可能影响核糖体合成、蛋白质翻译、和蛋白质的分泌细胞在病人的部分转录组水平的影响。同时,分析结果符合什么Banerjee等人发表在《细胞》杂志2020年11月(20.]。这项研究表明,NSP8和NSP9蛋白质SARS-CoV-2绑定信号识别颗粒(SRP)核糖体的大亚基,抑制细胞膜上的蛋白质。此外,功能基因主要富集在SRP-dependent cotranslational蛋白质定位膜和大核糖体亚基。
特别是,许多研究都采用类似的分析方法研究。例如,程et al。22]2020年筛选31日可以使用基于单细胞mRMR标记RNA序列数据从恶性神经胶质瘤和使用SVM作证的诊断性能31基因。徐et al。23)建立了一个预测模型在肝内胆管癌术前淋巴结状态评估使用mRMR和支持向量机。可以看出,该方法可广泛用于预测或不同疾病的诊断。
总的来说,66年由多个特征选择最优功能基因筛选策略。这些基因的有效性作为COVID-19生物标记被富集分析证实,PPI网络分析和主成分分析。与此同时,一些最优特性与生物功能相关的基因被报道在活的有机体内在SARS-CoV-2感染。因此,我们的研究结果可以应用不仅COVID-19的准确诊断,而且对治疗指导。然而,这项研究仍然存在局限性。例如,我们不使用丰富的临床样品作证分类器的分类性能。因此,这些基因的应用价值COVID-19生物标志物在实际诊断仍然是模糊的。我们计划去收集大量临床样本和诊断通过传统和新方法比较的影响。
数据可用性
(数据类型)的数据用于支持本研究的结果中包括这篇文章。
同意
所有作者同意提交出版的手稿。
的利益冲突
作者宣称他们没有潜在的利益冲突。
作者的贡献
所有作者导致数据分析、起草和修改文章;最终批准的版本发布;并同意负责所有方面的工作。帅张和瞿根本贡献同样这项工作。
确认
这项研究是由2020年烟台科技创新发展计划(特殊项目新型冠状病毒肺炎的预防和控制传染病),项目编号:2020 yjgg003。
补充材料
补充1。补充表1:标准化后获得的基因。
补充2。补充表2:前500功能基因筛选后mRMR方法。
补充3。补充表3:IFS 66强功能基因筛选方法。
引用
- m . Yuce大肠Filiztekin, k . g . Ozkaya”COVID-19诊断——回顾当前的方法”,生物传感器和生物电子学,第172卷,第112752页,2021年。视图:出版商的网站|谷歌学术搜索
- m·托马斯r . Buschauer m . Ameismeier et al .,“结构性基础平动关闭和免疫逃避SARS-CoV-2 Nsp1蛋白质,”科学,卷369,不。6508年,第1255 - 1249页,2020年。视图:出版商的网站|谷歌学术搜索
- “j·a·克鲁斯和d s Wishart机器学习的应用在癌症预测和预后,”癌症信息学,卷2,59 - 77年,2007页。视图:谷歌学术搜索
- 黄,n . Cai·p·帕切科s Narrandes y . Wang和w·徐”的应用支持向量机(SVM)在癌症基因组学,学习”癌症基因组蛋白质组学,15卷,不。1,41-51,2018页。视图:出版商的网站|谷歌学术搜索
- 朱h . g .徐m . Zhang, j .徐”15-gene签名结肠癌复发和预后预测的支持向量机的基础上,“基因卷。604年,33-40,2017页。视图:出版商的网站|谷歌学术搜索
- m·d·罗宾逊,“磨边机:bioconductor包微分表达式数字基因表达数据的分析,“生物信息学,26卷,不。1,第140 - 139页,2010。视图:出版商的网站|谷歌学术搜索
- f·h·Peng长,c .丁”的基于互信息的特征选择:标准max-dependency, max-relevance, min-redundancy,”IEEE模式分析与机器智能27卷,第1238 - 1226页,2005年。视图:出版商的网站|谷歌学术搜索
- f . y . j . x Tan刀,h . Lv, p . m .冯和h叮,“识别噬菌体病毒蛋白质通过两步特征选择方法,”分子,23卷,2018年。视图:出版商的网站|谷歌学术搜索
- s . Mishra”处理不平衡数据:击杀和随机采样,”国际研究工程与技术杂志》上,4卷,2017年。视图:谷歌学术搜索
- d Chicco g . Jurman,”马修斯相关系数的优点(MCC)在F1的分数和准确性二进制分类评价,“BMC基因组学,21卷,不。1,p。2020。视图:出版商的网站|谷歌学术搜索
- m . Ringner“主成分分析是什么?”自然生物技术,26卷,不。3、303 - 304年,2008页。视图:出版商的网站|谷歌学术搜索
- 勒,j . Josse f·胡森,“FactoMineR: R包多变量分析,”杂志的统计软件,25卷,不。1,1 - 8,2008页。视图:谷歌学术搜索
- “g . Yu和l . g . Wang clusterProfiler: R包比较生物基因簇之间的主题,“组学,16卷,不。5,284 - 287年,2012页。视图:出版商的网站|谷歌学术搜索
- d . Szklarczyk a·l·盖博·d·里昂et al .,”字符串v11:蛋白质协会与覆盖面,增加网络支持功能在全基因组实验数据集,发现“核酸的研究卷,47号D1, D607-D613, 2019页。视图:出版商的网站|谷歌学术搜索
- a . Hovnanian d . Rebouillat m·g·加尼姆et al .,“人类的2,5-oligoadenylate合成酶轨迹是由三个不同的基因集群12号染色体上q24.2编码100 - 69 -,和40-kDa形式”,基因组学,52卷,不。3、267 - 277年,1998页。视图:出版商的网站|谷歌学术搜索
- r . Vishnubalaji、h·沙阿斯和n·m·Alajez”蛋白质编码和长非编码RNA (lncRNA)转录景观SARS-CoV-2感染支气管上皮细胞突出干扰素和炎症反应的作用,“基因(巴塞尔)2020年,卷。11日。视图:出版商的网站|谷歌学术搜索
- k·普拉萨德,f . Khatoon s拉希德et al .,“针对中心COVID-19先天免疫反应的基因和途径:网络生物学的角度来看,“国际期刊的生物大分子卷,163年,页1 - 8,2020。视图:出版商的网站|谷歌学术搜索
- h·沙阿斯r . Vishnubalaji、大肠Elkord和n·m·Alajez“单细胞转录组分析突出了角色的中性粒细胞和巨噬细胞炎症的发病机制严重COVID-19,”细胞,9卷,2020年。视图:出版商的网站|谷歌学术搜索
- x周,w . j .廖j·m·廖p .廖和h,“除了核糖体,核糖体蛋白质:功能”分子细胞生物学杂志》上,7卷,不。2、92 - 104年,2015页。视图:出版商的网站|谷歌学术搜索
- Banerjee a . k . et al ., SARS-CoV-2扰乱了拼接,翻译,和蛋白质贩卖抑制宿主防御,”细胞卷。183年,1325 - 1339 e1321, 2020页。视图:出版商的网站|谷歌学术搜索
- k .舒伯特e . d . Karousis a Jomaa et al .,“SARS-CoV-2 Nsp1结合核糖体mRNA通道抑制翻译,“《自然结构和分子生物》上,27卷,不。10日,959 - 966年,2020页。视图:出版商的网站|谷歌学术搜索
- f . j .问:Cheng Li风扇et al .,“胶质母细胞瘤的识别和分析基于单细胞测序生物标记,”在生物工程和生物技术前沿,8卷,p。167年,2020年。视图:出版商的网站|谷歌学术搜索
- l .许·杨梁w . et al .,“先生radiomics方法基于支持向量机使用图像在肝内胆管癌术前淋巴结状态评估,”开展,9卷,不。18日,第5385 - 5374页,2019年。视图:出版商的网站|谷歌学术搜索
版权
版权©2021帅Zhang et al。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。