CMMMgydF4y2Ba 计算和数学方法在医学gydF4y2Ba 1748 - 6718gydF4y2Ba 1748 - 670 xgydF4y2Ba HindawigydF4y2Ba 10.1155 / 2021/6985008gydF4y2Ba 6985008gydF4y2Ba 研究文章gydF4y2Ba 预测跨物种感染的猪流感病毒表示学习氨基酸的功能gydF4y2Ba https://orcid.org/0000 - 0003 - 4758 - 2872gydF4y2Ba 口gydF4y2Ba 郑gydF4y2Ba 李gydF4y2Ba 俊杰gydF4y2Ba 方ydF4y2Ba XinyuegydF4y2Ba KosarigydF4y2Ba 赛义德gydF4y2Ba https://orcid.org/0000 - 0001 - 9328 - 0774gydF4y2Ba 羌族gydF4y2Ba 小丽gydF4y2Ba 黄gydF4y2Ba 道gydF4y2Ba 计算机科学与技术学院gydF4y2Ba 广州大学gydF4y2Ba 广州510006gydF4y2Ba 中国gydF4y2Ba gzhu.edu.cngydF4y2Ba 2021年gydF4y2Ba 11gydF4y2Ba 10gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 24gydF4y2Ba 8gydF4y2Ba 2021年gydF4y2Ba 27gydF4y2Ba 9gydF4y2Ba 2021年gydF4y2Ba 28gydF4y2Ba 9gydF4y2Ba 2021年gydF4y2Ba 11gydF4y2Ba 10gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 版权©2021郑口等。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

猪流感病毒(siv)可以预见直接跨越物种屏障,感染人类,给公众健康带来巨大的挑战,引发大流行风险不定期出版。需要计算工具来预测感染siv表型和早期流行的风险。为此,我们提出一个算法来预测跨物种感染siv特性表示。我们建立了一个高质量的数据集1902年的病毒。学习计划学习应用功能特性表示表示从64年开始训练有素的随机森林模型与多个特征描述符的突变病毒蛋白质的氨基酸,包括成分信息,position-specific信息和物理化学性质。类和概率信息集成到特性表征,和冗余的特征是通过特征空间优化。高性能是通过使用20信息特性和22概率信息。该方法将促进SIV的表现型传播。gydF4y2Ba

中国国家自然科学基金gydF4y2Ba 62172114gydF4y2Ba 61972109gydF4y2Ba
1。介绍gydF4y2Ba

甲型流感病毒(家庭:Orthomyxoviridae)基因组包含8个节段rna (gydF4y2Ba 1gydF4y2Ba]。血凝素(HA)基因位于第四段,和神经氨酸酶(NA)基因在第六段。根据抗原血凝素和神经氨酸酶的特点,18公顷甲型流感病毒亚型和11 NA亚型(gydF4y2Ba 2gydF4y2Ba- - - - - -gydF4y2Ba 4gydF4y2Ba]。除了快速病毒基因的突变率,节段性病毒基因组的重组促进新型病毒的出现与主机壁垒的变化(gydF4y2Ba 5gydF4y2Ba,gydF4y2Ba 6gydF4y2Ba]。1957年大流感是由一种甲型流感(H1N1)病毒,而基因组包含段2、4和5的禽流感病毒,而1968年大流行是由甲型流感病毒(H3N2),它有一个基因组包含部分2和4的禽流感病毒(gydF4y2Ba 1gydF4y2Ba]。gydF4y2Ba

猪流感病毒(SIV)是一种A型流感病毒引起的急性呼吸道传染病,猪(gydF4y2Ba 7gydF4y2Ba]。全世界主要有三个猴免疫缺陷病毒亚型循环(H1N1, H1N2和H3N2),和这些亚型可以细分为不同的基因型,包括经典的H1N1, avian-like H1N1,类似人类的H3N2,可行性H3N2, H1N2子组(gydF4y2Ba 8gydF4y2Ba- - - - - -gydF4y2Ba 10gydF4y2Ba]。猴免疫缺陷病毒基因型不同,自然是异构的基因库。猴免疫缺陷病毒可以直接跨越物种障碍不能预见,并感染人类。2009年甲型H1N1流感大流行造成18000多人死亡,病原体和病毒大流行期间是一个新颖的SIV genome-reassorted之间是由基因组重组猪病毒从美国和欧洲gydF4y2Ba 11gydF4y2Ba- - - - - -gydF4y2Ba 13gydF4y2Ba]。H3N2病毒变体(H3N2v),段7 2009 H1N1大流行性流感病毒的基因组,发现2010年在猪和2011年第一次在人们发现gydF4y2Ba 14gydF4y2Ba]。临床病例的H1N1变种病毒(H1N1v)和H1N2变种病毒(H1N2v)也被报道在2011年之后gydF4y2Ba 15gydF4y2Ba]。结构性投资工具对人类公共卫生是一个巨大的挑战,可能引发大流行风险。gydF4y2Ba

计算生物信息学工具需要预测siv传输表型和大流行性流感的风险。为此,机器学习方法可能是理想的工具(gydF4y2Ba 16gydF4y2Ba- - - - - -gydF4y2Ba 18gydF4y2Ba]。机器学习技术潜力巨大病毒筛查,因为他们可以使用病毒蛋白质序列作为输入,而不需要先验知识。在本文中,我们提出一个算法来预测跨物种感染siv特性表示。算法包括基于特征描述符建立综合预测模型从不同方面提供足够的信息。序列的特性与类信息或概率信息(RF)会从训练有素的随机森林分类器,可以学习的一组功能。特征空间的维数降低了使用最小冗余最大相关性(mRMR)方法来获得最丰富的特性和区分结构性投资工具不同的表现型传播。gydF4y2Ba

识别siv能跨物种传播,我们构建了一个与两个预测模型,预测被训练使用20特性基于类信息或22射频下基于概率信息分类器的特性。特性的预测表示学习取得了高预测性能。这项研究提供了一个重要的工具在预测跨物种感染siv的公共卫生。gydF4y2Ba

2。材料和方法gydF4y2Ba 2.1。数据gydF4y2Ba

病毒性流感病毒从猪和人类分离序列从GISAID EpiFlu公共数据库(下载gydF4y2Ba http://platform.gisaid.org/epi3/frontendgydF4y2Ba)[gydF4y2Ba 2gydF4y2Ba,gydF4y2Ba 3gydF4y2Ba]。GISAID存款高质量基因组序列及其临床信息数据库中。因为序列冗余非常高和基因组覆盖率大大不同,原始数据被过滤使用公共生物信息学工具和算法(表gydF4y2Ba S1gydF4y2Ba)。gydF4y2Ba

我们获得5860结构性投资工具和44623人流感病毒从GISAID数据库2019年3月21日。数据集包括所有的11个流感病毒蛋白质(PB2, PB1 PB1-F2, PA,哈,NP, NA, M1, M2, NS1,和NEP)编码在8个基因片段。压力没有任何的11个蛋白质序列或没有亚型信息被排除在外。11蛋白质测定的氨基酸位置使用多重序列比对工具肌肉(gydF4y2Ba 19gydF4y2Ba]。菌株有超过三个氨基酸缺失在终端的病毒蛋白质被移除,如果只有几个失踪的残留物,他们说根据这些病毒蛋白与最高的身份。我们使用了快速集群算法CD-Hit工具来减少冗余的数据集(gydF4y2Ba 20.gydF4y2Ba]。模棱两可的氨基酸残基,如X和B,可能是由于测序错误了,取而代之的是那些在病毒蛋白与最高的身份。菌株与大量的模棱两可的残留在病毒蛋白也被删除。gydF4y2Ba

最后预测数据集跨物种感染病毒包含两类:(1)769年从人类分离的病毒(正面样本;H1N1, H1N2 H2N2, H3N2亚型);(2)1133年流感病毒从猪分离(负样本;H1N1, H1N2和H3N2亚型)。积极的人类流感病毒样本由季节性,2009年大流感甲型h1n1病毒,甲型h1n1病毒与人类和变体。由于这些病毒也可以隔绝猪(gydF4y2Ba 1gydF4y2Ba),他们被排除在负样本根据基因组序列的相似性。关于1902株是总结在表的信息gydF4y2Ba S1gydF4y2Ba。gydF4y2Ba

2.2。基于熵的特征氨基酸位置gydF4y2Ba

大多数的病毒蛋白质的氨基酸残基是守恒的。以减少计算复杂度,氨基酸残基被过滤的熵测量在每个位置11病毒蛋白质。对于一个给定的位置gydF4y2Ba 我gydF4y2Ba 熵值计算使用公式(gydF4y2Ba 21gydF4y2Ba]:gydF4y2Ba EgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 20.gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 日志gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ,在那里gydF4y2Ba PgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba 是观察到的氨基酸的概率gydF4y2Ba jgydF4y2Ba 在位置gydF4y2Ba 我gydF4y2Ba 。高熵值表明氨基酸变异率在相应的位置。我们设置阈值熵差是1.5和获得36签名的位置,因此,每个应变表示为一个列表的36个氨基酸残基位置的筛选。gydF4y2Ba

2.3。签名氨基酸组的代表gydF4y2Ba

突变病毒蛋白确定致病性或毒性的siv (gydF4y2Ba 1gydF4y2Ba]。获取每个位置的熵的排名后,36重要氨基酸筛选。六组分信息的编码算法,position-specific信息和氨基酸的物理化学性质被用来探索高质量预测所需的关键信息(gydF4y2Ba 16gydF4y2Ba]。签名氨基酸的编码算法将SIV转换成固定长度向量在下面会详细进行介绍。gydF4y2Ba

2.3.1。氨基酸组成gydF4y2Ba

氨基酸组成(AAC)像往常一样是一个20-dimension向量。因为病毒蛋白质的差距(删除或插入)经常发生在猴免疫缺陷病毒的进化,我们定义了AAC 21-dimension向量代表20个氨基酸残基的频率和36差距之一签名病毒蛋白质的位置。例如,如果氨基酸类型gydF4y2Ba 我gydF4y2Ba 发生gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba 在氨基酸的一组特定的病毒的频率gydF4y2Ba 我gydF4y2Ba 表示为gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba ngydF4y2Ba 我gydF4y2Ba /gydF4y2Ba 36gydF4y2Ba 。21-dimensional特征向量表示的频率获得的20种不同的氨基酸和差距是为每一个压力。gydF4y2Ba

2.3.2。平行Correlation-Based Pseudo-Amino-Acid组成gydF4y2Ba

平行correlation-based pseudo-amino-acid成分(PC-PseAAC)方法被用来计算并行相关的任意两个氨基酸36签名病毒蛋白质的氨基酸位置序列(gydF4y2Ba 22gydF4y2Ba]。病毒D PC-PseAAC特征向量定义了gydF4y2Ba (1)gydF4y2Ba 个人电脑gydF4y2Ba −gydF4y2Ba PseAACgydF4y2Ba =gydF4y2Ba pgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 21gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 21gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 21gydF4y2Ba +gydF4y2Ba λgydF4y2Ba TgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba (2)gydF4y2Ba pgydF4y2Ba ugydF4y2Ba =gydF4y2Ba fgydF4y2Ba ugydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 21gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba 0.05gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba λgydF4y2Ba θgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba ugydF4y2Ba ≤gydF4y2Ba 21gydF4y2Ba ,gydF4y2Ba 0.05gydF4y2Ba θgydF4y2Ba ugydF4y2Ba −gydF4y2Ba 21gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 21gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba 0.05gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba λgydF4y2Ba θgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba 21gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba ugydF4y2Ba ≤gydF4y2Ba 21gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ugydF4y2Ba 是一个整数,gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba ≤gydF4y2Ba 我gydF4y2Ba ≤gydF4y2Ba 21gydF4y2Ba 代表的规范化发生频率20种氨基酸和一个空白病毒gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba λgydF4y2Ba 是最高层次的相关性gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba θgydF4y2Ba jgydF4y2Ba 措施的相关函数吗gydF4y2Ba jgydF4y2Ba 层序列号关联的所有gydF4y2Ba jgydF4y2Ba th最相邻残留dgydF4y2Ba θgydF4y2Ba jgydF4y2Ba 函数是作为gydF4y2Ba (3)gydF4y2Ba θgydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 36gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba lgydF4y2Ba 1gydF4y2Ba 5gydF4y2Ba ∑gydF4y2Ba 米gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 5gydF4y2Ba HgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba jgydF4y2Ba −gydF4y2Ba HgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba HgydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba 4gydF4y2Ba ,gydF4y2Ba 5gydF4y2Ba 代表了五个氨基酸对应的因素gydF4y2Ba 我gydF4y2Ba th氨基酸gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba 在病毒D,分别gydF4y2Ba 23gydF4y2Ba]。如果gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba jgydF4y2Ba 是gydF4y2Ba >gydF4y2Ba 36gydF4y2Ba ,然后gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba jgydF4y2Ba −gydF4y2Ba 36gydF4y2Ba 。差距的五个因素(删除或插入)只是设置为0。gydF4y2Ba

2.3.3。G-Gap二肽成分gydF4y2Ba

的G-gap二肽成分(GGAP)二肽成分加上本地订单信息的任意两个间隔的36个氨基酸残基中残留的11为每个病毒病毒蛋白质。的GGAP是常用的功能描述符序列分析和模型构建。摘要GGAP 441维向量表示的频率20个氨基酸残基组成的二肽和一个缺口。它被定义为gydF4y2Ba (4)gydF4y2Ba GGAPgydF4y2Ba ggydF4y2Ba =gydF4y2Ba pgydF4y2Ba 1gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 2gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba pgydF4y2Ba 441年gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba 的发生频率吗gydF4y2Ba 我gydF4y2Ba th (gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba ⋯gydF4y2Ba ,gydF4y2Ba 441年gydF4y2Ba )G-gap二肽,它被定义为gydF4y2Ba (5)gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba =gydF4y2Ba OgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 441年gydF4y2Ba OgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba OgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba 发生的数量吗gydF4y2Ba 我gydF4y2Ba th G-gap二肽的氨基酸残基的36个签名。GGAP特征向量的维数gydF4y2Ba 21gydF4y2Ba ×gydF4y2Ba 21gydF4y2Ba =gydF4y2Ba 441年gydF4y2Ba 。删除或插入也计算。gydF4y2Ba

2.3.4。Twenty-Bit特性gydF4y2Ba

Position-specific信息和物理化学性质被用来编码为每个病毒36个氨基酸残基。五个标准氨基酸的物理化学性质描述符,即极性,二级结构,分子体积,密码子的多样性,静电电荷gydF4y2Ba 23gydF4y2Ba]。对于每个描述符,标准氨基酸字母被分为三组,和删除/插入(indel)被认为是第四组。表示20标准氨基酸和indel之一是根据五理化性质。每个残基被编码为20位向量元素,包括0/1点的位置在哪里设置为1,如果残留属于相应的组;否则,它是0。由于氨基酸增强方法,顶部gydF4y2Ba kgydF4y2Ba 残留最高的熵值被选中。特征向量的维数gydF4y2Ba 20.gydF4y2Ba ×gydF4y2Ba kgydF4y2Ba 。gydF4y2Ba

2.3.5。Twenty-One-Bit特性gydF4y2Ba

Twenty-one-bit功能就像一个一个炎热的编码。在该算法中,每个氨基酸残基向量转换为21-bit 0/1。(例如,阿拉巴马州1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;indel 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1)。鉴于氨基酸增强方法中,每个应变gydF4y2Ba kgydF4y2Ba 残留物被表示为一个gydF4y2Ba 21gydF4y2Ba ×gydF4y2Ba kgydF4y2Ba 维特征向量。gydF4y2Ba

2.3.6。重叠的属性特征gydF4y2Ba

该算法分为20标准氨基酸和一个缺口(indel)根据理化性质分为11个不同的组。20个氨基酸链的分布10组可以重叠gydF4y2Ba 24gydF4y2Ba]。10个氨基酸组gydF4y2Ba 芳香gydF4y2Ba =gydF4y2Ba FgydF4y2Ba ,gydF4y2Ba YgydF4y2Ba ,gydF4y2Ba WgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba 负gydF4y2Ba =gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba 积极的gydF4y2Ba =gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba RgydF4y2Ba ,gydF4y2Ba 极地gydF4y2Ba =gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba RgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba YgydF4y2Ba ,gydF4y2Ba WgydF4y2Ba ,gydF4y2Ba 疏水gydF4y2Ba =gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba GgydF4y2Ba ,gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba VgydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba FgydF4y2Ba ,gydF4y2Ba YgydF4y2Ba ,gydF4y2Ba WgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba 脂肪族gydF4y2Ba =gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba VgydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 小gydF4y2Ba =gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba GgydF4y2Ba ,gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba 带电gydF4y2Ba =gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba HgydF4y2Ba ,gydF4y2Ba RgydF4y2Ba ,gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba EgydF4y2Ba ,gydF4y2Ba 小gydF4y2Ba =gydF4y2Ba PgydF4y2Ba ,gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba DgydF4y2Ba ,gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba GgydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba VgydF4y2Ba ,gydF4y2Ba 脯氨酸gydF4y2Ba =gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba ,gydF4y2Ba GgydF4y2Ba ,gydF4y2Ba CgydF4y2Ba 。Indels形成了11组。每个氨基酸残基为代表的维一个11维向量0/1。向量的位置被设置为1,如果残留属于物理化学性质组;否则,它是0。由于氨基酸增强方法,顶部gydF4y2Ba kgydF4y2Ba 残留最高的熵值被选中。氨基酸增强与一个编码gydF4y2Ba 11gydF4y2Ba ×gydF4y2Ba kgydF4y2Ba 特征向量。gydF4y2Ba

2.4。学习框架的特征表示gydF4y2Ba

表示学习算法的框架特性,其中包括两个主要步骤,优化特征表示学习和特征表示,如图gydF4y2Ba 1gydF4y2Ba。首先,特性表征的特征描述符使用射频标识符生成系统。其次,特性表征从第一步优化产量信息特征子集。两步特征表示学习过程如下(gydF4y2Ba 16gydF4y2Ba]。gydF4y2Ba

流程图表示学习氨基酸的功能。数据清理后,36签名氨基酸位置基于熵筛选。六个编码算法和参数的变化被用来探索的关键信息。所有64年功能池是用来描述符与RF模型训练和预测,和两种类型的预测了进一步优化。每个猪病毒最终被两个优化的特征向量表示,“类”和“概率。“最后,预测模型构建和比较。gydF4y2Ba

2.4.1。学习特征表示gydF4y2Ba

六个特征编码算法是AAC、PC-PseAAC GGAP, 20位功能(BIT20) 21-bit特性(BIT21),和重叠的产权特性(OLP),都是上面描述的。功能池建于生成尽可能多的信息和不同的参数预测模型。例如,gydF4y2Ba kgydF4y2Ba 是一种常见的参数BIT20 BIT21, OLP。因为36重要氨基酸得到熵排名筛选后,我们组gydF4y2Ba kgydF4y2Ba 4-36的第四步。的最大gydF4y2Ba kgydF4y2Ba 值设置为36因为有36签名的位置,因此,共有27个特征描述符获得了BIT20 BIT21, OLP。一个类似的过程被用于PC-PseAAC GGAP。使用不同的参数,共有64个特征描述符的功能池。所有信息中提供的特征描述符表gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

总结的特征描述符数量及其相应的功能。gydF4y2Ba

描述符gydF4y2Ba 类型gydF4y2Ba 数量gydF4y2Ba 描述符gydF4y2Ba 类型gydF4y2Ba 数量gydF4y2Ba
1gydF4y2Ba AAC格式gydF4y2Ba 20.gydF4y2Ba 33gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 13gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba
2gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 21gydF4y2Ba 34gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 14gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba
3gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 22gydF4y2Ba 35gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 15gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba
4gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba 23gydF4y2Ba 36gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 16gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba
5gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba 24gydF4y2Ba 37gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 17gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba
6gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba 25gydF4y2Ba 38gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba 80年gydF4y2Ba
7gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 26gydF4y2Ba 39gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba 160年gydF4y2Ba
8gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 7gydF4y2Ba )gydF4y2Ba 27gydF4y2Ba 40gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 12gydF4y2Ba )gydF4y2Ba 240年gydF4y2Ba
9gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba 28gydF4y2Ba 41gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 16gydF4y2Ba )gydF4y2Ba 320年gydF4y2Ba
10gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 9gydF4y2Ba )gydF4y2Ba 29日gydF4y2Ba 42gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 20.gydF4y2Ba )gydF4y2Ba 400年gydF4y2Ba
11gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 10gydF4y2Ba )gydF4y2Ba 30.gydF4y2Ba 43gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 24gydF4y2Ba )gydF4y2Ba 480年gydF4y2Ba
12gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 11gydF4y2Ba )gydF4y2Ba 31日gydF4y2Ba 44gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 28gydF4y2Ba )gydF4y2Ba 560年gydF4y2Ba
13gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 12gydF4y2Ba )gydF4y2Ba 32gydF4y2Ba 45gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 32gydF4y2Ba )gydF4y2Ba 640年gydF4y2Ba
14gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 13gydF4y2Ba )gydF4y2Ba 33gydF4y2Ba 46gydF4y2Ba BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 36gydF4y2Ba )gydF4y2Ba 720年gydF4y2Ba
15gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 14gydF4y2Ba )gydF4y2Ba 34gydF4y2Ba 47gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba 84年gydF4y2Ba
16gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 15gydF4y2Ba )gydF4y2Ba 35gydF4y2Ba 48gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba 168年gydF4y2Ba
17gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 16gydF4y2Ba )gydF4y2Ba 36gydF4y2Ba 49gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 12gydF4y2Ba )gydF4y2Ba 252年gydF4y2Ba
18gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 17gydF4y2Ba )gydF4y2Ba 37gydF4y2Ba 50gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 16gydF4y2Ba )gydF4y2Ba 336年gydF4y2Ba
19gydF4y2Ba PseAAC (gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 18gydF4y2Ba )gydF4y2Ba 38gydF4y2Ba 51gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 20.gydF4y2Ba )gydF4y2Ba 420年gydF4y2Ba
20.gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 0gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 52gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 24gydF4y2Ba )gydF4y2Ba 504年gydF4y2Ba
21gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 53gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 28gydF4y2Ba )gydF4y2Ba 588年gydF4y2Ba
22gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 54gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 32gydF4y2Ba )gydF4y2Ba 672年gydF4y2Ba
23gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 55gydF4y2Ba BIT21 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 36gydF4y2Ba )gydF4y2Ba 756年gydF4y2Ba
24gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 56gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba 44gydF4y2Ba
25gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 57gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba 88年gydF4y2Ba
26gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 58gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 12gydF4y2Ba )gydF4y2Ba 132年gydF4y2Ba
27gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 7gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 59gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 16gydF4y2Ba )gydF4y2Ba 176年gydF4y2Ba
28gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 60gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 20.gydF4y2Ba )gydF4y2Ba 220年gydF4y2Ba
29日gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 9gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 61年gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 24gydF4y2Ba )gydF4y2Ba 264年gydF4y2Ba
30.gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 10gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 62年gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 28gydF4y2Ba )gydF4y2Ba 308年gydF4y2Ba
31日gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 11gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 63年gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 32gydF4y2Ba )gydF4y2Ba 352年gydF4y2Ba
32gydF4y2Ba GGAP (gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 12gydF4y2Ba )gydF4y2Ba 441年gydF4y2Ba 64年gydF4y2Ba OLP (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 36gydF4y2Ba )gydF4y2Ba 396年gydF4y2Ba

优化的特征表示,前两种类型的预测被用来完成学习。所有64年功能池是用来描述符与RF模型训练和预测,和两种类型的预测。第一个预测类型是类标签(正面或负面):积极的样品(猪病毒跨物种感染的表型)被标记为1,和负样本(猪病毒没有跨物种感染的表型)被标记为0。第二个预测类型是伪概率样本属于某个类(积极或消极)。为每个预测类型,所有64 64射频输出计算的模型连接作为一种新的特征向量。每个猪病毒最终被表示为两个64维特征向量,这标志着“阶级”和“概率”,分别。特征向量“类”由类信息从原始功能池,和特征向量“概率”由概率信息。速度快,计算预计第一类型模型,同时为预测精度高性能预计第二类型模型。gydF4y2Ba

2.4.2。优化特征表示gydF4y2Ba

两种预测被进一步优化提高特征表征能力。mRMR,著名的特征选择方法是用来排在“类”的特点和“概率”信息(gydF4y2Ba 25gydF4y2Ba]。mRMR方法使用互信息最大化之间的互信息选择的联合分布特性和选择之间的类标签和最小化冗余功能。mRMR方法被用来优化特性表征,获得特性列表按其重要性排名成绩。顺序向前搜索(SFS)策略是用于提高排名的功能特性列表(一个接一个gydF4y2Ba 16gydF4y2Ba]。RF分类器训练后,特征子集与最佳的性能被认为是最佳的子集。我们获得20最佳特性“类”和25个最佳特征“概率”。gydF4y2Ba

2.5。RF算法gydF4y2Ba

RF算法被用来获得两种类型的特征向量,构建预测模型的跨物种感染siv。射频机器学习算法是健壮的和被广泛应用模型生物学数据(gydF4y2Ba 4gydF4y2Ba]。RF表现得像一个整体的决策树算法,提出了一组随机的特征选择。我们使用RF算法在本研究[R环境gydF4y2Ba 26gydF4y2Ba]。所有的实验都使用版本3.5.0与默认参数(R树gydF4y2Ba 数量gydF4y2Ba =gydF4y2Ba 500年gydF4y2Ba )。gydF4y2Ba

2.6。评价指标gydF4y2Ba

我们使用四个常用指标评估模型的性能,即敏感性(SN),特异性(SP)、准确性(ACC),马修的相关系数(MCC)如下:gydF4y2Ba (6)gydF4y2Ba SNgydF4y2Ba =gydF4y2Ba TPgydF4y2Ba TPgydF4y2Ba +gydF4y2Ba FNgydF4y2Ba ×gydF4y2Ba One hundred.gydF4y2Ba %gydF4y2Ba ,gydF4y2Ba SPgydF4y2Ba =gydF4y2Ba TNgydF4y2Ba TNgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba ×gydF4y2Ba One hundred.gydF4y2Ba %gydF4y2Ba ,gydF4y2Ba ACCgydF4y2Ba =gydF4y2Ba TPgydF4y2Ba +gydF4y2Ba TNgydF4y2Ba TPgydF4y2Ba +gydF4y2Ba TNgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba +gydF4y2Ba FNgydF4y2Ba ×gydF4y2Ba One hundred.gydF4y2Ba %gydF4y2Ba ,gydF4y2Ba 世纪挑战集团gydF4y2Ba =gydF4y2Ba TPgydF4y2Ba ×gydF4y2Ba TNgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba ×gydF4y2Ba FNgydF4y2Ba TPgydF4y2Ba +gydF4y2Ba FNgydF4y2Ba TPgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba TNgydF4y2Ba +gydF4y2Ba FNgydF4y2Ba TNgydF4y2Ba +gydF4y2Ba 《外交政策》gydF4y2Ba ×gydF4y2Ba One hundred.gydF4y2Ba %gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba TPgydF4y2Ba 表明真阳性,正确预测真正的人类感染菌株的表型;gydF4y2Ba TNgydF4y2Ba 表明真阴性,正确预测真正的人类感染菌株的表型;gydF4y2Ba 《外交政策》gydF4y2Ba 表明假阳性,人类感染菌株的表型预测人类感染菌株的表型;和gydF4y2Ba FNgydF4y2Ba 是假阴性,人类感染菌株的表型预测人类感染菌株的表型。敏感性和特异性指标衡量模型的预测能力在积极的和消极的情况下,分别。其他两个措施,ACC和MCC,被用来评估模型的整体性能。这四个指标,高分表明高绩效的模型。gydF4y2Ba

接受者操作特征(ROC)曲线,用于评估二元分类器系统的整体性能(gydF4y2Ba 27gydF4y2Ba),也被用于这项研究。生成的ROC曲线显示的是真阳性和假阳性率在不同分类阈值。我们也计算了ROC曲线下面积(AUC)来评估模型的预测性能。AUC值的范围从0.5到1。gydF4y2Ba

2.7。十倍交叉验证方法gydF4y2Ba

10倍交叉验证的方法被用来评估模型的预测性能。模型训练692正样本和1019年负样本,从清洗数据集随机选择。剩下的10%的样本(77 114积极和消极)被作为一个独立的测试数据集来评估分类器的性能。这个过程被重复10次,10结果平均获得的最终评价预测性能。gydF4y2Ba

3所示。结果与讨论gydF4y2Ba 3.1。猴免疫缺陷病毒签名的位置gydF4y2Ba

消除冗余和其他必要的清洗后的病毒的数据GISAID数据库,最后预测数据集的跨物种感染病毒包含两类:769年从人类分离的病毒和1133年分离出的病毒从猪。769人类病毒被认为是积极的样品,因为他们被证实感染人类的能力。1133年的甲型h1n1病毒被认为是负样本。这些病毒株总结在表的信息gydF4y2Ba S1gydF4y2Ba。gydF4y2Ba

屏幕上签名的位置,每个位置的熵的11个病毒蛋白质计算,分别。如表所示gydF4y2Ba 2gydF4y2Ba,HA蛋白含有最多的选择氨基酸残基(25/36),这是符合已知的HA的作用主要在受体结合和融合活动跨物种感染siv。职位HA102-HA290位于或接近宿主受体结合区域(gydF4y2Ba 28gydF4y2Ba,gydF4y2Ba 29日gydF4y2Ba),和HA163 HA189相关的特异性受体结合(gydF4y2Ba 30.gydF4y2Ba,gydF4y2Ba 31日gydF4y2Ba]。签名的位置被证实与种间传播的机制或在人类中传播效率高,从而理顺模型和效益预测精度。gydF4y2Ba

氨基酸为预测siv。gydF4y2Ba

全国矿工工会gydF4y2Ba 箴gydF4y2Ba1gydF4y2Ba PosgydF4y2Ba2gydF4y2Ba 熵gydF4y2Ba 全国矿工工会gydF4y2Ba 箴gydF4y2Ba PosgydF4y2Ba 熵gydF4y2Ba 全国矿工工会gydF4y2Ba 箴gydF4y2Ba PosgydF4y2Ba 熵gydF4y2Ba
1gydF4y2Ba 哈gydF4y2Ba 9gydF4y2Ba 1.57gydF4y2Ba 13gydF4y2Ba 哈gydF4y2Ba 163年gydF4y2Ba 1.56gydF4y2Ba 25gydF4y2Ba 哈gydF4y2Ba 401年gydF4y2Ba 1.51gydF4y2Ba
2gydF4y2Ba 哈gydF4y2Ba 53gydF4y2Ba 1.74gydF4y2Ba 14gydF4y2Ba 哈gydF4y2Ba 169年gydF4y2Ba 1.65gydF4y2Ba 26gydF4y2Ba NAgydF4y2Ba 42gydF4y2Ba 1.75gydF4y2Ba
3gydF4y2Ba 哈gydF4y2Ba 78年gydF4y2Ba 1.56gydF4y2Ba 15gydF4y2Ba 哈gydF4y2Ba 173年gydF4y2Ba 1.62gydF4y2Ba 27gydF4y2Ba NAgydF4y2Ba 43gydF4y2Ba 1.78gydF4y2Ba
4gydF4y2Ba 哈gydF4y2Ba 82年gydF4y2Ba 1.51gydF4y2Ba 16gydF4y2Ba 哈gydF4y2Ba 189年gydF4y2Ba 2.17gydF4y2Ba 28gydF4y2Ba NAgydF4y2Ba 52gydF4y2Ba 1.61gydF4y2Ba
5gydF4y2Ba 哈gydF4y2Ba 131年gydF4y2Ba 1.59gydF4y2Ba 17gydF4y2Ba 哈gydF4y2Ba 192年gydF4y2Ba 1.58gydF4y2Ba 29日gydF4y2Ba NAgydF4y2Ba 93年gydF4y2Ba 1.77gydF4y2Ba
6gydF4y2Ba 哈gydF4y2Ba 135年gydF4y2Ba 1.67gydF4y2Ba 18gydF4y2Ba 哈gydF4y2Ba 193年gydF4y2Ba 1.63gydF4y2Ba 30.gydF4y2Ba NAgydF4y2Ba 332年gydF4y2Ba 1.65gydF4y2Ba
7gydF4y2Ba 哈gydF4y2Ba 137年gydF4y2Ba 1.57gydF4y2Ba 19gydF4y2Ba 哈gydF4y2Ba 196年gydF4y2Ba 1.76gydF4y2Ba 31日gydF4y2Ba NAgydF4y2Ba 344年gydF4y2Ba 1.55gydF4y2Ba
8gydF4y2Ba 哈gydF4y2Ba 140年gydF4y2Ba 1.68gydF4y2Ba 20.gydF4y2Ba 哈gydF4y2Ba 199年gydF4y2Ba 1.62gydF4y2Ba 32gydF4y2Ba NAgydF4y2Ba 369年gydF4y2Ba 1.87gydF4y2Ba
9gydF4y2Ba 哈gydF4y2Ba 142年gydF4y2Ba 1.90gydF4y2Ba 21gydF4y2Ba 哈gydF4y2Ba 219年gydF4y2Ba 1.65gydF4y2Ba 33gydF4y2Ba NAgydF4y2Ba 385年gydF4y2Ba 1.74gydF4y2Ba
10gydF4y2Ba 党卫军gydF4y2Ba 144年gydF4y2Ba 2.15gydF4y2Ba 22gydF4y2Ba 哈gydF4y2Ba 261年gydF4y2Ba 1.76gydF4y2Ba 34gydF4y2Ba NAgydF4y2Ba 400年gydF4y2Ba 1.72gydF4y2Ba
11gydF4y2Ba 哈gydF4y2Ba 156年gydF4y2Ba 1.75gydF4y2Ba 23gydF4y2Ba 哈gydF4y2Ba 269年gydF4y2Ba 1.54gydF4y2Ba 35gydF4y2Ba NAgydF4y2Ba 435年gydF4y2Ba 1.69gydF4y2Ba
12gydF4y2Ba 哈gydF4y2Ba 159年gydF4y2Ba 1.65gydF4y2Ba 24gydF4y2Ba 哈gydF4y2Ba 276年gydF4y2Ba 1.62gydF4y2Ba 36gydF4y2Ba PB1-F2gydF4y2Ba 21gydF4y2Ba 1.52gydF4y2Ba

1gydF4y2Ba病毒蛋白。gydF4y2Ba2gydF4y2Ba氨基酸残基的位置为H3亚型编号。gydF4y2Ba

3.2。最优特性表征gydF4y2Ba

mRMR特性排名算法用于选择64 -维特征向量,由预测从64 RF模型(图gydF4y2Ba 1gydF4y2Ba)。64功能的特性列表排名排序后生成的重要性得分从mRMR算法。顺序向前搜索策略,提出了探索最优特性表示从64年的排名列表功能。特点是增加了一个接一个根据列表中的顺序,和RF分类器训练。流感病毒的数据进行了10倍交叉验证方法。ACC的顺序向前搜索曲线和MCC指标被吸引到找到优化的功能(图gydF4y2Ba 2gydF4y2Ba)。的类特性,RF分类器表现最好最大的ACC和MCC的95.69%和91.03%,分别选择功能数量20时(数据gydF4y2Ba 2(一个)gydF4y2Ba和gydF4y2Ba 2 (b)gydF4y2Ba)。这一结果表明,从排名前20的特性特性列表的最优表示能力区分猪病毒跨物种感染的能力。的概率特性,RF分类器表现最好的前25特性(ACC的96.37%和MCC 92.46%;数据gydF4y2Ba 2(一个)gydF4y2Ba和gydF4y2Ba 2 (b)gydF4y2Ba)。筛选20类和25概率特性被用来构建跨物种感染的预测分类器。gydF4y2Ba

特征表示与mRMR优化算法。(一)ACC的SFS曲线“阶级”和“概率”功能。数量特征(1 - 64)和准确性所代表的gydF4y2Ba xgydF4y2Ba - - -gydF4y2Ba ygydF4y2Ba 设在。(b) MCC的SFS曲线“阶级”和“概率”功能。数量特征(1 - 64)和系数代表了gydF4y2Ba xgydF4y2Ba - - -gydF4y2Ba ygydF4y2Ba 设在。“类”和“概率”的特征是由蓝色和黄色颜色标记。gydF4y2Ba

3.3。比较最优特性的表征与单个描述符gydF4y2Ba

使用类的功能,优化表示向量与20维获得20个人特征描述符。最优的预测性能特性与六个人最高描述符来评估特征的学习能力表示。的10倍交叉验证测试是实现基于数据集。gydF4y2Ba

相比性能最优类特性和个人特性见图gydF4y2Ba 3(一个)gydF4y2Ba,中华民国曲线如图gydF4y2Ba 3 (b)gydF4y2Ba。最优特性给了最好的预测性能最大的ACC和MCC的95.68%和91.03%,分别高于获得的值的第二特征描述符BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )(图gydF4y2Ba 3(一个)gydF4y2Ba)。使用我们的特征描述符获得的AUC(0.97)比BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba ;gydF4y2Ba 一个gydF4y2Ba UgydF4y2Ba CgydF4y2Ba =gydF4y2Ba 0.91gydF4y2Ba )。值得注意的是,只有20个功能被用于最优特性,而BIT20 (gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba )使用80的特性。此外,25个最优特性表征基于概率信息与个体特征描述符。相比性能的最优概率特性和个人特性如图gydF4y2Ba 3 (c)gydF4y2Ba和ROC曲线如图gydF4y2Ba 3 (d)gydF4y2Ba。结果是一致的,表明概率特性表征表现优于其他六个特征描述符。最优特性给了最好的预测性能最大的ACC和MCC的96.37%和92.46%,分别高于六个人的特性。gydF4y2Ba

最优的性能特点:(a)的最优“类”特性和顶部6个人描述符;(b) ROC曲线的最优“类”特性和顶部6个人描述符;(c)表现最佳的“概率”的特性和顶部6个人描述符;(d) ROC曲线的最优“概率”特性和顶部6个人描述符。gydF4y2Ba

3.4。比较类和概率信息gydF4y2Ba

流感病毒是由类和概率信息,以及他们的特征向量组成的预测64年射频模型编码签名36个氨基酸的位置。不同的信息来预测性能的跨物种感染猪流感病毒的评估。如表所示gydF4y2Ba 3gydF4y2Ba使用概率信息的表现特性,特征向量向量使用类的信息。基于概率信息的总体性能ACC和MCC值的95.95%和91.59%,分别基于类信息而整体性能ACC和MCC值的95.22%和90.05%,分别。两个最优特征向量的表演也如表所示gydF4y2Ba 3gydF4y2Ba。整个64 -维特征向量编码类和概率信息相比,最优的特性。排名后mRMR算法,基于最优概率信息的性能从95.95%上升到96.37%,ACC和MCC从91.59%降至92.46%,并基于类信息的性能从95.22%上升到95.69%,ACC和MCC从90.05%降至91.03%。这些结果证实,概率特性确定感染比类特性。然而,这两种功能类型有预测能力跨物种感染和被用来构建预测模型。gydF4y2Ba

结果使用类信息和概率信息的特征表示。gydF4y2Ba

特性gydF4y2Ba ACCgydF4y2Ba SEgydF4y2Ba SPgydF4y2Ba 世纪挑战集团gydF4y2Ba TPgydF4y2Ba TNgydF4y2Ba 《外交政策》gydF4y2Ba FNgydF4y2Ba
类特性gydF4y2Ba 95.22gydF4y2Ba 92.72gydF4y2Ba 96.91gydF4y2Ba 90.05gydF4y2Ba 713年gydF4y2Ba 1098年gydF4y2Ba 35gydF4y2Ba 56gydF4y2Ba
概率特性gydF4y2Ba 95.95gydF4y2Ba 93.24gydF4y2Ba 97.79gydF4y2Ba 91.59gydF4y2Ba 717年gydF4y2Ba 1108年gydF4y2Ba 25gydF4y2Ba 52gydF4y2Ba
最优类特性gydF4y2Ba 95.69gydF4y2Ba 93.50gydF4y2Ba 97.18gydF4y2Ba 91.03gydF4y2Ba 719年gydF4y2Ba 1101年gydF4y2Ba 32gydF4y2Ba 50gydF4y2Ba
最优概率特性gydF4y2Ba 96.37gydF4y2Ba 94.54gydF4y2Ba 97.62gydF4y2Ba 92.46gydF4y2Ba 727年gydF4y2Ba 1106年gydF4y2Ba 27gydF4y2Ba 42gydF4y2Ba
3.5。比较学习和整体学习的特征表示gydF4y2Ba

传统的集成学习方法决策组合来自多个模型的预测结果和分类。特性表示学习使用64年的预测和优化射频模型获得预测模型是类似传统的整体学习模型。两种类型的特征表示学习(学习和概率信息类信息)与两个古典乐团学习方法(多数表决和概率平均)。多数表决认为大多数的预测64年射频模型并根据少数服从多数原则做出预测。概率平均简单计算的概率值64 RF模型,使预测基于阈值。如表所示gydF4y2Ba 4gydF4y2Ba,这两种类型的功能表示学习给了比这两个传统的集成学习方法更好的性能。概率信息,学习策略特点最大ACC和MCC的96.37%和92.46%,分别。ACC和MCC获得我们的策略是高出约2%和3%,分别比获得的整体策略。基于类信息,该功能学习策略的最大ACC和MCC 95.69%和91.03%,分别。ACC和MMC获得我们的策略是高出约1%和3%,分别比获得的整体策略。值得注意的是,我们的功能学习策略取得了非凡的进步,尽管整体学习被认为是一个有效的方法来改善预测性能。gydF4y2Ba

学习和整体学习性能的特征表示。gydF4y2Ba

学习策略gydF4y2Ba ACCgydF4y2Ba SEgydF4y2Ba SPgydF4y2Ba 世纪挑战集团gydF4y2Ba TPgydF4y2Ba TNgydF4y2Ba 《外交政策》gydF4y2Ba FNgydF4y2Ba
类信息gydF4y2Ba 95.69gydF4y2Ba 93.50gydF4y2Ba 97.18gydF4y2Ba 91.03gydF4y2Ba 719年gydF4y2Ba 1101年gydF4y2Ba 32gydF4y2Ba 50gydF4y2Ba
概率信息gydF4y2Ba 96.37gydF4y2Ba 94.54gydF4y2Ba 97.62gydF4y2Ba 92.46gydF4y2Ba 727年gydF4y2Ba 1106年gydF4y2Ba 27gydF4y2Ba 42gydF4y2Ba
主要投票gydF4y2Ba 94.37gydF4y2Ba 90.51gydF4y2Ba 97.00gydF4y2Ba 88.31gydF4y2Ba 696年gydF4y2Ba 1099年gydF4y2Ba 34gydF4y2Ba 73年gydF4y2Ba
概率平均gydF4y2Ba 94.48gydF4y2Ba 90.77gydF4y2Ba 97.00gydF4y2Ba 88.52gydF4y2Ba 698年gydF4y2Ba 1099年gydF4y2Ba 34gydF4y2Ba 71年gydF4y2Ba
3.6。比较我们与经典分类器的预测gydF4y2Ba

我们使用RF算法和siv类或概率信息构造预测。评估射频方法的预测性能,我们预测与传统分类器相比,支持向量机(SVM),朴素贝叶斯(NB)和再(资讯),与10倍交叉验证数据集。这些分类器的参数是相同的与引用(gydF4y2Ba 4gydF4y2Ba]和[gydF4y2Ba 32gydF4y2Ba]。结果表明,射频方法给最好的总体预测性能基于类信息最大ACC和MCC的95.69%和91.03%,高出1.32%和2.71%,分别比用NB的方法获得的(数据gydF4y2Ba 4(一)gydF4y2Ba和gydF4y2Ba 4 (b)gydF4y2Ba)。我们的AUC(0.97)优于资讯(gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 4gydF4y2Ba ;gydF4y2Ba AUCgydF4y2Ba =gydF4y2Ba 0.95gydF4y2Ba )。我们也比较与传统分类器预测基于概率信息。概率特性表现优于其他三种分类器。射频方法给最好的基于概率预测的整体性能信息与最大ACC和MCC的96.37%和92.46%,高出2.58%和5.38%,分别比NB方法(数据gydF4y2Ba 4 (c)gydF4y2Ba和gydF4y2Ba 4 (d)gydF4y2Ba)。我们的AUC(0.98)优于NB (gydF4y2Ba AUCgydF4y2Ba =gydF4y2Ba 0.96gydF4y2Ba )。总的来说,结果表明,射频方法产生更好的比支持向量机预测的感染,NB,资讯的方法。gydF4y2Ba

比较传统的分类:(a)的最优“类”特性与传统分类器;(b) ROC曲线的最优“类”特性与传统分类器;(c)表现最佳的“概率”的特性与传统分类器;(d) ROC曲线的优化与传统分类器“概率”特性。gydF4y2Ba

4所示。结论gydF4y2Ba

描述了模型预测跨物种感染siv。这个预测的主要贡献是病毒蛋白质组信息的特性,从64特征描述符,包括成分、position-specific和物理化学信息。提出了学习计划功能表示。我们集成类和概率信息到我们的特征表示和删除冗余和不相关的特征在特征空间优化提高特征表征能力。十倍交叉验证结果表明,较高的预测性能通过使用20信息特性和22概率信息。我们比较特征表示与不同的学习策略和学习计划确认功能表示学习计划给了更好的预测。我们预料我们的方法将是一个强大的工具为大规模鉴定猪流感病毒,将促进表现型传播的特性,在病毒学加速他们的应用程序。gydF4y2Ba

数据可用性gydF4y2Ba

在注册任何应用程序(gydF4y2Ba https://www.gisaid.org/registration/register/gydF4y2Ba),本文中使用的公共的流感病毒序列可以从GISAID EpiFlu数据库下载(gydF4y2Ba http://platform.gisaid.org/epi3/frontendgydF4y2Ba数据库访问协议(下)gydF4y2Ba https://platform.epicov.org/epi3/frontend # 5 aa0cegydF4y2Ba与承认GISAID数据)和贡献者(gydF4y2Ba https://www.gisaid.org/help/publish-with-data-from-gisaid/gydF4y2Ba)。我们使用Python编程语言创建一个易于使用的工具,实现了我们的预测和处理大量的数据,这是自由通过gydF4y2Ba https://github.com/kouzheng/SIVPred-FLgydF4y2Ba。gydF4y2Ba

伦理批准gydF4y2Ba

没有人类/动物被用于研究,是本研究的基础。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明没有利益冲突,金融,或以其他方式。gydF4y2Ba

作者的贡献gydF4y2Ba

小李羌族的框架设计分析。郑口,俊杰李,赛义德Kosari执行所有的计算工作。郑口和Xinyue风扇实现代码。郑口和小李羌族写的手稿。所有作者阅读和批准最终的手稿。gydF4y2Ba

确认gydF4y2Ba

我们愿意承认原始和提交实验室的病毒序列GISAID EpiFlu公共数据库。这项工作得到了国家自然科学基金(61972109,61972109)。gydF4y2Ba

补充材料gydF4y2Ba

信息表的最后总结了1902株S1。gydF4y2Ba

韦伯斯特gydF4y2Ba r·G。gydF4y2Ba 豆gydF4y2Ba w·J。gydF4y2Ba 戈尔曼gydF4y2Ba o . T。gydF4y2Ba 钱伯斯gydF4y2Ba t M。gydF4y2Ba KawaokagydF4y2Ba Y。gydF4y2Ba 甲型流感病毒的进化和生态学gydF4y2Ba 微生物学检查gydF4y2Ba 1992年gydF4y2Ba 56gydF4y2Ba 1gydF4y2Ba 152年gydF4y2Ba 179年gydF4y2Ba 10.1128 / mr.56.1.152 - 179.1992gydF4y2Ba 1579108gydF4y2Ba 易北河gydF4y2Ba 年代。gydF4y2Ba Buckland-MerrettgydF4y2Ba G。gydF4y2Ba 数据、疾病和外交:GISAID对全球卫生的创新贡献gydF4y2Ba 全球挑战gydF4y2Ba 2017年gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 33gydF4y2Ba 46gydF4y2Ba 10.1002 / gch2.1018gydF4y2Ba 31565258gydF4y2Ba 蜀gydF4y2Ba Y。gydF4y2Ba 麦考利gydF4y2Ba J。gydF4y2Ba GISAID:全球共享所有流感数据项目从愿景到现实gydF4y2Ba 欧元的监测gydF4y2Ba 2017年gydF4y2Ba 22gydF4y2Ba 13gydF4y2Ba 30494年gydF4y2Ba 羌族gydF4y2Ba X。gydF4y2Ba 口gydF4y2Ba Z。gydF4y2Ba 得分氨基酸突变预测流行禽流感病毒的风险gydF4y2Ba BMC生物信息学gydF4y2Ba 2019年gydF4y2Ba 20.gydF4y2Ba S8gydF4y2Ba 288年gydF4y2Ba ClaasgydF4y2Ba e . C。gydF4y2Ba 欧斯特豪斯gydF4y2Ba 答:D。gydF4y2Ba 凡发现gydF4y2Ba R。gydF4y2Ba 德容gydF4y2Ba j . C。gydF4y2Ba RimmelzwaangydF4y2Ba g F。gydF4y2Ba SennegydF4y2Ba d . A。gydF4y2Ba 克劳斯gydF4y2Ba 年代。gydF4y2Ba ShortridgegydF4y2Ba k . F。gydF4y2Ba 韦伯斯特gydF4y2Ba r·G。gydF4y2Ba 人类流感H5N1病毒相关的高致病性禽流感病毒gydF4y2Ba 《柳叶刀》gydF4y2Ba 1998年gydF4y2Ba 351年gydF4y2Ba 9101年gydF4y2Ba 472年gydF4y2Ba 477年gydF4y2Ba 10.1016 / s0140 - 6736 (97) 11212 - 0gydF4y2Ba 2 - s2.0 - 0032515638gydF4y2Ba 苏巴拉奥gydF4y2Ba K。gydF4y2Ba 克里莫夫gydF4y2Ba 一个。gydF4y2Ba 卡茨gydF4y2Ba J。gydF4y2Ba RegnerygydF4y2Ba H。gydF4y2Ba LimgydF4y2Ba W。gydF4y2Ba 大厅gydF4y2Ba H。gydF4y2Ba 珀杜gydF4y2Ba M。gydF4y2Ba SwaynegydF4y2Ba D。gydF4y2Ba 本德gydF4y2Ba C。gydF4y2Ba 黄gydF4y2Ba J。gydF4y2Ba HemphillgydF4y2Ba M。gydF4y2Ba 罗gydF4y2Ba T。gydF4y2Ba 肖gydF4y2Ba M。gydF4y2Ba 徐gydF4y2Ba X。gydF4y2Ba 福田gydF4y2Ba K。gydF4y2Ba 考克斯gydF4y2Ba N。gydF4y2Ba 表征的禽流感A (H5N1)型病毒隔离一个孩子与一个致命的呼吸道疾病gydF4y2Ba 科学gydF4y2Ba 1998年gydF4y2Ba 279年gydF4y2Ba 5349年gydF4y2Ba 393年gydF4y2Ba 396年gydF4y2Ba 10.1126 / science.279.5349.393gydF4y2Ba 2 - s2.0 - 14444284599gydF4y2Ba 9430591gydF4y2Ba 布朗gydF4y2Ba i . H。gydF4y2Ba 猪的流感病毒的流行病学和演化gydF4y2Ba 兽医微生物学gydF4y2Ba 2000年gydF4y2Ba 74年gydF4y2Ba 1 - 2gydF4y2Ba 29日gydF4y2Ba 46gydF4y2Ba 10.1016 / s0378 - 1135 (00) 00164 - 4gydF4y2Ba 2 - s2.0 - 0034701743gydF4y2Ba 10799776gydF4y2Ba KarasingydF4y2Ba 答:我。gydF4y2Ba SchuttengydF4y2Ba M . M。gydF4y2Ba 库珀gydF4y2Ba l。gydF4y2Ba 史密斯gydF4y2Ba c . B。gydF4y2Ba 苏巴拉奥gydF4y2Ba K。gydF4y2Ba 安德森gydF4y2Ba g。gydF4y2Ba 运货马车的车夫gydF4y2Ba 年代。gydF4y2Ba 奥尔森gydF4y2Ba c·W。gydF4y2Ba 遗传特征的H3N2流感病毒分离猪在北美,1977 - 1999:证据完全人类和重组病毒基因型gydF4y2Ba 病毒的研究gydF4y2Ba 2000年gydF4y2Ba 68年gydF4y2Ba 1gydF4y2Ba 71年gydF4y2Ba 85年gydF4y2Ba 10.1016 / s0168 - 1702 (00) 00154 - 4gydF4y2Ba 2 - s2.0 - 0033892732gydF4y2Ba 10930664gydF4y2Ba 奥尔森gydF4y2Ba c·W。gydF4y2Ba 小说的出现在北美猪流感病毒gydF4y2Ba 病毒的研究gydF4y2Ba 2002年gydF4y2Ba 85年gydF4y2Ba 2gydF4y2Ba 199年gydF4y2Ba 210年gydF4y2Ba 10.1016 / s0168 - 1702 (02) 00027 - 8gydF4y2Ba 2 - s2.0 - 0037053093gydF4y2Ba 12034486gydF4y2Ba 周gydF4y2Ba N . N。gydF4y2Ba SennegydF4y2Ba d . A。gydF4y2Ba LandgrafgydF4y2Ba j·S。gydF4y2Ba 斯文森gydF4y2Ba s . L。gydF4y2Ba 埃里克森gydF4y2Ba G。gydF4y2Ba RossowgydF4y2Ba K。gydF4y2Ba 刘gydF4y2Ba lgydF4y2Ba 尹gydF4y2Ba k·J。gydF4y2Ba 克劳斯gydF4y2Ba 年代。gydF4y2Ba 韦伯斯特gydF4y2Ba r·G。gydF4y2Ba 基因重组的禽流感、猪和人类流感。美国猪病毒gydF4y2Ba 病毒学杂志gydF4y2Ba 1999年gydF4y2Ba 73年gydF4y2Ba 10gydF4y2Ba 8851年gydF4y2Ba 8856年gydF4y2Ba 10.1128 / jvi.73.10.8851 - 8856.1999gydF4y2Ba 10482643gydF4y2Ba DawoodgydF4y2Ba f·S。gydF4y2Ba 耆那教徒的gydF4y2Ba 年代。gydF4y2Ba FinelligydF4y2Ba lgydF4y2Ba 出现的一种新型swine-origin甲型流感(H1N1)病毒在人类身上gydF4y2Ba 《新英格兰医学杂志》上gydF4y2Ba 2009年gydF4y2Ba 360年gydF4y2Ba 25gydF4y2Ba 2605年gydF4y2Ba 2615年gydF4y2Ba 10.1056 / NEJMoa0903810gydF4y2Ba 2 - s2.0 - 67449110743gydF4y2Ba 19423869gydF4y2Ba 口gydF4y2Ba Z。gydF4y2Ba 胡gydF4y2Ba 年代。gydF4y2Ba 李gydF4y2Ba T。gydF4y2Ba 基因组的进化小说在人类甲型(H1N1)流感病毒gydF4y2Ba 科学通报gydF4y2Ba 2009年gydF4y2Ba 54gydF4y2Ba 13gydF4y2Ba 2159年gydF4y2Ba 2163年gydF4y2Ba 10.1007 / s11434 - 009 - 0412 - zgydF4y2Ba 2 - s2.0 - 70349333798gydF4y2Ba 史密斯gydF4y2Ba g . j . D。gydF4y2Ba VijaykrishnagydF4y2Ba D。gydF4y2Ba 巴尔gydF4y2Ba J。gydF4y2Ba LycettgydF4y2Ba 美国J。gydF4y2Ba 迈克尔沃罗贝gydF4y2Ba M。gydF4y2Ba PybusgydF4y2Ba o . G。gydF4y2Ba 马gydF4y2Ba 美国K。gydF4y2Ba 张gydF4y2Ba c . L。gydF4y2Ba RaghwanigydF4y2Ba J。gydF4y2Ba BhattgydF4y2Ba 年代。gydF4y2Ba 裴伟士gydF4y2Ba j·s·M。gydF4y2Ba 关gydF4y2Ba Y。gydF4y2Ba 兰姆伯特gydF4y2Ba 一个。gydF4y2Ba 起源和进化基因组学的2009 swine-origin甲型H1N1流感疫情gydF4y2Ba 自然gydF4y2Ba 2009年gydF4y2Ba 459年gydF4y2Ba 7250年gydF4y2Ba 1122年gydF4y2Ba 1125年gydF4y2Ba 10.1038 / nature08182gydF4y2Ba 2 - s2.0 - 67649538978gydF4y2Ba 19516283gydF4y2Ba 鲍曼gydF4y2Ba 答:S。gydF4y2Ba 纳尔逊gydF4y2Ba s W。gydF4y2Ba 页面gydF4y2Ba s . L。gydF4y2Ba Nolting校长称gydF4y2Ba j . M。gydF4y2Ba 基里gydF4y2Ba m . L。gydF4y2Ba SreevatsangydF4y2Ba 年代。gydF4y2Ba SlemonsgydF4y2Ba r D。gydF4y2Ba Swine-to-human传播甲型流感病毒(H3N2)在农业博览会,俄亥俄州,美国,2012年gydF4y2Ba 新发传染病gydF4y2Ba 2012年gydF4y2Ba 20.gydF4y2Ba 9gydF4y2Ba 1472年gydF4y2Ba 1480年gydF4y2Ba Pulit-PenalozagydF4y2Ba j . A。gydF4y2Ba 帕帕斯gydF4y2Ba C。gydF4y2Ba 贝尔瑟gydF4y2Ba j . A。gydF4y2Ba 太阳gydF4y2Ba X。gydF4y2Ba 布鲁克gydF4y2Ba N。gydF4y2Ba 曾gydF4y2Ba H。gydF4y2Ba 汤佩使gydF4y2Ba t M。gydF4y2Ba 玛蒂gydF4y2Ba t·R。gydF4y2Ba 比较体外和体内分析流感病毒H1N1和H1N2变体与人类在2011年和2016年之间gydF4y2Ba 病毒学杂志gydF4y2Ba 2018年gydF4y2Ba 92年gydF4y2Ba 22gydF4y2Ba e01444-18gydF4y2Ba 羌族gydF4y2Ba X。gydF4y2Ba 周gydF4y2Ba C。gydF4y2Ba 叶gydF4y2Ba X。gydF4y2Ba 杜gydF4y2Ba P。gydF4y2Ba 跑gydF4y2Ba 年代。gydF4y2Ba 魏gydF4y2Ba lgydF4y2Ba CPPred-FL: cell-penetrating肽的序列预测大规模识别特性表示学习gydF4y2Ba 简报的生物信息学gydF4y2Ba 2020年gydF4y2Ba 21gydF4y2Ba 1gydF4y2Ba 11gydF4y2Ba 23gydF4y2Ba 汉gydF4y2Ba H。gydF4y2Ba 导数的大规模光谱成分分析血清蛋白质组配置文件gydF4y2Ba BMC医学基因组学gydF4y2Ba 2014年gydF4y2Ba 7gydF4y2Ba S1gydF4y2Ba S5gydF4y2Ba 曾gydF4y2Ba X。gydF4y2Ba 刘gydF4y2Ba lgydF4y2Ba 陆gydF4y2Ba lgydF4y2Ba 邹gydF4y2Ba Q。gydF4y2Ba 使用结构摄动方法预测潜在的疾病有关的小分子核糖核酸gydF4y2Ba 生物信息学gydF4y2Ba 2018年gydF4y2Ba 34gydF4y2Ba 14gydF4y2Ba 2425年gydF4y2Ba 2432年gydF4y2Ba 10.1093 /生物信息学/ bty112gydF4y2Ba 2 - s2.0 - 85053074597gydF4y2Ba 29490018gydF4y2Ba 埃德加gydF4y2Ba r . C。gydF4y2Ba 肌肉:多重序列比对和高准确性和高吞吐量gydF4y2Ba 核酸的研究gydF4y2Ba 2004年gydF4y2Ba 32gydF4y2Ba 5gydF4y2Ba 1792年gydF4y2Ba 1797年gydF4y2Ba 10.1093 / nar / gkh340gydF4y2Ba 2 - s2.0 - 3042666256gydF4y2Ba 15034147gydF4y2Ba 李gydF4y2Ba W。gydF4y2Ba GodzikgydF4y2Ba 一个。gydF4y2Ba Cd-hit:快速聚类和比较大的组蛋白或核苷酸序列gydF4y2Ba 生物信息学gydF4y2Ba 2006年gydF4y2Ba 22gydF4y2Ba 13gydF4y2Ba 1658年gydF4y2Ba 1659年gydF4y2Ba 10.1093 /生物信息学/ btl158gydF4y2Ba 2 - s2.0 - 33745634395gydF4y2Ba 16731699gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 马gydF4y2Ba C。gydF4y2Ba 口gydF4y2Ba Z。gydF4y2Ba 周gydF4y2Ba Y。gydF4y2Ba 刘gydF4y2Ba H。gydF4y2Ba 预测禽流感病毒从禽流感的传播对人类使用的物理化学性质gydF4y2Ba 国际期刊的数据挖掘和生物信息学gydF4y2Ba 2013年gydF4y2Ba 7gydF4y2Ba 2gydF4y2Ba 166年gydF4y2Ba 179年gydF4y2Ba 10.1504 / IJDMB.2013.053198gydF4y2Ba 2 - s2.0 - 84876267297gydF4y2Ba 23777174gydF4y2Ba 刘gydF4y2Ba B。gydF4y2Ba 刘gydF4y2Ba F。gydF4y2Ba 王gydF4y2Ba X。gydF4y2Ba 陈gydF4y2Ba J。gydF4y2Ba 方gydF4y2Ba lgydF4y2Ba 周gydF4y2Ba K。gydF4y2Ba Pse-in-one: web服务器生成各种伪模式组件的DNA, RNA和蛋白质序列gydF4y2Ba 核酸的研究gydF4y2Ba 2015年gydF4y2Ba 43gydF4y2Ba W1gydF4y2Ba W65gydF4y2Ba W71gydF4y2Ba 10.1093 / nar / gkv458gydF4y2Ba 2 - s2.0 - 84979865452gydF4y2Ba 25958395gydF4y2Ba AtchleygydF4y2Ba w·R。gydF4y2Ba 赵gydF4y2Ba J。gydF4y2Ba 费尔南德斯gydF4y2Ba 答:D。gydF4y2Ba DrukegydF4y2Ba T。gydF4y2Ba 解决蛋白质序列度量问题gydF4y2Ba 美国国家科学院院刊》上的美利坚合众国gydF4y2Ba 2005年gydF4y2Ba 102年gydF4y2Ba 18gydF4y2Ba 6395年gydF4y2Ba 6400年gydF4y2Ba 10.1073 / pnas.0408677102gydF4y2Ba 2 - s2.0 - 18144406581gydF4y2Ba 15851683gydF4y2Ba 窦gydF4y2Ba Y。gydF4y2Ba 姚gydF4y2Ba B。gydF4y2Ba 张gydF4y2Ba C。gydF4y2Ba PhosphoSVM:磷酸化预测网站通过集成支持向量机的各种蛋白质序列属性gydF4y2Ba 氨基酸gydF4y2Ba 2014年gydF4y2Ba 46gydF4y2Ba 6gydF4y2Ba 1459年gydF4y2Ba 1469年gydF4y2Ba 10.1007 / s00726 - 014 - 1711 - 5gydF4y2Ba 2 - s2.0 - 84901445385gydF4y2Ba 24623121gydF4y2Ba 丁gydF4y2Ba C。gydF4y2Ba 彭gydF4y2Ba H。gydF4y2Ba 从微阵列基因表达数据最小冗余特征选择gydF4y2Ba 生物信息学和计算生物学》杂志上gydF4y2Ba 2005年gydF4y2Ba 3gydF4y2Ba 2gydF4y2Ba 185年gydF4y2Ba 205年gydF4y2Ba 10.1142 / S0219720005001004gydF4y2Ba 2 - s2.0 - 17644384367gydF4y2Ba LiawgydF4y2Ba 一个。gydF4y2Ba 维纳gydF4y2Ba M。gydF4y2Ba 随机森林分类和回归gydF4y2Ba R新闻gydF4y2Ba 2002年gydF4y2Ba 2gydF4y2Ba 3gydF4y2Ba 18gydF4y2Ba 22gydF4y2Ba 唱gydF4y2Ba T。gydF4y2Ba 砂光机gydF4y2Ba O。gydF4y2Ba BeerenwinkelgydF4y2Ba N。gydF4y2Ba LengauergydF4y2Ba T。gydF4y2Ba 在R ROCR:可视化分类器的性能gydF4y2Ba 生物信息学gydF4y2Ba 2005年gydF4y2Ba 21gydF4y2Ba 20.gydF4y2Ba 3940年gydF4y2Ba 3941年gydF4y2Ba 10.1093 /生物信息学/ bti623gydF4y2Ba 2 - s2.0 - 27544491192gydF4y2Ba 16096348gydF4y2Ba 赫尔斯gydF4y2Ba d . J。gydF4y2Ba 韦伯斯特gydF4y2Ba r·G。gydF4y2Ba 罗素gydF4y2Ba r . J。gydF4y2Ba 佩雷斯gydF4y2Ba d·R。gydF4y2Ba 在表面蛋白分子因素参与的致病性H5N1流感病毒鸡gydF4y2Ba 病毒学杂志gydF4y2Ba 2004年gydF4y2Ba 78年gydF4y2Ba 18gydF4y2Ba 9954年gydF4y2Ba 9964年gydF4y2Ba 10.1128 / jvi.78.18.9954 - 9964.2004gydF4y2Ba 2 - s2.0 - 4444333308gydF4y2Ba 15331729gydF4y2Ba 史蒂文斯gydF4y2Ba J。gydF4y2Ba 集团gydF4y2Ba a . L。gydF4y2Ba 巴斯勒gydF4y2Ba c F。gydF4y2Ba 陶本伯杰gydF4y2Ba j·K。gydF4y2Ba Palese称gydF4y2Ba P。gydF4y2Ba 威尔逊gydF4y2Ba 我一个。gydF4y2Ba 结构uncleaved人类H1灭绝了1918年流感病毒血凝素gydF4y2Ba 科学gydF4y2Ba 2004年gydF4y2Ba 303年gydF4y2Ba 5665年gydF4y2Ba 1866年gydF4y2Ba 1870年gydF4y2Ba 10.1126 / science.1093373gydF4y2Ba 2 - s2.0 - 1642352884gydF4y2Ba 14764887gydF4y2Ba 格拉泽gydF4y2Ba lgydF4y2Ba 史蒂文斯gydF4y2Ba J。gydF4y2Ba ZamaringydF4y2Ba D。gydF4y2Ba 威尔逊gydF4y2Ba 我一个。gydF4y2Ba Garcia-SastregydF4y2Ba 一个。gydF4y2Ba 汤佩使gydF4y2Ba t M。gydF4y2Ba 巴斯勒gydF4y2Ba c F。gydF4y2Ba 陶本伯杰gydF4y2Ba j·K。gydF4y2Ba Palese称gydF4y2Ba P。gydF4y2Ba 一个氨基酸替换1918年流感病毒血凝素受体结合特异性改变gydF4y2Ba 病毒学杂志gydF4y2Ba 2005年gydF4y2Ba 79年gydF4y2Ba 17gydF4y2Ba 11533年gydF4y2Ba 11536年gydF4y2Ba 10.1128 / jvi.79.17.11533 - 11536.2005gydF4y2Ba 2 - s2.0 - 23844487765gydF4y2Ba 16103207gydF4y2Ba 索雷尔gydF4y2Ba e . M。gydF4y2Ba 王ydF4y2Ba H。gydF4y2Ba 阿瑞亚gydF4y2Ba Y。gydF4y2Ba 首歌gydF4y2Ba H。gydF4y2Ba 佩雷斯gydF4y2Ba d·R。gydF4y2Ba 最小的分子约束avian-human H9N2流感病毒的呼吸道飞沫传播gydF4y2Ba 美国国家科学院院刊》上的美利坚合众国gydF4y2Ba 2009年gydF4y2Ba 106年gydF4y2Ba 18gydF4y2Ba 7565年gydF4y2Ba 7570年gydF4y2Ba 10.1073 / pnas.0900877106gydF4y2Ba 2 - s2.0 - 66149130765gydF4y2Ba 19380727gydF4y2Ba 羌族gydF4y2Ba X。gydF4y2Ba 口gydF4y2Ba Z。gydF4y2Ba 方gydF4y2Ba G。gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba 得分氨基酸突变预测avian-to-human禽流感病毒的传播gydF4y2Ba 分子gydF4y2Ba 2018年gydF4y2Ba 23gydF4y2Ba 7gydF4y2Ba 1584年gydF4y2Ba