猪流感病毒(siv)可以预见直接跨越物种屏障,感染人类,给公众健康带来巨大的挑战,引发大流行风险不定期出版。需要计算工具来预测感染siv表型和早期流行的风险。为此,我们提出一个算法来预测跨物种感染siv特性表示。我们建立了一个高质量的数据集1902年的病毒。学习计划学习应用功能特性表示表示从64年开始训练有素的随机森林模型与多个特征描述符的突变病毒蛋白质的氨基酸,包括成分信息,position-specific信息和物理化学性质。类和概率信息集成到特性表征,和冗余的特征是通过特征空间优化。高性能是通过使用20信息特性和22概率信息。该方法将促进SIV的表现型传播。gydF4y2Ba
甲型流感病毒(家庭:Orthomyxoviridae)基因组包含8个节段rna (gydF4y2Ba
猪流感病毒(SIV)是一种A型流感病毒引起的急性呼吸道传染病,猪(gydF4y2Ba
计算生物信息学工具需要预测siv传输表型和大流行性流感的风险。为此,机器学习方法可能是理想的工具(gydF4y2Ba
识别siv能跨物种传播,我们构建了一个与两个预测模型,预测被训练使用20特性基于类信息或22射频下基于概率信息分类器的特性。特性的预测表示学习取得了高预测性能。这项研究提供了一个重要的工具在预测跨物种感染siv的公共卫生。gydF4y2Ba
病毒性流感病毒从猪和人类分离序列从GISAID EpiFlu公共数据库(下载gydF4y2Ba
我们获得5860结构性投资工具和44623人流感病毒从GISAID数据库2019年3月21日。数据集包括所有的11个流感病毒蛋白质(PB2, PB1 PB1-F2, PA,哈,NP, NA, M1, M2, NS1,和NEP)编码在8个基因片段。压力没有任何的11个蛋白质序列或没有亚型信息被排除在外。11蛋白质测定的氨基酸位置使用多重序列比对工具肌肉(gydF4y2Ba
最后预测数据集跨物种感染病毒包含两类:(1)769年从人类分离的病毒(正面样本;H1N1, H1N2 H2N2, H3N2亚型);(2)1133年流感病毒从猪分离(负样本;H1N1, H1N2和H3N2亚型)。积极的人类流感病毒样本由季节性,2009年大流感甲型h1n1病毒,甲型h1n1病毒与人类和变体。由于这些病毒也可以隔绝猪(gydF4y2Ba
大多数的病毒蛋白质的氨基酸残基是守恒的。以减少计算复杂度,氨基酸残基被过滤的熵测量在每个位置11病毒蛋白质。对于一个给定的位置gydF4y2Ba
突变病毒蛋白确定致病性或毒性的siv (gydF4y2Ba
氨基酸组成(AAC)像往常一样是一个20-dimension向量。因为病毒蛋白质的差距(删除或插入)经常发生在猴免疫缺陷病毒的进化,我们定义了AAC 21-dimension向量代表20个氨基酸残基的频率和36差距之一签名病毒蛋白质的位置。例如,如果氨基酸类型gydF4y2Ba
平行correlation-based pseudo-amino-acid成分(PC-PseAAC)方法被用来计算并行相关的任意两个氨基酸36签名病毒蛋白质的氨基酸位置序列(gydF4y2Ba
的G-gap二肽成分(GGAP)二肽成分加上本地订单信息的任意两个间隔的36个氨基酸残基中残留的11为每个病毒病毒蛋白质。的GGAP是常用的功能描述符序列分析和模型构建。摘要GGAP 441维向量表示的频率20个氨基酸残基组成的二肽和一个缺口。它被定义为gydF4y2Ba
Position-specific信息和物理化学性质被用来编码为每个病毒36个氨基酸残基。五个标准氨基酸的物理化学性质描述符,即极性,二级结构,分子体积,密码子的多样性,静电电荷gydF4y2Ba
Twenty-one-bit功能就像一个一个炎热的编码。在该算法中,每个氨基酸残基向量转换为21-bit 0/1。(例如,阿拉巴马州1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;indel 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1)。鉴于氨基酸增强方法中,每个应变gydF4y2Ba
该算法分为20标准氨基酸和一个缺口(indel)根据理化性质分为11个不同的组。20个氨基酸链的分布10组可以重叠gydF4y2Ba
表示学习算法的框架特性,其中包括两个主要步骤,优化特征表示学习和特征表示,如图gydF4y2Ba
流程图表示学习氨基酸的功能。数据清理后,36签名氨基酸位置基于熵筛选。六个编码算法和参数的变化被用来探索的关键信息。所有64年功能池是用来描述符与RF模型训练和预测,和两种类型的预测了进一步优化。每个猪病毒最终被两个优化的特征向量表示,“类”和“概率。“最后,预测模型构建和比较。gydF4y2Ba
六个特征编码算法是AAC、PC-PseAAC GGAP, 20位功能(BIT20) 21-bit特性(BIT21),和重叠的产权特性(OLP),都是上面描述的。功能池建于生成尽可能多的信息和不同的参数预测模型。例如,gydF4y2Ba
总结的特征描述符数量及其相应的功能。gydF4y2Ba
| 描述符gydF4y2Ba | 类型gydF4y2Ba | 数量gydF4y2Ba | 描述符gydF4y2Ba | 类型gydF4y2Ba | 数量gydF4y2Ba |
|---|---|---|---|---|---|
| 1gydF4y2Ba | AAC格式gydF4y2Ba | 20.gydF4y2Ba | 33gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba |
| 2gydF4y2Ba | PseAAC (gydF4y2Ba |
21gydF4y2Ba | 34gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba |
| 3gydF4y2Ba | PseAAC (gydF4y2Ba |
22gydF4y2Ba | 35gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba |
| 4gydF4y2Ba | PseAAC (gydF4y2Ba |
23gydF4y2Ba | 36gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba |
| 5gydF4y2Ba | PseAAC (gydF4y2Ba |
24gydF4y2Ba | 37gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba |
| 6gydF4y2Ba | PseAAC (gydF4y2Ba |
25gydF4y2Ba | 38gydF4y2Ba | BIT20 (gydF4y2Ba |
80年gydF4y2Ba |
| 7gydF4y2Ba | PseAAC (gydF4y2Ba |
26gydF4y2Ba | 39gydF4y2Ba | BIT20 (gydF4y2Ba |
160年gydF4y2Ba |
| 8gydF4y2Ba | PseAAC (gydF4y2Ba |
27gydF4y2Ba | 40gydF4y2Ba | BIT20 (gydF4y2Ba |
240年gydF4y2Ba |
| 9gydF4y2Ba | PseAAC (gydF4y2Ba |
28gydF4y2Ba | 41gydF4y2Ba | BIT20 (gydF4y2Ba |
320年gydF4y2Ba |
| 10gydF4y2Ba | PseAAC (gydF4y2Ba |
29日gydF4y2Ba | 42gydF4y2Ba | BIT20 (gydF4y2Ba |
400年gydF4y2Ba |
| 11gydF4y2Ba | PseAAC (gydF4y2Ba |
30.gydF4y2Ba | 43gydF4y2Ba | BIT20 (gydF4y2Ba |
480年gydF4y2Ba |
| 12gydF4y2Ba | PseAAC (gydF4y2Ba |
31日gydF4y2Ba | 44gydF4y2Ba | BIT20 (gydF4y2Ba |
560年gydF4y2Ba |
| 13gydF4y2Ba | PseAAC (gydF4y2Ba |
32gydF4y2Ba | 45gydF4y2Ba | BIT20 (gydF4y2Ba |
640年gydF4y2Ba |
| 14gydF4y2Ba | PseAAC (gydF4y2Ba |
33gydF4y2Ba | 46gydF4y2Ba | BIT20 (gydF4y2Ba |
720年gydF4y2Ba |
| 15gydF4y2Ba | PseAAC (gydF4y2Ba |
34gydF4y2Ba | 47gydF4y2Ba | BIT21 (gydF4y2Ba |
84年gydF4y2Ba |
| 16gydF4y2Ba | PseAAC (gydF4y2Ba |
35gydF4y2Ba | 48gydF4y2Ba | BIT21 (gydF4y2Ba |
168年gydF4y2Ba |
| 17gydF4y2Ba | PseAAC (gydF4y2Ba |
36gydF4y2Ba | 49gydF4y2Ba | BIT21 (gydF4y2Ba |
252年gydF4y2Ba |
| 18gydF4y2Ba | PseAAC (gydF4y2Ba |
37gydF4y2Ba | 50gydF4y2Ba | BIT21 (gydF4y2Ba |
336年gydF4y2Ba |
| 19gydF4y2Ba | PseAAC (gydF4y2Ba |
38gydF4y2Ba | 51gydF4y2Ba | BIT21 (gydF4y2Ba |
420年gydF4y2Ba |
| 20.gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 52gydF4y2Ba | BIT21 (gydF4y2Ba |
504年gydF4y2Ba |
| 21gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 53gydF4y2Ba | BIT21 (gydF4y2Ba |
588年gydF4y2Ba |
| 22gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 54gydF4y2Ba | BIT21 (gydF4y2Ba |
672年gydF4y2Ba |
| 23gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 55gydF4y2Ba | BIT21 (gydF4y2Ba |
756年gydF4y2Ba |
| 24gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 56gydF4y2Ba | OLP (gydF4y2Ba |
44gydF4y2Ba |
| 25gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 57gydF4y2Ba | OLP (gydF4y2Ba |
88年gydF4y2Ba |
| 26gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 58gydF4y2Ba | OLP (gydF4y2Ba |
132年gydF4y2Ba |
| 27gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 59gydF4y2Ba | OLP (gydF4y2Ba |
176年gydF4y2Ba |
| 28gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 60gydF4y2Ba | OLP (gydF4y2Ba |
220年gydF4y2Ba |
| 29日gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 61年gydF4y2Ba | OLP (gydF4y2Ba |
264年gydF4y2Ba |
| 30.gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 62年gydF4y2Ba | OLP (gydF4y2Ba |
308年gydF4y2Ba |
| 31日gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 63年gydF4y2Ba | OLP (gydF4y2Ba |
352年gydF4y2Ba |
| 32gydF4y2Ba | GGAP (gydF4y2Ba |
441年gydF4y2Ba | 64年gydF4y2Ba | OLP (gydF4y2Ba |
396年gydF4y2Ba |
优化的特征表示,前两种类型的预测被用来完成学习。所有64年功能池是用来描述符与RF模型训练和预测,和两种类型的预测。第一个预测类型是类标签(正面或负面):积极的样品(猪病毒跨物种感染的表型)被标记为1,和负样本(猪病毒没有跨物种感染的表型)被标记为0。第二个预测类型是伪概率样本属于某个类(积极或消极)。为每个预测类型,所有64 64射频输出计算的模型连接作为一种新的特征向量。每个猪病毒最终被表示为两个64维特征向量,这标志着“阶级”和“概率”,分别。特征向量“类”由类信息从原始功能池,和特征向量“概率”由概率信息。速度快,计算预计第一类型模型,同时为预测精度高性能预计第二类型模型。gydF4y2Ba
两种预测被进一步优化提高特征表征能力。mRMR,著名的特征选择方法是用来排在“类”的特点和“概率”信息(gydF4y2Ba
RF算法被用来获得两种类型的特征向量,构建预测模型的跨物种感染siv。射频机器学习算法是健壮的和被广泛应用模型生物学数据(gydF4y2Ba
我们使用四个常用指标评估模型的性能,即敏感性(SN),特异性(SP)、准确性(ACC),马修的相关系数(MCC)如下:gydF4y2Ba
接受者操作特征(ROC)曲线,用于评估二元分类器系统的整体性能(gydF4y2Ba
10倍交叉验证的方法被用来评估模型的预测性能。模型训练692正样本和1019年负样本,从清洗数据集随机选择。剩下的10%的样本(77 114积极和消极)被作为一个独立的测试数据集来评估分类器的性能。这个过程被重复10次,10结果平均获得的最终评价预测性能。gydF4y2Ba
消除冗余和其他必要的清洗后的病毒的数据GISAID数据库,最后预测数据集的跨物种感染病毒包含两类:769年从人类分离的病毒和1133年分离出的病毒从猪。769人类病毒被认为是积极的样品,因为他们被证实感染人类的能力。1133年的甲型h1n1病毒被认为是负样本。这些病毒株总结在表的信息gydF4y2Ba
屏幕上签名的位置,每个位置的熵的11个病毒蛋白质计算,分别。如表所示gydF4y2Ba
氨基酸为预测siv。gydF4y2Ba
| 全国矿工工会gydF4y2Ba | 箴gydF4y2Ba1gydF4y2Ba | PosgydF4y2Ba2gydF4y2Ba | 熵gydF4y2Ba | 全国矿工工会gydF4y2Ba | 箴gydF4y2Ba | PosgydF4y2Ba | 熵gydF4y2Ba | 全国矿工工会gydF4y2Ba | 箴gydF4y2Ba | PosgydF4y2Ba | 熵gydF4y2Ba |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1gydF4y2Ba | 哈gydF4y2Ba | 9gydF4y2Ba | 1.57gydF4y2Ba | 13gydF4y2Ba | 哈gydF4y2Ba | 163年gydF4y2Ba | 1.56gydF4y2Ba | 25gydF4y2Ba | 哈gydF4y2Ba | 401年gydF4y2Ba | 1.51gydF4y2Ba |
| 2gydF4y2Ba | 哈gydF4y2Ba | 53gydF4y2Ba | 1.74gydF4y2Ba | 14gydF4y2Ba | 哈gydF4y2Ba | 169年gydF4y2Ba | 1.65gydF4y2Ba | 26gydF4y2Ba | NAgydF4y2Ba | 42gydF4y2Ba | 1.75gydF4y2Ba |
| 3gydF4y2Ba | 哈gydF4y2Ba | 78年gydF4y2Ba | 1.56gydF4y2Ba | 15gydF4y2Ba | 哈gydF4y2Ba | 173年gydF4y2Ba | 1.62gydF4y2Ba | 27gydF4y2Ba | NAgydF4y2Ba | 43gydF4y2Ba | 1.78gydF4y2Ba |
| 4gydF4y2Ba | 哈gydF4y2Ba | 82年gydF4y2Ba | 1.51gydF4y2Ba | 16gydF4y2Ba | 哈gydF4y2Ba | 189年gydF4y2Ba | 2.17gydF4y2Ba | 28gydF4y2Ba | NAgydF4y2Ba | 52gydF4y2Ba | 1.61gydF4y2Ba |
| 5gydF4y2Ba | 哈gydF4y2Ba | 131年gydF4y2Ba | 1.59gydF4y2Ba | 17gydF4y2Ba | 哈gydF4y2Ba | 192年gydF4y2Ba | 1.58gydF4y2Ba | 29日gydF4y2Ba | NAgydF4y2Ba | 93年gydF4y2Ba | 1.77gydF4y2Ba |
| 6gydF4y2Ba | 哈gydF4y2Ba | 135年gydF4y2Ba | 1.67gydF4y2Ba | 18gydF4y2Ba | 哈gydF4y2Ba | 193年gydF4y2Ba | 1.63gydF4y2Ba | 30.gydF4y2Ba | NAgydF4y2Ba | 332年gydF4y2Ba | 1.65gydF4y2Ba |
| 7gydF4y2Ba | 哈gydF4y2Ba | 137年gydF4y2Ba | 1.57gydF4y2Ba | 19gydF4y2Ba | 哈gydF4y2Ba | 196年gydF4y2Ba | 1.76gydF4y2Ba | 31日gydF4y2Ba | NAgydF4y2Ba | 344年gydF4y2Ba | 1.55gydF4y2Ba |
| 8gydF4y2Ba | 哈gydF4y2Ba | 140年gydF4y2Ba | 1.68gydF4y2Ba | 20.gydF4y2Ba | 哈gydF4y2Ba | 199年gydF4y2Ba | 1.62gydF4y2Ba | 32gydF4y2Ba | NAgydF4y2Ba | 369年gydF4y2Ba | 1.87gydF4y2Ba |
| 9gydF4y2Ba | 哈gydF4y2Ba | 142年gydF4y2Ba | 1.90gydF4y2Ba | 21gydF4y2Ba | 哈gydF4y2Ba | 219年gydF4y2Ba | 1.65gydF4y2Ba | 33gydF4y2Ba | NAgydF4y2Ba | 385年gydF4y2Ba | 1.74gydF4y2Ba |
| 10gydF4y2Ba | 党卫军gydF4y2Ba | 144年gydF4y2Ba | 2.15gydF4y2Ba | 22gydF4y2Ba | 哈gydF4y2Ba | 261年gydF4y2Ba | 1.76gydF4y2Ba | 34gydF4y2Ba | NAgydF4y2Ba | 400年gydF4y2Ba | 1.72gydF4y2Ba |
| 11gydF4y2Ba | 哈gydF4y2Ba | 156年gydF4y2Ba | 1.75gydF4y2Ba | 23gydF4y2Ba | 哈gydF4y2Ba | 269年gydF4y2Ba | 1.54gydF4y2Ba | 35gydF4y2Ba | NAgydF4y2Ba | 435年gydF4y2Ba | 1.69gydF4y2Ba |
| 12gydF4y2Ba | 哈gydF4y2Ba | 159年gydF4y2Ba | 1.65gydF4y2Ba | 24gydF4y2Ba | 哈gydF4y2Ba | 276年gydF4y2Ba | 1.62gydF4y2Ba | 36gydF4y2Ba | PB1-F2gydF4y2Ba | 21gydF4y2Ba | 1.52gydF4y2Ba |
1gydF4y2Ba病毒蛋白。gydF4y2Ba2gydF4y2Ba氨基酸残基的位置为H3亚型编号。gydF4y2Ba
mRMR特性排名算法用于选择64 -维特征向量,由预测从64 RF模型(图gydF4y2Ba
特征表示与mRMR优化算法。(一)ACC的SFS曲线“阶级”和“概率”功能。数量特征(1 - 64)和准确性所代表的gydF4y2Ba
使用类的功能,优化表示向量与20维获得20个人特征描述符。最优的预测性能特性与六个人最高描述符来评估特征的学习能力表示。的10倍交叉验证测试是实现基于数据集。gydF4y2Ba
相比性能最优类特性和个人特性见图gydF4y2Ba
最优的性能特点:(a)的最优“类”特性和顶部6个人描述符;(b) ROC曲线的最优“类”特性和顶部6个人描述符;(c)表现最佳的“概率”的特性和顶部6个人描述符;(d) ROC曲线的最优“概率”特性和顶部6个人描述符。gydF4y2Ba
流感病毒是由类和概率信息,以及他们的特征向量组成的预测64年射频模型编码签名36个氨基酸的位置。不同的信息来预测性能的跨物种感染猪流感病毒的评估。如表所示gydF4y2Ba
结果使用类信息和概率信息的特征表示。gydF4y2Ba
| 特性gydF4y2Ba | ACCgydF4y2Ba | SEgydF4y2Ba | SPgydF4y2Ba | 世纪挑战集团gydF4y2Ba | TPgydF4y2Ba | TNgydF4y2Ba | 《外交政策》gydF4y2Ba | FNgydF4y2Ba |
|---|---|---|---|---|---|---|---|---|
| 类特性gydF4y2Ba | 95.22gydF4y2Ba | 92.72gydF4y2Ba | 96.91gydF4y2Ba | 90.05gydF4y2Ba | 713年gydF4y2Ba | 1098年gydF4y2Ba | 35gydF4y2Ba | 56gydF4y2Ba |
| 概率特性gydF4y2Ba | 95.95gydF4y2Ba | 93.24gydF4y2Ba | 97.79gydF4y2Ba | 91.59gydF4y2Ba | 717年gydF4y2Ba | 1108年gydF4y2Ba | 25gydF4y2Ba | 52gydF4y2Ba |
| 最优类特性gydF4y2Ba | 95.69gydF4y2Ba | 93.50gydF4y2Ba | 97.18gydF4y2Ba | 91.03gydF4y2Ba | 719年gydF4y2Ba | 1101年gydF4y2Ba | 32gydF4y2Ba | 50gydF4y2Ba |
| 最优概率特性gydF4y2Ba | 96.37gydF4y2Ba | 94.54gydF4y2Ba | 97.62gydF4y2Ba | 92.46gydF4y2Ba | 727年gydF4y2Ba | 1106年gydF4y2Ba | 27gydF4y2Ba | 42gydF4y2Ba |
传统的集成学习方法决策组合来自多个模型的预测结果和分类。特性表示学习使用64年的预测和优化射频模型获得预测模型是类似传统的整体学习模型。两种类型的特征表示学习(学习和概率信息类信息)与两个古典乐团学习方法(多数表决和概率平均)。多数表决认为大多数的预测64年射频模型并根据少数服从多数原则做出预测。概率平均简单计算的概率值64 RF模型,使预测基于阈值。如表所示gydF4y2Ba
学习和整体学习性能的特征表示。gydF4y2Ba
| 学习策略gydF4y2Ba | ACCgydF4y2Ba | SEgydF4y2Ba | SPgydF4y2Ba | 世纪挑战集团gydF4y2Ba | TPgydF4y2Ba | TNgydF4y2Ba | 《外交政策》gydF4y2Ba | FNgydF4y2Ba |
|---|---|---|---|---|---|---|---|---|
| 类信息gydF4y2Ba | 95.69gydF4y2Ba | 93.50gydF4y2Ba | 97.18gydF4y2Ba | 91.03gydF4y2Ba | 719年gydF4y2Ba | 1101年gydF4y2Ba | 32gydF4y2Ba | 50gydF4y2Ba |
| 概率信息gydF4y2Ba | 96.37gydF4y2Ba | 94.54gydF4y2Ba | 97.62gydF4y2Ba | 92.46gydF4y2Ba | 727年gydF4y2Ba | 1106年gydF4y2Ba | 27gydF4y2Ba | 42gydF4y2Ba |
| 主要投票gydF4y2Ba | 94.37gydF4y2Ba | 90.51gydF4y2Ba | 97.00gydF4y2Ba | 88.31gydF4y2Ba | 696年gydF4y2Ba | 1099年gydF4y2Ba | 34gydF4y2Ba | 73年gydF4y2Ba |
| 概率平均gydF4y2Ba | 94.48gydF4y2Ba | 90.77gydF4y2Ba | 97.00gydF4y2Ba | 88.52gydF4y2Ba | 698年gydF4y2Ba | 1099年gydF4y2Ba | 34gydF4y2Ba | 71年gydF4y2Ba |
我们使用RF算法和siv类或概率信息构造预测。评估射频方法的预测性能,我们预测与传统分类器相比,支持向量机(SVM),朴素贝叶斯(NB)和再(资讯),与10倍交叉验证数据集。这些分类器的参数是相同的与引用(gydF4y2Ba
比较传统的分类:(a)的最优“类”特性与传统分类器;(b) ROC曲线的最优“类”特性与传统分类器;(c)表现最佳的“概率”的特性与传统分类器;(d) ROC曲线的优化与传统分类器“概率”特性。gydF4y2Ba
描述了模型预测跨物种感染siv。这个预测的主要贡献是病毒蛋白质组信息的特性,从64特征描述符,包括成分、position-specific和物理化学信息。提出了学习计划功能表示。我们集成类和概率信息到我们的特征表示和删除冗余和不相关的特征在特征空间优化提高特征表征能力。十倍交叉验证结果表明,较高的预测性能通过使用20信息特性和22概率信息。我们比较特征表示与不同的学习策略和学习计划确认功能表示学习计划给了更好的预测。我们预料我们的方法将是一个强大的工具为大规模鉴定猪流感病毒,将促进表现型传播的特性,在病毒学加速他们的应用程序。gydF4y2Ba
在注册任何应用程序(gydF4y2Ba
没有人类/动物被用于研究,是本研究的基础。gydF4y2Ba
作者声明没有利益冲突,金融,或以其他方式。gydF4y2Ba
小李羌族的框架设计分析。郑口,俊杰李,赛义德Kosari执行所有的计算工作。郑口和Xinyue风扇实现代码。郑口和小李羌族写的手稿。所有作者阅读和批准最终的手稿。gydF4y2Ba
我们愿意承认原始和提交实验室的病毒序列GISAID EpiFlu公共数据库。这项工作得到了国家自然科学基金(61972109,61972109)。gydF4y2Ba
信息表的最后总结了1902株S1。gydF4y2Ba