预测跨物种感染的猪流感病毒表示学习氨基酸的功能

文摘

猪流感病毒(siv)可以预见直接跨越物种屏障,感染人类,给公众健康带来巨大的挑战,引发大流行风险不定期出版。需要计算工具来预测感染siv表型和早期流行的风险。为此,我们提出一个算法来预测跨物种感染siv特性表示。我们建立了一个高质量的数据集1902年的病毒。学习计划学习应用功能特性表示表示从64年开始训练有素的随机森林模型与多个特征描述符的突变病毒蛋白质的氨基酸,包括成分信息,position-specific信息和物理化学性质。类和概率信息集成到特性表征,和冗余的特征是通过特征空间优化。高性能是通过使用20信息特性和22概率信息。该方法将促进SIV的表现型传播。

1。介绍

甲型流感病毒(家庭:Orthomyxoviridae)基因组包含8个节段rna (1]。血凝素(HA)基因位于第四段,和神经氨酸酶(NA)基因在第六段。根据抗原血凝素和神经氨酸酶的特点,18公顷甲型流感病毒亚型和11 NA亚型(2- - - - - -4]。除了快速病毒基因的突变率,节段性病毒基因组的重组促进新型病毒的出现与主机壁垒的变化(5,6]。1957年大流感是由一种甲型流感(H1N1)病毒,而基因组包含段2、4和5的禽流感病毒,而1968年大流行是由甲型流感病毒(H3N2),它有一个基因组包含部分2和4的禽流感病毒(1]。

猪流感病毒(SIV)是一种A型流感病毒引起的急性呼吸道传染病,猪(7]。全世界主要有三个猴免疫缺陷病毒亚型循环(H1N1, H1N2和H3N2),和这些亚型可以细分为不同的基因型,包括经典的H1N1, avian-like H1N1,类似人类的H3N2,可行性H3N2, H1N2子组(8- - - - - -10]。猴免疫缺陷病毒基因型不同,自然是异构的基因库。猴免疫缺陷病毒可以直接跨越物种障碍不能预见,并感染人类。2009年甲型H1N1流感大流行造成18000多人死亡,病原体和病毒大流行期间是一个新颖的SIV genome-reassorted之间是由基因组重组猪病毒从美国和欧洲11- - - - - -13]。H3N2病毒变体(H3N2v),段7 2009 H1N1大流行性流感病毒的基因组,发现2010年在猪和2011年第一次在人们发现14]。临床病例的H1N1变种病毒(H1N1v)和H1N2变种病毒(H1N2v)也被报道在2011年之后15]。结构性投资工具对人类公共卫生是一个巨大的挑战,可能引发大流行风险。

计算生物信息学工具需要预测siv传输表型和大流行性流感的风险。为此,机器学习方法可能是理想的工具(16- - - - - -18]。机器学习技术潜力巨大病毒筛查,因为他们可以使用病毒蛋白质序列作为输入,而不需要先验知识。在本文中,我们提出一个算法来预测跨物种感染siv特性表示。算法包括基于特征描述符建立综合预测模型从不同方面提供足够的信息。序列的特性与类信息或概率信息(RF)会从训练有素的随机森林分类器,可以学习的一组功能。特征空间的维数降低了使用最小冗余最大相关性(mRMR)方法来获得最丰富的特性和区分结构性投资工具不同的表现型传播。

识别siv能跨物种传播,我们构建了一个与两个预测模型,预测被训练使用20特性基于类信息或22射频下基于概率信息分类器的特性。特性的预测表示学习取得了高预测性能。这项研究提供了一个重要的工具在预测跨物种感染siv的公共卫生。

2。材料和方法

2.1。数据

病毒性流感病毒从猪和人类分离序列从GISAID EpiFlu公共数据库(下载http://platform.gisaid.org/epi3/frontend)[2,3]。GISAID存款高质量基因组序列及其临床信息数据库中。因为序列冗余非常高和基因组覆盖率大大不同,原始数据被过滤使用公共生物信息学工具和算法(表S1)。

我们获得5860结构性投资工具和44623人流感病毒从GISAID数据库2019年3月21日。数据集包括所有的11个流感病毒蛋白质(PB2, PB1 PB1-F2, PA,哈,NP, NA, M1, M2, NS1,和NEP)编码在8个基因片段。压力没有任何的11个蛋白质序列或没有亚型信息被排除在外。11蛋白质测定的氨基酸位置使用多重序列比对工具肌肉(19]。菌株有超过三个氨基酸缺失在终端的病毒蛋白质被移除,如果只有几个失踪的残留物,他们说根据这些病毒蛋白与最高的身份。我们使用了快速集群算法CD-Hit工具来减少冗余的数据集(20.]。模棱两可的氨基酸残基,如X和B,可能是由于测序错误了,取而代之的是那些在病毒蛋白与最高的身份。菌株与大量的模棱两可的残留在病毒蛋白也被删除。

最后预测数据集跨物种感染病毒包含两类:(1)769年从人类分离的病毒(正面样本;H1N1, H1N2 H2N2, H3N2亚型);(2)1133年流感病毒从猪分离(负样本;H1N1, H1N2和H3N2亚型)。积极的人类流感病毒样本由季节性,2009年大流感甲型h1n1病毒,甲型h1n1病毒与人类和变体。由于这些病毒也可以隔绝猪(1),他们被排除在负样本根据基因组序列的相似性。关于1902株是总结在表的信息S1。

2.2。基于熵的特征氨基酸位置

大多数的病毒蛋白质的氨基酸残基是守恒的。以减少计算复杂度,氨基酸残基被过滤的熵测量在每个位置11病毒蛋白质。对于一个给定的位置 ,熵值计算使用公式(21]: ,在哪里是观察到的氨基酸的概率在位置。高熵值表明氨基酸变异率在相应的位置。我们设置阈值熵差是1.5和获得36签名的位置,因此,每个应变表示为一个列表的36个氨基酸残基位置的筛选。

2.3。签名氨基酸组的代表

突变病毒蛋白确定致病性或毒性的siv (1]。获取每个位置的熵的排名后,36重要氨基酸筛选。六组分信息的编码算法,position-specific信息和氨基酸的物理化学性质被用来探索高质量预测所需的关键信息(16]。签名氨基酸的编码算法将SIV转换成固定长度向量在下面会详细进行介绍。

2.3.1。氨基酸组成

氨基酸组成(AAC)像往常一样是一个20-dimension向量。因为病毒蛋白质的差距(删除或插入)经常发生在猴免疫缺陷病毒的进化,我们定义了AAC 21-dimension向量代表20个氨基酸残基的频率和36差距之一签名病毒蛋白质的位置。例如,如果氨基酸类型发生在氨基酸的一组特定的病毒的频率表示为。21-dimensional特征向量表示的频率获得的20种不同的氨基酸和差距是为每一个压力。

2.3.2。平行Correlation-Based Pseudo-Amino-Acid组成

平行correlation-based pseudo-amino-acid成分(PC-PseAAC)方法被用来计算并行相关的任意两个氨基酸36签名病毒蛋白质的氨基酸位置序列(22]。病毒D PC-PseAAC特征向量定义了在哪里在哪里是一个整数, 代表的规范化发生频率20种氨基酸和一个空白病毒 , 是最高层次的相关性 ,和措施的相关函数吗 - - - - - -层所有的序列号关联 - - - - - -最相邻残留在d函数是作为在哪里代表了五个氨基酸对应的因素 - - - - - -th氨基酸在病毒D,分别23]。如果是 ,然后 = 。差距的五个因素(删除或插入)只是设置为0。

2.3.3。G-Gap二肽成分

的G-gap二肽成分(GGAP)二肽成分加上本地订单信息的任意两个间隔的36个氨基酸残基中残留的11为每个病毒病毒蛋白质。的GGAP是常用的功能描述符序列分析和模型构建。摘要GGAP 441维向量表示的频率20个氨基酸残基组成的二肽和一个缺口。它被定义为在哪里的发生频率吗 - - - - - -th ( )G-gap二肽,它被定义为在哪里发生的数量吗 - - - - - -th G-gap二肽的氨基酸残基的36个签名。GGAP特征向量的维数。删除或插入也计算。

2.3.4。Twenty-Bit特性

Position-specific信息和物理化学性质被用来编码为每个病毒36个氨基酸残基。五个标准氨基酸的物理化学性质描述符,即极性,二级结构,分子体积,密码子的多样性,静电电荷23]。对于每个描述符,标准氨基酸字母被分为三组,和删除/插入(indel)被认为是第四组。表示20标准氨基酸和indel之一是根据五理化性质。每个残基被编码为20位向量元素,包括0/1点的位置在哪里设置为1,如果残留属于相应的组;否则,它是0。由于氨基酸增强方法,顶部残留最高的熵值被选中。特征向量的维数。

2.3.5。Twenty-One-Bit特性

Twenty-one-bit功能就像一个一个炎热的编码。在该算法中,每个氨基酸残基向量转换为21-bit 0/1。(例如,阿拉巴马州1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;indel 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1)。鉴于氨基酸增强方法中,每个应变残留物被表示为一个维特征向量。

2.3.6。重叠的属性特征

该算法分为20标准氨基酸和一个缺口(indel)根据理化性质分为11个不同的组。20个氨基酸链的分布10组可以重叠24]。10个氨基酸组 , , , , , , , , ,和。Indels形成了11组。每个氨基酸残基为代表的维一个11维向量0/1。向量的位置被设置为1,如果残留属于物理化学性质组;否则,它是0。由于氨基酸增强方法,顶部残留最高的熵值被选中。氨基酸增强与一个编码特征向量。

2.4。学习框架的特征表示

表示学习算法的框架特性,其中包括两个主要步骤,优化特征表示学习和特征表示,如图1。首先,特性表征的特征描述符使用射频标识符生成系统。其次,特性表征从第一步优化产量信息特征子集。两步特征表示学习过程如下(16]。

图1

流程图表示学习氨基酸的功能。数据清理后,36签名氨基酸位置基于熵筛选。六个编码算法和参数的变化被用来探索的关键信息。所有64年功能池是用来描述符与RF模型训练和预测,和两种类型的预测了进一步优化。每个猪病毒最终被两个优化的特征向量表示,“类”和“概率。“最后,预测模型构建和比较。

2.4.1。学习特征表示

六个特征编码算法是AAC、PC-PseAAC GGAP, 20位功能(BIT20) 21-bit特性(BIT21),和重叠的产权特性(OLP),都是上面描述的。功能池建于生成尽可能多的信息和不同的参数预测模型。例如,是一种常见的参数BIT20 BIT21, OLP。因为36重要氨基酸得到熵排名筛选后,我们组4-36的第四步。的最大值设置为36因为有36签名的位置,因此,共有27个特征描述符获得了BIT20 BIT21, OLP。一个类似的过程被用于PC-PseAAC GGAP。使用不同的参数,共有64个特征描述符的功能池。所有信息中提供的特征描述符表1。


描述符	类型	数量	描述符	类型	数量

1	AAC格式	20.	33	GGAP ( )	441年
2	PseAAC ( )	21	34	GGAP ( )	441年
3	PseAAC ( )	22	35	GGAP ( )	441年
4	PseAAC ( )	23	36	GGAP ( )	441年
5	PseAAC ( )	24	37	GGAP ( )	441年
6	PseAAC ( )	25	38	BIT20 ( )	80年
7	PseAAC ( )	26	39	BIT20 ( )	160年
8	PseAAC ( )	27	40	BIT20 ( )	240年
9	PseAAC ( )	28	41	BIT20 ( )	320年
10	PseAAC ( )	29日	42	BIT20 ( )	400年
11	PseAAC ( )	30.	43	BIT20 ( )	480年
12	PseAAC ( )	31日	44	BIT20 ( )	560年
13	PseAAC ( )	32	45	BIT20 ( )	640年
14	PseAAC ( )	33	46	BIT20 ( )	720年
15	PseAAC ( )	34	47	BIT21 ( )	84年
16	PseAAC ( )	35	48	BIT21 ( )	168年
17	PseAAC ( )	36	49	BIT21 ( )	252年
18	PseAAC ( )	37	50	BIT21 ( )	336年
19	PseAAC ( )	38	51	BIT21 ( )	420年
20.	GGAP ( )	441年	52	BIT21 ( )	504年
21	GGAP ( )	441年	53	BIT21 ( )	588年
22	GGAP ( )	441年	54	BIT21 ( )	672年
23	GGAP ( )	441年	55	BIT21 ( )	756年
24	GGAP ( )	441年	56	OLP ( )	44
25	GGAP ( )	441年	57	OLP ( )	88年
26	GGAP ( )	441年	58	OLP ( )	132年
27	GGAP ( )	441年	59	OLP ( )	176年
28	GGAP ( )	441年	60	OLP ( )	220年
29日	GGAP ( )	441年	61年	OLP ( )	264年
30.	GGAP ( )	441年	62年	OLP ( )	308年
31日	GGAP ( )	441年	63年	OLP ( )	352年
32	GGAP ( )	441年	64年	OLP ( )	396年

优化的特征表示,前两种类型的预测被用来完成学习。所有64年功能池是用来描述符与RF模型训练和预测,和两种类型的预测。第一个预测类型是类标签(正面或负面):积极的样品(猪病毒跨物种感染的表型)被标记为1,和负样本(猪病毒没有跨物种感染的表型)被标记为0。第二个预测类型是伪概率样本属于某个类(积极或消极)。为每个预测类型,所有64 64射频输出计算的模型连接作为一种新的特征向量。每个猪病毒最终被表示为两个64维特征向量,这标志着“阶级”和“概率”,分别。特征向量“类”由类信息从原始功能池,和特征向量“概率”由概率信息。速度快,计算预计第一类型模型,同时为预测精度高性能预计第二类型模型。

2.4.2。优化特征表示

两种预测被进一步优化提高特征表征能力。mRMR,著名的特征选择方法是用来排在“类”的特点和“概率”信息(25]。mRMR方法使用互信息最大化之间的互信息选择的联合分布特性和选择之间的类标签和最小化冗余功能。mRMR方法被用来优化特性表征,获得特性列表按其重要性排名成绩。顺序向前搜索(SFS)策略是用于提高排名的功能特性列表(一个接一个16]。RF分类器训练后,特征子集与最佳的性能被认为是最佳的子集。我们获得20最佳特性“类”和25个最佳特征“概率”。

2.5。RF算法

RF算法被用来获得两种类型的特征向量,构建预测模型的跨物种感染siv。射频机器学习算法是健壮的和被广泛应用模型生物学数据(4]。RF表现得像一个整体的决策树算法,提出了一组随机的特征选择。我们使用RF算法在本研究[R环境26]。所有的实验都使用版本3.5.0与默认参数(R树 )。

2.6。评价指标

我们使用四个常用指标评估模型的性能,即敏感性(SN),特异性(SP)、准确性(ACC),马修的相关系数(MCC)如下: 在哪里表明真阳性,正确预测真正的人类感染菌株的表型;表明真阴性,正确预测真正的人类感染菌株的表型;表明假阳性,人类感染菌株的表型预测人类感染菌株的表型;和是假阴性,人类感染菌株的表型预测人类感染菌株的表型。敏感性和特异性指标衡量模型的预测能力在积极的和消极的情况下,分别。其他两个措施,ACC和MCC,被用来评估模型的整体性能。这四个指标,高分表明高绩效的模型。

接受者操作特征(ROC)曲线,用于评估二元分类器系统的整体性能(27),也被用于这项研究。生成的ROC曲线显示的是真阳性和假阳性率在不同分类阈值。我们也计算了ROC曲线下面积(AUC)来评估模型的预测性能。AUC值的范围从0.5到1。

2.7。十倍交叉验证方法

10倍交叉验证的方法被用来评估模型的预测性能。模型训练692正样本和1019年负样本,从清洗数据集随机选择。剩下的10%的样本(77 114积极和消极)被作为一个独立的测试数据集来评估分类器的性能。这个过程被重复10次,10结果平均获得的最终评价预测性能。

3所示。结果与讨论

3.1。猴免疫缺陷病毒签名的位置

消除冗余和其他必要的清洗后的病毒的数据GISAID数据库,最后预测数据集的跨物种感染病毒包含两类:769年从人类分离的病毒和1133年分离出的病毒从猪。769人类病毒被认为是积极的样品,因为他们被证实感染人类的能力。1133年的甲型h1n1病毒被认为是负样本。这些病毒株总结在表的信息S1。

屏幕上签名的位置,每个位置的熵的11个病毒蛋白质计算,分别。如表所示2,HA蛋白含有最多的选择氨基酸残基(25/36),这是符合已知的HA的作用主要在受体结合和融合活动跨物种感染siv。职位HA102-HA290位于或接近宿主受体结合区域(28,29日),和HA163 HA189相关的特异性受体结合(30.,31日]。签名的位置被证实与种间传播的机制或在人类中传播效率高,从而理顺模型和效益预测精度。


全国矿工工会	箴¹	Pos²	熵	全国矿工工会	箴	Pos	熵	全国矿工工会	箴	Pos	熵

1	哈	9	1.57	13	哈	163年	1.56	25	哈	401年	1.51
2	哈	53	1.74	14	哈	169年	1.65	26	NA	42	1.75
3	哈	78年	1.56	15	哈	173年	1.62	27	NA	43	1.78
4	哈	82年	1.51	16	哈	189年	2.17	28	NA	52	1.61
5	哈	131年	1.59	17	哈	192年	1.58	29日	NA	93年	1.77
6	哈	135年	1.67	18	哈	193年	1.63	30.	NA	332年	1.65
7	哈	137年	1.57	19	哈	196年	1.76	31日	NA	344年	1.55
8	哈	140年	1.68	20.	哈	199年	1.62	32	NA	369年	1.87
9	哈	142年	1.90	21	哈	219年	1.65	33	NA	385年	1.74
10	党卫军	144年	2.15	22	哈	261年	1.76	34	NA	400年	1.72
11	哈	156年	1.75	23	哈	269年	1.54	35	NA	435年	1.69
12	哈	159年	1.65	24	哈	276年	1.62	36	PB1-F2	21	1.52

¹病毒蛋白。²氨基酸残基的位置为H3亚型编号。

3.2。最优特性表征

mRMR特性排名算法用于选择64 -维特征向量,由预测从64 RF模型(图1)。64功能的特性列表排名排序后生成的重要性得分从mRMR算法。顺序向前搜索策略,提出了探索最优特性表示从64年的排名列表功能。特点是增加了一个接一个根据列表中的顺序,和RF分类器训练。流感病毒的数据进行了10倍交叉验证方法。ACC的顺序向前搜索曲线和MCC指标被吸引到找到优化的功能(图2)。的类特性,RF分类器表现最好最大的ACC和MCC的95.69%和91.03%,分别选择功能数量20时(数据2(一个)和2 (b))。这一结果表明,从排名前20的特性特性列表的最优表示能力区分猪病毒跨物种感染的能力。的概率特性,RF分类器表现最好的前25特性(ACC的96.37%和MCC 92.46%;数据2(一个)和2 (b))。筛选20类和25概率特性被用来构建跨物种感染的预测分类器。

(一)

(b)

图2

特征表示与mRMR优化算法。(一)ACC的SFS曲线“阶级”和“概率”功能。数量特征(1 - 64)和准确性所代表的 - - - - - -和 - - - - - -轴。(b) MCC的SFS曲线“阶级”和“概率”功能。数量特征(1 - 64)和系数代表了 - - - - - -和 - - - - - -轴。“类”和“概率”的特征是由蓝色和黄色颜色标记。

3.3。比较最优特性的表征与单个描述符

使用类的功能,优化表示向量与20维获得20个人特征描述符。最优的预测性能特性与六个人最高描述符来评估特征的学习能力表示。的10倍交叉验证测试是实现基于数据集。

相比性能最优类特性和个人特性见图3(一个),中华民国曲线如图3 (b)。最优特性给了最好的预测性能最大的ACC和MCC的95.68%和91.03%,分别高于获得的值的第二特征描述符BIT20 ( )(图3(一个))。使用我们的特征描述符获得的AUC(0.97)比BIT20 ( ; )。值得注意的是,只有20个功能被用于最优特性,而BIT20 ( )使用80的特性。此外,25个最优特性表征基于概率信息与个体特征描述符。相比性能的最优概率特性和个人特性如图3 (c)和ROC曲线如图3 (d)。结果是一致的,表明概率特性表征表现优于其他六个特征描述符。最优特性给了最好的预测性能最大的ACC和MCC的96.37%和92.46%,分别高于六个人的特性。

(一)

(b)

(c)

(d)

3.4。比较类和概率信息

流感病毒是由类和概率信息,以及他们的特征向量组成的预测64年射频模型编码签名36个氨基酸的位置。不同的信息来预测性能的跨物种感染猪流感病毒的评估。如表所示3使用概率信息的表现特性,特征向量向量使用类的信息。基于概率信息的总体性能ACC和MCC值的95.95%和91.59%,分别基于类信息而整体性能ACC和MCC值的95.22%和90.05%,分别。两个最优特征向量的表演也如表所示3。整个64 -维特征向量编码类和概率信息相比,最优的特性。排名后mRMR算法,基于最优概率信息的性能从95.95%上升到96.37%,ACC和MCC从91.59%降至92.46%,并基于类信息的性能从95.22%上升到95.69%,ACC和MCC从90.05%降至91.03%。这些结果证实,概率特性确定感染比类特性。然而,这两种功能类型有预测能力跨物种感染和被用来构建预测模型。


特性	ACC	SE	SP	世纪挑战集团	TP	TN	《外交政策》	FN

类特性	95.22	92.72	96.91	90.05	713年	1098年	35	56
概率特性	95.95	93.24	97.79	91.59	717年	1108年	25	52
最优类特性	95.69	93.50	97.18	91.03	719年	1101年	32	50
最优概率特性	96.37	94.54	97.62	92.46	727年	1106年	27	42

3.5。比较学习和整体学习的特征表示

传统的集成学习方法决策组合来自多个模型的预测结果和分类。特性表示学习使用64年的预测和优化射频模型获得预测模型是类似传统的整体学习模型。两种类型的特征表示学习(学习和概率信息类信息)与两个古典乐团学习方法(多数表决和概率平均)。多数表决认为大多数的预测64年射频模型并根据少数服从多数原则做出预测。概率平均简单计算的概率值64 RF模型,使预测基于阈值。如表所示4,这两种类型的功能表示学习给了比这两个传统的集成学习方法更好的性能。概率信息,学习策略特点最大ACC和MCC的96.37%和92.46%,分别。ACC和MCC获得我们的策略是高出约2%和3%,分别比获得的整体策略。基于类信息,该功能学习策略的最大ACC和MCC 95.69%和91.03%,分别。ACC和MMC获得我们的策略是高出约1%和3%,分别比获得的整体策略。值得注意的是,我们的功能学习策略取得了非凡的进步,尽管整体学习被认为是一个有效的方法来改善预测性能。


学习策略	ACC	SE	SP	世纪挑战集团	TP	TN	《外交政策》	FN

类信息	95.69	93.50	97.18	91.03	719年	1101年	32	50
概率信息	96.37	94.54	97.62	92.46	727年	1106年	27	42
主要投票	94.37	90.51	97.00	88.31	696年	1099年	34	73年
概率平均	94.48	90.77	97.00	88.52	698年	1099年	34	71年

3.6。比较我们与经典分类器的预测

我们使用RF算法和siv类或概率信息构造预测。评估射频方法的预测性能,我们预测与传统分类器相比,支持向量机(SVM),朴素贝叶斯(NB)和再(资讯),与10倍交叉验证数据集。这些分类器的参数是相同的与引用(4]和[32]。结果表明,射频方法给最好的总体预测性能基于类信息最大ACC和MCC的95.69%和91.03%,高出1.32%和2.71%,分别比用NB的方法获得的(数据4(一)和4 (b))。我们的AUC(0.97)优于资讯( ; )。我们也比较与传统分类器预测基于概率信息。概率特性表现优于其他三种分类器。射频方法给最好的基于概率预测的整体性能信息与最大ACC和MCC的96.37%和92.46%,高出2.58%和5.38%,分别比NB方法(数据4 (c)和4 (d))。我们的AUC(0.98)优于NB ( )。总的来说,结果表明,射频方法产生更好的比支持向量机预测的感染,NB,资讯的方法。

(一)

(b)

(c)

(d)

4所示。结论

描述了模型预测跨物种感染siv。这个预测的主要贡献是病毒蛋白质组信息的特性,从64特征描述符,包括成分、position-specific和物理化学信息。提出了学习计划功能表示。我们集成类和概率信息到我们的特征表示和删除冗余和不相关的特征在特征空间优化提高特征表征能力。十倍交叉验证结果表明,较高的预测性能通过使用20信息特性和22概率信息。我们比较特征表示与不同的学习策略和学习计划确认功能表示学习计划给了更好的预测。我们预料我们的方法将是一个强大的工具为大规模鉴定猪流感病毒,将促进表现型传播的特性,在病毒学加速他们的应用程序。

数据可用性

在注册任何应用程序(https://www.gisaid.org/registration/register/),本文中使用的公共的流感病毒序列可以从GISAID EpiFlu数据库下载(http://platform.gisaid.org/epi3/frontend数据库访问协议(下)https://platform.epicov.org/epi3/frontend # 5 aa0ce与承认GISAID数据)和贡献者(https://www.gisaid.org/help/publish-with-data-from-gisaid/)。我们使用Python编程语言创建一个易于使用的工具,实现了我们的预测和处理大量的数据,这是自由通过https://github.com/kouzheng/SIVPred-FL。

伦理批准

没有人类/动物被用于研究,是本研究的基础。

的利益冲突

作者声明没有利益冲突,金融,或以其他方式。

作者的贡献

小李羌族的框架设计分析。郑口,俊杰李,赛义德Kosari执行所有的计算工作。郑口和Xinyue风扇实现代码。郑口和小李羌族写的手稿。所有作者阅读和批准最终的手稿。

确认

我们愿意承认原始和提交实验室的病毒序列GISAID EpiFlu公共数据库。这项工作得到了国家自然科学基金(61972109,61972109)。

补充材料

信息表的最后总结了1902株S1。(补充材料)

引用

r·g·韦伯斯特,w . j . Bean的ot戈尔曼,t·m·钱伯斯和y Kawaoka“甲型流感病毒的进化和生态学”,微生物学检查卷,56号1,第179 - 152页,1992。视图:出版商的网站|谷歌学术搜索
美国易北河和g . Buckland-Merrett”数据,疾病和外交:GISAID的创新贡献全球健康,”全球挑战,1卷,不。1,33-46,2017页。视图:出版商的网站|谷歌学术搜索
y蜀和j·麦考利,”GISAID:全球共享所有流感数据项目从愿景到现实,“欧元的监测,22卷,不。13,30494页,2017年。视图:谷歌学术搜索
强x、z口,“得分氨基酸突变预测禽流感病毒的大流行风险,”BMC生物信息学,20卷,不。S8,第288页,2019年。视图:谷歌学术搜索
e . c . Claas公元Osterhaus, r . van发现et al .,“人类流感H5N1病毒相关的高致病性禽流感病毒,”《柳叶刀》,卷351,不。9101年,第477 - 472页,1998年。视图:出版商的网站|谷歌学术搜索
k . Subbarao A·克里莫夫j . Katz et al .,”表征的禽流感A (H5N1)型病毒分离从一个孩子致命的呼吸道疾病,”科学,卷279,不。5349年,第396 - 393页,1998年。视图:出版商的网站|谷歌学术搜索
i . h .布朗,“猪的流感病毒的流行病学和演化,“兽医微生物学,卷74,不。1 - 2,29-46,2000页。视图:出版商的网站|谷歌学术搜索
ai Karasin, m . m . Schutten洛杉矶库珀et al .,“H3N2流感病毒与猪的遗传特征在北美,1977 - 1999:完全人类和重组病毒基因型的证据,”病毒的研究,卷68,不。1,第85 - 71页,2000。视图:出版商的网站|谷歌学术搜索
c·w·奥尔森,”小说的出现甲型h1n1流感病毒在北美,”病毒的研究,卷85,不。2、199 - 210年,2002页。视图:出版商的网站|谷歌学术搜索
n . n .周d . a . Senne j·s·Landgraf et al .,“基因重组的禽流感、猪和人类流感。美国猪病毒。”病毒学杂志,卷73,不。10日,8851 - 8856年,1999页。视图:出版商的网站|谷歌学术搜索
f·s·Dawood、s . Jain和l . Finelli”出现的一种新型swine-origin甲型流感(H1N1)病毒在人类中,“《新英格兰医学杂志》上,卷360,不。25日,第2615 - 2605页,2009年。视图:出版商的网站|谷歌学术搜索
z口,美国胡,t·李,“基因组进化的小说甲型(H1N1)流感病毒对于人类来说,“科学通报,54卷,不。13日,2159 - 2163年,2009页。视图:出版商的网站|谷歌学术搜索
g·j·d·史密斯,d . Vijaykrishna j·巴尔et al .,“起源和进化基因组学的2009 swine-origin甲型H1N1流感流行,”自然,卷459,不。7250年,第1125 - 1122页,2009年。视图:出版商的网站|谷歌学术搜索
A·s·鲍曼s w·纳尔逊·s . l .页面et al。”Swine-to-human传播甲型流感病毒(H3N2)在农业博览会,俄亥俄州,美国,2012年,“新发传染病,20卷,不。9日,第1480 - 1472页,2012年。视图:谷歌学术搜索
j . a . Pulit-Penaloza c·帕帕斯j·a·贝尔瑟et al .,“比较体外和体内分析流感病毒H1N1和H1N2变体与人类在2011年至2016年之间,“病毒学杂志,卷92,不。22日,p . e01444-18 2018。视图:谷歌学术搜索
x羌族,c .周x, p . Du跑,和l .魏”CPPred-FL: cell-penetrating肽的序列预测大规模识别特性表示学习,”简报的生物信息学,21卷,不。1,11-23,2020页。视图:谷歌学术搜索
h·汉,“导数成分分析质谱血清蛋白质组学概要文件,”BMC医学基因组学,7卷,不。S1, S5页,2014年。视图:谷歌学术搜索
l . x曾庆红,l . Liu,问:邹,“预测潜在的疾病有关的小分子核糖核酸结构摄动方法,”生物信息学,34卷,不。14日,第2432 - 2425页,2018年。视图:出版商的网站|谷歌学术搜索
r·c·埃德加“肌肉:多重序列比对和高准确性和高吞吐量,”核酸的研究,32卷,不。5,1792 - 1797年,2004页。视图:出版商的网站|谷歌学术搜索
w·李和a . Godzik“Cd-hit:快速聚类和大组蛋白质和核苷酸序列相比,“生物信息学,22卷,不。13日,1658 - 1659年,2006页。视图:出版商的网站|谷歌学术搜索
c . j . Wang, z口,y, h·刘,“预测禽流感病毒从禽流感的传播对人类利用的物理化学性质,“国际期刊的数据挖掘和生物信息学,7卷,不。2、166 - 179年,2013页。视图:出版商的网站|谷歌学术搜索
j . f . b . Liu, x Wang Chen l .方和k .周”Pse-in-one: web服务器生成各种伪模式组件的DNA, RNA和蛋白质序列,”核酸的研究,43卷,不。W1, W65-W71, 2015页。视图:出版商的网站|谷歌学术搜索
w . r .,左起第二个人j .赵a·d·费尔南德斯和t . Druke”解决蛋白质序列度量问题。”美国国家科学院院刊》上的美利坚合众国,卷102,不。18日,第6400 - 6395页,2005年。视图:出版商的网站|谷歌学术搜索
y窦,b .姚明,c .张“PhosphoSVM:磷酸化预测网站通过集成各种蛋白质序列属性支持向量机,”氨基酸,46卷,不。6,1459 - 1469年,2014页。视图:出版商的网站|谷歌学术搜索
c .丁和h .彭”,最低冗余特征选择从微阵列基因表达数据,”生物信息学和计算生物学》杂志上,3卷,不。2、185 - 205年,2005页。视图:出版商的网站|谷歌学术搜索
a . Liaw和m·维纳“随机森林分类和回归,”R新闻,卷2,不。3,在18到22岁,2002页。视图:谷歌学术搜索
t .唱歌,o·桑德:Beerenwinkel, t . Lengauer”R, ROCR:可视化分类器性能”生物信息学,21卷,不。20日,第3941 - 3940页,2005年。视图:出版商的网站|谷歌学术搜索
d·j·赫尔斯,r·g·韦伯斯特r·j·拉塞尔和d·r·佩雷斯”分子在表面蛋白参与决定因素的致病性H5N1流感病毒鸡,”病毒学杂志,卷78,不。18日,第9964 - 9954页,2004年。视图:出版商的网站|谷歌学术搜索
j·史蒂文斯,a . l . . c·f·巴斯勒,j·k·陶本伯杰,p . Palese称,中情局威尔逊,“人类uncleaved H1的结构从灭绝了1918年流感病毒血凝素,”科学,卷303,不。5665年,第1870 - 1866页,2004年。视图:出版商的网站|谷歌学术搜索
d·l·格拉泽j . Stevens Zamarin et al .,”一个氨基酸替换1918年流感病毒血凝素受体结合特异性变化,“病毒学杂志,卷79,不。17日,第11536 - 11533页,2005年。视图:出版商的网站|谷歌学术搜索
阿瑞亚·e·m·索雷尔h .广域网,y, h .歌曲,和d·r·佩雷斯”最小的分子约束呼吸道飞沫传播的avian-human H9N2流感病毒,”美国国家科学院院刊》上的美利坚合众国,卷106,不。18日,第7570 - 7565页,2009年。视图:出版商的网站|谷歌学术搜索
方x羌族,z口,g, y . Wang”得分氨基酸突变预测avian-to-human禽流感病毒的传播,”分子,23卷,不。7,1584年,页2018。视图:谷歌学术搜索

计算和数学方法在医学

机器学习和网络生物学和医学的方法2021

文摘

1。介绍

2。材料和方法

2.1。数据

2.2。基于熵的特征氨基酸位置

2.3。签名氨基酸组的代表

2.3.1。氨基酸组成

2.3.2。平行Correlation-Based Pseudo-Amino-Acid组成

2.3.3。G-Gap二肽成分

2.3.4。Twenty-Bit特性

2.3.5。Twenty-One-Bit特性

2.3.6。重叠的属性特征

2.4。学习框架的特征表示

2.4.1。学习特征表示

2.4.2。优化特征表示

2.5。RF算法

2.6。评价指标

2.7。十倍交叉验证方法

3所示。结果与讨论

3.1。猴免疫缺陷病毒签名的位置

3.2。最优特性表征

3.3。比较最优特性的表征与单个描述符

3.4。比较类和概率信息

3.5。比较学习和整体学习的特征表示

3.6。比较我们与经典分类器的预测

4所示。结论

数据可用性

伦理批准

的利益冲突

作者的贡献

确认

补充材料

引用

版权

更多相关文章

相关文章