深度学习的方法预测抗原变异的流感病毒H3N2

文摘

建模在H3N2流感(猪流感)病毒抗原变异使用氨基酸序列是一种很有前途的方法提高疫苗的免疫效果的预测精度和增加疫苗筛选的效率。抗原漂移和抗原跳/转变,这源于突变的积累与小型或中等效果和从一个主要突变大影响乙肝表面抗原血凝素(HA),分别是两种类型的流感病毒的抗原变异促进免疫逃避,使它具有挑战性的预测新病毒株的抗原特性。尽管有相当大的进步在建模抗原变异氨基酸序列的基础上,很少有研究关注深度学习框架,它可能是最适合适用于这个任务。在这里,我们提出一种新颖的深度学习的方法,集成了一个卷积神经网络(CNN)和双向long-short-term内存(BLSTM)神经网络预测抗原变异。在这种方法中,CNN提取复杂的氨基酸,而本地上下文BLSTM神经网络抓住了长途序列信息。与现有的方法相比,我们的深度学习方法达到的最高预测整体性能验证数据集,更令人鼓舞的是,实现预测协议99.20%和96.46%的菌株在即将到来的年,在未来两年包含在一组现有的按时间顺序排列的氨基酸序列,分别。这些结果表明,我们的深度学习的方法是承诺适用于H3N2流感病毒的抗原变异预测。

1。介绍

流感(猪流感)病毒构成持续威胁全球公共卫生,因为它导致不仅流感疾病的季节性流感,而且全球流感大流行。甚至不致命的季节性流感疫情仅占每年约24000人死亡在美国从1976年到2007年(1),和最新的报告估计,流感死亡的数量增加到61000年的2017 - 2018年流感季节(2,3]。现在知道homotrimeric表面糖蛋白血凝素(HA)负责绑定病毒进入宿主细胞表面受体导致病毒(4];HA是主要抗原的目标通过宿主的免疫系统(5]。虽然还有一个糖蛋白神经氨酸酶(NA)发现流感病毒表面,NA通常被认为是不太重要的抗原性比哈6]。HA蛋白作为单链多肽合成前体,随后HA0,裂解成两个子单元(HA1和HA2)在病毒表面形成homotrimeric飙升(7]。HA2相比,HA1亚基变异更频繁,面临从宿主的免疫系统更强大的选择压力,最终导致/ immune-evading变异株的出现(8]。流感疫苗的制备包括病毒免疫原能够诱发中和抗体最有可能传播病毒株在即将到来的流感季节是目前最有效的预防流感感染(9,10]。然而,两种抗原变异,产生的抗原漂移和抗原转移/跳的快速进化哈,让流感病毒逃避宿主免疫(11];提出了连续挑战为疫苗株的选择匹配。自1977年以来,流感H1N1和H3N2亚型和流感B已经席卷全球,因此之前的菌株包括疫苗项目(12]。值得注意的是,H3N2流感病毒是最常见的导致人类感染和疾病亚型在过去的40年里13]。

为即将到来的流感大流行或者其他新出现的流感病毒,是很重要的预测致病病毒的抗原性质准备有效的疫苗。成对流感病毒的抗原相似度检查主要是通过血凝抑制(HI)试验(14,15在实验室。然而,血清学试验,HI试验的关键一步,非常耗时和劳动密集型。因此,新兴HI试验菌株是严重落后于快速积累扩散至全球的新菌株。例如,HA序列的数量的流感病毒H3N2人流感病毒报NCBI数据库2014年,2015年,1959年和2016年,2229年和1735年,分别需要7000万多两两比较嗨彻底确定抗原变异的测试中,一个明显不现实的任务。事实上,目前,只有稀疏的报道嗨测试在有限的文献[16]。由于病毒基因组是经常检查高通量测序,序列比较提供了非常有价值的信息在流感病毒的抗原性差异,这将有助于监视小说变体的出现,减少新抗原类型的检测时间,提高疫苗研发的效率和准备。

过去的15年里取得了相当大的进展预测流感病毒的抗原变异基于HA1氨基酸序列。李和陈做了一个开创性的尝试(17)抗原变异模型使用一个简单的二元指标身份是否氨基酸突变的数量超过一个阈值,预测结果不令人满意。实现329年HA1氨基酸残基的非等值的重要性在决定抗原性,廖et al。18)预测的贡献19号选择抗原变异氨基酸位置通过氨基酸分类和多元回归分析,结果显示合理预测敏感性但特异性差。黄等。19)改进协议在辽的方法通过构造决策树基于19个关键氨基酸位置选择信息增益和熵的根据标准。认识到不同的氨基酸替换可以在抗原性的HA1上有着截然不同的影响,崔et al。20.]提出了一种线性回归方法18关键残渣位置选择的重要性得分,在每个位置,影响抗原的氨基酸替换属性被8物化特性表示。基于数据集生成从1968年到2007年,太阳et al。21)选择39关键岗位与引导岭回归,通过抗原定量测定抗原的距离映射(22];虽然预测下一个流感季节的精度很高,这样的精度可能会一直膨胀自39关键职位来自分析整个数据集,包括验证集。通过组合多个功能矩阵来源于不同的氨基酸相似性矩阵随机森林算法构造决策树,姚明et al。(23)提出了一个联合随机森林回归(JRFR)方法来预测抗原距离HA1序列数据,用10倍交叉验证结果表明JRFR优于其他受欢迎的方法在预测抗原变异。

基本上所有上述方法有三个关键步骤特征。第一步是识别氨基酸残基(关键岗位)可能导致抗原变异使用可用数据的一个子集(训练集),第二步是模型之间的关系抗原变异和这些关键位置使用训练集,第三步是派生模型适用于训练集和验证集确定方法的准确性。

虽然key-position-based预测方法都取得了极大的成功,他们往往无法从整个HA1序列提取复杂的非线性关系。幸运的是,最近流行的深度学习技术是有利的代表原始序列和学习自动隐藏模式通过非线性转换,因此非常适合抗原性质的预测基于氨基酸序列比较。深度学习技术已经鼓励他们巨大的成功在计算机视觉24),语音识别(25),和情绪分类26),现在被广泛应用于许多领域的生物研究包括蛋白质接触地图(27),药物靶亲和力(28),监管网络(29日),和蛋白质功能(30.,31日]。最近,谭et al。32)采用堆叠autoencoder (SAE)模型来预测一个H3N2流感病毒的抗原变异;然而,结果表明,SAE没有明显的优势超过其他的机器学习算法。

在本文中,我们引入一个深度学习的方法来预测H3N2流感病毒的抗原变异株基于HA1蛋白的序列比较。这种方法包含了卷积神经网络(CNN)和双向long-short-term内存(BLSTM)神经网络,负责提取本地和外地的序列信息,分别预测H3N2流感病毒的抗原变异。结果表明,我们的深度学习的方法达到整体最佳的预测性能的验证设置为与现有的方法相比。

2。方法

2.1。数据集

成对病毒的抗原距离被定义为两个比率的几何平均数之间的异种的雪貂和同源红细胞凝集抑制浓度的抗血清交叉反应性(33]。让最低的抗血清的浓度是由流感病毒引起的但可以抑制红细胞凝集的病毒株 ;然后,抗原距离(也称为Archetti-Horsfall距离(34不同菌株之间)和被定义为 (33]。如果该值的不大于4 (34,35),灭活疫苗与应变准备被认为是有效的防止感染的应变。根据Archetti-Horsfall距离定义,每一个抗原的距离应该是来自四个嗨测试,减缓了疫苗制备/开发的进展。

上述测量很少使用直接确定病毒的抗原距离对大规模抗血清制备的复杂性造成的现实。新品种通常被HI试验使用一系列标准的抗血清,可以表明他们的抗原性。如果压力测试通过标准的抗血清,可以获得一个矩阵与元素和元素嗨应变响应数据吗和血清。由于实验的限制,矩阵可能包含只有稀疏观测的积极回应。史密斯et al。36]代表菌株为二维位置使用修改后的指标顺序多维标度上的稀疏嗨矩阵,从而实现抗原的特征距离的应变与欧氏距离。虽然这些计算二维位置通常是稳定的,可能有一个以上的一些大型子组之间的稳定状态。贝德福德et al。37)也被证明是不准确的压力随着时间进化之间的距离大于15年。史密斯et al。36)集群253流感病毒H3N2病毒进入11类相结合计算位置和已知的生物知识,即获得抗原性质更可靠的比直接计算距离。

上述253流感病毒抗原的目前最大的抗原定性设置属性(以下称为史密斯的数据集),尽管它是由准实验数据。本研究中使用的数据集是构建基于史密斯的数据集。首先,253年史密斯的病毒株数据集被随机分配到两组的数量比7:3;第二,病毒对第一和第二组根据这两个标准被提出的Du et al。38]:(i)成对HA1蛋白序列与超过9抗原variation-causing突变和(2)冗余病毒对相同的序列向量,但不同的序列名称/标签;最后,我们获得了5401年流感病毒组成的数据集对,其中3681年和1720年是由成对的病毒有相似和改变/不同的抗原性,分别。清除病毒的原因对超过9抗原variation-causing突变的概率是,这类配对株抗原差异为99%,从而使他们之间不必要的预测抗原变异(32,38]。病毒对保留在第一和第二组作为训练集和验证集,分别为hyperparameter调优,特征选择,预测目前的绩效评价和比较研究。

深度学习方法的能力来预测疫苗株的抗原概要文件被预测评估菌株在即将到来的年,在未来两年基于历史上的时间数据。对于一个给定的年从1991年到1999年,训练数据是菌株分离之前(从1968年到年 ),压力和验证数据隔离或。验证数据在年和用于预测的抗原变异株在即将到来的年,在接下来的两年里,分别。预测结果和统计从1991年到1999年。

2.2。编码序列比较和主要特点

忠实的象征HA1蛋白的氨基酸序列编码一双病毒和病毒抗原性的特性是重要的一步改善深度学习方法的性能。在这项研究中,原始的氨基酸序列没有任何显式特性工程作为初始输入,并且每个氨基酸编码是一个炎热的向量使用正交编码方案(39]。实际上,20个输入单元被分配来描述相应的20种氨基酸残基。在20维空间,只有残留的数字对应等级标记为1,其他19个数字标记为0(表S1)。例如,向量 , ,和分别代表了甘氨酸、丙氨酸和组氨酸。成对序列,每个职位都由相应的逻辑计算的向量表示“或 ,”,和向量的两种氨基酸在同一位置,分别。例如,如果和都是甘氨酸在一个位置吗 ,向量的位置 ( 或 );如果和分别是甘氨酸和组氨酸的位置向量是什么 ( 或 )。自两两之间的氨基酸残基的改变病毒提供至关重要的信息来评估抗原变异,残留位置突变发生在一对HA1序列被编码为“位置”功能在我们的深度学习的方法。

除了位置功能,三个组织的特性,这可能会影响流感病毒的抗原性,提取和编码序列对测试他们对深度学习方法的预测性能的影响。具体来说,功能命名为“抗原决定基”、“RBD”和“g”指是否残留驻留在H3N2 HA1(五个已知的抗原表位40),属于受体结合域(RBD) (7),糖基化位点,分别。糖基化网站的每个HA1序列预测使用NetNGlyc [41]。抗原决定基的特点,RBD和g残留的位置被表示为 , ,和 ,分别与它们的值指定为0.5 0,如果残留符合和不符合相应的功能条件下,分别。地位相当于残留的配对序列,抗原决定基的特点和RBD分别是相同的,因此是一维,而通用电气特性( )可能是不同的,因此是二维的。最后,一个特征向量矩阵的大小 : 在哪里可以构造序列长度,作为输入的CNN。

2.3。深度学习方法的框架

在HA蛋白的三维结构,有一些残留不关闭主结构,但空间上彼此接近。这些残留物是外地在序列水平,但他们co-mutations可能大大影响流感病毒的抗原性19]。自从抗原表型的应变可以通过本地和外地改变氨基酸序列的变化,在我们的深度学习框架,两层,CNN和BLSTM,被用来捕捉这些变化的信息(42]。CNN,这通常是应用于图像识别由于其捕捉时空特性的能力,也有能力捕捉本地和外地残留信息因为卷积窗可调长度的变化31日,42]。BLSTM是递归神经网络(RNN)架构与人工反馈连接,哪个更有利处理整个序列(42,43]。图1显示我们的深度学习方法的流程图,包括两个卷积层连接,其次是两个池层和两个BLSTM层。中存储的相关特性序列对编码成一个特征向量矩阵和传递到完全连接核心层次。为了避免过度拟合,使用两个辍学函数,与第一个辍学生位于两者之间完全连接层和第二个完全连接层。最后,乙状结肠函数是用于分类。上面的深度学习过程可以很容易地由高级神经网络实现API工具,Keras (https://github.com/keras-team/keras),其后台是TensorFlow (https://www.tensorflow.org/)。

2.3.1。卷积和池

特征向量矩阵 ,它包含输入编码的一个炎热的特性,使用一维卷积CNN卷积过滤器(图1),每个过滤器被应用的窗口氨基酸残基通过激活函数修正线性单元(ReLU)在蛋白质序列长度。为每一个滤波器 ,ReLU函数应用在窗户上倍所描述的在哪里代表点积是偏差项。特征映射的过滤器被定义为

然后,特征向量获得的过滤器。

1 d max-pooling向量操作执行避免过度拟合。这是所描述的在哪里代表1 d max-pooling函数和池的大小。整个池可以表示结果

2.3.2。Long-Short-Term记忆网络

上面的2 d的数据然后平台式1 d的数据适合LSTM层。深度学习框架,双向LSTM层长旨在提取信息从伪序列比较。LSTM的基本单元,也称为存储单元,包含两个输入流:滑动窗口和序列比较信息的输出之前LSTM细胞。然后,由输入输出流,忘记,和输出盖茨负责更新和输出单元的状态。输入门控制多少新的信息可以流入单位。忘记门决定了存储的信息将保存在单位。然后,细胞状态更新的协调输入门和忘记门了在哪里 , ,和忘记门的激活,输入,输出,分别表示element-wise乘法,是物流乙状结肠函数,是函数1和1之间的值, , , , , , , ,和权重系数, , , ,a6nd偏差系数。在一个流作为输入,LSTM单位有隐藏的状态和细胞状态和每个单元输出序列。

BLSTM层获得的信息落后的隐状态 ,连接两个隐藏层中的数据序列(方程(11)- (13),分别为: 在哪里是一个双向的复发性神经功能。

2.3.3。完全连接层

向量负责处理特性配对序列通过一个完全连接的隐藏层隐藏的单位,将描述这一过程在哪里ReLU函数吗是权重系数。

2.3.4。乙状结肠决策单元

最后,决定单位给一个分数在0和1之间,说明了在哪里代表了最终输出权重矩阵。

2.4。评估性能

协议,这一指标衡量的是预测结果接近实验结果,被定义为以下方程: 在哪里是真阳性的数量(正确预测抗原变异),是假阴性的数量(错误地预测抗原相似),是真正的底片的数量(正确预测抗原相似),然后呢是假阳性的数量(错误地预测抗原变异)。

敏感性,能够正确识别真正的抗原变异,被定义为

特异性,能够正确识别真正的抗原相似,被定义为

马修斯相关系数(MCC) (44],考虑真实和假阳性和阴性,通常被认为是一个平衡的测量的性能预测模型的验证集。MCC的定义

从本质上说,世纪挑战集团是一个二进制分类,观察和预测之间的相关系数的值1,0,和−1表示一个完美的协议,没有比随机预测,分别和总预测和观察之间的分歧。

3所示。结果

3.1。Hyperparameter调优

抗原变异预测我们的深度学习方法包含一些hyperparameters,应调整实现良好的性能。从表1深度学习方法,Convolution1D层包含不同的滤波器数字和内核大小和BLSTM层含有不同数量的记忆细胞,而其他参数设置为固定值。首先,我们研究了滤波器的最佳组合数字(8、16、32和64)和内核大小(2、5、10和15)当记忆细胞的数量是128年设置为一个固定值。结果(表S2)表明,尽管过滤器的组合数32和内核大小为10(即有最好的预测效果。,the highest MCC value, 0.960), the model with the kernel size of 15 obtains better and more stable prediction effects regardless of the filter number. It appears that the change in the filter number has an uncertain impact on the prediction effect (TableS2)。因此,我们将内核大小设置为固定值15而调谐滤波器的hyperparameters数量和存储单元数量优化预测的效果。结果(表S3)显示改善的趋势预测效果与过滤数量增加,特别是过滤器64出最好的预测效果不管存储单元数。此外,似乎太大(256)和数量太小(32)的记忆细胞并不有利于预测效果;然而,这种方法达到稳定和良好的预测效果与128年记忆细胞(表S3)。为此,在我们的深度学习方法中,内核的参数大小、过滤数量,和记忆细胞数量设置为15,64年和128年,分别为最终的预测。


层	参数

Convolution1D_1	过滤器(8、16、32和64),内核大小(2、5、10和15),进展(1)
MaxPooling_1	池大小(2),进展(1)
Convolution1D_2	过滤器(8、16、32和64),内核大小(2、5、10和15),进展(1)
MaxPooling_2	池大小(2),进展(1)
BLSTM_1	存储单元(32、64、128、256)
BLSTM_2	存储单元(32、64、128、256)
Dense_1	输出空间(64)
Dropout_1	率(0.6)
Dense_2	输出空间(25)
Dropout_2	率(0.6)
Softmax	输出空间(1)

3.2。特征选择

众所周知,流感病毒的抗原表型是由HA蛋白质的序列和结构特点;然而,提取的结构特点可以映射到蛋白质一级序列通过适当的编码,因此,可以测试的深度学习的方法。因为它似乎不可行测试所有的功能可能参与病毒抗原性,这里只有四个关键特性占抗原变异测试使用当前深度学习框架,即。,position (HA1 sequence position where mutation occurs), epitope (whether a residue resides on the antibody-specific epitopes or not), RBD (whether a residue belongs to RBD or not), and Gly (whether a residue is at the glycosylation site or not).

自从改变抗原性变异起着至关重要的作用,所有模型中使用的位置特性,和其他三个特性被用作辅助信息来提高预测的性能。独自在这里,四个深度学习模型和位置特征,结合其他三个功能测试来选择最佳的预测模型。如表所示2,该模型只使用位置特性(位置模型)提供了良好的预测结果在协议条款,敏感性,特异性,MCC。位置模型相比,该模型有额外的抗原决定基特性(position-epitope模型)明显提高预测结果,与协议,敏感性,特异性,和MCC达到97.16%,96.85%,97.34%和0.939,分别。令人惊讶的是,通用电气的模型与附加功能(position-Gly)和RBD (position-RBD)产生的结果没有比从位置模型(除了特异性position-RBD模型)。因此,只有两个功能,位置和抗原决定基,被纳入后续抗原变异的深度学习方法预测。


模型	协议(%)	灵敏度(%)	特异性(%)	世纪挑战集团

位置	95.73	95.18	96.12	0.914
Position-epitope	97.16	96.85	97.34	0.939
Position-Gly	95.02	93.84	95.75	0.895
Position-RBD	94.74	92.42	96.44	0.892

3.3。性能

我们可以评估深度学习方法的性能通过比较其预测结果与现有的其他方法。由于我们现有的方法和深度学习方法训练在定量抗原距离和定性抗原字符,分别执行之间的直接比较是不合理的预测结果通过不同的训练集;这是规避通过比较相同或相似的预测结果验证设置(s),无论训练集的区别。值得注意的是,这四个机器学习方法,即。、多元回归18),多重回归在物理化学性质20.),决策树(19),联合随机森林方法(23)(见表3史密斯),集体使用完整的数据集36]作为验证集,因为这个数据集包含丰富的病毒对中有超过九个残基突变能够引起抗原变异的概率为99%,通过这些方法预测结果显示相对较高的协议和敏感性。然而,这两种方法的预测特异性,多重回归理化性质和联合随机森林,非常低,从而导致低MCC的价值观。为了避免通货膨胀的预测效果,谭et al。32)建造了一个简洁的数据集通过删除病毒从史密斯的数据集对超过9抗原variation-causing突变和进一步的冗余双。虽然简洁的数据集更现实的和具有挑战性的抗原性的变化,预测的应用堆autoencoder (SAE)模型,深入学习方法由Tan et al。32),简洁的数据集达到大幅提高特异性(93%)由两个模型相比,多重回归在物理化学性质(82.30%)和联合随机森林(77.7%)。令人鼓舞的是,应用程序数据集的深度学习的方法更简洁(见部分2.1)进一步提高了预测特异性(97.34%)相对于通过SAE。此外,表中列出的所有现有的方法/模型3,我们的深度学习方法也达到最佳的预测性能在协议条款和MCC,表明我们的方法远优于他人,适用于序列预测抗原变异。


方法	训练集	验证设置	协议^一个(%)	灵敏度^一个(%)	特异性^一个(%)	世纪挑战集团^一个

多元回归(18]	181你好实验	31878对史密斯的数据集^b	89.89	- - - - - -	- - - - - -	- - - - - -
在物理化学性质(多元回归20.]	394你好实验	31878对史密斯的数据集^b	96.96	99.55	82.30	0.877
决策树(19]	181你好实验	31878对史密斯的数据集^b	96.20	- - - - - -	- - - - - -	- - - - - -
联合随机森林方法^c(23]	28690对史密斯的数据集	31878对史密斯的数据集^b	96.4	98.1	77.7	0.758
堆叠autoencoder^d(32]	80%的8097对史密斯的简洁版的数据集	20%的8097对史密斯的简洁版的数据集	95年	95年	93年	- - - - - -
我们深度学习的方法^e	过滤后的病毒对由史密斯253株的70%的数据集	过滤后的病毒对由史密斯253株的30%的数据集	97.16	96.85	97.34	0.939

^一个标记“-”意味着没有相关文献中的数据。^b史密斯的数据集包含31878 253病毒株之间的两两比较,属于11集群;病毒的31878双,27098双的菌株不同集群包含抗原变异,而组成的4780双的菌株相同集群拥有相似的抗原(36]。^c姚等人进行了10倍交叉验证对史密斯的数据集。^d堆叠autoencoder模型是基于一个简洁的数据集通过删除从史密斯的数据集包含超过9的顺序对抗原variation-causing突变进一步去除冗余双紧随其后。^e我们深入学习方法是基于一个更简洁的数据集由史密斯的数据集(构建数据集的细节,请参阅部分2.1);数据集的优点是,病毒pair-constituting菌株在训练集和验证集完全不重叠的或不同。

抗原的不同属性之间的循环在前几季流感病毒和菌株普遍提供的证据基础选择流感疫苗株。因此,一个有效的方法能够预测疫苗株应该正确预测,历史训练数据的基础上,抗原的病毒传播在即将到来的赛季。这里,我们深度学习的方法的准确性预测抗原变异株的第二年被评估使用历史训练数据。如表所示4,我们深度学习的方法达到平均99.20%的协议预测抗原变异的菌株在即将到来的一年。这样优秀的预测精度明显高于Antigen-Bridges方法(21使用不同的残留集(表)5)。虽然我们的方法的协议价值减少96.46%的菌株在未来两年内,它仍然远高于Antigen-Bridges的方法。此外,我们的方法显示了一个更小的减少压力的预测精度之间即将到来的年,未来两年比Antigen-Bridges方法(表5)。最后,当采取全面查看性能的措施,它可以发现我们的深度学习方法也达到高敏感性和特异性的菌株在明年和未来两年;此外,一个更好的平衡之间的敏感性和特异性的预测明年的菌株比next-two-year菌株导致更高的世纪挑战集团价值的预测明年(表压力4)。


预测时间	协议(%)	灵敏度(%)	特异性(%)	世纪挑战集团

明年	99.20	98.59	99.32	0.972
未来两年	96.46	98.58	96.24	0.830


数量方法(氨基酸)	明年(%)	未来两年(%)

Antigen-Bridges (39-residue集)	83.78	75.10
Antigen-Bridges (44-residue集)	79.75	72.48
Antigen-Bridges (25-residue集)	80.51	71.51
我们深度学习的方法	99.20	96.46

4所示。讨论

在目前的研究中,我们结合氨基酸残基上的信息变化和其他几个特性与抗原性成深度学习框架来预测H3N2流感病毒的抗原变异。由于CNN和BLSTM的深度结合,可以预期,我们深度学习的方法有能力捕捉和处理本地和外地信息。的确,我们的深度学习的方法达到竞争非常激烈的预测结果在协议条款,敏感性,特异性,和MCC史密斯更严格和更简洁的数据集的子集,分别(表3)。更令人鼓舞的是,基于现有的按时间顺序排列的氨基酸序列,我们深度学习的方法达到99.20%的协议抗原性预测的菌株在即将到来的一年,同时提高了敏感性和特异性分别为98.59%和99.32%,分别为(表4)。相比以前的研究(21,23),我们的方法提高或保持特异性没有损害的敏感性,从而导致绩效分数很高的MCC(0.972)菌株在即将到来的一年。至于株验证集的未来两年,我们的方法获得MCC价值相对较低(0.830)由于轻微损伤敏感性和特异性之间的平衡;然而,我们的方法在协议条款仍然提供了优秀的性能,灵敏度和特异性(表4)。

hyperparameter优化的结果表明,我们的深度学习方法获得最优的性能在Convolution1D使用的内核大小15层和存储单元的数量128年BLSTM层(表S2和S3)。15的内核大小意味着CNN能够捕捉更多当地的复杂特性15相邻氨基酸残基在蛋白质序列使用比使用更少的残留。128的存储单元数量意味着长途依赖编码模块能够了解更多长距离依赖基于地方特色(被当地特性编码模块)当LSTM输出尺寸是128。一般来说,意味着更多的内存细胞提取更多的信息和从一个完整的序列。事实上,有一种趋势的增加我们的方法的性能随着记忆细胞数量的增加从32到128年,和一个类似的趋势也在一项研究旨在改善蛋白质二级结构预测的准确性与混合深度学习框架(45]。然而,当记忆细胞的数量增加到256,我们的深度学习方法的性能变得稍差,相比更加不稳定的存储单元128的数量,这可能是由于收敛困难带来太多的参数。以前的研究也表明,适度数量的深度学习框架BLSTM记忆细胞,50 - 150,能够实现最佳性能在各自的预测应用程序(42,45- - - - - -47]。

深度学习的方法有一个巨大的优势在处理大量复杂的信息。一般来说,训练集可以提供更多的信息,更好的预测性能将达到的深度学习模型。在这个工作中,除了基于位置功能,信息几个structure-derived特性参与抗原变异也是编码和测试使用深度学习模型的不同组合的位置特性和每个其他特性(即。表位,RBD和g),结果表明,只有在合并后的位置和抗原决定基功能可以实现最佳预测模型性能在所有的模型(表2)。这是推测,这可能是由于我们的特征提取方法的局限性和定性的套准实验嗨数据。的影响需要进一步的研究来检验两个以上特性的组合我们的深度学习方法的预测性能。还应该指出的是,嗨实验数据成对病毒目前非常有限,因此,我们只测试了我们的深度学习方法的预测效果使用准实验嗨在训练集和验证集的数据。我们预料我们的深度学习方法的精度和性能将进一步改善如果你好化验得到足够的高质量的数据是可用的。

数据可用性

研究数据可以通过联系第一作者或通讯作者:Yuan-Ling夏(xiayl@ynu.edu.cn)或Shu-Qun刘(shuqunliu@ynu.edu.cn)。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

Yuan-Ling夏,李、李和永平了同样的工作。

确认

这项工作得到了国家自然科学基金(91631304,91631304),东麓学者在云南大学,国家重点实验室的资助大量物种的保护和利用,在云南大学(2019 kf007),和南京邮电大学科学基金会(NY218140)。

补充材料

表S1:一个炎热的20种氨基酸的编码。表S2:从我们获得的MCC深度学习方法与内核大小的不同组合和筛选Convolution1D层数,和记忆细胞的数量在LSTM被设置为128。表S3:从我们获得的MCC深度学习方法的不同组合滤波器Convolution1D层数,和记忆细胞的数量在LSTM Convolution1D层和内核大小被设置为15。(补充材料)

引用

m·汤普森·d·谢,周h . et al .,“估计死亡人数与季节性influenza-United州,1976 - 2007,”发病率和死亡率每周报告卷,59号33岁,1057 - 1062年,2010页。视图:谷歌学术搜索
疾病控制和预防中心“流感疾病负担”,2020年,https://www.cdc.gov/flu/about/burden/index.html。视图:谷歌学术搜索
j·b·普罗金和j . Dushoff”密码子偏差和频率相关选择甲型流感病毒的血凝素抗原表位,”美国国家科学院院刊》上的美利坚合众国,卷100,不。12日,第7157 - 7152页,2003年。视图:出版商的网站|谷歌学术搜索
r . j . Russell p·s·克里·d·j·史蒂文斯et al .,“流感病毒血凝素的结构复杂的膜融合的抑制剂,”美国国家科学院院刊》上的美利坚合众国,卷105,不。46岁,17736 - 17741年,2008页。视图:出版商的网站|谷歌学术搜索
d . c . Ekiert g .巴巴·m·a·Elsliger et al .,“高度保守的流感病毒的抗体识别抗原决定基,”科学,卷324,不。5924年,第251 - 246页,2009年。视图:出版商的网站|谷歌学术搜索
B·e·约翰逊、T·m·莫兰和e·d·基尔孟”B抗原递呈细胞和辅助T细胞之间合作协调intravirionic抗原竞争甲型流感病毒表面糖蛋白,”美国国家科学院院刊》上的美利坚合众国,卷84,不。19日,6869 - 6873年,1987页。视图:出版商的网站|谷歌学术搜索
j。j Skehel和华盛顿威利”,在病毒进入受体结合和膜融合:流感病毒血凝素,”年度回顾生物化学,卷69,不。1,第569 - 531页,2000。视图:出版商的网站|谷歌学术搜索
t·汉和w·a . Marasco“流感病毒中和基础结构,”纽约科学院上,卷1217,不。1,第190 - 178页,2011。视图:出版商的网站|谷歌学术搜索
w·t·哈维·d·j·本顿,v . Gregory et al .,“识别低收入和高血凝素氨基酸替换驱动甲型(H1N1)流感病毒的抗原漂移,”PLOS病原体,12卷,不。4篇文章e1005526 2016。视图:出版商的网站|谷歌学术搜索
ai克里莫夫,r·加滕c·罗素et al .,”世卫组织的建议2012年病毒用于南半球流感疫苗:流行病学、抗原和基因特征的甲型流感(H1N1) pdm09,流感病毒A (H3N2)和收集从2月到2011年9月,“疫苗,32卷,不。37岁,4713 - 4725年,2014页。视图:谷歌学术搜索
n·c·吴和中情局威尔逊,“流感病毒血凝素和抗体识别”的结构,冷泉港医学视角,10卷,不。8篇文章a038778 2020。视图:出版商的网站|谷歌学术搜索
a . e . Fiore t . m . Uyeki k·布罗德et al .,“流感疫苗:预防和控制的建议免疫实践咨询委员会(ACIP), 2010年,“2010年,https://www.cdc.gov/MMWR/PREVIEW/MMWRHTML/rr5908a1.htm。视图:谷歌学术搜索
j·d·艾伦和t·m·罗斯,“下一代的方法更新哈新兴人类季节性流感疫苗(H3N2)病毒,”科学报告,11卷,不。1,p。4554年,2021。视图:出版商的网站|谷歌学术搜索
g·k·赫斯特,“流感病毒和抗体的定量测定的红细胞凝集,”实验医学杂志,卷75,不。1,49 - 64年,1942页。视图:出版商的网站|谷歌学术搜索
世界卫生组织,手工的实验室诊断和病毒学监测流感,世界卫生组织,2011年。
w·d·李·d·s .苔藓和A·j·谢泼德,“血凝素抗原的特性的计算分析甲型H3N2,”生物信息学,26卷,不。11日,第1408 - 1403页,2010年。视图:出版商的网站|谷歌学术搜索
m . s .李和j·s·e·陈,“预测/ H3N2流感病毒的抗原变异,”新发传染病,10卷,不。8,1385 - 1390年,2004页。视图:出版商的网站|谷歌学术搜索
y . c .廖m . s . Lee, c . y . Ko, A和c融合,“生物信息学模型预测/ H3N2流感病毒的抗原变异,”生物信息学,24卷,不。4、505 - 512年,2008页。视图:出版商的网站|谷歌学术搜索
J.-W。黄、c . c .国王和j·m·杨“共同进化位置和规则A / H3N2人流感病毒的抗原变异,”BMC生物信息学,10卷,补充1,p。S41, 2009。视图:出版商的网站|谷歌学术搜索
黄h·崔,x, y, b, y, j·王,“使用多元线性回归和物理化学变化的氨基酸突变预测/ H3N2流感病毒的抗原变异,”生物医学材料与工程,24卷,不。6,3729 - 3735年,2014页。视图:出版商的网站|谷歌学术搜索
h .太阳,j·杨,t . Zhang et al .,“使用序列数据推断出流感病毒的抗原性,”MBio,4卷,不。4 p . e00230 2013。视图:出版商的网站|谷歌学术搜索
z Cai、t . Zhang和x f .广域网,“流感抗原地图学的计算框架,”PLoS计算生物学》第六卷,没有。10篇文章e1000949 2010。视图:出版商的网站|谷歌学术搜索
李x, y姚,b .廖et al .,“预测流感病毒抗原性hemagglutintin序列数据基于联合随机森林方法,”科学报告,7卷,不。1,p。1545年,2017。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页770 - 778年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
d . Amodei s Ananthanarayanan r . Anubhai et al .,“深演讲2:端到端在英语和普通话语音识别,”国际会议上机器学习,页173 - 182,纽约,美国,2016年。视图:谷歌学术搜索
c·多斯桑托斯和m•加蒂,“深卷积神经网络短的文本的情感分析,”科尔学报》2014年,25日计算语言学国际会议:技术论文,页69 - 78,都柏林,爱尔兰,2014年。视图:谷歌学术搜索
s, s .太阳,z, r . Zhang和j .徐”准确新创超深学习模型预测蛋白质接触地图,”PLoS计算生物学,13卷,不。1,文章e1005324, 2017。视图:出版商的网站|谷歌学术搜索
h . Ozturk a Ozgur,大肠Ozkirimli“DeepDTA:深药物靶亲和力预测,”生物信息学,34卷,不。17日,pp. i821-i829, 2018年。视图:出版商的网站|谷歌学术搜索
y公园和m . >,“监管基因组学、深度学习”自然生物技术,33卷,不。8,825 - 826年,2015页。视图:出版商的网站|谷歌学术搜索
郭y, w·李,b . Wang h . Liu和d .周”DeepACLSTM:深非对称卷积长短期记忆神经模型对蛋白质二级结构预测,“BMC生物信息学,20卷,不。1,p。341年,2019。视图:出版商的网站|谷歌学术搜索
美国Khurana认为,r·拉k . Kunji g . y .壮族h . Bensmail, r .商场“DeepSol:深入学习框架,基于蛋白质溶解度预测,“生物信息学,34卷,不。15日,第2613 - 2605页,2018年。视图:出版商的网站|谷歌学术搜索
z,徐,k, t .江,和y .彭”预测抗原变异的人类甲型流感病毒(H3N2)堆放auto-encoder模型”国际会议的开创性的计算机科学家,工程师和教育家长沙,页302 - 310年,中国,2017。视图:谷歌学术搜索
答:Lapedes和r·法伯”的几何形状空间:应用于流感,”理论生物学杂志》上,卷212,不。1,57 - 69,2001页。视图:出版商的网站|谷歌学术搜索
即Archetti f . l . Horsfall Jr .,“持续的A型流感病毒的抗原变异后不完整的免疫血清中和与异种的蛋,”实验医学杂志,卷92,不。5,441 - 462年,1950页。视图:出版商的网站|谷歌学术搜索
f·伯内特,d .郁郁葱葱的某些表面活化剂对病毒的作用。”澳大利亚的实验生物学与医学科学杂志》上,18卷,不。2、141 - 150年,1940页。视图:出版商的网站|谷歌学术搜索
d . j . Smith, a . s . Lapedes j·c·德容et al .,“映射流感病毒的抗原和基因进化,”科学,卷305,不。5682年,第376 - 371页,2004年。视图:出版商的网站|谷歌学术搜索
t·贝德福德·m·a·Suchard p Lemey et al .,“整合流感抗原与分子进化动力学,”eLife卷,3条e01914, 2014年。视图:出版商的网站|谷歌学术搜索
x Du, l .董y局域网et al .,“映射H3N2流感抗原进化在中国显示疫苗株的策略建议,“自然通讯,3卷,不。1,第709条,2012。视图:出版商的网站|谷歌学术搜索
林k、a·c·w·可能和w·r·泰勒“氨基酸从蛋白质结构排列编码模式:多维向量来描述残渣类型,“理论生物学杂志》上,卷216,不。3、361 - 365年,2002页。视图:出版商的网站|谷歌学术搜索
中情局威尔逊和n·j·考克斯“结构性基础免疫识别的流感病毒血凝素,”年度回顾的免疫学,8卷,不。1,第787 - 737页,1990。视图:出版商的网站|谷歌学术搜索
r·古普塔和s .椰子饼”,预测人类蛋白质组学和糖基化的蛋白质功能的相关性,”太平洋研讨会于2002年生物运算,页310 - 322,考艾岛,夏威夷,2001年。视图:谷歌学术搜索
b . j .他d . Li Yang曹,太阳,和l . Yu”多视图的面部动作单元检测基于CNN和BLSTM-RNN”2017年12日自动脸上IEEE国际会议和手势识别(FG 2017)华盛顿特区,页848 - 853,美国2017年5月。视图:出版商的网站|谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
b·w·马修斯,”预测的比较和观察T4噬菌体溶菌酶的二级结构,”Biochimica et Biophysica学报(BBA)蛋白质结构,卷405,不。2、442 - 451年,1975页。视图:出版商的网站|谷歌学术搜索
王郭y, b、w·李和b·杨”蛋白质二级结构预测提高复发性与二维卷积神经网络,神经网络集成”生物信息学和计算生物学》杂志上,16卷,不。5,1850021页,2018年。视图:出版商的网站|谷歌学术搜索
x, p . Rijnbeek j .严,h·b·沈”预测rna蛋白质序列和结构绑定偏好使用深卷积和复发性神经网络,”BMC基因组学,19卷,不。1,p。511年,2018。视图:出版商的网站|谷歌学术搜索
李,j·陈,b . Liu”远程同源蛋白质检测基于双向短期记忆,”BMC生物信息学,18卷,不。1,p。443年,2017。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

文摘