CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi 10.1155 / 2020/3974598 3974598 研究文章 ACNNT3: Attention-CNN预测框架基于细菌III型分泌效应器 https://orcid.org/0000 - 0001 - 9770 - 7982 1 https://orcid.org/0000 - 0002 - 2730 - 6427 1 2 Jiesi 3 https://orcid.org/0000 - 0003 - 4811 - 646 x 昙花 4 Lei 1 信息科学与技术学院 浙江科技大学 杭州310018 中国 zstu.edu.cn 2 学校的科学 浙江科技大学 杭州310018 中国 zstu.edu.cn 3 衰老和再生医学重点实验室 药理学系 学院的药店 西南医科大学 646000年泸州 中国 swmu.edu.cn 4 学校的数学和统计数据 海南师范大学 海口571158 中国 hainnu.edu.cn 2020年 3 4 2020年 2020年 06 02 2020年 09年 03 2020年 17 03 2020年 3 4 2020年 2020年 版权©2020杰李et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

III型分泌系统(T3SS)是一种特殊的蛋白质输送系统在革兰氏阴性细菌提供T3SS-secreted效应器(T3SEs)宿主细胞引起病变。大量的实验验证,T3SEs扮演了一个重要的角色在许多生物活性和宿主-病原体相互作用的。准确的识别T3SEs所以有必要帮助了解细菌的致病机制;然而,许多现有的生物实验方法耗时和昂贵的。新的深度学习方法已经成功地应用于T3SE识别,但是提高识别的准确性T3SEs仍然是一个挑战。在这项研究中,我们开发了一个新的深度学习框架,ACNNT3,基于注意机制。我们转换100残留的蛋白质的氨基端序列为融合蛋白一级结构信息的特征向量(一个炎热的编码)和position-specific得分矩阵(PSSM)作为网络的输入特征模型。然后我们嵌入式学习的注意力层到CNN的特征偏好类型III效应蛋白,可以准确地分类直接T3SEs或non-T3SEs任何蛋白质。我们发现新的蛋白质特性的引入可以提高模型的识别精度。我们的方法结合了CNN和注意力机制的优势和优越在许多指标相比,其他受欢迎的方法。 Using the common independent dataset, our method is more accurate than the previous method, showing an improvement of 4.1-20.0%.

浙江省自然科学基金 LY18F020027 LZ19A010002 中国国家自然科学基金 61762035 11671009
1。介绍

革兰氏阴性细菌可以分泌蛋白质进入宿主细胞通过各种分泌系统,影响细胞和它的外部环境。这个过程可以由各种各样的分泌系统,可以分为八类:I型(T1SS-T8SS)[八世分泌系统 1]。I型和III分泌系统是独立的信号序列(sec),而第四类型II和依赖信号序列。sec-dependent分泌的蛋白质分泌系统主要由信号肽序列的氨基端疏水氨基酸可以指导通过细胞膜的蛋白质。蛋白质到达周质时,信号肽是剪除。II型和IV分泌系统删除的氨基端部分在周质分泌蛋白。系统之间的区别是,蛋白质以不同的方式通过外膜。当蛋白质分泌的II型分泌系统通过外膜,另一组内膜和外膜蛋白质需要帮助,尽管IV型分泌系统包括一系列autotransporters形成一个洞外膜蛋白通过,自溶的削减,然后释放的蛋白质。无论是我和III型分泌系统处理终端分泌蛋白质的氨基酸,也不出现在周质分泌蛋白保持。分泌蛋白质的分泌信号由I型分泌系统位于约60 c端氨基酸的蛋白质。这分泌信号似乎亚科具体,分泌的蛋白质不易被蛋白水解酶。V型分泌系统和大分子蛋白质的分泌有关,也可能是sec-dependent。

III型分泌系统是一个跨膜通道形成的多组分复杂的蛋白质,被广泛编码在许多革兰氏阴性细菌包括大肠杆菌、志贺氏杆菌、鼠疫,沙门氏菌和假单胞菌( 2, 3]。它可以改变的信号转导 4)和先天免疫反应( 5)的宿主细胞分泌蛋白质或将这些毒性蛋白直接注入宿主细胞。III型分泌系统(T3SSs)已被广泛研究,因为他们在不同的人类病原体毒力至关重要。有许多体内和体外的方法预测T3SEs,虽然他们中的一些人获得良好的预测,这些实验是复杂和耗时。

一些机器学习方法已经成功地用于预测T3SEs,如朴素贝叶斯(NB) [ 6),人工神经网络(ANN) [ 7),支持向量机(SVM) [ 8, 9),和随机森林(RF) ( 10]。这些机器学习方法的缺点是,事先必须定义适当的选择功能将影响预测精度,和模型更改或更新的灵活性是有限的( 11]。许多深度学习方法最近提出,如LSTM [ 12],ResNet [ 13],DenseNet [ 14],VGG16 [ 15),这些方法也可以用于生物信息学和其他相关领域 16, 17]。深度学习方法DeepT3 [ 11]训练深CNN使用只有一个炎热的编码作为模型特征输入并取得了良好的预测结果的准确性。因为只有一个功能是输入和CNN不能连接序列上下文当提取序列的特性,这种方法可以改进预测T3SEs。

注意机制在神经网络最近流行起来,因为它可以衡量输入特性测量对象识别每个特性的重要性。它广泛被应用于文本和图像分类( 18, 19),机器翻译( 20.),和生物信息学 21]。在这项研究中,我们提出一个方法预测基于Attention-CNN T3SEs使用n端序列。我们的模型提取的特征从100年一个炎热和PSSM残留的n端序列和融合功能的输入。注意层模型中可以连接的前后顺序,和CNN模块可以提取的特征序列。我们把这两个模块,使整个框架学习的特征序列在最大程度上。结果表明,我们的方法是有效的在预测T3SEs;它不仅能准确地捕获蛋白质运输目标信息,但它的表现也比现有的方法。

2。材料和方法 2.1。数据集

我们收集了综合来自多个细菌种类的数据集称为T3SEs non-T3SEs杨从先前的研究等。 10王),et al。 22),和茶等。 23]。CD-HIT [ 24)的序列的身份截止30%是用于序列比对去除蛋白质高的相似性,以及不少于100个氨基酸,蛋白质我们获得了平衡数据集包含283 T3蛋白质和311 non-T3蛋白质。

我们建立了负样本集通过选择类型我八世分泌蛋白质的革兰氏阴性细菌和清除III型分泌蛋白质及其同系物。为了建立一个1:3比积极的,消极的 11),我们随机选择负样本盾的以前的工作等。 8)和消除蛋白质序列相似性高,导致835负样本。

有两个测试集用来评估我们的方法。独立数据集来自李et al。 11)包含35类型III效应器,86实三世效应器。其他的测试数据集来自植物病原体 p .两。85第三类型的感受器和14实三世效应器,并不包括在所有模型都是来自Baltrus et al。 25]。

目前,大多数工具都是基于蛋白质的序列信息或只有100 c端残留 26]。在先前的研究中,氨基端残留也已被证明为蛋白质提供有针对性的信息传输( 27- - - - - - 29日),和目标信息的T3SEs通常位于50 - 100 n端残留在不同的细菌 30., 31日]。因此,我们只有用n端序列在所有以下的计算。

2.2。特征提取

特征模型的输入是一个炎热的组合编码和PSSM的蛋白质。每个序列转换为一个炎热的矩阵与100行和100行和列和一个PSSM矩阵20列,这是集成到一个组合矩阵作为特征输入200行和列。20一个炎热的矩阵中的列对应于20种氨基酸。一个炎热的编码解决问题的分类器不能有效处理属性数据和扩张在一定程度上的特性。然而,PSSM相比,一个炎热的编码较弱的关于蛋白质特征提取。这里,PSSM的引入使网络模型更好地了解蛋白质的特征偏好,因为PSSM特性考虑位置的重量,数量,每个氨基酸在蛋白质的其他参数。PSSM还认为进化信息,因此即使相同的残留可能会产生不同的特点,它可以有效地从氨基酸序列中提取信息。我们使用了PSI-BLAST [ 32]搜索数据库从UniprotKB / Swiss-Prot [ 33)来获取目标的PSSM蛋白质。矩阵是一个 l × 20. 矩阵, l 代表的总数残留在目标蛋白质的氨基酸序列。同时,我们用1、2、3…,20代表单个字符的订购20基本氨基酸和得到相应的列数。总之, U j 表示的可能性 位置的目标蛋白质的氨基酸序列编码的基本氨基酸 j 在进化过程中。 (1) PSSM = U 1 1 U 1 2 U 2 1 U 2 2 U 1 20. U 2 20. U l 1 U l 2 U l 20.

2.3。Attention-CNN模型的概述

传统的CNN模型包括卷积、池、完整的连接层,它可以用来提取蛋白质的序列特征。然而,蛋白质的序列更像是一段文字组成的氨基酸,因为,当一个氨基酸可能与周围的氨基酸或甚至更远,它不足以提取这些特性只使用CNN机制。我们还需要考虑信息之前和之后的蛋白质序列和不连续氨基酸之间的相关性。凭直觉,一种氨基酸或一段氨基酸在蛋白质序列可能有很大的影响,所以我们可以设置一个更高的重量这个或这部分氨基酸,因此关注层引入到网络。

注意力是一种基于encode-decode网络结构模型层,取得了令人满意的预测结果比其他传统模型在许多领域包括机器翻译、图片描述和语音识别。这个实现的注意机制保留的中间输出结果LSTM编码器的输入序列,然后火车模型有选择地学习这些输入,并将输出序列与他们当模型输出。

我们添加了注意力和充分连接层并行卷积和池层后,所以的模型不仅可以利用机制的关注学习前后的特征序列,但也使用CNN特征提取的优点。

我们的框架,ACNNT3,首先使用多个卷积和池层自动学习蛋白质序列的特性,然后将输出注意层的特征向量作为输入来计算得分显示神经网络是否注重的序列特征的位置。我们定义输出卷积后池作为一个矩阵 c d × ,在那里 d 卷积核的数量, 整个位置序列池后,列 j 映射矩阵的特性 c 可以被视为一个特征向量(用吗 V j )。 W j 是用于进一步的规范化的重要性得分平均特征映射矩阵的列 c 。通过关注网络稠密矩阵的输出 一个 ,也就是说, (2) 一个 = j = 1 w j v j , (3) w j = 经验值 e j j = 1 经验值 e t , 在哪里 e j 的重要性得分是共享网络和 W j 是相关的标准化分数。

convolution-pooling后为了整合功能和注意的特性输出层,我们第一次连接的所有值 c 和项目他们线性的值代表了整个序列的贡献,为代表 年代 c ,然后将它与密度表示 一个 并输入到逻辑回归分类器获得预测分数,即 (4) Pred 年代 = sigm concat 一个 , 年代 c , 在哪里 年代 在综合序列代表一个地位。 (5) 年代 c = 密集的 conv 编码 年代 , 在哪里 编码 , conv , , concat , 密集的 , 乙状结肠 代表一个炎热和PSSM的统一编码,卷积,最大池、连接,密集的连接,分别和乙状结肠操作。同时,为一个特定的序列,我们也可以输出权重向量,例如, (6) AttMap 年代 = w 1 , , w

这个公式是用来表达模型的注意每个位置的输入序列。

2.4。模型训练

ACNNT3由一系列的模块,使用100个氨基酸的融合特征蛋白质的氨基端作为输入预测T3SEs(图 1)。ACNNT3模型由卷积、池、关注,和完全连接层。我们使用crossvalidation火车模型,提高泛化能力。损失函数使用一个二进制交叉熵损失函数,和亚当算法优化器使用。在图 2,我们给独立的数据集上的准确性(ACC)比较在不同的时代和批次。因为数据集不是很大,训练时期的数量设置为50,上最好的一批价值crossvalidation 10设置为最佳设置。

ACNNT3架构T3SE预测。首先,64 1 d卷积核的长度6是生成一个错综复杂 195年 × 64年 特征映射,然后 65年 × 64年 特征映射获得通过 3 × 1 最大池层。然后输入映射到特征的关注和完整的连接层,和两个输出结果的总和66个节点。最后,66个节点完全连接到两个输出节点,和乙状结肠函数是用来激活T3SE和non-T3SE的预测概率。

ACC比较独立的数据集在不同时代和批次。

2.5。绩效评估

我们用5倍crossvalidation估算模型的分类性能。即,我们五次重复这个过程,并记录了每次训练参数和平均性能参数。常用的评价指标对两级分类精度(前),灵敏度(SN),特异性(SP), F1得分,准确性(ACC),马修和相关系数(MCC): (7) 精准医疗 = TP TP + 《外交政策》 , (8) SN = TP TP + FN , (9) SP = TN TN + 《外交政策》 , (10) F 1 分数 = 2 × TP 2 TP + 《外交政策》 + FN , (11) ACC = TP + TN TP + 《外交政策》 + TN + FN , (12) 世纪挑战集团 = TP × TN FN × 《外交政策》 TP + FN × TN + 《外交政策》 × TP + 《外交政策》 × TN + FN , 在哪里 TP , TN , 《外交政策》 , FN 代表真阳性的数量,真正的负面,假阳性、假阴性蛋白质数据集,分别。

中华民国曲线是真阳性和假阳性率之间的关系,用于测量不同方法的综合性能。ROC曲线下的面积(AUC)是常用的作为总结措施的诊断准确性。ROC曲线的横轴是玻璃钢(假阳性率,即。,the ratio of wrongly predicted pairs over the total number of negative pairs), and the vertical axis is the TPR (true positive rate, i.e., the ratio of correctly predicted pairs over the total number of positive pairs). The maximum AUC is 1, which means a perfect prediction, and the AUC obtained by a random guess is 0.5.

3所示。结果

我们构造了一个新的预测模型来识别T3SEs通过使用神经网络,结合与CNN的关注。为了研究负样本集对性能的影响,我们将训练集分成两个部分。训练集的比例正到负1是1:1,和训练集的积极消极比2是1:3。ACNNT3模型使用训练集训练1和2,分别。评估我们的ACNNT3模型的分类性能,我们使用ROC和AUC作为评价标准。中华民国的图表5倍crossvalidation曲线下的训练集1和2所示 3(一个) 3 (b)。我们可以看到ACNNT3模型取得了良好的性能在中华民国图表。0.95意味着AUC的模型训练集训练集2 1和0.98。这些结果表明,我们的ACNNT3模型可以准确T3SEs和non-T3SEs对训练集进行分类。

ROC曲线在不同的训练集。(一)使用5倍crossvalidation实验训练集1。(b)使用5倍crossvalidation实验训练集2。

3.1。比较在同一网络不同的特性

我们采取一个炎热的单一功能,包含在一个炎热的熔融特性矩阵和PSSM作为输入,分别使用ACNNT3作为训练模型,并使用独立的数据集对两个模型进行评估。各评价指标,结果表明,该模型的融合特性优于单一特征训练,从而验证该融合功能的有效性(图 4)。相比一个炎热的单一功能,融合功能更全面的蛋白质序列信息的提取,并从实验结果可以看出,两种类型的特性有很好的兼容性。

比较实验结果的融合特性和单一特征相同的网络模型。

3.2。比较不同深度学习的方法

我们比较不同的流行的网络模型的结果使用独立数据集具有相同功能的输入,如表所示 1。类的顺序处理问题,添加一个关注层使网络模型加强前后氨基酸的连接和序列中的重要信息的关注。从实验结果可以看出,我们的网络模型ACNNT3比现有的深度学习在许多指标预测T3SEs框架。

与主流深度学习的方法。

方法 精准医疗 F 1 分数 ACC 世纪挑战集团 AUC
ACNNT3 0.919 0.944 0.967 0.922 0.968
DenseNet 0.850 0.907 0.942 0.870 0.951
VGG16 0.846 0.892 0.934 0.847 0.937
ResNet 0.609 0.691 0.838 0.552 0.795
美国有线电视新闻网 0.780 0.842 0.901 0.776 0.904
LSTM 0.875 0.933 0.959 0.909 0.961

大胆的值表明最好的预测结果。

3.3。与现有的方法比较

为了评估我们的方法的有效性,我们ACNNT3性能有四个受欢迎的方法相比,DeepT3 [ 11],BPBAac [ 22),有效的T3 ( 6],BEAN2 [ 34),在相同的独立的数据集。这些方法的参数设置使用的相同李et al。 11]。我们发现我们ACNNT3-1模型有更高 SN , F 1 分数 , ACC , 世纪挑战集团 比其他四个方法(表 2)。结果还表明,我们在几乎所有方法取得了令人满意的性能指标。的重要指标 ACC ACNNT3-1的准确性是0.967,9.9%,4.1%,15.7%,20.0%,9.6%,和10.5%高于ACNNT3-2, DeepT3-1, DeepT3-2,有效的T3, BPBAac和BEAN2分别。在另一个 p .两数据集,我们的模型仍然表现得比现有的索引方法 ACC (表 3)。ACNNT3-1是0.887的准确性。我们选择最好的模型独立和五倍crossvalidation和使用 p .两数据集对其进行测试。我们也获得了ROC曲线模型的两个测试集(图 5)。总的来说,我们的方法已被证明是在T3SE优于所有最新的方法预测和可靠稳定。

ACNNT3 DeepT3,比较有效的T3, BPBAac, BEAN2在一个独立的数据集。

方法 精准医疗 SN SP F 1 分数 ACC 世纪挑战集团 AUC
ACNNT3-1 0.919 0.971 0.965 0.944 0.967 0.922 0.968
ACNNT3-2 0.711 0.914 0.849 0.800 0.868 0.716 0.882
DeepT3-1 0.825 0.943 0.919 0.880 0.926 0.830 0.974
DeepT3-2 0.643 0.771 0.825 0.701 0.810 0.569 0.896
有效的T3 0.542 0.839 0.741 0.658 0.767 0.521 0.803
BPBAac 0.944 0.548 0.988 0.694 0.871 0.656 0.902
BEAN2 0.674 0.935 0.835 0.784 0.862 0.706 0.865

大胆的值表明最好的预测结果。

ACNNT3 DeepT3,比较有效的T3, BPBAac, BEAN2上 p .两数据集。

方法 精准医疗 SN SP F 1 分数 ACC 世纪挑战集团 AUC
ACNNT3-1 0.900 0.976 0.357 0.936 0.887 0.452 0.667
ACNNT3-2 0.872 0.988 0.143 0.926 0.866 0.265 0.565
DeepT3-1 0.905 0.962 0.429 0.932 0.884 0.472 0.838
DeepT3-2 0.913 0.924 0.500 0.918 0.860 0.437 0.763
有效的T3 0.906 0.906 0.428 0.906 0.838 0.334 0.810
BPBAac 0.875 0.494 0.571 0.631 0.505 0.046 0.562
BEAN2 0.883 0.988 0.083 0.938 0.884 0.271 0.607

大胆的值表明最好的预测结果。

ROC曲线的最佳模式选择的5倍crossvalidation在两个数据集。(一)ROC曲线在一个常见的独立的数据集。(b)在ROC曲线 p .两数据集。

4所示。结论

我们已经提出了一种新的预测模型对革兰氏阴性细菌类型III分泌蛋白质基于深层神经网络。为了更好地学习III型分泌蛋白的功能偏好,我们综合在一个炎热的编码和PSSM从蛋白质一级序列中提取特征和嵌入式注意层输入CNN来提高模型的预测能力。大部分指标,该方法优于现有的其他方法和使用特性和网络模型比较,我们展示了其优势。与其他流行的方法相比,ACNNT3更准确的预测和识别T3SEs独立测试集,反映出其优势和有效性。然而,我们发现ACNNT3的使用性能 p .两数据集不是特别明显,只是略高于前ACC和MCC方法。在未来我们的工作重点是实现更好的结果在其它实验指标和应用这种预测模型使用其他大规模数据集。

对于容易实现,所有数据用于这项工作和特性计算的源代码可以在访问 https://github.com/Lijiesky/ACNNT3

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金批准号。11671009和11671009下,浙江省自然科学基金资助下。LZ19A010002 LY18F020027。

Desvaux M。 Hebraud M。 R。 亨德森 i R。 分泌物和细菌蛋白质的亚细胞本地化:语义意识问题 微生物学的趋势 2009年 17 4 139年 145年 10.1016 / j.tim.2009.01.004 2 - s2.0 - 63549137674 19299134 Cornelis g·R。 类型III injectisome分泌 国际医学微生物学杂志》上 2006年 4 11 811年 825年 10.1038 / nrmicro1526 2 - s2.0 - 33750110911 17041629 s Y。 野村证券 K。 Whittam t·S。 类型III蛋白质分泌机制在哺乳动物和植物病原体 Biochimica et Biophysica学报(BBA)——分子细胞研究 2004年 1694年 1 - 3 181年 206年 10.1016 / j.bbamcr.2004.03.011 2 - s2.0 - 8844275498 15546666 施罗德 g . N。 Hilbi H。 志贺氏杆菌的分子发病机制spp。控制宿主细胞信号,由III型分泌入侵,和死亡 临床微生物学检查 2008年 21 1 134年 156年 10.1128 / CMR.00032-07 2 - s2.0 - 38549126641 18202440 恩格尔 J。 Balachandran P。 铜绿假单胞菌类型III效应器在疾病的作用 目前看来在微生物学 2009年 12 1 61年 66年 10.1016 / j.mib.2008.12.007 2 - s2.0 - 59849110833 19168385 阿诺德 R。 Brandmaier 年代。 Kleine F。 P。 亨氏食品公司 E。 behren 年代。 Niinikoski 一个。 关进笼子 h·W。 M。 Rattei T。 序列预测III型分泌蛋白 PLoS病原体 2009年 5 4、文章e1000376 10.1371 / journal.ppat.1000376 2 - s2.0 - 66349124179 19390696 较低的 M。 施耐德 G。 预测III型分泌信号革兰氏阴性细菌的基因组 《公共科学图书馆•综合》 2009年 4 6条e5917 10.1371 / journal.pone.0005917 2 - s2.0 - 67650151451 19526054 越南盾 X。 Y.-J。 Z。 使用弱守恒的主题隐藏在分泌信号识别iii型效应器从细菌病原体的基因组 《公共科学图书馆•综合》 2013年 8 2、文章e56632 10.1371 / journal.pone.0056632 2 - s2.0 - 84874234583 23437191 年代。 Z。 H。 蛋白质二级结构预测基于模糊支持向量机与超平面的优化 基因 2018年 642年 5 74年 83年 10.1016 / j.gene.2017.11.005 2 - s2.0 - 85033722497 29104167 X。 Y。 J。 聚氨酯 X。 M。 有效识别革兰氏阴性细菌III型分泌效应物使用position-specific残留保护配置文件 《公共科学图书馆•综合》 2013年 8 12条e84439 10.1371 / journal.pone.0084439 2 - s2.0 - 84896707996 24391954 l B。 W。 J。 DeepT3:深卷积神经网络准确地识别革兰氏阴性细菌III型分泌效应物使用n端序列 生物信息学 2019年 35 12 2051年 2057年 10.1093 /生物信息学/ bty931 2 - s2.0 - 85068423151 30407530 H。 Z。 Elofsson 一个。 年代。 一个基于Bi-LSTM合奏算法预测蛋白质二级结构 应用科学 2019年 9 17日,第3538条 10.3390 / app9173538 2 - s2.0 - 85072247445 K。 X。 年代。 太阳 J。 深层残留图像识别的学习 2016年IEEE计算机视觉与模式识别会议(CVPR) 2016年6月 美国内华达州拉斯维加斯 770年 778年 10.1109 / cvpr.2016.90 2 - s2.0 - 84986274465 Z。 J。 X。 Y。 RDense: protein-RNA绑定基于双向递归神经网络预测模型和人口卷积网络连接 IEEE访问 2020年 8 14588年 14605年 10.1109 / ACCESS.2019.2961260 Simonyan K。 Zisserman 一个。 很深的卷积网络大规模图像识别 http://arxiv.org/abs/1409.1556 Angermueller C。 Parnamaa T。 部分 l Stegle O。 计算生物学的深入学习 分子系统生物学 2016年 12 7 878年 10.15252 / msb.20156651 2 - s2.0 - 84980022857 27474269 Miotto R。 F。 年代。 X。 达德利 j . T。 深度学习医疗:审查,机遇和挑战 简报的生物信息学 2018年 19 6 1236年 1246年 10.1093 /龙头/ bbx044 2 - s2.0 - 85050595396 28481991 Z。 D。 戴尔 C。 X。 Smola 一个。 Hovy E。 层次关注网络文档分类 https://www.aclweb.org/anthology/n16 - 1174. - pdf Mnih V。 Heess N。 格雷夫斯 一个。 Kavukcuoglu K。 复发性的视觉注意力模型 先进的神经信息处理系统 2014年 3 2204年 2212年 Bahdanau D。 K。 Bengio Y。 神经机器翻译的共同学习和翻译一致 http://arxiv.org/abs/1409.0473 Verga P。 Strubell E。 Mccallum 一个。 同时self-attending所有提到full-abstract生物提取的关系 https://arxiv.org/pdf/1802.10569 Y。 Q。 太阳 M。 D。 高精度的预测细菌III型分泌效应器基于position-specific氨基酸组成配置文件 生物信息学 2011年 27 6 777年 784年 10.1093 /生物信息学/ btr021 2 - s2.0 - 79952594050 21233168 泰河 d . M . M。 戈文达拉扬 k·R。 m·A。 t . y . R。 Samad h . M。 全音阶 W·W。 M。 F。 唐ydF4y2Ba t·W。 T3SEdb:数据仓库的毒性效应物分泌的细菌III型分泌系统 BMC生物信息学 2010年 11 5 7 S4 10.1186 / 1471 - 2105 - 11 - s7 - s4 2 - s2.0 - 77957902441 Y。 妞妞 B。 Y。 l W。 CD-HIT套件:web服务器集群和比较生物学序列 生物信息学 2010年 26 5 680年 682年 10.1093 /生物信息学/ btq003 2 - s2.0 - 77949601825 20053844 Baltrus d . A。 西村 m . T。 Romanchuk 一个。 j . H。 穆赫塔尔 m . S。 Cherkis K。 罗奇 J。 格兰特 s R。 琼斯 c, D。 Dangl j·L。 动态演化的致病性透露测序和比较基因组学19两分离 PLoS病原体 2011年 7 7条e1002132 10.1371 / journal.ppat.1002132 2 - s2.0 - 79960944810 一个 Y。 J。 C。 [Leier 一个。 Marquez-Lago T。 Wilksch J。 Y。 韦伯 g . I。 首歌 J。 Lithgow T。 综合评价和性能改进的效应蛋白预测细菌分泌系统III, IV和VI 简报的生物信息学 2018年 19 1 148年 161年 10.1093 /龙头/ bbw100 2 - s2.0 - 85041205555 27777222 Bendtsen j . D。 詹森 l . J。 布鲁姆 N。 冯Heijne G。 椰子饼 年代。 基于特征预测群龙无首的蛋白质和非经典的分泌 蛋白质工程的设计和选择 2004年 17 4 349年 356年 10.1093 /蛋白质/ gzh037 2 - s2.0 - 3042692704 Casper-Lindley C。 Dahlbeck D。 克拉克 e . T。 Staskawicz b . J。 直接生化证据类型III secretion-dependent AvrBs2效应蛋白在植物细胞的易位 美国国家科学院院刊》上的美利坚合众国 2002年 99年 12 8336年 8341年 10.1073 / pnas.122220299 2 - s2.0 - 0037062493 12060777 Y。 J。 摩根 r . L。 W。 T。 计算预测III型分泌蛋白质从革兰氏阴性细菌 BMC生物信息学 2010年 11条S47 10.1186 / 1471 - 2105 - 11 - s1 - s47 2 - s2.0 - 75149124497 Schesser K。 Frithz-Lindsten E。 Wolf-Watz H。 描述和突变分析的鼠疫的伪YopE域调解细菌和真核细胞跨膜易位 细菌学期刊 1997年 178年 24 7227年 7233年 10.1128 / jb.178.24.7227 - 7233.1996 2 - s2.0 - 0030474296 8955406 很抱歉 m P。 博兰 一个。 Lambermont 我。 Cornelis g·R。 识别所需的YopE和YopH域macro-phages分泌并内化到胞质,使用cyaA基因融合的方法 美国国家科学院院刊》上Sciencesof美利坚合众国 1996年 92年 26 11998年 12002年 10.1073 / pnas.92.26.11998 2 - s2.0 - 0029608720 8618831 Altschul 美国F。 马登 t . L。 谢弗 答:一个。 J。 Z。 米勒 W。 Lipman d . J。 有缺口的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索程序 核酸的研究 1997年 25 17 3389年 3402年 10.1093 / nar / 25.17.3389 2 - s2.0 - 0030801002 9254694 h . B。 k . C。 Virus-mPLoc:融合分类器对病毒蛋白质亚细胞定位预测通过整合多个网站 生物分子结构和动力学杂志》上 2010年 28 2 175年 186年 10.1080 / 07391102.2010.10507351 2 - s2.0 - 77957297596 20645651 越南盾 X。 X。 Z。 豆2.0:一个集成的web资源的鉴定和功能分析III型分泌效应器 数据库 2015年 2015年,文章bav064 10.1093 /数据库/ bav064 2 - s2.0 - 84943166521