III型分泌系统(T3SS)是一种特殊的蛋白质输送系统在革兰氏阴性细菌提供T3SS-secreted效应器(T3SEs)宿主细胞引起病变。大量的实验验证,T3SEs扮演了一个重要的角色在许多生物活性和宿主-病原体相互作用的。准确的识别T3SEs所以有必要帮助了解细菌的致病机制;然而,许多现有的生物实验方法耗时和昂贵的。新的深度学习方法已经成功地应用于T3SE识别,但是提高识别的准确性T3SEs仍然是一个挑战。在这项研究中,我们开发了一个新的深度学习框架,ACNNT3,基于注意机制。我们转换100残留的蛋白质的氨基端序列为融合蛋白一级结构信息的特征向量(一个炎热的编码)和position-specific得分矩阵(PSSM)作为网络的输入特征模型。然后我们嵌入式学习的注意力层到CNN的特征偏好类型III效应蛋白,可以准确地分类直接T3SEs或non-T3SEs任何蛋白质。我们发现新的蛋白质特性的引入可以提高模型的识别精度。我们的方法结合了CNN和注意力机制的优势和优越在许多指标相比,其他受欢迎的方法。 Using the common independent dataset, our method is more accurate than the previous method, showing an improvement of 4.1-20.0%.
革兰氏阴性细菌可以分泌蛋白质进入宿主细胞通过各种分泌系统,影响细胞和它的外部环境。这个过程可以由各种各样的分泌系统,可以分为八类:I型(T1SS-T8SS)[八世分泌系统
III型分泌系统是一个跨膜通道形成的多组分复杂的蛋白质,被广泛编码在许多革兰氏阴性细菌包括大肠杆菌、志贺氏杆菌、鼠疫,沙门氏菌和假单胞菌(
一些机器学习方法已经成功地用于预测T3SEs,如朴素贝叶斯(NB) [
注意机制在神经网络最近流行起来,因为它可以衡量输入特性测量对象识别每个特性的重要性。它广泛被应用于文本和图像分类(
我们收集了综合来自多个细菌种类的数据集称为T3SEs non-T3SEs杨从先前的研究等。
我们建立了负样本集通过选择类型我八世分泌蛋白质的革兰氏阴性细菌和清除III型分泌蛋白质及其同系物。为了建立一个1:3比积极的,消极的
有两个测试集用来评估我们的方法。独立数据集来自李et al。
目前,大多数工具都是基于蛋白质的序列信息或只有100 c端残留
特征模型的输入是一个炎热的组合编码和PSSM的蛋白质。每个序列转换为一个炎热的矩阵与100行和100行和列和一个PSSM矩阵20列,这是集成到一个组合矩阵作为特征输入200行和列。20一个炎热的矩阵中的列对应于20种氨基酸。一个炎热的编码解决问题的分类器不能有效处理属性数据和扩张在一定程度上的特性。然而,PSSM相比,一个炎热的编码较弱的关于蛋白质特征提取。这里,PSSM的引入使网络模型更好地了解蛋白质的特征偏好,因为PSSM特性考虑位置的重量,数量,每个氨基酸在蛋白质的其他参数。PSSM还认为进化信息,因此即使相同的残留可能会产生不同的特点,它可以有效地从氨基酸序列中提取信息。我们使用了PSI-BLAST [
传统的CNN模型包括卷积、池、完整的连接层,它可以用来提取蛋白质的序列特征。然而,蛋白质的序列更像是一段文字组成的氨基酸,因为,当一个氨基酸可能与周围的氨基酸或甚至更远,它不足以提取这些特性只使用CNN机制。我们还需要考虑信息之前和之后的蛋白质序列和不连续氨基酸之间的相关性。凭直觉,一种氨基酸或一段氨基酸在蛋白质序列可能有很大的影响,所以我们可以设置一个更高的重量这个或这部分氨基酸,因此关注层引入到网络。
注意力是一种基于encode-decode网络结构模型层,取得了令人满意的预测结果比其他传统模型在许多领域包括机器翻译、图片描述和语音识别。这个实现的注意机制保留的中间输出结果LSTM编码器的输入序列,然后火车模型有选择地学习这些输入,并将输出序列与他们当模型输出。
我们添加了注意力和充分连接层并行卷积和池层后,所以的模型不仅可以利用机制的关注学习前后的特征序列,但也使用CNN特征提取的优点。
我们的框架,ACNNT3,首先使用多个卷积和池层自动学习蛋白质序列的特性,然后将输出注意层的特征向量作为输入来计算得分显示神经网络是否注重的序列特征的位置。我们定义输出卷积后池作为一个矩阵
convolution-pooling后为了整合功能和注意的特性输出层,我们第一次连接的所有值
这个公式是用来表达模型的注意每个位置的输入序列。
ACNNT3由一系列的模块,使用100个氨基酸的融合特征蛋白质的氨基端作为输入预测T3SEs(图
ACNNT3架构T3SE预测。首先,64 1 d卷积核的长度6是生成一个错综复杂
ACC比较独立的数据集在不同时代和批次。
我们用5倍crossvalidation估算模型的分类性能。即,我们五次重复这个过程,并记录了每次训练参数和平均性能参数。常用的评价指标对两级分类精度(前),灵敏度(SN),特异性(SP), F1得分,准确性(ACC),马修和相关系数(MCC):
中华民国曲线是真阳性和假阳性率之间的关系,用于测量不同方法的综合性能。ROC曲线下的面积(AUC)是常用的作为总结措施的诊断准确性。ROC曲线的横轴是玻璃钢(假阳性率,即。,the ratio of wrongly predicted pairs over the total number of negative pairs), and the vertical axis is the TPR (true positive rate, i.e., the ratio of correctly predicted pairs over the total number of positive pairs). The maximum AUC is 1, which means a perfect prediction, and the AUC obtained by a random guess is 0.5.
我们构造了一个新的预测模型来识别T3SEs通过使用神经网络,结合与CNN的关注。为了研究负样本集对性能的影响,我们将训练集分成两个部分。训练集的比例正到负1是1:1,和训练集的积极消极比2是1:3。ACNNT3模型使用训练集训练1和2,分别。评估我们的ACNNT3模型的分类性能,我们使用ROC和AUC作为评价标准。中华民国的图表5倍crossvalidation曲线下的训练集1和2所示
ROC曲线在不同的训练集。(一)使用5倍crossvalidation实验训练集1。(b)使用5倍crossvalidation实验训练集2。
我们采取一个炎热的单一功能,包含在一个炎热的熔融特性矩阵和PSSM作为输入,分别使用ACNNT3作为训练模型,并使用独立的数据集对两个模型进行评估。各评价指标,结果表明,该模型的融合特性优于单一特征训练,从而验证该融合功能的有效性(图
比较实验结果的融合特性和单一特征相同的网络模型。
我们比较不同的流行的网络模型的结果使用独立数据集具有相同功能的输入,如表所示
与主流深度学习的方法。
| 方法 |
|
|
|
|
|
|---|---|---|---|---|---|
| ACNNT3 |
|
|
|
|
|
| DenseNet | 0.850 | 0.907 | 0.942 | 0.870 | 0.951 |
| VGG16 | 0.846 | 0.892 | 0.934 | 0.847 | 0.937 |
| ResNet | 0.609 | 0.691 | 0.838 | 0.552 | 0.795 |
| 美国有线电视新闻网 | 0.780 | 0.842 | 0.901 | 0.776 | 0.904 |
| LSTM | 0.875 | 0.933 | 0.959 | 0.909 | 0.961 |
大胆的值表明最好的预测结果。
为了评估我们的方法的有效性,我们ACNNT3性能有四个受欢迎的方法相比,DeepT3 [
ACNNT3 DeepT3,比较有效的T3, BPBAac, BEAN2在一个独立的数据集。
| 方法 |
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|---|
| ACNNT3-1 | 0.919 |
|
0.965 |
|
|
|
0.968 |
| ACNNT3-2 | 0.711 | 0.914 | 0.849 | 0.800 | 0.868 | 0.716 | 0.882 |
| DeepT3-1 | 0.825 | 0.943 | 0.919 | 0.880 | 0.926 | 0.830 |
|
| DeepT3-2 | 0.643 | 0.771 | 0.825 | 0.701 | 0.810 | 0.569 | 0.896 |
| 有效的T3 | 0.542 | 0.839 | 0.741 | 0.658 | 0.767 | 0.521 | 0.803 |
| BPBAac |
|
0.548 |
|
0.694 | 0.871 | 0.656 | 0.902 |
| BEAN2 | 0.674 | 0.935 | 0.835 | 0.784 | 0.862 | 0.706 | 0.865 |
大胆的值表明最好的预测结果。
ACNNT3 DeepT3,比较有效的T3, BPBAac, BEAN2上
| 方法 |
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|---|
| ACNNT3-1 | 0.900 | 0.976 | 0.357 | 0.936 |
|
0.452 | 0.667 |
| ACNNT3-2 | 0.872 |
|
0.143 | 0.926 | 0.866 | 0.265 | 0.565 |
| DeepT3-1 | 0.905 | 0.962 | 0.429 | 0.932 | 0.884 |
|
|
| DeepT3-2 |
|
0.924 | 0.500 | 0.918 | 0.860 | 0.437 | 0.763 |
| 有效的T3 | 0.906 | 0.906 | 0.428 | 0.906 | 0.838 | 0.334 | 0.810 |
| BPBAac | 0.875 | 0.494 |
|
0.631 | 0.505 | 0.046 | 0.562 |
| BEAN2 | 0.883 | 0.988 | 0.083 |
|
0.884 | 0.271 | 0.607 |
大胆的值表明最好的预测结果。
ROC曲线的最佳模式选择的5倍crossvalidation在两个数据集。(一)ROC曲线在一个常见的独立的数据集。(b)在ROC曲线
我们已经提出了一种新的预测模型对革兰氏阴性细菌类型III分泌蛋白质基于深层神经网络。为了更好地学习III型分泌蛋白的功能偏好,我们综合在一个炎热的编码和PSSM从蛋白质一级序列中提取特征和嵌入式注意层输入CNN来提高模型的预测能力。大部分指标,该方法优于现有的其他方法和使用特性和网络模型比较,我们展示了其优势。与其他流行的方法相比,ACNNT3更准确的预测和识别T3SEs独立测试集,反映出其优势和有效性。然而,我们发现ACNNT3的使用性能
对于容易实现,所有数据用于这项工作和特性计算的源代码可以在访问
使用的数据来支持本研究的结果包括在本文中。
作者宣称没有利益冲突。
这项工作得到了国家自然科学基金批准号。11671009和11671009下,浙江省自然科学基金资助下。LZ19A010002 LY18F020027。