文摘
内在无序蛋白质(idp)具有至少一个地区,体内缺乏一个稳定的结构,这使得它们发挥重要作用在各种生物功能。我们提出一个预测方法基于卷积神经网络(cnn)的国内流离失所者和特征选择。的组合序列和进化属性用于描述无序和有序区域之间的区别。尤其强调目标之间的相关性残渣和相邻的残留物,多个窗口选择预处理蛋白质序列通过所选的属性。短窗口反映中央残留的特点,和时间窗口反映周围环境的特点,中央残渣。此外,突出的特异性序列和进化属性,分别是预处理。之后,预处理属性组合成特征矩阵的输入构造CNN。我们的方法是训练以及测试基于DisProt数据库。仿真结果表明,该方法可以有效地预测国内流离失所者,和性能与IsUnstruct和ESpritz相比具有竞争力。
1。介绍
内在无序区域(idr)的蛋白质往往起着重要的作用在许多生理功能而缺乏一个稳定的结构体内(1]。内在无序蛋白质(idp)可以完全或部分非结构化和通常包括一个或多个印尼盾2]。国内流离失所者在真核生物是非常常见的。它们执行等许多重要功能细胞信号和翻译可以促进分子识别以及蛋白质相互作用[3]。许多功能相关的国内流离失所者直接与他们的结构属性(4]。此外,先前的研究已经表明,国内流离失所者是关键球员在人类疾病(5]。例如,79%的癌症相关的蛋白质是国内流离失所者和57%的心血管疾病相关蛋白质是国内流离失所者(6,7]。除此之外,国内流离失所者也与遗传相关的疾病,神经退行性疾病和阿尔茨海默病(8,9]。因此,准确预测国内流离失所者不仅是重要的蛋白质描述和功能注释,还导致了药物设计。
有很多实验技术识别国内流离失所者,如x射线晶体学、核磁共振(NMR)和圆二色性(CD)光谱。然而,实验方法是昂贵和耗时的困难提纯和结晶10]。因此,有必要根据计算方法预测国内流离失所者。
在过去的十年里,许多计算方法提出了国内流离失所者的预测。这些方法大致可以分为三个类别(11]。(1)Physicochemical-based方法:这些方法都是基于氨基酸的物理化学性质和规模的倾向,如FoldIndex [12],GlobPlot [13],IsUnstruct [14]。FoldIndex预测国内流离失所者通过计算平均疏水性比平均净电荷的蛋白质序列。GlobPlot建立一个映射规模以反映每一个氨基酸残基的相对趋势在有序或无序状态概率的基础上每个氨基酸在常规的二级结构或随机卷曲和预测国内流离失所者通过核函数和过滤器。IsUnstruct使用伊辛模型来描述之间的交互命令和无序状态,达到良好的性能。因此,我们选择它作为一个比较的方法。(2)基于机器学习方法:这些方法对待国内流离失所者预测二元分类问题,利用正负样本区分有序和无序残留。常用的分类算法包括神经网络(NN)、径向基函数网络(RBFN)、支持向量机(SVM),随机森林,等等。这一类的代表方法包含DisPSSMP [15],Dispredict [16],SPINE-D [17],ESpritz [18],RFPR-IDP [19),等等。DisPSSMP结合了RBFN和矩阵PSSMP预测国内流离失所者。矩阵PSSMP是一个凝聚position-specific得分矩阵(PSSM)根据不同的物理化学性质。Dispredict使用三种特性包括序列信息、进化信息和结构信息和基于支持向量机的预测国内流离失所者与径向基函数内核。SPINE-D基于NN two-hidden-layer神经网络和一个额外的单层过滤器平滑预测结果。ESpritz合奏的氨基三NNs预测,内部,分别和蛋白c端。基于双向递归神经网络,达到良好的预测性能。因此,它也是选为比较法。(3)元方法:这些方法将各种预测方法组合为一个模型,进一步提高预测的性能,如MetaDisorder [20.],DisCop [21],MobiDB-lite [22]。MetaDisorder有13个独立预测因素。MetaDisorder的最终预测结果加权值的获得这些13的结果预测。它具有预测精度高,但操作是缓慢的,因为它包含很多独立的预测因子。DisCop使用设计合理构建metapredictor,选择最佳性能组6预测从20基本的预测。然后综合这些方法的预测结果,通过使用一个回归模型。MobiDB-lite构造基于8预测,其最终的共识预测由投票决定。
在本文中,我们提出一个方法来预测基于CNN和特征选择的国内流离失所者。考虑到CNN取得了非常好的成果在计算机视觉、自然语言处理、等领域,我们希望利用CNN提取更多的隐藏功能。我们的以前的工作23证实了这种期望。在这篇文章中,我们改进预处理过程和重建和火车CNN和进一步提高预测的性能。输入特性包括序列和进化属性。此外,强调他们的特异性序列和进化属性预处理通过多个窗口,分别。然后,预处理功能组合成一个特征矩阵作为输入的预测模型。通过预处理,输入信息可以反映每个特性之间的关系和周边功能特征矩阵和丰富特征信息提取的蛋白质序列。我们的预测模型包含两个卷积层和一个完全连接层和DisProt训练和测试数据库(24]。最后,该方法有两个竞争的预测方法相比IsUnstruct和ESpritz基于相同的测试集。
2。材料和方法
我们选择12 20块进化序列属性和属性。分别两种属性预处理,强调他们的特异性。然后,我们训练一个CNN模型包括两个卷积层和一个完全连接层预测国内流离失所者。
2.1。数据集
DisProt数据库用于训练和测试提出了方法。有803个蛋白质序列,含有1254个无序地区和1343年下令区域,对应92418无序残留物和315856命令残留物,分别。803蛋白序列是随机分为两个子集的比例根据9:1。大型数据集训练集,包含721序列85184无序残留物和289983命令残留。小数据集测试集,包含82序列7234无序残留物和25873命令残留。表1列出了具体的信息。
2.2。选择属性
从蛋白质序列表示的复杂性如何以不同的方式重新排列,低复杂度区域更有可能比有序无序。我们选择5复杂性特征讨论了我们的以前的工作25),包括拓扑熵,香农熵,和三个氨基酸倾向。在这些特性中,拓扑熵可能不是直接从蛋白质序列计算,因为含有20种氨基酸序列元素和序列的长度不满足条件计算拓扑熵。因此,在计算拓扑熵之前,我们将蛋白质序列映射到0 - 1序列。考虑到无序残留的特点,大的疏水氨基酸残基(我l,V)和芳香族氨基酸残基(F, W, Y)映射到1,和其他残留物被映射到0。给定一个蛋白质区域 的长度N,其拓扑熵可以计算如下: 在哪里表示许多不同的子序列的长度n在该地区 。子序列的长度n满足以下几点:
相同的蛋白质 ,香农熵可以描述如下: 在哪里 20种氨基酸的概率是出现在该地区吗 。
三个氨基酸倾向选择从GlobPlot13),其中包含465年的话,Deleage /面粉糊,Bfactor (2 std)。对于这三种倾向,蛋白质区域映射到它们,然后映射区域的平均值计算如下:
在(4),参数代表了映射的区域与我th倾向, 对应于465年的话,Deleage /面粉糊,Bfactor,分别。
此外,它已经表明,无序区域并命令区域通常显示不同的物理化学性质,从而在idp预测物理化学性质非常有用。我们选择七个常用的物理化学性质,收集的Jens et al (26]。立体参数、极化率、体积、疏水性、等电点、螺旋概率,概率表。再往下,映射的目标区域的平均值计算:
类似于(4),参数在(5)代表映射的区域与我th理化性质和 。
最后,PSSM用于描述每一个蛋白质序列的进化的进化特性丰富的蛋白质序列的信息。他们通过表演三个迭代PSI-BLAST (Position-Specific迭代基本局部比对搜索工具)在NCBI(国家生物技术信息中心)nonredundant数据库使用默认参数。蛋白质序列的长度 ,一个 矩阵可以获得。然后,该地区的进化特性拦截窗口的长度可以表达的吗 矩阵 。
2.3。预处理
为了突出他们的特异性,分别序列和进化属性预处理。给定一个蛋白质序列的长度 ,我们选择一个窗口的长度和附加 0蛋白序列的两端。对序列的属性,每个区域由窗口拦截,12维向量 可以计算如下:
分配中的每个残留我th窗口。滑动窗口,每个残留与多个相关 。对于每个残留,序列的特征向量 平均的吗,它可以描述如下:
在(7), ,和 表示附加零后的序列长度。
进化属性,每个区域由窗口被截获 矩阵 。我们计算矩阵的平均值的拦截区域和获得20维向量作为进化特征向量 残留在中部地区:
然后,对于每个残留,32-dimensional特征向量 可以获得。
在本文中,我们选择多个窗口进行预处理。根据预处理,每个残渣可以获得一个32-dimensional的特征向量 对于每一个窗口,在哪里 表示窗口的标签。然后,由不同的窗户都组合成一个特征向量计算特征矩阵。假设选定窗口的数量 ,每个残渣的特性矩阵 可以表示如下:
所以,每个残渣可以获得的特征矩阵 ,在每一行代表一定的预处理结果特性在不同的窗户,每一列表示的预处理结果32特性在一个特定的窗口。因此,有一些特征矩阵的行和列之间的相关性。
2.4。设计和培训CNN
我们设计一个卷积神经网络(CNN)与两个卷积层以及一个完全连接层,和每个卷积层是紧随其后的是一个汇聚层,如图1。自特征矩阵的规模很小,计算卷积内核CNN时将小尺度设计。与此同时,由于大量的学习样本,选择更少的卷积核和卷积层简化操作。
在网络中,激活函数的卷积层ReLu函数和激活函数的输出层softmax功能。第一次卷积层(conv1)的参数设置 初步, 卷积核的大小,1表示数量的通道和8表示卷积核的数量。类似的,第二个参数的卷积层(conv2) 。在每个卷积层,卷积步骤是1和执行相同的填充为零。这两个池层使用max池 过滤器。
设计了CNN,梯度下降算法取代了亚当在反向传播算法来更新参数。为了提高操作速度,minibatch用于更新参数。即样本集分为多个同等规模为每个迭代的子集,每个子集是用来计算梯度和更新一个接一个的参数。最后,结合特征选择和提取,数字2显示了该方法的预测过程。
3所示。结果与讨论
3.1。绩效评估
四个指标用于评估方法,其中包括敏感性(Sens),特异性(规范),加权分数(Sw)和马修斯相关系数(MCC)。西南和MCC可以计算如下: 在哪里 , ,和TP、TN和FN和FP对应真阳性的数量,真正的底片,假阴性和假阳性。
3.2。的影响不同数量的窗户
窗户的长度区间的选择[7,55]首先。奇数的间隔选择窗口的长度,这是[…7日,9日,55]。从7的长度,我们从1到4增加步长选择窗口,因此选择窗口的数量是25,13日9,分别和7。在这一点上,conv1和conv2设置的参数 和 ,分别。的 过滤器是用于执行马克斯池的池层。学习速率是0.005。表1和图3显示10倍交叉验证的预测结果与不同数量的训练集窗口。
(一)
(b)
从表2窗户的数量减少,Sens波动的价值和规范的价值有一个上升趋势。同时,西南的值和MCC数量的增加与减少窗口,如图3。因为数量的windows之间的距离成反比,当窗口距离很小,也就是说,窗户的数量很大,冗余的计算特征矩阵是相对较高的,和预测性能受损。
考虑到预测的结果 类似于 ,我们添加一些时间窗口,窗口的长度最长的90左右。在的情况下 ,的窗口(…7日,15日,55)。我们的窗户数量增加它们之间的距离等于8。然后,窗口数据集变得[…7日,15日,87) 。同样,在的情况下 ,的窗口…7日,13日,55是增加到(…7日,13日,91年),和windows新设置的数量 。他们的预测结果如表所示3。
从表3,添加一些windows可以改善西南的价值。的西南 和 是相似的。然而,MCC 比这大得多的 ,所以我们选择的窗户 ,也就是说,[…7日,15日,87]。
3.3。不同数量的卷积的影响层
CNN模型是由几个子设计包含一个卷积层和一个池层。因此,当我们添加一个回旋的层,这是紧随其后的是一个汇聚层。在本节中,我们添加了卷积层网络结构的基础上,在图2,其中包括2卷积层。所有额外的回旋的层,参数设置 。表4显示了10倍交叉验证的预测结果与不同训练集卷积层。
在表4层数的增加,尽管规范的价值波动,Sens的值显示下降趋势和Sw和MCC的值也显示下降的趋势。因此,我们仍然使用两个卷积层预测模型。
3.4。不同尺度的卷积核的影响
我们改变卷积核的规模来分析预测性能的影响。首先,在conv1卷积核的数量设置为8,卷积和第二个参数层conv2 。同时,conv1卷积核是改变的规模如表所示5。由于特征矩阵的规模 ,卷积核的规模不能太大。我们选择四个比较的尺度。表5显示了10倍交叉验证的预测结果与不同训练集conv1卷积核。尽管内核 得到的最高Sens和内核 得到最高的规范,这四个尺度卷积的内核获得类似的西南和MCC。考虑到西南的内核 是略高于别人,我们终于conv1卷积核的 。
在conv1确定卷积核的规模后,我们在conv2改变卷积核的规模。在这种情况下,参数conv1 。类似于conv1的选择,我们也比较相同的四个conv2尺度。预测结果如表所示6。
卷积的内核 和 分别获得最高Sens和规范。但是,内核的 拥有更好的西南。因此,卷积的规模在conv2将内核 。
3.5。不同数量的卷积核的影响
在本节中,卷积核的数量变化,分析了影响预测性能。在CNN的设计,两个卷积层的数量将是相同的在分析卷积核的数量的影响。表6显示了10倍交叉验证的预测结果在训练集 。
从表7内核的数量增加,西南和MCC的值显示下降趋势,和 得到更好的预测性能。因此,卷积核的数量在4日conv1是固定的。
然后,我们只有改变conv2卷积核的数量。表8显示了预测结果 。从表8,取得更好的Sw和MCC 。因此,conv1和conv2设置的参数 和 ,分别。
3.6。与其他方法相比
我们的方法相对于其他两个国家的艺术方法IsUnstruct和ESpritz在这一节中。表9显示了三种方法的预测性能的基础上,测试集。IsUnstruct的预测结果和ESpritz通过各自的网络预测。如表所示9,我们的方法得到了最佳规范和类似Sens ESpritz从而获得更高的西南和MCC。
4所示。结论
在本文中,我们提出一个方法来预测基于CNN和特征选择的国内流离失所者。序列和进化属性用于描述之间的差异无序残留并下令残留。强调他们的特异性,序列和进化属性预处理由11个窗口长度7到87年。然后,预处理功能组合成一个特征矩阵作为输入的预测模型。CNN能反映每个特性之间的关系和周边功能蛋白质的特征矩阵,找出更多的信息从不同的特性,从而丰富蛋白质序列提出的信息。因此,我们构造一个CNN预测模型与两个卷积层和一个完全连接层,每个层是卷积池层紧随其后。每一个卷积核的参数设置 和 ,分别。仿真结果表明,该方法的预测性能得到更好的西南和MCC IsUnstruct和ESpritz两竞争预测方法。
数据可用性
可用数据集支持本文的结论在DisProt数据库(24)(http://www.disprot.org/)。
附加分
在本文中,作者添加技术细节和实验,提高预处理过程,重新培训预测网络,提高预测的性能。
信息披露
之前的工作”的预测本质上无序蛋白质与卷积神经网络基于特征选择”(23)是在2021年出版的计算机工程和人工智能国际会议。资金的身体也没有作用的设计研究和收集、分析和解释数据和书面的手稿。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的河北大学科学技术研究项目(没有。QN2021038)。