计算智能和神经科学

在这一页上

文摘介绍材料和方法结果与讨论结论数据可用性附加分信息披露的利益冲突确认引用版权相关文章

研究文章收缩

这篇文章被收回了。查看这篇文章的细节,请点击上面的“收缩”标签。

特殊的问题

大数据驱动的多目标智能决策方法

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID4455604| https://doi.org/10.1155/2021/4455604

计算预测基于蛋白质序列的内在无序蛋白质和卷积神经网络

郝他 ¹ 和永阳 ²

学术编辑器: 大庆龚

收到了 2021年11月06

接受 2021年12月08

发表 2021年12月28日

文摘

内在无序蛋白质(idp)具有至少一个地区,体内缺乏一个稳定的结构,这使得它们发挥重要作用在各种生物功能。我们提出一个预测方法基于卷积神经网络(cnn)的国内流离失所者和特征选择。的组合序列和进化属性用于描述无序和有序区域之间的区别。尤其强调目标之间的相关性残渣和相邻的残留物,多个窗口选择预处理蛋白质序列通过所选的属性。短窗口反映中央残留的特点,和时间窗口反映周围环境的特点,中央残渣。此外,突出的特异性序列和进化属性,分别是预处理。之后,预处理属性组合成特征矩阵的输入构造CNN。我们的方法是训练以及测试基于DisProt数据库。仿真结果表明,该方法可以有效地预测国内流离失所者,和性能与IsUnstruct和ESpritz相比具有竞争力。

1。介绍

内在无序区域(idr)的蛋白质往往起着重要的作用在许多生理功能而缺乏一个稳定的结构体内(1]。内在无序蛋白质(idp)可以完全或部分非结构化和通常包括一个或多个印尼盾2]。国内流离失所者在真核生物是非常常见的。它们执行等许多重要功能细胞信号和翻译可以促进分子识别以及蛋白质相互作用[3]。许多功能相关的国内流离失所者直接与他们的结构属性(4]。此外,先前的研究已经表明,国内流离失所者是关键球员在人类疾病(5]。例如,79%的癌症相关的蛋白质是国内流离失所者和57%的心血管疾病相关蛋白质是国内流离失所者(6,7]。除此之外,国内流离失所者也与遗传相关的疾病,神经退行性疾病和阿尔茨海默病(8,9]。因此,准确预测国内流离失所者不仅是重要的蛋白质描述和功能注释,还导致了药物设计。

有很多实验技术识别国内流离失所者,如x射线晶体学、核磁共振(NMR)和圆二色性(CD)光谱。然而,实验方法是昂贵和耗时的困难提纯和结晶10]。因此,有必要根据计算方法预测国内流离失所者。

在过去的十年里,许多计算方法提出了国内流离失所者的预测。这些方法大致可以分为三个类别(11]。(1)Physicochemical-based方法:这些方法都是基于氨基酸的物理化学性质和规模的倾向,如FoldIndex [12],GlobPlot [13],IsUnstruct [14]。FoldIndex预测国内流离失所者通过计算平均疏水性比平均净电荷的蛋白质序列。GlobPlot建立一个映射规模以反映每一个氨基酸残基的相对趋势在有序或无序状态概率的基础上每个氨基酸在常规的二级结构或随机卷曲和预测国内流离失所者通过核函数和过滤器。IsUnstruct使用伊辛模型来描述之间的交互命令和无序状态,达到良好的性能。因此,我们选择它作为一个比较的方法。(2)基于机器学习方法:这些方法对待国内流离失所者预测二元分类问题,利用正负样本区分有序和无序残留。常用的分类算法包括神经网络(NN)、径向基函数网络(RBFN)、支持向量机(SVM),随机森林,等等。这一类的代表方法包含DisPSSMP [15],Dispredict [16],SPINE-D [17],ESpritz [18],RFPR-IDP [19),等等。DisPSSMP结合了RBFN和矩阵PSSMP预测国内流离失所者。矩阵PSSMP是一个凝聚position-specific得分矩阵(PSSM)根据不同的物理化学性质。Dispredict使用三种特性包括序列信息、进化信息和结构信息和基于支持向量机的预测国内流离失所者与径向基函数内核。SPINE-D基于NN two-hidden-layer神经网络和一个额外的单层过滤器平滑预测结果。ESpritz合奏的氨基三NNs预测,内部,分别和蛋白c端。基于双向递归神经网络,达到良好的预测性能。因此,它也是选为比较法。(3)元方法:这些方法将各种预测方法组合为一个模型,进一步提高预测的性能,如MetaDisorder [20.],DisCop [21],MobiDB-lite [22]。MetaDisorder有13个独立预测因素。MetaDisorder的最终预测结果加权值的获得这些13的结果预测。它具有预测精度高,但操作是缓慢的,因为它包含很多独立的预测因子。DisCop使用设计合理构建metapredictor,选择最佳性能组6预测从20基本的预测。然后综合这些方法的预测结果,通过使用一个回归模型。MobiDB-lite构造基于8预测,其最终的共识预测由投票决定。

在本文中,我们提出一个方法来预测基于CNN和特征选择的国内流离失所者。考虑到CNN取得了非常好的成果在计算机视觉、自然语言处理、等领域,我们希望利用CNN提取更多的隐藏功能。我们的以前的工作23证实了这种期望。在这篇文章中,我们改进预处理过程和重建和火车CNN和进一步提高预测的性能。输入特性包括序列和进化属性。此外,强调他们的特异性序列和进化属性预处理通过多个窗口,分别。然后,预处理功能组合成一个特征矩阵作为输入的预测模型。通过预处理,输入信息可以反映每个特性之间的关系和周边功能特征矩阵和丰富特征信息提取的蛋白质序列。我们的预测模型包含两个卷积层和一个完全连接层和DisProt训练和测试数据库(24]。最后,该方法有两个竞争的预测方法相比IsUnstruct和ESpritz基于相同的测试集。

2。材料和方法

我们选择12 20块进化序列属性和属性。分别两种属性预处理,强调他们的特异性。然后,我们训练一个CNN模型包括两个卷积层和一个完全连接层预测国内流离失所者。

2.1。数据集

DisProt数据库用于训练和测试提出了方法。有803个蛋白质序列,含有1254个无序地区和1343年下令区域,对应92418无序残留物和315856命令残留物,分别。803蛋白序列是随机分为两个子集的比例根据9:1。大型数据集训练集,包含721序列85184无序残留物和289983命令残留。小数据集测试集,包含82序列7234无序残留物和25873命令残留。表1列出了具体的信息。

2.2。选择属性

从蛋白质序列表示的复杂性如何以不同的方式重新排列,低复杂度区域更有可能比有序无序。我们选择5复杂性特征讨论了我们的以前的工作25),包括拓扑熵,香农熵,和三个氨基酸倾向。在这些特性中,拓扑熵可能不是直接从蛋白质序列计算,因为含有20种氨基酸序列元素和序列的长度不满足条件计算拓扑熵。因此,在计算拓扑熵之前,我们将蛋白质序列映射到0 - 1序列。考虑到无序残留的特点,大的疏水氨基酸残基(我l,V)和芳香族氨基酸残基(F, W, Y)映射到1,和其他残留物被映射到0。给定一个蛋白质区域的长度N,其拓扑熵可以计算如下: 在哪里表示许多不同的子序列的长度n在该地区。子序列的长度n满足以下几点:

相同的蛋白质 ,香农熵可以描述如下: 在哪里 20种氨基酸的概率是出现在该地区吗。

三个氨基酸倾向选择从GlobPlot13),其中包含465年的话,Deleage /面粉糊,Bfactor (2 std)。对于这三种倾向,蛋白质区域映射到它们,然后映射区域的平均值计算如下:

在(4),参数代表了映射的区域与我th倾向, 对应于465年的话,Deleage /面粉糊,Bfactor,分别。

此外,它已经表明,无序区域并命令区域通常显示不同的物理化学性质,从而在idp预测物理化学性质非常有用。我们选择七个常用的物理化学性质,收集的Jens et al (26]。立体参数、极化率、体积、疏水性、等电点、螺旋概率,概率表。再往下,映射的目标区域的平均值计算:

类似于(4),参数在(5)代表映射的区域与我th理化性质和。

最后,PSSM用于描述每一个蛋白质序列的进化的进化特性丰富的蛋白质序列的信息。他们通过表演三个迭代PSI-BLAST (Position-Specific迭代基本局部比对搜索工具)在NCBI(国家生物技术信息中心)nonredundant数据库使用默认参数。蛋白质序列的长度 ,一个矩阵可以获得。然后,该地区的进化特性拦截窗口的长度可以表达的吗矩阵。

2.3。预处理

为了突出他们的特异性,分别序列和进化属性预处理。给定一个蛋白质序列的长度 ,我们选择一个窗口的长度和附加 0蛋白序列的两端。对序列的属性,每个区域由窗口拦截,12维向量可以计算如下:

分配中的每个残留我th窗口。滑动窗口,每个残留与多个相关。对于每个残留,序列的特征向量平均的吗,它可以描述如下:

在(7), ,和表示附加零后的序列长度。

进化属性,每个区域由窗口被截获矩阵。我们计算矩阵的平均值的拦截区域和获得20维向量作为进化特征向量残留在中部地区:

然后,对于每个残留,32-dimensional特征向量可以获得。

在本文中,我们选择多个窗口进行预处理。根据预处理,每个残渣可以获得一个32-dimensional的特征向量对于每一个窗口,在哪里表示窗口的标签。然后,由不同的窗户都组合成一个特征向量计算特征矩阵。假设选定窗口的数量 ,每个残渣的特性矩阵可以表示如下:

所以,每个残渣可以获得的特征矩阵 ,在每一行代表一定的预处理结果特性在不同的窗户,每一列表示的预处理结果32特性在一个特定的窗口。因此,有一些特征矩阵的行和列之间的相关性。

2.4。设计和培训CNN

我们设计一个卷积神经网络(CNN)与两个卷积层以及一个完全连接层,和每个卷积层是紧随其后的是一个汇聚层,如图1。自特征矩阵的规模很小,计算卷积内核CNN时将小尺度设计。与此同时,由于大量的学习样本,选择更少的卷积核和卷积层简化操作。

在网络中,激活函数的卷积层ReLu函数和激活函数的输出层softmax功能。第一次卷积层(conv1)的参数设置初步, 卷积核的大小,1表示数量的通道和8表示卷积核的数量。类似的,第二个参数的卷积层(conv2) 。在每个卷积层,卷积步骤是1和执行相同的填充为零。这两个池层使用max池过滤器。

设计了CNN,梯度下降算法取代了亚当在反向传播算法来更新参数。为了提高操作速度,minibatch用于更新参数。即样本集分为多个同等规模为每个迭代的子集,每个子集是用来计算梯度和更新一个接一个的参数。最后,结合特征选择和提取,数字2显示了该方法的预测过程。

3所示。结果与讨论

3.1。绩效评估

四个指标用于评估方法,其中包括敏感性(Sens),特异性(规范),加权分数(Sw)和马修斯相关系数(MCC)。西南和MCC可以计算如下: 在哪里 , ,和TP、TN和FN和FP对应真阳性的数量,真正的底片,假阴性和假阳性。

3.2。的影响不同数量的窗户

窗户的长度区间的选择[7,55]首先。奇数的间隔选择窗口的长度,这是[…7日,9日,55]。从7的长度,我们从1到4增加步长选择窗口,因此选择窗口的数量是25,13日9,分别和7。在这一点上,conv1和conv2设置的参数和 ,分别。的过滤器是用于执行马克斯池的池层。学习速率是0.005。表1和图3显示10倍交叉验证的预测结果与不同数量的训练集窗口。

(一)

(b)

从表2窗户的数量减少,Sens波动的价值和规范的价值有一个上升趋势。同时,西南的值和MCC数量的增加与减少窗口,如图3。因为数量的windows之间的距离成反比,当窗口距离很小,也就是说,窗户的数量很大,冗余的计算特征矩阵是相对较高的,和预测性能受损。

考虑到预测的结果类似于 ,我们添加一些时间窗口,窗口的长度最长的90左右。在的情况下 ,的窗口(…7日,15日,55)。我们的窗户数量增加它们之间的距离等于8。然后,窗口数据集变得[…7日,15日,87) 。同样,在的情况下 ,的窗口…7日,13日,55是增加到(…7日,13日,91年),和windows新设置的数量。他们的预测结果如表所示3。

从表3,添加一些windows可以改善西南的价值。的西南和是相似的。然而,MCC 比这大得多的 ,所以我们选择的窗户 ,也就是说,[…7日,15日,87]。

3.3。不同数量的卷积的影响层

CNN模型是由几个子设计包含一个卷积层和一个池层。因此,当我们添加一个回旋的层,这是紧随其后的是一个汇聚层。在本节中,我们添加了卷积层网络结构的基础上,在图2,其中包括2卷积层。所有额外的回旋的层,参数设置。表4显示了10倍交叉验证的预测结果与不同训练集卷积层。

在表4层数的增加,尽管规范的价值波动,Sens的值显示下降趋势和Sw和MCC的值也显示下降的趋势。因此,我们仍然使用两个卷积层预测模型。

3.4。不同尺度的卷积核的影响

我们改变卷积核的规模来分析预测性能的影响。首先,在conv1卷积核的数量设置为8,卷积和第二个参数层conv2 。同时,conv1卷积核是改变的规模如表所示5。由于特征矩阵的规模 ,卷积核的规模不能太大。我们选择四个比较的尺度。表5显示了10倍交叉验证的预测结果与不同训练集conv1卷积核。尽管内核得到的最高Sens和内核得到最高的规范,这四个尺度卷积的内核获得类似的西南和MCC。考虑到西南的内核是略高于别人,我们终于conv1卷积核的。

在conv1确定卷积核的规模后,我们在conv2改变卷积核的规模。在这种情况下,参数conv1 。类似于conv1的选择,我们也比较相同的四个conv2尺度。预测结果如表所示6。

卷积的内核和分别获得最高Sens和规范。但是,内核的拥有更好的西南。因此,卷积的规模在conv2将内核。

3.5。不同数量的卷积核的影响

在本节中,卷积核的数量变化,分析了影响预测性能。在CNN的设计,两个卷积层的数量将是相同的在分析卷积核的数量的影响。表6显示了10倍交叉验证的预测结果在训练集。

从表7内核的数量增加,西南和MCC的值显示下降趋势,和得到更好的预测性能。因此,卷积核的数量在4日conv1是固定的。

然后,我们只有改变conv2卷积核的数量。表8显示了预测结果。从表8,取得更好的Sw和MCC 。因此,conv1和conv2设置的参数和 ,分别。

3.6。与其他方法相比

我们的方法相对于其他两个国家的艺术方法IsUnstruct和ESpritz在这一节中。表9显示了三种方法的预测性能的基础上,测试集。IsUnstruct的预测结果和ESpritz通过各自的网络预测。如表所示9,我们的方法得到了最佳规范和类似Sens ESpritz从而获得更高的西南和MCC。

4所示。结论

在本文中,我们提出一个方法来预测基于CNN和特征选择的国内流离失所者。序列和进化属性用于描述之间的差异无序残留并下令残留。强调他们的特异性,序列和进化属性预处理由11个窗口长度7到87年。然后,预处理功能组合成一个特征矩阵作为输入的预测模型。CNN能反映每个特性之间的关系和周边功能蛋白质的特征矩阵,找出更多的信息从不同的特性,从而丰富蛋白质序列提出的信息。因此,我们构造一个CNN预测模型与两个卷积层和一个完全连接层,每个层是卷积池层紧随其后。每一个卷积核的参数设置和 ,分别。仿真结果表明,该方法的预测性能得到更好的西南和MCC IsUnstruct和ESpritz两竞争预测方法。

数据可用性

可用数据集支持本文的结论在DisProt数据库(24)(http://www.disprot.org/)。

附加分

在本文中,作者添加技术细节和实验,提高预处理过程,重新培训预测网络,提高预测的性能。

信息披露

之前的工作”的预测本质上无序蛋白质与卷积神经网络基于特征选择”(23)是在2021年出版的计算机工程和人工智能国际会议。资金的身体也没有作用的设计研究和收集、分析和解释数据和书面的手稿。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的河北大学科学技术研究项目(没有。QN2021038)。

引用

c·j·奥德菲尔德、v . n . Uversky和l .坟头”与MoRFpred无序蛋白质的预测功能,”分子生物学方法卷,1851年,第352 - 337页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
z彭、问邢和L坟头,“无足的:准确的序列预测无序灵活连接器”生物信息学,36卷,不。Suppl_2, pp. i754-i761, 2020年。
视图: 出版商的网站 | 谷歌学术搜索
c . c .许·m·j·比勒,a . Tarakanova“有序无序连续体:连接蛋白质结构的预测和障碍通过分子模拟”科学报告,10卷,不。1,p。2068年,2020。
视图: 出版商的网站 | 谷歌学术搜索
r . Van der Lee m . Buljan b . Lang et al .,“内在无序区域分类和蛋白质,”化学评论,卷114,不。13日,6589 - 6631年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
a . f . Faustino通用巴博萨,m·席尔瓦et al .,“快NMR方法探测蛋白质溶剂可访问性和无序的地区,”科学报告,9卷,不。1,p。1647年,2019。
视图: 出版商的网站 | 谷歌学术搜索
a . k . Dunker s e . Bondos f·黄和c·j·菲尔德,“内在无序蛋白质和多细胞生物。”研讨会在细胞和发育生物学但不心浮气躁;年龄,37卷,页2015。
视图: 出版商的网站 | 谷歌学术搜索
刘黄Staneva, y, z, s·沃林,“绑定两个内在无序multi-specific蛋白肽:结合蒙特卡洛和分子动力学研究中,“PLoS计算生物学,8卷,不。9篇文章ID e1002682 2012。
视图: 出版商的网站 | 谷歌学术搜索
美国Midic c·j·菲尔德,a . k . Dunker z Obradovic,和v . n . Uversky”蛋白质障碍在人类diseasome: unfoldomics人类遗传疾病,”BMC基因组学,10卷,不。S1, S12页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
v . n . Uversky c·j·菲尔德,a . k . Dunker“内在无序蛋白质在人类疾病:介绍D2的概念,“年度回顾的生物物理学,37卷,不。1,第246 - 215页,2008。
视图: 出版商的网站 | 谷歌学术搜索
c·j·奥德菲尔德·e·l·乌尔里希,a . k . Dunker y Cheng和j·l·Markley”解决的内在障碍瓶颈结构蛋白质组学,”蛋白质:结构、功能和生物信息学卷,59号3、444 - 453年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
刘y”,全面审查和比较现有计算方法的内在无序蛋白质和区域预测,“简报的生物信息学,1卷,2017页。
视图: 谷歌学术搜索
j . Prilusky C . e .镶嵌地块t Zeev-Ben-Mordehai et al .,“FoldIndex (C):一个简单的工具来预测给定的蛋白质序列是否本质上展开,“生物信息学,21卷,不。16,3435 - 3438年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
r·林德“Globplot:探索蛋白质序列为球状和障碍,”核酸的研究没有,卷。31日。13日,3701 - 3708年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
m . y . Lobanov和o . v . Galzitskaya,”伊辛模型仅从蛋白质序列预测无序的残留物,”物理生物学,8卷,第035009 - 035004页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
C.-T。苏,彭译葶。陈和y y。欧,“蛋白质疾病预测浓缩PSSM考虑倾向有序或无序,“BMC生物信息学,7卷,不。1,p。319年,2006。
视图: 出版商的网站 | 谷歌学术搜索
伊克巴尔和m·t·霍克“DisPredict:预测无序蛋白质使用优化的RBF内核,“《公共科学图书馆•综合》,10卷,不。10篇文章ID e0141551 2015。
视图: 出版商的网站 | 谷歌学术搜索
t·张e . Faraggi雪,a . k . Dunker v . n . Uversky y周,“SPINE-D:准确地预测短期和长期无序区域由一个基于神经网络的方法,”生物分子结构和动力学杂志》上卷,29号4、799 - 813年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
沃尔什,a·j·m·马丁·t·迪Domenico和s . c . e . Tosatto”ESpritz:准确、快速预测蛋白质的障碍,”生物信息学,28卷,不。4、503 - 509年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
刘y“RFPR-IDP:减少假阳性为内在无序蛋白质和区域预测利率将完全有序蛋白质和无序蛋白质,”简报的生物信息学,2020年,页1 - 12。
视图: 出版商的网站 | 谷歌学术搜索
l·p·科兹洛夫和j . m . Bujnicki”MetaDisorder: meta-server内在障碍的预测的蛋白质,”BMC生物信息学,13卷,p。111年,2014年。
视图: 谷歌学术搜索
x风扇和l .坟头”准确预测疾病的蛋白链和一个全面的经验设计的共识,”生物分子结构和动力学杂志》上,32卷,不。3、448 - 464年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
m . Necci D Piovesan、Z Dosztanyi和s . c, E Tosatto”MobiDB-lite:快速和高度特定的共识预测蛋白质的内在障碍”生物信息学33卷,第1404 - 1402页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
h .他和杨y”,预测本质上无序蛋白质与卷积神经网络基于特征选择,”《2021年国际会议上计算机工程和人工智能2021年11月,杭州,中国。
视图: 谷歌学术搜索
m . Sickmeier“DisProt:无序蛋白质的数据库,核酸的研究,35卷,第793 - 786页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
h .他和赵j . x”,低计算复杂度方案内在无序蛋白质的预测区域,”数学问题在工程卷,2018篇文章ID 8087391, 7页,2018。
视图: 出版商的网站 | 谷歌学术搜索
j·梅尔,a . Zeidler f . Schmschke, m·穆勒”生成和评价dimension-reduced氨基酸由人工神经网络参数表示,“《分子建模,7卷,不。9日,第369 - 360页,2001年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

212年

下载

668年

引用