文摘
七跨膜螺旋的G-protein-coupled受体的结构是非常参与这些受体的许多方面,如受体稳定,配体对接和分子功能。大多数以前的multitemplate方法建立了一个“超级”模板很少合并片段排列不同的模板。在这里,我们提出一个并行multitemplate方法,patGPCR,预测跨膜螺旋G-protein-coupled受体的三维结构。patGPCR,雇佣bundle-packing RosettaMem能源相关的能量函数,延伸,对八个管道进行跨膜螺旋细化和交流从多个模板优化的螺旋结构。我们调查了patGPCR的性能测试集包含八个决定G-protein-coupled受体。结果表明,patGPCR提高TM RMSD平均33.64%的预测模型对单模板方法。与其他相同方法相比,最佳模型五的八个目标由patGPCR TM RMSD低于来自瑞士模式;平均TM RMSD patGPCR还显示低于单模板和multiple-template分析员。
1。介绍
G-protein-coupled受体(GPCRs)是其中最严重调查药物靶点在制药行业1因为激活GPCRs引发一连串的细胞内的反应。虽然在人类基因组中约800 GPCRs仍然等待确定,市场的年收入为人类治疗基于当前可用的受体是超过400亿美元,超过50%的现代药物相关GPCRs [2]。另一方面,这仍然是一个非常困难的问题,以确定GPCRs体内的构象。脂质环境受体嵌块的两大技术,核磁共振(NMR)谱和x射线晶体学,用于确定蛋白质结构。真正令人兴奋的是2012年的诺贝尔化学奖被授予两位研究者研究GPCRs的结构。
幸运的是,可以由最近的出版物(3,4),在硅片的方法推导的三维结构GPCRs越来越成功。然而,计算方法的发展预测GPCRs的结构仍然是一个挑战性的任务(5]。很多努力已经投入建模完整的结构和循环的部分GPCRs [6- - - - - -8)和膜蛋白(9,10),而相对较少的研究已经完成建立更准确的模型的跨膜螺旋部分GPCRs,因为跨膜螺旋包通常被视为保守域,可以很容易地复制模板。事实上,模型的准确性的跨膜螺旋部分仍远离原生结构,并且不能满足后续完整的需求预测和配体对接的建模。2010年GPCR码头评估(3趋化因子受体CXCR4 / CVX15]目标,趋化因子受体CXCR4 / IT1t, D3, TM RMSD值的平均值的均方根偏差(跨膜螺旋的支柱)的参与者提交的所有模型,3.56,9.75和2.55,分别不高分辨率值(2.0)。如何构建高分辨率模型之一的构象长篇GPCRs没有准确的跨膜螺旋包吗?本文使用并行multitemplate同源性的方法解决这个问题。
的分类方法的三维结构预测GPCRs在硅片为同源性建模中,线程,从头开始折叠是蛋白质结构预测的分类方法。同源性的方法构建模型从一个或多个模板序列相似性高的结构。当目标和模板之间的序列的身份是50%以上,本地的模型倾向于生成。当它小于30%,模型的准确性大幅减少。瑞士模式(11],Sybyl [12],' [13],分析员[14],巢[15),SEGMOD / ENCAD [16),3 d-jigsaw [17),和建设者18)被广泛使用,稳定、可靠和准确的同源性建模系统。线程操作的方法(即“线程”。,placing and aligning) each amino acid (or amino acid segment) in the target sequence into a position in the three-dimensional structure and evaluating how well the target fits the template. Zhang et al. [6助教)用于生成对所有907个假定的结构预测GPCRs在人类基因组中。基于基准测试信心得分,大约820的预测模型应该有正确的折叠。从头开始预测蛋白质结构包括建模的每个残留的二面角角度最小自由能原理的基础上,没有任何实验解决了结构的使用。贝克的集团(19,20.)是成功的在最近的比赛(蛋白质结构预测的关键评估)挑战,设计了一种membrane-environment-related能量函数来指导膜蛋白质折叠。
相同的方法可以分为两类,即单模板和multiple-template,根据模板用于建模的数量。单模板相同方法不能总是实现最好的结果,由于困难在检测最好的模板,尤其是远程同源性检测(21]。Multitemplate方法能有效地结合合理对齐的区域比单一模板方法程(22)报道,multitemplate组合算法改善了GDT-TS平均成绩预测模型的6.8% 45 CASP7 comparative-modeling目标。刘等人。23)考虑了信息由多个模板和排列在三维层次之间的混合和匹配区域不同初始比较模型,和multitemplate方法产生构象模型比个人更高质量的预测开始。分析员(14)建模的三维构象,最佳满足空间约束来自校准和约束表示为概率密度函数的特性。巢(15)产生一个模型通过序列比对目标的一个或多个模板PDB文件作为输入。3 d-jigsaw [17)的融合算法用于比较建模导致更可靠的结构通过叠加多个已知结构的蛋白质家族。在我们看来,以前的multitemplate方法一般都建立了一个“超级”模板,这可能会忽略从不同的模板对齐结构的灵活性。远程同源信息从不同的模板应该在每个迭代中交换而不是指令合并结构。
本文提出一种并行multitemplate方法,启发我们之前方法pacBackbone [24,25),预测的三维结构的跨膜螺旋GPCRs。这里提出的系统被称为“patGPCR”(并行multitemplate GPCR跨膜螺旋结构预测方法)。并行化不仅加快了运行速度,而且还提供了一种新颖而有效的机制来轻轻地之间交换同源区域模板。我们利用我们的方法来预测三级结构为所有八个决定GPCRs GPCR网络的网站上发表了一篇(http://gpcr.scripps.edu/index.html)。与其他相同方法相比,最佳模型五的八个目标由patGPCR TM RMSD低于来自瑞士模式,平均TM RMSD patGPCR显示低于单模板缔造者,patGPCR显示,只有一个更高的平均TM RMSD目标而multiple-template分析员。
2。材料和方法
2.1。并行patGPCR框架
GPCRs共享一个相似的拓扑结构,由七个跨膜(TM)螺旋挤进7-TM螺旋束,与细胞内三(民)和三个细胞外循环宴请)[26]。因此,单螺旋细化应平行的独立线程。patGPCR描绘在图的并行框架1。patGPCR初,前2 - 4模板检查序列的身份使用蛋白质数据银行(http://www.rcsb.org/pdb),它被用作起始模板构象。八位并行管道涉及独立子过程(或线程)被用来随机选择初始构象的模板。每个管道包含TM细化和循环改进优化地区一对相邻螺旋。第一个和最后一个管道只优化一个螺旋和一个终点站。使用合理的结构区域内不同的模板,TM螺旋交叉步骤和精英池被引入并行框架的管道。在跨越一步,每个管道共享与其他管道迄今最佳螺旋。如果低能量是通过螺旋,螺旋替换被接受;否则,它被拒绝了。优化构象是守恒的精英池中准备下一次迭代。因此,跨越一步,精英池patGPCR确定合理结构的两个关键机制从多个模板,管道和迭代。
2.2。多个模板八GPCR的目标
patGPCR被使用盲预测测试评估的八个决定GPCRs GPCR网络出版。氨基酸序列是唯一输入用于盲预测,这是通常用于GPCRDock2008/2010和CASP练习。这个是最大的集用于直接评估预测结果。patGPCR采用2 - 4模板(列在表41)为每个目标在测试集。前三个或四个模板选择标准蛋白质爆炸基于缺省参数。大多数序列相似性的模板和目标低于50%,平均模板的序列相似性为36%(列在表61)。在某些情况下,模板high-sequence身份。有两个原因为什么我们不把这些案例从基准。首先,我们感兴趣的是验证的建模能力patGPCR基于不同序列模板与身份。第二,patGPCR、瑞士模式和分析员使用相同的模板的比较实验,结果我们提出这些方法是公平的,无论高low-sequence身份的模板。
2.3。TM细化协议
7-TM螺旋包GPCRs的主要拓扑结构,由大约75%的氨基酸在蛋白质链。TM螺旋一直保存在进化过程中(5]。然而,在最近的一次GPCRDock2008 / GPCRDock2010研究,平均TM rmsd CXCR4 / CVX15,趋化因子受体CXCR4 / IT1t和D3 3.56, 9.75, 2.55。可以提高预测的准确性TM地区,和正确的TM位置和姿态确保循环面向区域是正确的。TM细化协议使用使用基于patGPCR 7-TM几何拓扑反映包结构使用一组几何参数。拓扑中,每个TM螺旋被视为刚体,和内部原子的相对位置保持不变,当移动或旋转刚体。
TM细化分为四个阶段。在第一阶段,patGPCR被用来识别TM边界平均六现有方法的结果:TopPred [27],UniProt [28],TMpred [29日],HMMTOP [30.],TMHMM [31日),和章鱼32]。在第二阶段,每个刚体,翻译或垂直于螺旋轴的被用来优化七螺旋线的相对位置。在第三和第四阶段,自旋天使和倾斜角度的细化,分别。
2.4。循环改进协议
GPCRs patGPCR,包括一个完全预测方法,结合了两种罗塞塔循环建模协议。由于循环地区高灵活性,从头开始计算方法通常涉及可能的循环构象的帮助下各种能量函数和最小化33- - - - - -35]。patGPCR平行的两个罗塞塔循环建模协议,包括CCD (36和断裂韧性37建模与罗塞塔能量函数分数3所示。每个管道被用于随机选择一个循环运动细化循环部分。
2.5。算法执行的单一的管道
算法1执行的单一管道循环包含TM和细化线男童和第17行,分别。在第二行中,函数得到了轴的螺旋方向向量。在第三行,函数被膜平面的法向量。7日开出的4行执行第二TM细化阶段和功能,,,从当前位置随机翻译的螺旋- - - - - -,,或设在−5到5不等。新的螺旋位置将被接受,如果新能源低于之前翻译的能量。8日到11日行执行第三TM细化阶段和功能旋转的螺旋从180−180度,使用能量函数验证新职位。12到15行执行第四TM细化阶段和功能 样品之间的倾斜角度螺旋跨膜的正常飞机根据高斯分布(预期值是30,方差是6)。在16行,函数改进循环区域随机使用罗塞塔断裂韧性或CCD改造协议。在17行,函数交易所之间的螺旋管道。
|
||||||||||||||||||||||||||||||||||||||||||||
2.6。能源项目评估螺旋包
开发一个适当的能量函数仍然是一个挑战在预测GPCR的3 d结构。一个精确的能量函数可以用来区分本地模型和候选人,而一个不精确的能量函数可能不认识本地的模型,即使他们已经被使用采样一个精确的搜索算法。patGPCR提高了罗塞塔膜能量函数(19),包括新能源项目评估刚性螺旋包装。螺旋情绪投射到膜平面后,图2了显示三角形的面积,这是由中心点和两个相邻螺旋轴的交点膜平面。在(1),的总和和和的最大和最小值吗在已知GPCRs结构。一个更小的表明紧缩7-TM螺旋束,而大表明一个宽松的包。碰撞检测残留物包含在罗塞塔膜能量函数。因此,罗塞塔膜能量函数,其中包括一个额外的项目是受雇于patGPCR TM细化算法:
3所示。结果
3.1。的贡献TM细化协议采用单一的管道
TM细化协议的贡献进行调查与GPCRDOCK2010参与者提交的模型进行比较。GPCRDOCK2010锻炼是社区范围内评估GPCR homology-modeling和对接。参与者提交的目标最好的五位候选人趋化因子受体CXCR4和D3。我们执行patGPCR优化螺旋束从提交的构象从GPCRDOCK2010官方网站下载。精炼后的TM RMSD最好的模型和五大模型发布在GPCRDOCK2010表中列出2。趋化因子受体CXCR4 (D3)目标,细化后的TM RMSD最好的模型是2.165(0.93),161年排名第4(1)(168)提交模型。
3.2。并行Multitemplate的贡献
我们研究了多个模板的贡献与单一模板patGPCR相同的设置。使用的模板数量patGPCR范围从2到4。平均模板之间的序列的身份和目标是36%。相比multitemplate patGPCR,单模板patGPCR使用只有一个模板,不利用螺旋跨越一步。
GPCR的长篇RMSD (FL RMSD)和TM RMSD比较是绘制在图3;较高的点表示值(不包括15个)。平均提高TM RMSD使用multiple-template patGPCR为33.64%(原始TM RMSD增加1.57,列在表4和81)。
(一)对比multiple-template方法和目标趋化因子受体CXCR4的单一模式的方法
(b)对比目标KOR1 multiple-template方法和单模板方法
(c)对比目标HH1R multiple-template和单模板的方法
(d)对比目标D3的multiple-template和单模板的方法
(e)比较multiple-template和单模板方法目标负责
(f)对比目标S1P1 multiple-template和单模板的方法
(g)比较多个模板和目标KOR3单模板方法
(h) multiple-template和单模板方法目标Beta2之间的比较
Multiple-template patGPCR产生更多的低TM RMSD构象比单一模板patGPCR在大多数情况下(5 8个目标),包括趋化因子受体CXCR4(图3(一个)),D3(图3 (d)),负责(图3 (e)),KOR3(图3 (g)),Beta2(图3 (h))。在其他情况下,multitemplate方法显示出类似的性能与单模板patGPCR,包括KOR1 HH1R, S1P1数据3 (b),3 (c),3 (f)。KOR1,狭窄的空间采样单模板multiple-template之间可能产生类似的性能和单模板patGPCR。HH1R和S1P1 multiple-template和单模板patGPCR出现瓶颈。其中一个原因可能是跨膜精制协议受雇于multiple-template和单模板方法在某些情况下失败。进一步分析中描述部分4.3。
3.3。同源方法比较patGPCR瑞士模式
瑞士模式(16)是一种广泛使用的同源性建模方法提供在线预测和手册模板规范。我们执行瑞士模式预测8个目标使用相同的模板用于patGPCR(表1)。三个预测失败使用瑞士模式表示为““在列在表91。
对于每一个诱饵(组构象预测的结果)预测patGPCR,前400名构象的TM RMSD被保留,而其他人则被淘汰的诱饵。因此,我们简化选择最近的本地预测的诱饵。我们从瑞士模式描述了诱饵的比较结果使用box-and-whisker图(图4)。预测精度是表示为埃表示时,叠加后计算的相应坐标alpha-carbons由预测和本机的结构。准确地确定跨膜螺旋,五个目标的最佳模式(CXCR4、KOR1 D3、负责和Beta2)产生patGPCR显示TM RMSD值低于那些决定使用瑞士模式。patGPCR显示类似的跨膜精度两个目标(HH1R和S1P1);另一个目标(KOR3) patGPCR,不如使用瑞士模式确定的目标。在图4,完整的链和循环区域显示的准确性。四的八个目标(KOR1, HH1R、KOR3 Beta2),最好的模型预测patGPCR显示全身RMSD值低于那些使用瑞士模式来生成的。毫不奇怪,只有三个目标(KOR1、KOR3 Beta2) patGPCR更准确地预测相比,瑞士模式关于循环区域的准确性因为patGPCR强调螺旋优化的地方,而较少强调循环优化和循环区域交叉步骤中被排除在外。接下来,统计特性的解决方案,代表400强构象对TM RMSD,为每一个诱饵设置进行调查。对于每一个结果诱饵,人物5显示了1-percentile平均(设在)和标准偏差(误差的符号)为每一个测试实例,计算从50倍引导评估使用BioShell包[38]。我们选择1百分位与瑞士模式结果(设在)因为只有一些诱饵将保留进一步分析,如侧链细化、配位体对接和虚拟屏幕上。在图5patGPCR显示14日,16日和11个更好的结果(线下)共有20符号TM, FL,分别和循环RMSD值。在图5低偏差的误差表明patGPCR展品健壮的性能在大多数情况下。
3.4。同源方法比较patGPCR分析员
分析员(14)是一个著名的工具用于单模板和multiple-template同源或比较蛋白质三维结构建模。我们进行了单模板和multiple-template实验一样的Linux系统和硬件上使用分析员是用于patGPCR。为一个合理的比较,分析单模板建模生成1300预测构象,这是类似于1358.75的平均预测数量patGPCR生成的构象,为每个目标和每个模板。Multiple-template分析员也用于生成1300预测构象为每个目标。分析员也使用相同的模板patGPCR列在表中1。分析员调整命令,包括align2d()和salign(),据报道,考虑结构信息从模板构造一个对齐时,被用来对齐模板的目标。
分析员实验结果在10和11列在表列表1。第十列显示的平均和标准偏差的TM RMSD构象使用单一模板生成的缔造者,和11列显示的平均和标准偏差的TM RMSD构象multiple-template生成的分析员。六个八个目标,patGPCR显示平均TM RMSD低于单模板缔造者,patGPCR显示,只有一个更高的平均TM RMSD目标而multiple-template分析员。Multiple-template patGPCR产生更多的TM RMSD构象低于单模板patGPCR在大多数情况下(5 8个目标),包括趋化因子受体CXCR4、D3,负责,KOR3, Beta2。然而,没有改进的目标通过使用multiple-template分析员。构象的平均TM RMSD值生成通过multiple-template分析员高出近两倍比使用单一模板生成分析员。较低的标准偏差列11表明一个狭窄的结构性抽样策略是采用multiple-template缔造者,这可能导致multiple-template分析员被困的对齐。
最后,通过本地构象产生的直接视觉比较,patGPCR,瑞士模式,分析员是描绘在图6。
(一)
(b)
4所示。讨论
4.1。复杂性分析patGPCR
因为patGPCR不同步螺旋管道之间的交换,patGPCR的复杂性取决于一个管道的重复算法1 次了。GPCR的目标氨基酸残基的功能,,执行每个残留在螺旋的运动,这三个函数有相同的时间复杂度,。因此,TM细化的复杂性中包含三个阶段从第四到15日线算法1是。这个函数交流每一对螺旋的残留物和复杂性。的复杂性是由罗塞塔的CCD和断裂韧性改进协议,这都是由两层迭代重复和(罗塞塔参数)。此外,我们通常设置参数,(第四线算法1),(12日线的算法1),,的方式是线性相关的。总之,并行patGPCR是八倍的时间复杂度的一个管道,这是。
patGPCR空间的复杂性主要是由精英构象池如图1,残渣编号为跨膜区域的集合,循环区域残留数据的集合。池是用来存储四个骨干精英构象的原子的坐标相同大小的模板,所以它需要空间,是可用的模板对应的GPCR的数量目标。和显然需要空间。然后patGPCR空间的复杂性。
4.2。为什么patGPCR方法在一般工作吗?
下列因素可能导致跨膜螺旋结构的改善预测。首先,multitemplate方法能有效地结合合理对齐的区域比单一模板的方法。单模板方法使用顶级模板与目标蛋白质及其校准模型的结构。这些方法不能总是实现最好的结果,由于困难在检测最好的模板,特别是当目标和模板之间的远程检测到相同(39]。因为大多数GPCRs序列相似性的不到50%,这是不可靠的尝试获得高分辨率模型只使用一个模板。我们相信每个模板,即使它的序列相似性较低(30%),包含一个结构合理的总体目标。Multiple-template方法不仅可以提高定位覆盖率也拓宽构象搜索空间通过提取对齐的碎片从不同的模板。
第二,并行化方法使一个有效的交换模式合理区域在多个模板。以前的multitemplate方法(22,40)一般都建立了一个“超级”模板对齐的方法,涉及很少合并片段从不同的模板,而patGPCR的并行模式包括软决议引入对齐的区域和交流不同管道之间的合理的螺旋迭代的末尾。因此,对齐的区域不同模板的贡献不仅会影响算法的开始,但也保存在随后的迭代。幸运的是,因为GPCRs的螺旋线的共同点是守恒的,跨膜细化协议(见部分2。3)将改善的准确性通过移动原子的坐标对齐的区域向低自由能。这也有助于并行模式广播合理地区精英构象池。
第三,额外的能量项螺旋包(参见相关部分2。6)可以合理引导螺旋向组装成一个紧密的一束,虽然不是完美的。罗塞塔的组合膜分数基于patGPCR GPCR的目标是有效的,在我们的实验中所示。
4.3。patGPCR的局限性
另一方面,patGPCR也可以在某些方面的改善。首先,由于已知GPCRs结构的不足,我们只能验证的优缺点patGPCR八GPCR网站发布的情况下决定。这八个目标是目前最大的GPCRs测试数据集。因此,当前我们的实验结果是否偶尔实例或有一些普遍性不能立即回答。第二,patGPCR似乎遇到了瓶颈,在某些情况下(在数据3 (c)和3 (f));patGPCR很难获得一个准确的结果比单一模板的方法。瓶颈可能有两个原因:(a)项的能量(1)提高了罗塞塔能量函数,但它仍然不够好区分本地的构象和(b)在patGPCR,螺旋视为刚体,不像真正的螺旋线,障碍,不规则的区域,和灵活性。原子的坐标螺旋的内部可能会造成精度损失。第三,尽管patGPCR生成更高质量的诱饵在跨膜区域,难以建立精确模型的循环区域与高灵活性是一个困难的问题的结果GPCR结构预测问题。
4.4。新能源项目的能力
新能源项目的能力研究六GPCR的目标,包括趋化因子受体CXCR4、KOR1, D3,负责,KOR3, Beta2,平均TM rmsd低于5。相对较低的平均TM RMSD值通过使用patGPCR和分析员指出,这些目标的准确性取决于能量的功能。在表3构象,前一季度的TM RMSD值的诱饵multiple-template patGPCR选择比较多少构象可以用MEM (Rosetta膜分数)和预测(新能源项目)。四个目标(KOR1、D3、负责和KOR3),确定比MEM近天然构象。只有一个目标(CXCR4)被确认的构象比MEM少。
5。结论
在本文中,我们提出了一种并行multitemplate方法,patGPCR,跨膜螺旋的3 d结构的预测G-protein-coupled受体。patGPCR,雇佣了一个bundle-packing-related能量函数,提高了RosettaMem能源,对八个管道进行跨膜螺旋结构的细化和交流在多个模板优化的螺旋结构。我们调查了patGPCR的性能测试集包含八个决定GPCRs GPCR网络网站上发表。结果表明,我们的multitemplate算法提高了TM RMSD值平均33.64%的预测模型对单模板方法。与其他从头开始和同源方法相比,patGPCR产生更多的预测与高分辨率结构的跨膜螺旋构象。最好的模型五的八个目标由patGPCR TM RMSD低于已从瑞士模式获得的模型,其中一半已经全身RMSD较低。六个八个目标,patGPCR显示平均TM RMSD低于单模板缔造者,patGPCR显示,只有一个更高的平均TM RMSD目标而multiple-template分析员。
确认
本文由中国国家自然科学基金(http://www.nsfc.gov.cn)资助。60970055和60970055。投资者没有参与研究设计、数据收集和分析,决定发表或论文的准备。作者感谢陈Haiou李和荣帮助分析实验和陆的太阳帮助的准备。
补充材料
单生成的数据集包括构象文件模板和multi-template patGPCR网上,结果文件从瑞士模式。
文件patGPCR。rar patGPCR方法的结果。
瑞士的文件。rar是瑞士的结果的方法。
文件分析员。rar是分析员的结果的方法。