文摘

一群内在无序,亲水性proteins-Late胚胎发生丰富(LEA) proteins-has与在植物和动物生存时间的压力,认为通过维护聚合酶的功能和预防脱水的时候/热。尽管几十年的努力,定义这种保护作用的分子水平机制仍然未知。最近的努力了解LEA始于噬菌体展示的独特应用功能,在噬菌体展示,在种子成熟蛋白质同源染色体重组,biopan拟南芥大豆是用于检索客户蛋白质在两个不同的温度下,用一个旨在代表热应力。从以前的研究中,我们确定了21个客户蛋白质克隆被找到,有时反复。在这里,我们使用客户端蛋白质的序列分析和同源性建模确定公共子序列和结构属性,可能导致保护LEA蛋白亲和力。我们的方法发现似乎偏爱protein-nucleic酸LEA端蛋白质之间的交互,这是暗示了亚细胞的住所。从这个初始计算研究结果将指导未来努力揭示蛋白质保护机制在热应力,可能导致phage-display-directed合成LEA分子的进化。

1。介绍

水是生命必不可少的。尽管这种明显的真理,有生物阶段的生命周期期间,他们可以承受脱水含水量小于5%鲜重的基础上。这种现象被称为“低湿休眠”或没有水的生活1,2]。的手段之一,这些生物体的能力低湿休眠被认为保持生存能力以非常低的含水率是通过细胞质的玻璃化水去除(3,4]。胞质相变、液体粘性的玻璃,被认为越来越阻碍有害的生化反应而逐渐抑制呼吸(5]。第二个要求是保护这些细胞组件,依靠水来维持他们的结构/功能,使用所谓的“水置换”由特定,非还低聚糖(2),结合高度亲水蛋白,还可以提高质量和持久性的玻璃态6,7]。第三个意思是防止细胞组分的聚合水是撤回,和大分子之间的距离减少8,9]。所有这些属性已经分配给各个家庭的晚期胚胎发生丰富(LEA)首次发现的蛋白质10)然后命名(11从棉籽蛋白的研究中发现的胚胎。

特征内在无序结构和高亲水性的LEA蛋白被用来认为,他们可能会采取各种方式来取代水(或弥补其损失)脱水组织(12,13]。虽然有两个已知LEA结构(14,15],许多蛋白质属于这个家庭动态无序的设计(16- - - - - -18]。这合理导致困难获得结构信息,尽管使用多种技术(19,20.)、温度和添加剂(17,21]。虽然获得晶体结构对大多数草原不太可能在不久的将来,优惠LEA客户机结构蛋白可能通过同源性建模估计(22- - - - - -24]相同的数据允许客户机蛋白质识别的识别还允许客户机的地区草地的蛋白质绑定。理解蛋白质特定LEA卓越的基板提供了洞察这些功能流程最脱水/热损伤的风险,提出新颖的方式在生产更多的干旱- /耐热品种。识别特征的一定区域内LEA客户机蛋白质将提供第一个线索蛋白质拓扑尤其容易脱水/热破坏。我们假设该地区需要保护,这可能是通过LEA蛋白结合。

在这里,我们报告功能观点相对于LEA客户蛋白质序列分析和比较建模中的应用。我们考试侧重于确定组中共性的21个假定的LEA蛋白相互作用之前确定使用噬菌体展示(25]。序列分析表明,一个共同的主题在许多LEA客户机的蛋白质可能protein-nucleic互动主题可能提供线索关于LEA蛋白的亚细胞的住所。可行的同源性建模,发现几个结构,不同长度和三级结构,其主线可能与动态和化学行为超过结构或序列相似性。

2。比较建模方法

此前,噬菌体展示拟南芥种子cDNA图书馆T7噬菌体用于,biopan重组拟南芥种子成熟蛋白1 (SMP1)及其大豆同系物,通用汽车PM28 [25)(LEA蛋白)。执行,biopan 25°C和41°C识别蛋白可能参与次生休眠的诱导拟南芥由于热应力(参见我们的同伴手稿种子成熟的概述)。图1说明了21个假定的LEA客户机通过噬菌体展示蛋白质鉴定。的蛋白质标记拟南芥信息资源(TAIR)轨迹标识符。在每一个情节,LEA蛋白结合和,biopan的温度。这些蛋白质作为我们的序列分析和比较建模的基础调查。

LEA蛋白的全长蛋白序列种子成熟蛋白家族的束缚在噬菌体展示25]从TAIR获得。每个蛋白质用于屏幕识别合适的三维(3 d)结构的同源染色体已经解决。比较建模工作,我们特别关注的地区确定为绑定LEA同系物。基于可用性的3 d结构类似于这些区域,点击量缩小至7的数量从原来的21个蛋白质在评估(AT1G54870.1、AT1G75830.1 AT3G55170.1, AT3G58680.1, AT5G18380.1, AT5G44120.1,和AT5G46430.2)。

七LEA端蛋白质的同源性建模使用的生物信息学工具执行大发育生物学研究所(26]。此套件集成了大量的实用程序需要完成建模过程。的七个蛋白质,HHpred被用来预测二级结构和序列同源性(27,28]。HHblits是用于构建多重序列比对作为同源建模软件的输入(29日]。同源建模进行了使用分析员(30.]。

不同的模板使用的每个蛋白质的原子坐标得到RCSB蛋白质数据银行(31日]。表1总结了模板使用的简要描述。对于每个模型的,标准的自动建模程序使用了结构建模和优化。这包括初始空间约束的基于规则的决心通过最小化约束违反的调整和优化。几个同源模型的生成包括领域之外的其它感兴趣的一定区域;然而,对于本项目中,我们限制讨论phage-display-recovered地区LEA客户机的蛋白质。可视化的蛋白质和模板完成了PyMOL (PyMOL分子图形系统,版本1.2 r3pre,薛定谔,LLC)。

模型质量决定使用蛋白质结构和模型评估工具可以通过瑞士模式服务器(32,33]。估计绝对模型使用QMEAN质量报告在这里 得分表1,这是一个估计相关参考x射线晶体结构(34]。的报道 成绩的标准差同源模型从实验结构相对于预期值。

3所示。结果与讨论

确定相似LEA端开始分析蛋白质子集内的相似性在一定地区和蛋白质完整客户端。为每个客户端蛋白质识别通过噬菌体展示如前所述[25),图1说明了亲水性概要(老板霍普/森林分析从胺基35)整个蛋白质以及任何可识别的领域。图已经对客户进行分类蛋白分为那些绑定最亲水区域,可识别的蛋白质的主题已经绑定,和那些没有识别的属性绑定。这LEA端蛋白质的初步分析和分类重叠的类别成员(由星号表示图1)。从这个分析,它是不清楚,如果有的话,这组蛋白质有共同之处。全长蛋白非常可变的长度(79 - 1608个氨基酸)的区域包含部分蛋白质的草原绑定(24 - 183个氨基酸)。后一种属性是一致的六聚体的使用随机合成的噬菌体展示库(36]。此外,识别蛋白质图案似乎没有共性,尽管几个核糖体蛋白质似乎优先结合LEA蛋白。解释的亲水性资料也是神秘的,因为往往最或最亲水蛋白通过噬菌体展示区域恢复,例外存在。

评价独家区域包含那些受LEA蛋白提供了更多了解LEA客户机蛋白质可能有共同之处。氨基酸组成,长度归一化的区域(图2(一个)),揭示了地区都有相对较低的芳香残留现象,法Trp,酪氨酸,和他,和含硫残留物,半胱氨酸和满足,贷款一般的亲水性。这样的属性,将符合solvent-exposed外的LEA蛋白的球状蛋白质绑定。缺乏surface-exposed thiol-containing,氨基酸是他们倾向氧化不足为奇。有趣的是,氨基酸组成概要文件是一致的protein-nucleic酸复杂数据集检查贝克和格兰特(37]。贝克和格兰特假设,尽管内芳香残留的低流行率protein-nucleic酸复合物的结合位点,芳香残留在核酸识别仍然发挥重要作用。然而,相对于我们的观察protein-nucleic酸复合物的结合位点氨基酸频率似乎是由自变量,赖氨酸,Asn, Glu, g,爵士,用力推,Asp残留,可能为我们提供一条共同的主线连接这组LEA客户蛋白质。

绑定的hydropathicity地区的进一步分析提供了额外的洞察潜在LEA端蛋白质的功能关系。大平均hydropathicity(肉汁)确定为每个LEA客户蛋白质如图2 (b)。肉汁hydropathicity计算基于胃和杜利特尔(38每个氨基酸水疗法值,随后是除以总数量的氨基酸序列中的平均到达(35]。负值表示亲水性,同样,正值表示疏水性。我们看到的绝大多数LEA客户蛋白质,绝大多数地区是亲水的,贷款凭证的假定的LEA蛋白的作用从脱水保护客户的蛋白质。然而,两个地区,部分AT1G75830.1 AT4G04470.1,被确定为疏水性,和另外两个,AT1G65090.2 AT5G44120.1,只是温和的亲水。这四个地区,我们确认的一个残留或子集残留不平均,而,温和的疏水性或亲水性的象征性质的整个地区(见图1)。

整个蛋白质组全身LEA客户机还分析了使用WOLF-pSORT(调用植物选项),一个程序设计来预测蛋白质定位网站(39]。集,但三人将驻留在一个亚细胞室包含核酸聚合物,与大多数预测核或胞质。WOLF-pSORT三个异常值分析包括AT1G75830.1 AT2G36640.1, AT5G44120.1。AT1G75830.1被预测为细胞外。AT2G36640.1预测是过氧化物酶病,AT5G44120.1预测空泡的。值得注意的是三个WOLF-pSORT中的两个离群值对应于疏水或只有轻微亲水性绑定地区。这表明,氨基酸组成,可能整体共性的LEA客户机绑定核酸或蛋白质是一个能力至少促进互动。

全身LEA客户机蛋白质的氨基酸序列进行了分析使用两个单独的蛋白质/主题模式和签名识别工具,目的是揭示统一主题集合。表内或功能2总结了主题和模式发现,描述那些属于序列之间的区域包含绑定一部分这些属于全身蛋白质不包括这个地区。假定的酰胺化图案(x-G - (RK) - (RK))被确定使用patmatmotifs实用工具在浮雕软件套件,它针对PROSITE主题数据库搜索氨基酸序列(40]。PROSITE定义了一个酰胺化网站(PS00009)坐落在一个活跃的羧基端肽前体蛋白的乳沟。通常,peptidylglycineα采用酶(αae)可以利用c端甘氨酸的氨基在这个主题的转换效果氨基酸酰胺化——(CO-NH“x”2()而不是一个羧酸盐)-羧基末端(41]。近60%的全长序列包含至少一个酰胺化域绑定区域内(25%);然而,相关性是很难确定的,在这一点上自然发生概率高的四肽序列。

使用InterProScan蛋白质签名识别软件,可能有意义的主题,虽然并不相互事实,建立了。微体的识别目标c端信号域,一个三肽c端共识序列偶尔发现的酶蛋白(42),从WOLF-pSORT AT2G36640.1与预测一致的蛋白质作为过氧化物酶病。这并不出乎意料,因为pSORT算法使用SKL主题作为过氧化物酶病蛋白质识别机制。RGD三肽序列图案也返回在三个独立的情况下,它被认为促进绑定整合蛋白和类似的蛋白质(43),似乎是中介的细胞的关键附件(44]。亮氨酸拉链和卷曲螺旋图案也多次返回InterProScan搜索。亮氨酸拉链是蛋白质的主题α螺旋,使二聚形成卷曲螺旋。亮氨酸拉链是已知参与dna结合蛋白和基因表达调控45),卷曲螺旋怀疑更广泛参与蛋白质-蛋白质之间的关系(46]。少,虽然有趣,但是,ATP /三磷酸鸟苷一个主题被InterProScan返回。这个主题,ATP /三磷酸鸟苷,glycine-rich循环序列连接β链和一个α螺旋,已被确定为一个保守区域的ATP, GTP-binding蛋白质通过观察晶体的数据(47- - - - - -52]。循环区域是已知的与核苷酸的磷酸基。最后,几个蛋白质被确认为核糖体,随着protein-RNA RNA相互作用,组装形成核糖体亚基(53]。虽然似乎并没有一个统一的主题或模式中组phage-display-identified LEA客户蛋白质,似乎有一条共同的主线核苷酸交互的基于已知的功能识别模式和主题。

在一定区域的氨基酸序列,普拉特是用于识别未对齐序列中重复出现的模式(多重序列比对不同蛋白质的不可行)(54]。图3说明了绑定LEA客户机蛋白质的序列区域,TAIR轨迹识别的标识符。用红色和蓝色字符序列编码根据两个最常见的模式的一组蛋白质。kx (2、4) v x (4) - (ACDGNSTV)模式,用红色表示,在75%的蛋白质绑定使用噬菌体展示区域标识。在蓝色,r×(1、2) -R-x (0,1) - s模式绑定蛋白的50%地区很常见。PDBeMotif,搜索算法提供三维结构数据的统计数据,被用来解释这两个模式的意义(55]。两个模式,PDBeMotif suggests-based现有蛋白质三维结构数据包含这些序列模式,甘油磷酸盐,核糖和脱氧核糖结构绑定配体。这些糖类组成核酸的支柱,在甘油磷酸盐磷酸的存在是化学符合一个核苷酸的磷酸ester-linked二聚体(图4)。而这绝不是确认LEA客户端常用功能的蛋白质,这只能通过实验手段保证,序列分析和模式/主题算法基于现有的结构和功能数据不断回归的主题protein-nucleotide交互。

LEA客户端的计算分析蛋白质结尾同源建模、可行,LEA phage-display-bound区域的客户机的蛋白质。与bioinformatics-based调查,目的是识别特征,结构或化学,这可能产生了解为什么这些蛋白质特别是一直作为LEA-binding伙伴返回。同源性建模方法在方法部分描述和识别结构模板. .正如上面提到的,我们只能够成功地识别合适的3 d结构模板七LEA客户机的蛋白质。许多LEA客户机的蛋白质,包括其中的一些模型,作为膜结合蛋白,因此存在难以解决的结构。七LEA客户机蛋白质包括AT1G54870.1、AT1G75830.1 AT3G55170.1, AT3G58680.1, AT5G18380.1 AT5G44120.1, AT5G46430.2。我们预计,随着结晶方法继续发展,额外的结构将成为可用的剩余的客户蛋白质作为模板。其他几个模板可用于全身蛋白质的部分;然而,我们限制同源建模研究,在一定区域内,因为这应该直观地提供最相关信息的特性导致了蛋白质-蛋白质之间的关系。图5说明了七个同源的序列注释根据二级结构预测模型。以下序列,每个模型的卡通表示。

这七个蛋白质的结构或顺序表示区域不提供一个引人注目的解释哪些属性是作为一个功能链接。几个无序循环结构表现出相对宽阔的区域,这似乎相当不寻常的球状蛋白。几乎可以肯定,这是相关的亲水特性约束区域(图2(一个))。但是我们发现它有点有趣,WOLF-pSORT返回的三种蛋白质的核和胞质,两个(AT3G55170.1和AT1G75830.1)同源蛋白质结构可通过蛋白质数据银行,虽然我们不能把意义这个基于本文提供的数据。与我们的结合位点相同模型的有限子集,我们只能状态的结构似乎变化很大从一个另一个和共性可能躺在化学和动力,而不是该地区的结构性质。

4所示。结论

大量的信息有关的序列和结构LEA客户蛋白结合的地区和如何有助于绑定还有待确定。从这个初始计算研究旨在阐明LEA蛋白的功能作用通过绑定基质相似,我们发现了似乎是一个偏爱protein-nucleic酸LEA端蛋白质相互作用。虽然这并没有告诉我们如何LEA蛋白功能相对于绑定蛋白区域,它表明假设测试有关LEA蛋白的亚细胞住宅研究。进化LEA蛋白和基质蛋白之间的关系规定SMP1和GmPM28同系物位于亚细胞车厢包含客户蛋白质的核酸聚合物显然绑定(即。、细胞核、细胞质、叶绿体、线粒体和/或)。表型影响特定LEA蛋白(或LEA蛋白家族)减少36,56),以及一个示范,LEA蛋白同系物种子成熟蛋白家族的首选客户他们结合蛋白(25),表明至少某些LEA蛋白没有多余地备份,不加选择的间隔分子,和导致的结论是,其他LEA蛋白也会首选约束力的合作伙伴。subfunctionalization具体的说明LEA蛋白涉及哪些客户蛋白质绑定到使用噬菌体展示最有效地执行。

在短期内,分子动力学模拟LEA客户机的蛋白质同源性模型,包括完整的领域,可能会提供额外的洞察力的灵活性和蛋白质的溶解动力学,除了导演正在进行实验噬菌体展示的努力。长期的发展重点将是额外的同源模型可用,以及越来越多的晶体结构新创蛋白质设计使用快速发展的结构预测方法。我们持续的目标是计算的有效集成建模与噬菌体展示蛋白质结构预测的脱水或热损伤的风险,揭示LEA蛋白履行保护作用的机制。未来的努力可能包含phage-display-directed合成LEA蛋白的进化工程保护不稳定的蛋白质。

确认

本项目部分由一个NSF IOS(0849230),孵化,McIntire-Stennis (AD421短剑),美国农业部种子格兰特(2011 - 04375),和弗雷德里克·麦克马斯特爵士研究奖学金布鲁斯态度。作者感谢斯蒂芬Chmely图准备他的援助。

补充材料

LEA客户蛋白质同源性模型。七个PDB TAIR轨迹坐标文件标签的标识符的全身蛋白质绑定地区产生。

  1. 补充材料