文摘

生物分子协同伟大的科学感兴趣是因为它在生物过程中的作用。两个转录因子(TFs) Oct-4 Sox-2,转录调控胚胎干细胞是至关重要的。在本文中,我们分析oct - 1(类似的POU因素)和Sox-2、互动合作的增强剂结合位点在集体运动。正常模式分析(NMA)研究实现的集体运动两个复合物与每个涉及这些TFs和增强剂。10月的特殊结构的蛋白质进行分析综合,之后每10月/袜集团重组为两个蛋白质对。我们随后提出一个细分的想法在每一对提取最相关的部分,使用运动相关性大小曲线。分析这些相关值中值显示单元的亲密砰(oct - 1)和Sox-2。使用这些larger-than-median相关值,我们进行统计研究,提出几种蛋白质合作模式(年代D)再加上他们的亚型。额外的过滤器被应用并得到了类似的结果。补充研究旋转角度与这些模式曲线达到协议。总的来说,这些提议合作模式为我们提供有用的信息来理解复杂的交互机制POU /物流/ DNA复合物。

1。介绍

胚胎干细胞(ES细胞)具有多能性的区分成三个胚芽层(内胚层、中胚层和外胚层),对应于成百上千的细胞类型。这些多能干细胞转录受许多转录因子(TFs) [1]。特定的TF称为Oct-4,属于homeodomain POU类的蛋白质,被认为是一种必要性维持胚胎ES细胞的未分化状态。一般来说,Oct-4交互与其他TFs作为一个群体影响小鼠胚胎干细胞的基因表达在胚胎早期发育2],Oct-4加上其代数余子式Sox-2 (hmg盒子域)是这个集团的中心。Botquin和Nishimoto都证明Oct-4的合作效应和Sox-2表达多个基因在小鼠胚胎的胚胎干细胞(3,4]。戴利和Basilico进一步提出这个想法,POU / HMG组内的交流,特别是对组织10月和袜组成的蛋白质,在DNA结合位点是一个基本的转录调控机制在胚胎早期发育5]。

早期阶段的转录,TFs绑定到特定的DNA区域监管合作影响转录的网站。增强剂,作为转录活化剂或刺激器(6),是一个监管DNA区域的主要类型。与启动子、增强子可以碱基远离他们的目标基因进行定位,但几何最可能接近基因由于DNA分子的超螺旋结构,因此可以有直接联系enhancer-TF复合物和转录网站。enhancer-TF复合物的研究是非常重要的对于理解转录调控的复杂机制。

另一方面,分子动力学涉及在许多生物过程(7,8),如复制、调节基因表达和蛋白质的相互作用。转录基因表达作为一个不可或缺的组成部分,必须经过一系列的生物分子的动态变化。因此,上述enhancer-TF复合物动力学的研究将提供一个深入了解它们的属性和功能的转录调控。具体地说,破译的角色10月和Sox enhancer-bounded复合物的相互作用机理的集体动力学是对科学的兴趣。此外,两种蛋白质的协同在这些研究是一个重要的研究课题。

在我们的工作中,POU / HMG组的动态增强器结合位点,称为POU /物流/ DNA复合物,正在接受调查。两个POU /物流/ DNA复合物,砰的DNA结合蛋白部分因子oct - 1和HMG因子Sox-2绑定到一个增强剂,是专门研究从结构和分子动态视图。正常模式分析(NMA)研究实现集体或者合作运动的POU /物流/ DNA三元复合物,然后砰的交互和HMG因素在他们的DNA结合位点在这些集体运动。我们提出一个细分的蛋白质构造一个equal-length-chain比较和衡量每个蛋白质组的相关性对使用线性相关。显著相关的统计分析对提供了有用的信息关于这些TFs对增强剂协同控制dna转录调控。

2。材料和方法

2.1。正常模式分析(NMA)
2.1.1。介绍

NMA是一种有效的方法来检测最合作或集体运动(基本模式)的大型谐波振荡系统。与约束,研究了构象附近的系统平衡,它存在于大多数谐波振荡系统(9NMA)是用于研究这些系统的大型结构变形或运动。想法是使用谐波势近似多维能源系统能量最低周围风景和最方便的方式来检测这种能量景观。NMA广泛用于分析生物分子的结构动力学。

具体地说,如果我们描述一个 -site-system位置矢量 ,每个站点的三维坐标 在数学上,我们可以扩大潜在的能量 二阶泰勒级数在平衡构象 (9]。最后,我们获得一个二阶近似如下: 在这里 相对于代表系统的结构性变化 , 是一个 海赛矩阵,其元素有以下形式: 随后,动能在稍微修改了黑森质量加权。这些海赛矩阵包含我们的观测系统的关键结构信息。

海赛矩阵的一个广泛使用的施工方法是弹性网络模型(运用)9- - - - - -12),包括高斯网络模型(GNMs) [11网络模型(ANMs)[]和各向异性12代表。运用时,可以跳过平衡勘探以来,开始是专为这个平衡状态。构建运用结构时,原系统可以转化为一个网络节点(CG-sites)和连接弹簧,和一截距离 用于定义所有的连接弹簧吗 (9,10]。高斯网络模型(GNM)选择代表系统中的子结构,比如使用Cα原子的氨基酸(9,11),为了进一步降低计算成本,导致潜在的形式显示为(3)( 代表一个CG-site): 同样,ANM提出了潜在的形式(4),忽略了一些影响造成的距离向量:

每个特征值的一个above-constructed海赛矩阵表示相关的系统能量观测系统,及其对应的特征向量代表一个特定的正常模式的方向运动。中获得的 正常模式的方向,前六微不足道,因为他们都是对应于零特征值,这意味着这些结构性变化不会影响系统的势能。剩余的 特征向量,我们将选择一个小设置对应于小特征值(基本模式)进行分析9]。在先前的研究中,第一个10 ~ 15基本模式选择的许多研究人员对他们的工作13- - - - - -15分析了前十,在我们的工作。

2.1.2。计算平台

一些在线工具可用于正常模式计算。叫NOMAD-Ref在线服务器http://lorentz.immstr.pasteur.fr/nomad-ref.php(16)是利用在我们的实验。这是一个运用基于模型的方法。rotation-translation块方法的实现(16)和稀疏矩阵的ARPACK图书馆数据存储和分解(17在黑森矩阵的计算可以保留100000原子结构。在我们的工作中,在计算运动时使用NOMAD-Ref, POU /物流/ DNA的所有原子三元复合物,而只有运动的POU和HMG蛋白质分析因为只有蛋白质-蛋白质之间的关系在POU / HMG复合物在感兴趣的DNA结合位点。

2.2。实验数据和分析NMA的结果
2.2.1。实验数据

两个POU /物流/ DNA三元复合物,1 gt0和1 o4x从蛋白质数据库(PDB)[下载18)进行分析。每个结构由一个上涨的因素oct - 1(非常类似于Oct-4),一个邮政编码因素Sox-2和增强器元素。图1(一)显示复杂的三维结构1 gt0和使用产生的图是加州大学旧金山分校嵌合体(19]。在1 gt0,有界的DNA是一个纤维母细胞生长因子4增强器(FGF4) [20.];在1 o4x同源框B1 (Hoxb1)增强器由两个助教有界(21]。

此外,每个10月蛋白质包含两个子单元(pou和POUHD)连接的一个灵活的链接器和控制dna以双边的方式(21]。根据10月蛋白质的特殊结构,我们作为Oct - 1和Sox-2复杂两对蛋白质进行进一步调查,即POUHD和Sox-2一对1和pou Sox-2 2,这两个图所示1 (b)

2.2.2。分析相关的运动

后生成的运动两个POU /物流/ DNA使用NMA三元配合物,我们观察两个蛋白质对行为增强剂结合位点在这些大多数集体或合作运动。

对于每一对蛋白质在每个三元复杂,我们分析了前10获得基本模式。在每一个模式,我们首先完善一双观察残留水平运动从一个视图大小。这可以通过计算所有原子的运动大小在每个蛋白质,随后计算每个残留在这种蛋白质的运动幅度平均运动原子大小的所有组件(见(5)): 这里的原子 ~ 包括残留 ; 和( )表示原子的位置 在其平衡位置,在一个特定的模式,分别。为每个模式,因此,我们将获得一个运动大小为每个蛋白质在一对观测曲线,和每个曲线点对应于一个残留的蛋白质序列(数字2(一)和2(b))。

接下来,在每个蛋白质对我们观察潜在的蛋白质在这些运动基于协同运动的相关性大小的功能。一种有效的方法来测量两个量之间的依赖性是皮尔逊积差相关系数(22- - - - - -24通常也称为相关系数。这个系数计算基于预期值( )和标准差( )的两个变量( 所示),(6):

在我们的研究中我们采用相关系数。然而,由于每个蛋白质都有不同的长度,我们调查最合作/相关部门在每个蛋白质对每个模式。我们引入了一个区段长度参数 在这里。为观察对蛋白质有不同长度的 ,与一个特定的 ( )定义在一个模式中,我们将一个运动幅度函数沿着其他发现 -length-segments份额最大的绝对关联值(图2(c))。我们可以进一步描述流程如下: 在这里 代表运动功能级两种蛋白质的观察,在一个特定的基本模式; 表示 -length-segments的 ,分别。

在每一个模式的列表 值定义为每一个蛋白质,得到一系列最合作的部分对相关值 ,在那里 表示不同的 价值观和 (1 ~ 10)代表了不同的模式。在这里我们替换 通过 为了方便说明, 在观察到一对长度越短。自相关性的绝对值大展示更多相关领域(积极的或消极的),我们如何进行调查 分配的两个蛋白对复杂。为每一个 在一对观察,中间值(8)提取和探索。此外,表演(基于 )的两对在每一个复杂的比较:

现在,我们用中位数(8)作为一个过滤器和调查这些 (应该是重要的)分发。对于每一对蛋白质的观察,我们可以获得一个逻辑矩阵 这反映了这一过程: 在这里 给出了矩阵组成的

我们随后检查两对蛋白质之间的关系在每一个复杂的基于这些逻辑矩阵。这个想法是为了探索在一个基本模式是否只有一个显著相关部分对(在蛋白质一对1或2)涉及或两双。平衡段长度( )使用的两双,我们考虑所有的长度对( )之间的两双,呈现在图3。这里我们使用标区分对1和2。

完成上述操作,我们为所有的进行若干次迭代 价值观和组合这些迭代的结果。我们现在需要行 (表示一个特定的 值),显示整个过程是如何完成的。在每个迭代中,我们首先扩大参与行(下标 )在一个矩阵(10),然后进行统计的情况下,三种情况发生:(a) (索引 )只有一对1中的显著相关部门对检测到在一个单一的基本模式与一对长度( ),(b) (索引 )只有一对2中的显著相关部门对检测,和(c) (索引 )——双检测到1和2。统计分析是基于逻辑操作,如图所示(11),它结合了所有的迭代获得最后两双索引: 这里的“ ”是指一批两个矩阵对应元素的乘法,和 计数的数量(一个逻辑”真正的”在一个逻辑矩阵值) 。索引 , , 分别展示三种合作模式(对应上述三例)两个蛋白质之间的双POU /物流/ DNA复杂。我们展示一些代表合作模式部分3还,我们列出上述指标两个复合物。此外,相关的迹象 考虑,我们引入了另一个逻辑矩阵 描述的迹象 所说的那样,(12)。通过结合逻辑操作 (13),我们可以把情况( , , )亚型(积极的和消极的),和所有这些亚型分析了部分3:

比较应用场景不同的过滤器,我们分别应用第一tertile第一四分位数和中值作为过滤器调查相应的结果。均值滤波器可以被描述为(14),和分位数过滤器(15),公关代表概率。具体来说,tertile和四分位数过滤器对应情况 ,分别。然后进行一系列的操作基于这些过滤器,揭示如何观察复合物表现在这些情况下:

最后,获得一个深刻的洞察这两个配合物的运动,我们也观察到相应的蛋白链的旋转角度。在上面的讨论,我们把残留物作为蛋白质序列的基本单位,在这里,我们考虑每个连续两个残留物(图之间的联系2(b))。每一对对应的链接之间的角度在原始结构和变形结构(模式)进行了研究。我们获得一个旋转角函数为每个蛋白质的蛋白质对每个基本模式。之后,我们进行一个类似的分析,上述这些旋转角函数作为补充研究。主成分分析(PCA)实现减少嘈杂的旋转角度的影响。我们也调查数据分析的傅里叶变换的适用性。

3所示。结果与讨论

3.1。运动功能级

为每一个蛋白质的观察对三元复杂,计算运动功能(级5)第一10基本模式。图4显示了运动曲线的两个观察蛋白质对1级gt0第一基本模式。

在定义的列表 值,我们计算每一对蛋白质中最为合作/相关部分对10个基本模式,在一个复杂的使用机制部分中讨论2.2。2。因为小 值对应于短段匹配,由于高度相关,其结果可能是微不足道的可能性,我们使用的一组 值从0.5到1.0的步骤0.1。表1显示的结果相关性 最合作的第1段中对蛋白质对1 gt0。

相关性的绝对值越大,越两段与对方相比,无论是积极的还是消极的。现在我们看看绝对关联的值 分发,两个蛋白质对复杂。给出了图的值5,部分(a)和(b),分别显示的值在1 gt0两双,和部分(d)和(e)显示的1 o4x。从这些图我们可以看到这一点 变大的时候 变小,这也可以被检测到的平均价值 每个盒子里有一个粉红色的圆(表示一个特定的 )。给比较两双的表现在每一个复杂,我们提取上述中间值 每一对,现在他们的部分(c) (1 gt0)和(f) (1 o4x)。在图(c)和(f),特别是(f),对2提供了一个更高 比1,这在某种程度上意味着对行为的主导作用5月2日10月/袜交互。

接下来,我们使用上述中位数作为过滤和调查这些 (应该是重要的)分发。对于每个蛋白质在一对观察,我们计算它的逻辑矩阵 (部分2.2。2),它对应于(9)和(12),分别。我们随后研究的逻辑矩阵两个蛋白质组( , )在每一个复杂的,之后,我们提出几个两对之间的合作模式,开展统计分析根据(10)和(11)。在细节,这些模式包括(a)模式 (索引 )只有一对1中的显著相关部门对检测到在一个单一的基本模式与一对长度( ),(b)模式 (索引 )只有一对2中的显著相关部门对检测,和(c)模式 (索引 )——双检测到1和2。直观地显示合作模式 的,我们选择部分1 gt0的结果 作为显示在图6,在这 , , 模式,分别呈现显著相关部门对有颜色的。

模式 表示,只有一对蛋白质,对1 ( )或一对2 ( ),明显参与特定的集体运动。这表明只有一个亚基,POUHD或者砰,明显与Sox-2参与协同的一个基本模式。模式 意味着两个子单元与Sox-2参与互动。详细的统计结果被发表在表2。在这个表中,合作模式 比模式更频繁地发生 在两个复合物,元组(82、82、98)和(85、85、95)索引( , , ),分别。这意味着,相比之下,模式 ,两种单元的oct - 1经常参与的交互与Sox-2同时,模式

此外,我们划分模式 亚型,积极型和消极的亚型,统计数据是评估使用(13),表中列出2。在模式 积极的亚型( )显示了一个积极的迹象 在蛋白质显著相关部分对1或2,- 1 ( )表明一个负号。在模式下 积极的亚型( )表示一个场景,都显著相关部分对两个蛋白质对共享相同的迹象 (+ / +或−−)和- 1 ( )代表两个不同的符号(+ /−−/ +)。从表2我们注意到,对于模式 复合物1 gt0和1 o4x积极亚型有铅;为模式 阴性亚型在领导1 gt0在积极1 o4x的主导地位。

我们还应用第一tertile第一四分位数和中值滤波器和同样的安装进行了统计分析。表3,4,5目前的结果对于这三个场景,分别。这些表所示,模式的发生频率之间的差距 和模式 (或 )变大,主要出现的模式 演示了。此外,为模式 ,配合物1 gt0和1 o4x产生相反的亚型分布,而对于模式 ,他们呈现出相似的分布。总的来说,这些额外的结果与前一个是一致的(中值滤波)。

3.2。旋转角的函数

随后,我们计算每个蛋白质在每一个的旋转角度的功能复杂的前10基本正常模式(部分中描述2.2。2)。图7显示了蛋白质的旋转角曲线的两个蛋白对1 gt0第一基本模式。

自旋转角函数含有大量的噪声,我们应用主成分分析(PCA)的10个旋转角曲线两种复合物中的每个蛋白质获得第一主成分(PC),领先的旋转角曲线( ~ 10)每个蛋白质的一个浓缩的PC曲线。我们同样进行相关分析的个人电脑在每一对曲线。表6显示了两个复合物的统计结果。直观地,1 gto提出了不同的合作模式 ,对1显示了更重要的相关部分对(积极的亚型),而模式 占主导地位的是1 o4x,许多显著相关部门对发生在两双(积极的亚型)。

现在我们应用傅里叶变换来分析这些嘈杂的旋转角度值。简单,转换后的信号的大小被视为我们的新数据。实现分割和相关计算,然后进行统计分析。作为一个例子,我们使用第一四分位数作为旋转角的相关性过滤器的功能。表中列出的结果7,我们可以看到,每个协作模式的负面亚型隐藏后的变换。这意味着,傅里叶变换可能不是一个合适的工具来处理这些旋转角度值。更有效的策略应该探索在未来处理这些数据。

4所示。结论

NMA执行在这篇文章中,我们研究两个TFs的集体运动,oct - 1和Sox-2增强器结合位点,旨在看透的合作方式这两个TFs enhancer-bounded复合体的动态。根据10月蛋白质的特殊结构,我们对待一群10月/袜两对蛋白质和相对调查这些两双表现如何的集体运动。分割概念引入探索每一对蛋白质中最相关的部分,根据运动的相关性大小曲线(或其部分)。平均这些相关性进行分析,显示单元的主导作用砰(组2)。此外,基于统计的相关部分对上面有一个相关值对应的值,我们提出几个运动合作模式( , , )及其亚型(积极或消极)。第一tertile第一四分位数和中值提供了一致的结果。此外,补充研究旋转角函数提出了一种共识关于这些模式。这些提议的模式提供了一个线索,当绑定到不同的监管DNA区域或参与不同的集体运动,oct - 1与Sox-2要么有协同关系的一个组件,pou或POUHD,或他们两人,pou和POUHD在同一时间。

协同,protein-DNA [25)和蛋白质(26相互作用,在生物分子的相互作用是一个重要的特性。在我们的工作中,我们进行了一系列研究和Sox 10月的合作方式增强器结合位点,重要元素在胚胎干细胞的转录调控。这项工作揭示了两种蛋白质如何一起工作在生理和结构在两个特定DNA等候地点。这里开发的方法可能是有用的在其他蛋白质分子相互作用的分析和protein-DNA复合物。

利益冲突

作者宣称没有利益冲突有关的出版。

承认

这项工作是支持的香港城市大学(项目7002843)。