文摘
的目标是。优化和验证的监管途径p42.3胃癌的发病机制(GC)的智能算法。方法。生物信息学方法被用来分析p42.3蛋白质结构域的功能。蛋白质与相同的域和类似的功能p42.3筛选供参考。的监管途径p42.3成立通过整合这些蛋白质的作用途径。然后,参考蛋白质之间的相似性和p42.3蛋白质是由多参数算出加权求和方法。计算结果为初始节点的先验概率的贝叶斯网络。此外,发生的概率在不同的途径是通过条件概率公式来计算的,和最大的概率被视为最p42.3的可能途径。最后,分子生物学实验来证明这一点。结果。在p42.3贝叶斯网络概率的作用途径“S100A11→愤怒→P38→MAPK→Microtubule-associated蛋白质→轴→→着丝粒蛋白细胞增殖”是最大的,这也验证了生物实验。结论。p42.3的重要作用可能在胃癌的发生是通过理论分析和初步的试验来验证,帮助在研究p42.3与胃癌的关系。
1。介绍
胃癌的发生和发展是一个多因素、多级和多步过程(1]。大量的分子参与了它和构成复杂的监管网络2]。发现和识别高危预警的关键生物标志物,胃癌的早期诊断和有效治疗是胃癌研究的焦点3]。迄今为止,研究已经证实,多个antioncogenes如PTEN [4],p16 [5],p21 [3],Smad4 [2],Fas [6),和顾虑3)等致癌基因,Ras (7),原癌基因(1)和基质金属蛋白酶(8]随着胃癌的发展相关联。p42.3是一种新型的基因,克隆运用同步,信使rna微分显示和生物信息学。研究人员已经证明p42.3可能发挥了重要作用在胃癌的发生和发展9]。一些研究表明p42.3致癌基因和肿瘤标记物的特点,它可能是一个早期的分子事件从胃粘膜病变发展到胃癌(10]。然而,这些结果并不能解释系统p42.3的特定功能。
根据我们的早期研究,p42.3可能参与监管途径在胃癌的发生、发展和监管途径如下:Ras→Raf-1→MEK→MAPK激酶→MAPK→microtubule-associated蛋白质→轴→→着丝粒蛋白细胞增殖(11]。然而,它并没有被分子生物学实验验证。我们之前研究的基础上,通过改进之间的相似性算法参考蛋白质和p42.3蛋白,本研究调查的生物特性p42.3通过参考蛋白质的监管网络,优化p42.3的监管网络,调节相应的最大可能的途径,并通过初步的分子生物学实验验证。
2。材料和方法
2.1。材料
SGC7901胃癌细胞株BGC823, MGC803, AGS, N87, GES1提供的北京肿瘤医院(原来源来自上海Bioleaf生物技术有限公司,有限公司),并与5%胎牛血清的DMEM培养基培养有限公司5%2细胞培养箱在37°C。
2.2。方法
2.2.1。p42.3的结构特点
后获得的氨基酸序列p42.3(基因库:NP_848543)从NCBI数据库,蛋白质的空间结构预测的线程Phyre预测工具2(http://www.imperial.ac.uk/phyre/伦敦帝国理工学院)(12]。然后,相关细胞增殖的功能是设置为限制条件,基于两个结构域的蛋白质被搜索和蛋白质构成的数据集引用。由此,可能p42.3的生物学特性进行了研究。
2.2.2。蛋白质和p42.3相似性计算的参考
多参数加权和方法被使用在计算参考蛋白质和p42.3的相似性。首先选择几个参数的两种蛋白质有相似计算每个参数的相似度,然后添加重量由人工神经网络训练。最后,加权求和后获得的相似程度。
2.2.3。选择的参数
根据文献数据,以下9个参数选择相似的蛋白质:蛋白质的空间结构,分子内原子的数量,氨基酸的数量在每一个蛋白质,氨基酸的种类、位置的元素P和S蛋白分子和原子的数量的比例C, N, O在蛋白质分子13- - - - - -16]。
2.2.4。蛋白质的空间结构的相似度计算
之前计算相似度值,每个原子的坐标在蛋白质结构文件(pdb文件)测定和欧几里得坐标作为空间坐标,与蛋白质的几何中心为原点。每个原子到原点的距离计算。根据这些距离,蛋白质分为层和两种蛋白质的结构相似性分析了相应层分层分析。发现大部分的原子之间的距离p42.3蛋白质和原点的范围在0 ~ 80 nm和一小部分的距离都在80 ~ 100纳米,而且,很少超过100海里。因此,基于半径的长度,p42.3蛋白质分为十层从中心到外缘。每一层的距离如下:第一层0 ~ 10海里;第二层10 ~ 20 nm;第三层20 ~ 30 nm;第四层30 ~ 40 nm;第五层40 ~ 50 nm; the sixth layer 50~60 nm; the seventh layer 60~70 nm; the eighth layer 70~80 nm; the ninth layer 80~100 nm; and the tenth layer beyond 100 nm. The number of atoms in each layer was counted for each of the proteins being compared and stored in array vector data 1 and data 2, respectively. The similarity in atom numbers in each layer was then compared using the formula:,sim代表ten-dimensional向量存储每一层的相似性。
权重被添加到每一层的相似性和整体密度相似度加权求和法计算。它是合理的假设层包含最原子将更有可能确定蛋白质的性质。基于这样的假设,原子层拥有越多,这一层的权重越高,所以在每一层的原子数的比例确定这一层的重量。当然,这可能是不同的两种蛋白质在每一层,所以平均。因此,每一层加权为下面的公式:,,在那里是第一个蛋白质的原子总数,是第二个蛋白质的原子总数,而和原子的数量吗th层蛋白质1和2,分别。因此,两种蛋白质的空间结构相似性。
2.2.5。相似的原子总数和氨基酸的数量和类型
相似度算法的三个参数是一样的。原子的数目和氨基酸,氨基酸的数量类型两种蛋白质被textread函数在MATLAB软件计算。然后,原子的数量,数量和类型的氨基酸可以从pdb文件读取两种蛋白质。两种蛋白质的总数量的原子被记录和分别,然后相似的公式用来计算原子数量。同样,相似的氨基酸的数量和类型也可以获得。
2.2.6款。每个元素的相似性
本研究主要是分析元素C, N, O, P和s .首先,C的数量的比例,N, O原子总数计算在每一个蛋白质。之间的相似性计算C, N和O按照公式:。此外,在蛋白质分子,P和S的元素数量通常是小,但是他们都起着至关重要的作用在蛋白质的功能。而在p42.3蛋白质,只有一个S原子和P原子。因此,它显然不是科学计算的相似程度,根据原子的两个元素的数量。相反,相似的P和S原子之间的位置设置为标准计算。在该算法中,人们认为如果两个元素P和S是在同一层,相似之处被认为是1.0;如果他们在相邻层,相似度为0.8;否则,相似度是0。因此,每个元素在蛋白质的相似性参数。
2.2.7。计算每个参数的重量
基于每个参数的相似的蛋白质被发现,整体相似度可以通过加权求和方法。在此之前,100年的数据对类似的蛋白质对被收集。根据上述方法,每个参数的相似度计算在每一对蛋白质:- - - - - -。然后,BLASTp用于搜索的每一对同源蛋白质,这被认为是整体的相似性。因此,对于每一对蛋白质,相似的数据向量110可以实现:。然后100对蛋白质的相似性数据输入BP(反向传播)神经网络培训;因此,每个参数的权重已经实现(表1)。
因此,对于每一对蛋白质,它们的总体相似度可以通过公式计算:。在这个公式,是两个蛋白质的总体相似度。代表了每个参数的相似性。空间结构(密度)、原子数量的蛋白质、氨基酸的数量和类型,数量和比例的C, N, O原子(8],P和S原子和空间位置的蛋白质,分别。这个公式的基础上,参考相似的蛋白质和p42.3因此发现和参考数据集的蛋白质组成。
2.2.8。贝叶斯的监管网络的建设和优化
在细胞增殖情况,参考蛋白质组得到的相似性计算就会被筛选出来。然后,参考蛋白质为出发点和细胞增殖为终点,每个引用蛋白质的作用途径和节点收集。之间有过不同的路径,从而构成一个监管网络(11]。在网络中,“+”表示管理具有积极的促进作用;“−”代表一个负面作用抑制监管。每个引用蛋白质的相似性和p42.3最初被设置为先验概率。通过应用条件概率的知识,发生在每个节点的概率。这个公式是
贝叶斯网络是有向无环图(无进取心的人),它描述一组有限的变量的联合概率分布。贝叶斯网络可以象征元素,在那里是一个DAG的节点代表随机变量。它可以象征着基因表达向量表达式分析数据,代表每个变量的条件概率。在以下条件下DAG显示,独立的关系。这是马尔可夫假设;每个变量独立于其nonchild节点是父节点的先决条件。假设的基础上独立,贝叶斯网络只有一个联合概率分布设定是,在那里象征的父节点。为了确定上面的联合概率,条件概率的公式需要确认。
在贝叶斯网络在这篇文章中,在获得发生在每个节点和路径的概率,概率的贝叶斯定理用于逆蛋白质在每个节点代理他们的角色,因此寻找尽可能多的监管途径p42.3蛋白质。
2.2.9。分子生物学试验的最优路径
在获得最高可能的作用途径p42.3蛋白质通过计算和预测,一些基本的生物实验进行了初步验证。首先,试剂盒(表达载体,美国)方法用于提取总mRNA的六个细胞系:BGC823, MGC803, SGC7901、AGS N87, GES1。通过反转录、互补脱氧核糖核酸合成(cDNA逆转录工具包,热费希尔科学公司,联合王国)。根据参考蛋白质和p42.3的基因序列,设计引物。引物的序列见表2。相比之下,β肌动蛋白,rt - PCR是用来放大,分别(PCR放大器、股份公司、德国)。PCR产品被琼脂糖凝胶电泳检测后,各种蛋白质在不同细胞系的表达式进行比较。
3所示。结果
3.1。这类ef - hand, CC-Domain的结构性特征
蛋白质空间结构的预测的线程Phyre预测工具。三维配体结合的模型的特点p42.3类ef - hand地区被使用3 dligandsite预测(http://www.sbg.bio.ic.ac.uk/ ~ 3 dligandsite /伦敦帝国理工学院)(17]。的金属离子结合位点p42.3 ALA78, SER79, TYR81 ARG86,如图1。高的蛋白质数据集结构同源性与类ef - hand CC-domain (p42.3分子)搜索。其中一些具有相同结构的类ef - hand表所示3。然后,蛋白质与细胞增殖功能筛选参考蛋白质。
3.2。蛋白质和p42.3相似性计算的参考
蛋白质的相似性算法比较相似的九个参数上面提到的。MATLAB软件用于编程(MathWorks,美国)。参考相似的蛋白质和p42.3计算。筛选后细胞增殖,结果显示在表中4。
3.3。贝叶斯网络监管
细胞增殖是设置为限制条件,不同参考蛋白质的作用路径和节点是由文献收集。有不同的作用途径,因此形成的监管网络,如图2。圆形节点代表参考蛋白质和它们的初始节点。每个节点之间的关系是上游和下游的监管。箭头指示的方向行动。“+”:积极的监管和“−”:一个反向的监管。
参考相似的蛋白质和p42.3被视为最初的父节点的先验概率。根据公式(1下游),发生的概率在每个节点计算,直到找出最终的细胞增殖的结果。最后一个就是途径发生的概率。结果如图3。粗线的路径的概率为0.9781,高于其他途径。与蛋白质的相似性比较的结果,它可以是最初证实通路”S100A11→愤怒→P38→MAPK→Microtubule-associated蛋白质→轴→→着丝粒蛋白细胞增殖”是最高的可能性。
3.4。分子生物学测试
分析的基础上p42.3和贝叶斯监管网络的空间结构,表达S100A11(蛋白质最大的积极最大加权值)和S100A2(最短的负面作用路径)的蛋白在胃癌细胞株检查,分别对p42.3和S100A11的相关性的初步告别演说。结果表明,当p42.3显示正常表情,S100A11和S100A2显示表达式。在图4,这是表明表达p42.3 S100A11极为相似,而S100A2的表达是p42.3大大不同。指蛋白质结构的分析,可以得出结论:监管途径S100A11 p42.3可能一致,也可能参与监管途径。
4所示。讨论
胃癌的发生和发展涉及多个相关基因的结构和表达的变化(9]。特别是,致癌基因的激活和抑制的失活是肿瘤(中扮演很重要的角色10]。到目前为止,许多研究试图揭示胃癌的分子调节机制为了寻找生物标志物胃癌的诊断和治疗,预计是一种有效的辅助治疗的手术和放化疗。
p42.3表达式是依赖于有丝分裂和表达在低水平或不正常的胃黏膜,但胃癌组织中高度表达。它具有促进细胞增殖和肿瘤转移的影响9]。p42.3基因表达的变化,发生在胃癌的发展表明,p42.3可能是胃癌诊断和治疗方向(10,11]。发现一个类ef - hand结构域存在p42.3 n端氨基酸序列的蛋白质,也提出了S100家族的蛋白质(36]。这类ef - hand结构由典型helix-loop-helix结构单元;也就是说,两个α螺旋联系在一起螯合环(37]。在所有报道类ef - hand结构,大多数类ef - hand结构域结构域对偶数和形式,通过联接蛋白分离,或同源或异源调光器,如S100家族蛋白两类ef - hand结构域(38,39]。奇数的蛋白质结构域通常需要形成同源或异源二聚体,二聚体的形式展示了他们的活动。CC-domain是一种super-secondary蛋白质的结构,由两个七交织在一起α螺旋(最常见的是两个或四个)形成一个网状结构(40]。许多蛋白质与卷曲螺旋结构有重要的生物功能,如调节基因表达的转录因子(40]。最知名的癌蛋白包含卷曲螺旋结构和原肌球蛋白的蛋白质。研究p42.3的作用机理,相似度算法,采用多参数计算找到p42.3蛋白质结构相似度高。因此,蛋白质可能与胃癌的发生有关筛选和视为基因调控路径节点(11]。由一系列概率计算,发现的可能作用机理p42.3在胃癌的发病机制是S100A11→愤怒→P38→MAPK→Microtubule-associated蛋白质→轴→→着丝粒蛋白细胞增殖(图3)。和最初的分子实验还证实p42.3的一致性和S100A11基因表达在胃癌细胞(图4)。基因调控网络的研究可以用来定量矿有关基因表达调控从一边的信息。通过提取和分析这些信息,基因功能和基因网络可以被理解,将明确该病的发病机制。基因调控网络的研究有助于探索基因功能的总体框架(11]。基因的功能应该研究不仅从结构层面,还从网络水平。基因互相影响,共同在错综复杂的网络,因此包含新功能不能充分揭示了DNA序列。
S100蛋白是一组分子量较低的钙结合蛋白(10 - 12 kDa)。其氨基酸序列高度保守的脊椎动物(41]。S100蛋白有着高度的同源性与钙调蛋白和其他类ef - hand钙结合蛋白(41]。生物功能的具体表达式和染色体定位肿瘤S100蛋白家族和S100蛋白和肿瘤之间的亲密关系。最近,有研究表明,S100A11 (S100C)可以作为一个肿瘤抑制蛋白在某些肿瘤和肿瘤促进剂在其他肿瘤42]。S100A11是调节在乳腺癌,前列腺癌,肺癌和nonsmall细胞,促进肿瘤转移和入侵43,44]。相反,S100A11作为一个肿瘤抑制膀胱和肾脏癌(45]。我们的实验结果提供了一个调节表达S100A11胃癌。肿瘤抑制蛋白,候选人S100A2的表达显著降低在多种恶性肿瘤,如乳腺癌、肝癌、前列腺和食道癌46- - - - - -49]。研究表明:S100A2能抑制细胞增殖和入侵和作为一个肿瘤抑制参与胃癌的发生和转移(50),与我们的研究结果一致。通过分析表达S100A11 S100A2胃癌,这两个包含类ef - hand结构,是验证p42.3可以参与胃癌的发生和发展一致和p42.3效应方向相反。
目前,有多种方法来比较蛋白质结构,每个都有自己的优点和缺点(51]。通过分析蛋白质的结构,其中大部分计算一对蛋白质的相似性值通过应用数学算法。从蛋白质的空间构象,他们都只有分析了蛋白质的空间结构特征。蛋白质的相似性没有考虑其他方面。例如,元素P和S是至关重要的功能蛋白质。使用多参数综合比较的方法,本研究不仅比较两种蛋白质之间的差异在空间原子密度还认为许多其他方面的相似性。进行每个参数的加权求和时,所使用的权重都来自培训不同的数据不是从主观权重。它保证重量的每个参数的准确性,避免了错误,有些参数是一些重要的总体相似,但与高体重。因此,两种蛋白质的相似性找出更准确。所有计算的过程是由编制的MATLAB的M文件。 Batch comparison of any amount of proteins could be carried out easily and quickly.
5。结论
在这里,这类ef - hand p42.3结构的配体结合模型成功预测。与此同时,使用贝叶斯网络构建相应的数学算法和优化预测最可能的路径。另一方面,分子生物学实验表明p42.3和S100A11可能的普遍特征,这为我们提供了一个假说进行进一步的研究。总之,我们的研究提供重要的研究方向,探索p42.3在胃癌的作用机制。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
我们应该感谢作者在同一部门的同事对他们的支持。此外,这项工作得到了国家自然科学基金(60971110)、河南省科技公司项目(122106000042),和开放的科技公司项目2013年河南省(132106000064)。