文摘
本研究的主要目的是探索复杂网络的贡献及其不同的顶点和边的定义来描述蛋白质的结构。蛋白质折叠成特定的构象对其功能根据残基之间的相互作用。因此,在很多研究中,蛋白质结构视为一个复杂的系统由单个组件残留、和边缘残基之间的相互作用。什么是适当的时间代表蛋白质结构作为网络?确认不同定义的顶点和边的作用在构建氨基酸的相互作用网络,蛋白质域和蛋白质的结构单元描述了使用这种方法。2847蛋白质域/域的识别性能证明,当描述了蛋白质的结构5.0 - -7.5左右,为构建蛋白质结构网络最优截断值为5.0 (距离),而理想的社区除法群落结构检测是基于边缘中间性。
1。介绍
蛋白质结构比较和分类是一个困难但重要的任务因为结构是分子间相互作用的决定因素和功能(1]。蛋白质折叠成特定的构象对其功能根据残基之间的相互作用。因此,蛋白质结构可视为一个复杂的系统组成的各个组件残留。复杂网络的方法已被广泛应用于各种类型的疾病等领域(2- - - - - -4),药物目标(5,药物设计6]。网络分析促进这种复杂系统的特征和它的各个组件(7,8]。这提供了新颖的视角理解蛋白质折叠机制(9,10)、稳定性(11)、功能(9,12,13)和动态(14),更具体地说,蛋白质结构的研究。查看蛋白质结构作为一个复杂的网络交互的残留物,变质构造分析被证明是一个有效的工具大规模(基因组)目标选择结构基因组学和蛋白质序列分析识别本质上非结构化(展开)蛋白质15]。蛋白质结构的分析图表表明,芳香残留物和精氨酸,组氨酸,和蛋氨酸作为强有力的中心高交互图,发现扮演一个角色在汇集不同的二级结构元素在蛋白质的三级结构11]。通过改变蛋白质结构进入渣交互图,活性部位,配体结合,进化保守残留高亲密值通常被发现。这个属性将被用于识别关键蛋白质残基(16]。此外,提出了软件工具的自动化生成,2 d可视化,残渣和交互式分析交互网络,证明剩余网络了解结构关系是至关重要的(17]。小说web服务器,环,提出了构造物理化学有效残留交互网络交互式地从PDB文件Cytoscape后续可视化的平台(18]。应用Cytoscape插件,NetworkAnalyzer [19],RINalyzer [17]证明了标准和先进的网络拓扑分析20.]。
在这些研究中,不同的策略被用来定义一个顶点在文学:(一)只(9,10,15,21- - - - - -23]或(21,24一种氨基酸);(b)侧链的中心(11];(c)中的所有原子残留物被考虑(16,25]。此外,边缘的定义也出现这样的网络建设的关键。蛋白质结构的特征是敏感的门槛边缘如5(两个原子之间的距离从两个氨基酸残基)(258),(- - - - - -距离)[15),8.5(双氨基酸)9),和一个严格的截止值的79,10,15,21- - - - - -23)基于代表氨基酸被发现原子可能会引入偏差低于6.8所规定的(23]。
所有这些选择策略是更合理?研究已经找到答案。三个模型比较来证明侧链的各向异性性质的影响氨基酸的识别接触对(26]。本研究的主要目的是探索复杂网络的贡献及其不同的顶点和边的定义来描述蛋白质的结构。自动分解的蛋白质结构域仍然是一个具有挑战性的问题(27),提出了计算机算法和数字(27- - - - - -30.]。由于域可以被认为是半独立结构单元能够独立折叠的蛋白质(31日,32),因此,蛋白质域的识别是一种有效的方式来呈现一个方法是否能描述蛋白质结构。此外,残留在这些结构单元密度之间的关系,类似于复杂网络的社区之间的联系,表达这种网络的社会属性。为了便于理解这样的复杂系统,社区部门被用来分析这些氨基酸的相互作用网络。这种方法的目的是将网络的顶点分成组,其中顶点之间的连接是密集和稀疏的在同一时间之间的联系(33]。此外,大量的基于社区的方法在许多领域已发表(34- - - - - -39]。
在这项研究中,蛋白质结构是由复杂的网络,一个顶点的残渣和边缘残留之间是一种互动。在这里,不同的截止值和策略用于定义一个顶点进行测试。2847蛋白质域/域的数据集,识别性能本研究评估的准确性(Acc),它被定义为氨基酸的比例正确识别特定域地区查询序列根据信息的蛋白质结构在吟游诗人40]。例如,假设域查询的地区有100个氨基酸序列;如果90是正确认定为属于域区域而另10被误判为序列区域,那么Acc将90%。观察到当社区划分方法是基于边介数、Acc ()稳定在~ 86%时5.0 - -7.5左右,Acc ()达到了86.68%的最高价值是5.0。此外,当社区划分方法是基于随机漫步,Acc ()~ 81%时6.5 - -7.5左右,Acc ()达到了81.87%的最高价值为7.0 A和步长为10。识别性能证明了最优截断值构建蛋白质结构网络是5.0 (- - - - - -距离),而理想的社区除法群落结构检测是基于边缘中间性。结果表明,氨基酸的相互作用网络是一种有效的方法来描述蛋白质的结构,和不同的顶点和边的定义在这一过程中有重要作用。
2。材料和方法
2.1。数据收集和数据集建设
本研究在蛋白质域的信息收集从星体吟游诗人401.75版本的数据库。蛋白质域在吟游诗人分为种类和等级分为家庭,总科,折叠和类41]。这个数据库组织蛋白质等级根据他们的家庭和折叠,这通常被认为是蛋白质结构分类的标准(42]。为了确保数据的非冗余性,只有这些蛋白质成对序列身份≤30%的人下载,和只有那些结构解决了x射线结晶学与分辨率≤2.5保持清晰的结构的蛋白质。最后,剩下的2847个蛋白质留给这个研究。数据集的成分表中列出1。
2.2。蛋白质结构网络
蛋白质结构可以表示成复杂网络中氨基酸的边缘节点和它们的相互作用[43]。在这项研究中,每个蛋白质被认为是一种小型独立的网络系统。蛋白质的结构变成了一个复杂的网络以氨基酸残基为顶点和边的氨基酸残基之间的相互作用。各种蛋白质结构网络构建研究蛋白质结构和不同的策略构建的影响。
这里,边中定义的三种方法,最终选择最优截断值。两个氨基酸残基连接(a)之间的距离(定义为0.5)是3 - 10(步长,15个不同的数值);(b)之间的距离的侧链(定义为中心0.5)是3 - 10(步长,15个不同的数值);(c)任何原子的氨基酸残基之间的距离(定义为6)是一个(步长0.5,13个不同的数值)。原子的半径被考虑。中定义的氨基酸残基相互作用网络研究是如图1,3 d结构截然不同。
2.3。社区划分
网络分析工具是坚定地基于图论中的结果(44),包括网络社区结构起着重要的作用在组织和理解复杂的网络。网络社区被确认为密度组的网络,节点有一个更强的相互影响比其余的网络(35]。此外,残留密集在域之间的联系,表达社区属性的网络。基于这一特点,在这项研究中,社区划分方法被用来将整个序列划分为可能的域区域。两种不同的方法被使用:群落结构检测基于边缘中间性和社区结构通过短的随机漫步,和更理想的最终选择。
2.3.1。基于边缘中间性的群落结构检测
算法基于中间性已经广泛应用于各种类型的网络邮件等动物的社交网络,协作的爵士音乐家,代谢网络和基因网络(33,45- - - - - -49]。更多的详细描述这个方法,请参考文件(45,50]。群落结构检测的原理基于边缘中间性,似乎所有的最短路径从一个模块到另一个必须遍历边缘连接单独的模块,它有很高的边缘中间性。
执行结果,该算法通过计算边缘图的中间状态和删除边边介数最高的分数逐渐为了获得一个层次映射。这个根树的系统树图是图,树叶是单个顶点,根代表整个图。最后,构造一个数字矩阵使用这个算法。
2.3.2。群落结构通过短的随机漫步
基于随机漫步算法已经应用于各种网络研究(50,51]。这个算法试图找到密集连接图的子图,也被称为社区通过短的随机漫步。该算法的原理是短的随机漫步可能呆在同一个社区。需要每一个节点作为一个独立的社区,那么这些其中符合一定的规则逐步合并在一起。介绍了作为一个顶点之间的距离,小如果两个顶点在同一个社区,如果他们不是很大。
3所示。结果与讨论
3.1。基于边缘中间性的社会分工
在本节中,基于边缘中间性的社区划分方法应用于复杂网络的影响,不同的截止值的边缘构造复杂网络进行了分析。然后,一个优化的截断值被确认。这两个步骤的流程图,氨基酸一起互动网络社区划分方法,如图2。
(一)
(b)
(c)
(d)
(e)
公平的对比,分析了复杂网络由不同的截止值由社区划分方法,确保最优的结果。为了获得最佳的预测性能,基于多畴的蛋白质不同的截止值进行评估。15个不同的值(3 - 10)和(0.5的步长)进行了优化,分别,所以其他13个不同的距离值(0 - 6)(步骤0.5)的大小。
首先,阈值7,据报道,距离是一个重要的参数,因为所有的联系人是完整和合法的(不是阻挡)在这个距离23),进行了分析。社区划分后的结果。识别性能的研究是评估的准确性,这被定义为氨基酸的比例正确识别域特定区域的查询序列。当和分别是7,结果分别为86.21%和85.16%。
更多的截止值测试通过不同策略的顶点。首先,定义的所有蛋白质的平均精度被列在表2。结果表明,当方法是基于边介数、Acc ()最高达到了86.68%是5.0。当5.0 - -7.5左右,精度是86%左右,在这方面的偏差数值很小(~ 1%)。这说明这个地区截止值反映了蛋白质结构。第二,定义的所有蛋白质的平均精度被列在表3。结果表明,Acc ()最高达到了85.52%是7.5。当6.5 - -8.0左右,Acc (显示相对理想值在85%左右,这说明截止值在这个领域反映蛋白质结构。然而,偏差的数值明显的数值。Acc ()低于10%3.0 - -4.5左右,这是由侧链的大小的差异性。第三,定义的所有蛋白质的平均精度被列在表4。结果表明,当任何原子的氨基酸残基之间的距离定义为考虑,原子的体积的多样性的优越性也应考虑。Acc ()达到了85.59%的最高价值是1.5。当0.0 - -2.0左右,Acc (显示相对理想值在85%左右,在这方面的偏差数值很小(~ 0.6%)。截止值大于2.0时,Acc ()减少单调增加了。也就是说,超大的会导致不正确的识别氨基酸之间的相互作用,从而扭曲了真正的蛋白质结构。
观察到当社区划分方法是基于边介数、Acc ()稳定在~ 86%,这说明蛋白质结构的网络特性不会受到它的类型。此外,Acc ()~ 1%低于Acc (),它是由截断值生成。即氨基酸的侧链有一定的空间体积,和一个大截断值表示原子的空间重叠从不同的氨基酸,这对于蛋白质结构显然是不合适的。总之,Acc ()低于Acc ()和Acc (),这说明氨基酸的侧链的空间特异性影响氨基酸复杂网络的建设。这是观察到的最高精度为86.68%(获得一个)。最优截断值是5.0 (- - - - - -距离)当理想的社区划分方法是基于边缘中间性。
3.2。基于随机漫步的社会分工
在本节中,基于随机漫步的社区划分方法进行了分析。这里相同的截止值进行评估基于多畴的蛋白质,也就是15个不同的数值(3 - 10)和(步长为0.5)和其他13种不同的数值(0 - 6)(使用一个步长为0.5)。此外,社区的步骤大小部门基于随机漫步也进行了优化。
首先,7阈值(23所有的蛋白质)进行了分析。当和分别是7,结果列在表吗5。
观察到当社区划分方法是基于随机漫步的阈下通过不同的步骤大小7 A, Acc(最高)和Acc ()分别为81.93%和80.70%,分别。它们的数值都是~边介数低于4%,这是方法本身产生的。即基于随机漫步算法试图找到一个给定的长度称为步长,这对大小不同的领域显然是不合适的。在大域,短的长度不会项目在同一个社区的所有氨基酸。
更多的截止值测试通过不同策略的顶点。首先,定义的所有蛋白质的平均精度被列在表6。结果表明,Acc ()最高达到了81.87%为7.0 A和步长为10。当6.5 - -7.5左右,精度是81%左右,在这方面的偏差数值很小(~ 1%)。这说明这个地区截止值反映了蛋白质结构。然而,Acc的数字()~ 5%低于边介数。第二,定义的所有蛋白质的平均精度被列在表7。结果表明,Acc ()达到了80.77%的最高价值为8.0 A和步长为10。当7.0 - -8.5左右,Acc (显示相对理想值在80%左右,这说明截止值在这个领域反映蛋白质结构。然而,偏差的数值明显的数值,生成的侧链的差异性。Acc的数字()~ 5%低于边介数,和Acc (低至0%5约3.0,可能产生松动的复杂网络构建在这些阈值。第三,所有的蛋白质的平均accuracifes定义的被列在表8。结果表明,当任何原子的氨基酸残基之间的距离定义为考虑,原子的体积的多样性的优越性也应考虑。Acc ()达到了80.82%的最高价值为1.0 A和步长为10。当0.0 - -2.5左右,Acc (显示相对理想值在80%左右,在这方面的偏差数值很小(~ 1%)。然而,Acc的数字(边介数低于5%。
总之,Acc ()低于Acc ()和Acc ()。观察到当社区划分方法是基于随机漫步,精度的数值低于基于边缘的中间状态,这表明,理想的社区划分方法研究是基于边缘中间性的群落结构检测。此外,Acc的价值()是通过最严重的两个社区划分方法。类似的结果在研究侧链接触模型;三个模型比较和各向同性球侧链(ISS)模型是最严重的准确性。他们证明了模型,把侧链的空间各向异性性质考虑可以消除95%的不正确计算接触对在国际空间站模型(26]。然而,这种实用模型有温和的计算成本低于等受欢迎的表示模型的使用原子,被证明是有效的在这个研究的数据。
3.3。的稳定性分析方法
8数据集验证稳定性的方法,建立了基于多畴的蛋白质。100年的第一个数据集是由蛋白质,蛋白质和其他数据集包含100多。也就是说,8日数据集包含了800个蛋白。
相同的操作是基于这些8数据集。不同的数值(3 - 10),(3 - 10)(6)基于两个社区划分方法进行了优化。精度最高的为每个数据集都列在表中9和10。
观察到当社区划分方法是基于边介数、Acc ()为每个数据库得到了最高的结果约-89% ~ 86%-5.50 ~ 5.00,结果非常接近86.68%是5.00。然而,结果数据库一个有点不同,84.67%是7.00,它可能缺乏统计学意义的结果产生的少量的蛋白质。Acc ()为每个数据库得到了最高的结果约-86% ~ 85%是7.50,结果非常接近85.52%时是7.50。然而,结果数据库一个有点不同,82.51%是6.50,它可能缺乏统计学意义的结果产生的少量的蛋白质。Acc ()为每个数据库得到了最高的结果约-87% ~ 82%1.50 ~ 0.50−,结果非常接近85.59%是1.50。
当社区划分方法是基于随机漫步,Acc ()为每个数据库得到了最高的结果约-85% ~ 81%-7.50 ~ 7.00,步长为10,结果非常接近81.87%什么时候为7.0 A和步长为10。Acc ()为每个数据库得到了最高的结果约-84% ~ 80%是7.00 - -8.00,结果非常接近80.77%时为8.0 A和步长为10。Acc ()为每个数据库得到了最高的结果约-84% ~ 80%-1.50 ~ 0.50,步长为10,结果非常接近80.82%什么时候为1.00 A和步长为10。然而,结果数据库一个有点不同的这三个条件下,这可能是缺乏统计学意义的结果产生的少量的蛋白质。
观察的结果,复杂网络的社区划分方法构建在本研究中是稳定的,这证明了研究的可信性。另一方面,观察到当社区划分方法是基于边介数、Acc ()稳定在~ 86%时5.0 - -7.5左右,为构建蛋白质结构网络最优截断值为5.0 (- - - - - -距离)在这项研究。
4所示。结论
本研究的主要目的是探索复杂网络的贡献及其不同的顶点和边的定义来描述蛋白质的结构。运用我们的方法在2847蛋白质域/域的数据集,这是观察到当社区划分方法是基于随机漫步,精度的数值低于基于边缘的中间状态,这表明,理想的社区划分方法研究是基于边缘中间性的群落结构检测。当社区划分方法是基于边介数、Acc ()稳定在~ 86%时5.0 - -7.5左右,Acc ()达到了86.68%的最高价值是5.0。识别性能证明了最优截断值构建蛋白质结构网络是5.0 (Cα- cα距离),而理想的社区除法群落结构检测是基于边缘中间性。结果表明,氨基酸的相互作用网络是一种有效的方法来描述蛋白质的结构,和不同的顶点和边的定义在这一过程中有重要作用。距离应该考虑以防止不必要的偏差。此外,进一步优化网络模型可以应用于未来研究蛋白质域预测的数量和位置。
确认
作者要感谢匿名评论者的病人评估和建设性的建议。本研究支持由中国自然科学基金会(21175095,21175095)。