文摘

蛋白复合物发挥重要作用在理解生物过程和细胞的功能机制。大多数现有的蛋白质复杂的检测算法不能反映动态的蛋白质复合物。在这篇文章中,一个新颖的算法改进的布谷鸟搜索聚类(ICSC)算法来检测蛋白质复合物在加权动态(PPI)蛋白质间交互作用的网络。首先,我们构造加权动态PPI网络和检测蛋白质复合体在每个动态核心子网。然后,ICSC算法用于集群核心蛋白附件。两个倾角数据集上的实验结果和Krogan数据表明,ICSC的算法比其他竞争更有效地识别蛋白复合物的方法。

1。介绍

蛋白质是细胞生命不可或缺的。生物功能的细胞是由蛋白复合物而不是单一的蛋白质(1]。检测这些蛋白复合物可以帮助预测蛋白质功能和解释生物过程,具有重要意义在生物学、病理学、和蛋白质组学2]。因此,蛋白质复合物的研究已成为最重要的课题之一。许多实验方法结合计算策略提出了预测和识别蛋白复合物,如亲和纯化和质谱(3- - - - - -5]。然而,他们是昂贵和难以捕获蛋白复合物瞬时和动态变化6]。

高通量技术产生大量的蛋白质交互(PPI)数据,基因表达数据,和蛋白质结构数据,这使学者能够找到蛋白复合物基于PPI网络的拓扑特性和结构信息的蛋白质(7]。巴德和霍格提出MCODE [8)方法检测蛋白复合物基于PPI网络的连通性和密度的蛋白质。刘等人。9)提出了一个名为CMC识别蛋白复合物的方法基于最大派系。蛋白复合物集成多个基因产物执行细胞功能和可能重叠。Nepusz et al。10)开发了一种聚类算法ClusterONE检测重叠的蛋白复合物。Gavin et al。11)指出,有两种类型的蛋白质复合物:核心组件和附件(11]。根据种核心的依恋感蛋白复合物的结构,梁等。12)设计的核心算法,计算了 检测核心价值。吴et al。13)提出了教练算法检测稠密子图的核心组件。质子泵抑制剂的生物过程是动态的、随时间变化(14]。因此,有必要将蛋白质复合物的研究从静态PPI网络PPI网络的动态特性(15]。王等人构建动态PPI网络基于时间序列基因表达数据检测蛋白复合物(16]。张等人提出的方案(17)算法通过构造本体由PPI网络基于注释信息。马尔可夫等经典聚类算法聚类(制程)18和模糊聚类19,20.)也发展到检测蛋白复合物。

然而,随着生物仿真技术的诞生,bioinspired算法提供了一个新的视角为解决蛋白质复杂的检测问题[21]。2016年,雷等人提议F-MCL [22基于马尔可夫聚类的聚类模型和萤火虫算法通过引入萤火虫算法自动调整参数。在同年,雷等人提出恰城对妇女实施(6)聚类模型是基于果蝇觅食行为和蛋白质复合物的结构种核心的依恋感。先前的研究证明,复杂的蛋白质检测方法基于bioinspired算法显示一个相对更好的性能。

布谷鸟搜索算法(CS)是一种新的智能优化算法已成功应用于全局优化问题,集群、和其他领域21]。在这项研究中,根据种核心的依恋感的结构蛋白复合物和CS机制,一种新的聚类方法命名为改善布谷鸟搜索聚类(ICSC)算法来检测蛋白质复合物在加权动态PPI网络的对应关系建立了CS算法和聚类过程的PPI数据。

2。方法

2.1。构建加权动态PPI网络

高通量实验产生的静态PPI网络数据通常包含一个高速率的假阳性和假阴性的相互作用[9),这使得它不准确预测蛋白复合物,无法反映真实的动态变化的质子泵抑制剂细胞。为了解决这个问题,一些学者利用计算方法评价的交互(23]。另一方面,蛋白质的动态信息,如基因表达数据,亚细胞定位数据和转录监管数据集成的质子泵抑制剂的动力学(24- - - - - -26]。唐et al。27建造时间课程PPI网络(TC-PIN)通过使用基因表达数据在三个连续的代谢周期。基因的表达值与single-threshold来确定一个基因是否表达。一些基本的基因被过滤掉的single-threshold低表达水平。王等人。28)开发了一个西格玛方法定义一个活跃的阈值为每个基因,然后构造动态PPI网络(DPIN)通过使用活性蛋白质基于静态PPI网络结合基因表达数据。先前的许多研究表明,西格玛原则有更好的预测性能。在这项研究中,我们使用构建DPIN西格玛原则。基因表达数据包括三个连续的代谢周期;每个周期都有12个时间戳,所以DIPN包括12个子网。

一种蛋白质 被认为是活跃在一个动态的PPI子网只有在其基因表达值大于或等于活跃阈值 (28]: 在哪里 是蛋白质的基因表达值的算法的意思是 在时间戳1 其基因表达值的标准偏差。 定义如下:

一个静态的PPI网络通常被描述为一个无向图 它包含一组节点 和一组边缘 的节点 代表了蛋白质和边缘 代表对蛋白质之间的联系 在时间戳来标示的动态PPI子网吗 ( )。蛋白质 与蛋白质相互作用 在动态PPI子网 只有在活跃在相同的时间戳 和相互联系的静态PPI网络。

如图1西格玛原则应用于计算活动的阈值 为每个蛋白质和确定活动时间戳。之后,12动态子网。

聚类系数被用作有效的工具来分析PPI网络的拓扑结构(29日]。Radicchi等人提出了边聚类系数(ECC) (30.]。在PPI网络,ECC的边缘连接蛋白质 可以表示如下: 在哪里 是三角形的数量建立在边缘( ); 度的蛋白质 ,分别。边聚类系数是一个局部变量,描述两种蛋白质的亲密

皮尔森相关系数(PCC)计算评价多强两个相互作用的蛋白质coexpressed [31日]。新闻申诉委员会的一对基因的价值 蛋白质编码对应的配对 在PPI网络互动,被定义为 在哪里 是基因表达蛋白的价值意味着什么 ,分别。PCC的价值范围从−1比1;如果 是一个积极的价值,蛋白质之间有正相关关系

蛋白质的蛋白质复合体是一组显示高coexpression模式和共享程度的功能相似,所以我们GO-slims数据集成的角度蛋白质功能。如果两个相互作用的蛋白质 有一些常见的术语,其功能更相似。让 表示这种关系可以计算如下: 在哪里 代表的数量条款的蛋白质 ,分别。在动态PPI子网 ,蛋白质之间的重量 定义如下:

到目前为止,加权动态PPI网络构建。

2.2。布谷鸟搜索算法

CS算法是一种新型bioinspired metaheuristic优化算法提出了200932),这是基于一些杜鹃种类的义务群寄生行为结合利维飞行行为。

在繁殖期间,某些种类的杜鹃将卵产在主机的巢穴。杜鹃通常寻找主机鸟类也有类似的潜伏期和繁殖期。此外,他们的鸡蛋是在许多方面相似的颜色,形状,大小和叶痕。布谷鸟飞行策略演示了利维航班的典型特征。利维航班组成序列随机导向的直线运动。实际上,频繁发生的策略,但相对较短的直线运动,以及随机交变偶尔发生时间运动,可以最大化资源搜索效率33]。

具体地说,杜鹃 当生成新的解决方案 ,征税的飞行是由使用以下方程: 在哪里 是应该的步长与利益问题的尺度有关。在大多数情况下,我们可以使用 ; 意味着阿达玛产品运营商。利维飞行是一种随机游走具有幂律分布步长与沉重的尾巴和的值 在1和3之间。

2.3。ICSC算法

我们调查了在加权动态检测蛋白复合物PPI网络通过使用改进的CS算法。已经被广泛接受,蛋白复合物种核心的依恋感的组织结构。

核心是一个很小的子图与高密度PPI网络。如图2(一)、四个高度连通子图构成核心,用core1,嵌件,core3,core4(红色虚线圆轮蛋白质)。几个外围连接蛋白质节点附件(蓝色平方蛋白质)在这个PPI网络。蓝色的方形蛋白质和黑钻石蛋白质是所有非核心蛋白质。

在ICSC的算法中,每个杜鹃被视为非核心蛋白(标有黑色圆图2(b)),鸟巢被视为核心蛋白(标有黑色圆圈图2(b)),而杜鹃人口作为一个整体来标示的聚类结果。非核心蛋白成为附件如果一只布谷鸟找到一个适当的巢产卵。图2说明了相应的调查之间的关系算法和PPI网络的聚类过程。算法1表明该算法ICSC的功能。ICSC方法运行三个阶段。在第一步中,一些稠密子图被选为最初的巢穴。杜鹃的生成是基于这些巢穴。持续改进的布谷鸟搜索策略应用于生成蛋白复合物。复合体在不同动态子网可能有高水平的相似性,因此细化过程应用于为了过滤冗余并生成最终的组蛋白复合物。

输入。加权PPI子: , ;
输出。检测蛋白复合物:
开始
( )每一个
( )初始化:( )最大迭代:麦克斯特;布谷鸟种群的大小: ;
( )( )重量阈值: ;
( )( )最初的巢 :每一个
( )如果 然后插入( ) 如果
( )结束了
( )合并操作;
( )( 初步解决方案 : , ;
( )
( )
( 代杜鹃 :每个 ,如果 然后插入 如果
( )每一个
( )每一个
( )计算 ;
( )如果 然后
( 轮盘赌选择) ,设置 ;
( )计算目标函数 ;
( )如果 然后
( )插入 ;
( )如果
( )如果
( )结束了
( )结束了
( )计算目标函数
( )结束了
( )找到最大的目标函数 , ;
( )找到最好的解决方案 , ;
( )结束时
( ) ;
( )结束了
( )
( )优化过程;
结束

“最初的巢”子函数(算法1)试图生成最初的巢穴。最初的巢可以被视为核心为每个蛋白质复杂的蛋白质。动态PPI子网的重量 考虑了PCC, ECC和GSM,所以体重阈值加盖可以用来找到一些蛋白质对具有高度功能相似,coexpression高。为 ,如果重量 大于 搭配的,节点对( )是表示作为一个初始巢, 的平均体重吗 。蛋白质复杂的核心往往对应于小,密度,在PPI网络和可靠的子图,但节点对可能互相重叠。所以节点聚类系数(NCC)被用来过滤掉重叠的巢穴,定义如下: 在哪里 节点的程度吗 , 连接链接的数量吗 节点的邻居v的相互关系。因为PPI网络有大量的节点和边,许多节点可能有相同的节点聚类系数的价值。在这项研究中,加权节点聚类系数(WNCC)定义区分动态PPI网络中节点的重要性。两个初始巢( )和( ),如果 它们合并成( )。节点的WNCC 被定义为 我们边的重量吗 ; 在NCC相同的含义。

巢检测在前面的步骤后,鸟巢是固定的。是时候找到杜鹃在巢。在 ,如果蛋白质 不是在任何巢,它表示为一个布谷鸟吗

“杜鹃” 周围,有许多“巢穴”“杜鹃”;“杜鹃”和“鸟巢”之间的相似性测量基于之间的亲密关系 ,定义如下: 在哪里 所有吗 的邻居, 顶点的数量吗 , 顶点的数量吗 。为了保持种群的多样性,轮盘赌选择使用。对于一个 ,如果 , 轮盘赌选择构造。

目标函数 定义如下: 在哪里 是一个聚类的结果由一窝; 代表一个集群。 集群中边的数量吗 ; 集群中的节点的数量吗 一个节点的边的数量吗 外,另一个节点 。最后,相同或高度重叠的蛋白复合物是过滤掉。

2.4。ICSC算法的时间复杂度分析

时间复杂度是用来估计ICSC算法的效率。最大迭代麦克斯特是外部循环;每次迭代产生np方案。为了生成解决方案,主要有三个操作,生成布谷鸟,计算距离,计算目标函数。让nv的蛋白质Gt和不被交互的数量 。生成杜鹃的时间复杂度O(nv)。计算的时间复杂度亲密 ,数控是杜鹃的数量;神经网络是窝的数量。计算目标函数的时间复杂度 。总之,ICSC的算法的时间复杂度 ,相当于

3所示。实验和结果

提出的算法在Matlab中实现调查R2015b和四核处理器上执行3.30 GHz电脑8 G RAM。

3.1。实验数据集

在这项研究中,四PPI数据下降34(20160114版),Krogan et al。35],MIPS [36,加文等。11)被用来评估我们的算法。所有的数据都使用酿酒酵母假阳性和假阴性的交互的数据集。在这项研究中,self-interactions和重复的相互作用是删除数据预处理。预处理后,5028年的倾角数据集包含蛋白质和22302交互,Krogan数据集包含2674蛋白质和7075交互,MIPS数据集包含4546蛋白质和12319互动,和加文数据集包含1430蛋白质和6531的交互。

基因表达数据从GEO检索(基因表达综合GSE3431) [37]。预处理后,数据集包含了7074个基因在3细胞生命周期,每个周期都有12个时间点。GSE3431数据集包含了4876个蛋白下降数据集(覆盖率:4876/5028 = 96.98%),2644蛋白质Krogan数据集(覆盖率:2644/2674 = 98.88%),蛋白质4446 MIPS数据集(覆盖率:4446/4546 = 97.80%),和1418年蛋白质加文数据集(覆盖率:1418/1430 = 99.16%)。

最全面的数据库目前一个本体在生物信息学数据库。GO-slims数据精简版的版本去本体(17),这是可用的http://www.yeastgenome.org/download-data/curation。GO-slim数据提供术语去解释基因产物功能的生物过程(BP),分子功能(MF)和细胞组件(CC)。我们使用GO-slims注释PPI数据。

标准的蛋白质复合体CYC2008 [38)是用来评估我们的聚类结果,其中包括408个蛋白质复合物和占地1492蛋白质。

在这项研究中,西格玛原则是用于构造动态PPI网络基于四个静态PPI网络(SPIN)下降,Krogan, MIPS,加文结合GSE3431基因表达数据集。在GSE3431有12每周期时间戳,所以每个动态PPI网络包含12个子网,如表所示1。这12个子网有不同的大小。

3.2。评价指标

三个常用指标灵敏度(SN),特异性(SP)和F-measure(8,25,39)是用来测量的效率提出算法和聚类的性能评估调查结果: TP是预测蛋白复合物的数量与408标准蛋白复合物,FP是预测蛋白复合物的数量不匹配与任何人408标准蛋白复合物,和FN的数量不匹配的标准蛋白复合物与预测蛋白复合物(8,25]。重叠的评分系统是用来评估预测蛋白复合物之间的匹配程度和标准蛋白复合物: 在哪里 表示节点集预测蛋白质复杂的pc和标准蛋白质复杂的sc,分别。操作系统的阈值设置为0.2 (8,40];如果操作系统(pc, sc)大于0.2,预测蛋白质复杂的电脑被认为是与标准蛋白质复杂的sc。操作系统(pc, sc) = 1表明,预测蛋白质复杂的电脑是完全与标准蛋白质复杂的sc。 值(41),这说明了蛋白质复合体的概率由给定的官能团丰富,被用来评估预测蛋白复合物的生物学意义本研究: 在哪里N,C,F整个PPI网络的大小,蛋白质复杂,网络中的官能团,分别和 是蛋白质的数量在蛋白质复合体的官能团(41]。为蛋白质复杂,越小 值越高的生物意义。复杂的蛋白质被认为是无关紧要的 值大于0.01。

3.3。参数分析

该算法有三个参数,调查的最大迭代麦克斯特np,布谷鸟种群的大小,重量阈值搭配。最大迭代次数麦克斯特衡量算法的收敛性能,人口的规模np可以保证种群的多样性。ICSC算法的收敛曲线的第一个子网动态PPI网络如图3。横轴是迭代的数量,纵轴是目标函数的值。图3说明ICSC 30迭代算法是收敛的。种群的大小np从5到30;目标函数达到最大值 。在这项研究中,我们设置 ,

在调查方法中, 选择最合适的 形成蛋白质复合体;的质量 直接决定了蛋白复合物的准确性,和体重的值阈值以直接影响质量的巢。如果搭配的值太小,选择少量的蛋白质对巢;聚类结果并不准确。相反,如果搭配的价值太大,很多毫无意义的蛋白复合物预计。因此,选择适当的搭配的价值是至关重要的。定义匹配率(先生)来验证不同的搭配的值的影响。巢是初始的设置动态PPI网络的巢穴;SC是一组标准的蛋白质复合物CYC2008先生(鸟巢,SC)定义如下: 倪在哪里的巢穴都包含在标准的蛋白复合物, 表示的巢窝,如果是标准的数量包括在巢蛋白复合物,和 表示数量的蛋白质复合物在SC。实验四个动态PPI网络加盖从0.2到1.2的影响进行了验证参数搭配的结果显示在图4。从图4Krogan和加文数据集,先生倾向于稳定而以大于或等于0.8。在倾角数据集达到最大值先生加盖= 0.6,然后逐渐下降,下降的趋势是在0.6至0.8之间。曲线先生在MIPS数据集类似于倾斜。因此,加盖的值设置为0.8。

3.4。聚类结果

ICSC的性能比较与其他六个以前提出的方法:MCODE,制程,核心,全封闭,ClusterONE,教练。所有的六个方法都运行在动态PPI网络由西格玛原理基于倾斜,Krogan, MIPS,加文的数据集。聚类结果如表所示2,电脑的总数预测蛋白复合物,MPC是预测蛋白复合物的数匹配,和MSC是匹配的数量标准蛋白复合物。完美的统计预测蛋白复合物和标准复合物完全匹配;也就是说,操作系统(pc, sc) = 1。为代表的平均规模预测蛋白复合物。比较结果也显示在表中2,很明显,执行调查比其他六个方法灵敏度(SN)和MPC。的 ICSC的测量是最高的在下降,Krogan, MIPS在加文 测量的黄金比ClusterONE少一点。ICSC的完美价值下降和MIPS和50 64人,分别远优于其他算法。

在表2,完美的黄金的价值在下降是64。相互般配的蛋白复合物的度分布计算表3。的学位指蛋白质节点中包含复杂的数量。有408个标准蛋白复合物蛋白复合物CYC2008;172复合物含有2蛋白质节点占42.16%。然而,MCODE,全封闭,教练无法预测这个蛋白复合物的一部分。149蛋白复合物的程度大于或等于4占所有的36.52%标准蛋白复合物,只有一小部分可预测的制程,核心,ClusterONE。很明显,ICSC算法在这两个方面达到最佳性能。

为了清楚地表明聚类结果,我们想象265标准蛋白质复合体CYC2008“核外来体复杂”图5。如图5(一个),这个标准中有12个蛋白质蛋白质复杂。其他五个方法的聚类结果MCODE (b),恢复期(c),核心(d), ClusterONE (e)和黄金(f)都从Krogan数据集。蓝色节点正确预测的蛋白质,红色节点是蛋白质,不确定,和绿色节点识别的蛋白质是错误的。MCODE方法只成功地预测了六个蛋白质。虽然制程成功地预测了所有12个蛋白质蛋白质复合体,制程也产生了3个不正确的蛋白质。核心的准确性是最低的;只有2蛋白质是成功地预测。我们的方法准确地预测调查9蛋白质和实现最佳性能识别蛋白复合物。

评价的生物学意义和功能性浓缩蛋白复合物被ICSI,我们随机选择5个预测蛋白质复合物和计算 生物过程的价值本体基于Krogan数据集通过使用:termFinder (http://www.yeastgenome.org/cgi-bin/GO/goTermFinder.pl)。结果显示在表中4。大胆的蛋白质与标准蛋白复合物。从表4,很明显,四个蛋白复合物有更大的操作系统和较低的值 值,这说明ICSC算法是有效的,并且这些蛋白质复合物是可靠的和生物学意义。

4所示。结论

蛋白复合物参与多个生物过程,因此检测的蛋白质复合物对理解细胞机制至关重要。有许多方法来识别蛋白复合物,但不能反映动态的蛋白质复合物。在这项研究中,我们提出了一种新颖的蛋白质复杂的识别方法isc根据种核心的依恋感蛋白复合物的结构。首先,构造加权动态PPI网络于一体的基因表达数据和条款信息。然后,我们发现功能核心和集群蛋白质附件基于CS算法。与其他竞争聚类方法相比,黄金可以有效地识别蛋白复合物,具有较高的精密度和准确度。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本文由中国国家自然科学基金(61672334,61672334,61401263)和陕西省科技工业研究项目(2015 gy016)。