文摘
在过去的几年里,基因网络已成为最重要的一个模型生物过程的工具。其他实用程序,这些网络可视化显示生物基因之间的关系。然而,由于目前的大量生成的基因数据,它们的大小已经被无法控制的地步。为了解决这个问题,可以使用计算方法、启发式方法等方法,来分析和优化基因网络的结构由修剪无关的关系。在本文中,我们提出一个新的方法,称为GeSOp,优化大型基因网络结构。能够执行一个方法大大删除无关的关系组成的网络的输入。要做到这一点,方法是基于贪婪启发式获得最相关的子网。我们的方法的性能测试通过两个实验对基因网络获得不同的生物体。第一个实验表明GeSOp不仅可以实现显著减少网络的大小,但也保持生物信息比率。在第二个实验中,能够提高网络的生物指标检查。 Hence, the results presented show that GeSOp is a reliable method to optimize and improve the structure of large gene networks.
1。背景
系统生物学中最重要的一个挑战是了解个人生物组件的行为和交互的上下文中大型和复杂的系统(1]。这些知识提供了机会和/或控制优化生物过程的不同部分在整个系统产生特定的效果。因此,这个系统视图可能导致新的应用在生物技术和医学等领域(2]。特别是高过去年生成的数据量允许DNA之间的关系的推理,RNA,蛋白质,和其它细胞成分。这些交互的和导致各种类型的交互网络(包括蛋白质相互作用、代谢、信号和transcription-regulatory网络)叫做基因网络为了简单起见。
基因网络通常从基因表达数据推断,已广泛用于基因关系模型在生物过程(3]。在过去的十年中,许多计算方法提出了基因网络的逆向工程(4]。然而,持续的高通量技术的进步使进行大规模分析的DNA和RNA水平一样的蛋白质和代谢物水平。结果,数据来源的基因网络的规模增加,复杂性和多样性(2]。因此,产生了一个新的计算挑战。例如,一些方法已经过重新设计,以改善他们的表现在大规模数据集的处理(5]。其他研究工作都集中他们的努力整合不同来源的数据更准确的基因网络重建,如的工作6),时间从不同的扰动数据集实验同时考虑,或者在7),该模型集成不同类型的大数据来增加力量和网络推断的准确性。不同的推理算法结合重建公司和高品质的基因网络的大规模RNA-seq样本在8]。甚至其他的作品,比如[9),已知的基因网络施工方法适应高度并行执行使用分布式大规模计算资源。
由于这些新的研究,推断基因网络更复杂和更大。这个事实很难直观地发现有趣的节点之间的连接,即使分析工具创建了最近应用先进的统计数据和知识创新的可视化策略,以支持高效提取从基因网络10]。关于基因网络结构,一些证据,像那些从代谢和基因调控网络的分析,证明了大多数生物网络稀疏,无标度拓扑。也就是说,网络的节点度分布是一个幂律分布(11]。无标度网络是高度不均匀;也就是说,大多数的节点只有几个链接,一些节点有一个非常大量的链接,称为中心。中心网络中扮演着重要的角色在网络中是如何处理信息的,因为他们连接不同的高度相互关联的组节点(模块)可以代表不同的生物功能12]。如今,一代的基因网络的无标度拓扑困难是由于网络的规模和复杂性得到高质量的数据,所以基因网络结构的优化是当前一个重要的挑战。
在本文中,一种新的方法自动优化大型基因网络的拓扑结构。方法,称为基因网络结构优化(GeSOp),是一个落后的消除过程基于贪婪启发式方法执行删除输入的无关紧要的关系网络。通过这种新颖的方法,大型基因网络可以提高他们的拓扑特征而不失去他们的生物信息。
1.1。相关的工作
明确的结构优化方法研究网络模型并应用评分函数来评估结果解释了数据结构的程度,而惩罚模型的复杂性。对于这个目标,交互是添加和/或删除直到到达最好的分数。因此,启发式搜索算法是最常用的技术之一,因为探索所有可能的组合的交互是一个np难问题,特殊和非常大的复杂网络(2,13]。几个优化技术被开发出来。然而,他们通常是有限的高维度问题,以及大型网络所需的计算能力(14]。
一些研究使用进化技术工作。减少搜索空间大,精英选择方法通常用于遗传算法,确保算法不浪费时间重新发现的以前丢弃的部分解决方案。例如,在[15),一个随机的布尔网络进化到寻找一个准确的模型只是基于实验数据,之前没有考虑到的生物知识。其他研究工作使用其他方法来提高算法的性能,像[16),提出了一种可替换主体遗传算法重建大规模基因调控网络。该算法是基于模糊认知地图,包括有效的搜索运营商来减少搜索空间。
优化算法是基于一个目标函数,例如,错误最小化,可以导致过度学习,许多假阳性连接大型网络推理。例如,在[17),的推理问题基因是分解成 不同的回归问题,目标基因的表达水平是预测潜在的调控基因表达水平的利用残差平方和和皮尔逊相关系数。减少过度学习现象,一些作品使用多个目标函数之前和/或添加生物知识推断出一个精确的网络模型。例如,作者在18进口一些先天的监管信息提取从现有的出版物或生物基因网络网站,目的是提高网络的真实性。在给出的建议19)是第一个将功能关联的数据库。他们创建无向,confidence-weighted可能性矩阵通过成对信心得分从这些数据库和使用它来推断基因网络,提高其准确性。
其他作品集中精力寻找无标度特性。例如,在[20.),提出了一种新的提议将无标度拓扑结构考虑先验信息删除搜索空间推理过程。这种方式,搜索空间的遍历方法集成了所有预测集组合的探索,比如当有少量的组合,当执行一个浮动搜索,或者当组合变得过度的数量。
这个过程是遵循之前无尺度信息。在[21),基于无标度性质的信息之前也用来提高推理精度。Bayesian-based推理过程中,对无标度特性先验知识是用来评估的相对重要性的节点连接整个网络的特征。
可以观察到,大多数研究在文学作品中集成不同的网络结构优化策略推理过程。因此,这些优化措施取决于具体的输入数据和网络一代的任务。从这个意义上讲,我们所知,本文提出的新方法是第一个独立于网络的推理过程。结果,这个方法可以优化任何输入基因网络。
2。材料和方法
在这一节中,本文中使用的方法和不同的材料。首先,GeSOp方法优化大型基因网络结构详尽描述。其次,基因网络生成方法应用于实验将提出,随着输入数据集和生物数据库使用。
2.1。基因网络结构优化
GeSOp是大型基因网络拓扑优化的新方法。该方法使用无向网络的影响,因为他们代表了最高层次的抽象讨论的基因网络(3]。因此,我们的方法可以应用更多的网络因为几乎任何基因网络可以转化为一个非直接影响网络。
GeSOp的主要目标是将输入基因网络转换成一种更简单和更高效的网络在信息传递方面,保持生物意义(2]。对于这个目标,一个新的向后删除过程由两个不同的步骤了。最初,GeSOp使用greedy-based启发式策略删除原始网络并选择最相关的生态系统交互。然后,该方法寻找最连接节点(中心)合成网络和收益通过添加相关交互上一步调整。的一般模式的描述方法,以及一个玩具的例子,如图1。完整描述两个步骤和方法的伪代码在下面会详细进行介绍。
一步1:贪婪的最大相关性的道路。GeSOp使用greedy-based启发式算法的第一步执行删除输入网络,考虑到最相关的交互从生物学的观点(见图2)。为此,克鲁斯卡算法的修改图的最短路径问题了(22]。
特别是,我们的方法不选择节点之间的最短路径。相反,它选择最长的路径根据边缘的重量。因此,选择与最高水平的意义关系对边缘的重量为以后网络重建。
因此,修剪网络生成包含相同数量的基因(节点)与原始网络但仅保留最相关的关系。因此,这意味着一个大的边的数量减少,同时还取决于程度的原始网络的连通性,如图2。
一步2:添加缺失的关系。节中提到的1,中心已报告有特殊属性对其相邻节点的基因网络。因此,在第二个步骤中,执行修理网络的拓扑分析以识别网络的中心。对于这一目标,中心选为这些节点的连接度超过平均网络连接(12]。一个玩具例子是描绘在图3,节点“3”被确定为一个左边的中心网络。
中心鉴定后,阈值()将确定哪些关系的删除在步骤1中应该添加到中心。阈值是GeSOp算法的输入参数(参见算法1),它是由用户。在这个意义上,用户可以选择更适合的阈值问题进行了研究。因此,一个新的关系添加到最后如果超过网络 。这个过程在图表示3,两个修剪关系添加到网络中的枢纽节点在右边。
|
||||||||||||||||||||||||||||||||||||||||||||
最后网络生成后的每个中心修剪网络处理。
一般的伪代码描述的完整方法本文提出了算法1。
最后,GeSOp结合的复杂性的复杂性Step1 ()和步骤2 ()导致和平均情况的复杂性 在V和E代表输入的数量的基因和关系网络,分别。
2.2。输入数据集
在本节中,实验数据集用于输入基因网络的生成用于测试GeSOp实现显示。特别是,我们选择了两个不同的数据集从两个不同的生物有不同的特性。
酿酒酵母细胞周期的数据集。提出的第一个数据集使用的是首位et al。23),与著名的酵母细胞周期。这个微阵列描述了5521个基因的表达水平在样本酵母文化中,由三个独立的同步方法:因素被逮捕,淘洗,逮捕一名cdc15热敏突变。特别是,我们专注于由cdc15实验生成的数据。
智人单核苷酸多态性(SNP)数据集。为了证明我们提出的方法的有效性智人SNP,在两翼的工作等。24),也已被选中。这个数据集得到研究协会白介素28 b慢性丙型肝炎患者癌复发,和它包含约54616个基因的信息智人。
2.3。基因网络生成方法
在下面,用于提取基因网络的方法从上面的两个数据集提出。总的来说,三个网络为每个数据集生成。基因网络基于信息理论的一个最广泛使用的类型在文献[2)因为它们能够识别coexpression基因之间的关系。在这个意义上,我们选择了这种网络因为他们计算简单,允许大型数据集的拟合。特别是,三个标准衡量信息理论生成coexpression基因网络已经使用:斯皮尔曼的相关算法,肯德尔的等级相关算法(1,25),而对称的不确定性测量(苏)26,27]。
基因网络构建的计算提出了措施(肯德尔、斯皮尔曼和SU)基因的表达水平在每一对从输入数据集。如果测量的结果超过确定的阈值(这里)由用户选择,一个新的边缘添加到网络节点之间是由图表示4。
在我们的研究中,我们选择了低阈值, 为了获得过于依赖网络进行了讨论(3]。
2.4。生物数据库
本节的目的是目前生物数据库作为参考在实验部分。
特别是,我们选择了三个不同的数据库:(a) GeneMANIA数据库评估酵母和人类网络,(b)为酵母,YeastNet数据库和(c) HumanNet人类。
GeneMANIA(28)包含web应用程序的形式提供信息对生成基因的假设功能。预测服务器使用大量的功能性关联数据,包括蛋白质和基因相互作用、途径,coexpression, colocalization,蛋白质域的相似之处。信息存储在GeneMANIA在线免费。这些信息存储在生物体的结构分类,在相关基因(节点)(基因基因关系)如果至少一个这种关系存在的证据。
YeastNet提出了在(29日),是一种概率网络获得功能基因酵母提取的5794个蛋白编码基因酿酒酵母基因组数据库(30.]。这个网络结合蛋白质相互作用,protein-DNA交互,coexpression,系统保护,同时文献信息,总共占地102803 5483酵母的蛋白质之间的联系。
最后HumanNet提出了在(31日),是一种概率网络18714验证蛋白编码基因的功能基因智人。它由改进贝叶斯集成21从多个生物的“组学”数据类型。每个数据类型是加权根据它如何associates已知基因的生物功能智人。每个交互在HumanNet都有一个关联的对数似得分,利率的概率关系代表一个真正的功能两个基因之间的联系。
3所示。结果与讨论
该方法的性能进行了测试通过两个不同的实验。第一个实验的目的是证明网络处理我们的方法不失生物信息。为此,我们使用不同的网络,使用标准方法生成的文学,和不同的数据库(见部分2。3和2。4)。在第二个实验中,不同的网络的拓扑分析进行检查如何改进生物结构指标。
3.1。生物信息分析
这个实验的目的是展示网络如何处理我们的方法减少网络的大小,把生物信息比率。使用,为每个数据集,提出了一种比较,之间的大小和性能而言,最初的推断网络和那些由GeSOp优化。
3.1.1。绩效评估
优化网络的质量是由一个直接比较评估黄金标准,即生物数据库部分中给出2。2。计算质量措施,以下指标被定义为他们提出了(32]:(我)真正的阳性(TP):两个网络评估包含基因基因的关系。(2)假阳性(FP):输入网络包含一个关系,生物数据库中不存在。(3)真正的底片(TN):无论是在输入不存在的关系网络和生物数据库中。(iv)假阴性(FN):存在于生物的关系数据库,但不输入网络中。
一旦这些指标了,文献中使用的其他措施已选中率基因网络的质量(2,3),精度和回忆(2,33),定义如下。
3.1.2。酵母实验
就像之前提到的,在本节内,获得的结果由酵母细胞周期所产生的网络数据集。输入网络生成的使用 尽可能切断产生过于依赖网络了(3]。另一方面,GeSOp使用一个阈值 添加关系。我们选择这个阈值作为相关相关值也讨论(3]。
第一个分析表中给出1中,节点和边的原始网络的数量和优化的暴露。
表呈现不同的结果通过网络由以下方法:肯德尔,枪兵,苏。每个方法的第一列代表了原始输入网络(网络方法获得的数据集 )和第二个(“GeSOp”)最终的网络通过我们的方法。另一方面,表的行代表提出了网络的节点数量的数量(“节点”)和关系组成的网络(“边缘”),分别。最后,列“diff。%”代表输入的不同边的数量和最终的网络。
首先,值得一提的是,网络一代的方法呈现不同的结果相同的数据集。斯皮尔曼的方法是自的方法能够获得更大的网络找不到严格coexpression水平。另一方面,苏的方法是最严格的,这种技术是基于检测不仅嫡系的依赖,也是非线性的。最后,肯德尔的方法是比斯皮尔曼更严格的方法但比苏的更轻松。
关于网络的大小,结果表明,该网络优化GeSOp减少了它们的大小来 ,边数。注意,GeSOp保存的节点,就像前面描述的那样。这些结果代表大规模减少,这意味着最终的网络更简单和更友好的对人员的规模和可视化。
一旦被表明GeSOp能够实施减少基因网络的大小,同样重要的是,要检查这些优化网络保持生物信息,他们最初的比例控制。对于这个目标,表2和3提出了。,每一代的方法(即。,Kendall, Spearman, and SU), three columns are displayed. The columns “Input” represent the results for the input network, columns “GeSOp” represent the optimized networks generated by GeSOp. In addition, the results obtained by the networks computed only in step 1 of our method are presented in the “Pruned” columns. The rows “Precision” and “Recall” indicates the ratio of biological information of the networks according to the biological databases used.
结果表明,该网络的信息不受任何损失。相反,这些网络的精密测量的价值增加。例如,在肯德尔的情况下的网络YeastNet相比,从精度值来 ,这是一个重大的改进。这种行为也提出了斯皮尔曼和苏的网络,精确的值增加来 。
关于回忆,在所有的网络优化减少了我们的方法。这一事实是有道理的,因为回忆值为FN的数量成反比,这是存在于生物的关系数据库。因此,我们的方法减少网络天生的大小增加FN的数量。因此,数据库用于率网络越大,价值越低的召回,因为将会有更多的FN。
3.1.3。智人实验
在本节中,实验通过人类SNP的数据集。获得网络生成在前一节中使用相同的参数( 和 )。
分析进行不同人类网络的大小如表所示4。结果酵母网络遵循相同的模式。斯皮尔曼的方法提出了更大的网络,而苏小的礼物。
GeSOp能够大大减少网络的大小(例如,肯德尔的网络斯皮尔曼的),但苏的网络是非凡的。在这种情况下,减少 ,这是明显低于其余的病例。这个结果是一致的,苏的网络显著小于其他的研究网络,所以很难减少这个网络的大小而不丧失生物相关关系。由于这个结果,可以认为GeSOp性能更好与更大的基因网络含有虚假的关系。
生物验证不同的网络使用GeneMANIA和HumanNet数据库(见部分2。2更多细节)提出了表5和6,分别。
验证结果为酵母网络遵循相同的模式。精度值增加所有情况下除了苏的网络。正如上面所讨论的,很难修剪小型网络而不丧失相关的关系。即便如此,精度的损失价值很小HumanNet与GeneMANIA(0.04和0.01)。
总之,两个实验的结果显示GeSOp能够执行一个修剪过程在大型网络,通过减少他们的大小,同时保持生物信息的比例。以来我们的方法更加明显的相关性,讨论了在文献[14),优化通常意味着在大多数情况下的信息丢失。然而,对于几乎所有的情况下,分析网络的精度提高了GeSOp。
3.2。拓扑分析
在本节中,GeSOp的能力提高基因网络的拓扑结构进行了分析。
节中提到的一样1、生物网络通常遵循拓扑模式,尤其是无标度拓扑。网络的拓扑结构是至关重要的理解生物网络的体系结构和性能34]。因此,基因网络的计算方法应该提供这种类型的拓扑结构(3]。基于这样的假设,提出了一种拓扑分析的一些网络优化GeSOp在前一节中。目标是确定如果他们的拓扑指标得到了改进的无标度拓扑。
无标度网络结构只包含几个中心,在一些其他特性。最重要和最常用的无标度网络的拓扑特性提出了(35,36)如下:(我)特征路径长度(CPL):网络的CPL表示两个节点之间的最短路径长度,平均超过所有成对的节点组成的网络。高的路径长度表明线性链的网络。较低的值意味着更紧凑。无标度网络通常有一个伟大的CPL。(2)直径:一个网络的直径表示两个节点之间的最大距离。CPL的案例中,一个更大的直径网络表明它遵循生物模式。(3)聚类系数:对于一个节点,这个系数可以计算节点之间的链接的数量在其附近除以它们之间可能的联系。高网络聚类系数是另一种生物的存在关系的指标。(iv)图密度:一个网络的密度定义边的数量比可能的边的数量。基因网络通常稀疏。因此,低密度应该表明生物网络中的意义。(v)节点度分布:它表示网络中节点的比例和程度 。无标度网络通常遵循幂律: ,在那里是一个常数()。一个高是一个无标度拓扑的指示器。
对于这个实验,肯德尔的方法在酵母和人类获得的网络数据集被用来作为参考,为了简单起见。因此,我们提出一个拓扑研究四个网络,原件(名为“”)和加工的(以下简称“”)。描述了数据可视化表示的网络5和6,可以检查网络的拓扑差异。
(一)
(b)
(一)
(b)
可以看到数据,优化网络(“”)提供一个更紧凑的拓扑线性和小于输入的,所以他们更合适的无标度拓扑。此外,一个详尽的拓扑分析的四个网络进行了基于上述指标。网络的拓扑分析已经使用该工具执行网络分析仪(37和获得的结果表中描述7。
表中给出的结果7表明,该网络提高拓扑指标一旦由GeSOp处理。此外,我们或许可以认为,这些网络遵循生物模式根据(36]。优化流程后,网络显示,一方面,较低的平均聚类系数和密度。另一方面,他们提出更高的特征路径长度,直径,常数。这些结果意味着网络改进的生物相关性的关系。
此外,优化网络现状特点接近无标度拓扑作为节点度分布遵循幂律 (34)(见图7)。这个事实可以经由“伽马”表中给出的结果列7,其中的值(从幂律)改善优化网络。
这第二个实验探测GeSOp生成的结果是一个可靠的方法来提高基因网络的拓扑特性,在生物结构。
4所示。结论
在这种工作,一个新的反向消去法大基因网络结构的优化,即GeSOp,提出了。的方法,它是基于贪婪策略,能够执行一个输入网络规模的急剧下降的基因基因的数量关系。少的修剪生物重要关系产生更简单、更友好的网络人员的规模和可视化。
一方面,给出的结果表明,该方法不仅可以执行删除输入的网络,但也保持生物信息的比例呈现在原始网络。此外,几乎所有研究情况下,这个比例提高。另一方面,拓扑分析进行的实验说明网络优化GeSOp改善他们的生物指标通过收购无标度拓扑。最后,对生成的结果,可以认为,我们的方法变得明显的相关性的处理和优化大型基因网络。
作为未来的工作,我们将致力于将以前的生物知识,在形式的基因网络作为金标准,第二步的方法。因此,该方法不仅考虑现有的中心在输入网络,但也有很大的关联的基因网络作为黄金标准。另一个未来的工作是基于实现;我们正在在并联实现的算法来提高其性能。
数据可用性
在本节中,我们提供上面提到的数据集和数据库的链接。特别是,数据集的链接如下:(1)酵母数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE23(2)人工数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570
和那些数据库如下:(1)GeneMANIA:http://genemania.org/data/(2)YeastNet:https://www.inetbio.org/yeastnet/(3)HumanNet:http://www.functionalnet.org/humannet/
的利益冲突
作者宣称没有利益冲突。