研究论文|开放存取
基于模糊标记传播的多时延基因调控网络研究
摘要
针对基因调控中存在的时滞问题,利用复杂网络的分析思想和方法,提出了一种基于模糊标记传播的多时滞基因调控网络分析方法。该算法以相对变化趋势系数、相关系数和互信息作为基因对的相似性度量指标,充分反映了基因对之间的相关性,同时通过模糊标记传播算法获得基因调控关系和时间延迟半监督学习。对酵母细胞周期调控基因的实验结果表明,所提出的GRN构建方法不仅能正确地选择潜在的调控基因,而且能提供基因调控模型的细节,从而更准确地构建基因调控网络。
1.简介
基因表达数据中隐含基因间的相互作用可以通过分析基因表达数据来构建基因调控网络[1]。基因调控网络的研究是后基因组的信息学的话题之一。主要分析基因表达数据,使用生物信息学的方法和技术,以确定基因网络的拓扑结构深入理解的结构和生物学功能和病理变化的机构,以及在系统的框架理解生命现象[2,3.]。基因网络研究可以揭示生物组织系统的发展过程和机制,有助于了解体内物质的调控,从而促进人们有效地识别疾病的病因。特别是对人类肿瘤基因调控网络的研究,可以使我们深入了解肿瘤相关基因的调控关系,从而为肿瘤基因治疗提供依据和指导。基因调控网络作为细胞基本生命活动的分子基础,具有随机性、复杂性、时空特异性和动态性等生物学特性。这使得基因调控网络的构建非常困难。
时间序列基因表达数据在基因调控网络的研究中得到了广泛的应用,对时间延迟的关注日益成为基因调控网络构建的重要因素[4]。时间延迟处理可大致分为两种类型:第一种类型,首先计算基因之间的时间延迟,则该时间序列的基因表达数据来计算出的时间延迟转换成达到去除延迟的影响,并最终构建基因调控网络来分析基因中的调节关系;第二类型直接构造的时延基因调控网络模型和获得的时间延迟,并通过所述时间延迟调控网络方法的调控的关系[5]。在第一类分析中,Ahsen等人[6]通过频域变化得到两个基因表达数据在频域内的相位和频率,并根据相位与频率的关系计算时间延迟。黄等人[7]通过使用该时间延迟估计方法所获得的基因101之间的相互时间延迟,通过采用社区检测的概念构建的基因调控网络,并获得了更好的结果。通过该方法获得的延迟时间并不总是时间间隔的整数倍,并且有必要通过使用曲线拟合方法,这是不利于后续的研究,以获得延迟去除基因表达的值。
基因表达在细胞中的调节时间不同步,并且调整延迟长度也不同[8]。现有的基于时间序列基因表达数据的基因表达调控网络动态贝叶斯网络模型难以对异步多时延调控关系进行建模[9]。为了解决这一紧迫问题,提出了一种半监督学习方法,其可准确地建模基因之间的异步和多时滞调节的关系。它可以与来自基因芯片的时间序列表达数据异步和多延时特性学习的基因表达调控网络。在学习的过程中,可以使用已知的类数据和未知类数据,以获得更多的信息,并有较好的学习效果。
2.相关工作
基于表达数据的基因调控网络重构也称为逆向工程或网络推理。近年来,通过分析基因表达数据,人们提出了多种算法,如遗传算法[10个、基因规划[11个],进化策略[德意志北方银行],和ACO [13个]。然而,上述算法所建模的grn只包含有限数量的基因。如何重建大规模的基因调控网络仍然是一个未知的生物学问题。
目前,建立基因调控网络的模型有多种。最简单的模型是基于布尔网络的。在逆向工程中,布尔网络被用来从观察到的基因表达数据中推断出潜在的拓扑结构和节点的布尔函数。另外,连续网络是布尔网络的扩展[14个],它也被广泛地用于模型基因调控网络。节点仍然代表基因的调控作用及其对基因表达的连接。在生物系统中显示的基因活动水平的连续范围,并已考虑到连续的网络可以捕捉不布尔模型存在的基因调控网络的一些性质。基于连续网络的许多方法被提出来推断基因调控网络,例如,基于线性回归和基于互信息。在阿拉克尼算法中,每个基因对特定信息可以以适当的方式来获得的互信息的实际值进行计算,并与固定的阈值,调节相互作用可以推断。此外,许多的概率图形模型已被提出来测量不同的基因表达模式之间的高阶依赖性。贝叶斯网络是最流行的方法来推断基因调控网络之一。在贝叶斯网络,向无环图来指示随机变量之间的条件依赖性[15个]。
许多研究人员认为,基因之间的延迟时间是恒定的值,从而使多时间延迟基因调控网络的分析,相继提出了延迟时间从基因对变化。是有利构建基因调控网络中,时间延迟通常视为时间间隔的整数倍。在此基础上,杨等人。[16个]首先建立延时基因表达矩阵挖通过决策树分类的基因之间的时间延迟调节关系。杨[17岁]利用高阶马尔可夫动态贝叶斯网络构建多时延基因调控网络。Raja Chowdhury和Chetty [18岁]通过使用相关系数法构建的多时延基因调控网络。在该方法中,基因中的时间延迟相关系数首先建立,是通过动态阈值法获得在每个基因对相关系数的最大值和对应于该值的时间延迟,最后的相关性的最大值在基因对系数与给定的阈值以筛选相关系数大于阈值,并且获得对应于这些相关系数和时间延迟完成多延时基因调控网络上的分析的基因进行比较。这种方法简单,能有效地处理时间延迟的问题。Aderhold等。[19个]建立的基因之间的时间延迟的互信息和构造通过动态贝叶斯网络多延时基因调控网络:首先构建多时间延迟互信息矩阵中的互信息选择较大的基因,然后完成由动态贝叶斯网络的基因调控关系的分析。更好的效果已经通过这种方法获得。然而,大多数的这些时间延迟的方法,从基因之间的关系开始,但忽略了基因的特性。
当基因之间的相似性,通过上述方法测定,使用单韵律规模。当构建基因调控网络,刘等人。[20个]指出单一相似性评价规模不能反映基因之间的相关性很好,所以他们评估基因之间的相关性,利用相关系数法和四分位范围相结合,获得更好的基因调控关系通过矢量分析以四分位范围的基因对为横纵坐标和相关系数为纵坐标。参阅[21岁,22个],本文结合多时延相关系数、互信息和相对变化趋势系数,构建新的基因对相关评价矩阵,通过模糊标签传播的半监督学习方法完成对多时延基因调控网络的分析。
3.相关的笔记
时间序列基因表达数据表示为 ,其中表达基因的表达价值在那个时间点和 。该基因中的最大延迟时间被表示为倍的时间间隔。
3.1。时滞相对变化趋势系数
通过基因表达数据的离散化得到的矩阵被表示为 。 哪里 。
对于任意两个基因和在数据集中,基因的相对变化趋势系数还有基因在那个时间点被表示为后基因被延迟的时间和单位可以通过以下的公式计算:
的价值是 ,其中表明两种基因的类似变化趋势。
对延迟后两种基因的相对变化趋势进行了分级。值的数目等于被表示为 ,以及基因的相对变化趋势评分还有基因被表示为后基因被延迟时间单位。
3.2。时滞相关系数
该基因的相关系数还有基因被表示为后基因被延迟时间单位。 哪里表示前者的平均值用于基因表达值和表示后者的平均值用于基因表达值 。
3.3。延时互信息
互信息表示所述共享信息量两个基因之间,首先执行对基因表达数据集间隔分区,然后计算所述基因之间的延迟互信息矩阵。对基因的互信息还有基因被表示为后基因被延迟时间单位。 哪里是信息熵。计算方法如公式所示(7) 至 (9): 哪里取前者表达价值和需要后者表达式值。
3.4条。基因对相似性评价矩阵
基因对相似性评价矩阵为 , 表示属性的表达式值为了基因还有基因后基因被延迟单元的时间,和 ,其中,基因对的属性分别为相对变化趋势、相关系数和互信息。为了便于后续分析,将时滞相似性评价矩阵表示为 ,其中表示基因的相似性样本还有基因后基因被延迟时间单位。
4.多时滞基因调控网络中基于模糊标签传递
4.1。算法描述
利用半监督学习的模糊标记传播算法对转换后的数据集进行分类。有两个标签值:和 ,其中表明基因对和中的两个基因之间存在调控关系表明,有没有监管的关系。
在模糊标签传播算法中,首先分进入标记的数据集中和未标记的数据集并计算出相似度任何两个样本和通过使用RBP核函数。 哪里表示两个样本之间差值的方差。
表示样本类别用该载体属于尺寸:(1)如果样品 , 哪里 。(2)如果样品 ,的标号值是从?传播的相邻样本以及成员那所属的类别满足 哪里表示的组成的集合的相邻采样 ,结果由公式得出(德意志北方银行):
由于未知样本的分类标签不断更新,在式(13个)进行重复计算,直到所有样本的模糊类别标号值不变为止。
获得模糊标记值并通过以下公式转换标签值矩阵:
由下式转换的标签值矩阵:
标记值为的样本对应的两个基因之间存在调控关系 ,时间延迟是倍的时间间隔。
4.2。算法步骤
步骤1:利用缺失值估计方法估计仿真数据集中缺失值[23个和构造完整的数据集。步骤2:计算时间延迟的相对变化趋势系数矩阵,时间延迟相关系数矩阵,并在完整的数据集中的所有基因对所述时间延迟的互信息矩阵。步骤3:获得基因对的相似度评估矩阵。这种相似性评估矩阵是一个多维空间矩阵。对于模拟简单起见,矩阵被相应地处理,以被转换成二维空间矩阵。使 ,其中行向量的行序列如下:基因之间没有延迟还有基因 ,在基因之间延迟1个时间单位还有基因 ,和延迟所述基因之间的时间单元还有基因 。步骤4:该标签值添加到少量的基因对,计算模糊标记传播算法的基础上未知基因对模糊标记值,并获得调节关系和基因之间的时间延迟。
4.3。算法的时间复杂度分析
有在此算法的计算两个主要瓶颈。第一种方法是使用相互信息,以找到基因对之间的时间延迟,第二个是利用模糊标签转送算法进行分类的数据集。假设基因的数目是 ,基因时间序列的长度是 ,最大时延 ,和模糊标记转移算法的迭代次数是 。当我们使用方程(6)找到一个靶基因的特定时间延迟下的互信息,并对其实施监管,我们需要一次遍历基因表达水平矩阵,算法复杂度 。那么算法的时间复杂度是 。初始化的时间复杂度为 。模糊标签转送算法的时间复杂度使用半监督学习 。计算分数函数的时间复杂度为 。因此,总的时间复杂度为 。
5.结果与讨论
5.1。模拟数据集
模拟数据集选取自酵母细胞基因芯片数据[24,25]通过斯派曼等人提供的。在斯坦福大学,从该6种基因被提取以形成小基因调控网络。该数据列于表所示1。
|
||||||||||||||||||||||||||||||||||||
基于Hou等人的研究,提取6个基因之间的调控关系[26]。图调控网络结构示1。
6.结果
在模拟中,首先我们需要选择样品的一部分添加的标签。在本文中,将样品标记值被设置为当基因Clb6和CLN1之间的延迟为0时,将样品标记值被设置为当基因Clb2与Cln2之间的延迟为0时,且最大延迟时间设定为 。仿真结果示于表2。
|
|||||||||||||||||||||||||||||||||||||||||||||
从图中可以看出1有10对基因具有调控关系。表格2结果表明,本文方法能正确识别出8对具有调控关系的基因,占所有具有调控关系基因对的80%,且准确性较好。在正确识别的8对基因中,有两对基因具有时滞,即Swi5和Cln2以及Cln2和Clb1,时滞为1个单位。正确鉴定的8对基因表达量的变化关系如图所示2。水平坐标表示基因表达水平和垂直坐标表示基因表达的时间点。
(一)
(二)
(C)
(d)
(e)中
(F)
(G)
(H)
从图中可以看出2在图中的基因表达数据的变化关系2(一个)和2 (c)- - - - - -图2(e)图中基因表达数据的变化关系是否基本一致2 (b)和图2(f)- - - - - -2(H)基本上是相反的,图2(G)示出CLN2由1个单位的时间延迟的基因后的基因CLN2和基因CLB1之间的变化关系。在左侧,对应于CLN2表达值和CLB1表情值的波峰和波谷的时间点基本上是相同的,并且变化趋势相反;在右侧,两个基因的表达值的变化无序到一定程度,但除了最后三个时间点,其他时间点的表达值的变化基本上符合变化相反的趋势。数字2(H)显示了Cln2基因延迟1单位时间后,Cln2基因与Swi5基因的表达值变化关系。从图中可以看出,两个基因表达值的变化趋势相反,其中Swi5基因表达值的第一个峰值在第七时间点获得,Swi5基因表达值的第一个波谷在第十二时间点获得;Cln2基因的第一个表达高峰在第七个时间点,Cln2基因的第一个表达谷在第十一个时间点,两个基因的峰谷时间点基本相同。因此,基于前提和假设,本规程中Swi5与Cln2、Cln2与Clb1之间的时间延迟为1个时间间隔的结果是合理的。
7.讨论
为了有客观和科学的比较结果,假设检验用于对实验结果。让变量表示本文提出的算法的分类误差率,参考文献[17岁),文献[20个]及参考文献[27),分别。由于受到许多随机因素的影响,我们假设它们服从正态分布, , 。现在,我们比较这些算法的随机变量均值,( )。较小的,期望分类错误率越低,效率越高。由于样本方差是对总体方差的无偏估计,因此样本方差值被用作对总体方差的估计。在这个实验中,显著性水平设为0.01。
表格3.显示比较过程等参数。我们可以从表中看到的1该分类错误率的本文所述的期望比其它算法远远低于。
|
||||||||||||||||||||||||||||||||||||||||||||
然后利用一些评价指标对算法进行评价。TP、TN、FP和FN分别是真阳性、假阳性、真阴性和假阴性的缩写。对所有靶基因和调控基因进行以下操作。如果通过该算法推导出目标基因与调控基因之间的调控关系,并且之前的文献已经证明了两者之间的调控关系,那么TP的值增加了1。如果通过该算法推导出目标基因与调控基因之间的调控关系,但之前的文献没有证明这种调控关系,则FP增加1。如果本文算法没有推断出靶基因与调控基因之间的调控关系,且之前没有文献证明靶基因与调控基因之间存在调控关系,则TN值增加1。如果本文算法没有推断出目标基因与调控基因之间存在调控关系,而之前的文献已经证明存在调控关系,则将FN的值加1。通过TP、FP、TN、FN的组合对每个算法的评价标准进行评价。预测基因调控网络最常用的算法是敏感性(Sn)、特异性(Sp)和准确性(Acc)。Sn = TP / (TP + FN)、Sp = TN / (TN + FP),和Acc = (TP + TN) / (TP + FP + TN + FN)。 The comparison results are shown in Table4。
表格4比较了四种基因调控网络方法的推理结果。参考文献的敏感性[17岁]方法仅为37.5%,参考文献[20个]方法为36.4%,参照法为36.4%[27]的方法是24.2%,而所提出的方法的是43.8%。可以看出,在该基因的网络建设,该方法在本文中提出了一种用于识别右边缘更好;这也表明在加入转录因子连接位数据的减少的数据处理的信息的损失。在精度也是最佳的数据,其示出了本文网络建设的精度得到了提高。
因此,每个基因在不同细胞周期一个复杂的管理关系。调控的方向可以通过使用多个时间延迟,这是在与生物时间序列活性的机制线的方法来确定。引进转录因子被链接网站的数据可以降低网络的复杂性,更有效地构建调控网络。
综上所述,基于模糊标记传播多延时基因调控网络的方法是可行的。
8.结论
在考虑存在于基因的相互作用的时间延迟,构建多延时基因调控网络,采用相对变化趋势系数,相关系数,并且作为基因对评价指标的互信息构建基因对的相似性矩阵,并然后分析调控的关系,并通过使用模糊标记传播算法的基因之间的时间延迟。由于本文算法的高复杂度,在此提出的方法是不适合于大型网络的建设,并且当最大时间延迟被设置为高值的误差识别率也将提高。然而,在本文所提出的方法是可行的。因此,如何有效的模块化大网,将较大的网络分成许多小的网络,以及小型网络整合到分析的大型网络将是本文的方法的改进方向。
数据可用性
用于支持本研究的结果的酵母细胞的基因芯片数据已经由斯派曼等沉积。在斯坦福大学。
利益冲突
作者宣称,有兴趣有关文件发表任何冲突。
致谢
这项工作是由中国国家自然科学基金(批准号:61973304和61876185)和基本科研业务费专项资金中央高校(无。2015QNB21)的支持。
参考
- J. Watkinson, X. Wang, T. Zheng,和D. Anastassiou,“利用协同网络从基因表达数据识别与疾病相关的基因相互作用,”BMC系统生物学卷。2,没有。1,第10-20,2008。查看在:出版商网站|谷歌学术搜索
- C.王益M.,K.杨和杨属,“延时诱导基因开关和随机共振的转型遗传转录调控模型,”BMC系统生物学,第6卷第1期。1,页1 - 16,2012。查看在:出版商网站|谷歌学术搜索
- J. B.弗内斯,W.坤泽,和N.克莱尔,“肠道作为感觉器官:神经,内分泌和免疫反应,”美国生理学杂志胃肠道和肝脏生理卷。277,没有。1,第922-928,1999。查看在:出版商网站|谷歌学术搜索
- M. Khalid, S. Khan, J. Ahmad,和M. Shaheryar,“利用微阵列基因表达数据识别反向工程基因调控网络中的自我调控网络基序”专业系统生物学,第13卷第1期2、2019年第55-68页。查看在:出版商网站|谷歌学术搜索
- J.拜恩,M.尼古拉和A.布拉巴宗,“在人造基因调控网络的同步的一个检查,”在进化计算2014年IEEE会议论文集,第2764至2769年,北京,中国,2014年7月。查看在:出版商网站|谷歌学术搜索
- M. E. Ahsen, H. Ozbay和S.-I。利用割线条件分析具有时滞的基因调控网络模型,"IEEE生命科学通讯,第2卷,第2期,第5-8页,2016年。查看在:出版商网站|谷歌学术搜索
- C、 黄,曹,肖,“延迟分式基因调控网络的分岔混合控制”混沌,孤子和分形,第87卷,2015年第19-29页。查看在:谷歌学术搜索
- E、 J.Bergholtz和Z.Liu,“拓扑平坦带模型和分数chern绝缘体”国际现代物理学杂志B卷。27,没有。24,文章ID 1330017,2013。查看在:出版商网站|谷歌学术搜索
- C. A.彭福公和D. L.野,“如何从表达谱基因推断网络,重新审视”接口焦点,第1卷第1期第857-870页,2011。查看在:出版商网站|谷歌学术搜索
- D. Repsilber,H.Liljenström和S. G. E.安德森,“调控网络的逆向工程:对排名的假设遗传算法方法模拟研究”生物系统,第66卷,no。1-2,页31-41,2002。查看在:出版商网站|谷歌学术搜索
- R.埃里克森和B奥尔森,“通过遗传编程遗传适应监管模式”生物系统,第76卷第1期1-3, 217-227页,2004。查看在:出版商网站|谷歌学术搜索
- Y. Fomekong,J. Kaandorp和J. Blom的,“用于形成图案的时空模型有效的参数估计:的情况下,研究果蝇”生物信息学卷。23,没有。24,第3356-3363,2007年。查看在:谷歌学术搜索
- Y.张,刘J.,M.周,和Z.江“的基础上分解为大优化问题的多目标Memetic算法”迷因计算卷。8,没有。1,第45-61,2016。查看在:出版商网站|谷歌学术搜索
- A. A.马戈林,K王,W. K.林,M. Kustagi,一Nemenman和A.卡利法诺,“逆向工程蜂窝网络,”自然协议,第1卷第1期2、第662-671页,2006。查看在:出版商网站|谷歌学术搜索
- R.普里尔(Prill),D马尔巴赫,和J.赛斯,“迎的系统生物学模型进行严格评:DREAM3的挑战。”《公共科学图书馆•综合》卷。5,没有。2,文章编号e9202,2010。查看在:出版商网站|谷歌学术搜索
- B.杨,张W.,H王,宋C.和Y.陈,“Tdsdmi:推理延时使用S-系统模型,延迟互信息基因调控网络,”在生物学和医学计算机卷。72,第218-225,2016。查看在:出版商网站|谷歌学术搜索
- B.杨,“新的监督学习与新颖的滤波方法基因调控网络的推断,”国际执行能力工程杂志卷。14,没有。5,第945-954,2018。查看在:谷歌学术搜索
- A.拉贾乔杜里和M.切迪,“基因调控网络的网络分解为基础的大型逆向工程”Neurocomputing卷。160,第213-227,2015。查看在:出版商网站|谷歌学术搜索
- A、 Aderhold,V.A.Smith和D.Husmeier,“多尺度生物网络推断:从基因调控到物种相互作用,”模式识别在计算分子生物学,威利,霍博肯,NJ,USA,2015年。查看在:出版商网站|谷歌学术搜索
- F、 刘,张,王,孙,“具有时滞的分数阶基因调控网络系统的稳定性与同步控制,”高级计算智能和智能信息学杂志,第21卷,no。1、pp. 148-152, 2017。查看在:出版商网站|谷歌学术搜索
- C、 Zhang,L.Du,T.Wang,T.Yang,C.Zeng,和C.Wang,“随机基因调控网络中时滞的影响”混沌,孤子和分形,第96卷,第120-129页,2017。查看在:出版商网站|谷歌学术搜索
- 十,王,刘问,和Y程,“基因表达谱数据缺失值估计,”中国电子学报,第21卷,no。4,第673-677,2012。查看在:谷歌学术搜索
- A. Sefidmazgi和G. AhmadiM。赛义德Abolghasem,“相关分析作为一个依赖措施的时间滞后的基因调控网络的推断,”在信息和知识技术2016年第八届国际会议论文集(IKT),第6-11,哈马丹,伊朗,2016年9月。查看在:出版商网站|谷歌学术搜索
- 郑敏、卓敏,“酵母表达时间序列的基因调控网络重构”,在电气工程讲义卷。542,施普林格,柏林,德国,2019。查看在:出版商网站|谷歌学术搜索
- W.刘,李D.,问:刘,朱Y.,和F.他,“一个新的参数化方法,从微阵列数据矿山基因调控的关系,”BMC生物信息学卷。11,没有。S11页。S15 2010年。查看在:出版商网站|谷歌学术搜索
- W. J.侯和B.塞赛,“事件提取使用句法和语义方法的基因调控网络,”目前在应用人工智能途径卷。9101,第559-570,2015。查看在:出版商网站|谷歌学术搜索
- A、 Agrawal和A.Mittal,“一种动态时滞相关学习多时滞基因网络的方法”微生物生态学卷。50,没有。3,第440-446,2011。查看在:谷歌学术搜索
版权
版权所有©2020李海刚等人这是一篇开放获取的文章创作共用署名许可,其允许在任何介质无限制地使用,分发和再现时,所提供的原始工作正确的引用。