文摘

整合multi-omics癌症的数据可以帮助人们全面探索癌症。然而,随着大量不同的组学所生成的数据和功能,有一个主要的挑战来区分功能驱动基因的无关紧要的乘客基因积累随机但不会导致癌症发展。在本文中,我们提出一个基因length-based网络方法,名叫DriverFinder识别司机通过集成体细胞突变的基因,拷贝数变异,基因基因相互作用网络,肿瘤表达,正常的表达数据。为了说明DriverFinder的性能,它是应用于四种癌症类型的癌症基因组图谱包括乳腺癌、头颈部鳞状细胞癌,甲状腺癌,肾肾透明细胞癌。与传统方法相比,结果表明,该方法是有效的。此外,它可以减少基因长度的影响驱动基因识别和识别一些罕见的基因突变的司机。

1。背景

目前,了解癌症发展的机制,发现可操作的目标基因治疗癌症仍然是艰难的挑战。高通量测序技术飞速发展,一些大型癌症基因组项目,如癌症基因组图谱(TCGA) [1),国际癌症基因组协会(ICGC) [2),产生了不同的组学数据包括一个丰富的数据集whole-exome和RNA序列数据(3,4),它提供了机会让我们准确地推断出肿瘤特异性改变(5和帮助在精密医学在癌症治疗6,7]。然而,许多基因变化代表中性的变化不会导致癌症发展称为旅客突变(6,8]。只有很少的改动都由参与肿瘤形成的过程,并提供一个选择生长优势被称为驱动突变(8,9]。因此,这是一个重大挑战区分致病性驱动突变和所谓的随机突变旅客突变(10]。

以前,有多种计算方法来确定驱动基因根据基因突变频率(称为frequency-based方法)在一个大的癌症患者(11- - - - - -13]。然而,很少突变司机倾向于通过frequency-based方法被忽略。也突变在癌症基因组异质性是影响性能的一个重要因素frequency-based方法(14]。此外,进一步的研究发现驱动突变或基因破坏一些细胞信号或监管途径促进癌症的进展(15,16]。事实上,基因影响相关的各种生物过程的复杂网络,而不是孤立地表演在癌症17]。此外,癌症是一种不同类型的基因变化相互作用的结果,形成复杂和动态网络(18]。因此,许多基于网络和pathway-based方法提出了优先司机突变和基因。例如,Dendrix pathway-based算法发现的突变司机在癌症使用体细胞突变数据通路(19]。之后,Multi-Dendrix算法扩展Dendrix方法为保证收益最优的路径(20.]。MDPFinder也是pathway-based方法解决所谓的最大重量的子矩阵问题提出了Dendrix方法(19),旨在识别突变司机从癌症突变数据通路21]。、张等人提出CoMDP方法关注cooccurring司机途径而非单一途径(22]。此外,iMCMC是一个基于网络的方法通过集成体细胞突变,基因拷贝数异变,和基因表达式没有任何先验信息(6]。DawnRank另一种方法,也是一个基于网络的算法发现个性化因果驱动突变,突变基因排名根据他们的潜力成为司机基于PageRank算法(23]。Bashashati等人开发了一个叫做DriverNet方法全面分析基因组和转录组数据集来识别可能司机在群体的基因mRNA表达网络的影响,也揭示了罕见的但重要的基因和通路模式(10]。VarWalker个性化network-assisted优先方法众所周知,很少发生突变基因和解释数据在门店的研究(24]。

虽然有些方法可以确定潜在的司机,他们中的大多数都不考虑基因长度的影响结果;换句话说,他们确定一些可能假阳性司机基因根据已知的驱动基因数据集。,它已经表明,司机不仅相关基因突变频率,而且上下文或基因突变长度(25)和变异往往更频繁地出现在长基因(26]。例如,TTN,最长的人类基因组中的基因,积累许多变异仅仅由于它的长度24,26]。TTN可以选择在许多计算方法;然而,它通常作为乘客基因(27]。这一现象表明许多当前方法有强烈偏好对识别长基因(24]。所以必须过滤那些经常由于长度变异基因。VarWalker考虑基因长度;然而,它并不考虑表达突变的影响。此外,一些基因变异的基因可能导致极端一些边远的基因表达水平的变化与变异的基因通过基因基因相互作用网络或通路和这些边远基因通常被称为离群值10]。,已经证明,癌症相关的基因是更有效地检测到个人间变异分析而不是只计算均值的差异表达在不同的样品(28]。也就是说,离群值不仅与肿瘤表达分布也相应的正常表达。此外,各种细胞过程往往是受基因影响复杂网络而不是基因单独行动(17)和癌症也是一组基因相互作用有关的分子网络(29日]。所以网络通常提供一个方便的方式来探索单基因操作的环境中(30.]。应该注意的是,等先验知识(PPI)蛋白质间交互作用的网络可以提供一些有用的信息;然而,先验知识是有限的,在某些情况下可能导致丢弃一些重要的信息(22]。在我们以前的工作(31日),我们只考虑先验信息的基因基因相互作用网络。所以有必要延长基因基因相互作用网络。

在这项研究中,我们提出了一个集成框架命名DriverFinder来识别司机通过集成体细胞突变基因数据,拷贝数变异基因拷贝数异变,肿瘤和正常表达数据和基因基因相互作用网络。首先,基因长度是考虑过滤一些频繁的基因,因为长度。此外,在这种方法中,我们综合肿瘤表达和正常的离群值矩阵构造表达式而不是只使用肿瘤表达。此外,提高识别精度的司机,我们计算皮尔逊相关系数(PCC)的基因,结合PPI网络构建一个新的动态交互网络为每个癌症类型。为了估计DriverFinder方法的性能,我们应用它TCGA四个不同的大规模数据集,包括乳腺癌(BRCA)、头颈部鳞状细胞癌(HNSC),甲状腺癌(THCA)和肾肾透明细胞癌(KIRC),并与MUFFINN [32],DriverNet [10],frequency-based方法。结果表明DriverFinder能有效识别司机和减少假阳性,也就是说,过滤一些长期和频繁突变但功能中性基因。

2。材料和方法

我们提议DriverFinder识别癌症司机基因通过整合multiomics数据(图1)。图所示的详细描述1

作为显示在图1,第一步是评估突变事件的发生在基因组装配成一个广义相加模型(24]。然后加权resample-based测试用于过滤器长乘客基因根据近似概率基于基准编码基因的长度。其次,对于基因表达,我们比较表达的肿瘤与正常样本以确定外围基因。然后基因基因相互作用网络结合先验知识和PCC表达数据用于相关突变顺向对基因表达的影响。基因突变之间的关系和边远的配方使用两偶图的左节点指示基因突变状态和右节点在每个病人指示边远表达状态。对于每一个病人,之间存在一条边 如果左边分区基因 突变和基因吗 是个例外一些样品和他们也有高相关性基因基因相互作用网络。其次,贪婪算法用于优化基于覆盖率的突变基因。贪婪算法在每次迭代中,左边的突变基因两偶图的分区与最边远的选择表达的基因。直到所有外围表达基因是由最左边的突变基因,迭代停止。然后突变基因的排名,是根据他们的报道。所以基因最边远驱动基因表达被任命为候选人。最后,基于零分布的统计显著性检验应用于这些假定的司机基因。

2.1。建设变异矩阵

体细胞突变,我们下载它从TCGA数据门户(https://cancergenome.nih.gov/),只考虑2级的数据。事实上,贾等人研究了长基因在两个数据集和检查基因长度的影响通过绘制突变基因的比例和他们的互补DNA(互补)长度24]。他们发现,两种突变基因与互补脱氧核糖核酸长度呈正相关,和更长的基因更有可能被突变基因(24]。因此,frequency-based方法可能倾向于选择长基因作为司机。因此,有必要进行基因length-based过滤。在这项研究中,为了准确估计每个基因的突变率,采用广义相加模型计算概率权向量(采集)每个样本的突变基因(24]。

在这里,只有体细胞突变基因映射到基准的共识(ccd)数据集[编码序列33)包含一组核心始终带注释的和高质量的人类和小鼠蛋白质编码区域保留。这些映射基因在这项研究中被分配的cDNA长度根据他们的编码序列(24]。假设向量 互补脱氧核糖核酸基因长度和下面的模型是用来评估基因突变的概率, 在哪里 代表一个未指明的光滑函数 表示特定的样本中的突变基因的比例(24]。每个基因然后将分配一个采集值。之后,重新取样测试基于每个基因的概率在每个样本和执行1000次零分布在基因突变发生在随机的。然后我们突变频率定义为 在哪里 代表突变频率。接下来我们过滤掉基因频率≥5%随机数据集,除非他们是癌症基因普查(公司治理文化)的基因。然后重要的突变基因的列表 是获得。

至于基因拷贝数异变,已处理GISTIC 2.0,他们收购了http://gdac.broadinstitute.org/runs/(v2014_10_17)。有五种类型的拷贝数包括放大,增益,二倍体、杂合的删除和纯合子缺失数据集。在这里,我们只有屏幕放大和纯合子缺失构建CNV矩阵 。最后,重要的突变基因列表 和CNV矩阵 结合生成patient-mutation二进制矩阵 ,在这 表明有遗传改变,突变,放大,或纯合子的删除jth基因的 样本。否则,

2.2。建筑的表达异常值矩阵

基因表达数据(三级)包括肿瘤和正常表达数据也从TCGA数据门户网站下载。此外,一些研究已经表明,评估个人间基因表达的变化表现良好在预测癌症相关的基因(28]。在这项研究中,外围矩阵分析的基础上确定个人间变异在肿瘤和正常的表达而不是只意味着表达水平或肿瘤表达的差异分布(28]。为每种类型的癌症,有两个数据集表达式 标明实值表达式的基因吗 在示例 分别的肿瘤和正常数据集。每个基因的异常值在本研究中被定义为肿瘤的表达水平超出了四个标准偏差范围表达式的值的基因在所有正常的样品(28]。它是可控性 在这 是表达和意味着什么 表明基因表达在正常样本的标准偏差。然后二进制patient-outlier矩阵 构建的价值 表示是否基因 在病人 是一个离群值的群体分布之间的基因。如果基因的表达 病人是个例外 , ;否则,

2.3。基因基因相互作用网络

值得注意的是绝大多数先验知识,如PPI网络或途径是不完全的,大量的生物学途径尚不清楚[知识22]。在我们之前的研究31日),我们依靠先验知识对基因的影响图从已知的基因网络集成10)通常叶的一些可能的重要节点。在这项研究中,我们构建了一个新的动态基因基因相互作用网络,通过融合基因基因相关系数的先验知识。首先,pcc两两基因之间通过归一化肿瘤的表达。可接受的相关性与PCC >高0.75通常被认为是相关和选择34]。在这里,我们选择0.8作为阈值,以确保选择成对基因高相关,增加可靠性。边缘与PCC > 0.8选择和设置为1,否则为0。同时为了获取一些重要的先验知识,已知的基因网络(称为DriverNet[的影响图10])是映射到二进制矩阵得到相关系数矩阵。所以一个新的动态(称为基因基因相互作用网络 后)包括先验知识建立和推导出知识。当有相关性,PCC > 0.8或1基因之间的影响图 和基因 , ;否则,

2.4。意义的评估

目的是测试司机候选人的统计学意义,我们应用一个随机化的框架。该算法在随机运行 交换原始数据集(突变数据和异常数据)。然后我们评估的意义真实数据上看到了如果结果明显不同于随机数据集和获得的结果 每个候选人的价值驱动因素。统计学意义的 是定义如下10]: 在哪里 是置换时间和 候选人司机的数量吗 运行的方法。 的报道 从我们的计算方法。在这里,我们选择 。统计学意义的 意味着时代的观察司机基因覆盖超过 。最后,基因 值小于0.05提名为候选人的司机。

3所示。结果

3.1。数据集

TCGA在这项工作,四个数据集,BRCA HNSC, KIRC, THCA,被应用于我们的方法。每个癌症类型,四个不同的组学数据组成的体细胞突变,肿瘤表达,正常的表情,CNV。BRCA数据集包括拷贝数,531年肿瘤样本和62份正常样本的表达数据,和962个样本的体细胞突变数据。KIRC数据集包含拷贝数变化,417个样本的体细胞突变数据,伴随534肿瘤和72正常样本的表达数据。HNSC数据集包含509个病人的体细胞突变数据,522肿瘤和44正常样本的表达数据,和拷贝数数据。THCA,它包括拷贝数变化,435名患者的肿瘤病人的体细胞突变,513和59正常样本的表达数据。对于每个类型的癌症,我们只考虑常见的肿瘤表达的样本数据集和体细胞突变的数据集。

3.2。绩效评估

评估我们的方法在识别已知的性能驱动基因,我们使用带注释的癌症相关基因数据集公司治理文化数据库(15/7/2015)[35和20/20规则25作为近似基准)。公司治理文化是一个目录的数据库571个基因的突变会参与癌症(35]。20/20规则包含138个司机125个基因的基因受到微妙的突变和13受到放大或纯合缺失的影响25]。我们将我们的方法与frequency-based方法,DriverNet [10],MUFFINN [32根据这两个标准。

在这项工作中,我们首先计算已知的司机根据这四种方法的公司治理文化基因。相比之下,基于上面的三项措施 基因包括精度、召回和 1使用分数定义如下: 发现TP表明重叠基因的数量在我们的方法和注释的基因与癌症相关的公司治理文化。FP意味着基因的数量确定在我们的方法中,然而没有编号的公司治理文化。FN的基因数量在公司治理文化但不包含在我们的方法。

一般来说,DriverFinder几乎优于其他三种方法在前排名基因的癌症数据集(图四2;结果DriverFinder补充文件1所示,在网上补充材料https://doi.org/10.1155/2017/4826206)。虽然在KIRC大约排名前30名的基因后,与DriverFinder MUFFINN执行相对,贫穷在前30名的基因的表现。同样的现象出现在前60 THCA基因。类似于,检索到的癌症基因注释的累积数量20/20规则在KIRC MUFFINN(图3 (c))也超过DriverFinder。其中一个潜在的解释可能是突变的总数KIRC(10359与21089年基因突变)和THCA(与16497年8899个基因突变)显著低于BRCA(16717与118098年基因突变)和HNSC(14830与57164年基因突变)。所以在KIRC基因基因相互作用网络和THCA可能比在BRCA和HNSC简单;即基因很可能直接与对方联系。和MUFFINN只考虑突变的直接邻居(32]。一方面,这种差异可能有助于MUFFINN检索更多的基因;另一方面,突变的数量(即表明可能有更多乘客。、噪音)BRCA和HNSC DriverFinder与噪音更稳定。

此外,DriverFinder优于其他三种方法BRCA HNSC, THCA累计数量20/20规则(图3)。在KIRC,它也有一个更好的性能比DriverNet frequency-based方法在前100个基因。

3.3。DriverFinder减少基因长度的影响

值得注意的是,从DriverFinder的结果,我们可以发现它可以减少假阳性,因为它有良好的过滤性能由于长度随机突变基因。最长的基因在人类基因组TTN已经证明高突变率很可能是工件(23,36]。例如,在BRCA,TTN排名4和6 frequency-based方法MUFFINN,由于高突变率分别。也排名51 ( 值= 0.031)作为候选人司机DriverNet算法;然而,它与DriverFinder过滤掉。KIRC和HNSC排名4和3,分别基于突变频率和22和18 DriverNet,分别。此外,它也在前4和3 MUFFINN KIRC HNSC,分别,但这并不排在160年或790年根据DriverFinder分开。此外,THCA frequency-based方法和MUFFINN排名TTN分别列为4和5。然而,它不是由DriverFinder标识。这些结果证明了DriverFinder的更好的性能在过滤随机突变基因与长度比DriverNet MUFFINN, frequency-based方法。

3.4。通路富集分析

为了研究癌症相关通路中重要的候选司机,京都基因和基因组的百科全书(KEGG) [37)通路富集分析是由司机基因统计显著的候选人 值小于0.05(见补充文件2)排名前20位的重要途径。图所示4。我们观察到最丰富的条件是癌症相关通路在四个癌症数据集。此外,ErbB信号通路,大大丰富了BRCA ( 值= 4.79E−07)和KIRC ( 值= 6.23E−07),据报道在许多肿瘤和扮演重要角色ErbB2 / ErbB3异质二聚体是一个致癌单元在乳腺癌(38]。同时,大大丰富了VEGF信号通路(4.94E−05)HNSC在肿瘤血管生成中起着举足轻重的作用39]。

3.5。发现罕见的司机基因

在本节中,我们表现出DriverFinder可以识别很少突变但重要的候选人司机基因被定义为基因的突变频率< 2%在所有患者队列。在这里,我们只选择高排名(前30名)罕见基因进行进一步分析。

在BRCA 3罕见基因(PIK3R1,CREBBP,PRKACB)是排名前30名。在他们PIK3R1(排名23)这不是排名前30名的其他三种方法,underexpression可能导致PI3K途径激活和赋予肿瘤发展和人类发展,这是一个临床上有用的独立预后标记在乳腺癌(40]。由于其低频率突变,有关可能的关联的任何进一步的统计分析PIK3R1突变和临床参数不允许(40),很容易忽略frequency-based方法。此外,对于CREBBP(排名25)也不是其他三个排名前30名的方法,它已经在乳腺癌(偶尔报道41]。PRKACB会使在非小细胞肺癌和其upregulation细胞增殖的影响,细胞凋亡,入侵也已经调查(42]。

HNSC也3罕见基因选择和其中一个(UGT2B4,排名30)显示潜在的小说是一个司机。UGT2B4发现基因型与降低酶活性增加食管鳞状细胞癌的风险(43]。

KIRC THCA,有一些重要的罕见基因不被其他方法。例如,中国卫星发射测控系统部KIRC,包含在公司治理文化,排名11 DriverFinder突变频率较低1.68%,编码的主要单元网格蛋白,是一个融合的合作伙伴TFE3。和CLTC-TFE3第五基因融合涉及TFE3在小儿肾细胞癌(44]。另一个例子是AKT1在THCA(0.69%的病例),这是被DriverFinder(排名30)和包含在公司治理文化;它是一种丝氨酸/苏氨酸蛋白激酶及其下游蛋白质已报告在人类癌症经常激活(45]。

4所示。讨论

癌症是一种复杂的疾病,很难治疗,基因和区分司机从大量中性的乘客基因是极其重要的理解癌症的机理和设计有针对性的治疗。在这项研究中,我们介绍了一个全面的框架DriverFinder来识别司机基因通过合并基因组,转录组和基因基因交互信息。我们实现了基于基因的筛选模型排除基因变异很大程度上是由于随机事件。方法被应用于四个独立的癌症数据集从TCGA,结果表明,它的力量在多个肿瘤类型主要是比DriverNet MUFFINN, frequency-based方法。总之,这种方法具有过滤随机突变基因和识别司机不管他们的基因突变频率。我们预计,它也可以应用于其他复杂的癌症类型。

然而,在这项工作,我们只解释了变化表达式的体细胞突变,虽然其他分子或基因变化如转录因子,甲基化,小分子核糖核酸也影响其他基因的表达和癌症的发展中扮演很重要的角色46]。因此,有必要扩展方法,这样司机不仅可以由体细胞基因改变还有其他不同类型的分子变化。同时,我们可以扩展我们的目标识别驾驶员的一些方法,如机器学习方法(47- - - - - -51]。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了国家自然科学基金(没有。61672037),安徽省教育部门(没有的关键项目。KJ2017ZD01),安徽省自然科学基金(1508085 qf135和1508085 mf136号)。

补充材料

补充文件1:四个数据集的结果BRCA HNSC KIRC, THCA DriverFinder。

补充文件2:KEGG通路富集的结果四个数据集BRCA HNSC KIRC, THCA。

  1. 补充文件1
  2. 补充文件2