文摘

与最近微阵列技术的进步,已经有公司在癌症分子特征的识别。然而,得到的差异表达基因不同的实验室高度发散。目前在基因水平差异表示需要一个新策略来获得癌症更健壮的签名。在本文中,我们假设(1)的表达特征不同癌症微阵列数据集更相似的途径级别比基因水平;(2)可比性癌症的分子机制不同的个人与他们的遗传相似性。支持的假设,我们总结了理论和实验依据,并进行了案例研究在结肠直肠癌和前列腺癌的微阵列数据集。基于上述假设,我们认为可靠的癌症签名应该调查的生物通路,在一群基因同质性。希望的假设可以指导今后的研究发现癌症机制和签名。

1。介绍

微阵列技术在过去的几年中迅速发展为大规模的基因表达分析的有力工具(1]。通过监测基因表达模式的改变,微阵列技术广泛应用于搜索许多疾病包括癌症的分子签名。然而,越来越多的证据表明差异表达基因(度)列表从不同的研究发现相同的疾病往往是不一致的(2,3]。变化的一个可能的属性不一致微阵列平台,实验样本,正常化和分析方法和固有的生物的不确定性。然而这冲突仍然即使在使用相同的技术复制测试样本在Ein-Dor et al。(4]。因此,签名识别的差异基因对其鲁棒性和可靠性受到了挑战。度列表之间的矛盾来自不同的数据集,我们这里提出两个假设:(1)的表达特征不同癌症微阵列数据集更相似的途径级别比基因水平;(2)可比性癌症的分子机制不同的个人与他们的遗传相似性。随后验证了假设的案例研究结直肠癌和前列腺癌微阵列数据集,分别。希望假说可以解释的不一致度列表来自多个实验和提供新方法发现健壮和特定的癌症生物标记。

2。材料和方法

2.1。数据收集

我们收集了5基因表达分析数据集在结肠直肠癌和前列腺癌10数据集从公共基因表达数据存储库,例如,基因表达综合(GEO) Oncomine [5从发表的文献)和辅助材料。总结了数据集的详细信息表1为结直肠癌和补充表? ?1(see Supplementary Material available online athttp://dx.doi.org/10.1155/2013/909525为前列腺癌。收集这些数据从两种类型的平台,也就是说,互补双通道数组和Affymetrix微阵列平台包括人类6800 Affy基因芯片,HG-U95A HG-U133系列。每个数据集是第一作者的名字命名的原始文献。只有档案的正常和肿瘤组织提取进行进一步分析。

2.2。原始数据的预处理

互补脱氧核糖核酸阵列处理的图像使用GenePix Pro 5.0.1.24软件。背景校正是由从前景中值减去平均背景强度强度的点在两个频道。测量的原始数据集通过MAS5.0 Affymetrix芯片分析算法在R平台。消除系统误差来自异构数据集识别签名之前,我们进行了局部加权散点图平滑(洛斯)方法within-chip正常化cDNA数组的数据集和平均绝对偏差(疯狂)芯片自归一化的数据集的方法。此外,数据过滤消除坏点,过滤器标准没有定义为60%的所有样品。所有的数据的预处理过程进行了R编程环境。

2.3。确定差异表达的异常基因

癌症离群值(国王)方法进行了概要分析检测基因差异表达癌症与正常样本。我们使用包由麦克唐纳和Ghosh杯(6在R平台。根据国王杯包装指南,数据集中和行基础上扩展使用平均中值的差异。基因芯片表达数据矩阵的行,列和样本。国王杯函数计算出一个“国王”得分从一组微阵列。作为初步一步预滤器的函数使用一个百分比数据。异常样本的数量为每个基因计算,和所有基因的异常样本低于百分位(默认95)从进一步考虑删除。“离群值”一个阈值截止状态设置为1.7,适用于所有的基因。

2.4。功能性浓缩的异常基因

重大异常基因随后被映射到功能的数据库,例如,GSEA [7],KEGG [8],GeneGO (GeneGO, Inc .)通路富集分析。GSEA分析和KEGG通路分析进行了使用基因集富集分析(GSEA)工具(7]和Onto-Express [9,10),分别。GSEA工具从数据库分子特征基因集的集合(MSigDB),分为五大集合。在我们的工作中,我们使用C2策划基因集。丰富GeneGO MetaCore通路进行检测(GeneGO公司)11)软件。 值被用来评估每个候选人通路的统计学意义。在MetaCore,统计学意义( 通过使用超几何分布值)计算。错误发现率(罗斯福)调整申请多个测试修正。

2.5。两两重叠基因/通路水平比较

两个数据集之间的重叠的百分比计算如下: 在哪里 是所有的数据在数据集1的数量, 数据集2中所有数据的数量,然后呢 是两个数据集之间重叠的数据的数量。

3所示。结果

3.1。异常值检测使用新的统计方法

1列出了统计方法识别差异表达基因的原创文章。大多数主流的分析方法t以及,山姆z统计考虑基因强度的平均值在癌症样本。然而,这些统计方法无法找到“异常基因”,只有参与癌症的样本子集。尽管他们稀缺,异常基因是重要的,可能存在潜在的致癌基因的一个特点。这些传统的方法不适合等subset-specific致癌基因表达谱检测·汤姆林等人提出的。12和丽安13]。通过应用程序公开癌症微阵列数据集在我们之前的研究14),我们已经表明,一些新开发的统计数据显示优越的性能比传统的 统计离群值的检测。我们在此应用癌症离群值(国王),概要分析小说显著的基因分析方法·汤姆林等人提出的。12),meta-analyze多个癌症数据集。

3.2。签名更类似的跨多个结肠癌通路水平数据集

为了验证我们的第一个假设,我们进行了多元分析中的5个结肠癌基因表达分析数据集从独立的实验室15- - - - - -19]。

国王杯后分析,我们确定了3258个基因正常结直肠和结肠直肠肿瘤样本之间的差异表达。Entrez中的搜索PubMed数据库显示,只有450 3258(13.8%)确定国王杯法与大肠癌相关基因。

过表达基因的数量显然是矛盾的所有团体由于不同样本,数组和平台。减少差异,我们试图理解癌症的分子机制在系统生物学水平。然后,我们绘制了度被国王使用基因集富集分析(GSEA)和MetaCore软件对于通路富集分析,分别。完全我们发现262年GeneGO丰富通路的数据库 值阈值为0.05;通路提供了补充的详细清单表? ? 2。此外,我们进行基因集富集分析GSEA利用C2策划文件,其中包括1892基因集/通路注释。111年与以前的异常基因集 值< 0.05和罗斯福< 0.05也发现和补充表中列出? ? 3。的数量显著GeneGO通路或GSEA差异表达基因的基因集富集5结直肠癌数据集被列在表中2

我们进行两两对比5数据集度而言,GSEA丰富的基因集,分别和GeneGO丰富的通路。5个不同的数据集,10双数据可供比较。图1显示,两两重叠的百分比在不同观测水平。重叠在通路水平显著高于在基因层面上观察到70%的数据集的数据集对GeneGO和60%由GSEA配对。这个观察支持我们的第一个假设重叠比例在通路水平高于在基因水平。

此外,我们发现4 GeneGO途径共享的数据集。这些途径被认为是大多数重叠和表中列出3。其中,ECM重塑、趋化因子和粘附途径,属于细胞粘附类别,以前报在大肠癌中发挥作用。另外两个途径,整合素由外向内的信号通路和L-selenoamino酸结合在蛋白质翻译途径,没有被报告为结直肠癌相关通路。网络对象的途径,然而,在结肠直肠癌被广泛报道。整合蛋白heterodimeric粘附受体,其中大部分是识别ECM蛋白质。信号转导的主要功能是将ECM蛋白通过与整合蛋白的相互作用,细胞内的肌动蛋白丝actin-binding蛋白质。因此,整合素信号之间的相关性和ECM途径可能在大肠癌发挥积极作用。我们推断这两个通路可能是公认的小说结直肠癌相关通路生物科学家提供重要指导。他们的角色在结直肠癌在未来需要进一步实验验证。

我们进行配对t以及决定是否不同的重叠百分比观察不同水平意义重大。的 值异常基因的区别和GeneGO丰富的途径被配对0.01354t以及和0.02441通过Wilcoxon测试。的 值的异常基因的区别和GSEA基因集被配对0.028t分别由Wilcoxon测试,以及和0.08。的 值表明,重叠的百分比在基因集或通路水平明显高于在个体基因水平。我们因此得出结论,独立的表达特征数据集在更高的功能水平要比这更一致的在基因水平。

3.3。前列腺癌基因异常丰富通路显示区域分布特征

支持第二个假设,我们进行了区域分析10公开前列腺癌基因表达数据集从不同的位置20.- - - - - -28]。

我们第一次进行KEGG GeneGO通路富集分析这些数据集,紧随其后的是两两比较的路径重叠的百分比。只有大大丰富通路与先前的证据前列腺癌协会采用的比较。文本挖掘进行以确保至少有一名发表论文描述这些通路的功能在前列腺癌。

基于路径重叠分析,我们计算这些数据集之间的距离矩阵和生成一个网络来显示他们的协会。五个常见的距离,也就是说,欧几里得距离,皮尔森相关距离,曼哈顿距离,肯德尔τ相关距离,和汉明距离被用来测量这些数据集的相似度。基于这些距离,生成一个网络图来显示这些数据集的关联。数据2(一个)2 (b)说明了关联数据集的基于GeneGO通路和KEGG途径,分别。

2透露一个重要地区跨多个数据集分布特征的重要途径。很明显,从图之间的距离两个lapointe [29日]数据集是最接近在所有的数据集。数据集由Dhanasekaran et al。20.),汤姆林等。25),麦基et al。23]特性高的路径重叠可以反映在距离,来显示他们的相似之处。数据集从辛格et al。26),罗et al。22),威尔士et al。24],Nanni et al。27互相偏离小于那些从其他六个数据集。

然后我们调查了区域的每个数据集的组织标本来源,表中列出4。样品Dhanasekaran et al。20.和汤姆林等。25)是来自同一个地方;麦基的et al。23接近他们。辛格的样本等。26),威尔士et al。24和罗等。22,30.)来自相邻的州在美国。虽然样品Lapointe et al。21)没有一个特定的位置,作者告诉我们他们的两个实验数据集来自患者相同的人口。显然,之间有明显的一致性数据集相似度和样本来源分布。

考虑不同的微阵列平台的影响,我们比较每个数据集的总独特基因为了证明分布特征的重要途径是由不同数据源,而不是不同的实验平台。暗示,如图3实验平台的相似之处,这里的重叠部分的nonredundant探针用于不同的平台,不相关的区域分布。因此,癌症信号通路水平的区域分布是独立的实验平台。

4所示。讨论

4.1。比较不同实验显示小重叠之间的度

DNA微阵列的应用调查癌症导致的众多微阵列研究检查相同的临床条件。然而,实验从不同的群体有不同的结果当度列表直接比较。差距是在这项研究中,5的荟萃分析结直肠癌微阵列表达数据集从4独立实验室进行。我们计算任意两个数据集之间的两两重叠度的比例,却发现两个列表之间的重叠是令人失望的小(~ 5%)。

这种矛盾被观察到的基因表达分析各种类型的癌症。例如,在两位杰出的研究,旨在预测乳腺癌患者的生存31日,32),两组声称已经生成的基因列表和预测能力,但是只有17基因出现在两个列表。在另一个试图预测乳腺癌的转移五年,凡不转向et al。31日和王et al。33]报道的基因集具有良好的预测性能,分别。但预测成功的学业感到沮丧的事实metastasis-related基因的集合被这两个独立的研究只有3重叠基因。最近我们的同事310]meta-analyzed独立与前列腺癌相关的微阵列数据集,但结果集度只有~ 20%每个数据集之间的重叠。

这种缺乏协议的最简单的解释是微阵列平台的变化,实验样本,正常化和分析方法。开放的问题是,然而,不一致是否可以认为只有这些微不足道的原因吗?

为了解决这个问题,Ein-Dor et al。4]试图删除所有上面提到的技术差异分析一个乳腺癌数据集(31日用一个方法)。通过随机生成训练数据集,它们证明了相同的分析可以获得许多同样预测基因列表和两个名单,通常情况下,只有一小部分基因。这一发现表明,低一致性发生即使在使用相同的技术复制测试样品。这种不一致或不稳定的原因是,(1)度的数量大而样品的数量是有限的;(2)结果集的度波动根据病人的子集用于基因的选择。

4.2。识别健壮的分子签名功能模块级别或通路水平

在这项研究中,我们评估了一致性的签名5大肠癌不同平台上产生的数据集。虽然度列表选择只有~ 5%重叠,他们丰富途径仍是一致的。各级一致性分析提供了确凿的证据,癌症信号通路水平减少直接比较的差异观察度和更一致的跨多个数据集在基因水平。

随着肿瘤生物学的理解的加深,我们认识到,致癌作用与协调的分子变化特征。功能相关的基因通常显示协调的表达来完成他们的角色;人会因此期望不一致度列表在独立实验在功能上更加一致。换句话说,度的差异不太明显,当它们映射到官能团或生物通路。

以下这条线,一些先前的研究已经将工作重点从单个基因转移相关的生物组织分析癌症的基因微阵列数据。例如,为了研究生物的健壮性主题,Hosack et al。34]应用表达分析系统的浏览器(缓解)确定度的生物主题列表由不同的基因选择方法。他们的研究提供了强有力的证据表明,生物基因选择的主题是稳定的不同方法。朱et al。35)开发了一个新的工具识别癌症签名功能模块的水平。其应用两种癌症类型表明,享受显式相关性癌症生物学功能模块。最近,杨et al。36)提出了度列表下检测到不同的语义相似度度量统计阈值和不同的研究。他们报告说,基因列表可以显示功能一致的语义相似度。此外,Gorlov因此et al。37)进行前列腺癌基因的功能注释分析了两种不同的方法。他们观察到相当大的重叠生物功能由不同的方法。

近年来,途径分析研究中获得了大量的关注癌症的微阵列数据7,34]。通路分析通常使用预定义的路径识别度数据库相关。据报道,通路分析应用于微分基因列表下检测到不同的统计方法产生了共同的结果(38]。这个发现在我们之前的研究验证王等。3),评估的一致性签名在10前列腺癌产生的数据集不同的平台。尽管度数据集共享少得可怜,但他们DEG-enriched途径仍是一致的。

4.3。寻找共同签名在一群遗传同质性

至于第二个假设我们假设轴承相似的遗传和环境因素的个体倾向于有更多的共同通路。然而,信息的遗传/环境特征患者样本通常是缺乏。我们认为它应该是统计上合理的地理位置相似的样本资源测量他们的遗传和环境因素。根据异常丰富的相似路径发现GeneGO和KEGG,我们能够分类10个不同的前列腺癌相关数据集分成几组。数据集从相同或相邻的地理位置会驻留在同一组。换句话说,我们观察到的一个重要地区跨多个数据集分布特征的重要途径。在这个意义上的分子签名从地理上相邻的组织标本更比来自地理上孤立的样品一致。这个观察基本上是按照我们的假设的可比性癌症分子机制不同的个人与他们的遗传相似性。

癌症是一个异构的疾病,这反映了无数的病因学和基因的相互作用贡献(39]。因此癌症患者的基因表达谱是不同的,取决于遗传信息等因素,环境的影响和个人行为。遗传和环境因素的作用在调节基因表达变异在人类已进行了广泛的调查。以往的研究对癌症微阵列分析,然而,忽视了个人间基因表达的变化。很可能表达的差异,似乎与疾病相关的可能实际上代表随机遗传变异。这种情况将进一步引入错误的发现和减少的整体再现性度检测。这个问题被提到了米歇尔•et al。40),调查7发布数据集的稳定性预测癌症患者的预后。观察,预测基因列表报告的各种团体高度不稳定,强烈地依赖于训练样本选择的子集。

评估,实现一个典型的两个预测基因列表之间的重叠50%,数千的表达谱的病人需要(41]。不幸的是,获得目前这种大量样本中是不切实际的由于有限的可用性和组织金融约束。一个更实际的方法是寻找共同签名中其他基因同质人口比混合人口。虽然不同的人可能有不同的监管机制和矛盾的癌症相关的通路,我们假设轴承相似的遗传和环境因素的个体倾向于有更多的共同通路。

因此将合理组患者成定义良好的小子组的基础上,每个人的独特的遗传和环境信息。这样,癌症的个体差异机制是解释当我们分析癌症表达数据从不同的资源。这样的调查将有助于找到特定人群癌症通路,促进个性化医疗。

5。结论

以前的观测的基础上,我们提出了两个新的癌症的观点签名识别。pathway-based方法提出本文将希望改善不同微阵列数据的可比性,因此,可能会导致更有效的和可靠的生物芯片结果的解释。此外,特定人群癌症签名的生成将有助于提供有效治疗病人最有可能受益于这样的待遇,使“个性化医疗。”越来越多的癌症数据集,在未来的挑战是收集更多的癌症数据集从独立人口来证明我们的假设。

利益冲突

作者声明他们没有直接金融与本文中提到的商标可能会导致利益冲突。

确认

这项工作得到了国家自然科学基金(91230117,31170795)资助,专门研究中国高等教育的博士项目基金(20113201110015)、苏州的国际科技合作项目(SH201120)和中国国家高技术研究发展计划(863计划,批准号2012 aa02a601)。

补充材料

补充表1:前列腺癌基因表达的详细信息荟萃分析中使用的数据集。

补充表2:262 GeneGO通路的详细清单,富含度(p值< 0.05)

补充表3:111 GSEA基因集的详细清单,富含度(笔名p值< 0.05,罗斯福核反应能量< 0.05)

  1. 补充表