文摘

客观的。这项工作的目的是识别特异表达基因和通路的ccRCC暂时根据系统追踪再加权模块特异表达的蛋白质相互作用网络(PPI)。方法。首先,正常和ccRCC PPI网络推断,再加权根据皮尔逊相关系数(PCC)。然后,我们确定使用最大重量改变模块由两部分构成的匹配和排名在nonincreasing秩序。改变模块的组成进行了分析,最后,基因和通路富集分析基因的改变模块进行了基于表达式分析系统的探索(缓解)测试。结果。我们获得136年、576年、693年和531年中断模块ccRCC阶段I, II, III, IV,分别。基因改变模块的组成分析显示有56个常见基因(如MAPK1,CCNA2,GSTM3)中存在的四个阶段。除了通路富集分析确定5共同通路(谷胱甘肽代谢、细胞周期、丙氨酸、天冬氨酸和谷氨酸代谢,精氨酸和脯氨酸代谢,细胞色素P450和外源性物质的代谢)我在阶段,II, III和IV。结论。我们成功地识别特异表达基因和通路的ccRCC在不同的阶段,而这些可能的潜在生物标记和过程在ccRCC治疗和病因学机制。

1。介绍

透明细胞肾细胞癌(ccRCC)是最常见的一种肾癌和占大约60%到70%的肾肿瘤(1]。患者ccRCC构成异构病理阶段,年级组患者的变量,用于分层患者预后,并推断(2]。然而,为患者提供可靠的信息预测治疗反应是挑战由于分子异质性ccRCC [3]。描述ccRCC的发病机理研究基因和表观遗传变化及其对关键分子的影响和各自的生物通路至关重要的改进目前的诊断,预测,药物开发4]。例如,研究表明,ccRCC密切相关的肿瘤抑制冯林道市(VHL)基因突变,导致缺氧诱导因子(HIF-1稳定α和HIF-2α,也被称为HIF1A和EPAS1)零星和家族形式(5,6]。

高通量实验技术的进步,大量的蛋白质相互作用(PPI)数据发现,可以研究蛋白质在系统层面上(7,8]。此外,PPI网络可以建模为一个无向图,顶点代表蛋白质和边缘代表蛋白质之间的相互作用,优先考虑疾病相关的基因或通路和理解疾病机制的做法(9,10]。但它已经注意到PPI数据往往与假阳性和假阴性率高的限制相关的实验技术和蛋白质相互作用的动态特性地图,这可能对复杂的发现算法的性能产生负面影响(11]。提出了许多计算方法来评估蛋白质相互作用数据的可靠性。一个迭代的刘提出的评分法等。12选择)来评估的可靠性和预测新交互,它已被证明比其他方法有更好的表现。然而,同时研究多个疾病使得它难以辨别清楚复杂的潜在机制。

此外,重要的是要有效的组学数据集成到这样一个分析;例如,楚和陈13)结合PPI和基因表达数据构建一个癌症在宫颈癌摄动PPI网络学习获得,丧失基因潜在的药物靶点。杂志等。14)结合PPI和基因表达数据构建组织60 PPI网络组织和用于优先疾病基因。超越简单的得分基因在基因调控网络,它是研究的关键模块的行为在特定条件下以一种受控制的方式来理解疾病机制和影响小说的惯用伎俩基因(15),因为一些重要的基因可能不是可识别通过自己的行为,但是他们的变化是可量化的,当考虑结合其他基因(例如,作为模块)。什么是必需的,因此,系统跟踪基因,通路,和模块的行为在特定的条件下以一种受控制的方式。

因此,在这篇文章中,我们进行了时间(阶段I, II, III和IV ccRCC)分析正常对照组和ccRCC病人之间识别基因和通路中断通过系统跟踪改变再加权PPI网络的模块。为了达到这个目标,我们首先推断正常和ccRCC例不同阶段PPI网络根据皮尔逊相关系数(PCC);接下来,clique-merging算法进行探索在PPI网络模块,这些模块识别相比,我们改变模块;然后基因这些模块组成进行了分析;最后,通路富集分析基因改变模块进行了基于表达式分析系统的探索(缓解)测试。

2。材料和方法

2.1。推断和ccRCC PPI网络正常
2.1.1。PPI网络建设

我们利用人类PPI网络的数据集检索的搜索工具相互作用的基因/蛋白质(STRING),它由16730个基因和1048576互动(16]。为字符串,self-loops和蛋白质无表情值被移除。剩下的最大连通分支分数超过0.8作为选择的PPI网络,由8590个基因和53975年的交互。

2.1.2。基因表达数据集,数据集预处理

微阵列表达谱,e -大地测量学- 53757,从数组表达数据库选择ccRCC相关分析。e -大地测量学- 53757存在于Affymetrix GeneChip人类基因组U133 + 2.0平台分为4组根据肿瘤阶段(阶段I, II, III和IV)。有24日19日14日和15 ccRCC病人阶段I, II, III和IV,分别;正常对照组的数量在每个阶段是等于其病人的数量。

表达谱的预处理是标准方法,组成“rma”[17),“分位数”[18),“马斯”[19),和“medianpolish”(17]。具体而言,“rma”方法进行背景校正,消除非特异性杂交的影响(17]。分位数规范化算法是一个转换的具体案例 ,我们估计 每个数组的经验分布 使用平均样本的经验分布分位数(18]。完美匹配(PM) /不匹配(毫米)校正是由“马斯”的方法(19]。总结调查的数据是由“medianpolish”[17]。多片的线性模型是适合每个探测数据集。特别是,一套探头 探测器和数据 数组,我们安装以下模型, ,在那里 是一个和探针的效果呢 是日志2表达式的值。

接下来,基因的特征筛选的数据过滤方法过滤包,和与多个基因探针的数量是20102。最后,我们获得了每个基因的基因表达值,包括来自144个样本的20102个基因(72名正常对照组和72 ccRCC患者)。

2.1.3。权重由PCC基因的相互作用

基因相互作用网络基于ccRCC患者不同阶段(阶段I, II, III和IV)和正常对照组被PCC再加权评估的概率两个coexpressed基因配对。PCC是衡量两个变量之间的关系,给−1和+ 1之间的值在内地(20.]。新闻申诉委员会的一对基因( ),该编码对应的配对蛋白( )在PPI网络互动,被定义为 在哪里 是基因表达数据的样本的数量; 是基因的表达水平 在样例 在特定的条件下; 代表的意思是基因的表达水平 ;和 基因表达水平的标准差表示 (或 )。

新闻申诉委员会一对蛋白( )被定义为相应的成对基因的PCC一样( ),这是 。如果 具有积极的价值,有一个积极的线性相关性吗 。此外,我们PCC每个基因基因的相互作用定义为体重的价值互动。

2.2。从PPI网络识别模块

摘要模块证明算法是基于clique-merging [21,22),类似于刘等人提出的方法。12]。它包括三个步骤;在第一步中,它发现的最大派系加权PPI网络。最大派系进行评估与pruning-based快速深度优先搜索算法提出的获利,et al。23]。它利用深度优先搜索策略,列举所有最大派系和枚举过程中有效地修剪nonmaximal派系。

在第二步中,我们指定一个分数每个小团体;一个小团体的分数 被定义为它的加权密度 : 在哪里 之间的交互的重量吗 。我们排名这些派系nonincreasing顺序加权密度

最后,我们通过这个命令列表多次合并高度重叠的派系构建模块。对于每一个小团体 ,我们不断寻找一个小团体 ( ),这样的重叠 ,在那里 重叠是一个预定义的阈值(15]。如果这样的 被发现,我们计算了加权互连 之间的 如下:

如果 ,然后 被合并到 形成一个模块;其他的 被丢弃的。

我们捕获交互重量差异的影响正常和ccRCC派系的情况下通过加权density-based排名。加权密度更高的等级分配给更大派系。因此,我们预期派系与蛋白质或削弱交互下降排名导致改变模块生成,从而捕获模块正常和ccRCC例之间的变化。

2.3。比较模块之间正常和ccRCC条件

方法比较模块之间正常和ccRCC条件类似于斯里赫里提出的方法和Ragan15]。在细节, 代表了PPI网络正常的控制和ccRCC病人识别模块的设置 ,分别。为每一个 、模块相关密度 被定义为

相关的密度ccRCC模块( 同样被计算出来。

中断或改变模块对被评估建模 作为最大重量由两部分构成的匹配(24]。首先,我们建立一个相似图 ,在那里 ,即 Jaccard相似性和 微分关联之间的密度 , 阈值有2/3和0.05 (15]。 加权每条边( , )。我们接下来确定中断模块对 通过检测的最大重量匹配 ,我们排在nonincreasing阶的微分密度 。最后,我们在ccRCC推断基因 并在nonincreasing顺序排名 。确定修改模块,我们匹配的正常和ccRCC模块通过设置高 ,它确保了模块对有同样的基因组成或失去了或者获得了只有少数基因。

2.4。功能富集分析

进一步研究基因的生物学功能通路改变模块正常对照组和ccRCC京都基因和基因组的百科全书(KEGG)通路富集分析为注释,是由数据库可视化、发现和集成(大卫)(25]。KEGG途径与 值< 0.001选择基于易用性测试实现的大卫。放松调控基因的分析表明分子功能和生物过程独特的每个类别(26]。缓解评分被用来检测重要的类别。的功能和通路富集分析、阈值的最小数量的基因对应的类别项> 2被认为是显著的 在哪里 是背景的数目的基因; 是一个基因的基因数量的基因列表; 是基因在基因的数目列表包括至少一个基因集; 是一个基因的基因数量列表在后台的基因; 被替换为

3所示。结果

3.1。分析在ccRCC PPI网络中断

我们获得了20102个基因的正常和ccRCC例经过预处理,然后研究这些基因之间的十字路口的交互和字符串PPI网络和确定PPI网络的正常和ccRCC病例。正常的 和ccRCC PPI网络的不同阶段(阶段I, II, III和IV)显示相同数量的节点(8050)和(49151)的相互作用。虽然他们的交互成绩(权重)不同,如图1,之间没有统计学意义正常和ccRCC案件在不同阶段根据Kolmogorov-Smirnov整体水平测试( )。然而,ccRCC网络和正常网络之间的分数分布不同,特别是对于第三和第四阶段的得分分布0 ~ 0.3(数字1 (c)1 (d))。更仔细地检查这些交互,分布在不同阶段也不同,和ccRCC网络和正常网络的变化越来越明显的阶段我四期。

3.2。分析中断ccRCC模块

Clique-merging算法选择确定中断或改变模块从正常和ccRCC PPI网络。在细节,我们执行正常之间的比较分析 和ccRCC 模块理解模块级别的中断。最大派系的正常和ccRCC PPI网络得到快速深度优先算法的基础上,与节点的阈值和最大派系> 5选择模块分析。总的来说,我们注意到的模块总数(1895),以及模块的平均大小(20.235),几乎是相同的两个条件和四个阶段。表1显示整体改变规则的加权正常模块之间交互密度和ccRCC模块;我们可以发现最大和平均加权密度的正常情况下小于ccRCC每个阶段;详细的平均加权密度第四第三阶段(0.075)和(0.089)我有点高于阶段II(0.068)和(0.046),同时,在整体水平,成绩模块密度的差异没有统计学意义之间正常和ccRCC情况下在不同阶段 。此外,模块的加权密度分布和数字模块之间的关系如图2。模块的数字是不同的密度范围从0.05到0.25的交互时,尤其是对阶段II, III, IV ccRCC。这些差异的原因可能是ccRCC加权密度变化的不同阶段(表1)。

接下来,我们获得中断模块对(ccRCC模块和其相对正常的模块)基于建模 最大重量由两部分构成的匹配,然后计算其PCC差值(也称为改变模块相关密度值)。与阈值 = 2/3, 密度,改变模块的总体条件相关阶段的我,II, III, IV ccRCC没有显著差异( 、表2)。整体下降的最大相关性与深化阶段观察ccRCC模块;除了最小相关密度III期四个阶段中是最小的。此外,改变模块相关密度分布如图3模块是不同的,相同密度区间的四个阶段,特别是在−0.05 ~ 0.20的分布区间。第四阶段,首先增加然后减少模块分布密度增加;最大的达成在0 ~ 0.05节。

3.3。深入分析了模块

当限制条件下的随机检验校正模块 ,我们获得了136、576、693和531中断模块阶段I, II, III, IV,分别。同时,总共得到了1026个基因的中断模块,详细,我317个基因的阶段,第二阶段的450个基因,658个基因的第三阶段,第四阶段的690个基因。因此,56个常见基因中存在四个阶段进行了探讨(表3),比如MAPK1,CCNA2,GSTM3

我们都知道,差异表达基因(DE)通常是选择屏幕正常对照组之间重要的基因和疾病患者;因此我们确定了2781 DE基因正常对照组和ccRCC病人之间基于线性模型的四个阶段的微阵列数据的方案。常见的交叉基因和基因考虑,我们获得了19个基因(铝青铜,ASS1,GSTM3,MAD2L1,ALDH1B1,ALDH4A1,MAPK1,GSTZ1,GATM,FTCD,CCNA2,CENPF,GSTM4,asn,CCNB1,争论不休,ACY3,GSTA3,ESPL1),这可能ccRCC发展发挥了重要的作用。

通路富集分析基于基因中断模块执行不同的阶段,在阈值和结果 值< 0.001图所示4;有5个常见的途径(谷胱甘肽代谢、细胞周期、丙氨酸、天冬氨酸和谷氨酸代谢,精氨酸和脯氨酸代谢,细胞色素P450和外源性物质的代谢)我在阶段,II, III和IV。

4所示。讨论

本文的目的是识别特异表达基因和通路ccRCC从第四阶段我阶段根据系统跟踪再加权PPI网络的模块中特异表达。我们再加权获得正常和ccRCC PPI网络基于PCC然后在PPI网络识别模块。通过比较正常和ccRCC模块在每一个阶段,我们获得了136年,576年,693年和531年中断模块阶段I, II, III, IV,分别。此外,共有56个常见基因(如MAPK1CCNA2)和5常见的途径(如细胞周期、谷胱甘肽代谢,和精氨酸和脯氨酸代谢)四个阶段探讨了基于基因的组成和通路富集分析。常见的基因和通路从我为ccRCC四期都是重要的发展阶段;如果我们控制这些签名和在肿瘤的早期生物学进展,对治疗可能有积极作用。

MAPK1(增殖蛋白激酶1)编码的一员MAPK家庭,作为一个集成点为多个生化信号和参与多种细胞过程如增殖、分化、转录调控和开发(27]。罗伯茨和Der报道,异常的监管MAPK导致人类癌症和其他疾病,如ccRCC;特别是,MAPK被强烈的主题研究审查导致药理抑制剂治疗癌症的发展(28]。此外,MAPK参与者生物过程是关键信号通路参与正常细胞增殖和分化的调控。例如,一个增加的激活MAPK信号转导途径是观察癌症进展(29日]。MAPK/细胞外signal-related激酶途径被激活在肿瘤和代表一个潜在的治疗目标30.]。因此,ccRCC常见肿瘤有关MAPK密切关注。

此外,我们研究了单基因交换行为改变模块的四个阶段,MAPK家庭相关的基因改变模块作为一个例子。如图5,我们可以发现,对于一个模块(MAPK1,CEBPB,MAPK3,RELA,MAPK14,NFKB1,RIPK2)分阶段I, II, III和IV,其基因成分(节点)是相同的,但成绩的交互(边缘)是不同的。之间的互动价值MAPK1MAPK30.52−0.48、1.09和0.03−阶段I, II, III, IV,分别有一个弱相关的两个基因在第二阶段。它可以解释不同的模块和模块特异表达的存在。交换行为改变模块(CCNA2,MND1,CDC45,RFC4,CCNB1,)如图6

CCNA2表达的细胞周期蛋白A2,体细胞和调节细胞周期进展除以互动与细胞周期蛋白依赖性激酶(CDK)激酶(31日]。符合其作为一个关键的细胞周期调节,表达CCNA2被发现高架在多种肿瘤如乳腺癌、宫颈癌,肝脏和肾脏肿瘤(32]。现在还不清楚的表达增加CCNA2是肿瘤发生的原因或结果;CCNA2- - - - - -CDK导致肿瘤发生癌基因蛋白的磷酸化或肿瘤抑制33]。在我们的论文,我们也证明了价值之间的相关性CCNA2四个阶段的0.603,0.565,1.203和0.978在序列(图6)。我们可以推断,细胞周期中发挥媒介作用的相关性CCNA2和癌症;因此细胞周期进行了讨论。

细胞周期的一系列事件发生在一个细胞导致其分裂和复制,组件和细胞周期失调可能会导致肿瘤形成(34]。它被报道,改变激活蛋白(细胞周期蛋白和细胞周期蛋白依赖性激酶等),导致细胞周期阻滞的失败,因此可以作为标记的恶性表型和细胞cycle-related基因辅助歧视非典型腺瘤性增生的早期腺癌(35]。陈等人证明了细胞周期进程的影响NF -κB活动代表一个分子基础的侵略性肿瘤行为(36]。此外,细胞周期检查点失活允许非整倍性细胞和DNA复制可能支持致癌基因(37),细胞周期监管机构可能是参与《创世纪》的许多肿瘤类型,如ccRCC [38]。我们可以得出这样的结论:细胞周期ccRCC进步发挥了关键作用。

我们的研究结果还表明,ccRCC与代谢通路有密切关系,如谷胱甘肽代谢和精氨酸和脯氨酸代谢。谷胱甘肽代谢起到保护和致病性角色在切除肿瘤至关重要和致癌物的解毒39]。和目前的审查强调谷胱甘肽的作用及相关cytoprotective效果容易致癌作用和肿瘤的敏感性抗癌药物的细胞毒性效应(40]。最近,浩等人发现有关ccRCC三个重要途径,即精氨酸和脯氨酸代谢,aldosterone-regulated钠重吸收、氧化磷酸化,观察(41]。精氨酸和脯氨酸代谢是一个重要的途径在ccRCC被Perroud等人发现之前(42),结果是符合我们的分析。

5。结论

总之,我们成功地识别特异表达基因(如MAPK1CCNA2)和途径(如细胞周期、谷胱甘肽代谢和精氨酸和脯氨酸代谢)ccRCC在不同的阶段,这些基因和通路可能是潜在的生物标记和过程在ccRCC治疗和病因学机制。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢编辑和审稿人的意见和建议在此工作。他们也感谢济南循证医学科技中心的帮助下,统计和计算的建议。