文摘
肿瘤复发和转移通常发生在肝细胞癌患者手术后,预后并不乐观。因此,寻找有效的生物标志物的预后非常重要。首先,HCC-related TCGA收购的数据和地理数据库。基于地理数据,256个差异表达基因(度)首先获得。随后,澄清度的函数,clusterProfiler包被用来进行功能富集分析度。蛋白质相互作用(PPI)网络分析20关键基因的筛选。关键基因通过GEPIA过滤数据库,由11个中心基因(F9, CYP3A4, ASPM, AURKA CDC20, CDCA5, NCAP) PRC1, PTTG1, TOP2A,和KIFC1)筛选出来。然后,考克斯单变量分析应用于构建一个预后模型,其次是预测性能验证。与计算的风险评分模型和常见的临床特征,进行单变量和多变量分析来评估预后模型是否可以单独使用对预后的预测。总之,目前的研究筛选肝癌预后基因签名基于公共数据库。
1。介绍
肝癌最常见癌症和第四的排名第六的全世界癌症死亡的主要原因1]。肝细胞癌(HCC)(占75% -85%)参与了原发性肝癌(2]。肝切除术、射频消融术、经导管动脉化疗栓塞术、肝移植、化疗,和其他策略被应用于肝癌,但其预后仍不乐观3]。大约70%的肝癌患者存在肿瘤转移或复发手术后5年内(4]。组织学分级、区域入侵、远处转移和其他独立危险因素密切相关肝癌的复发和预后不良(5]。然而,肿瘤异质性的持续改进和分子机制的研究已经发现越来越多的肝细胞癌的分子标记,这将为肝癌治疗提供新的策略。
微阵列技术和生物信息学方法被广泛应用到屏幕(度)的差异表达基因在基因组层面来帮助我们识别HCC-related度和功能通路。此外,基因芯片可以快速检测度,生成切片数据,并将它们存储在公共数据库,这是一个可靠的技术(6]。因此,大量的有价值的证据可以挖掘新的研究基于这些数据。例如,越来越多的潜在生物标志物可以开采利用公共数据库(7- - - - - -9]。例如,王等人的研究使用RNA序列(RNA-seq)数据的透明细胞肾细胞癌,TCGA的数据库来识别度和15个中心基因被发现是重要的在预测预后和进展ccRCC [10]。黄等人的研究发现模块最相关高层前列腺癌和显示模块内的中心基因(11]。肝癌,前25%的度GSE62232数据集被香港等人筛选模块选择与预后相关,和蛋白质相互作用(PPI)网络是由5个候选基因筛选出来增殖细胞核抗原,包括RFC4, PTTG1, H2AFZ, RRM1 [12]。
在这里,两个信使核糖核酸微阵列数据集和seq数据集得到TCGA从GEO数据库;然后,分析后得到了度。后,基因本体论(去)和《京都议定书》百科全书的基因和蛋白质相互作用(KEGG)富集分析被用来预测度涉及生物功能和途径。PPI网络和考克斯分析介绍了筛查预后基因签名。
2。材料和方法
2.1。数据下载和处理
GSE36376(193年正常,肿瘤240)和GSE76427(115年52岁的正常肿瘤)从GEO数据库选择数据集(https://www.ncbi.nlm.nih.gov/geo/)。这两个数据集的平台是GPL10558Illumina HumanHT-12 V4.0芯片。基因表达矩阵和肝细胞癌的临床资料,TCGA数据库的访问进一步验证。微分表达式分析( , )是由Limma包(13]。
2.2。浓缩度的分析和PPI建设
去KEGG富集分析进行度使用clusterProfiler包[14的R软件。去浓缩度的分析是用来研究生物意义。KEGG通路富集分析寻找关键路径与度密切相关。阈值如下: 和值< 0.05。
PPI网络被使用字符串数据库构造为度,分别为(15]。然后,交互 是用于构造PPI网络。Cytoscape 3.7.0用于可视化基因在PPI网络和基因网络之间的连接度。之后,排名前十的基因数量的连接节点选择构建一个单独PPI网络图。
2.3。建设和评估预后模型
Cox回归分析应用于构造预测模型与“生存”R包(16]。主成分分析(PCA)是用来确定样品是否可以分为不同的集群基于风险评分的factoextra R包(17]。中华民国曲线绘制了timeROC包(18]。
2.4。生存分析的度
GEPIA数据库可用于个人分析。在这项研究中,确认的表情,总生存期(OS)分析,和无病生存期(DFS)分析上面的关键基因进行使用GEPIA数据库,和log-rank测试是用来测量统计意义。生存R包(16)是用于绘制生存曲线之间的高收入和低风险组。
3所示。结果
3.1。筛选肝癌的重要度
两个数据集(GSE36376和GSE76427)与肝细胞癌在地理数据库中被选中。随后,微分分析是在数据集上进行的 和 。GSE36376数据集有446度(83调节度,363度使之抑制)(图1(一)),而437度在GSE76427数据集(70调节度,367度使之抑制)(图1 (b))。接下来,度的两个数据集分割获得共享度。如数据所示1 (c)和1 (d),有24个基因高表达,232个基因的低表达的共同之处。这些重要度被选为后续分析。
(一)
(b)
(c)
(d)
3.2。功能分析
去分析结果显示,24分割的上调基因主要集中在核分裂,染色体隔离,核分裂,有丝分裂纺锤体组织,姐妹染色单体分离,和其他途径(图2(一个))。KEGG分析展出,这些基因主要是聚集在信号通路如卵母细胞减数分裂,细胞周期,人类t细胞病毒感染(图12 (b))。分割的表达下调基因主要集中在小分子分解过程中,有机酸生物合成的过程中,脂质本地化,脂质运输、急性炎症反应通路,和蛋白质激活级联(图2 (c))。这些基因化学致癌,视黄醇代谢,代谢外源性物质的细胞色素P450,化学致癌作用,补充凝血级联,药物metabolism-cytochrome P450和碳代谢信号通路(图2 (d))。因此,这些度可能影响肝癌的发展通过影响这些途径。
(一)
(b)
(c)
(d)
3.3。PPI网络的建立和分析
PPI网络构建,节点度计算。相应的节点度的十大中心基因表现出表1。在数据3(一个)和3 (b),PPI网络调节和表达下调重大偏差,分别构造。为了更好地可视化,Cytoscape被用来构建的交互图10和10个低表达中心高度表达的基因。它可以观察到,这些基因之间的相互作用,表明相互作用可能与肝癌的发展(抑制或促进肝癌的发展)。此外,TOP2A和FTCD位于图的中心,所以认为他们可以作为目标,进一步探索在肝癌中的作用。
(一)
(b)
3.4。基因识别和肝细胞癌预后模型建设中心
20 GEPIA数据库关键基因进行了分析,并建议upregulation 15基因的差别,对这些符合本研究。13个基因的操作系统曲线和DFS 14个基因的生物学意义。与显著差异基因表达分析,系统分析,和DFS分析是分割的,11个基因(ASPM, AURKA CDC20, CDCA5, KIFC1, NCAPG, PRC1, PTTG1, TOP2A, CYP3A4,和F9)终于筛选基因中心后续验证(图4(一))。检查中心基因之间的相关性和预后状况,介绍了单变量Cox分析构建10-gene预后TCGA签名的数据集被称为训练集(图4 (b))。TCGA样本数据库被分成高和低风险组中值的基础上风险评分(图4 (c))。同时,表达谱和生存状态分布的样本(数据4 (d)和4 (e))。检查预测性能,ROC曲线绘制基于训练集和验证集(GSE76427),分别揭示(数据预测的最优性能4 (f)和4 (g))。此外,PCA和生存分析进一步验证了。主成分分析表明,高和低风险组明显分为两个集群(图4 (h)),生存分析,低风险患者共享一个相对最优的生存状态(图4(我))。识别风险评分是否可以作为一个独立的风险指标,进行了单变量和多变量Cox分析常见的临床特征和风险评分。结果证明,预后模型提供了一个健壮的独立性(数字5(一个)和5 (b))。此外,基于临床特征和风险评分的计算图表设计综合预测1 -,3 -,和5-year-survival率,其次是策划实际和预测生存率之间的校正曲线(数据5 (c)- - - - - -5 (f))。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(一)
(b)
(c)
(d)
(e)
(f)
3.5。检查Prognosis-Related基因
验证prognosis-related基因(ASPM, AURKA CDC20, CDCA5, KIFC1, NCAPG, PRC1, PTTG1, TOP2A,和CYP3A4)在肝细胞癌,肿瘤和正常之间的表达分析样本,我们观察到的所有基因的mRNA表达除了CYP3A4明显调节,而CYP3A4呈现相反的趋势(图6)。然后,生存分析之间的高和低表达的基因进行,所有基因的高表达除了CYP3A4了预后不佳的表现(数字7和8)。总结一下,10 prognosis-related基因显示显著差异的表现和预后方面的性能。
4所示。讨论
肝癌的主要原因包括慢性肝炎病毒感染、基因突变,细胞损伤,酒精性肝病,黄曲霉素中毒。但肝癌的分子机制仍不研究。一个重要的角色在肝癌细胞周期调节(19- - - - - -21]。我们的研究还表明,功能性浓缩度显著调节细胞周期通路。细胞周期蛋白D1,原癌基因、RAS突变和细胞周期蛋白D2启动子甲基化与肝细胞癌(22,23]。此外,拼接的变化NT5E、Sulf1 SLC39A14也与肝细胞癌(24- - - - - -26]。大多数肝癌患者没有及早发现不适合激进的治疗,这可能导致患者的不良预后。因此,潜在的以及急需有效的标记。微阵列技术帮助我们调查肝癌的基因变化和识别小说在其他疾病的生物标记物。
从两个数据集,得到了度。883度包括153高表达基因和730低表达的基因。富集分析表现出基因高表达在核裂变丰富,有丝分裂、细胞周期、DNA包装、卵母细胞减数分裂,叶酸合成,progesterone-mediated通路的卵母细胞成熟。低表达基因主要是在代谢过程中,主要的免疫途径,和氧化过程,如有机酸生物合成、小分子分解代谢过程中,脂质运输和定位,immunoglobulin-mediated免疫反应,B细胞反应,环氧酶P450通路。细胞周期过程失调和有丝分裂细胞周期在肿瘤发展至关重要23,27,28]。CDC20,细胞周期调控之一,据报道,作为癌基因(29日],在最新的研究中,肿瘤发生的作用和分子机制的CDC20肝癌发展也指出30.]。总之,去富集分析表明变化主要是聚集在细胞分裂,核分裂,有丝分裂。变化KEGG化学致癌作用,糖酵解/糖质新生,drug-cytochrome P450,补充凝血级联,碳代谢,PPAR和其他信号通路。
在PPI网络图,我们选择10高表达基因和基因低表达基因为中心,与节点度大于10。基因,其中枢纽节点度调节ASPM, AURKA, CCNB2, CDC20, CDCA5, NCAPG, PRC1, PTTG1,和TOP2A是12,而节点度下调FTCD多达25。在这些中心基因,TOP2A确认与肝癌的早期发病,短生存,微血管浸润,化疗耐药、复发31日,32]。因此,它被认为是一种抗癌药物的目标(33- - - - - -35]。HER2和TOP2A通常coamplified在乳腺癌HER2扩增36]。然而,TOP2A超表达的肝癌不是与HER2的过度37]。此外,TOP2A可以诊断的生物标志物,治疗和预后的肺癌,结肠癌和卵巢癌38- - - - - -40]。一些临床报道表明overexpressing TOP2A非常相关的存活时间较短(35,37]。Formiminotransferase cyclodeaminase (FTCD)表示在每一个哺乳动物,但它的积累是最高的肝脏(41]。FTCD包含两个活跃的网站(英国《金融时报》和CD)在不同的蛋白质结构和催化组氨酸退化叶酸代谢(42]。此外,FTCD参与高尔基氏体和代谢过程43]。FTCD被认为是一个候选人在肝细胞癌肿瘤抑制剂,抑制肝细胞的调节细胞凋亡、DNA损伤、磷脂酰肌醇3-kinase / Akt信号通路。过度的FTCD抑制肝癌细胞增殖,导致增加肝癌细胞中PTEN蛋白的水平,但减少PI3K,总一种蛋白激酶和磷酸化Akt蛋白水平(44]。在肝癌,FTCD也能作为一个有用的诊断生物标记来区分早期肝细胞癌和良性肿瘤(45]。,PPI网络显示TOP2A和FTCD处在中央的位置,直接或间接的相互作用与其他基因,表明TOP2A和FTCD在肝癌发展发挥了关键作用。之后,GEPIA数据库分析了20个枢纽基因表达分析相结合,系统分析,和DFS分析,最后,选择11个基因的预后模型建设。他们中的大多数参与肝细胞癌的发展,并且可以作为肝细胞癌的预后标记。一个例子是,upregulation CDC20可能预测减少了操作系统和DFS在肝细胞癌患者46),这是按照我们的发现。以上研究充分展示这些中心基因在肝癌发展的重要性。
提取prognosis-related基因在20来自PPI网络,Cox回归分析应用,10-gene预后签名了。之后,验证过程是由中华民国,km, PCA。几项研究已经提出了肝细胞癌预后签名后,类似的策略(47,48]。然而,相比上面的研究,我们执行一个更健壮的HCC预后模型基于ROC分析结果。
总之,结合地理和TCGA的数据集,我们筛选肝癌prognosis-related基因,紧随其后的是考试的预后模型。然而,相应的湿实验我们设计尚未安排实际的验证。
数据可用性
支持这项研究的结果的数据可以在合理的请求从相应的作者。
的利益冲突
作者宣称没有利益冲突。