文摘

透明细胞肾细胞癌(ccRCC)是一种致命的癌症。虽然有成熟的治疗方法,仍然存在缺乏严格、科学的方法,对癌症的诊断。长非编码RNA (lncRNAs)是一种非编码RNA (ncRNA)。最近的研究发现变更lncRNA表达式与许多癌症的发生。为了找到lncRNAs ccRCC可有效预测预后,RNA-seq计数数据和临床信息从TCGA-KIRC下载,并从530例包括基因表达谱。然后, - - - - - -意味着用于集群,集群的数量被确定为5。R-package“刨边机”被用来执行微分表达式分析。随后,风险模型由10 lncRNA生物标志物预后显著相关的是通过考克斯和套索回归分析确定。然后,患者分为两组根据基于模型的风险评分,然后,GSEA通路浓缩了。结果表明,代谢和mTOR-related通路被激活在几种途径抑制高危患者。与之前的研究相结合,相信这些10 lncRNAs ccRCC的潜在的治疗目标。此外,Cox回归分析用于验证的独立性风险模型,结果显示,独立风险模型可以用来预测患者的预后。总之,我们的研究发现10 lncRNAs ccRCC的预后相关,为临床诊断和药物开发提供了新思路。

1。介绍

肾细胞癌(RCC)是最常见的癌症在肾脏的成年人,和发病率已增加在过去几十年(1]。ccRCC患者的肿瘤组织经常有出血、坏死、囊性改变,钙化。癌症的发展,将形成血管瘤血栓,甚至转移至淋巴结和其他器官。化疗和放疗ccRCC以来强劲阻力,ccRCC的主要治疗手段是手术,部分切除是最有效和常用的治疗到目前为止(2,3]。尽管大多数ccRCC患者是可以治愈的外科治疗,仍有30%的ccRCC患者手术后肿瘤转移发展(4,5]。许多研究已经参与ccRCC的分子机制。例如,阴和其他调查人员发现,NR1B2可以通过调节抑制ccRCC的发展背阔肌1/2-YAP信号通路(6]。哈基米和其他专家发现,突变在两个后生监管者p21 3号染色体上,BAP1 SETD2,会影响ccRCC[的发展7]。然而,这仍然是一个缺乏ccRCC生物标志物指导临床诊断和治疗。因此,它是非常重要的分子机制进一步研究ccRCC指导治疗药物的开发和临床诊断。

lncRNA是一种不能被翻译成蛋白质的RNA。类似于蛋白质编码记录,lncRNA成绩单由剪接体处理机制(8- - - - - -11]。同时与蛋白质编码基因相比,lncRNA编码基因是由外显子和越来越少少选择性和丰富在进化12]。转录时从增强地区或相邻站点,lncRNAs可以作为支架或指导调节蛋白质protein-DNA交互,作为结合蛋白或microrna的诱饵,和作为增强剂影响基因转录13- - - - - -18]。最近的研究表明,lncRNA的表达影响肿瘤的发展,它扮演了一个角色作为一个肿瘤抑制或促进剂与肿瘤组织的变更在转录水平。例如,翟隽和其他专家发现,之间存在反馈回路lncRNA-URRCC和EGFL7 / p-AKT / FOXO3信号,促进ccRCC的扩散和转移19]。此外,一些研究还发现,热空气能促进宫颈癌的入侵目标Notch通路和人类负重外骨骼可以促进肝细胞癌的转移通过mir - 200 - a - 3 - p / ZEB1信号通路(20.,21]。除了直接影响,lncRNA也发现在许多生物过程中扮演一个关键的监管作用的癌症。例如,lncRNA参与监管,染色质的转录和转录后的流程状态(17,22- - - - - -24]。近年来,随着高通量检测技术的发展和生物信息学分析,基于lncRNA癌症预后模型的建设已成为主流。许多研究已经开采不同癌症的预后标志物表达数据的基础上lncRNAs使用各种生物信息学分析。例如,太阳等人建立了一个基于autophagy-associated预后模型lncRNA为膀胱移行细胞癌(25]。同样的,连et al。26]探索lncRNAs从公共数据库与膀胱癌患者的预后相关。总之,生物信息学分析更有效找到特定癌症的预后生物标志物从复杂lncRNA表达数据与传统方法相比。

在这项研究中,lncRNA表达式匹配矩阵和ccRCC患者的临床信息下载,TCGA用生物信息学方法和分析。首先, - - - - - -意味着集群用于分类的病人,然后单变量Cox,套索,使用多变量Cox回归模型进一步屏幕lncRNAs ccRCC的预后有关。风险模型的基础上,确定lncRNAs被建立,和lncRNAs指出与新陈代谢、免疫和epithelial-mesenchymal过渡(EMT)。总之,我们发现10 lncRNA相关生物标志物的预后ccRCC,进一步理解ccRCC的发展,分子机制提供新思路和实验依据ccRCC患者的诊断和治疗。

2。材料和方法

2.1。数据下载和处理

转录组表达矩阵数据和临床数据匹配的ccRCC患者从TCGA(下载https://portal.gdc.cancer.gov/)12月20日,2019。然后,测序数据样本530 ccRCC患者完整的临床资料(补充表1)获得,样本随机分为训练集和测试集7:3。lncRNAs与人类基因组注释注释文档从GENCODE下载数据库(https://www.gencodegenes.org/),用于后续分析。

2.2。lncRNA - - - - - -意味着集群和病人分组

首先,lncRNA表达数据训练集的标准化的使用规模的函数。训练集数据被用来确定集群数量与弯头的方法,然后,病人分类的 - - - - - -方法根据lncRNA表达谱。最后,将患者分组,根据聚类结果(27,28]。在 - - - - - -意味着集群、平方误差的总和之间的重心和集群中的每个数据点计算失真度定义,降低集群数量的增加。数据集与某些歧视,失真度大大提高,达到一定的临界点,然后,慢慢地下降。这个临界点可以被认为是具有良好的聚类性能。可以确定最佳聚类数的实验线图基于失真度和集群数量,然后 - - - - - -意味着集群可以根据数量确定集群。

2.3。差异表达分析

患者被分成组根据聚类的结果。样本之间的基因表达差异在一个集群和其他集群训练集的样本进行了分析( , )与R-package磨边机(29日,30.]。微分在每个集群lncRNAs终于获得。与热图结果可视化。

2.4。识别ccRCC Prognosis-Related基因

微分表达式后,生存包(31日)是用于执行单变量Cox回归分析探讨差异表达lncRNAs所有集群和lncRNAs筛选临床ccRCC风险显著相关。然后,套索回归分析进行筛选基因冗余prognosis-related使用glmnet包(32]。最后,lncRNAs ccRCC对预后产生重大影响的患者筛选出来。

2.5。建设和风险模型的验证

Prognosis-associated基因得到套索回归分析后,然后,生存包用于多变量Cox回归分析。风险模型被建立,样本在训练集和测试集进行评估与签名基因的表达水平和相应的风险系数。根据风险评分中位数在所有样本,样本分为高危组和低风险组。生存在两组之间的差异与kaplan meier曲线所示。然后,为了评估的准确性和风险模型的预测价值,时间ROC曲线为1年,3年,生存率被吸引到获得曲线下的面积(AUC)值。该模型验证在训练集和测试集。

2.6。模型独立验证

为了验证构建的独立性lncRNA-based ccRCC风险预测的风险模型,传统的临床特点ccRCC和风险值计算模型受到Cox回归分析使用生存的包。

2.7。建立预后列线图

R-package“rms”[33)是用来画一个诺模图基于上述因素,和拟合曲线的预测结果和实际的生存情况。诺模图是用来帮助临床医生评估患者的生存时间。

2.8。功能分析

为了研究筛选基因的潜在机制影响ccRCC患者的预后,GSEA富集分析进行了高和低风险组,和浓缩的结果进行了分析 随着阈值(34,35]。GSEA富集分析用于评估在不同的样本不同的代谢途径是否丰富,最后,感兴趣的基因集的差异在不同的样品。

2.9。数据分析

除非指定的阈值在本研究意义 ,和所有数据的研究中显示的模式 (标准差)。实验结果计算和可视化GraphPad棱镜6 R(3.5.0)软件。

3所示。结果

3.1。 - - - - - -意味着集群和鉴定差异表达lncRNA

首先, - - - - - -意味着集群进行lncRNA ccRCC病人的表达谱来确定最优簇数。失真的程度设置了集群数量从1到15计算。从图可以看出,失真度在集群数量是5后大大提高了然后减少5。因此,集群数量确定5(图1(一))。聚类后,生存分析5集群上执行相应的样品。的结果 - - - - - -意味着集群有显著相关的生存患者,指示 - - - - - -意味着集群可以判断疾病严重度基于lncRNA表达谱和病人(图进行分类1 (b))。为了进一步筛选出差异表达lncRNAs,微分表达式分析样品在一个集群上执行和其他样品的集群。最后,有95个差异表达lncRNAs在集群1中,62年在集群2中,22日在集群3中,集群4和84年22集群5。根据微分表达式的意义,十个基因与最重要的差异选择从每个集群画一个热图(图1 (c))。上述结果表明, - - - - - -意味着集群效果好,并有显著差异的表达lncRNAs不同集群。

3.2。筛选Prognosis-Related lncRNAs和施工的风险模型

单变量Cox回归分析用于分析差异表达lncRNAs筛选,和75年prognosis-related基因。然后,套索回归分析被用来进一步屏幕这些lncRNAs。此后,18个相对独立prognosis-related lncRNAs被选为后续模型建设(数据2(一个)2 (b))。最后,18 lncRNAs获得进一步分析多变量Cox回归步,和10 lncRNAs (KIF9_AS1、GSEC LIN00894, TNFRSF14_AS1, AC147651.4, AGAP2_AS1, RNF144A_AS1, AC008556.1, AL137127.1,和HLA_DQB1_AS1)与预后显著相关的最终确认,和10-lncRNA-based风险模型(图2 (c))构造。训练集的验证、样品分为高危组和低风险组中值显示风险评分。kaplan meier方法用于比较高/低风险组的生存时间。生存率较用于显著性检验,和操作系统曲线被吸引。结果表明,高风险组的OS率显著低于低风险组(图2 (d))。ROC曲线用来评估1年,3年,5年患者的生存时间。结果表明,三组的AUC值都大于0.7,证明风险模型是准确预测患者的预后ccRCC(图2 (e))。然后测试集是用于进一步的验证。事实证明,高危人群的生存时间明显低于低风险组(图3(一个))。ROC曲线呈现的AUC值1年,3年,生存率都约0.7,起诉性能(图的精确模型3 (b))。总之,风险模型由10 lncRNAs建于ccRCC患者的预后进行评估。验证结果表明,该模型准确,显示良好的诊断效率。

3.3。10-lncRNA-Based风险模型在预测预后无关

为了验证是否10-lncRNA风险模型在预测预后无关,基于模型的风险评分+ Cox回归分析临床特点进行了分析。单变量回归分析显示,年龄、pathologic_T pathologic_N, pathologic_M,临床阶段,风险评分明显与患者的预后相关(图4(一))。多元回归分析显示,只有年龄和风险评分与预后显著相关的病人(图4 (b))。结果表明,风险评分基于10-lncRNA签名能够独立预测ccRCC患者的预后。

3.4。列线图建立和验证

由于风险模型使患者的预后的独立预测验证了的诺模图。这列线图结合临床指标和那场0-lncRNA-based风险评分可以用来协助临床诊断(图5(一个))。建立后,诺模图的准确性评估拟合曲线,结果表明,该诺模图显示良好的健身(数字5 (b)- - - - - -5 (d))。基于上述结果,相信的诺模图是准确预测ccRCC患者的生存时间。

3.5。GSEA富集分析在高和低风险组

为了探索不同预后的原因在高危组和低风险组之间,GSEA软件被用来分析两组之间的通路富集。结果表明,通路参与propanoate新陈代谢,mTOR信号通路、细胞粘附、细胞因子受体相互作用,肾细胞癌(图明显不同6)。原来在高危人群,肿瘤组织的代谢活跃,免疫抑制,EMT是激活的。基于上述结果,相信ccRCC患者的不良预后的高危人群可能与上述活动通路的变化。

4所示。讨论

ccRCC是最常见的癌症之一。在美国,ccRCC导致近64000新癌症病例和每年有超过13000人死亡36]。基于基因表达的生物标志物有助于提高早期诊断和预后预测的准确性。近年来,许多生物标记验证预测患者的预后,其中许多有可能预测ccRCC患者的临床预后。例如,MGAT5 ccRCC患者的独立预后生物标志物是一个潜在的肾切除术后(37]。启动子甲基化ccRCC PCDH8与不良预后相关的(38]。姚明和其他专家评估生物功能的CADM1-AS1 microrna并发现CADM1-AS1是一种新的肿瘤抑制ccRCC [39]。此外,这种lncRNA ccRCC与不良预后相关。雪和其他研究人员使用中存在化验检测在ccRCC NBAT-1细胞系的表达和分析NBAT-1和临床病理特征之间的关系。本研究发现,NBAT-1 ccRCC组织和RCC细胞表达明显低于在正常组织和正常细胞,这低水平与预后不良相关(40]。尽管大量的生物标志物与临床意义被实验发现,大多数研究集中在一个生物标志物或少量的样品,结果缺乏临床数据的支持。基于TCGA数据库,本研究分析了数据相关的lncRNAs ccRCC筛查ccRCC预后lncRNA签名。

许多研究筛选lncRNAs ccRCC的预后相关,包括LOC389332 SPRY4-IT1, MFI2-AS114,构造预测模型(41- - - - - -44]。在这项研究中,ccRCC病人被分成五组根据 - - - - - -意味着集群,然后每组的基因表达的差异进行了分析。单变量Cox回归,套索回归和多元回归分析用来确定新的预后ccRCC lncRNA标记。最后,10 lncRNAs (KIF9_AS1、GSEC LIN00894, TNFRSF14_AS1, AC147651.4, AGAP2_AS1, RNF144A_AS1, AC008556.1, AL137127.1,和HLA_DQB1_AS1)。分析,低表达患者TNFRSF14_AS1 AL137127.1有更好的预后和的高度表达KIF9_AS1 GSEC, LIN00894, AC147651.4, AGAP2_AS1, RNF144A_AS1 AC008556.1, HLA_DQB1_had预后差。这些基因的作用除了KIF9_AS1和AGAP2_AS1 ccRCC尚未报道。然而,大多数都与多种癌症的发展密切相关。例如,TNFRSF14_AS1被认为是与乳腺癌发生(45]。AC147651.4被认为是肺癌的生物标志物46]。RNF144A_AS1显示提高淋巴瘤的迁移(47]。此外,据信KIF9_AS1诱导耐药性ccRCC患者通过调节TGF -β(48]。高和其他专家发现ccRCC AGAP2_AS1的高表达患者的预后差(49]。除了上述lncRNAs之外,其他五个lncRNAs尚未报道,和他们的角色在癌症在未来需要进一步验证。总之,这些prognosis-related lncRNAs与癌症的生物功能可能ccRCC进一步研究的重要目标。

筛选prognosis-related基因后,我们构建了一个lncRNA-based预后预后预测的模型,并验证其有效性。结果表明,风险模型能准确地预测患者预后的一个独立的方式。此后,我们也结合了风险模型与临床特征综合分析,建立了一个计算图表来协助预测。最后,10 lncRNAs的功能进行了探讨。富集分析表明,病人的预后有关的变化途径参与新陈代谢,免疫力,mTOR,细胞粘附。据报道,活动的相关通路密切相关,肿瘤的生长。一项研究发现,氨基酸代谢相关通路的活动可以促进ccRCC的发展(50]。细胞因子和趋化因子是重要的途径影响抗肿瘤免疫反应,和ccRCC可能通过影响实现免疫逃避的活动相关的通路。此外,mTOR被认为是一个重要的途径促进肿瘤的生长,并提供mTOR的表达能促进肿瘤增殖和代谢51]。总之,相信有关代谢途径的改变,免疫和mTOR ccRCC患者的预后差的原因。

本研究旨在确定lncRNAs ccRCC可能与预后有关的生物信息学方法。ccRCC预后风险模型组成的10 lncRNAs成立,和预测预后评估。结果表明,这些10 lncRNAs可以用作ccRCC诊断和生物标志物可以为癌症诊断和预后提供参考。此外,由于上面的结果只是基于生物信息学挖掘TCGA的数据库,还需要更多的实验数据进行验证。

数据可用性

使用的数据来支持本研究的结果包括在本文中。数据和材料在当前的研究中可从相应的作者以合理的要求。

所有作者同意提交出版的手稿。

的利益冲突

作者宣称他们没有潜在的利益冲突。

作者的贡献

HW为研究设计做出了贡献。HXW进行文献搜索。PS和DSZ获得数据。毫米和WTF写了篇文章。HW进行数据分析。HXW起草了手稿。毫米和DSZ修订文章的最终批准,并提交的版本。所有作者阅读和批准最终的手稿。

补充材料

补充表1:病人的临床资料。(补充材料)