文摘
背景。Epithelial-mesenchymal过渡(EMT)是显著相关的入侵和发展食管鳞状细胞癌(ESCC)。然而,EMT-related长非编码RNA的重要性(lncRNA)是ESCC鲜为人知。方法。GSE53624 ( )和GSE53622 ( )从基因表达数据集检索综合数据库(GEO)被用作培训和外部验证组,分别。从中国GSE53624和GSE53622数据集都取样。然后,EMT-related的预后价值lncRNA全面调查了加权coexpression网络分析(WGCNA)和COX回归模型。结果。高表达的PLA2G4E-AS1、AC063976.1 LINC01592显著相关的有利ESCC患者的总生存期(OS),对操作系统和LINC01592最大的贡献。重要的是,ESCC患者分为低收入和高危人群基于风险评分的最佳截止值估计的多变量COX回归模型这三个lncRNA。高危患者有一个操作系统速度和限制意味着生存时间短(RMST)比那些低风险。此外,单变量和多变量COX回归显示,危险分层,年龄,和TNM是独立的预后指标,用于构建个性化的诺模图模型和可视化ESCC患者预后的预测。校正曲线和时间ROC曲线在训练和验证组建议列线图模型有良好的性能。有趣的是,清楚表明风险评分呈正相关趋势与肿瘤微环境(时差)分数和免疫检查点TIGIT CTLA4, BTLA。此外,基因和基因组的京都百科全书(KEGG)表明,PLA2G4E-AS1 AC063976.1,和LINC01592主要与肿瘤坏死因子信号通路相关,nf -κB信号通路,ECM-receptor交互。结论。我们开发了EMT-related lncRNA PLA2G4E-AS1、AC063976.1 LINC01592预后预测和中国ESCC患者的危险分层,这可能提供个性化的深刻理解中国ESCC患者预后预测和设计新颖的治疗是潜在的生物标记物。
1。介绍
食道癌是全球十大恶性肿瘤之一,第六个癌症相关死亡的主要原因。食道癌主要流行在东亚和非洲东部和南部[1,2]。食管鳞状细胞癌(ESCC)是最常见的组织学亚型食道癌,约占90%。ESCC咄咄逼人的倾向和高转移性,以及高复发的机会。即使有多峰性治疗(手术、放疗、化疗和靶向治疗),ESCC患者的预后仍然贫困(3]。了解背后的分子机制ESCC入侵和转移有助于加深对该病的了解。也迫切需要发现新的生物标记发展新的治疗策略和改善ESCC患者的预后。
长非编码RNA (LncRNA)是一组进化保守的RNA分子与超过200个核苷酸长度,缺乏蛋白质编码能力(4]。异常表达LncRNA起着至关重要的作用在各种肿瘤的发生和发展5- - - - - -9),包括ESCC [10,11]。许多研究表明lncRNA扮演多个角色在肿瘤形成等恶性行为,入侵,移民和免疫原性。LncRNA BRCAT54抑制非小魔法肺癌的肿瘤发生绑定RPS9调节JAK-STAT和钙通道(12]。此外,lncRNA LINC00472调节单元刚度和抑制肺腺癌的迁移和入侵绑定YBX1 (13]。此外,研究发现,限制可能是癌症免疫疗法的目标(14]。LncRNA可以参与肿瘤的发生和发展影响染色质重塑,组蛋白修饰、DNA甲基化、基因转录、翻译等。
值得注意的是,在epithelial-mesenchymal lncRNA过渡的效果(EMT)的肿瘤细胞也被证实在最近的研究(15,16]。EMT是一个重要的步骤在恶性肿瘤的转移,可以变换epithelial-like细胞进入mesenchymal-like细胞状态。通过修改粘附分子表达的细胞,EMT epithelial-derived肿瘤细胞的粘附能力降低,从而导致上皮细胞彼此分开,增加肿瘤细胞的转移潜力,进一步抵抗抗肿瘤治疗(17,18]。因此,EMT上皮肿瘤的转移中扮演着关键角色。很少有研究探讨的预后价值EMT-related lncRNA在癌症患者19]。的角色EMT-related lncRNA ESCC和相关机制是鲜为人知的。
本研究全面调查和验证的预后价值EMT-related lncRNA中国ESCC患者从基因表达通过加权综合(GEO)数据库基因coexpression网络分析(WGCNA) COX比例风险回归,kaplan meier生存分析。此外,风险分层和诺模图模型构建个性化和可视化ESCC患者的总生存期(OS)利率。此外,关联加权EMT-related lncRNA与肿瘤微环境(时差)分数,免疫检查点(ICs)和基因和基因组的京都百科全书(KEGG)途径进一步探索。
2。材料和方法
2.1。ESCC患者
的转录组数据119和60新诊断ESCC患者GSE53624和GSE53622 datasetswere从GEO数据库(下载https://www.ncbi.nlm.nih.gov/geo/),分别作为训练和验证组,分配。从中国GSE53624和GSE53622数据集都取样。临床特征,包括年龄、性别、肿瘤浸润深度(T),淋巴结转移(N),节点转移肿瘤TNM分期,肿瘤分级,总生存期(OS)时间和事件,是获得和表中列出S1。工作流的数据分析研究是根据图执行1。由于地理数据库是公开的,不需要当地伦理委员会的批准。
2.2。收购lncRNA EMT-Related信使rna
总共有17936 lncRNA(35)版下载从GENCODE数据库(https://www.gencodegenes.org/human/)[20.]。此外,50标志基因集和“HALLMARK_EPITHELIAL_MESENCHYMAL_过渡”基因列表,其中包括200 EMT-related mRNA,得到从基因集富集分析(GSEA)数据库(http://www.gsea-msigdb.org/gsea/msigdb/collections.jsp H)[21,22]。
2.3。加权基因Coexpression网络分析(WGCNA)
作为一种无监督的机器学习,WGCNA申请调查基因之间的相关性。的包“WGCNA”软件(版本4.0.2,https://www.r-project.org/)是用于构造加权coexpression网络lncRNA和EMT-related mRNA (23]。在网络,成对皮尔森系数是用来评估coexpression重量在所有基因。的力量β软阈值是用来证实一个无标度网络。值得注意的是,类似的基因表达模式被聚集到相同颜色模块在无监督coexpression网络。
2.4。诺模图模型
的包“外国”和“rms”软件(版本4.0.2,https://www.r-project.org/)被用来构造一个诺模图模型个性化和可视化操作系统的速度ESCC患者(24,25]。每个变量被分配根据诺模图模型。然后,总点求和得到的所有变量的点来确定操作系统一个ESCC患者。最后,时间接受者操作特征曲线(ROC)和校准的培训和验证队列被用来评估的诺模图模型的准确性预测操作系统速度。
2.5。估计肿瘤微环境(时差)得分
估计算法用来计算分数的免疫和基质细胞ESCC组织基于基因表达水平(26]。估计算法进行使用包“估计”计算时间,在每个ESCC患者免疫,基质的分数。
2.6。京都基因和基因组的百科全书(KEGG)通路
“剂量”、“http://org.Hs.eg.db”、“topGO”和“clusterProfiler”包软件(版本4.0.2,https://www.r-project.org/)被用来获得KEGG通路EMT-related lncRNA ESCC患者。
2.7。统计分析
所有统计分析使用软件(版本4.0.2,https://www.r-project.org/)。卡方和费舍尔测试被用来比较两组之间的差异分类变量,是合适的。单变量和多变量Cox比例风险回归分析是使用包执行“生存。”“surv_cutpoint”功能包“survminer”是用来确定最优基因(图的割点S1)。而由生存率较kaplan - meier曲线。的包“survRM2”是用来获取限制平均生存时间(RMST)。皮尔森获得的两个定量变量之间的相关系数的方法。“survivalROC”包确定曲线下的面积(AUC)时间ROC曲线。小动物——一张长有值< 0.05和一个值< 0.1被认为是统计学意义和明显的趋势,分别。
3所示。结果
3.1。WGCNA lncRNA和EMT-Related mRNA ESCC患者
如表所示S1,临床特点是GSE53624和GSE53622数据集之间的平衡( )。识别EMT-related lncRNA ESCC患者188 EMT-related mRNA和5506 lncRNA包括WGCNA建设,和数据分析的工作流程如图1。软阈值建立一个无标度网络的训练和验证组被设置为4和5,分别为(数字2(一个)和2 (b))。然后,总共3900 lncRNA coexpressed EMT-related mRNA的队列训练,这是分布在6个模块,包括黑色,蓝色,棕色,绿色,灰色,和绿松石模块(图2(一个))。此外,3742年11 coexpression lncRNA和EMT-related mRNA显示模块,包括黑色,蓝色,绿色,greenyellow,灰色,红色,粉色,紫色,红色,绿色,黄色,验证队列(图2 (b))。因此,3900年和3742年EMT-related lncRNA训练和验证组,分别用于下列单变量和多变量COX回归分析。值得注意的是,重叠的百分比EMT-related lncRNA之间的培训和验证组为78.1%(3045/3900)和81.4%(3045/3742),分别。
(一)
(b)
3.2。单变量和多变量COX回归分析
单变量COX回归分析后,338年和169年EMT-related lncRNA ESCC患者的明显与操作系统相关的培训和验证组,分别为( ,图3(一个))。进一步确认EMT-related lncRNA有预后价值在这两个军团,lncRNA用 或人力资源< 1的单变量回归模型训练和验证军团之间的重叠,和结果表明,3 EMT-related lncRNA表达式,包括PLA2G4E-AS1 AC063976.1, LINC01592,明显与ESCC患者的良好的操作系统( ,图3 (b))。然后,多变量COX回归分析用于AC063976.1的加权组合,LINC01592, PLA2G4E-AS1,表明LINC01592贡献最大的ESCC患者的操作系统( )。值得注意的是,时间ROC曲线结果表明,多变量COX回归模型表现良好的训练队列( ,图3 (c))。这一发现被证实在验证队列( ,图3 (c))。
(一)
(b)
(c)
3.3。建立ESCC患者的危险分层
建立ESCC患者的危险分层,我们首先获得风险评分基于多变量COX回归的系数,和风险评分计算公式如下: (图3 (c))。基于风险的最佳预后切割点得分-6.57,ESCC患者分为高和低风险组。ESCC患者高危明显与贫穷有关训练队列的操作系统( ,95%可信区间(CI): 2.05至6.66, ,图4(a))。这个结果证实在验证队列( ,95%置信区间:1.27 - 5.07, ,图4(c))。此外,高风险ESCC患者较短RMST比低风险病人训练队列(4 RMST: 25(95%置信区间CI: 22至29岁)与40(95%置信区间CI: 36 - 44)个月)(图4(a))。在验证这个结果再次证实了队列(4 RMST: 24(95%置信区间CI: 17 - 31)与37 42(95%置信区间CI: 32)个月)(图4(c))。有趣的是,kaplan meier曲线表明,高表达的AC063976.1 LINC01592, PLA2G4E-AS1与ESCC患者的良好的操作系统相关的培训和验证组( ,数据4(b)和4(d))。重要的是,对于ESCC患者危险分层是一个独立的预测因子的单变量和多变量COX回归分析训练队列( ,95%置信区间:2.13 - 7.11, ,表1)。这是再次确认验证队列( ,95%置信区间:1.29 - 5.78, ,表1)。为了确定危险分层具有预后意义在一个随机的人群中,Microsoft Excel 2016进一步用于随机选择样本的一部分在每个数据集作为训练队列,然后把其他的样品验证队列。一个高风险的患者得分与贫穷有关操作系统的训练队列GSE53624数据集( ,95%置信区间:1.21 - 5.91, )。这个结果证实在验证群GSE53624数据集( ,95%置信区间:2.13 - 12.47, )(图5(一个))。有趣的是,高风险的患者较短的操作系统比低风险病人培训群GSE53622数据集;尽管如此,这一点不是统计学意义( ,95%置信区间:0.91 - 6.66, )。这一发现再次确认验证群GSE53622数据集( ,95%置信区间:0.96 - 6.62, )(图5 (b))。这可能是由于小样本大小GSE53622数据集。确认的风险分层,可以更好地预测预后ESCC患者的人口的一部分,我们进行了亚组分析。有一个明显的趋势在训练和验证军团,危险分层可以更好地预测患者预后TNM III / IV阶段,N1-3, T3-4,男,> 60岁。可以预测预后以及通过风险分层无论肿瘤年级(图6)。
(一)
(b)
3.4。建设的诺模图可视化和ESCC患者个性化操作系统速度
单变量和多变量COX回归分析用来确定构造诺模图模型的独立预后因素。除了危险分层、年龄和TNM阶段ESCC患者生存的独立预后因素在训练和验证组( , ,表1)。因此,诺模图模型由危险分层构造,年龄,和TNM阶段可以形象化、个性化1 - 2 -,3 -和4 OS ESCC患者(图7(一))。细节点的诺模图模型中的变量和OS利率被列在表中S2。时间民国和校准曲线进一步用于评价诺模图模型的预测性能。值得注意的是,含ROC曲线说明,所有的auc≥0.70的培训和验证组(图7 (b))。此外,校准曲线表明,1 - 2 -,3 -和4操作系统利率预测的计算图表模型高度符合实际观测的培训和验证军团(数字7 (c)和7 (d))。这些结果表明,诺模图模型有很好的性能预测系统的ESCC患者。
(一)
(b)
(c)
(d)
3.5。KEGG途径EMT-Related lncRNA
基于WGCNA, 57岁和25 EMT-related基因与AC063976.1 coexpressed LINC01592,或PLA2G4E-AS1训练和验证组,分别为(图8(一个))。然后,KEGG应用于识别与AC063976.1相关的重要途径,LINC01592或PLA2G4E-AS1 ESCC患者。结果表明,在训练和验证组,总共有7和8途径丰富,分别。和三个重叠的途径,包括肿瘤坏死因子信号通路,nf -κB信号通路,两个组别和ECM-receptor互动,丰富(数字8 (c)和8 (d))。
(一)
(b)
(c)
(d)
3.6。风险评分呈正相关,时间分数和免疫检查点(ICs)
充足的报告发现EMT-related基因丰富碰头,而小ESCC知道这些基因。这促使我们进一步调查风险评分之间的关系基于EMT-related lncRNA时间分数和ICs的表达水平。时间分数是由基质分数和免疫得分。结果表明,风险评分呈正相关,时间评分( , )。进一步分析发现风险评分与免疫分数正相关( , );虽然还没有达到统计学意义。因为ICs与免疫密切相关的分数,我们进一步分析了风险评分之间的相关性和ICs。值得注意的是,与BTLA(风险评分有显著的正相关关系 , )和CTLA4 ( , )。更重要的是,有一个明显的趋势表明,风险评分呈正相关,TIGIT ( , );虽然还没有达到统计学意义。然而,没有明显相关性风险评分,PD-1 PD-L1, PD-L2 LAG3,小鼠( )。有趣的是,风险评分也与基质得分呈正相关( , )(数据9(一个)和9 (b))。我们进一步分析了风险评分之间的相关性和癌症相关的成纤维细胞(战乱国家)相关基因。结果表明,与MGP风险评分有显著的正相关( , ),MFAP5 ( , ),ITGA11 ( , ),宽带( , ),或ACTA2 ( , )。此外,有一个明显的趋势表明风险评分呈正相关,COL11A1 ( , )和BMP4 ( , );虽然。数据尚未足够重要。然而,之间没有显著相关性风险评分和SPHK1 CSPG4 TGFBI, TNNC1 ( )(数据9(一个)和9 (b))。
(一)
(b)
4所示。讨论
ESCC是食道癌的普遍的组织学亚型,预后不良,容易出现远处转移(3,27]。因此,探索潜在的生物标记物是必不可少的管理和预测ESCC患者的预后。越来越多的证据表明,EMT是高度与肿瘤进展和转移(28]。近年来,很少有研究调查的角色EMT-related lncRNA ESCC的预后和进展(29日,30.]。然而,基于下一代转录组测序,综合评估预后的重要性,风险分层和可视化操作系统利率EMT-related lncRNA ESCC鲜为人知。
在这项研究中,基于地理数据库中的两个大型数据集的分析,结果表明,高表达AC063976.1, LINC01592或PLA2G4E-AS1 ESCC患者明显与良好的操作系统有关。此外,KEGG结果表明,AC063976.1 LINC01592,或PLA2G4E-AS1主要富集在肿瘤坏死因子信号通路,nf -κB信号通路,ECM-receptor交互。AC063976.1作为小说EMT-related lncRNA,尚未探索的癌症。第一次,我们发现upregulation AC063976.1纠正ESCC患者良好的操作系统。李等人报道,LINC01592 ESCC患者是一种保护性因素(31日),这与本研究是相一致的。此外,LINC01592贡献最大的ESCC患者的操作系统。尽管PLA2G4E-AS1下调在甲状腺癌,癌症患者的预后重要性尚未阐明(32]。这项研究的结果表明,高表达的PLA2G4E-AS1可以预测有利OS ESCC患者。这些研究结果将为进一步探索提供预后信息的功能和机制AC063976.1, LINC01592或PLA2G4E-AS1 ESCC的未来。
危险分层指导临床治疗和管理中起着至关重要的作用的癌症患者(33]。值得注意的是,风险分层由AC063976.1的加权组合,LINC01592,和PLA2G4E-AS1 ESCC患者分为低收入和高危人群,暗示也是ESCC患者的独立预后因素。有趣的是,亚组分析发现危险分层主要是表现在ESCC患者TNM III / IV阶段,N1-3, T3-4,男,或者60 > y。此外,肿瘤的危险分层可以不管品位。值得注意的是,诺模图模型建立的危险分层,年龄,和TNM阶段可以显示和可视化1 - 2 -,3 -,和四年OS ESCC患者,这可能导致管理的个性化治疗。
以前的研究报道,时间与EMT在癌症34]。此外,基质微环境和战乱国家扮演着重要的角色在EMT (35- - - - - -38]。因此,风险值之间的关系计算了AC063976.1, LINC01592, PLA2G4E-AS1和时间进一步调查。在这项研究中,风险评分呈正相关,时间,免疫,基质的分数。此外,CAF的风险评分有显著正相关基因,包括MGP ITGA11,宽带,ACTA2, COL11A1或BMP4。然而,高表达水平的ICs通常导致癌症[T细胞疲惫39,40]。有趣的是,也有一个积极的风险评分之间的相关性和ICs,包括BTLA TIGIT, CTLA4。这些结果可以解释抗肿瘤效应的高水平的免疫细胞浸润是抵消强大的免疫抑制通路激活调节IC的蛋白质(34,41),并且可能提供高风险ESCC患者的免疫治疗的可能性。
这项研究有一些局限性:首先,转录组测序数据的分析和验证的结果在这个研究是基于公开数据集。因此,一些重要的临床资料不完整,如治疗方案,这可能会产生潜在的偏见的结论。其次,这项研究并没有提供额外的验证由原始ESCC样本临床中心。最后,EMT-related lncRNA应该通过体内和体外实验来验证。
5。结论
我们证明了基于风险分层由PLA2G4E-AS1 AC063976.1,和LINC01592 ESCC患者分为低收入和高危人群。此外,诺模图模型建立的危险分层,年龄,和TNM阶段可以显示和可视化1 - 2 -,3 -和4操作系统的中国ESCC患者。此外,风险评分呈正相关,时间分数,ICs和战乱国家。这些研究结果可能为个性化的预后预测提供深刻理解EMT-related lncRNA中国ESCC患者,和三lncRNAs可能潜在生物标志物设计新颖的治疗。
缩写
| AUC: | 曲线下的面积 |
| 置信区间: | 置信区间 |
| EMT: | Epithelial-mesenchymal过渡 |
| ESCC: | 食管鳞状细胞癌 |
| 地理: | 基因表达综合 |
| GSEA: | 基因集富集分析 |
| 人力资源: | 风险比 |
| 集成电路: | 免疫检查点 |
| KEGG: | 京都基因和基因组的百科全书 |
| lncRNA: | 长非编码RNA |
| 操作系统: | 总生存期 |
| RMST: | 平均生存时间限制 |
| 中华民国: | 接受者操作特性 |
| 时差: | 肿瘤微环境 |
| TNM: | 肿瘤浸润深度、淋巴结转移、肿瘤节点转移 |
| WGCNA: | 加权coexpression网络分析。 |
数据可用性
最初的贡献提出了研究中都包含在这篇文章/补充材料,并进一步调查可以直接到相应的作者。
的利益冲突
作者宣称没有利益存在竞争。
确认
这项工作是临床研究的支持和孵化项目,四川大学华西医院(2020 hxfh056)。
补充材料
图S1:最优分割点风险评分,AC063976.1, LINC01592, PLA2G4E-AS1培训(a)和验证(b)组。表S1: ESCC患者的临床特征。表S2:诺模图的点模型。(补充材料)