文摘
甲状腺癌是一种普遍的癌症。其预后评估取决于临床病理的特点。然而,这种传统的方法存在不足。基于mRNA,单核苷酸变异(SNV)和甲状腺癌的临床资料癌症基因组图谱(TCGA)数据库,本研究统计分析突变签名这种疾病的患者。错义突变和变异SNV是最常见的分类和变异类型,分别。接下来,肿瘤突变(三甲)的样本计算负担。生存状态的高/低三甲组织进行了分析,以及三甲和临床病理特征之间的关系。结果显示,患者高三甲贫穷的生存状态,和三甲与临床病理的几个特性。通过分析在高/低三甲度组,381度。他们发现通过浓缩主要富集在肌肉组织发展分析。 Then, through Cox regression analysis, a 5-gene prognostic signature was established, which was then evaluated through survival curves and receiver operation characteristic (ROC) curves. The result showed that the signature was able to effectively predict patient’s prognosis and to serve as an independent prognostic risk factor. Finally, through Gene Set Enrichment Analysis (GSEA) on high/low-risk groups, DEGs were found to be mainly enriched in signaling pathways related to DNA repair. Overall, based on the TCGA-THCA dataset, we constructed a 5-gene prognostic signature through a trail of bioinformatics analysis.
1。介绍
与成像诊断和监测的普及化,甲状腺癌(THCA)病例增加世界各地(1]。尽管大多数甲状腺癌患者对治疗外科手术和碘- 131,其中10%是屈服于预后不良和恶性进展(2]。可以认为,对恶性甲状腺癌的诊断和治疗策略仍有待改善。因此,准确的诊断和评估肿瘤恶性肿瘤,以及个性化的治疗方案,可以帮助改善这种疾病的患者的生存状况。肿瘤突变负担(三甲)被定义为体细胞突变的数量每megabase基因组,它在恶性肿瘤(3]。目前,三甲广泛认可与DNA损伤修复有关(DDR)。例如,2018年,Nassar et al。4)发现DDR-related基因与三甲的队列研究移行细胞癌基因突变特性。即强烈的DDR-related基因功能的丧失,患者越高对应的三甲。同样,帕里克说et al。5)透露,三甲DDR损失函数是正相关的。众所周知,DDR损失函数导致恶性肿瘤的进展6),因此,三甲可以部分反映肿瘤的恶性肿瘤。除此之外,一些研究分析了三甲和预后之间的相关性的病人通过生物信息学方法。例如,谢et al。7)得出结论,与low-TMB患者相比,high-TMB患者预后更不利。总的来说,有一个三甲水平之间的相关性和甲状腺癌患者的预后。
筛选基因签名基于公共数据库搜索预后生物标记物是一种有效的策略。如今,研究人员寻找可能的预后标志物基于不同特征的多种癌症类型和构造的各种预测模型,提供相关证据表明癌症患者的预后相关。一个例子是,刘等人。8)的预后模型生成autophagy-related nonsmall细胞肺癌的基因。郭先生与他(9]分析了SLC30A家族基因表达和体现一个可能对胃癌预后标记。隋et al。10生成一个immunocyte-related预后模型,该模型可以有效地预测患者的预后和疗效分析化疗的乳腺癌免疫细胞渗透水平。然而,TMB-related甲状腺癌预后模型尚未得到充分研究。
在这里,基于癌症基因组图谱的数据集(TCGA)数据库,我们首先对甲状腺癌的突变特征进行统计分析。然后,我们之间的关系分析了三甲,生存时间,和几个病人的临床病理特征。之后,我们进行了基因本体论(去)和《京都议定书》百科全书的基因和基因组(KEGG)富集分析差异表达基因(度)高/低三甲组。基于这些度,我们生成一个5-gene甲状腺癌预后的签名。总之,建立预后签名可能提供了一个机会为其临床应用的预言者患有这种疾病。
2。方法
2.1。数据采集和突变特征分析
TCGA-THCA数据集从TCGA下载(https://portal.gdc.cancer.gov/)数据库。数据集包括mRNA表达数据(正常:58;肿瘤:510),单核苷酸变异(SNV)数据(VarScan2注释,肿瘤:487),和常见的临床资料。R包“maftools”[11)是用来进行突变特征分析样品TCGA-THCA甲状腺癌患者的数据集。这种统计分析包括变异分类、SNV类,变异频率,突变基因样本。
2.2。三甲的相关分析甲状腺癌和临床病理的特性
体细胞突变的数量(产生的)在肿瘤基因的编码区megabase样本中被定义为三甲的价值。样本分层分为高——和low-TMB组每上四分位数三甲的价值。“生存”包(12)是用来绘制生存曲线的高/低三甲组。分析了各种临床病理特性之间的相关性和三甲和可变性是Wilcoxon发现的。
2.3。度和富集分析
R包“刨边机”13)是用来进行差异表达分析( , )在高/低三甲mRNA表达数据组。TMB-related度。R包“clusterprofiler”[14)是用来执行去KEGG浓缩度分析。条款和信号通路受到值< 0.05和值< 0.05被选为显著富集的结果。
2.4。建立TMB-Related预后签名
TCGA-THCA样本中,那些生存时间大于0的选择和随机分为训练集( )和测试集( )。单变量Cox回归分析进行了训练集使用R包中“生存”和相关基因生存了( )。这些基因被拉索进行回归分析。进行了交叉验证选择最优惩罚参数(λ)排除基因相对较高的相关性。之后,“生存”包应用多变量Cox回归分析拉索在选定的基因分析。预后签名了,每个病人的风险评分后计算公式:
代表prognosis-related基因的数量。每个基因代表加权相关系数。代表prognosis-related基因的表达。
2.5。预后特征评价和基因集富集分析(GSEA)
训练集的样本分为高和低风险组的平均风险评分患者截止值。R包“生存”是用来绘制生存曲线高和低风险组的训练集和测试集,分别。然后,观察生存状态。R包“timeROC”[15)是用来吸引接受者操作特征(ROC)曲线在两组,分别,从而评估预后特征的性能。之后,风险评分被认为是作为一个特性,结合常见的临床病理特征(性别、年龄、T分期、N分期和肿瘤阶段),单变量和多变量Cox回归分析。接下来,R包“rms”[16),加上病人临床信息和风险评分,是用来画3年和5年生存的诺模图。最后,R包“外国”(https://cran.r-project.org/web/packages/foreign/index.html)被用来绘制校准曲线,以验证计算图表的性能。此外,调查主要信号通路变量在高和低风险的组织样本,GSEA软件下载网站(http://www.gsea-msigdb.org/gsea/index.jsp)的表达谱分析患者在高和低风险组(17]。
3所示。结果
3.1。统计分析甲状腺癌的突变特征
调查甲状腺癌的突变特征,R包“maftools”是利用可视化487 TCGA-THCA样本的变异信息。瀑布图显示前30名突变基因在每个示例(图1(一))。错义突变是最常见的(数据1 (b)和1 (f)在变异的分类);SNV是最常见的(图1 (c))在变异类型;C T的突变是最常见的(图1 (d)SNV班)。此外,每个样本值的变异是6(图1 (e))。排名前十的突变基因BRAF(59%),国家管制当局方面(8%),极品(3%),TG(3%),TTN(2%),E1F1AX(1%),USP9X(1%),MUC16(1%),自动取款机(1%)和AKT1(1%)(图1 (g))。总而言之,我们相信在甲状腺癌的进展,有一个特定的趋势突变的发生。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
3.2。三甲的相关分析和临床病理的特性
体细胞突变的数量每megabase肿瘤基因的编码区称为三甲。三甲的价值计算每个样本调查三甲和患者临床病理特征之间的关系。然后,甲状腺癌样本分为高收入和low-TMB组每上四分位数。随后,生存曲线绘制和生存状态在高/低三甲组织观察。如图2(一个)高三甲组相比,低三甲集团生存的患者更有利。此外,三甲和各种临床病理特征的相关性进行了分析。结果呈现,三甲明显调节在病人65岁以上(图2 (b))。三甲值男性患者明显高于女性患者(图2 (c))。在病人三甲值明显高于病人吗(图2 (d))。三甲值的病人在N1-3明显高于病人(图2 (e))。在病人三甲值明显高于病人吗(图2 (f))。三甲在病人阶段iii iv值显著高于病人在阶段i ii(图2 (g))。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
3.3。度和富集分析
样品与mRNA表达数据分为high-TMB组(130)和low-TMB组(352)/三甲的上四分位数。度进行了分析。381度得到包括189年特别是调节基因和192年特别是表达下调基因(图3(一个))(补充表1)。之后,去和KEGG浓缩分析进行381度。富集分析显示,这些度主要富集在肌肉组织等方面发展,collagen-containing细胞外基质,receptor-ligand活动(图3 (b))。KEGG富集分析显示,这些度主要富集在信号通路如蛋白质消化吸收,胰腺分泌、内分泌等factor-regulated钙重吸收(图3 (c))。因此,我们推测,这些度是主要参与生物功能和信号通路相关的肌肉组织的发展。
(一)
(b)
(c)
3.4。建设和评估预后的签名
基于上面的度,构建TMB-related甲状腺癌预后签名,从TCGA-THCA肿瘤样本数据集分为训练集( )和测试集( )。33 survival-related最初屏幕survival-related基因,基因通过单变量Cox回归分析在训练集(补充表2)。接下来,套索Cox回归分析进行了进一步筛选出7基因33基因。因此,彼此过于密切相关的基因被排除在外(数字4(一)和4 (b))。最后,基于上述7基因,建立了甲状腺癌预后5-gene签名通过多变量Cox回归分析( )(图4 (c))。之后,基于预后签名,风险评分计算每个样本的训练集。甲状腺癌患者分为高和低风险组中风险评分的训练集截止值。生存的患者和5个功能基因的表达进行了分析(数据4 (d)- - - - - -4 (f))。
(一)
(b)
(c)
(d)
(e)
(f)
评估预后签名的性能,以及它的独立性作为预言者,生存曲线绘制在训练集和测试集。随后,生存分析在高和低风险组患者。结果透露,生存的患者低风险组明显优于在高危人群(数字5(一个)和5 (b))。然后,ROC曲线被绘制在训练集和测试集的性能评估预后的签名。如图5 (c)和5 (d),3年和5年曲线下面积(AUC)的训练集分别为0.94和0.85,分别。3年和5年的AUC测试集分别为0.92和0.93,分别。提出了一种性能良好的预后签名。之后,结合常见的临床病理的特点,进行单变量和多变量Cox回归分析风险评分的患者。结果提出了在单变量Cox回归分析,T分期,肿瘤阶段,风险评分与患者的预后明显相关。在多变量Cox回归分析,只有风险评分显著影响病人的结果(数据5 (e)和5 (f))。因此,根据单变量和多变量Cox回归分析的结果,风险评分风险可能是一个独立的预后指标。最后,诺模图是绘制预测3年和5年生存结合各种甲状腺癌患者的临床病理特征和风险分数(图5 (g))。校准曲线被吸引到评估计算图表的性能(数字5 (h)和5(我))。它可以看到,3年和5年生存的患者可以有效地预测的诺模图。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
3.5。GSEA
调查有关信号通路不同的病人在高和低风险组,GSEA进行高和低风险组。如数据所示6(一)- - - - - -6 (c)显著差异显示激活的信号通路包括核苷酸切除修复、错配修复,DNA复制在高和低风险组。总之,不同的激活信号通路可能是负责高和低风险组预后不同。
(一)
(b)
(c)
4所示。讨论
TCGA-THCA数据集的基础上,本研究对甲状腺癌的突变信息进行了统计分析。BRAF基因突变是最常见的一个。BRAF,丝氨酸/苏氨酸蛋白激酶家族中的一员,参与MAPK / ERK信号通路在细胞及其突变与甲状腺癌化(18]。许多调查提到的高突变率BRAF基因在不同的甲状腺癌(19- - - - - -22),其中T1799A核苷酸颠换是最常见的致癌突变BRAF基因。这种突变导致的第600缬氨酸转换BRAF蛋白质谷氨酸,这增强了丝氨酸/苏氨酸蛋白激酶的活性BRAF蛋白质。总的来说,这两个突变特征分析研究和早期的研究表现出误译的突变BRAF在甲状腺癌基因突变在甲状腺癌形成中发挥关键性的作用。
三甲的变化在不同的实体肿瘤。在这项研究中,三甲的甲状腺癌患者是在0.02 ~ 1.63的范围(补充表1)。然而,文献报道,50%的肺鳞状细胞癌患者和71%的黑色素瘤患者有三甲大于10。调查人员猜测高三甲的上述实体瘤患者长期接触主要结果慢性诱变曝光(吸烟或紫外线辐射)和长期叠加突变(3]。尽管在甲状腺癌三甲的有限浮动的范围,我们的分析说明病人的存活时间显著差异在高和低三甲组。也就是说,病人的生存在高三甲组(图2(一个))。因此,在2020年,谢et al。7)支持视图通过一系列的生物信息学分析,乳头状甲状腺癌患者高三甲不利的结果。因此,结合我们的研究结果和文献出版,我们可以推测,甲状腺癌患者的预后与高三甲很差。
据美国癌症联合委员会举办手册第八版,TNM分期的甲状腺癌,甲状腺癌被定义为T3 限于甲状腺,或总extrathyroidal扩展入侵只带肌肉(23]。与此同时,一项研究[24)指出,局部复发的概率可以根据预测带肌肉甲状腺癌的侵犯。因此,带肌肉入侵可能与甲状腺癌的恶性肿瘤。在这次调查,度是通过微分表达式分析患者高和低三甲。这些基因受到去KEGG富集分析,结果显示,他们主要富集在生物功能相关的肌肉组织的发展。根据我们的分析结果和文献出版,我们推测,恶性甲状腺癌的进展影响peri-thyroidal肌肉的发展。
GSEA体现病人在高和低风险组主要不同在DNA修复。大多数研究表现出同样的趋势与我们的结果。2020年,Ricciuti et al。25)建议与DDR-negative组相比,病人DDR-positive组显示更高的三甲。此外,查尔默斯等。26]表明,突变信号pathways-related错配修复基因经常发生在高三甲癌症基因组的分析从100000年不同癌症患者。这些发现显示,惨淡的高危组患者的预后可能与DDR-related基因突变,与高三甲。
总之,基于甲状腺癌数据集从公共数据库,本研究对疾病的突变特征进行统计分析。样本分为高、低三甲组根据突变数据。然后,生存在高和低的患者三甲组比较,以及常见的临床病理特征。同时,度这两个群体受到去KEGG富集分析。最后,根据获得的度,5-gene预后特征建立了Cox回归分析和套索分析。的性能和独立预后签名进行评估。高和低风险受到GSEA分数计算的签名。尽管完整的生物信息学分析甲状腺癌的数据集和有价值的结果,这项研究是不够的。例如,我们未能探索5功能基因的作用(BMP8A, ADARB2, SALL3、PPBP SCN1A)在甲状腺癌的发病和进展分子实验,细胞实验,或动物实验。因此,进一步的实验需要设计探针的影响这些基因在甲状腺癌的恶性发展。
数据可用性
本研究中所有生成的数据或分析包括在发表的这篇文章。
同意
所有作者同意提交出版的手稿。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
概念是由刘Haodong Lu和钱。数据收集是由清,杜京,Chunying张。数据分析是由王Chang Haodong Lu,鑫郭。草案是由Haodong Lu Yaojie Hu Shiguang Liu和Guoshuai唐。Writing-review和编辑是由Haodong Lu和Chunyou陈。Haodong Lu和钱氏同样起到了推波助澜的作用。
补充材料
补充1。补充表1:度高,low-TMB组。
补充2。补充表2:单变量Cox回归分析TMB-related度。