文摘
背景。越来越多的证据表明,肿瘤发生与异常的表观遗传因素,如DNA甲基化、组蛋白修饰、RNA m6A修改,RNA结合蛋白和转录因子。然而,目前尚不清楚如何表观遗传基因与变更为骨肉瘤的发病和临床预后。我们开发了一个后生modification-related预后模型,可以提高骨肉瘤的诊断和预后。方法。我们调查了表观遗传modification-associated基因在骨肉瘤的研究及其临床意义。我们的基因转录组数据从目标数据库和地理数据库中获得。生物信息学技术被用来研究其功能。诊断和预后模型构造使用单变量和多变量Cox回归。此外,我们开发了一种计算图表表明上述预后模型的实用性。结果。风险评分模型构建基于四个后生modification-related基因(MYC,叔,EIF4E3 RBM34)可以有效地预测骨肉瘤患者的预后。基于风险评分和临床特征,我们构建了一个列线图。结论。表观遗传modification-related基因已经被确定为重要的预后标志物,可能会帮助治疗骨肉瘤的治疗决策。
1。介绍
最常见的原发性恶性骨肿瘤骨肉瘤,这主要是由于原始恶性骨间充质细胞(1,2]。骨肉瘤是最常见的在青少年和年轻成人,年发病率每百万(约4.43,4]。化疗耐药患者和肺转移性骨肉瘤预后不良,5年生存率只有20%5]。此外,同一患者临床或病理条件接受同样的治疗协议有不同的临床结果由于遗传异质性6]。因此,深入调查,骨肉瘤的分子过程的开发是至关重要的有用的预后标志物的协助患者危险分层,这符合精密医学方法。
高通量测序技术、基因芯片和大规模RNA-seq转录组测序已经广泛用于识别与各种癌症相关的基因,阐明致癌作用,改善癌症治疗(7,8]。骨肉瘤最近已经收到了大量的关注,包括使用生物分子和风险模型来评估预后[9,10]。然而,这些方法尚未应用于临床实践,因为无法逾越的障碍,包括过度拟合的可能性由于有限的样本大小(11]。表观遗传学是一个概念,指的是动态的、可遗传的变化在不同的DNA序列(12]。在表观遗传学异常可能影响表达调控和影响的平衡的致癌基因的表达,导致肿瘤发展(13]。主要表观遗传改变在癌症发展包括甲基化的RNA, RNA和组蛋白修饰包括m6A修改,被认为是最重要的因素在癌症发展(14]。先前的研究已经显示特定epigenetically相关基因的功能,但一直缺乏对整个这个复杂的系统。此外,这些基因的诊断和预后意义在骨肉瘤的治疗仍不确定。我们确定了五种不同类型的表观遗传modification-related基因(emg)在当前的研究中,总计2397个基因,包括RNA m6A修改、组蛋白修饰、DNA甲基化修改,RNA结合蛋白、转录因子(15- - - - - -19]。我们获得TCGA mRNA表达谱和临床数据和地理数据库对骨肉瘤患者。我们使用微分基因表达与表观遗传的改变建立一个预测签名在目标人群中,我们验证了GEO队列模型的稳定性和可靠性。然后,探讨其可能的机制,我们执行一个功能性浓缩研究。
2。材料和方法
2.1。数据处理
我们从目标数据库RNA-seq获得数据和临床特征与骨肉瘤88例。我们患者的入选标准如下:(1)经病理诊断为骨肉瘤;(2)可用表达式分析;(3)总体生存时间大于30天。我们也下载RNA-seq GTEx数据库的数据为396年正常骨骼肌样本。我们选择从GEO数据库数据集(ID: GSE21257)作为验证数据集。表观遗传modification-related基因被称为肌电图根据先前的研究,包括m6A-related基因,组蛋白modification-related基因rna结合蛋白、转录因子和DNA甲基化酶(表S1)。R包“limma”是用于执行微分表达式转录组数据的分析。差异基因(度)的阈值设置值< 0.05和|日志2FC | > 0.5。
2.2。去和KEGG分析
这些差异表达的生物活性肌电图,去和KEGG分析被用来彻底研究功能。“clusterProfiler”项目在R软件被用于分类的基因。功能性浓缩研究关键词和KEGG通路进行了使用超几何分布的显著性水平 。
2.3。开发一个筛选PPI网络和模块
我们上传的肌电图与微分表达式字符串分析蛋白质相互作用数据库。PPI网络进一步构造并显示使用Cytoscape 3.8.0程序。MCODE被用来分析相关的模块和PPI网络的基因,和节点的数量必须大于5。 被认为是一个重要的区别。
2.4。预后模型建设
通过使用R包生存,我们能够执行一个单变量Cox回归分析在不同的肌电图的训练数据集。探索潜在的重要基因,生存率较。随后,我们构建了一个由多变量Cox回归分析的预测模型和生成一个风险评分来评估病人的预后使用的重要候选基因筛选。下面的公式用来计算每个样本的风险评分: 在哪里β代表系数和Exp代表基因表达。基于风险评分的中值,我们将骨肉瘤患者分为低风险组和高危人群。总生存期(OS)之间的差异观察两组生存率较。然后执行使用软件包surviveROC ROC分析来评估我们的预后模型的预测能力。最后,我们选择一个样本GSE21257 53骨肉瘤患者的数据集包含预后信息,验证来验证该预测模型的预测能力。
2.5。建立一个预测列线图
我们构建了一个基于风险评分的计算图表和其他临床特点,为临床医生提供一个工具来预测1 -,3 -,和骨肉瘤患者的5年生存率,我们也评估了预测值和观测病人信息之间的协议通过校准曲线。
2.6。基因集富集分析
我们使用基因集富集分析(GSEA) (20.)在目标数据集来检查差异高和低风险患者的预后模型组成的肌电图。基因集罗斯福小于0.25和规范化值小于0.05被认为意义重大。
2.7。化疗敏感性分析
我们评估使用CellMiner NCI-60数据库(https://discover.nci.nih.gov/cellminer)[21),其中包括60个不同癌症细胞系来自九个不同的恶性肿瘤。我们调查之间的关系表达式的emg模型和药物敏感性,利用皮尔森相关分析。表S2显示263年药物被FDA许可或在临床的发展。
2.8。统计分析
统计方法,我们利用R软件版本4.0.2和多个包,双尾值为0.05时表示统计学意义。我们进行了单变量和多因子的Cox回归分析使用的生存方案。生存包用于创建kaplan meier分析和绘制生存曲线。列线图和校准曲线进行使用“rms”计划。ROC曲线被绘制使用“timeROC”软件。
3所示。结果
3.1。发现在骨肉瘤患者肌电图与微分表达式
我们使用各种复杂的计算技术进行综合考试的基本功能和预后价值emg在骨肉瘤。图1描绘了研究设计。骨肉瘤数据集获得目标包括88名肿瘤样本,而GTEx数据库有396个正常组织样本。总共有2397 emg分析中,与867年emg会议研究的筛选标准( 和| log2FC | > 0.5),包括454年的调节和413年下调肌电图。图2显示了这些不同的肌电图的表达。
(一)
(b)
3.2。去KEGG emg分析具有不同的表达水平
调查这些肌电图的功能和可能的机制,我们分类,或根据其表达下调。我们下一个利用这些差异表达肌电图进行功能富集分析。根据研究结果,表达下调差异表达emg在mRNA,大大丰富了ncRNA修改和处理相关的通路。差异表达调节肌电图都大大丰富了RNA拼接和mRNA processing-associated通路。RNA运输展示了丰富的调节和表达下调差异表达在KEGG emg分析。图3显示更多的信息。
(一)
(b)
3.3。PPI网络建设和识别的关键模块
我们使用Cytoscape软件分析与531个节点和2941 PPI网络边缘构造从数据库的字符串(22)(图4(一)调查的功能差异表达emg在骨肉瘤。我们确定了四个Cytoscape软件最重要的模块。模块1 423节点和边缘(图4(b))。模块2边(图52节点和486人4(c))。模块3边缘(图44节点和269人4(d))。模块4边(图15节点和67人4(e))。
(一)
(b)
(c)
(d)
(e)
3.4。表观遗传基因Modification-Related Prognosis-Related中心
在867年确定差异表达emg基因,我们计算之间的关系差异表达肌电图和操作系统由单变量Cox回归分析和kaplan meier方法和研究结果表明,53个候选人emg基因与操作系统相关显著(表S3)。这之后,这些53潜在中心肌电图对系统的影响是使用多变量Cox分析调查,肌电图显示,四个中心是骨肉瘤患者的独立预后指标(表1)。
3.5。建设和验证预测模型的
然后,我们构建了一个基于四个关键肌电图的预后模型使用前面描述的方法。进行生存分析,分析其预测能力。基于风险评分中位数,88骨肉瘤患者分为两组:低风险组和高危人群。结果表明,高危组整体存活率低于低风险组(图5(a))。我们进一步分析了预测能力的标记包含这四个肌电图的时间ROC分析。ROC曲线下的面积(AUC) emg风险评分是0.861一年后,五年后0.772三年后,和0.771(图5(我)),表明它具有良好的诊断性能。数据5(c),5(e)5(g)显示了基因表达的热图,病人生存和预后的风险评分模型组成的四emg低风险和高风险组。GSE21257随后,我们做了相同的分析数据集分析的预测模型包括四个肌电图有相同的预测性能在骨肉瘤患者的队列。GSE21257数据集,实验结果表明,在高危人群比低风险组的病人还要糟糕的操作系统(数据5(b),5(d),5(f),5(h)和5(j))。以上这些研究结果表明,我们的预测模型具有较高的敏感性和特异性。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(j)
3.6。预后风险评分模型和临床特征
了解我们的风险评分是否独立于其他预测骨肉瘤患者的预后的临床特点,我们随后进行了多变量Cox回归分析包括年龄、性别、转移和风险评分目标数据集和年龄,性别,年级,和地理数据集的风险评分。图6表明我们的风险分数可以预测患者预后独立于其他临床特征。
(一)
(b)
(c)
(d)
我们分析了风险值之间的关系和骨肉瘤患者的临床特点目标数据集,发现风险转移组的分数更高的病人比nonmetastatic组(图7(c))。然而,没有明显的年龄和性别的差异在目标数据集(数字7(一)和7(b))。然而,有不同的地理数据集(数字7(d) -7(f))。
(一)
(b)
(c)
(d)
(e)
(f)
3.7。建立一个预测列线图
四个中心发现肌电图被用来创建一个列线图,允许医生评估骨肉瘤患者的生存(图8)。通过使用列线图中的得分表,每个包含变量的得分是基于先前的结果。包括所有因素的分数然后总结获得病人的总分数,和预计1 - 3 -,5年生存率为每个病人是基于获得的总分。
(一)
(b)
(c)
(d)
3.8。GSEA分析
我们使用了GSEA方法之间的比较去的浓缩和KEGG高风险和低风险组。基于符号来源于功能富集分析,胞质运输和核内体溶酶体运输大大丰富的低风险组(图9 (b))。我们还发现九KEGG通路富集在高危人群(图0.05的罗斯福9(一个))。通过使用TCGA的特征基因集数据集执行GSEA分析,是获得顶端结和细胞凋亡显著,类似于KEGG结果(图9 (c))。
(一)
(b)
(c)
3.9。基因的表达与预后疗效和肿瘤细胞对化疗的敏感性
发现基因预测药物的敏感性,我们研究了这些基因的表达在NCI-60细胞系,观察它们如何与药物敏感性。叔与化疗药物敏感性MYC有紧密的关联,如图所示的结果,具有统计学意义 (图10)。叔,MYC,例如,与增强肿瘤细胞的药物敏感性nelarabine, palbociclib,羟基脲、阿糖胞苷,氟奋乃静、氟达拉滨,卡莫司汀和其他药物。
4所示。讨论
尽管许多进步在近几十年来,诊断和治疗骨肉瘤患者存活率仍低。未来的研究应针对发现的基因具有预后价值。目前,很少有与骨肉瘤患者的高灵敏度生物标志物。在过去的研究,生物信息学的研究往往局限于单一数据库或单基因预后价值,这种方法有其局限性。许多元素控制基因表达的表观遗传改变,干扰肿瘤发展近几十年来科学家们已经发现了23,24]。今天的热门话题在肿瘤学研究包括DNA甲基化、m6A修改RNA和组蛋白修饰。以前的研究集中于个别epigenetically的预后和功能相关的基因。利用生物信息学方法分析,我们筛选基因可用于预测骨肉瘤患者的预后和执行相关基因功能预测分析,这将有助于未来的实验验证和研究。此外,表观遗传基因规章制度通过rna结合蛋白和转录因子调节基因的表达;因此,我们收集了五种类型的肌电图。通过分析这些肌电图,我们构建了一个预测模型,该模型能准确地预测骨肉瘤病人的预后和验证模型使用另一个数据集。
在我们的研究中,2397个后生modification-related基因在正常样本GTEx数据集和骨肉瘤目标样本数据集进行分析,我们得到了867度。另一方面,使用Cox回归分析,我们发现,53度与操作系统有关。我们进一步构建预测模型组成的4基因在地理数据集进行验证。我们的研究发现,高危组患者更多的转移和短时间比低风险组的操作系统。同时,我们获得的统计分析,我们的风险评分后患者生存的独立于其他临床信息的预测。我们还发现高表达某些肌电图与阻力增加有关fda批准的化疗药物,这些结果表明,针对肿瘤耐药性基因可能在高危患者的治疗前景。
这个研究的预后模型由四个后生modification-related基因(MYC,叔,EIF4E3 RBM34)。MYC致癌基因,是一种最广泛的研究与发展,维护和促进各种癌症(25- - - - - -27]。superenhancers基因扩增、染色体易位激活,细胞信号的变化,改变蛋白质降解和突变是引起这些变化的机制(28- - - - - -30.]。叔通常只活跃在早期胚胎发育和细胞增殖能力高,而这是潜伏在大多数成人体细胞。另一方面,叔是重新激活在大多数恶性肿瘤,延长端粒,它有助于癌症发展和进展。叔是一个更大的端粒酶的两个主要成分复杂,增加特别短的端粒延长重复DNA序列。EIF4E是一个功能强大的致癌基因,发现在大约30%的人类恶性肿瘤(31日,32]。EIF4E参与mRNA出口和翻译通过绑定7甲基鸟嘌呤核苷帽出现在mRNA的5′末端。通常,这些记录编码与增殖相关的蛋白质,生存,入侵和转移(33,34]。rna结合蛋白RBM34已被证明是在复发性前列腺癌(35]。
利用签名的潜在机制,我们GSEA方法进行。结果表明,所涉及的高风险患者主要是通过激活细胞凋亡、肿瘤发展缝隙连接,epithelial-mesenchymal过渡(EMT)。在生物过程方面,丰富的基因集,主要是溶酶体和核内体运送到溶酶体运输,建议患者高危人群可能调节自噬通路中的肿瘤恶化。
我们所知,这是第一个研究开发预测基于epigenetically修改签名在骨肉瘤基因。然而,我们的研究有一些局限性。进一步确认签名的有效性在额外的独立的前瞻性试验和鉴定基因的功能测试要求在这个研究。除此之外,我们需要更多的前瞻性临床研究和更大的样本大小来评估预后模型的诊断性能。因此,仍有很多工作要做之前可以应用于临床实践的结果。
5。结论
创建一个新的epigenetically modified-related基因签名,它展示了重要的临床实用程序在预测骨肉瘤患者的操作系统。签名可以作为一个可靠的骨肉瘤的早期诊断和预后的生物标志物。
缩写
| 度: | 差异表达基因 |
| 目标: | 治疗研究适用于生成有效的治疗方法 |
| GTEx: | 基因的组织表达 |
| 地理: | 基因表达综合 |
| 走: | 基因本体论 |
| KEGG: | 京都基因和基因组的百科全书 |
| GSEA: | 基因集富集分析 |
| 罗斯福: | 错误发现率。 |
数据可用性
这个研究的数据集分析中可用的治疗研究适用于生成有效的治疗方法(目标),综合(GEO)基因表达,基因型组织表达(GTEx)。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
思玉刘和吴兵设计研究。思玉刘、李小民和松桃苗族Ai解释数据和修改。温家宝吴和露露赵执行数据提取和起草。所有作者同意提交最终版本。
补充材料
补充文件表S1。根据以往的文献和表观遗传modification-related基因数据库。补充文件表S2。263年药物FDA批准或临床试验。补充文件表S3。53个候选人中心emg通过单变量Cox回归分析与操作系统有关。(补充材料)