1。介绍
肺癌是全世界癌症相关死亡的最常见原因;其发病率在所有癌症类型中位列第一。肺鳞状细胞癌(LUSC)是一种常见的一种肺癌,有特定的临床病理的特点与其他类型相比由于差异的起源细胞(
1,
2]。LUSC的发病机制复杂,涉及大量的分子和细胞事件,但不幸的是,大部分的这些事件仍是探索(
3,
4]。这些原因导致LUSC不满意治疗结果,导致生存中值约30%不如其他肺癌类型(
1,
5,
6]。
手术和化疗仍然是肺癌的主要治疗在过去的几十年中,随着基因组学的发展,大量的分子生物标志物参与肿瘤发生、进展、转移、耐药已发现(
7]。EGFR-TKI(表皮生长因子受体酪氨酸激酶抑制剂)和碱性(间变性淋巴瘤激酶)抑制剂是最好的这些发展和改变了肺癌的临床治疗模式,特别是在治疗肺腺癌(LUAD) [
4,
8- - - - - -
11]。不幸的是,这些目标在LUSC并不成功,因为上述突变/改变在LUSC[很罕见
6,
10- - - - - -
12]。
因此,分子mechanism-related研究将在预测和治疗LUSC扮演关键角色,其中很大一部分最近已报告。Mascaux等人报道,肺肿瘤发生涉及一系列未扩散支气管上皮细胞和免疫细胞的相互作用,这表明免疫生物标志物早期诊断和免疫治疗对高危个体等待被发现
13]。Momcilovic等人发现自适应谷氨酰胺代谢是由GSK3信号在LUSC轴,这可能是预测反应结合代谢疗法针对mTOR和谷氨酰胺酶(
14]。黄等人报道,YAP能抑制疾病进展的放松管制在LUSC DNp63-GPX2轴和活性氧积累,这可能是一个潜在的患者提高精密医学LUSC [
15]。此外,近年来随着生物信息学的发展,我们可以探索整个分子改变肿瘤在不同层次包括DNA、表观遗传修饰、RNA和蛋白质(
16]。通过加权基因coexpression网络分析(WGCNA) Niemira等人发现CCNB2和GNG11小说中包含的生物标记物模块与肿瘤大小有关,PET / CT SUVmax, recurrence-free生存(RFS) LUSC [
17]。通过分析在线数据集,高等人发现几LUSC发展和预后相关的生物标记物,包括FEN1 CCNA2, AURKA, AURKB [
18]。尽管许多研究已经报道一些生物标记可能参与发病机制或LUSC进展,越来越多的生物标志物等着被发现LUSC构造一个完整的理解。因此,为了减少LUSC-related LUSC死亡和优化治疗模式,更新颖的生物标志物的检测LUSC仍然是必需的。
在这项研究中,我们从基因表达综合下载GSE73402 (GEO)数据库,这是一个公共数据库进行高通量微阵列和下一代序列功能基因组研究社区提交的数据集。GSE73402包含62个样本,包括癌前期进展情况和肺鳞状细胞癌病例,这可能显示转录组的所有阶段的肺鳞状细胞癌。首先,我们构造coexpression模块使用加权基因coexpression网络分析(WGCNA),发现主模块。其次,通过差异表达基因(度)分析,蛋白质交互(PPI)网络,和基因表达分析交互式分析(GEPIA),中心基因筛查LUSC的潜在生物标志物。在这项研究中,我们应用WGCNA构建coexpression网络探索肿瘤发生和发展的肺鳞状细胞癌,首次确定了主要模块和中心的基因。我们的研究显示在图的工作流程
1。
本研究的工作流程。WGCNA:加权基因coexpression网络分析;度:差异表达基因;PPI:蛋白质交互网络。
2。材料和方法
2.1。数据信息
的基因表达谱GSE73402在NCBI地理网站和搜索“肺鳞状细胞癌”和“智人”关键词。GSE73402包括80例,包括23个癌前病例[5例轻度或中度发育不良(P1)和18例原位癌(P2)]和39肺鳞状细胞癌病例(11 I期13 II期8阶段III, IV期的情况下)和7,本系列的平台是GPL17077(安捷伦- 039494 SurePrint G3人类通用电气v2 039381 x60k微阵列)(
19]。根据病理阶段的这些样品,我们4个亚型、发育不良(轻度或中度发育不良),独联体(原位癌),早期癌(I期和II期),和先进的癌(第三阶段和第四阶段)。
2.2。建设WGCNA
在本节中,前5000个基因选择根据WGCNA表达式,然后计算平均算法(
20.]。首先,权力无标度拓扑适合指数计算和网络建设的软阈值被选中。然后,无标度网络的构建和模块eigengene(我)的每个模块进行了计算。最后,我和每个模块的病理特征之间的关系进行了计算,和基因的意义(GS)的基因在主模块进一步计算(
21]。
2.3。基因本体论(去)和通路富集分析
探索生物功能主模块中包含的基因,基因本体论(去),疾病本体(做),和《京都议定书》百科全书的基因和基因组(KEGG)通路富集分析进行基于包的R / Bioconductor GDCRNATools软件(
22- - - - - -
25]。
p
值< 0.05被认为是具有统计学意义。
2.4。(度)的差异表达基因分析
在前面的小节中,黄色的模块之间的相关系数和原位癌(CIS)排名第一。CIS是一个中间状态发育不良和浸润性癌之间,它有巨大的潜力发展为侵袭性疾病(
26]。所以由于独联体和早期癌标本之间的度的分析,我们可以进一步筛选基因黄色模块。度进行了分析使用limma包R / Bioconductor软件与调整
p
值< 0.05和
∣
logFC
∣
>
1
(
27]。然后,排名前25位的调节和排名前25位的表达下调度选择画热图。
2.5。蛋白质相互作用网络分析
度被映射到NetworkAnalyst数据库,它可以提供一个视觉网络来帮助理解复杂的分子相互作用和人类组织PPI的功能分析
28]。我们映射度使用Cytoscape软件和筛选最多的前20个基因相关性(
29日]。
2.6。生存和mRNA表达分析
在本节中,我们使用箱线图可视化中心基因的mRNA表达之间LUSC组织和正常肺组织利用基因表达分析交互式分析(GEPIA)数据库,这是一个网站针对基因表达数据分析GTEx TCGA (Genotype-Tissue表达式)和(癌症基因组图谱)项目
30.]。此外,我们一直使用GEPIA数据库评估中心基因的表达水平和预后之间的关系。最后,生物标志物与mRNA表达差异或生存选择的差异。
2.7。药物针对枢纽中心基因的基因和遗传的变化
批准药物靶向基因中心直接探讨了利用NetworkAnalyst数据库,收集信息从DrugBank数据库(5.0版)(
28,
31日]。我们进一步探讨基因改变的基因通过cBio癌症基因组学中心门户(cBioPortal),可以提供大量的癌症基因组数据集各种癌症和使我们比较不同样本基因改变(
32]。
3所示。结果
3.1。微阵列数据的预处理
GSE73402的数据从GEO数据库搜索和下载,然后被R包处理。我们带注释的探测器系列矩阵文件通过使用基因符号信息从软格式化家庭文件。在本节中,基因符号和探测器匹配,探测器由多个基因注释删除,并计算平均值并记录作为最终由多个探测基因表达值匹配。最后,31998个基因在表达式匹配和留存矩阵(
33]。
3.2。加权Coexpression网络建设
计算标准偏差(SD)的每个基因和降序排名;被选为WGCNA排名前5000的基因。然后,选择最优功率值,这将影响独立性和规模意味着基因coexpression模块的连接。当我们看到在图
2(一个)功率值是3时,一个相对独立和规模意味着连接可以得到平衡。Coexpression模块使用前5000个基因进行了分析和选择前5000个基因,和13个基因Coexpression模块建立了最后(图
2 (b))。所有模块都有不同的颜色和排名根据基因数量(图
2 (c))[
7,
33]。
基因coexpression模块建设。(一)无标度指数和平均连通性适合软阈值的权力。(b)基因系统树图和模块的颜色。(c)每个基因的基因数量coexpression模块。
3.3。检测和关键模块的功能富集分析
根据GSE73402病理学和阶段的样本,我们将这些样本分为4个亚型、发育不良(轻度或中度发育不良),独联体(原位癌),早期癌(I期和II期),和先进的癌(第三阶段和第四阶段)。通过module-feature关系分析,我们确定了黄色模块(CIS是密切相关的
r
=
0.6
,
p
=
3
E
−
7
)(图
3(一个))[
20.,
34]。散点图的基因的意义与模块加入黄色模块如图
3 (b)。考虑到独联体是一个中间状态发育不良和浸润性癌之间,黄色的模块中包含的基因可能在肿瘤发生和发展扮演重要角色LUSC [
26]。
Module-feature关系。(a)之间的相关性热图示例亚型和MEs(相应的皮尔逊相关性和
p
值)。(b)加入模块(MM)与基因的意义(GS)对CIS散点图黄色模块。MEs:模块eigengenes;独联体:原位癌。
因此,我们关注黄色模块中包含的函数和通路的基因。lncRNA因为黄色模块包含两个信使rna, rna未经官方标志,所以我们改变了基因的名字从基因符号基因稳定ID使用BioMart数据库(
35]。黄色模块包含了349个基因;284转换为基因稳定ID富集分析。这些基因的功能和通路富集分析是由GDCRNATools, R / Bioconductor包(
22]。排名前25位的基因本体论(去),疾病本体(做),和《京都议定书》百科全书的基因和基因组(KEGG)通路富集分析泡沫图(图中显示
4)。在图中我们看到,生物过程(BP)的显示,基因是聚集在“激素代谢过程”,“细胞激素代谢过程”、“神经前体细胞增殖”,“积极调节突触传递”。分子功能(MF)基因是聚集在“激素绑定”和“sulfotransferase活动”。为蜂窝组件(CC)基因是聚集在“presynapse”,“顶端细胞的一部分”,“顶质膜”,“轴突部分”,“受体复杂”。KEGG通路富集分析表明,该基因是浓缩在“糖酵解/糖质新生”,“脂肪酸降解”,“酪氨酸代谢”和“色氨酸代谢”。做浓缩分析表明,基因主要是有关“内分泌腺癌”和“肺癌”。
功能基因和通路富集分析黄色模块。(一)GO-BP富集分析。(b) GO-MF富集分析。(c)做富集分析。(d) KEGG通路富集分析。:基因本体;英国石油(BP):生物过程;MF:分子功能;做的事:疾病本体;KEGG:京都基因和基因组的百科全书。
3.4。识别度独联体和早期癌之间的关系
GSE73402包含62例,其中18例原位癌(CIS)和24例早期癌(11 I期,13阶段II)。基因在黄色模块进一步筛选使用limma包R,并调整
p
值< 0.05和
∣
日志
2
足球俱乐部
∣
>
1
被认为是统计学意义。67 180个基因表达差异被发现,包括调节基因和113个表达下调基因。排名前25位的调节基因和表达下调基因选择下一个分析和热图(图所示
5)。
表达之间的度热图原位癌(CIS)和早期癌(I期和II期)。(a)表达热图排名前25位的调节基因。(b)表达热图排名前25位的表达下调的基因。度:差异表达基因。
3.5。PPI网络建设
度都提交到NetworkAnalyst数据库使用肺组织分析。最重要的子网包含58度的基因(种子),提交932个节点,1067边缘。PPI网络最重要的子网图所示
6。最高的前20个基因相关性如表所示
1并为接下来的分析选择。
度映射使用肺组织PPI NetworkAnalyst数据库中分析。red-filled六边形节点代表20蛋白质数量最大的效应蛋白。
前20度最大的效应蛋白的数量。
| 标签 |
学位 |
中间状态 |
| ADRB2 |
233年 |
257445.1 |
| PTN |
106年 |
92928.5 |
| CCT3 |
77年 |
81739.98 |
| TUBB3 |
59 |
62695.01 |
| TCEA2 |
54 |
47992.46 |
| BAG2 |
50 |
44353.53 |
| ATP4A |
46 |
58624.97 |
| ENO2 |
34 |
30455.94 |
| ITGA5 |
27 |
22662.45 |
| GHR |
24 |
21186.87 |
| CA9 |
23 |
24244.3 |
| SDCBP2 |
20. |
17499年 |
| KRT4 |
20. |
14502.74 |
| VAV3 |
18 |
13556.04 |
| TRIM46 |
18 |
13101.6 |
| SCNN1B |
18 |
12939.94 |
| EPHA4 |
15 |
11448.19 |
| KRT24 |
15 |
10896.56 |
| SERPINE1 |
15 |
10494.79 |
| GLUL |
14 |
10191.6 |
3.6。检测中心由GEPIA基因
基因的信使rna表达水平和生存数据中心使用GEPIA网站上面选择进一步分析。结果表明,6基因表达不同肺鳞状细胞癌与正常肺样本(
p
<
0.05
),这是CA9, CCT3、ITGA5 TUBB3, ADRB2, SCNN1B(图
7(一))。生存分析显示,高表达水平的TUBB3和ITGA5非常糟糕LUSC患者总生存期(
p
<
0.05
,图
7 (b)),和高表达水平的SCNN1B大约是这些患者的整体存活率较差(
p
=
0.091
,图
7 (b))。虽然CA9的表达水平,CCT3 ADRB2没有统计学意义与这些患者的总体生存。有趣的是,mRNA的表达SERPINE1没有显示肿瘤与正常组织之间的差异,但它在肿瘤的信使rna表达水平与患者的总体生存LUSC (
p
<
0.05
,图
7 (b))。因此,ITGA5 TUBB3、SCNN1B SERPINE1可以视为中心对LUSC基因的诊断和预后意义。
(a)相比,LUSC六个不同的基因表达与正常肺样本使用GEPIA数据库(
∗
p
<
0.05
)。(b) 4基因的表达水平与患者的总体生存LUSC使用GEPIA数据库。LUSC:肺鳞状细胞癌;GEPIA:基因表达分析交互式分析。
3.7。药物针对枢纽中心基因的基因和遗传的变化
通过在NetworkAnalyst protein-drug交互,中心为15的药物基因直接搜索,其中8 SERPINE1药物,2 5 TUBB3药物,药物SCNN1B(表
2),而没有药物可以直接目标ITGA5据我们所知。OncoPrint cBioPortal如图
8(一个),这表明变更状态4基因TCGA LUSC患者中心。所有4基因改变86年(7%)的1176名患者,和SERPINE1改变大多数(5%)比其他基因。放大和错义突变是主要的蚀变类型,详细的变更类型的所有4基因如图
8 (b)。
经批准的药物基因直接瞄准中心。
| 基因身份证 |
直接批准药物靶向基因 |
| SCNN1B |
阿米洛利 |
| 氨苯蝶啶 |
| TUBB3 |
禅- 012 |
| CYT997 |
| Epothilone D |
| Ixabepilone |
| Epothilone B |
| SERPINE1 |
溶栓 |
| 尿激酶 |
| Reteplase |
| Anistreplase |
| Tenecteplase |
| Drotrecogin阿尔法 |
| Troglitazone |
| 血纤维蛋白溶酶 |
(a) 4中心的视觉摘要显示基因改变基因,TCGA LUSC患者。(b)基因特定的蚀变类型4中心。TCGA:癌症基因组图谱计划。
4所示。讨论
尽管大量的研究努力在肺癌的诊断和治疗,LUSC仍缺乏有效的治疗目标和预后预测指标,导致贫困患者的生存LUSC [
1]。为了提高LUSC的诊断和治疗,是很有必要的,它将一直保持探索分子机制在LUSC与肿瘤发生和发展有关。最近值得庆幸的是,随着生物信息学的发展,我们可以在不同层次探索整个肿瘤分子事件涉及DNA,表观遗传修饰,RNA和蛋白质,这可能表明新型生物标志物的诊断、治疗和预后预测特定的肿瘤(
16,
36]。
发现新的生物标志物,在LUSC有临床意义,我们从地理搜索和应用一个概要文件数据集网站:GSE73402。GSE73402包括80例,包括23个癌前病例[5例轻度或中度发育不良(P1)和18例原位癌(P2)]和39肺鳞状细胞癌病例(11 I期13 II期8阶段III, IV期的情况下)和7,代表LUSC肿瘤发生与发展的整个过程。WGCNA因此,通过分析,我们发现,一个基因列表(黄色模块)的亚型与原位癌(CIS)。考虑原位癌癌的过程中起着至关重要的作用,黄色的模块中包含的基因可能被进一步筛选小说在LUSC生物标志物的诊断和治疗。然后,通过富集分析,在一系列的分析度,PPI, GEPIA cBioPortal, 4基因(ITGA5, TUBB3 SCNN1B, SERPINE1)检测LUSC的生物标记与预后相关。
在我们的研究中,TUBB3 LUSC被发现与生存相关,和其高表达生存预测更糟。TUBB3智人的基因位于染色体16 q24.3由4个外显子。它编码一个蛋白质的450 aa, beta-III微管蛋白,它的主要成分是微管,GTPase域所需调节微管动力学(
37]。由于微管在肿瘤发生和发展的重要作用的癌,许多研究都集中在这个基因及其对癌症治疗的影响(
37]。Kamath等人报道,过度的beta-III微管蛋白可以降低紫杉醇抑制微管动态的能力,从而诱发紫杉醇耐药,导致对患者生存预后不佳(
38]。Levallet等人发现TUBB3的表达是一个独立的预后因素治疗早期非小细胞肺癌患者术前化疗,和k - ras基因突变决定因素[TUBB3表达调控
39]。
人类SCNN1B基因位于染色体16 p12.2及其编码生产
β上皮细胞钠离子通道亚基(钠),这是一个multiprotein复杂的由三个子单元(
α,
β,
γ),负责跨上皮细胞的液体和电解质运输。虽然SCNN1B被视为膜通道过去,一系列的研究表明,SCNN1B还包括在细胞分化
40,
41]。钱其琛等人报道,SCNN1B表达可以通过启动子甲基化沉默通常在胃癌细胞系(GC)和原发性肿瘤组织,并指出GRP78超表达的抑制作用可以消除SCNN1B细胞生长和迁移,从而促进肿瘤进展(
41]。Dalgin等人发现甲基化SCNN1B在肾细胞癌和暗示,它可能作为一种可行的诊断测试的尿液和血液样本
42]。在我们的研究中,SCNN1B mRNA在肿瘤组织表达水平低于正常的肺组织,与之前的研究相一致,表明SCNN1B可能hypermethylated LUSC。所有上面提到的研究表明SCNN1B可能作为肿瘤抑制,但在GEPIA数据库,SCNN1B mRNA表达水平高的患者遭受贫穷的生存预后(
p
=
0.091
)。因此,需要更多的研究来探索SCNN1B的分子机制在LUSC LUSC并确认其角色扮演生存预后。
人类基因SERPINE1 E (serpin家庭成员1)位于染色体7 q22.1,它编码纤溶酶原激活物inhibitor-1 (PAI-1),这是一种抑制剂的组织纤溶酶原激活物(tPA)和尿激酶(uPA)和纤维蛋白溶解(包括
43]。
纤溶酶原激活物系统可以影响细胞迁移和血管生成,所以它不仅控制着血管内纤维蛋白沉积,而且参与一系列的生物过程,包括肿瘤生长、入侵和转移(
44]。王等人发现,通过与LRP1恰巧交互、过度PAI-1可能提高ESCC的入侵和迁移细胞(
45]。许等人发现PAI-1表达显著增加乳腺肿瘤组织与正常组织相比,表达水平是三阴性乳腺癌患者的预后相关(
46]。林等人报道,PAI-1可以促进epithelial-mesenchymal过渡(EMT)在非小细胞肺癌细胞激活STAT3信号通路,这表明PAI-1可能对预测预后的生物标志物和一个潜在的治疗目标
47]。GSE73402分析在我们的研究还表明,SERPINE1 mRNA表达升高比原位癌侵袭性肺鳞状细胞癌。和高水平的患者SERPINE1 mRNA表达遭受贫穷的生存通过GEPIA数据库,这是与以往的研究一致。
ITGA5智人的基因位于染色体上12 q13.13和编码整合素α5,这是整合素α链家族中的一员。整合蛋白是膜蛋白heterodimeric积分和由一个α亚基,β亚基,使整合蛋白在细胞信号传导和表面附着力
43]。整合蛋白已经被报道,它可能参与血管生成和lymphangiogenesis可能是一个潜在的治疗目标,抑制肿瘤血管生成,lymphangiogenesis,和转移
48]。玉等人表示,ITGA5过度可能会加速结直肠癌(CRC)的发展,是与它密切相关增强O-GlcNAcylation [
49]。峰等人发现ITGA5可能工作作为主持人在胶质母细胞瘤(GBM),和mir - 330 - 5 - p可以通过针对抑制细胞增殖和入侵GBM ITGA5 [
50]。肖等人报道,mir - 205 reexpression可能下调ITGA5表达式,因此TNBC受损细胞转移性特征,这表明,mir - 205和ITGA5可能潜在生物标记物用于治疗转移性TNBC [
51]。我们的分析表明,ITGA5 mRNA表达增加侵袭性肺鳞状细胞癌相比,原位癌;尽管从数据库GEPIA是相反的结果,ITGA5仍认定为危险因素患者的生存LUSC在我们的研究中。