1。介绍
特发性肺纤维化(IPF)是一种慢性、进行性、不可逆,通常致命的间质性肺疾病病因不明和组织病理学表现通常的间质性肺炎(摘要)
1 ]。IPF的患病率和发病率是不清楚,但趋势是逐年增加,死亡率也在增加(
2 ]。IPF的可能的危险因素包括吸烟、环境暴露,微生物因素,遗传因素,胃肠疾病(
3 ]。IPF的主要临床症状是咳嗽、进行性呼吸困难、疲劳等(
4 ,
5 ]。夜总会的手指可以临床体格检查中发现,在听诊可以听到,嘎嘎作响。
随着高通量测序技术的发展和微阵列,它提供了一个很好的机会来进一步理解IPF。王等人。
6 )基于微阵列数据分析IPF-related基因通过基因的差异表达基因集富集分析(GSEA)和(度)和综合分析3公共微阵列数据集,包括54 IPF 34正常样本和样本。结果表明,有350个基因与IPF度相关。基因本体论(去)和《京都议定书》百科全书的基因和基因组(KEGG)富集分析表明炎症反应、平滑肌细胞增殖,chemokine-mediated信号通路可能是IPF疗法的潜在目标。这些结果可能是有益的IPF诊断和治疗策略的发展。风扇等。
7 )使用微阵列数据下载的地理数据库,全面分析生物信息学和IPF之间的关系。结果表明,有67个差异表达基因的三个IPF相关基因表达谱的数据集,可能参与IPF疾病的进展通过参与细胞粘附,辅料,细胞外matrix-receptor互动,粘着斑。王等人。
8 )下载GSE49072基因表达谱的地理数据库和执行一系列的生物信息学分析(包括去KEGG浓缩分析、功能注释,(PPI)和蛋白质交互网络建设弦上的网站)。最后的结果表明,551度被发现,包括205和346年调节使之抑制。在调节基因,分泌磷蛋白质的表达1和血小板基本的蛋白质是最重要的。同时,度增殖作用的蛋白激酶(MAPK)信号通路和趋化因子信号通路发挥重要作用在IPF的发生和发展。微阵列技术是一种新型的高通量技术,改变我们学习生物学的方式。可以看出,微阵列数据是高通量测序的结果。通过微阵列数据的分析,我们可以筛选出的差异表达基因疾病,甚至获得核心差异表达的基因,这有利于疾病的诊断和治疗(
9 ,
10 ]。例如,通过分析相关的微阵列数据库,Udhaya Kumar et al。
11 )确定七个核心与家族性高胆固醇血症相关的基因,这些基因可能会增加动脉粥样硬化的风险。因此,它有利于开发新的药物和疾病的治疗。在分析肺鳞状细胞癌的微阵列数据库,傅et al。
12 ]相关的差异表达基因中提取免疫和免疫信号构造基于伊斯兰革命卫队,具有一定指导意义的判断疾病的发展和预后。微阵列数据分析就可以排除疾病和链接的度差异表达基因与特定的生物功能,这有利于从分子水平上理解疾病和扮演着一个重要的角色在临床治疗和新药开发
13 ]。
降低成本的高通量测序技术和生物信息学的发展,增加研究人员将使用高通量技术和生物信息学技术揭示IPF的发病机制。然而,大多数研究只关注IPF患者和正常对照组之间的差异,但并未得到重视IPF患者之间的差异。在癌症研究,揭示肿瘤之间的异质性,指导治疗和判断预后,肿瘤样本通常分为若干亚型根据基因表达模式(
14 ]。彭et al。
15 ]子组件分析352名冠心病患者进行基因表达谱,发现潜在的分子特征的不同类型的冠状动脉疾病(CAD),增强CAD分子机制的理解,和CAD的临床治疗有一定指导意义。提高我们对IPF的分子机制的理解,我们也分类例IPF到子组根据相关基因表达谱,分析了他们通过一系列的生物信息学方法,注释相应的coexpression功能模块显示每个子群的特征。具体来说,每个子类型显示不同的表达模式和疾病严重程度。
2。材料和方法
2.1。数据收集
2.1.1。下载数据
基因表达的综合(GEO)网站(
https://www.ncbi.nlm.nih.gov/geo/ )档案和分发免费的微阵列,下一代测序(门店),和其他形式的高通量功能基因组数据(
16 ]。地理网站进入,输入“特发性肺纤维化”的网页,和地理数据集数据库被选中。进入搜索结果页面后,系列选项是检查,数组被选中的表达分析。本研究是智人。然后,基因芯片与40多个样本包括在这项研究中,和他们的平台文件和序列探针矩阵文件被下载,分别。
2.1.2。地理数据的注释
Perl编程语言(
http://www.perl.org/ )被称为“瑞士的电锯编程语言”;这是一个很好的选择开发微阵列数据处理的解决方案(
17 ]。在这项研究中,Perl软件将用于提取和整理下载基因chip-related内容,包括基因表达矩阵,临床特点,探针集。该平台用Perl文件从地理处理网站下载软件来获得一个文本行名称的基因名称和样品的列名的名字。和新文件名称对应的基因芯片数据进行后续研究。探针的临床特征信息矩阵文件提取到新创建的Excel作为研究的临床数据文件。
2.2。批处理效应的消除
首先,“limma”计划和“上海广电”包的R / bioconductor包用于合并表达数据(
18 ]。数据结合时,平均值的数据与多行了一个基因,而只保留一行。数据与一个较大的值,log2被转换。因为来自不同的基因芯片集成的微阵列数据,有必要消除“批量效应”来消除累积误差引起的时间,关于位置的实验变化等等(
19 ]。基于系统综述,战斗能够识别更真实和假阳性。同时,战斗方法可以用于规范化表达值从不同批次或平台
20. ]。因此,我们选择战斗的方法来消除两个平台之间的批处理效果。最后,R / ggplot2包是用于分析评估的主要组件批效应是否删除(
21 ]。
2.3。共识集群
“limma”计划和“共识”集群+包的R / bioconductor包被用于集群共识,IPF情况分为不同的子组(
22 ]。的
K
——与斯皮尔曼距离算法用于聚类(
23 ]。集群的最大数量设置为10,最后集群数量是由一致性矩阵和集群一致性评分(> 0.7)。
2.4。比较三组的临床特点
获得三个子组的临床特点,指导临床治疗和判断预后,临床特点的三个子组进行比较。成对测试是用来比较的比例男性比例在三个子组。此外,成对Wilcoxonʼ年代rank-sum测试用来测试是否有子组之间的年龄差异和差距模型。差距模型包括性别(G)、年龄(A)和两个肺生理变量(P) (FVC和DLco) (
24 ]。
2.5。提取特定调节基因亚型
为了更好地理解这种疾病方面的分子机制,屏幕上特定的基因表达后续基础研究,并指导临床治疗和新药的开发,提取每个子群的特定调节基因。通过比较与其他子组特定的子群,特定调节基因被确定。应该注意的是,Wilcoxonʼ年代rank-sum测试用于测试的微分表达式,修正阈值
p
<
0.05
的绝对差异
意味着
>
0.2
。对于一个给定的基因的差异计算出的意思是减去正常对照组的平均表达一个特定的子群。
2.6。基因集富集分析
基因集富集分析(GSEA)被用来观察是否特定微分基因在每个子群也不同于正常样本(
25 ]。从分子水平上更好地理解这种疾病,GSEA实施在GSEA桌面版4.1.0 GSEA prerank模式。基因组数据库包括subgroup-specific基因。和每个子群的基因列表排名
p
使用成对的学生的价值观
t
以及,通过比较计算每个子群的IPF例正常对照组。
2.7。加权基因Coexpression网络分析
加权基因coexpression分析(WGCNA)被用来分析特定基因在每个小组确定的模块可以代表每个子群的生物功能,可用于识别候选生物标志物或治疗靶点
26 ]。WGCNA已被证明是一种有效的方法来检测多个coexpression模块,可用于发现集群(模块)高度相关的基因
27 ]。最优力值的值被发现通过散点图,和基因之间的距离计算。此外,平均法和动态法被用于分层聚类分析;基因的聚类图和模块分类,分别建立了;和类似的模块合并。我们终于确定6个功能模块。斯皮尔曼ʼ相关系数和相应的
p
临床特征和功能模块之间的值通过计算
天哪 斯皮尔曼在WGCNAʼ年代方法的函数包。同时,标签头地图的功能选项“limma”和“pheatmap”包应用于画热图。
2.8。KEGG富集分析
每个子群的调节基因WGCNA分析KEGG富集分析,了解每个子群的特征在更深的层面上,从分子机制层面,并为临床治疗提供一定的指导意义和预后的判断。基因群KEGG通路从MSigDB下载,和基因物种是人类
28 ]。在KEGG富集分析,
p
值过滤条件设置为< 0.05,纠正
p
值筛选条件是1。
3所示。结果
3.1。IPF学科的特点
五个独立的微阵列信息包括在这项研究中,包括四个独立的临床试验。基因表达数据是从地理数据库和加入GSE33566 (David Schwartz et al ., 2012;
n
=
123年
),GSE49072(埃里克·比林斯et al ., 2014;
n
=
84年
),GSE53845(亚历克斯·阿巴斯et al ., 2014;
n
=
48
),GSE70866 (Antje Prasse et al ., 2018;
n
=
196年
)和GSE70867 (Antje Prasse et al ., 2018;
n
=
321年
)。GSE33566和GSE70866提供临床资料。GSE33566、GSE53845 GSE70866提供性别的临床信息。此外,GSE33566 GSE70866也提供关于DLco临床信息和差距模型,分别在一定程度上反映疾病的严重程度。
3.2。删除批处理效果的跨平台标准化
从不同的平台和批量删除批处理的效果,我们使用了战斗的方法来消除数据集之间的批处理效果。总共有7959个基因检测到两个微阵列平台。消除批量效应之前,样本集中在根据前两批主成分(pc)的非规范表达式的值(图
1(一) )。相比之下,散点图是标准化的基于主成分分析,结果表明,该批效应引起的不同的平台显然是删除(图
1 (b) )。结果表明,批处理效应成功地消除了跨平台标准化。
图1
主成分分析的基因表达数据集。散点图中的点是基于基因表达谱的两个主要组件(PC1和PC2)可视化样本:(a)没有消除批效果;(b)的批处理的效果。五种不同的颜色代表样本数据集。
(一)
(b)
3.3。共识IPF病例聚集
聚类分析(一种无监督聚类方法)是由使用批处理效应修正表达式文件和样品信息(IPF)诊断组的疾病。220例IPF患者分为子组(见部分
2。3 )。根据统计的数据一致性评分,基因表达谱被聚类分析分为三个亚组。病例数量的子组I, II, III是43岁,111年和66年分别有显著不同的表达模式。相反,基于一致性矩阵,高度的相似基因表达的模式是每个小组(图中观察到
2(一个) )。
图2
共识的基因表达谱聚类分析特发性肺纤维化(IPF)的病例。(a)热图代表一致矩阵与集群数3,这是由最小的共识得分子组(> 0.7)。(b)子组的条形图表示一致的分数集群之间的数字2和图10所示。
(一)
(b)
一般来说,一致性越高分数,和更多的组分类,更健壮的亚型。在这项研究的结果,虽然一致性两组的得分是最高的,有更少的组。是否分为2或3组,组间一致性评分大于0.7。根据上述结果,220例IPF患者分为3组(图
2 (b) )。
描述三个子组的临床特征,时代GSE33566 GSE70866数据集进行了分析;的性别GSE33566、GSE53845 GSE70866数据集的统计分析;差距模型在GSE70866数据集也统计分析。由于缺少DLco GSE33566中的数据的数据集,没有发现原始数据,所以没有统计分析。
年龄统计的结果显示,患者在第二组比其他子组,有一群我和二子群之间的显著差异(
p
<
0.001
),但没有显著区别二组和三组或子群之间我和子群III (
p
>
0.05
)(图
3(一个) )。
图3
子组之间两两比较的临床特点。Box-chart (a, c)显示每个子群的年龄和差距模型,分别。(b)的男性比例在每个子群由bar-plot表示。
(一)
(b)
(c)
性别统计的结果显示,尽管男性的比例在第二组高于其他两组,男性的比例没有显著差异的三个子组(
p
>
0.5
)(图
3 (b) )。
差距模型统计结果表明,总体而言,小组第二的差距分数高于其他两组。此外,第二组显著高于子群我(
p
<
0.05
)(图
3 (c) )。
此外,我们还分析了年龄和子群之间的差异,发现该小组是一个独立IPF-related指数,可以在一定程度上预测疾病的严重程度(表
1 ,
p
<
0.05
);同时,病人的年龄也可以预测疾病的严重程度在某种程度上,这是与以往的研究结果(表一致
1 )。
表1
方差分析分类的子组,年龄,和他们的相互作用。
Df
和广场
均方
F值
公关(>)
子群
2
10.42
5.212
3.636
0.032
∗
年龄
1
28.30
28.927
19.851
3.88 e-05
∗
∗
∗
子群:年龄
2
6.35
3.176
2.228
0.117
残差
58
82.68
1.425
请注意。Df:自由度。重要准则:“
∗
∗
∗
“0.001”,
∗
∗
“0.01”,
∗
“0.05”。“0.1”、“1。
3.4。识别基因Coexpression模块为每个子群
揭示IPF子组之间的基因差异,WGCNA执行特定调节基因的表达水平在每个子群(见部分
2。7 )。每两组两两之间的差异表达分析确定2434年,141年,和1329个基因调节子组我,II, III (Benjamin-Hochberg调整
p
<
0.05
,绝对的差异
的意思是
>
0.2
)。此外,我们将每个子群的基因表达谱与正常对照组分析的微分表达式。GSEA透露,subgroup-specific调节基因也显著调节在病例对照比较(数字
4(一) - - - - - -
4 (c) ,
罗斯福
<
0.05
)。
图4
subgroup-specific调节基因的表达模式。浓缩块(a - c)说明subgroup-specific调节基因也在相应的子群表达高于正常对照组。
(一)
(b)
(c)
值得注意的是,与其他群体相比,尽管第二小组最少的subgroup-specific调节基因,其差距模型和年龄高于其他两组,表明这一群体的病人可能更严重。与第三组相比,子群我有更多的调节基因,但差距模型和年龄较低。这些结果表明,子群我可能相对温和。
基于3906年调节基因的表达水平在子群,并构造出一个基因表达网络六WGCNA模块被确定。WGCNA模块和相应的子组之间的关系如表所示
2 。每个WGCNA模块的基因富集分析KEGG通路显著表明,自噬途径只有丰富的蓝色模块,以及氧化磷酸化途径只有显著富集green-yellow模块。灰色模块丰富了ECM-receptor交互途径。洋红色模块丰富的核糖体途径。粉色模块中的显著富集在刺激神经组织的(NLR)交互途径,这个途径只有大大丰富在粉红色的模块。Th1、Th2细胞的分化途径大大丰富了棕褐色的模块。在子群我,基因显著调节的蓝色,green-yellow,和洋红色模块,最调节基因在蓝色的模块。蓝色的自噬途径只有大大丰富了模块,包括Akt3 PIK3CA, PIK3R1。在第二组中,基因调节在谭模块,而Th1、Th2细胞分化途径只有浓缩在这个模块,包括CD247 JAK3, STAT4。此外,第三组有显著的基因调节在粉红色的模块,NLR通路的丰富最重要的是,和粉色NLR途径只有丰富模块。 Combined with the results of Section
3所示。3 ,它表明subgroup-specific基因可以作为生物标志物相关独立于这些混杂因素和IPF(表
2 ,数据
5(一个) 5 (b),补充表
1 - - - - - -
3 )。
表2
通过病例对照的差异表达基因的数量和case-case比较在每个子群和加权基因coexpression分析模块。
子类型
特定的基因与正常组比较
特定的基因相比,每个子群
特定调节基因在子群
模块化
我
3549年
4142年
2434年
蓝色,green-yellow,洋红色
二世
178年
311年
141年
棕褐色
三世
2567年
3786年
1329年
粉红色的
图5
(一)扩展表达式值的基因组成的每个六加权基因coexpression热图显示在网络分析模块。(b)基因富集分析KEGG每个WCGNA模块的途径。
(一)
(b)
3.5。协会的临床特点和WGCNA模块
研究临床特征和WGCNA模块之间的关系,相关系数和相应的
p
值之间的差距模型或年龄和eigengenes每个模块的计算(见部分
2 )。应该注意的是,所代表的特征基因是基因表达的特征向量矩阵的每个模块。结果表明,灰色,蓝色,粉红色与差距模型模块无关。相比之下,枣红色模块和green-yellow模块与年龄和差距负相关模型,这两个模块在核糖体途径极大地丰富。谭模块呈正相关,差距模型,而Th1、Th2细胞分化途径在谭模块,大大丰富了表明免疫功能障碍与缺口模型。灰色模块与年龄呈正相关。结果进一步表明,WGCNA模块与一些临床特征,如缺口模型和年龄(见图
6 )。
图6
正极和负极WGCNA模块和临床特征之间的相关系数,差距模型,和年龄分别是红色和蓝色所示。
4所示。讨论
在这项研究中,我们分析了基因表达谱的IPF例和正常对照组从五个独立的地理数据集。不同的平台或批次的批处理影响消除。此外,我们成功地将220名IPF患者分成三个子组首次根据基因表达谱。在进一步分析中,subgroup-specific功能模块或通路。重大协会观察临床特征和亚型之间。与其他两个子组相比,第二小组的分数差距是更高的年龄是老的,这表明,IPF患者在第二小组中可能是最严重的。一致性聚类基于大样本大小和集群的一致性较高(> 0.7)表明我们的亚型是健壮的。总之,IPF的亚型是密切相关的临床特征和具体功能模块或途径。
本研究的动机是癌症亚型,这可以通过基因表达谱识别或其他组学数据。此外,子群差异和内部或外部因素之间的关系已被广泛研究。例如,金等。
29日 )进行了亚组分析在不同类型的癌症患者,疼痛和结果表明,低/高疲劳组仅出现在第一个化疗周期,还有重要的子群不同程度的疼痛和疲劳在每个时间点(
p
<
0.05
)。西勒et al。
30. ]探索分子亚型的能力来预测新辅助化疗后的病理阶段和生存(NAC)。结果表明,分子亚型可能影响NAC对病人的利益,特别是在基底肿瘤患者。张成泽et al。
31日 )报道,非小细胞肺癌的分子分层转录组测序数据识别不同的免疫分子亚型,预测反应的细胞程序性死亡1封锁。除了癌症研究,非癌疾病包括阿尔茨海默氏症、骨髓增生异常综合征,慢性阻塞性肺疾病(
32 - - - - - -
34 ]。尽管这些研究有一定的局限性和混杂因素,他们所做的改善我们的理解分子机制和疾病之间的关系发展。
类似于癌症、罕见的和复杂的疾病,如IPF显示临床异质性。不同于以往的研究(
7 ,
35 ),只研究了基因表达谱的IPF患者或与正常对照组的基因表达谱相比,我们进一步IPF病例分为子组和显示,研究对象在不同的子组显示不同的临床特点。例如,受试者在第二小组中往往是老年人而更严重。虽然子组我三世显示年轻和更轻的IPF,子群我可能是最严重的。此外,男性的比例在第二组是(大约75%)显著高于男性IPF流行病学在前面。因此,IPF患者不同的临床特征可以明显区分亚型。根据分子的作用机制不同的子组,它有一定的指导意义的发展IPF的新药物和治疗。
与先前的研究相比(
36 ,
37 ],subgroup-specific功能模块不仅证实IPF-related监管途径,而且与具体途径IPF对象在特定的子组或临床特征。例如,众所周知,Th1、Th2细胞分化在IPF扮演着重要的角色。IPF的炎症反应被认为是非常类似于辅助Th2免疫反应细胞,和极化t细胞反应被认为扮演重要的角色在组织纤维化的发展。Th1细胞参与phagocyte-dependent炎症和细胞介导免疫(
38 ]。和Th1细胞产生干扰素和interleukin-12已经被证明能够限制组织纤维化的发展,而Th2细胞生产interleukin-4和interleukin-13已经被证明能够促进组织纤维化的发展(
39 - - - - - -
41 ]。IPF患者肺组织的评估显示,Th2细胞因子的表达高于Th1细胞因子(
42 ]。在我们的研究中,在第二组中,我们发现,Th1、Th2细胞的分化途径是最重要的浓缩在这个群,表明Th1、Th2细胞的分化与IPF的年龄和严重程度密切相关。Th1、Th2细胞的平衡起着重要的作用在自身免疫性疾病。可以推测的是第二组的发病机制可能与自身免疫功能障碍。
然而,根据浓缩KEGG路径的结果,Th1、Th2细胞分化的主要目标包括CD247 CD3D, IL2RB JAK3, STAT4。CD247(也称为CD3链)是参与T细胞的激活和功能,是一种系统性硬化病的易感基因与肺纤维化(
43 ]。然而,CD247是否参与IPF发病机理和IPF成为潜在的治疗目标,我们需要开展相关基本实验和前瞻性临床试验来验证。在IPF木菠萝和统计发挥重要的作用。施等。
44 )表明,TGF参与BLM-induced鼠标木菠萝/数据通路的发病机理。一种新型嘧啶目标蛋白质酪氨酸激酶抑制剂可能IPF的有前途的药物,和它的作用机理之一是抑制JAK3激酶(
45 ]。因此,JAK-related抑制剂可能对IPF的主要有效药物之一。因为分数的患者的年龄和差距在第二组较高,病情更加严重,我们可以考虑使用JAK-related抑制剂和免疫调制剂调节Th1、Th2细胞,改善病人的病情,提高生活质量。然而,这些初步结论是基于之前的研究结果,需要验证了相关基本实验和大样本临床试验。
相比之下,虽然没有明显的年龄差异和差距模型子群之间我和子群三世,其内在生物学特性表现出显著差异。在子群我,大多数基因调节在蓝色的模块,当自噬途径只是浓缩在这个模块。相关研究表明,自噬可以减少IPF的病理过程的调节成纤维细胞凋亡和肺泡上皮细胞老化,及其缺陷的发病机制可能参与IPF (
46 ,
47 ]。根据浓缩KEGG路径的结果,autophagy-related路径目标主要包括Akt3, PIK3CA, PIK3R1。最近的研究表明,PI3K / Akt信号通路可以调节mTOR,自噬的目标(
48 - - - - - -
51 ]。因此,PI3K-related抑制剂可能更有效的群我的病人。然而,一个大样本的临床数据是需要验证。
在第三组,显著富集中的刺激神经组织的互动和Ca +观察信号通路。相关研究表明,Ca +信号转导中发挥着重要作用促进扩散、转换和胶原蛋白合成和抑制肺成纤维细胞的细胞凋亡
52 ]。Ca +信号通路的激活可以增加咳嗽的敏感性,因此可以推测,在第三组咳嗽症状可能会更突出。根据KEGG通路富集结果,钙信号pathway-related途径主要包括NTRK2和P2RX3目标。近年来,有证据表明NTRK2(也称为TrkB)中扮演一个重要的角色在生成受体酪氨酸激酶家族
53 ]。与此同时,TrkB神经性咳嗽的发病机制密切相关[
54 ]。相关研究也表明,BDNF / TrkB轴在EMT过程中发挥作用促进收购IPF (myo)成纤维细胞表型。针对BDNF / TrkB是一种可行的方法来防止EMT-dependent肺纤维化(
55 ]。因此,对于第三组患者,应用TrkB靶向药物可能会有更好的效果。然而,它也需要大量的基础实验和前瞻性临床试验来验证。
总之,这些结果进一步证明亚型代表IPF的发展阶段和内在的生物学特性。类似于癌症亚型,未来IPF的研究也应该引入multiomics数据显示更准确的IPF的分子子组。然而,IPF在组学的分析相对较少。灵感来自研究癌症亚型和CAD的亚组分析彭et al。
15 ),我们类似的策略应用于揭示IPF的分子群。当前的研究改进我们对IPF-related分子机制的理解。与此同时,因为结果表明,从不同的子组患者可能有自己的独特的基因表达模式,它提醒我们在每个子群病人应该接受更多的个性化治疗。本研究有局限性。首先,虽然我们的研究结果表明,IPF情况下从不同的子组可能有不同的表达模式,它们是基于以前的研究。其次,尽管IPF的分子亚型中获得本研究的初步筛选新药的发展有一定的指导意义,临床治疗和预后判断,更严格的分析方法和一个更大的人口需要前瞻性验证。