文摘

背景。哮喘严重影响人类生命和健康作为一种慢性疾病。传统治疗哮喘有几个局限性。人工智能在癌症治疗艾滋病也可以加快我们对哮喘的机制的理解。我们旨在开发一种新的临床诊断哮喘使用人工神经网络模型(ANN)。方法。数据集(GSE85566 GSE40576和GSE13716)从基因表达综合(GEO)下载,确定差异表达论文认定(DECs)丰富基因本体论(去)和《京都议定书》(KEGG)基因和基因组分析的百科全书。随机森林(RF)和ANN算法进一步确定基因特点和临床模型构建的。此外,两个外部验证数据集(GSE40576和GSE137716)被用来验证模型的诊断能力。结果。甲基化分析工具(冠军)认为DECs差异( = 121)和衰减( = 20)。结果显示浓缩的肌动蛋白细胞骨架组织和细胞基质粘附,志贺氏菌病和血清素激活的突触。射频(随机森林)分析确定了10个关键DECs (cg05075579、cg20434422 cg03907390, cg00712106, cg05696969, cg22862094, cg11733958, cg00328720,和cg13570822)。根据10 DECs安临床模型构造。在两个外部验证数据集(GSE40576和GSE137716),曲线下的面积(AUC) GSE137716为1.000,和GSE40576 AUC为0.950,证实了模型的可靠性。结论。我们的研究结果提供了新的甲基化标记为哮喘诊断和治疗和临床诊断模型。

1。介绍

哮喘是一种慢性的、异构的呼吸道疾病影响所有年龄组的人。最近,每年与哮喘有关的发病率和死亡率增加了。哮喘的临床表现主要是呼吸道症状。主要病理特征包括慢性气道炎症、气道高反应,和气道重塑1- - - - - -3]。免疫球蛋白E (IgE) interleukin-5 (IL-5)及其受体,和interleukin-4 (il - 4)受体作为临床诊断的分子靶点的哮喘;然而,特定的个体差异非常大,哮喘患者的临床治疗仍不足(4,5]。

DNA甲基化,人类的主要表观遗传分量,对各种疾病的发生和发展产生深远的影响(6,7]。有大量证据表明,哮喘的机制和特征取决于甲基化模式。加芬et al。8]研究DNA甲基化在外周血单核细胞的核过敏性气道上皮细胞,non-atopic和健康哮喘儿童和证实,多个CpG站点ARDB2基因启动子区域与降低儿童呼吸困难有关。核糖核酸甲基化提供了新的哮喘治疗的选择(9,10]。

尽管多项研究已经进行区分疾病与健康的病人通过识别论文认定位点,然而,结果并不乐观11]。可靠的定量测量使用更少的标记是一个可行的选择。机器学习技术在医学领域的应用大大加速了了解疾病的研究(12,13]。机器学习可以描述人类疾病的复杂性和不可预测性报道在不同的研究14- - - - - -16]。曹et al。17)确定关键基因基因co-expression Th2-high哮喘使用加权的加权网络分析。目前还没有标准的筛查和早期诊断哮喘的诊断模型。机器学习方法的快速发展,如随机森林(RF)和人工神经网络(ANN),经常用于生物标记研究[18- - - - - -21]。

这是第一个研究中,我们分析了甲基化表达谱的哮喘样品机器学习(RF和安)和DECs获得。接受者操作特征(ROC)曲线评估我们的模型的诊断性能。外部验证数据集也证实了模型的效率。本研究旨在确定哮喘疾病通过分析甲基化数据。研究工作流图所示1

2。方法和材料

2.1。数据采集和预处理

甲基化表达谱GSE85566 [22)(哮喘样品:74,正常样本:41),GSE40576 [23](哮喘样品:97,正常样本:97),和GSE1371624](哮喘样本:16日正常样本:17)下载从基因表达数据库综合(GEO)。失踪的表达谱数据都使用冠军包和规范化。

2.2。微分GSE85566甲基化表达谱的分析和设计分组

过滤探测器( - - - - - -通过冠军值< 0.01)。滤波函数的冠军包(版本:2.24.0)进行论文认定差异分析(deltaBeta > 0)冠军函数和前1000名获得论文认定热图分析结果的冠军。阈值是deltaBeta < -0.05, - - - - - -值< -108匹配,基于甲基化的基因符号数组450 k为以后去和KEGG分析(clusterProfilter版本:4.3.3)。上面的分析使用R环境安装包。

2.3。随机森林(RF)分类

获得的DECs冠军最初识别和分类使用R包randomForest 4.7.1(版本)。犯错的价值。率最小化通过计算平均模型误判率的DECs数据,以确保最好的节点(mtry)。在这项研究中,最优变量设置二叉树的节点是7,和最优随机森林的树木数量是600。基尼系数选择重要的DECs(前十)作为特定候选人哮喘。这些DECs的热图是由pheatmap(版本:1.0.12)来显示他们的分类能力。

2.4。人工神经网络模型结构

人工神经网络模型的重要候选人变量构建使用R的包(neuralnet,版本:1.44.2)。根据规范,隐藏的神经元的数目应该大小的2/3的输入层+ 2/3的大小输出层;隐藏的神经元的数目应该大小之间的输入层和输出层。基本的表达谱数据归一化(0,1)在neuralnet和加工。输出是正常和哮喘,第一隐层和输出(输入的最后输出层)被认为是基因权重的结果。终止条件是绝对误差函数的导数(达到阈值< 0.01)。

2.5。模型性能评估

不同的包在R环境(4.1.3 R版本,https://www.r-project.org)被用来评估模型的性能。模型预测和识别、插入符号(6.0版本:-91)和confusionMatrix。对于射频,pROC(版本:1.18.0),和安和AUC(曲线下的面积),ggplot2(版本:3.3.5)使用。分类和回归树(CART)、支持向量机(SVM),极端的梯度(XGBoost)算法增加rpart(4.1.16版),XGBoost(1.6.0.1版),和e1071(9) 1.7版本包被用于模型验证GSE40576和GSE137716数据集。

3所示。结果

3.1。论文认定的GSE85566

甲基化在多种疾病中扮演着重要角色,先前报道(25- - - - - -27]。甲基化冠军包冠军。DMP被用来分析和过程中的甲基化表达谱数据集GSE85566(74哮喘样品和41正常样本)了解哮喘的甲基化结构样品和计算微分论文认定网站。前1000名论文认定热图景观(哮喘和正常样本)显示在图中2(一个)。进一步的甲基化目标搜索区分哮喘和健康的样本。的DECs(哮喘比健康)甲基化芯片数据集根据冠军被确定。DMP和火山阴谋的结果(图2 (b))。阈值设置为adj.P。Val < 108,差异DECs deltaBeta < -0.05 ( = 121)和衰减DECs ( = 20)。表达的上调和下调DECs热图(图所示2 (c))。热点图,我们发现哮喘组(蓝色)和健康组(红色)样品几乎是分离的,但仍有一些哮喘样本混合在健康组(红色)。因此,识别能力的DECs哮喘和健康样品仍然需要改进。

3.2。去KEGG DECs的分析

去和KEGG分析被用来理解的生物功能和监管DECs去结果表明,调节肌动蛋白细胞骨架组织和细胞基质粘附是丰富(图3(一个))。KEGG分析显示,浓缩在志贺氏菌病和血清素激活的突触(图3 (b))。上述结果进一步证实了甲基化在哮喘的发病机制中发挥了关键作用。哮喘患者和正常的识别通过一个论文认定网站或多个论文认定模型是一个迫切需要解决的问题。

3.3。微分论文认定(DECs)随机森林(RF)

上面的结果提供了一个初步了解哮喘的甲基化论文认定的关键作用。虽然论文认定发挥了重要作用区分哮喘健康样品,结果不满意(图2 (c))。这些DECs作为随机森林分类器的输入。为了使误差尽可能小,我们计算的平均错误率(err.rate),变量的参数被认为是7,和最后的神经网络模型包含600棵树作为最终模型参数,以确保稳定(图错误4(一))。随机森林模型维度重要性得到根据基尼系数法(MeanDecreaseAccuracy MeanDecreaseGini;图4 (b))。排名前十的DECs重要性被确定(cg05075579、cg20434422 cg03907390, cg00712106, cg05696969, cg22862094, cg11733958, cg00328720, cg13570892,和cg03325522)。作为后续候选人随机森林分类的分类结果,在这些DECs, cg05075579被认为是最重要的,意味着降低基尼指数远远高于DECs(表1)。热图(图4 (c))表明,这些10 DCGs系统集群哮喘比样品图2 (c)

3.4。建设的人工神经网络模型

随机森林分类器识别最重要的10 DECs显著区别的影响区分哮喘和健康的样本。人工神经网络的权重计算10 DECs, 10个输入层,七个隐藏层,两个输出层GSE85566甲基化表达谱和建造一个新的模型(图5(一个))。对于一个有效的评估神经网络模型的结果,我们选择了10倍交叉验证方法。数据被随机分成训练集和验证集和使用pROC安装包(图可视化结果5 (b))。此外,我们采用脱字符号包的混淆矩阵来评估神经网络模型的准确性(精度:0.9739)。使用甲基化表达谱,我们开发了一个新的模型来区分哮喘和健康样本分类根据我们上面了。

3.5。中华民国数据集的识别

我们展示了哮喘和正常样本的分类基于神经网络建设。然后,我们利用两个甲基化数据集(GSE40576和GSE137716)来评估神经网络模型的分类性能。接受者操作特性曲线(ROC)计算精度(数字6(一)6 (b)数据集),GSE137716 AUC: 1.000, 100%的敏感性和特异性最好的阈值下,GSE40576数据集AUC: 0.950,敏感性和特异性分别为0.959和0.969,分别。支持向量机相比,购物车,XGBoost机器算法(表2),GSE40756的auc是0.825%,0.773%,和0.619%,分别对GSE137716, auc是0.938,0.818,和0.881,分别。这些结果表明,我们的神经网络模型有高精度的分类性能,表明哮喘病人的分类。

4所示。讨论

这是第一个研究利用DNA methylation-based机器学习识别一系列与哮喘有关的甲基化位点(DECs)。有趣的是,选择甲基化签名与肌动蛋白细胞骨架相关组织和酶底物,志贺氏菌病,和含血清素的神经突触,支持的假设在哮喘气道结构重组DNA甲基化变化的结果在表观遗传组(28,29日]。然后,十个不同的特定的DECs是基于射频识别,和ANN模型是由计算权重系数的安。模型有很高的精度和稳定性(AUC的外部验证数据集1和0.95,分别)。

最近,由于计算能力的迅速发展,人工智能机器学习等方法已被广泛用于医学,包括疾病诊断和疾病预后,从而加快我们对各种疾病的理解。此外,它有助于临床医生在病人管理。多项研究已经开发出新颖的模型预测哮喘的临床结果30.- - - - - -32]。在这项研究中,我们关注的关键作用表观遗传学(甲基化)在哮喘。与哮喘有关的DECs通过微分分析,获得10关键候选人DECs被确定基于随机森林分类器,并与哮喘有关的神经分类分数产生的人工神经网络。我们也将个人论文认定的分类效率与分类模型的效率。

我们确定了甲基化的甲基化数据(GSE85566),得到142个差异表达论文认定。去分析表明哮喘是富含调节肌动蛋白细胞骨架组织(33),细胞基质粘附[34),和应对营养水平和KEGG结果确定潜在的信号通路,羟色胺突触志贺氏菌病,鼠疫感染。此外,10 DECs通过重要性MeanDecreaseGini随机森林模型的筛选提供了一个基础建设的神经网络模型。模型是高度准确(精度:0.9739),结果也与另外两个数据集验证,精度和高的分类水平(AUC: 1.000和0.950,分别)神经网络。我们比较我们的模型与其他现有的机器学习算法(SVM、购物车和XGBoost) (35,36)的诊断能力,发现甲基化机模型由安高于其他模型。

这项研究有一些局限性。首先,我们分析的结果是基于一个在线数据库。有更多影响因素之间不同的数据集,可以有偏见的结果。此外,我们的研究是有限的,不可能在临床患者样本进行验证。由于缺乏可用的甲基化数据,我们的数据集包含了数据从儿童外周血单个细胞,这可能影响结果。在未来的研究中,我们将验证结果与前瞻性研究,以实现它们在临床实践中,为医生提供治疗配方来源。

5。结论

一般来说,我们的神经网络模型基于甲基化表观遗传学有重要临床价值的预测哮喘,这是有利于哮喘的早期诊断。

数据可用性

本研究的数据从GEO数据库(下载和编译https://www.ncbi.nlm.nih.gov/gds/?term=);数据用于支持这项研究的结果得到从相应的作者。

的利益冲突

这项研究不包括任何作者对人类进行的研究参与者或动物。作者宣称没有利益冲突。

作者的贡献

所有作者贡献显著,所有作者都同意手稿的内容。江Qiu-Gen李和勇国安促成了概念化。冬冬李的方法。冬冬李负责软件。李Qiu-Gen促成了验证。Ting陈导致了正式的分析。凌You-Liang导致数据管理。冬冬李导致写作初稿。所有作者的写作——审查和编辑。冬冬李的可视化。 Qiu-Gen Li and Yong’An Jiang were responsible for the supervision.