计算和数学方法在医学

在这一页上

文摘介绍方法和材料结果讨论结论数据可用性的利益冲突作者的贡献引用版权相关文章

特殊的问题

综合Multi-Omics诊断、治疗和神经退行性疾病的药物发现

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID2679050| https://doi.org/10.1155/2022/2679050

基于随机森林的甲基化诊断模型和神经网络对哮喘识别

冬冬李 ,^1、2 Ting陈 ,³ You-Liang凌 ,¹ 永安江 ,¹ 和Qiu-Gen李 ^1、2

学术编辑器: 答:美国Albahri

收到了 2022年4月27日

修改后的 2022年9月11日

接受 2022年9月12日

发表 2022年9月28日

文摘

背景。哮喘严重影响人类生命和健康作为一种慢性疾病。传统治疗哮喘有几个局限性。人工智能在癌症治疗艾滋病也可以加快我们对哮喘的机制的理解。我们旨在开发一种新的临床诊断哮喘使用人工神经网络模型(ANN)。方法。数据集(GSE85566 GSE40576和GSE13716)从基因表达综合(GEO)下载,确定差异表达论文认定(DECs)丰富基因本体论(去)和《京都议定书》(KEGG)基因和基因组分析的百科全书。随机森林(RF)和ANN算法进一步确定基因特点和临床模型构建的。此外,两个外部验证数据集(GSE40576和GSE137716)被用来验证模型的诊断能力。结果。甲基化分析工具(冠军)认为DECs差异(= 121)和衰减(= 20)。结果显示浓缩的肌动蛋白细胞骨架组织和细胞基质粘附,志贺氏菌病和血清素激活的突触。射频(随机森林)分析确定了10个关键DECs (cg05075579、cg20434422 cg03907390, cg00712106, cg05696969, cg22862094, cg11733958, cg00328720,和cg13570822)。根据10 DECs安临床模型构造。在两个外部验证数据集(GSE40576和GSE137716),曲线下的面积(AUC) GSE137716为1.000,和GSE40576 AUC为0.950,证实了模型的可靠性。结论。我们的研究结果提供了新的甲基化标记为哮喘诊断和治疗和临床诊断模型。

1。介绍

哮喘是一种慢性的、异构的呼吸道疾病影响所有年龄组的人。最近,每年与哮喘有关的发病率和死亡率增加了。哮喘的临床表现主要是呼吸道症状。主要病理特征包括慢性气道炎症、气道高反应,和气道重塑1- - - - - -3]。免疫球蛋白E (IgE) interleukin-5 (IL-5)及其受体,和interleukin-4 (il - 4)受体作为临床诊断的分子靶点的哮喘;然而,特定的个体差异非常大,哮喘患者的临床治疗仍不足(4,5]。

DNA甲基化,人类的主要表观遗传分量,对各种疾病的发生和发展产生深远的影响(6,7]。有大量证据表明,哮喘的机制和特征取决于甲基化模式。加芬et al。8]研究DNA甲基化在外周血单核细胞的核过敏性气道上皮细胞,non-atopic和健康哮喘儿童和证实,多个CpG站点ARDB2基因启动子区域与降低儿童呼吸困难有关。核糖核酸甲基化提供了新的哮喘治疗的选择(9,10]。

尽管多项研究已经进行区分疾病与健康的病人通过识别论文认定位点,然而,结果并不乐观11]。可靠的定量测量使用更少的标记是一个可行的选择。机器学习技术在医学领域的应用大大加速了了解疾病的研究(12,13]。机器学习可以描述人类疾病的复杂性和不可预测性报道在不同的研究14- - - - - -16]。曹et al。17)确定关键基因基因co-expression Th2-high哮喘使用加权的加权网络分析。目前还没有标准的筛查和早期诊断哮喘的诊断模型。机器学习方法的快速发展,如随机森林(RF)和人工神经网络(ANN),经常用于生物标记研究[18- - - - - -21]。

这是第一个研究中,我们分析了甲基化表达谱的哮喘样品机器学习(RF和安)和DECs获得。接受者操作特征(ROC)曲线评估我们的模型的诊断性能。外部验证数据集也证实了模型的效率。本研究旨在确定哮喘疾病通过分析甲基化数据。研究工作流图所示1。

2。方法和材料

2.1。数据采集和预处理

甲基化表达谱GSE85566 [22)(哮喘样品:74,正常样本:41),GSE40576 [23](哮喘样品:97,正常样本:97),和GSE1371624](哮喘样本:16日正常样本:17)下载从基因表达数据库综合(GEO)。失踪的表达谱数据都使用冠军包和规范化。

2.2。微分GSE85566甲基化表达谱的分析和设计分组

过滤探测器( - - - - - -通过冠军值< 0.01)。滤波函数的冠军包(版本:2.24.0)进行论文认定差异分析(deltaBeta > 0)冠军函数和前1000名获得论文认定热图分析结果的冠军。阈值是deltaBeta < -0.05, - - - - - -值< -10⁸匹配,基于甲基化的基因符号数组450 k为以后去和KEGG分析(clusterProfilter版本:4.3.3)。上面的分析使用R环境安装包。

2.3。随机森林(RF)分类

获得的DECs冠军最初识别和分类使用R包randomForest 4.7.1(版本)。犯错的价值。率最小化通过计算平均模型误判率的DECs数据,以确保最好的节点(mtry)。在这项研究中,最优变量设置二叉树的节点是7,和最优随机森林的树木数量是600。基尼系数选择重要的DECs(前十)作为特定候选人哮喘。这些DECs的热图是由pheatmap(版本:1.0.12)来显示他们的分类能力。

2.4。人工神经网络模型结构

人工神经网络模型的重要候选人变量构建使用R的包(neuralnet,版本:1.44.2)。根据规范,隐藏的神经元的数目应该大小的2/3的输入层+ 2/3的大小输出层;隐藏的神经元的数目应该大小之间的输入层和输出层。基本的表达谱数据归一化(0,1)在neuralnet和加工。输出是正常和哮喘,第一隐层和输出(输入的最后输出层)被认为是基因权重的结果。终止条件是绝对误差函数的导数(达到阈值< 0.01)。

2.5。模型性能评估

不同的包在R环境(4.1.3 R版本,https://www.r-project.org)被用来评估模型的性能。模型预测和识别、插入符号(6.0版本:-91)和confusionMatrix。对于射频,pROC(版本:1.18.0),和安和AUC(曲线下的面积),ggplot2(版本:3.3.5)使用。分类和回归树(CART)、支持向量机(SVM),极端的梯度(XGBoost)算法增加rpart(4.1.16版),XGBoost(1.6.0.1版),和e1071(9) 1.7版本包被用于模型验证GSE40576和GSE137716数据集。

3所示。结果

3.1。论文认定的GSE85566

甲基化在多种疾病中扮演着重要角色,先前报道(25- - - - - -27]。甲基化冠军包冠军。DMP被用来分析和过程中的甲基化表达谱数据集GSE85566(74哮喘样品和41正常样本)了解哮喘的甲基化结构样品和计算微分论文认定网站。前1000名论文认定热图景观(哮喘和正常样本)显示在图中2(一个)。进一步的甲基化目标搜索区分哮喘和健康的样本。的DECs(哮喘比健康)甲基化芯片数据集根据冠军被确定。DMP和火山阴谋的结果(图2 (b))。阈值设置为adj.P。Val < 10⁸,差异DECs deltaBeta < -0.05 (= 121)和衰减DECs (= 20)。表达的上调和下调DECs热图(图所示2 (c))。热点图,我们发现哮喘组(蓝色)和健康组(红色)样品几乎是分离的,但仍有一些哮喘样本混合在健康组(红色)。因此,识别能力的DECs哮喘和健康样品仍然需要改进。

(一)

(b)

(c)

图2

甲基化GSE85566的景观。(一)热图最多的1000个港口发散论文认定;梯度从深蓝色到黄色代表表达水平的变化。(b)的微分表达式的结果分析火山地块(哮喘与健康)。的 - - - - - -轴是日志(deltaBeta),纵坐标是log10 (adj.P.Val)值;(红色):DECs下调表达,(灰色):DECs与上调表达,不是(深蓝色):毫无意义。(c)热DECs地图。深蓝色,浅蓝色意味着高到低表达,绿色代表哮喘样本,红色代表健康的样品,和聚类树相似的样本聚合到一起。

3.2。去KEGG DECs的分析

去和KEGG分析被用来理解的生物功能和监管DECs去结果表明,调节肌动蛋白细胞骨架组织和细胞基质粘附是丰富(图3(一个))。KEGG分析显示,浓缩在志贺氏菌病和血清素激活的突触(图3 (b))。上述结果进一步证实了甲基化在哮喘的发病机制中发挥了关键作用。哮喘患者和正常的识别通过一个论文认定网站或多个论文认定模型是一个迫切需要解决的问题。

(一)

(b)

3.3。微分论文认定(DECs)随机森林(RF)

上面的结果提供了一个初步了解哮喘的甲基化论文认定的关键作用。虽然论文认定发挥了重要作用区分哮喘健康样品,结果不满意(图2 (c))。这些DECs作为随机森林分类器的输入。为了使误差尽可能小,我们计算的平均错误率(err.rate),变量的参数被认为是7,和最后的神经网络模型包含600棵树作为最终模型参数,以确保稳定(图错误4(一))。随机森林模型维度重要性得到根据基尼系数法(MeanDecreaseAccuracy MeanDecreaseGini;图4 (b))。排名前十的DECs重要性被确定(cg05075579、cg20434422 cg03907390, cg00712106, cg05696969, cg22862094, cg11733958, cg00328720, cg13570892,和cg03325522)。作为后续候选人随机森林分类的分类结果,在这些DECs, cg05075579被认为是最重要的,意味着降低基尼指数远远高于DECs(表1)。热图(图4 (c))表明,这些10 DCGs系统集群哮喘比样品图2 (c)。

(一)

(b)

(c)

图4

(一)决策树的数量的影响在错误率。的 - - - - - -轴是决策树的数目, - - - - - -轴是错误率。树的增加并不影响减少错误率。(b)变量是输入到随机森林后,排名前十的DECs是根据其重要性排列的根据MeanDecreaseAccuracy(左)和MeanDecreaseGini(右)。(c)等级10 DECs GSE85566数据集的聚类结果;黑暗的颜色代表高表达,光颜色代表低表达,上面的红色带热图代表正常样本,和绿色代表哮喘样本。

3.4。建设的人工神经网络模型

随机森林分类器识别最重要的10 DECs显著区别的影响区分哮喘和健康的样本。人工神经网络的权重计算10 DECs, 10个输入层,七个隐藏层,两个输出层GSE85566甲基化表达谱和建造一个新的模型(图5(一个))。对于一个有效的评估神经网络模型的结果,我们选择了10倍交叉验证方法。数据被随机分成训练集和验证集和使用pROC安装包(图可视化结果5 (b))。此外,我们采用脱字符号包的混淆矩阵来评估神经网络模型的准确性(精度:0.9739)。使用甲基化表达谱,我们开发了一个新的模型来区分哮喘和健康样本分类根据我们上面了。

(一)

(b)

3.5。中华民国数据集的识别

我们展示了哮喘和正常样本的分类基于神经网络建设。然后,我们利用两个甲基化数据集(GSE40576和GSE137716)来评估神经网络模型的分类性能。接受者操作特性曲线(ROC)计算精度(数字6(一)和6 (b)数据集),GSE137716 AUC: 1.000, 100%的敏感性和特异性最好的阈值下,GSE40576数据集AUC: 0.950,敏感性和特异性分别为0.959和0.969,分别。支持向量机相比,购物车,XGBoost机器算法(表2),GSE40756的auc是0.825%,0.773%,和0.619%,分别对GSE137716, auc是0.938,0.818,和0.881,分别。这些结果表明,我们的神经网络模型有高精度的分类性能,表明哮喘病人的分类。

(一)

(b)

图6

两个数据集确定神经网络分类效率。(一)中华民国GSE137716数据集的结果。(b)中华民国GSE40576的结果。ROC曲线上的点标记是最优阈值点,和括号中的值表示敏感性和特异性。AUC值ROC曲线下的面积, - - - - - -轴是特异性的, - - - - - -轴是敏感的。最优阈值是明显的拐点,和敏感性和特异性都列在括号中。

4所示。讨论

这是第一个研究利用DNA methylation-based机器学习识别一系列与哮喘有关的甲基化位点(DECs)。有趣的是,选择甲基化签名与肌动蛋白细胞骨架相关组织和酶底物,志贺氏菌病,和含血清素的神经突触,支持的假设在哮喘气道结构重组DNA甲基化变化的结果在表观遗传组(28,29日]。然后,十个不同的特定的DECs是基于射频识别,和ANN模型是由计算权重系数的安。模型有很高的精度和稳定性(AUC的外部验证数据集1和0.95,分别)。

最近,由于计算能力的迅速发展,人工智能机器学习等方法已被广泛用于医学,包括疾病诊断和疾病预后,从而加快我们对各种疾病的理解。此外,它有助于临床医生在病人管理。多项研究已经开发出新颖的模型预测哮喘的临床结果30.- - - - - -32]。在这项研究中,我们关注的关键作用表观遗传学(甲基化)在哮喘。与哮喘有关的DECs通过微分分析,获得10关键候选人DECs被确定基于随机森林分类器,并与哮喘有关的神经分类分数产生的人工神经网络。我们也将个人论文认定的分类效率与分类模型的效率。

我们确定了甲基化的甲基化数据(GSE85566),得到142个差异表达论文认定。去分析表明哮喘是富含调节肌动蛋白细胞骨架组织(33),细胞基质粘附[34),和应对营养水平和KEGG结果确定潜在的信号通路,羟色胺突触志贺氏菌病,鼠疫感染。此外,10 DECs通过重要性MeanDecreaseGini随机森林模型的筛选提供了一个基础建设的神经网络模型。模型是高度准确(精度:0.9739),结果也与另外两个数据集验证,精度和高的分类水平(AUC: 1.000和0.950,分别)神经网络。我们比较我们的模型与其他现有的机器学习算法(SVM、购物车和XGBoost) (35,36)的诊断能力,发现甲基化机模型由安高于其他模型。

这项研究有一些局限性。首先,我们分析的结果是基于一个在线数据库。有更多影响因素之间不同的数据集,可以有偏见的结果。此外,我们的研究是有限的,不可能在临床患者样本进行验证。由于缺乏可用的甲基化数据,我们的数据集包含了数据从儿童外周血单个细胞,这可能影响结果。在未来的研究中,我们将验证结果与前瞻性研究,以实现它们在临床实践中,为医生提供治疗配方来源。

5。结论

一般来说,我们的神经网络模型基于甲基化表观遗传学有重要临床价值的预测哮喘,这是有利于哮喘的早期诊断。

数据可用性

本研究的数据从GEO数据库(下载和编译https://www.ncbi.nlm.nih.gov/gds/?term=);数据用于支持这项研究的结果得到从相应的作者。

的利益冲突

这项研究不包括任何作者对人类进行的研究参与者或动物。作者宣称没有利益冲突。

作者的贡献

所有作者贡献显著,所有作者都同意手稿的内容。江Qiu-Gen李和勇国安促成了概念化。冬冬李的方法。冬冬李负责软件。李Qiu-Gen促成了验证。Ting陈导致了正式的分析。凌You-Liang导致数据管理。冬冬李导致写作初稿。所有作者的写作——审查和编辑。冬冬李的可视化。 Qiu-Gen Li and Yong’An Jiang were responsible for the supervision.

引用

j . w . mim项目“哮喘:定义和病理生理学》国际论坛过敏和鼻科学,5卷,补充1,S2-S6, 2015页。
视图: 出版商的网站 | 谷歌学术搜索
p . Ntontsi a . Photiades e . Zervas g . Xanthou和k . Samitas”在哮喘遗传学和表观遗传学,”国际分子科学杂志》上,22卷,不。5,2412年,页2021。
视图: 出版商的网站 | 谷歌学术搜索
r·l·米勒·m·h·格雷森,k . Strothman”的进步哮喘:哮喘自然历史的新理解,风险因素,潜在的机制,和临床管理,“《变态反应与临床免疫学杂志》上,卷148,不。6,1430 - 1441年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
c . Pelaia c . Crimi a . Vatrella c . Tinello r·泰拉恰诺和g . Pelaia”分子的目标生物治疗严重的哮喘,”免疫学前沿第603312条,卷。11日,2020年。
视图: 出版商的网站 | 谷歌学术搜索
s . t . Weiss“新兴机制和新靶点在过敏性炎症和哮喘,”基因组医学,9卷,不。1,p。107年,2017。
视图: 出版商的网站 | 谷歌学术搜索
e . Legaki c . Arsenis s魏,n . g .帕帕多普洛斯”DNA甲基化生物标志物在哮喘和鼻炎:我们到了吗?”临床和转化过敏,12卷,不。第三条e12131, 2022年。
视图: 出版商的网站 | 谷歌学术搜索
j . s . Hawe r·威尔逊k·t·施密德et al .,“遗传变异影响DNA甲基化提供了洞察分子机制调节基因功能,“自然遗传学,54卷,不。1日~ 29,2022页。
视图: 出版商的网站 | 谷歌学术搜索
j·m·加芬b . a .雷比c . r .零用等。”β2肾上腺素能受体基因甲基化与降低哮喘严重程度在市中心的学校的孩子,”临床与实验过敏,44卷,不。5,681 - 689年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
y江,q, r .广域网等。”GLCCI1基因甲基化在外周血与哮喘和哮喘严重程度有关,”我们共同Chimica学报卷,523年,第105 - 97页,2021年。
视图: 出版商的网站 | 谷歌学术搜索
h .还建议,“DNA甲基化和生物标志物小组预测哮喘发展,”《变态反应与临床免疫学杂志》上,卷144,不。1,49-50,2019页。
视图: 出版商的网站 | 谷歌学术搜索
x,问:杨,李z d . Wang n . Chen和d . x,“预测肺腺癌疾病进展使用methylation-correlated块和合奏机器学习分类器,”PeerJe10884条,卷。9日,2021年。
视图: 出版商的网站 | 谷歌学术搜索
g . s . Handelman h . k .角r·v·钱德拉a·h·哈扎维m·j·李和h . Asadi”eDoctor:机器学习和医学的未来,”内科医学杂志,卷284,不。6,603 - 619年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
l . Lo Vercio k . Amador j·j·班尼斯特et al .,“监督机器学习工具:临床医生的教程,”《神经工程,17卷,不。6,062001年,页2020。
视图: 出版商的网站 | 谷歌学术搜索
s . Rauschert k . Raubenheimer p·e·梅尔顿和r·c·黄“机器学习和临床实验胚胎学:对诊断和分类,回顾挑战”临床实验胚胎学,12卷,不。1,p。51岁,2020。
视图: 出版商的网站 | 谷歌学术搜索
g . Zampieri s Vijayakumar大肠Yaneske, c . Angione”机器和深度学习公司满足新陈代谢建模”,PLoS计算生物学,15卷,不。7篇文章e1007084 2019。
视图: 出版商的网站 | 谷歌学术搜索
陈和s . w . i Siu”,机器学习方法质量评估的蛋白质结构,”生物分子,10卷,不。4 p。626年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
曹y, y,林l, l·杨和l . Chen x Peng”识别关键基因和功能丰富的通路基因co-expression Th2-high哮喘的加权网络分析,“BMC医学基因组学,15卷,不。1,p。110年,2022。
视图: 出版商的网站 | 谷歌学术搜索
w·顾t .明,z .谢,“开发一个遗传biomarker-based重度抑郁症的诊断模型使用随机森林和人工神经网络,”组合化学和高通量筛选,25卷,2022年。
视图: 出版商的网站 | 谷歌学术搜索
大肠Kawakami (j . Tabata: Yanaihara et al .,“应用人工智能的卵巢上皮癌的术前诊断和预后预测基于血液生物标志物,”临床癌症研究,25卷,不。10日,3006 - 3015年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
l . h . Li赖,j .沈,“发展一个基于易感性基因小说对溃疡性结肠炎的诊断预测模型使用随机森林和人工神经网络,”老化(奥尔巴尼纽约),12卷,不。20日,第20482 - 20471页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
d .赵z, z王et al .,“子宫内膜癌的诊断和预测使用机器学习和人工神经网络基于公共数据库,”基因,13卷,不。6,935年,页2022。
视图: 出版商的网站 | 谷歌学术搜索
j . Nicodemus-Johnson r·a·迈尔斯n . j . Sakabe et al .,“在肺细胞DNA甲基化与哮喘endotypes和遗传风险有关,”江森自控的洞察力,1卷,不。20篇文章e90151 2016。
视图: 出版商的网站 | 谷歌学术搜索
杨诉彼得森b . s . a .刘et al .,“DNA甲基化和儿童哮喘在市内,”《变态反应与临床免疫学杂志》上,卷136,不。1,第80 - 69页,2015。
视图: 出版商的网站 | 谷歌学术搜索
j . Ruzzin r·彼得森大肠Meugnier et al .,“持久性有机污染物的暴露会导致胰岛素抵抗综合症,”环境健康展望,卷118,不。4、465 - 471年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
c . Zafon j·吉尔,b . Perez-Gonzalez和m . Jorda“DNA甲基化在甲状腺癌,”Endocrine-Related癌症卷26日R415-r439, 2019页。
视图: 出版商的网站 | 谷歌学术搜索
y, f, g . Liu b·苏和y,“DNA甲基化在癌症诊断和治疗,”临床和实验医学,18卷,不。1、1 - 14,2018页。
视图: 出版商的网站 | 谷歌学术搜索
a·e·摩根,t·j·戴维斯和m . t . Mc Auley“DNA甲基化在衰老和癌症的作用,“《美国营养学会,卷77,不。4、412 - 422年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
r·l·克利福德c x杨:Fishbane et al .,“TWIST1 DNA甲基化是一种细胞标记气道和肺实质的成纤维细胞在哮喘、差异甲基化”临床实验胚胎学,12卷,不。1,p。145年,2020。
视图: 出版商的网站 | 谷歌学术搜索
郭y、x元、l . et al。”发起人hypomethylation介导upregulation miR-23b-3p目标PTEN的促进慢性哮喘,支气管epithelial-mesenchymal过渡”免疫学前沿第771216条,卷。12日,2021年。
视图: 出版商的网站 | 谷歌学术搜索
d . m . Kothalawala c·s·默里a·辛普森et al。”儿童哮喘的发展预测模型使用机器学习方法,“临床和转化过敏,11卷,不。9篇文章e12076 2021。
视图: 出版商的网站 | 谷歌学术搜索
j·g .玉米蛋白c·p·吴a . h . Attaway张平,和a . Nazha”小说机器学习可以预测急性哮喘恶化。”胸部,卷159,不。5,1747 - 1757年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
a·卡普兰h .曹,j·菲茨杰拉德et al .,“人工智能/机器学习在呼吸医学在哮喘和慢性阻塞性肺病的诊断和潜在的作用,“在实践中,9卷,不。6,2255 - 2261年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
t . m . Svitkina“肌动蛋白细胞骨架的超微结构,”当前细胞生物学的观点54卷,1 - 8,2018页。
视图: 出版商的网站 | 谷歌学术搜索
j .赵、f . Manuchehrfar和j .梁”的细胞基质力学指导集体通过细胞间粘附细胞迁移:动态有限元细胞模型,”在力学生物学生物力学和建模,19卷,不。5,1781 - 1796年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
m·朱z . Wu y Kang et al .,“我们需要定量构效关系模型不同的机器学习算法?综合评价的定量构效关系数据集,14日16机器学习算法”简报的生物信息学,22卷,不。4、2021。
视图: 出版商的网站 | 谷歌学术搜索
j .王”预测听神经瘤患者的术后恢复使用机器学习和SMOTE-ENN技术,”MBE数学生物科学和工程:,19卷,不。10日,10407 - 10423年,2022页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

274年

下载

226年

引用