哮喘的诊断基于常规血液生物标志物使用机器学习

文摘

智能医疗诊断已成为常见的大数据的时代,尽管这个技术已经应用于哮喘仅在有限的上下文。使用常规血液生物标志物识别哮喘病人将使临床诊断更容易实现和加强关键哮喘变量通过数据挖掘技术的研究。我们使用常规血液健康个体的数据来构建一个空间(MS)。然后,我们计算Mahalanobis培训血常规数据的距离从355哮喘患者和1480名健康个体,以确保女士正交阵列的效率和信噪比是用来优化血液生物标志物变量。接受者操作特征(ROC)曲线是用来确定阈值。最终,我们验证了系统基于阈值的182人。哮喘患者35,MTS正确分类94.15%的病人。此外,97.20%的147健康个体被正确分类。系统隔离7常规血液生物标志物。在这些生物标记中,血小板分布宽度、平均血小板体积,白细胞计数,嗜酸性粒细胞计数,淋巴细胞比率表现良好在哮喘的诊断。 In brief, MTS shows promise as an accurate method to identify asthma patients based on 7 vital blood biomarker variables and threshold determined by the ROC curve, thus offering the potential to simplify diagnostic complexity and optimize clinical efficiency.

1。介绍

哮喘是一种常见的慢性疾病的航空公司的特点是可逆气流阻塞,气道hyper-responsiveness,和临床症状,包括气喘、呼吸困难、胸闷。最好的报告估计,全球大约有3亿人患有哮喘,占全球人口的4.3% (1]。2011年,2600万多名美国成年人哮喘急性加重、报道和560亿美元的经济负担是估计的结果从哮喘2]。数据显示美国疾病控制和预防中心,3615人死于2015年由于哮喘或并发症约1.1 100000人。到2015年,全世界3.58亿人有哮喘,从1.83亿到1990年3]。因此,哮喘是一种常见的全球医疗问题仍具有挑战性的地址。

智能医疗智能诊断哮喘诊断是一个热门话题,这是使用人工智能诊断的医疗条件。几项研究已经报道的诊断哮喘使用数据挖掘算法和应用于智能诊断方法,如支持向量机(SVM) [4,5)和神经网络(5- - - - - -8]。芬克尔斯坦和木材使用朴素贝叶斯和支持向量机方法成功地预测哮喘加速度在八天在人群中有80%的准确度26患者通过家庭远程医疗4]。深层神经网络方法部署到分类病态条件以及收集肺性能值表明培训深神经网络预测的可能性哮喘严重程度或哮喘发作的紧迫性6]。

同样,Badnjevic和Cifrek应用训练神经网络和模糊规则协助医生肺功能测试结果的分析和解释,成功改善哮喘检测、诊断和治疗(7]。在哮喘的诊断,使用数据挖掘Safdari等人评价的敏感性,特异性,再和准确性,支持向量机,朴素贝叶斯、人工神经网络、分类树,CN2算法,和类似的技术,所有这些都是基于24属性(5]。支持向量机算法实现最高精度为98.59%,敏感性和特异性为98.6%。儿童哮喘控制的另一项研究中,基于人工神经网络算法和主成分分析的肺功能参数和部分呼出一氧化氮正确识别99.0%的完全控制哮喘患儿(8]。

目前,没有哮喘诊断金标准。细胞参与了支气管哮喘的发病机制包括T淋巴细胞、嗜酸性粒细胞、嗜碱性粒细胞、肥大细胞、支气管上皮细胞。外周血嗜酸性粒细胞和严重哮喘之间的关联已经定义良好,细胞和嗜酸性粒细胞升高水平至少400 /μL与使用更多的有关卫生保健资源通过增加住院和成本(9]。此外,高血嗜酸性粒细胞计数是未来哮喘急性加重的危险因素和过度的短效β兴奋剂使用调整后的潜在混杂因素在成人持续哮喘患者(10]。在多种疾病的加重,增加外周血中性粒细胞能被探测到的。然而,中性粒细胞的作用在支气管哮喘的发病机制仍不清楚。此外,血小板计数和平均血小板体积(MPV)在哮喘儿童高于控制没有证据表明儿童过敏性疾病(例如,asthma, allergic rhinitis, or eczema), and mean MPV during an asymptomatic period is higher in individuals with exacerbated asthma than in healthy controls [11]。

标准化标准涉及风险因素的评估和测量血液生物标志物预测哮喘恶化的风险可以提供更优的治疗指导,降低医疗成本。然而,尽管完整的血细胞计数通常要求对哮喘病人,他们还没有提供一个清晰的迹象表明这种生物标记。

Mahalanobis-Taguchi系统(MTS)是一个决策和模式识别系统常用的多维系统集成信息构造参考尺度通过创建单独的测量尺度。这个系统是一个有机结合的距离(MD)和田口方法。医学是一个广义距离,帮助区分相似性未知和已知样本数据集。田口方法优化系统和评估每个变量的贡献(12]。系统着重于正交数组(OAs)和信噪比(SN)比率来确定变量的重要性,形成基础构建测量尺度的模型。选择一个最优的最重要的变量子集从原始变量设置对MTS至关重要(13,14],它不同于其他分类方法,如支持向量机和神经网络。MTS使用单个类别样本组成一个连续的测量尺度。而不是直接试验,所有训练数据集被用来构造一个分类模型。

最近,一些研究人员利用MTS智能疾病识别精度高(15,16]。但是,没有研究已经使用MTS的智能诊断哮喘。本研究的目的是应用MTS哮喘诊断评估的基础上从健康的个人和哮喘患者血常规数据。我们试图确定常规血液生物标志物可以表明哮喘和减少模型测量尺度的建设。我们还MTS结果与其他算法进行比较,以确定最佳精度,灵敏度和特异性。这些结果可以应用于哮喘诊断决策系统。

2。方法

2.1。数据采集

我们分析了常规血液355哮喘患者和1480名健康个体的数据收集在南京医科大学附属无锡人民医院与医疗和实验室人员技术培训。样本包括数据诊断哮喘患者和健康人的身体检查。哮喘诊断和分类是根据2015年的全球倡议哮喘哮喘管理和预防全球战略(17]。研究人口的基本信息表1。本研究已被批准的医院伦理委员会(KYLLH2018034),和所有患者签署知情同意。


类别	N	年龄、年( )	性(n(%))
			米	F

哮喘	355年	39.14±22.60	175例(49.3%)	180例(50.7%)
健康的	1480年	40.77±12.71	763例(51.55%)	717例(48.45%)

2.2。预处理

血常规数据评估预测血液样本是否来自一个哮喘病人或健康控制。数据预处理包括以下步骤。

2.2.1。处理缺失数据

缺少随机样本的观察模式,很少有不完整的数据(关于22变量检查)。三个实例一个失踪的变量值被移除的分析。

2.2.2。减少高度相关的变量

MTS是一种定量分析方法。我们发现22初始血常规变量( )是高度相关的。有必要使用变量选择避免多重共线性。皮尔森相关分析是使用SPSS软件降低模型复杂度从健康人使用常规变量。九组变量表现出显著相关性> 80%(表2)。最后选择14个变量对MTS嗜碱细胞计数(BA #),嗜酸性粒细胞计数(EO #),淋巴细胞比率(LY),淋巴细胞计数(LY #),意思是微粒血红蛋白(妇幼保健),意思是微粒血红蛋白浓度(MCHC)、单核细胞比率(MO)、单核细胞计数(MO #),平均血小板体积(MPV)、血小板分布宽度(血栓)、血小板计数(PLT),红细胞计数(RBC)、红细胞分布宽度(RDW)和白细胞计数(WBC)。


一个变量	变量B	皮尔森相关	保留变量	一个变量	变量B	皮尔森相关(%)	保留变量

英航	英航#	80.5	英航#	LY	不	94.9	LY
EO	EO #	94.3	EO #	妇幼保健	”	96.4	妇幼保健
HCT	血红蛋白	98.8	血红蛋白	NE #	白细胞	90.5	白细胞
HCT	加拿大皇家银行	85.8	加拿大皇家银行	PCT	PLT	86.5	PCT
血红蛋白	加拿大皇家银行	81.3	加拿大皇家银行

2.3。改进的MTS算法

我们使用MTS为数据分类(18- - - - - -25]。在MTS, Mahalanobis空间(女士;参照组)获得使用标准化的健康和正常数据的变量。女士可以用来区分正常和异常。一旦建立了女士,属性的数量减少了使用正交数组(OAs)和信噪比(SN)比率通过评估每个属性的贡献。最后,未知样本确定阈值。更多的细节(MTS算法可以找到的14]。

对未知样本的诊断,精确的阈值是很重要的。提出了在传统的MTS、质量损失函数来确定阈值由田口博士。然而,因为它太主观计算,一些学者提出了使用它,因为它。苏等人契比雪夫定理用于构建一个可能性阈值模型称为“概率阈值法”(天车)来确定阈值26]。然而,天车忽视假阴性观测的数量根据规则。

在本文中,接受者操作特征(ROC)曲线选择决定阈值。它被广泛应用于医学诊断。我们使用MD的正常和异常数据训练集来绘制ROC曲线。ROC曲线规则的基础上,使敏感性(Se) +特异性(Sp)最大是最好的阈值。灵敏度的概率是一个测试结果时将积极疾病存在(真阳性)。100%的敏感性表明所有疾病患者的正确检测。特异性是衡量识别消极的情况下的测试数据。100%的特异性表明所有健康的人的正确检测。此外,曲线下的面积(AUC)时经常使用估计分类器的可用性。与质量损失函数相比,天车,穷举搜索方法,ROC曲线更客观、清晰可见。

算法流程图如图1。

3所示。结果

3.1。改进的MTS和血常规数据

我们用10倍交叉验证研究的数据集。对于每一个循环,9折被用于训练,剩下的用于测试的数据挖掘算法。因此,有1331个健康人正常训练样本和147年健康个体为测试样本。也有319哮喘病人异常的训练样本和35哮喘病人测试样品。实施改进的MTS如下。

在第一阶段,MD健康样本构造使用14个变量。我们发现MDs的106数据集从1331年健康数据集之外的阈值( (27])。然后,我们使用了1225数据集构建女士在第二MTS阶段,计算异常(哮喘)MD后构造女士为正常组。他们比正常的大,说明分类。图的能力2代表了正常和异常数据的MD。

在第三阶段的分析中,有用的变量被美洲国家组织和SN比选。我们使用信用证₁₆(2¹⁵)OA、部分因子设计,可以容纳16分15个因素。我们14个变量分配给第一个14 OA列,和其余列被忽略了。MD值计算为所有哮喘患者上述14个变量组合OA行所示。获得SN比,平均被用作信噪比的值_j,j= 1,2,…16。表3介绍L₁₆(2¹⁴美洲国家组织和SN比率。获得SN比平均值的计算为每个变量。


不。	英航#	EO #	LY	LY #	妇幼保健	MCHC	莫	莫#	商务	血栓	PLT	加拿大皇家银行	RDW	白细胞	SN比

1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	8.29
2	1	1	1	1	1	1	1	2	2	2	2	2	2	2	3.36
3	1	1	1	2	2	2	2	1	1	1	1	2	2	2	8.38
4	1	1	1	2	2	2	2	2	2	2	2	1	1	1	3.10
5	1	2	2	1	1	2	2	1	1	2	2	1	1	2	2.94
6	1	2	2	1	1	2	2	2	2	1	1	2	2	1	7.87
7	1	2	2	2	2	1	1	1	1	2	2	2	2	1	2.98
8	1	2	2	2	2	1	1	2	2	1	1	1	1	2	7.16
9	2	1	2	1	2	1	2	1	2	1	2	1	2	1	8.40
10	2	1	2	1	2	1	2	2	1	2	1	2	1	2	3.54
11	2	1	2	2	1	2	1	1	2	1	2	2	1	2	7.34
12	2	1	2	2	1	2	1	2	1	2	1	1	2	1	3.70
13	2	2	1	1	2	2	1	1	2	2	1	1	2	2	2.10
14	2	2	1	1	2	2	1	2	1	1	2	2	1	1	9.36
15	2	2	1	2	1	1	2	1	2	2	1	2	1	1	2.72
16	2	2	1	2	1	1	2	2	1	1	2	1	2	2	8.50
	5.51	5.76	5.73	5.74	5.59	5.61	5.54	5.40	5.96	8.16	5.48	5.53	5.56	5.80
	5.71	5.45	5.48	5.49	5.62	5.60	5.68	5.83	5.26	3.05	5.75	5.70	5.66	5.41
	−0.20	0.31	0.25	0.25	−0.03	0.01	−0.14	−0.43	0.70	5.11	−0.27	−0.17	−0.10	0.39

图3显示了优化结果。降线表示> 0和积极的成果。特性(EO #),(LY),(LY #),(MCHC),(MPV),(血栓),(WBC)有积极的收益,因此选择构造和计算女士。SN比成绩血栓的5.11和0.70对MPV为诊断表明,这些变量是重要的。不断上升的线表示< 0和负收益。因为负收益变量不显著影响系统,他们是被忽视的。所有无关紧要的变量被移除后,女士和MD重新计算了只有7个变量,变量数目减少一半。

与上面描述的模型,选择有用的变量能够健康和哮喘病例进行分类。之后,计算阈值区分健康和哮喘样本。起草ROC曲线(图4)软件SPSS,最大化Se的阈值(0.937)+ Sp(0.974)是1.911。如果医学博士的观察比3.3673,大型复合应该被认为是哮喘病人;否则,它被认为是健康的人。AUC 0.983体现这个分类器是好的,可以接受的。

相关系数矩阵,的意思是,和SD健康样本数据只有7个变量用于182 -样本测试集(包含健康和哮喘组)。Se平均为94.15%,平均Sp为97.20%,患者和健康人指示标识的方法精度高。

3.2。MTS和支持向量机

支持向量机在分类精度高,所以我们比较MTS和SVM的性能。支持向量机算法与克莱门泰软件计算。图5在SVM分类显示变量重要性评分,评分最高血栓(0.648)和MPV (0.143)。变量基于支持向量机的性能结果与MTS的结果一致。此外,LY, EO #,莫#,白细胞也影响分类结果。这六个变量的累积贡献率为97.1%。参照MTS、血栓、MPV、白细胞,LY, EO #表现良好在哮喘的诊断。

分析测试数据集下的敏感性和特异性MTS和7个变量,支持向量机和14个变量,变量和SVM与7表明MTS比SVM(表执行4)。此外,支持向量机和14个变量与7个变量更糟比支持向量机分类的结果。这两种方法特异性指标7个变量有良好的性能。


	MTS和7变量(%)	支持向量机和14个变量(%)	支持向量机和7变量(%)

Se	94.15	92.20	93.55
Sp	97.20	96.32	96.80

4所示。讨论

MTS的评估来确定有用的变量预测哮喘诊断表明,MTS是一个有用的诊断和预测技术。它不仅执行分类任务也在多元系统识别重要的变量。相似的研究相比,我们的方法的优势可以概括如下:(1)MTS提供容易获得哮喘诊断患者采用常规血液测试数据。该算法可以区分哮喘患者和健康人。(2)MTS建立空间数据训练女士作为参考。医生只需要计算未知的MD患者从参考空间使用软件诊断患者是否有哮喘。与其他算法相比,支持向量机超平面和神经网络等结构,MTS更容易理解。(3)MTS提供了系统的方法来识别哮喘,减少诊断问题的维数。它优化参考空间,删除冗余的变量,并大大减少了算法的时间复杂度由美洲国家组织和SN比率。这项研究显示了良好的性能与血栓,MPV,白细胞,EO #, #, LY, MCHC变量。这些关键变量可以为医生提供明确的指导哮喘诊断。医生可以使用这七个变量通过计算MDs诊断病人,从而简化诊断复杂性和优化临床效率。(4)MTS表现优于SVM哮喘诊断。此外,大数据的出现,可以构建更完全,女士和阈值将变得更加准确。因此,MTS代表一个方法哮喘诊断的新方法。

必须做一些重要的工作来改善我们的发现。首先,建立一个哮喘患者和健康对照组的血液数据库建立一个完整的参考空间更准确地识别哮喘病人。第二,软件应该开发和更新,以促进哮喘诊断使用MTS。第三,这里描述的诊断过程应与患者样本确认增加哮喘严重程度构造另一个可以识别的MTS哮喘严重程度。符合MTS理论,如果一个样本的MD更远离参考空间,病人的哮喘可能更严重。然而,这项研究并没有提供一个特定的规模或参考MDs哮喘严重程度的范围,尽管这些可以确定与哮喘病人数据或通过使用多级MTS来确定诊断。

5。结论

这项研究提供了一个基于常规血液的临床哮喘诊断算法的数据表现良好在疾病识别。常规血液生物标志物的算法发现7个变量数据是至关重要的哮喘诊断:血栓,商务,白细胞,EO #, #, LY, MCHC。进一步的研究需要扩展这个诊断疾病严重程度。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了国家自然科学基金(NSFC81904140),江苏省的主要研发计划(BE2018627)和无锡的项目健康委员会(MS201949)。

引用

美国Croisant“哮喘流行病学:患病率和疾病负担,”异质性在哮喘卷。795年,17 - 29,2014页。视图:出版商的网站|谷歌学术搜索
美国肺协会、流行病学与统计单元,研究和项目服务,哮喘的发病率和死亡率的趋势,2012年。
t··沃斯·c·艾伦·m·Arora et al .,“2015年全球疾病负担研究疾病和损伤发病率和患病率的合作者,全球,地区和国家发病率、患病率,和残疾人生活了310年的疾病和伤害,1990 - 2015年:全球疾病负担的系统分析研究,“《柳叶刀》,卷388,不。10053年,第1602 - 1545页,2016年。视图:出版商的网站|谷歌学术搜索
j·芬克尔斯坦和j·伍德,“使用人工智能预测哮喘发作,”研究卫生技术和信息卷。190年,56-58,2013页。视图:谷歌学术搜索
r . Safdari·雷·m·GhaziSaeedi t . Samad-Soltani和n . Zolmoori”评价的分类算法和基于知识的方法鉴别诊断哮喘患者在伊朗,”国际期刊的信息系统服务部门,10卷,不。2月21,2018页。视图:出版商的网站|谷歌学术搜索
问:做什么,t . c .儿子,j . Chaudri“哮喘严重程度的分类和药物使用TensorFlow和多级数据库”第七届国际会议的程序当前和未来的医疗信息和通信技术的发展趋势隆德,页344 - 351年,瑞典,2017年9月。视图:出版商的网站|谷歌学术搜索
a . Badnjevic和m . Cifrek“哮喘利用集成的软件套件,分类”IFMBE诉讼施普林格,柏林,德国,2015年。视图:出版商的网站|谷歌学术搜索
m . Pifferi a .布什g . Pioggia et al .,“监测哮喘控制软计算在儿童过敏的肺功能和呼出一氧化氮,”胸部,卷139,不。2、319 - 327年,2011页。视图:出版商的网站|谷歌学术搜索
j . Casciano j·a·克里希,m . b .小et al .,“哮喘与血液中嗜酸性粒细胞含量升高,负担”BMC肺药,16卷,不。1,2 - 7日,2016页。视图:出版商的网站|谷歌学术搜索
r . s . Zeiger m .宝贝问:李et al .,“高血嗜酸性粒细胞计数是未来的一个危险因素在成人哮喘发作持续哮喘,”变态反应与临床免疫学杂志》:在实践中,卷2,不。6,741 - 750年,2014页。视图:出版商的网站|谷歌学术搜索
m . Dogru a Aktas, s . Ozturkmen”意味着哮喘患儿血小板体积增加,”儿科过敏和免疫学,26卷,不。8,817 - 826年,2015页。视图:出版商的网站|谷歌学术搜索
j . a .甘尼黎刹,m . m . z . Nuawi和c·h·c . Haron”刀具磨损的分类和检测使用多传感器信号和Mahalanobis-Taguchi系统,”穿卷,376 - 377,1759 - 1765年,2017页。视图:出版商的网站|谷歌学术搜索
g .田口和r . Jugulum多元诊断、新趋势”数论派系列B。卷,62年,第248 - 233页,2000年。视图:谷歌学术搜索
田口和r . JugulumMahalanobis-Taguchi策略模式的技术体系新泽西州霍博肯市约翰·威利& Sons,美国,2002年。
答:阿里:a . h . Haldar f·a·汗和s . Ullah“心电图心律失常分类使用mahalanobis-taguchi系统于一体的区域网络环境,”学报2015年IEEE全球通讯大会(GLOBECOM)美国圣地亚哥CA, 2015年12月。视图:出版商的网站|谷歌学术搜索
l·哲和c . Long-sheng改善MTS基于粗糙集理论及其在分类中的应用,”数学在实践和理论4卷,第143 - 134页,2015年。视图:谷歌学术搜索
a b·贝克尔和e·m·艾布拉姆斯的“哮喘指南,”当前变态反应与临床免疫学的观点,17卷,不。2、99 - 103年,2017页。视图:出版商的网站|谷歌学术搜索
c . Saygin d·莫汉,j . Sarangapani“实时检测控制长度在紧固螺栓接合:Mahalanobis-Taguchi系统(MTS)的方法,”《智能制造,21卷,不。4、377 - 392年,2010页。视图:出版商的网站|谷歌学术搜索
x金和t·w·s . Chow“异常检测感应电动机的冷却风扇和故障分类使用Mahalanobis-Taguchi系统,”专家系统与应用程序,40卷,不。15日,第5795 - 5787页,2013年。视图:出版商的网站|谷歌学术搜索
p .释迦、m . s . Kulkarni和a . k . Darpe“基于Mahalanobis-Taguchi-Gram-Schmidt轴承诊断方法,”杂志的声音和振动卷,337年,第362 - 342页,2015年。视图:出版商的网站|谷歌学术搜索
a . s . Iquebal Pal, d . Ceglarek和m . k .女子“增强Mahalanobis-Taguchi系统通过基于粗糙集的特征选择,”专家系统与应用程序第41卷。。17日,第8015 - 8003页,2014年。视图:出版商的网站|谷歌学术搜索
m . Ketkar和o . s . Vaidya“评估和排名MBA候选人:mahalanobis田口系统的方法,”Procedia经济学和金融学11卷,第664 - 654页,2014年。视图:出版商的网站|谷歌学术搜索
d . Liparas: Laskaris, l .旧金山”将静息状态的动力学分析的encephalographic反应通过Mahalanobis-Taguchi策略,”专家系统与应用程序,40卷,不。7,2621 - 2630年,2013页。视图:出版商的网站|谷歌学术搜索
a . m . Yazid j . k . Rijal m . s . Awaluddin大肠纱丽,“模式识别在再制造汽车组件使用Mahalanobis-Taguchi支持决策系统”Procedia CIRP26卷,第263 - 258页,2015年。视图:出版商的网站|谷歌学术搜索
z w·a·w·勒·穆罕默德k·r·伽玛鲁丁s . a . Saad z . r . Yahya和s . a .扎卡里亚,“基于随机二进制搜索算法的特征选择在Mahalanobis-Taguchi乳腺癌的诊断系统,”25日国家数学科学研讨会上卷。2018年,2 - 6,2018页。视图:出版商的网站|谷歌学术搜索
c·t·苏和h . h . Yu”评估MTS的健壮性不平衡数据,”IEEE反式工程知识和数据,10卷,不。19日,1321 - 1332年,2007页。视图:出版商的网站|谷歌学术搜索
z . r .盛、l . s . Cheng和y·顾”生成机制Mahalanobis MTS基于控制图,空间”应用统计和管理杂志》上36卷,第1068 - 1059页,2017年。视图:谷歌学术搜索

计算智能和神经科学

文摘