文摘

大数据时代的到来带来了新观念为各行各业的解决问题。医学临床数据被收集并存储在医学领域利用医学大数据平台。基于医疗信息大数据,新的思想和方法hypo-MDS和AA的鉴别诊断进行了研究。基本信息、外周血分类计数外周血细胞形态学、骨髓细胞形态学和其他信息收集从病人诊断为hypo-MDS和AA诊断的诊断。首先,进行统计分析。然后,逻辑回归模型、决策树模型、BP神经网络模型和支持向量机(SVM)模型hypo-MDS和AA。敏感性,特异性,Youden指数、阳性似然比(+ LR),阴性似然比(−LR),曲线下面积(AUC),准确性,Kappa值,阳性预测值(+ PV),阴性预测值(−PV)的四个模型训练集和测试集进行比较,分别。最后,医疗大数据的支持下,使用逻辑回归、决策树、BP神经网络和支持向量机的四个分类算法、决策树分类算法是最优的hypo-MDS AA和分析最优模型错误数据的特点。

1。介绍

骨髓增生异常综合征(MDS)是一种无性繁殖疾病获得造血干/祖细胞,转化为临床特征的髓细胞造血和高危急性髓系白血病(1]。一些MDS患者骨髓增生较低,称为hypocellular骨髓增生异常综合征(hypo-MDS)。Hypo-MDS MDS是一种特殊类型,占8.2%的MDS总数的-29.0%,38.0% (1]。再生障碍性贫血(AA)是指原发性骨髓造血衰竭综合症。病因尚不清楚,主要表现为低骨髓造血功能和全血细胞减少。临床上,可能有出血和感染性能(2,3]。

目前,hypo-MDS和AA的鉴别诊断是主要由血液学、细胞形态、骨髓活检和细胞遗传学。在疾病发展的不同阶段,患者的外周血hypo-MDS和AA在一行可能会减少,同时两行,或三行(4,5]。病态造血作用是hypo-MDS临床诊断的一个重要指标,但它有再现性差的缺点,可怜的特异性,灵敏度低。此外,病态造血作用还可以看到在一些AA患者(5]。一些研究还发现,没有病态造血MDS [6]。这些病态造血作用的非特异性。以前,细胞遗传学异常hypo-MDS被认为是可靠的诊断标准,但MDS患者的染色体异常的检出率从40%到60%不等(7,8和hypo-MDS患者更低9]。可以看出,MDS的细胞遗传学异常比率不是很高,表明该指数是不特定的。近年来,流式细胞术(FCM)的鉴别诊断AA和hypo-MDS变得越来越重要(10,11),但hypo-MDS的鉴别诊断和AA与单个immunophenotypic标记太低了。使用FCM评估红细胞恶性肿瘤(MDS的诊断形态学)的一个里程碑是困难的,限制了FCM的广泛使用在MDS的诊断12]。

可以看出hypo-MDS和AA的病理特点及临床表现非常相似,有很多鉴别诊断指标,但特异性不高,这两种疾病的鉴别诊断是困难的在临床实践中。每一个疾病的诊断过程会产生大量的数据,数据包含大量有关疾病的信息。因此,使用收集到的海量数据进行数据挖掘,我们可以有效地分析这种疾病。

数据挖掘是指获取知识和信息的过程,从大型数据库的潜在应用价值。它是一种新型的信息处理系统,近年来一直在快速发展13]。分类是数据挖掘中一个非常重要的任务。常用的方法包括逻辑回归、神经网络、决策树、支持向量机。每一种方法都有自己的特点,分类算法有很强的代表性,已经被成功地应用于医学领域(14- - - - - -16]。

一些学者的分类影响数据挖掘分类方法相比在医学领域。例如,阿加瓦尔et al。17)贝叶斯相比,支持向量机,决策树分类结果使用医疗数据。结果表明,支持向量机分类精度最高。Heydari et al。18)神经网络相比,支持向量机、决策树、贝叶斯方法在2型糖尿病的诊断和发现,神经网络模型的精度是97.44%,最高决策树是95.03%,贝叶斯网络是91.60%,而支持向量机只有81.19%的准确性。他et al。19)使用SVM、贝叶斯网络、径向基神经网络,建立分类模型和多层感知器的轻度创伤性脑损伤的磁共振特征。准确率最高的是径向基神经网络(74%);最糟糕的是多层传感器(66%)、支持向量机和贝叶斯网络是70%。曾et al。20.)使用决策树和神经网络方法分析口腔癌患者的预后,发现两种方法精度高,但与神经网络相比,决策树模型的结果更容易解释,更容易接受。吴et al。21)比较了BP神经网络的分类性能和逻辑回归,发现BP神经网络的分类精度(93.5%)高于逻辑回归模型(90.7%)。

基于当前的临床鉴别诊断问题hypo-MDS AA, hypo-MDS病人和AA患者的案例数据分析,不符合实际的数据和错误删除,和纯粹的数据。然后,将纯粹的大数据应用于数据挖掘算法做了比较的影响。在这项研究中,逻辑回归、决策树、BP神经网络和支持向量机用于建立两种疾病的鉴别诊断模型。通过模型的评价,最后得到一个更好的分类模型,结合误诊病例的临床特征的最佳鉴别诊断模型,结合进行鉴别诊断。这提供了一个有效的新概念和方法的鉴别诊断hypo-MDS和AA。

2。医学大数据采集和存储系统基于医学大数据平台

2.1。医学大数据平台软件架构

医学大数据平台(MBDP)是一个分布式系统基础架构开发的Apache基金会开发分布式程序,允许用户不知道底层的细节分布和利用高速计算和存储的集群的力量。医学大数据平台为开发者提供了一个可靠、高效和可扩展的开放源码软件框架来处理大量的数据。实现分布式计算大量数据的大量计算机组成的集群。医学大数据平台开源分布式计算平台主要由两部分组成:医学大数据平台分布式文件系统和分布式计算MapReduce框架(见图1)。

医疗大数据平台是一个开源的、分布式存储、分布式计算平台,扩展了一个服务器集群机器,每个节点提供本地计算和存储不依赖硬件的高可用性。为核心的组件,使用MapReduce实现任务分解和调度。MBDP用于存储大量的数据。通过存储临床患者的医疗大数据,进一步有效地计算和实时处理,医疗大数据平台的应用价值是充分的利用。

2.2。研究分布式优化MBDP基于大数据

MBDP已经足够优秀的稳定性和性能,但它有存储效率低、集群负载平衡能力差,NameNode单点失败,JobTracer负荷太大,小文件问题,热点问题等等都严重限制了MBDP进一步发展。为了达到更高的存储效率和更优化的负载均衡能力MBDP, MBDP诺亚是一种改进的解决方案。部分的管理是通过集群的每个节点映射文件,解决性能瓶颈问题的中央节点(见图2)。

实验结果表明,诺亚提高了数据恢复的速度MBDP同时确保集群数据的安全,优化MBDP的负载均衡能力,减少医疗成本的整体存储大数据平台。这对改善有明显影响的实际操作效率的医疗大数据平台及其相关的云计算架构。

2.3。存储平台框架基于Hypo-MDS和AA大数据

根据hypo-MDS的及时性和庞大的外汇储备和AA案例数据,医学大数据平台的分布式存储系统是放置在虚拟化的资源管理平台,与医学大数据平台奴隶节点动态地部署,和医学大数据平台是快速构建的分布式存储。

新建的大数据存储平台具有良好的兼容性,生命周期长。医疗诊断过程实时数据存储在平台实现数据的分析和处理。在数据存储的过程中,病人的基本信息,外周血分类计数、外周血细胞形态学、骨髓细胞形态学、和其他可量化的数据。进一步与分类系统接口实现发育不全的骨髓增生异常综合征的鉴别诊断和再生障碍性贫血是必要的。

3所示。大数据基于Hypo-MDS和AA病例

3.1。存储数据库建设Hypo-MDS和AA大数据
3.1.1。数据收集Hypo-MDS和AA的病例

案例数据hypo-MDS病人和AA患者来自北理工大学的附属医院,中国医学科学院血液病医院。医疗信息数据库,收集基本信息和符合条件的患者的病史,包括病人的性别、年龄、职业、婚姻状况、吸烟和饮酒的历史。和病人的临床检查数据,包括外周血分类统计,外周血细胞形态学和骨髓细胞形态学,也收集。

3.1.2。入选标准

入选标准包括以下数据:(1)新诊断病例承认从2008年1月1日,2016年12月31日(2)所有hypo-MDS和AA情况下遇到了2008年修订MDS分类标准和血液疾病诊断和疗效标准(第三版)。hypo-MDS还需要满足骨髓组织活检。骨髓细胞体积小于30%的60岁以下或少于20%的60岁以上,证实了一些血液疾病专家(3)病人情况信息记录使用标准的情况

3.1.3。排除标准

排除标准包括以下数据:(1)有严重的消耗性疾病(2)有恶性肿瘤的历史吗

3.2。Hypo-MDS和AA诊断标准2]

Hypo-MDS和AA疾病诊断标准重叠等血液学和细胞形态学的外周血细胞减少,骨髓增生(22]。如何区分这两个困扰临床医生通常是一个大问题。数据挖掘方法的使用收集到的数据应用于低增生性骨髓增生异常综合征的鉴别诊断和再生障碍性贫血会大大提高诊断的准确性。

3.2.1之上。Hypo-DMS诊断标准

Hypo-MDS至今没有统一的诊断标准。hypo-MDS诊断的参考条件如下。(1)外周血显示超过两个系列的血球减少,红细胞和原始细胞或有核分类中可以看到。(2)骨髓涂片显示增生超过两个站点。(3)骨髓部分显示减少在骨髓造血和骨髓细胞体积,不到30%的60岁以下和60岁以上的不到20%。(4)骨髓病态造血作用在一个或两个血细胞,和原始细胞的数量的变化取决于MDS亚型。

3.2.2。AA诊断标准

AA诊断标准包括以下数据:(1)全血细胞减少,网织红细胞的比例< 1%,淋巴细胞的比例的增加;(2)一般没有肝脾肿大;(3)减少正常骨髓增生(< 50%)或严重的减少(< 25%)正常,造血细胞减少,增加比例nonhematopoietic细胞,骨髓颗粒和空(骨髓活检表明造血组织减少);(4)可以排除其他疾病引起全血细胞减少症,如PNH、急性造血功能逮捕,巨成红细胞性贫血,骨髓纤维化,急性白血病。

3.3。大数据的分析Hypo-MDS和AA病例
3.3.1。研究对象的一般情况

从2008年1月1日,12月31日,2016年,hypo-MDS和AA患者诊断的血液学研究所,中国医学科学院,北理工大学的附属医院被选为研究对象。AA患者共325例,其中确诊118第一次和51例是不完整的。总共156 AA患者进入研究。我们收集hypo-MDS患者162例,其中19例不是第一次诊断和13例是不完整的。总共有130患者hypo-MDS进入研究(见图3)。

156 AA患者83人(53.20%)和73名女性(46.80%)。范围是6 - 80岁,平均年龄为28.51±15.46年。hypo-MDS患者的130,69(53.08%)的男性和61(46.92%)是女性。年龄11岁- 82岁,平均年龄为36.81±16.42年。两种疾病之间的年龄差异具有统计学意义( , )。两种疾病在性别构成( , ),婚姻状况( , ),吸烟史( , ),民族( , ),和饮酒历史( , );没有统计上显著的差异等方面。

职业组成的患者而言,两种疾病的患者群体主要集中在工人、农民、学生。两种疾病之间的职业组成的差异具有统计学意义( , )。农民与hypo-MDS的比例最高(38.46%),而学生的百分比AA是最高(51.92%)(见表1)。

3.3.2。两组患者的实验室测试的结果

外周血细胞计数、血液涂片和骨髓涂片分析130年hypo-MDS患者和156例AA。血细胞计数表明,红细胞内容和hypo-MDS患者血红蛋白含量低于AA患者,差异具有统计学意义( )。患者的血小板含量hypo-MDS低于AA患者,但两组之间没有显著差异( )。

血涂片显示的比例在杆状核嗜中性粒细胞hypo-MDS患者低于AA患者,和成熟的淋巴细胞的比例在AA AA患者低于患者( )。成熟中性粒细胞和单核细胞的比例患者hypo-MDS高于AA患者,但两组之间没有显著差异( )。

骨髓细胞的形态显示,早熟的中性粒细胞的比例,中性粒细胞,中性粒细胞,多形核中性粒细胞和淋巴细胞成熟hypo-MDS患者低于AA患者。早期的血红细胞的比例、中、年轻的红细胞,年轻红细胞和成熟浆细胞hypo-MDS患者高于AA患者。和数据具有统计上的显著差异( )。成熟的hypo-MDS患者单核细胞的比例高于AA患者。中性粒细胞和杆状核嗜中性粒细胞的比例低于AA患者,但是差异没有统计学意义( )(见表2)。

3.3.3。变量选择和分配

虽然职业组成hypo-MDS和AA之间的差异具有统计学意义,没有证据表明hypo-MDS和AA的患病率与职业因素,所以职业因素不包括模型的建立。血液中红细胞和血红蛋白细胞计数被包含在模型的建立为一个基本参考临床hypo-MDS和AA的鉴别诊断。有文献支持(23),中性粒细胞,早熟的成红血球细胞、中、年轻的红细胞,晚成红血球细胞,淋巴细胞,成熟和成熟浆细胞有助于确定hypo-MDS和AA,这些指标也包括在模型(见表3为变量赋值)。

4所示。决策树的鉴别诊断模型

4.1。建立决策树模型

决策树(24)是一个分层的树结构由自顶向下传输方法通过确定一系列的逻辑分支的关系。根节点、中间节点和叶节点生成决策树的生成过程。根节点、中间节点和叶节点生成决策树的生成过程。决策树的根节点是决策树的开始。它代表了大多数样本数据的特征变量。然后,功能分类的节点被选中将某一节点的节点,直到数据只属于一个类别或方差最小,和节点不会分裂。

决策树生成的关键问题是最分区的选择属性,即节点的选择特性和功能分割点。随着决策树继续向下生长产生不同分支节点,每个节点中包含我们希望样品尽可能属于同一类别,即越来越多的杂质的节点树变得越来越低。根据不同的决策树算法,有三种方法测量节点的度杂质(25,26:信息增益,增益比,基尼指数。

C5.0算法决策树模型中经常使用信息增益选择节点的特性和功能分割点。计算方法如下。信息熵是一个指标,用来描述样本数据的纯洁性。假设的相对频率 样品,样本数据集 ( ),然后,信息熵

越小 ,的纯度越高 当样本数据均匀分布在每个类别中,最大熵 用于显示最低的纯度。当所有样本属于同一类别,信息熵的最小值为0,表明纯度最高。

假设 样本数据集的属性吗 , 可能的值 ;然后,我们可以使用属性 做一个 分支节点后消灭样本数据集 我们注意,在样本数据集 中包含的 分支节点,所有样品 这有一个 因此,将获得的信息增益的属性数据集 与属性

一般来说,信息增益越大,越纯净的样本数据集的属性 因此,可以使用信息增益选择分裂属性的决策树。

常见的获得率决策树C4.5算法的模型是用来选择节点功能和特性分割点。使用相同的符号信息增益的计算,获得率被定义为 在哪里

这就是所谓的属性的内在价值 更可能的价值 的属性 ,更大的价值 通常会。

决策树模型中的CART算法使用基尼系数选择节点功能和特性分割点。使用相同的符号信息增益的计算,基尼指数的样本数据集 可以表示为

从样本数据集 ,随机选择的两个样品,根据上面的公式,可以得到, 反映了两个随机样本类别之间的不一致的概率。因此,越小 ,纯度越高的样本数据集

基尼指数被定义为属性

因此,我们选择的属性与最小的基尼系数最优分区候选属性设置的属性 ,也就是说,

4.2。决策树的修剪

在自上而下的决策树的生成过程,经常出现过度拟合,如果没有限制其增长。此时,正确决策树需要修剪过度拟合。决策树的修剪不能随意做的,它通常需要考虑到决策树的预测准确性和复杂性;否则,它将导致损失的决定。修剪分为prepruning和postpruning修剪的时间(27]。Prepruning发生在决策树的生长,估计在节点分裂。如果部门在这个时候不提高决策树的性能,然后停止分区和决策分支决策树的减少。修剪后发生后的决策树的生长,nonleaf节点评估。如果节点下的子树可以取代叶节点的改进决策树的性能,这是修剪,防止过度拟合。

5。决策树模型建立和解决方案

5.1。建立Hypo-MDS和AA决策树模型

大样本数据分区;培训分区是73%在模型建立过程中,和测试分区占27%。C5.0算法选择提升方法和交叉验证。修剪严重性被设置为75,每个支行的最低数量的记录是2。全球修剪选择建立一个决策树模型两种疾病。模型训练集的209例:199例正确分类和10例被误诊。测试集样本77例,62例正确分类和分类错误(见表15例4)。Youden指数敏感性,特异性,阳性似然比、阴性似然比,AUC,准确性,Kappa值,阳性预测值和阴性预测值模型的分类进行评估(见表5)。

系统树图深度是8,9层节点。晚成红血球细胞在骨髓细胞的比例作为根节点开发决策树的生长。决策树的生长完成后,我们可以根据决策规则提取有效信息的决策树,以达到识别的目的hypo-MDS和AA(见图4)。例如,决定消息传递给我们的节点4是晚成红血球细胞在骨髓细胞的百分比小于26.50%,外周血红细胞大于1.36%。当年龄小于39岁,AA患者的可能性是76.92%,病人被hypo-MDS的概率是23.08%。独立变量的影响的分析模型表明,外周血红细胞对模型影响最大的分类,其次是中、小红和后期的年轻红细胞骨髓细胞(见图5)。

5.2。比较Hypo-MDS和AA分类效果的四个模型
5.2.1。结果训练集样本

结合上面的结果、逻辑回归、决策树、BP神经网络和支持向量机分类模型是用来评估hypo-MDS和AA大数据从三个方面:真实性、可靠性和受益。结果表明,在真实性评价的比较方面,逻辑回归、决策树、BP神经网络和支持向量机,决策树模型有最好的真实性。可靠性评估,决策树模型是最好的可靠性与逻辑回归相比,BP神经网络和支持向量机,决策树。模型的好处而言,逻辑回归、决策树、BP神经网络和支持向量机相比,效益最高决策树模型(见表6)。

比较之后,敏感性差异之间的逻辑回归模型和决策树模型和决策树模型和支持向量机有统计学意义( )(表7)。没有统计上的显著差异在其他模型( )。特异性的差异之间的逻辑回归模型和决策树模型、决策树模型和BP神经网络和决策树模型和支持向量机有统计学意义( )。没有统计上的显著差异在其他模型( )。精度的差异之间的逻辑回归模型和决策树模型、决策树模型和BP神经网络和决策树模型和支持向量机有统计学意义( )。没有统计上的显著差异在其他模型( )。有统计上的显著差异在ROC曲线区域之间的逻辑回归模型和决策树模型、决策树模型和BP神经网络和决策树模型和支持向量机( )。没有统计上的显著差异在其他模型( )。通过AUC的分布图,可以发现,决策树的曲线下的面积是最大的,这表明效果是最好的,如图6

结合上述模型评价指标,分类的决策树模型是最优模型的大数据hypo-MDS和AA模型真实性、可靠性和效益评估。

5.2.2。结果测试集样本

结合上面的结果,逻辑回归、决策树、BP神经网络和支持向量机hyper-MDS和AA大数据分类模型从三个方面进行评估:真实性、可靠性和受益。结果表明,在真实性评价的比较方面,逻辑回归、决策树、BP神经网络和支持向量机,决策树模型有最好的真实性。可靠性评估,决策树模型是最好的可靠性与逻辑回归相比,BP神经网络和支持向量机,决策树。模型的好处而言,逻辑回归、决策树,BP神经网络和支持向量机决策树模型比较最高的回报。比较后,敏感性、特异性、准确性,和ROC曲线下面积的四个模型没有统计学意义( )(见图7)。虽然两个比较的结果表明,模型之间的差异没有统计学意义,决策树模型的性能明显优于其他三种模型的各种指标的模型评估。总之,决策树模型的最优模型分类hypo-MDS和AA大数据,无论是模型真实性、可靠性和效益评估。通过AUC的分布图,可以发现,决策树的曲线下的面积是最大的,这表明效果是最好的,如图7

5.3。分析例Hypojudgment Hypo-MDS和AA

通过模型评估,我们发现决策树模型是最优的分类模型。虽然决策树模型具有良好的预测效果,这个模型仍然有可能误判hypo-MDS和AA。因此,它更有利于这两种疾病的鉴别诊断误诊病例的深入分析。

5.3.1。Hypo-MDS误判案例分析

最优模型决策树模型分类130 hypo-MDS患者和患者分类13 hypo-MDS AA患者。比较误判情况和积极的情况下,发现红细胞内容和血红蛋白含量的错案外周血细胞数均高于阳性病例。成熟淋巴细胞的比例在骨髓涂片误诊病例高于阳性病例。成红血球细胞早期和晚期成红血球细胞的比例是低于积极罪魁祸首情况下,差异具有统计学意义( )。在其他指标没有显著差异( )。

5.3.2。AA误判案例分析

最优模型决策树模型分类156 AA患者和15例AA患者并被错误地归类为hypo-MDS病人。比较积极的情况下,错误地判断情况发现红细胞内容和血红蛋白含量的错误判断案件外周血细胞计数低于积极的情况。早期的比例成红血球细胞,红细胞比年轻成红血球细胞,和后期的比例成红血球细胞在骨髓涂片误诊病例高于阳性病例。成熟淋巴细胞的比例是低于积极的情况下,差异具有统计学意义( )。然而,在其他指标没有显著差异( )。

6。结论

根据基本的分析和疾病患者数据索引数据,年龄和职业的不同成分之间hypo-MDS和AA患者是统计学意义( )。其他基本数据(没有显著差异 )。训练集、逻辑回归、BP神经网络、支持向量机、决策树敏感性,Youden指数、阳性似然比,分类精度、阳性预测价值、阴性预测价值进行评估。有一个统计上的显著差异的敏感性之间的逻辑回归模型和决策树模型和决策树模型和支持向量机( )。特异性、准确性和ROC曲线下面积之间的决策树模型和逻辑回归模型,决策树模型和BP神经网络和决策树模型和支持向量机是统计学意义( )。测试集的逻辑回归,BP神经网络,支持向量机,决策树敏感性,Youden指数、阳性似然比,分类精度,阳性预测值,阴性预测值,敏感性、特异性、准确性,和ROC曲线下面积的四个模型没有统计学意义( )。

分类逻辑回归、决策树、BP神经网络和支持向量机进行了比较。决策树算法的分类效果最好hypo-MDS和AA,可以帮助识别和诊断两种疾病的临床医生。

数据可用性

从2008年1月1日至12月31日,2016年,患者诊断为hypo-MDS和AA确诊第一附属医院中国医学科学院和华北科技大学的附属医院。所有的情况下都完全记录。

的利益冲突

所有的作者没有任何可能的利益冲突。

确认

这项研究是由河北省自然科学基金(H2017209172) (Jianhui Wu)。