文摘

本研究的重点是使用机器学习方法结合特征选择和不平衡的过程(击杀算法)糖尿病随访控制满意度数据进行分类和预测。特征选择和不平衡的过程后,糖尿病随访数据的新城市乌鲁木齐,新疆,作为支持向量机(SVM)的输入变量,决策树,集成学习模型(演算法和装袋)进行建模和预测。实验结果表明,学习演算法产生更好的分类结果。测试集,G-mean为94.65%,ROC曲线下的面积(AUC)是0.9817,和重要的变量在分类过程中,空腹血糖,年龄、体重指数。决策树的性能模型在测试集是相对较低的比支持向量机和整体学习模型。这些分类模型的预测结果是充分的。与单个分类器相比,集成学习算法分类精度显示不同程度的增加。学习演算法可用于糖尿病随访和控制满意度数据的预测。

1。介绍

目前,中国拥有世界上最多的慢性病患者,那些患有糖尿病及其相关并发症是最关键的。糖尿病是一种慢性疾病,其特征是漫长的治疗周期,众多并发症(如肾脏和眼睛的疾病),和复发性疾病。随着医学信息化的进步,医疗行业大量复杂的病人数据渴望从这些数据中提取信息来帮助这些行业的发展。同时,他们还寻求能够减轻医务人员所面临的挑战,通过即将到来的智能医学的发展。使用机器学习和其他人工智能方法对医疗数据的分析以协助诊断和治疗的一个表现是聪明和最实用的医学意义。

随着我国人民的生活水平的提高,我们的饮食西化,糖尿病的发病率,死亡率和发病率显著增加,严重影响我们的健康。2006年,商1]利用调查数据的新疆慢性病综合防治示范网站在新2004年乌鲁木齐市区和18岁以上的2031人做了调查,三个社区。结果显示糖尿病之间的关系和年龄和性别:男性和女性的患病率随着年龄的上升,因为葡萄糖耐量降低随着年龄的增长和生活水平的提高的原因增加的发病率。超重和肥胖是糖尿病的危险因素之一。调查发现,糖尿病的患病率与体重指数> 24是10人。58%,糖尿病的患病率与BMI≦24为4.31%,两组患病率由卡方检验P < 0.01,两组之间有显著差异,表明超重和肥胖的人更容易患上糖尿病。2009年,苏2]分析了糖尿病的相关因素在新疆乌鲁木齐的城市新区。结果表明,年龄、性别、身高、体重、体重指数与糖尿病相关未达到统计上的显著水平。然而,腰围、收缩压、甘油三酯是积极因素与糖尿病有关。2017年,Mohemaiti [3)利用问卷调查200名老年患者2型糖尿病的患病率与冠心病从2016年1月至12月在杭州路社区的新城市乌鲁木齐;结果表明:吸烟、体重指数≥24公斤/米2,并发症糖尿病,高血压,血脂异常是冠心病的危险因素在老年糖尿病患者。它是根据相关的关键风险因素和干预措施的及时发展减少冠心病的发病率在老年糖尿病患者。

数据挖掘是一个重要的工具在医学数据库,提高敏感性和/或特异性的疾病检测和诊断通过打开一个窗口相对更好的资源(4]。应用机器学习和数据挖掘方法在糖尿病研究是利用丰富的一个关键方法可用糖尿病引起的数据中提取知识。具体疾病的严重社会影响使DM的一个主要重点在医学科学研究中,不可避免地会产生大量的数据。因此,毫无疑问,机器学习和数据挖掘方法在诊断DM是十分关注的,管理,和其他相关的临床管理方面(5]。为了达到最好的分类精度,算法和丰富多样的方法已经被应用,如传统的机器学习算法,集成学习方法和关联规则的学习。上述中最为指出的是以下几点:Calisir Dogantekin LDA-MWSVM提出,糖尿病诊断系统(6]。减少系统进行特征提取和使用线性判别分析(LDA)方法,其次是分类使用Morlet小波支持向量机分类器(MWSVM)。Gangji和Abadeh7)提供了一个Ant Colony-based分类系统中提取一组模糊规则,名叫FCSANTMINER,糖尿病的诊断。在[8),作者认为葡萄糖作为多元回归预测问题,利用支持向量回归(SVR)。阿加瓦尔(9]利用半自动生成标记训练集创建显性模型通过机器学习的方法。整体方法,利用多个学习算法,已被证实是有效的方法提高分类精度。

本研究遵循了支持向量机(SVM),演算法,合奏装袋数据挖掘技术和决策树作为我们的研究模型。更具体地说,本研究的数据集用于决策从糖尿病随访数据获得的新城市乌鲁木齐,新疆。本研究的目的是评估上述数据挖掘技术的性能,采用机器学习的方法结合特征选择和类不平衡处理评估糖尿病患者的健康管理控制满意。我们使用糖尿病患者的健康管理测量指标作为模型的输入变量精确分类两个级别的控制满足后续数据,即(i)满意控制和(2)不满意的控制。最后,一个分类模型,进一步建立了较高的分类精度。

2。材料和方法

2.1。数据集

在这项研究中使用的数据集是糖尿病患者健康管理后续数据的收集新城市乌鲁木齐,新疆。数据集包含3406条记录一段时间从12月1日,2016年,2017年2月28日。每个记录包括25个特征变量,这可能会影响糖尿病控制的满意程度。抽象细节的相关因素中选择本研究中提供了表1包括年龄、性别、种族、身体质量指数(BMI)、糖尿病并发症、收缩压、舒张压、空腹血糖的患者。卡方检验是用来比较和分析不同分类变量和受访者的满意度。用卡方检验来选择少量的最相关的特征(或通过消除许多无关的特性),一个是能够减少过度拟合训练数据的风险,常常得到一个更好的模型。该数据具有统计上的显著差异,P < 0.05。分类变量是统计学意义通过卡方检验和连续变量,作为机器学习的输入变量。

在我们的研究中,数据集遇到类不平衡问题。3406例患者,2832糖尿病患者满意控制,构成了大约83.21%的总病人和574例不满意。多数和少数民族之间的不平衡比率= 5:1。换句话说,一个数据集是class-imbalanced如果一个类包含样品数量明显多于其他。为了解决问题,我们可以选择随机采样(俄文),随机采样过密(ROS),和击杀,这是最常用的重采样方法来平衡不平衡数据集。在这里,我们只选择攻击算法,用于创建一个数据集,少数由400%,多数类样本采样过量undersampled大约使1:1比例123%。给出了数据集的描述表2。最终,平衡数据集被用来构建模型。

2.2。算法

我们选择4测试决策树算法,支持向量机(SVM),装袋,演算法常见的机器学习算法。决策树(10)是一类树分类器。一般来说,决策树使用信息熵、信息增益、基尼系数来评估的特征作为分类特征对应于一个non-leaf-node [11]。通常,决策树可以直观地显示分类过程,清楚地展示规则,可以被人类所理解。svm是监督学习模型与数据分析和模型识别和广泛用于分类和回归分析,采用多项式线性函数的假设空间高维特征空间。而支持向量机算法是一个“黑匣子”,他们通常比其他的ML算法分类任务12,13]。1996年,Breiman提出了流行的引导聚合(装袋)方法(14]。它主要包括引导抽样技术,选择样本反复与一定的概率和替换,而产生许多不同的样本子集。接下来,使用这些不同的样本子集分别对基分类器进行训练,得到一个集成分类器有一定的多样性。装袋的多样性策略非常简单,有效,和无数导数方法基于这一策略产生足够的分类的结果(15]。也称为强化学习,提高整体学习的一个关键技术,可以加强一个弱分类器,其预测精度略高于随机猜测,变成一个强分类器预测精度高。学习演算法最成功的代表,被评为十大最有效的数据挖掘算法(16]。该算法是一种迭代方法,提出了由Schapire和弗洛伊德1995年(17- - - - - -19]。

因为每一种算法都有自己的特点和优势,每个方法会产生不同的结果对糖尿病的满意度进行分类跟踪和控制,以及更全面的评价预测的不平衡的背景下,G-mean [20.]和AUC [21)经常被用来衡量两个类之间的预测可以平衡性能,所以我们选择G-mean和ROC曲线下面积(AUC)作为指标来评估分类模型的性能。通过使用混淆矩阵(见表3),我们可以计算的准确性、敏感性和特异性。

G-mean几何平均数的敏感性和特异性;也就是说,

中华民国曲线描述之间的关系 的分类器。自中华民国曲线不能定量评估分类器,AUC通常是作为评价指标。AUC (ROC曲线下面积)值是指ROC曲线下的面积。理想的分类模型的AUC值1,值在0.5和1.0之间,和更大的AUC表示分类模型具有更好的性能。

执行实验使用开源R软件版本3.4.1 (https://www.r-project.org/)。主要的软件包包括以下:

(1)adabag (https://cran.r-project.org/web/packages/adabag /)软件包主要集中在装袋和学习演算法。

(2)kernlab (https://cran.r-project.org/web/packages/kernlab/)包被用于支持向量机算法。

(3)rpart (https://cran.r-project.org/web/packages/rpart/)是用于决策树分类。

3所示。结果

我们的研究数据集分为两部分;三分之二的数据作为训练集,和三分之一的数据集被定义为一组测试来评估多个分类器的性能。所有分类器被安装在相同的训练和测试数据。具体的过程如图1

从表可以看出4,在这项研究中,四个最终的性能预测模型评估使用G-mean, AUC。为测试数据集,最后比较分析结果证明了学习演算法显示最好的准确性为94.84%,敏感性和特异性分别为95.76%和93.56%,分别。SVM算法出来是第二个最好的分类准确率为92.62%,敏感性和特异性为94.08%和91.28%,分别装袋模型(91.15%)和决策树(91.15%),表现出相同的结果,敏感性和特异性是等于90.50%和91.81%,分别。在结果中,接受者操作特征(ROC)曲线下面积(AUC)值的支持向量机,装袋,和决策树算法是0.9688,0.9164,和0.9115,分别。中华民国演算法集成方法下的面积,G-mean 0.9465 98.17%,显示有识别力的能力在所有方法的可靠性高。总的来说,毫升本文方法取得了良好的分类性能的健康管理控制糖尿病患者的满意度。决策树也取得了更好的性能。四个分类器的ROC曲线如图所示2

4所示。讨论

糖尿病患者的健康管理是一个重要的国家基本公共卫生服务项目的一部分。糖尿病患者是一个定义的六个关键团体由国家基本公共卫生服务项目,和满意度的一个重要指标的有效性测试项目(22]。病人提供的服务感到满意;他们会主动参与项目,形成一个良性循环,进一步加强项目健康管理的有效性,然后促进项目的顺利实施。与此同时,患者对医疗服务的满意度直接影响卫生服务的发展。因此,我们必须高度重视病人的满意度,提高病人满意度,不断提高服务能力和服务质量(23]。机器学习方法提供一种新的糖尿病分析适合当代大数据的要求。这些方法可以克服许多内在约束在许多传统的统计建模方法(24]。因此,当专注于一个特定的疾病,应该选择一些适当的分类算法根据数据集的特点。通过比较这些分类算法的分类精度数据集,最有效的分类算法的诊断模型。一般来说,机器学习算法的性能评估使用预测精度。然而,这是不合适的数据时不平衡和/或不同的错误的成本显著不同。

在这项研究中使用的数据集从糖尿病患者健康管理后续数据获得的新城市乌鲁木齐,新疆。本研究系统包括四个代表性的数据挖掘技术预测的数据挖掘任务。包括决策树、支持向量机集成学习方法装袋,演算法。这些算法结合用于创建知识呈现它对决策有用。每个算法将产生不同的结果的满意程度进行分类控制糖尿病。首先,卡方检验是用来选择糖尿病数据集的特性。其次,因为数据不平衡的问题,我们选择了一个方法来处理不平衡数据,也就是说,击打的方法。最后,特征选择和不平衡的处理后的数据集是由四个分类分类算法。实验结果证明,测试数据集,学习演算法表现最好在4个模型AUC等于0.9817和G-mean等于0.9465。学习演算法的一个重要特性是计算每个变量的重要性(特性)。 We can output the importance score of each input variable in the classification process. Variables with high importance are closely related to the predictions results. For instance, Huang [25]提到,充分控制血糖被定义为空腹血糖值< 7.0更易/ L。邮政管理层血糖控制的效果直接影响病人满意度,具有统计上的显著差异(X2 = 24.128, P < 0.05)。此外,Baccaro [26)还表示,一个重要的得分之间的统计相关性观察问卷和良好的糖尿病控制显示HbAc1和空腹血糖水平,在其他参数,这是符合第一个重要的变量(空腹血糖)公布的美国提出的演算法。我们的研究结果还表明,年龄和体重指数也是重要的变量。一项研究指出[27)更高的时代,更好的身体健康,减少糖尿病引起的痛苦,和更高的糖尿病治疗满意度。另一个例子,一项研究[28)旨在评估心理健康和治疗2型糖尿病患者的满意度在一般医院在韩国。结果显示,治疗满意度明显与年龄有关,满意等待和治疗时间,符合推荐的饮食和锻炼,和持续时间的糖尿病。对于BMI,有一定关系满意度的血糖控制和超重或肥胖,这解释了BMI的分类控制满意度的重要性(29日]。此外,确定哪些病人特点和实验室独立价值观与治疗满意度,伯(30.)使用了一个线性混合模型进行分析,其结论是,许多因素包括糖尿病教育、感知和实际高血糖症,macrovascular并发症与治疗满意度。装袋和演算法方法(31日)结合大量的决策树,可以显著提高预测效率。集成学习算法有更好的性能比简单的分类算法(决策树)。

研究的局限性也应该被认可。在本文中,只有一个方法处理不平衡数据。当然,开发了各种各样的方法来处理不平衡数据,如随机采样过密,基于集群的过采样,和算法整体技术。本文并不与原数据集的算法的性能。在未来的工作中,我们可以考虑,从不同的角度,采用不同的不平衡处理方法和机器学习的方法来比较不同类型的不平衡处理技术的影响。

此外,它应该提到,尽管声称这些机器学习分类算法可以产生足够的和有效的决策,很少有真正渗透到临床实践32]。可以理解的是,临床医生感兴趣的不仅是一个预测模型的精度高,而且在程度的模型可以解释疾病的发病机理(24]。虽然它有强大的学习功能,不支持的适当的方法确定它们是如何工作的,机器学习算法的结果预测可能遇到的适用性有限的临床实践。我们使用机器学习方法糖尿病分析在真实临床环境中,这是一个严峻的挑战。

5。结论

在这项研究中,我们使用了糖尿病患者健康管理随访数据。我们已经结合了特征选择和不平衡处理技术,和一些研究人员利用健康管理控制糖尿病患者的满意度分类预测。在这项工作中,我们提供了证据,学习演算法可以成功地用于健康管理控制糖尿病患者的满意度。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者声明没有潜在的利益冲突的研究,本文的作者,和/或出版。

确认

这项工作是支持新疆(没有的关键研究和开发项目。2016 b03048)。