计算和数学方法在医学

在这一页上

文摘介绍材料和方法结果讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

软计算生物医学数据的进行分析

把这个特殊的问题

研究文章|开放获取

体积2018年| 文章的ID7207151| https://doi.org/10.1155/2018/7207151

分析和研究糖尿病随访数据使用Data-Mining-Based方法在新城市乌鲁木齐,新疆,中国,2016 - 2017

宇凯李,¹ 随着李,¹ 和华么 ²

学术编辑器: 费德里科•长诗

收到了 2018年2月12日

修改后的 2018年4月29日(

接受 2018年5月17日

发表 2018年7月10

文摘

本研究的重点是使用机器学习方法结合特征选择和不平衡的过程(击杀算法)糖尿病随访控制满意度数据进行分类和预测。特征选择和不平衡的过程后,糖尿病随访数据的新城市乌鲁木齐,新疆,作为支持向量机(SVM)的输入变量,决策树,集成学习模型(演算法和装袋)进行建模和预测。实验结果表明,学习演算法产生更好的分类结果。测试集,G-mean为94.65%,ROC曲线下的面积(AUC)是0.9817,和重要的变量在分类过程中,空腹血糖,年龄、体重指数。决策树的性能模型在测试集是相对较低的比支持向量机和整体学习模型。这些分类模型的预测结果是充分的。与单个分类器相比,集成学习算法分类精度显示不同程度的增加。学习演算法可用于糖尿病随访和控制满意度数据的预测。

1。介绍

目前,中国拥有世界上最多的慢性病患者,那些患有糖尿病及其相关并发症是最关键的。糖尿病是一种慢性疾病,其特征是漫长的治疗周期,众多并发症(如肾脏和眼睛的疾病),和复发性疾病。随着医学信息化的进步,医疗行业大量复杂的病人数据渴望从这些数据中提取信息来帮助这些行业的发展。同时,他们还寻求能够减轻医务人员所面临的挑战,通过即将到来的智能医学的发展。使用机器学习和其他人工智能方法对医疗数据的分析以协助诊断和治疗的一个表现是聪明和最实用的医学意义。

随着我国人民的生活水平的提高,我们的饮食西化,糖尿病的发病率,死亡率和发病率显著增加,严重影响我们的健康。2006年,商1]利用调查数据的新疆慢性病综合防治示范网站在新2004年乌鲁木齐市区和18岁以上的2031人做了调查,三个社区。结果显示糖尿病之间的关系和年龄和性别:男性和女性的患病率随着年龄的上升,因为葡萄糖耐量降低随着年龄的增长和生活水平的提高的原因增加的发病率。超重和肥胖是糖尿病的危险因素之一。调查发现,糖尿病的患病率与体重指数> 24是10人。58%,糖尿病的患病率与BMI≦24为4.31%,两组患病率由卡方检验P < 0.01,两组之间有显著差异,表明超重和肥胖的人更容易患上糖尿病。2009年,苏2]分析了糖尿病的相关因素在新疆乌鲁木齐的城市新区。结果表明,年龄、性别、身高、体重、体重指数与糖尿病相关未达到统计上的显著水平。然而,腰围、收缩压、甘油三酯是积极因素与糖尿病有关。2017年,Mohemaiti [3)利用问卷调查200名老年患者2型糖尿病的患病率与冠心病从2016年1月至12月在杭州路社区的新城市乌鲁木齐;结果表明:吸烟、体重指数≥24公斤/米²,并发症糖尿病,高血压,血脂异常是冠心病的危险因素在老年糖尿病患者。它是根据相关的关键风险因素和干预措施的及时发展减少冠心病的发病率在老年糖尿病患者。

数据挖掘是一个重要的工具在医学数据库,提高敏感性和/或特异性的疾病检测和诊断通过打开一个窗口相对更好的资源(4]。应用机器学习和数据挖掘方法在糖尿病研究是利用丰富的一个关键方法可用糖尿病引起的数据中提取知识。具体疾病的严重社会影响使DM的一个主要重点在医学科学研究中,不可避免地会产生大量的数据。因此,毫无疑问,机器学习和数据挖掘方法在诊断DM是十分关注的,管理,和其他相关的临床管理方面(5]。为了达到最好的分类精度,算法和丰富多样的方法已经被应用,如传统的机器学习算法,集成学习方法和关联规则的学习。上述中最为指出的是以下几点:Calisir Dogantekin LDA-MWSVM提出,糖尿病诊断系统(6]。减少系统进行特征提取和使用线性判别分析(LDA)方法,其次是分类使用Morlet小波支持向量机分类器(MWSVM)。Gangji和Abadeh7)提供了一个Ant Colony-based分类系统中提取一组模糊规则,名叫FCSANTMINER,糖尿病的诊断。在[8),作者认为葡萄糖作为多元回归预测问题,利用支持向量回归(SVR)。阿加瓦尔(9]利用半自动生成标记训练集创建显性模型通过机器学习的方法。整体方法,利用多个学习算法,已被证实是有效的方法提高分类精度。

本研究遵循了支持向量机(SVM),演算法,合奏装袋数据挖掘技术和决策树作为我们的研究模型。更具体地说,本研究的数据集用于决策从糖尿病随访数据获得的新城市乌鲁木齐,新疆。本研究的目的是评估上述数据挖掘技术的性能,采用机器学习的方法结合特征选择和类不平衡处理评估糖尿病患者的健康管理控制满意。我们使用糖尿病患者的健康管理测量指标作为模型的输入变量精确分类两个级别的控制满足后续数据,即(i)满意控制和(2)不满意的控制。最后,一个分类模型,进一步建立了较高的分类精度。

2。材料和方法

2.1。数据集

在这项研究中使用的数据集是糖尿病患者健康管理后续数据的收集新城市乌鲁木齐,新疆。数据集包含3406条记录一段时间从12月1日,2016年,2017年2月28日。每个记录包括25个特征变量,这可能会影响糖尿病控制的满意程度。抽象细节的相关因素中选择本研究中提供了表1包括年龄、性别、种族、身体质量指数(BMI)、糖尿病并发症、收缩压、舒张压、空腹血糖的患者。卡方检验是用来比较和分析不同分类变量和受访者的满意度。用卡方检验来选择少量的最相关的特征(或通过消除许多无关的特性),一个是能够减少过度拟合训练数据的风险,常常得到一个更好的模型。该数据具有统计上的显著差异,P < 0.05。分类变量是统计学意义通过卡方检验和连续变量,作为机器学习的输入变量。

在我们的研究中,数据集遇到类不平衡问题。3406例患者,2832糖尿病患者满意控制,构成了大约83.21%的总病人和574例不满意。多数和少数民族之间的不平衡比率= 5:1。换句话说,一个数据集是class-imbalanced如果一个类包含样品数量明显多于其他。为了解决问题,我们可以选择随机采样(俄文),随机采样过密(ROS),和击杀,这是最常用的重采样方法来平衡不平衡数据集。在这里,我们只选择攻击算法,用于创建一个数据集,少数由400%,多数类样本采样过量undersampled大约使1:1比例123%。给出了数据集的描述表2。最终,平衡数据集被用来构建模型。

2.2。算法

我们选择4测试决策树算法,支持向量机(SVM),装袋,演算法常见的机器学习算法。决策树(10)是一类树分类器。一般来说,决策树使用信息熵、信息增益、基尼系数来评估的特征作为分类特征对应于一个non-leaf-node [11]。通常,决策树可以直观地显示分类过程,清楚地展示规则,可以被人类所理解。svm是监督学习模型与数据分析和模型识别和广泛用于分类和回归分析,采用多项式线性函数的假设空间高维特征空间。而支持向量机算法是一个“黑匣子”,他们通常比其他的ML算法分类任务12,13]。1996年,Breiman提出了流行的引导聚合(装袋)方法(14]。它主要包括引导抽样技术,选择样本反复与一定的概率和替换,而产生许多不同的样本子集。接下来,使用这些不同的样本子集分别对基分类器进行训练,得到一个集成分类器有一定的多样性。装袋的多样性策略非常简单,有效,和无数导数方法基于这一策略产生足够的分类的结果(15]。也称为强化学习,提高整体学习的一个关键技术,可以加强一个弱分类器,其预测精度略高于随机猜测,变成一个强分类器预测精度高。学习演算法最成功的代表,被评为十大最有效的数据挖掘算法(16]。该算法是一种迭代方法,提出了由Schapire和弗洛伊德1995年(17- - - - - -19]。

因为每一种算法都有自己的特点和优势,每个方法会产生不同的结果对糖尿病的满意度进行分类跟踪和控制,以及更全面的评价预测的不平衡的背景下,G-mean [20.]和AUC [21)经常被用来衡量两个类之间的预测可以平衡性能,所以我们选择G-mean和ROC曲线下面积(AUC)作为指标来评估分类模型的性能。通过使用混淆矩阵(见表3),我们可以计算的准确性、敏感性和特异性。

G-mean几何平均数的敏感性和特异性;也就是说,

中华民国曲线描述之间的关系和的分类器。自中华民国曲线不能定量评估分类器,AUC通常是作为评价指标。AUC (ROC曲线下面积)值是指ROC曲线下的面积。理想的分类模型的AUC值1,值在0.5和1.0之间,和更大的AUC表示分类模型具有更好的性能。

执行实验使用开源R软件版本3.4.1 (https://www.r-project.org/)。主要的软件包包括以下:

(1)adabag (https://cran.r-project.org/web/packages/adabag /)软件包主要集中在装袋和学习演算法。

(2)kernlab (https://cran.r-project.org/web/packages/kernlab/)包被用于支持向量机算法。

(3)rpart (https://cran.r-project.org/web/packages/rpart/)是用于决策树分类。

3所示。结果

我们的研究数据集分为两部分;三分之二的数据作为训练集,和三分之一的数据集被定义为一组测试来评估多个分类器的性能。所有分类器被安装在相同的训练和测试数据。具体的过程如图1。

从表可以看出4,在这项研究中,四个最终的性能预测模型评估使用G-mean, AUC。为测试数据集,最后比较分析结果证明了学习演算法显示最好的准确性为94.84%,敏感性和特异性分别为95.76%和93.56%,分别。SVM算法出来是第二个最好的分类准确率为92.62%,敏感性和特异性为94.08%和91.28%,分别装袋模型(91.15%)和决策树(91.15%),表现出相同的结果,敏感性和特异性是等于90.50%和91.81%,分别。在结果中,接受者操作特征(ROC)曲线下面积(AUC)值的支持向量机,装袋,和决策树算法是0.9688,0.9164,和0.9115,分别。中华民国演算法集成方法下的面积,G-mean 0.9465 98.17%,显示有识别力的能力在所有方法的可靠性高。总的来说,毫升本文方法取得了良好的分类性能的健康管理控制糖尿病患者的满意度。决策树也取得了更好的性能。四个分类器的ROC曲线如图所示2。

(一)

(b)

(c)

(d)

4所示。讨论

糖尿病患者的健康管理是一个重要的国家基本公共卫生服务项目的一部分。糖尿病患者是一个定义的六个关键团体由国家基本公共卫生服务项目,和满意度的一个重要指标的有效性测试项目(22]。病人提供的服务感到满意;他们会主动参与项目,形成一个良性循环,进一步加强项目健康管理的有效性,然后促进项目的顺利实施。与此同时,患者对医疗服务的满意度直接影响卫生服务的发展。因此,我们必须高度重视病人的满意度,提高病人满意度,不断提高服务能力和服务质量(23]。机器学习方法提供一种新的糖尿病分析适合当代大数据的要求。这些方法可以克服许多内在约束在许多传统的统计建模方法(24]。因此,当专注于一个特定的疾病,应该选择一些适当的分类算法根据数据集的特点。通过比较这些分类算法的分类精度数据集,最有效的分类算法的诊断模型。一般来说,机器学习算法的性能评估使用预测精度。然而,这是不合适的数据时不平衡和/或不同的错误的成本显著不同。

在这项研究中使用的数据集从糖尿病患者健康管理后续数据获得的新城市乌鲁木齐,新疆。本研究系统包括四个代表性的数据挖掘技术预测的数据挖掘任务。包括决策树、支持向量机集成学习方法装袋,演算法。这些算法结合用于创建知识呈现它对决策有用。每个算法将产生不同的结果的满意程度进行分类控制糖尿病。首先,卡方检验是用来选择糖尿病数据集的特性。其次,因为数据不平衡的问题,我们选择了一个方法来处理不平衡数据,也就是说,击打的方法。最后,特征选择和不平衡的处理后的数据集是由四个分类分类算法。实验结果证明,测试数据集,学习演算法表现最好在4个模型AUC等于0.9817和G-mean等于0.9465。学习演算法的一个重要特性是计算每个变量的重要性(特性)。 We can output the importance score of each input variable in the classification process. Variables with high importance are closely related to the predictions results. For instance, Huang [25]提到,充分控制血糖被定义为空腹血糖值< 7.0更易/ L。邮政管理层血糖控制的效果直接影响病人满意度,具有统计上的显著差异(X2 = 24.128, P < 0.05)。此外,Baccaro [26)还表示,一个重要的得分之间的统计相关性观察问卷和良好的糖尿病控制显示HbAc1和空腹血糖水平,在其他参数,这是符合第一个重要的变量(空腹血糖)公布的美国提出的演算法。我们的研究结果还表明,年龄和体重指数也是重要的变量。一项研究指出[27)更高的时代,更好的身体健康,减少糖尿病引起的痛苦,和更高的糖尿病治疗满意度。另一个例子,一项研究[28)旨在评估心理健康和治疗2型糖尿病患者的满意度在一般医院在韩国。结果显示,治疗满意度明显与年龄有关,满意等待和治疗时间,符合推荐的饮食和锻炼,和持续时间的糖尿病。对于BMI,有一定关系满意度的血糖控制和超重或肥胖,这解释了BMI的分类控制满意度的重要性(29日]。此外,确定哪些病人特点和实验室独立价值观与治疗满意度,伯(30.)使用了一个线性混合模型进行分析,其结论是,许多因素包括糖尿病教育、感知和实际高血糖症,macrovascular并发症与治疗满意度。装袋和演算法方法(31日)结合大量的决策树,可以显著提高预测效率。集成学习算法有更好的性能比简单的分类算法(决策树)。

研究的局限性也应该被认可。在本文中,只有一个方法处理不平衡数据。当然,开发了各种各样的方法来处理不平衡数据,如随机采样过密,基于集群的过采样,和算法整体技术。本文并不与原数据集的算法的性能。在未来的工作中,我们可以考虑,从不同的角度,采用不同的不平衡处理方法和机器学习的方法来比较不同类型的不平衡处理技术的影响。

此外,它应该提到,尽管声称这些机器学习分类算法可以产生足够的和有效的决策,很少有真正渗透到临床实践32]。可以理解的是,临床医生感兴趣的不仅是一个预测模型的精度高,而且在程度的模型可以解释疾病的发病机理(24]。虽然它有强大的学习功能,不支持的适当的方法确定它们是如何工作的,机器学习算法的结果预测可能遇到的适用性有限的临床实践。我们使用机器学习方法糖尿病分析在真实临床环境中,这是一个严峻的挑战。

5。结论

在这项研究中,我们使用了糖尿病患者健康管理随访数据。我们已经结合了特征选择和不平衡处理技术,和一些研究人员利用健康管理控制糖尿病患者的满意度分类预测。在这项工作中,我们提供了证据,学习演算法可以成功地用于健康管理控制糖尿病患者的满意度。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者声明没有潜在的利益冲突的研究,本文的作者,和/或出版。

确认

这项工作是支持新疆(没有的关键研究和开发项目。2016 b03048)。

引用

x j .商、刘l . x和y . m .关“糖尿病调查结果分析在新的城市乌鲁木齐,新疆,”疾病控制和预防中心的公告,21卷,不。3,页69 - 69,69 - 69.2006页。
视图: 谷歌学术搜索
l .问:苏,f·p·王,x y . Wang”分析糖尿病的相关因素的新城市乌鲁木齐,新疆,”新疆医学,39卷,不。4、12 - 13,2009页。
视图: 谷歌学术搜索
p . Mohemaiti y Keyoumu, p . Mohemaiti et al .,”现状及相关危险因素的老年2型糖尿病与冠心病在杭州路社区的新城市乌鲁木齐,”中国老年学杂志》,37卷,不。21日,第5424 - 5422页,2017年。
视图: 谷歌学术搜索
s . Perveen m·沙赫巴兹a Guergachi et al .,“性能分析的数据挖掘分类技术来预测糖尿病,”Procedia计算机科学卷,82年,第121 - 115页,2016年。
视图: 谷歌学术搜索
Kavakiotis, o . Tsave a . Salifoglou n . Maglaveras Vlahavas, i Chouvarda,“机器学习和数据挖掘方法在糖尿病的研究中,“计算和结构生物技术杂志15卷,第116 - 104页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
d . Calişir和大肠Doǧantekin自动糖尿病诊断系统基于LDA-wavelet支持向量机分类器,”专家系统与应用程序,38卷,不。7,8311 - 8315年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
m·f·甘吉和m . s . Abadeh模糊分类系统基于蚁群优化糖尿病疾病诊断,”专家系统与应用程序,38卷,不。12日,第14659 - 14650页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
依Georga, v c . Protopappas d Ardigo et al .,“多元皮下1型糖尿病患者的血糖浓度预测基于支持向量回归,”IEEE生物医学卫生信息学杂志》上,17卷,不。1,第81 - 71页,2013。
视图: 谷歌学术搜索
诉Agarwal, t . Podchiyska j·m·班达et al .,“学习的表型统计模型使用嘈杂的标记的训练数据,”美国医学协会杂志》上,23卷,不。6篇文章ID ocw028 1166 - 1173年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
l . Rokach z . o .•迈,与决策树数据挖掘:理论和应用程序13卷,世界科学出版有限公司(音),新加坡,2008年。
l . Rokach和欧迈”,自上而下的决策树归纳分类器——一项调查,“IEEE系统C &控制论部分人,35卷,不。4、476 - 487年,2005页。
视图: 谷歌学术搜索
d . Cossock t·张,“贝叶斯最优子集排名统计分析”,电气和电子工程师学会交易信息理论,54卷,不。11日,第5154 - 5140页,2008年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
摩尼,y, t . Elasy et al .,“2型糖尿病风险预测从EMR数据使用机器学习,”AMIA年会论文集卷,2012年,第615 - 606页,2012年。
视图: 谷歌学术搜索
l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。
视图: 谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。
视图: 出版商的网站 | 谷歌学术搜索
x z h .周y, d . Wu诉Kumar,十大数据挖掘算法,CRC出版社,纽约,纽约,美国,2009年。
y弗洛伊德和r·e·Schapire”决策理论泛化的在线学习和提高应用程序,”计算机与系统科学杂志》上,55卷,不。1,第2部分,119 - 139年,1997页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
y弗洛伊德和e . r . Schapire”与一种新的提高算法实验,”13日国际会议上国际会议上机器学习卷。13日,页。148 - 156年,摩根Kaufmann出版商Inc .,巴里,意大利,1996年。
视图: 谷歌学术搜索
r . e . Schapire和y歌手”,改善提高算法使用confidence-rated预测,“机器学习,37卷,不。3、297 - 336年,1999页。
视图: 出版商的网站 | 谷歌学术搜索
m·库巴特和美国Matwin解决不平衡的训练集的诅咒:片面的选择,”学报》第14届国际会议上机器学习出版社,页179 - 186年,摩根Kaufmann Inc .)、旧金山、钙、美国,1997年。
视图: 谷歌学术搜索
a·p·布拉德利“ROC曲线下的面积的使用机器学习算法的评价,“模式识别,30卷,不。7,1145 - 1159年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
f·l·孟和s h·金”,高血压患者满意度的调查和分析社区卫生服务在杭州,“卫生研究,32卷,不。2、132 - 134年,2012页。
视图: 谷歌学术搜索
x y . f .赵姚明,f·邓et al .,”满意度的调查和分析的居民在克拉玛依城市社区卫生服务机构,“中国社会医学杂志》上,没有。4、306 - 308年,2015页。
视图: 谷歌学术搜索
y塞巴斯蒂安,“进步糖尿病从临床和机器学习的角度分析,“国际期刊的设计、分析和集成电路和系统的工具》第六卷,没有。1,32-37,2017页。
视图: 谷歌学术搜索
x j·l .黄y Liu关et al .,“满足糖尿病患者在社区健康管理在成都武侯区,2014 - 2016,”预防医学杂志》上的信息,33卷,不。8,728 - 731年,2017页。
视图: 谷歌学术搜索
f . Baccaro p p•诺韦利j . Arduin et al .,“糖尿病治疗满意度问卷(DTSQ) non-ambulatory 2型糖尿病患者,”Boletin De La Asociacion书De波多黎各,卷108,不。1,则高达55 - 2016页。
视图: 谷歌学术搜索
p . r . Wermeling j .詹森k . j .高j·w·j . Beulens和g·e·h . m . Rutten“满意控制2型糖尿病患者半年一次三月期和监控,“BMC家庭实践,14卷,货号。107年,2013年。
视图: 出版商的网站 | 谷歌学术搜索
h .公园,s . n . Lee m . y .门敏et al .,“幸福和治疗糖尿病患者的满意度在一般医院门诊在韩国,“《韩国糖尿病,17卷,不。2,p。123年,2016年。
视图: 出版商的网站 | 谷歌学术搜索
h·j·谢”,血糖控制的调查和分析中国社区医师(医学),15卷,不。8,354 - 355年,2013页。
视图: 谷歌学术搜索
a . m .伯r·c·沃斯·t·g·何曼思et al .,“决定治疗满意度的2型糖尿病患者胰岛素治疗?在八个欧洲国家一项观察性研究,”BMJ开放,7卷,不。7 p . e016180 2017。
视图: 出版商的网站 | 谷歌学术搜索
美国摩尼、陈y和t . Elasy“2型糖尿病风险预测从EMR数据使用机器学习,”AMIA年会论文集,第615 - 606页,2012年。
视图: 谷歌学术搜索
k .库鲁t . p . Exarchos k . p . Exarchos m v•卡拉和d . i Fotiadis“机器学习应用于癌症的预后和预测,“计算和结构生物技术杂志卷。13日,8,2015页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

6234年

下载

1866年

引用