复杂性

在这一页上

文摘介绍材料和方法实验结果讨论结论数据可用性的利益冲突作者的贡献确认引用版权相关文章

特殊的问题

复杂的医学信息

把这个特殊的问题

研究文章|开放获取

体积2018年| 文章的ID9193248| https://doi.org/10.1155/2018/9193248

应用数据挖掘技术在监测报告数据的艾滋病毒/艾滋病高危人群在乌鲁木齐从2009年到2015年

《唐 ,¹ 张的人,² Jiabo徐,³ Xueliang张,⁴ 方杨,⁵ 随着李,¹ 李冯,¹ 凯王 ,⁴ 和Yujian郑 ¹

客座编辑: Panayiotis Vlamos

收到了 2018年5月29日

接受 2018年9月17日

发表 2018年12月10

文摘

客观的。乌鲁木齐是新疆艾滋病感染的关键领域,在中国。艾滋病从高危人群向一般人群传播,形势仍然非常严峻。本研究的目的是使用四个数据挖掘算法建立感染艾滋病毒的识别模型和比较他们的预测性能。方法。哨点监测数据的数据的三组高危人群(注射毒品者(IDU),男男性行为者(MSM),和女性性工作者(FSW))从2009年到2015年在乌鲁木齐包括人口学特征、性行为和血清学检测结果。然后我们使用年龄,婚姻状况,教育水平和其他变量作为输入变量和是否感染艾滋病毒作为输出变量,建立四个预测模型的三个数据集。我们也使用混淆矩阵,准确性,敏感性,特异性,精度,召回,接受者操作特征(ROC)曲线下面积(AUC)来评估分类性能和分析预测变量的重要性。结果。最后的实验结果表明,随机森林算法获得最好的结果,诊断精度对MSM数据集随机森林是94.4821%,97.5136%的焊数据集,94.6375% IDU数据集。再出来第二个邻居算法,与MSM数据集诊断准确率91.5258%,摩擦搅拌焊的数据集诊断准确率96.3083%,和90.8287%的诊断准确性IDU数据集,紧随其后的是支持向量机(94.0182%、98.0369%和91.3571%)。决策树算法是最穷的在四个算法,与MSM数据集诊断准确率79.1761%,摩擦搅拌焊的数据集诊断准确率87.0283%,诱导器74.3879%的准确率。结论。数据挖掘技术,协助疾病筛查和诊断的新方法,可以帮助医务人员筛选和诊断艾滋病迅速从大量的信息。

1。介绍

获得性免疫缺陷综合症(艾滋病)是一种恶性传染病的死亡率非常高引起的人类免疫缺陷病毒(HIV) (1]。它改变了免疫系统使人们更容易受到感染和疾病(2]。到目前为止,艾滋病毒/艾滋病的流行一直是最重要和最关键的发达国家和发展中国家面临的公共卫生问题。自1985年中国发现第一例艾滋病病毒感染,感染的病人的数量已经逐年增加。艾滋病在中国的传播趋势尚未从根本上控制;新疆艾滋病防治形势更为强烈。新疆维吾尔自治区是中国艾滋病疫情最严重的省份之一。新疆首例艾滋病病例是在1995年报道的。在2011年底,累计共报告艾滋病病例在新疆占所有累计总数的7.7%的艾滋病毒/艾滋病病例的国家,在中国排名第五的位置(3]。艾滋病毒/艾滋病报告病例的总数从2004年到2015年已经累积到14696年,它占总数的5.56%在中国报告的艾滋病患者。也有3830人死于艾滋病,占总数的4.56%由艾滋病死亡病例。报告艾滋病病例从20增加到1868年的平均年增长率28.74,和报告死亡人数从5增加到680年的平均年增长率28.74在过去的几十年里,这是高于全国平均年增长率水平(4]。乌鲁木齐,新疆维吾尔自治区的首府,是新疆艾滋病感染的主要地区之一,和它的艾滋病疫情一直很高。最大的乌鲁木齐注射吸毒者HIV病毒感染。但是在2011年末,性传播途径感染的比例比静脉注射吸毒者共用注射器;感染成为第一个。越来越多的性伴侣,男人和男人挤在艾滋病传播的高危人群(5,6]。阻止艾滋病传播的情况在高危人群暴露和阻断艾滋病从高危人群向一般人群扩散仍然是非常坚硬的。因此,艾滋病毒感染仍然是一个重要的全球公共卫生问题。

数据挖掘是一个新兴的基于机器学习技术在人工智能和数据库,它可以分为两类:非监督学习和监督学习7]。数据挖掘是选择的过程中,探索和大量数据建模,旨在发现未知模式或关系和推断预测规则的数据(8]。近年来,已经取得了伟大的进步的医学研究数据挖掘。研究应用数据挖掘来分析海量数据,探索未知的疾病因素,建立预测模型,和在不同的医学研究领域产生有意义的报告9- - - - - -11]。在新时期,研究预防、诊断和治疗艾滋病毒疾病进入了一个新的阶段。很多国内外研究人员已经在利用数据挖掘技术发现艾滋病病人的潜在因素的关系和治疗的结果基于HIV监测数据或全面的临床数据12]。奥利维拉等人建立了多层人工神经网络(MLP),朴素贝叶斯分类器(NB)、支持向量机(SVM),再和算法(资讯),以确定主要影响因素内的艾滋病病例报告延误葡萄牙监测系统。这项研究的结果充分表明,中长期规划提供了最好的结果,具有更高的分类精度(大约63%),精密(大约76%),和回忆(大约60%)(13]。王等人开发了三种计算模型方法预测病毒学反应治疗艾滋病毒基因型和其他临床信息。比较结果表明,人工神经网络(ANN)模型明显不如随机森林(RF)和支持向量机(SVM) [14]。Hai-Lei,等人建造了一个133的HIV携带者预测模型基于支持向量机(SVM)和HIV携带者在港口发现了中国的一个省2004 - 2009年期间。预测模型的总体准确率为90.60%,敏感性和特异性分别为90.29%和90.90%,分别为(15]。海驴的预测不同的数据挖掘技术相比,它被用来开发艾滋病毒检测预测模型。四个流行的数据挖掘算法(决策树、朴素贝叶斯神经网络和逻辑回归)被用来构建模型,预测一个人是否做了艾滋病毒检测。最后的实验结果表明,决策树(随机树算法)进行最佳的准确性达96% (16]。

然而,在以往的研究,很少有研究考虑使用数据挖掘的方法来构造预测数学模型,基于几个潜在的艾滋病高危人群的危险因素监测报告数据。本文旨在利用数据挖掘技术来确定主要影响因素的状态艾滋病感染高危人群(包括注射吸毒者(IDU),女性性工作者(FSW),和与男性发生性关系的男性(MSM))在乌鲁木齐监测报告数据和比较不同预测模型的预测能力基于数据挖掘技术。为了实现这一目标,一些被认为是数据挖掘分类模型,即随机森林(RF),支持向量机(SVM),再邻居(资讯),和决策树(DT),使用10倍交叉验证技术。分类性能评估的混淆矩阵,准确性,敏感性,特异性,精度、召回和AUC值的接受者操作特征(ROC)曲线。

2。材料和方法

2.1。研究人群

目标人群选择符合入选标准本文从数据在2009年和2015年之间的哨点监测各级疾病预防控制中心在乌鲁木齐据报道,中国疾病预防控制中心信息系统。有三个种群被认为是HIV病毒的风险暴露,包括焊定义为女性从事商业调查期间性交易;IDU被定义为那些需要口服、吸入或注射海洛因、可卡因、鸦片、吗啡、大麻、k-powder,冰毒、摇头丸、麻风病、等;和男男同性恋者被定义为性交或口交的人在过去的几年中。

2.2。数据源

数据应用于本文的三个数据集包括艾滋病毒/艾滋病的风险暴露人群由乌鲁木齐市疾病预防控制中心收集了2009年至2015年之间。9090焊焊三个数据集的数据集,包括和53属性,男男同性恋者的数据集,包括5304名MSM和57个属性,和IDU的数据集,包括7337 IDUs和56个属性。收集到的数据有三个核心调查问卷:焊问卷,男男同性恋者问卷,IDU问卷。调查项目包括人口特征(龄在性别、婚姻状况、国家,地方的户籍和教育水平,等等),血清学检测结果(抗体检测艾滋病、梅毒、丙肝病毒),高危行为因素(药物滥用行为和性行为),和艾滋病防治策略和措施(艾滋病预防知识的认识,预防、条件和干预服务和test-accepting情况)。

2.3。数据预处理

数据预处理在数据挖掘任务中起着重要的作用。数据预处理包含多种用于不同的预处理方法,包括数据清洗、数据转换和数据减少(17]。在这项研究中,我们选择一些适当的方法来优化原始数据集。首先,属性与数据挖掘的目标提前被移除,如问卷调查ID、调查日期,和区号。和大量缺失属性值也被删除。第二,数据分组技术被用来简化数据挖掘任务。多个不同的值的一些属性,如年龄、数值变量是离散化分成不同的类别组基于年龄的分类标准。种族,最初与56个不同值,转换成三个不同的类别根据不同民族的构成比汉斯,维吾尔人等等。此外,简单的统计计算与R语言和软件环境,进行版本3.4.3,分析属性的分布。因变量(T03C)是一个二进制的结果变量的人了艾滋病毒检测了两类:0和1,0意味着艾滋病毒检测结果呈阴性,1意味着艾滋病毒检测结果呈阳性。属性描述的结果发表在表1,2,3。

表1显示共有5304名MSM受访者进行艾滋病毒检测。在他们中间,有377个(7.11%)被发现为HIV阳性,4927(92.9%)被发现HIV阴性。表2显示9090 FSW受访者接受艾滋病毒检测;9041例(99.5%)阳性,而只有49 (0.5%)HIV阴性。表3显示7337年IDU受访者接受了艾滋病毒检测;HIV阴性和阳性6087例(83%)和1250年(17%),分别为。这些结果表明,需要平衡这两个类的三个数据集。在本文中,我们使用合成少数Over-sampling技术(打)18)处理不平衡样本。在击杀算法,多数类样本使用欠采样方法和少数类样本使用过采样技术。它潜在的执行比简单的过采样和广泛应用19,20.]。

2.4。属性选择

在一个数据挖掘任务中,输入属性的选择通常是一种非常重要的一步改善模型的分类能力,减少设计更复杂,节省计算时间,简化结果。过滤和包装是两种不同的方法来选择属性的一个子集的所有属性中使用机器学习。过滤是使一个独立的评估基于数据的一般特征。包装是选择一个子集使用评价函数基于机器学习算法(21]。本文基于随机森林的包装器方法(RF)被用来选择的属性作为分类模型的输入。RF算法是一个基于聚合大量的学习方法的决策树,并被证明是非常强大的,在许多不同的应用程序(22- - - - - -24]。基于随机森林分类器的特征选择被发现提供多元功能重要性分数,相对容易获得,已经成功地应用于高维数据(25,26]。变量的量化过程重要性分数可以描述如下:计算变量重要性评分和排列分数,然后选择有更多的贡献分类模型的功能,通过功能和建筑模型随机森林算法的评估标准。基尼重要考虑条件高阶变量之间的交互和可能是一个更好的排名比单变量衡量标准(27,28),随机森林算法的功能重要性评价标准被用于这项研究。

2.5。分类模型

2.5.1。随机森林(RF)

第一个算法随机决定森林是由何鸿燊(1995)(29日),和它的扩展版本是由Breiman [30.]。射频是一个基于决策树学习方法,已成功用于几种类型的分类和回归,特别是对于准确识别疾病诊断问题(31日- - - - - -33]。射频构建大量的决策树使用引导样本训练集的替换和预测每棵树的类根据测试集,最后预测射频类提出了基于绝大多数的选票(34]。它已被证明给优秀的数值性能和分类数据。

2.5.2。支持向量机(SVM)

支持向量机,小说类型的学习机器来自统计学习理论,构造了一个超平面或一组超平面高——或者无限维度空间,可用于分类、回归,或其他异常值检测等任务,估计函数,高维模式识别问题(35- - - - - -38]。支持向量机主要处理二进制数据的分类问题。除了执行线性分类,支持向量机可以有效地执行非线性分类通过内核技术(39)隐式地将他们的输入映射到高维特征空间。可以以两种方式构造支持向量机分类模型,如下:(1)将输入空间转化为高维特征空间的非线性映射功能。(2)构建基于最大距离的分离超平面最近的点的训练集40]。

2.5.3。再邻居(资讯)

的k最近邻居算法(资讯)是最简单但更强大的非参数分类方法的数据挖掘方法,因为它是一种基于实例或懒惰学习算法(41]。资讯分类器已广泛应用于许多领域,如文本分类、模式识别、和疾病检测和诊断,基于简单等优势,效率高,易于实现42,43]。然而算术想法主要考虑三点:的价值k、距离测量和分类决策规则。的k,作为一个用户定义的常数,将直接影响到资讯分类性能。和距离度量措施通常使用欧氏距离、曼哈顿距离,和闵可夫斯基距离。决策规则的分类取决于多数表决。

2.5.4。决策树(DT)

决策树是一种常用的数据挖掘方法与易于理解等许多优点,可读的,和快速分类(44]。决策树节点的组织做决定就像一棵树,由决策节点,树枝,叶子节点。每个决策节点代表一个数据类别或属性分类,和每个叶节点代表一个结果45]。整个决策过程决定从根节点开始,从上到下,直到确定分类结果。有三种常用的典型数据挖掘中的决策树算法,如ID3算法C4.5算法,和CART算法(46]。

2.6。绩效评估

在这篇文章中,一个混淆矩阵和一些指标包括精度、灵敏度、特异性,精度,回忆,接受者操作特征(ROC)曲线是用来评价四个分类模型的性能。10倍交叉验证应用于射频、支持向量机、资讯,DT验证。混淆矩阵由零件表所示4。在表4TP(真阳性)的积极记录正确的分类、TN(真阴性)的负面记录正确的分类、FP(假阳性)的积极记录不正确的分类,和FN(假阴性)的负面记录不正确的分类。

几个重要的措施,如精度、灵敏度、特异性、精度、和回忆,可以通过使用混淆矩阵计算。准确性是正确分类样本的数量。测量的灵敏度是一个描述积极正确分类样本的比例。的特异性是描述测量正确分类的比例负样本。的精度是一个描述阳性样本的数量比例的预测积极的样本。召回的比例的描述正样本阳性样品的总数。的准确性、敏感性、特异性、精度和召回的定义如下:

ROC曲线是最初来源于统计决策理论,可以全面描述不同的分类器的分类性能判别阈值(47]。ROC曲线的纵轴是TP,横轴是FP率。然而,在实际的应用程序中,AUC (ROC曲线下的面积)常被用来评估分类器的性能。

3所示。实验结果

R是一个开源的编程语言和软件环境统计计算和图形。基于R语言环境,在这个实验中每个算法的实现。在这里,我们使用杀(DMwR) randomForest (randomForest) ksvm (kernlab) kknn (kknn)和rpart (rpart)包。所有实验都验证了10倍交叉验证技术,以提供一个更稳定的准确率在应用的四个分类模型。一些评价指标被用来比较四个数据挖掘算法的分类性能。

表5显示了三个原始数据集和人工数据集使用杀算法获得的。很明显,原始的数据集是有偏见的;每个原始数据集的不平衡率为13.0689,184.5102,和4.8696,分别。为了达到平衡,以避免结果的数据偏差,我们使用杀算法结合采样过密少数类采样多数类技术。我们应用函数击打在R DMwR包软件。函数的三个主要参数打perc。结束,perc。下,k。参数perc。perc。控制的过采样的少数类和欠采样的多数类,分别。参数k控制的新创建的实例。击杀算法中的参数,k的值被设置为5。 For the initial dataset of MSM with 377 minority samples and 4927 majority samples, we set the parameters perc.over = 1200 and perc.under = 110, respectively. Firstly, the number of minority samples was increased; a total of 1200 × 377/100 new minority samples were generated. The original minority samples and the new minority samples consisted of the new dataset. Secondly, sampling the majority sample, we obtain a new sample of the majority, which is (110/100) × 1200 × 377/100. We put the new sample of the majority into the new dataset which was created above. Eventually, in this new dataset, both the minority sample and the majority sample were (1 + 1200/100) × 377 and (110/100) × 1200 × 377/100, respectively. For the initial dataset of FSW with 49 minority samples and 9041 majority samples, we set the parameters perc.over = 20,000 and perc.under = 101. The oversampling and undersampling algorithms also were utilized in the MSM dataset. The result demonstrated the new dataset with minority samples (1 + 20,000/100) × 49 and majority samples (101/100) × 20,000/49/100. For the initial dataset of IDU with 1250 minority samples and 6087 majority samples, setting the parameters perc.over = 400 and perc.under = 216, the minority sample and the majority sample were 1 + 400/100 × 1250 and 216/100 × 400 × 1250/100, respectively.

数据1,2,3描述的重要性排序变量的三个数据集(MSM)数据集,数据集的焊和IDU数据集)根据基尼指数则从射频。从图1男男同性恋者的数据集,最重要的变量是B01, B06, A01B A06, B05。最重要的变量是I02、G01、H01, D01。从图2摩擦搅拌焊数据集的,最重要的变量是B01B, T05C, A06, B05、B06。最重要的变量是F01 G02, C08 E01, D01。从图3IDU数据集,最重要的变量是B02, A01、T05C B06, B05。最重要的变量是C08,当T04C, F01, D01。最后,应用等级+ MeanDecreaseGini方法的属性选择方法,变量排名根据他们的重要性分类艾滋病病人。我们还问疾控中心的医生级别较低的属性的重要性,结合这两种方法同意B01 A01B, A06, B05、B06,当您,B02, D03, I03, J01, I01, B03, F01, T04C, E01为主要的属性子集重要预测MSM人群的艾滋病患者,B01B, T05C, A06, B05、B06,当您,B02, A01B, D02, H01, T04C, G03, B03, G01为主要的属性子集重要预测女性性工作者人群的艾滋病患者,和B02 A01、T05C, B05、B06, B03, A06, D02, H01, G02, G03, E01, G01、B01作为主要的属性子集重要预测人口吸毒者的艾滋病患者。所选属性的详细描述见表6,7,8。

数据4,5,6展示中华民国曲线获得的三个数据集的四个分类器。射频的AUC分数,SVM、资讯和DT MSM数据集是0.9802,0.9401,0.9747,和0.7917;0.9981,0.9803,0.9967,和0.8702的焊数据集;和0.9874,0.9135,0.9802,和0.7438 IDU数据集。很明显,射频表现明显优于其他三种分类器。MSM的AUC分数达到数据集,数据集的焊,和IDU数据集是0.9802,0.9981,和0.9874,分别。AUC的最大值(0.9981)与RF算法获得的焊数据集。此外,AUC的DT算法IDU的数据集的值是0.7438所有AUC的最低分数。

数据7,8,9描述分类性能MSM四个分类器应用于数据集时,焊数据集,分别和IDU数据集。精度、精度和召回射频,支持向量机,然而,DT的三个数据集进行对比。二甲基砜数据集(图7),支持向量机模型实现了分类精度为87.8404%,与89.5130%的精度和召回的85.5132%。然而,模型分类精度为91.5258%,与89.5130%的精度和召回的85.5132%。决策树、精度、精度和召回是76.7440%,77.6199%,和74.6582%,分别。随机森林算法表现最好在四个评估模型的准确性达94.4821%,精度为98.5511%,和90.2061%的回忆。

为焊数据集(图8),最后的实验结果表明,随机森林算法显示最好的97.5136%的精度,精度和召回分别为97.4638%和91.6160%,分别。资讯模型出来第二个分类精度为96.3083%,精度和召回分别为97.4210%和95.1163%,分别之后,支持向量机模型的分类精度为93.3560%,精度和召回等于94.1554%和92.4155%,分别。决策树也完成了至少85.0408%的分类精度,精度和召回分别为86.9467%和82.3739%,分别。

IDU数据集(图9),射频标识符显示最好的预测性能;精度、精度和召回了94.6375%,97.4638%,和91.6160%,分别。支持向量机模型中,83.4821%,84.8141%,和81.4080%,分别。所示的混淆矩阵表10,然而,学习算法取得了90.8287%的准确性;的精度和召回了94.7831%,86.3360%。使用决策树整体性能较低,71.2271%的精度,精度和召回分别为69.8690%和74.2400%,分别。

等其他性能指标混淆矩阵,敏感性和特异性,也用来衡量不同的三个数据集分类器的性能。作为一个整体,RF分类器有最好的性能比其他三种方法,取得了更高的精度94.4821%,97.5136%,和94.6375%在男男同性恋者的数据集,数据集的焊,IDU数据集,分别。决策树也达到了最小分类精度为76.7440%,85.0408%,和71.2271%在男男同性恋者的数据集,数据集的焊,IDU数据集,分别。详细的每个模型三个数据集的分类结果如表所示9,10,11。

4所示。讨论

乌鲁木齐艾滋病仍然是非常严重的。越来越多的高危人群,如妓女、男性性工作者,和流动人口,加剧了艾滋病预防和治疗的困难。数据挖掘领域已广泛应用于诊断、评估、和其他医学领域(48]。这项研究旨在使用四个成熟的数据挖掘算法(随机森林,支持向量机,再邻居,和决策树)为艾滋病患者建立识别模型哨点监测数据的基础上艾滋病高危人群(MSM、焊和IDUs)乌鲁木齐和比较不同模型的预测能力。然而,考虑到模型构建过程中的主要缺陷类失衡,击打的方法被用来模拟数据平衡,克服过度拟合的问题,根据先前的研究[49]。

对于所有数据集,最后的实验结果表明,RF算法获得最好的结果;射频MSM对数据集的诊断准确性94.4821%,摩擦搅拌焊的数据集上,97.5136%和94.6375% IDU数据集。然而算法出来第二,MSM数据集诊断准确率为91.5258%,摩擦搅拌焊的数据集诊断准确率96.3083%,和90.8287%的诊断准确性IDU数据集,其次是SVM(94.0182%、98.0369%和91.3571%)。DT算法是最贫困的四个算法,与MSM数据集诊断准确率79.1761%,摩擦搅拌焊的数据集诊断准确率87.0283%,诱导器74.3879%的准确率。这些结果表明,建立的四个数据挖掘模型可以预测一个人是否感染了艾滋病病毒。但与支持向量机相比,决策树,然而,随机森林模型通过大量的随机抽样方法平衡抽样误差;的影响分类结果产生大量不同的测试数据。综合评估只是一个测试样本拟合其他三个模型的结果更可靠的(50]。

本研究基于随机森林模型的独立变量的重要性得分确定HIV感染的最重要的影响因素的三个高危险人群在乌鲁木齐。男男同性恋者的数据集,这些变量是年龄、教育水平,监测站点,样本来源,居住时间、民族、婚姻状况、等变量如年龄表明乌鲁木齐MSM人群主要是中青年活动人口年龄在18到40岁的占91.3%,这类似于在成都监测结果(51)和显示,性生活活跃的人仍然艾滋病预防和治疗的重点。绝大多数(82.5%)的参与者从未结婚。超过半数(56.2%)来自Sayibak区,68%的受试者招募了通过网络,和72.1%有学院或高等教育。因此,基于乌鲁木齐MSM人群的流行特点,个人特征和社会因素时应综合考虑教育干预措施进行人口。摩擦搅拌焊数据集的,结果表明,大部分的女性性工作者(FSW)乌鲁木齐是30岁以下的年轻女性,58.2%是未婚,65%的女性性工作者(FSW)在本地工作区工作了不到一年的时间,超过一半是小学和初中,主要来自夜总会,卡拉ok,舞厅和酒吧。因此,我们应该注重实际的焊的流行特征采取相应的措施,宣传教育和干预。IDU数据集,7337名参与者的年龄范围从l1至71年,其中超过一半(94.5%)18-48岁。其中,2586人(35.2%)是单身,有2147(32.9%)参与者来自Sayibak区,和5169年(66.4%)参与者初中及以下。在参与者中,89.3%是男性,69%是来自社区的。这些结果可以为预防艾滋病毒感染提供证据在吸毒者通过促进教育,尤其是对青少年,人口文化水平低,流动人口,药物滥用,性功能障碍等。

如上所示,数据挖掘模型可以准确地识别疾病基于某些重要属性。这些预测模型在医学领域是有价值的工具。然而,有令人担忧的地方发展的预测模型:(1)该模型应该包括所有临床相关数据,(2)模型应该在一个独立的测试样品,和(3)模型必须有意义的医疗人员应该利用它。它已经表明,并不是所有的预测模型使用数据挖掘技术构建满足所有这些需求(52]。

本文有一定的局限性。首先,所有人招募了乌鲁木齐,有限的地理和人口特征。因此,偏见在实验过程中可能存在的信息。如果这项研究人口可以扩大到超过一个省或整个国家,模型识别效果会更好。其次,在感染艾滋病毒的人的流行病学调查,由于主观、客观、和其他原因,受访者可能提供不真实的信息,从而导致对分析结果的影响。在未来,更多的特征选择方法,类不平衡处理方法,将测试数据挖掘的算法。

5。结论

相比,在一般情况下,四个预测模型建立和预测一个人是否感染了艾滋病病毒。结果表明,随机森林模型表现最好的分类精度。本研究可以为医疗人员提供一些有效的方法快速屏幕和诊断艾滋病从大量的信息。

数据可用性

(CSV)数据用于支持这项研究的结果被限制以保护病人的隐私。数据可以从凯王((电子邮件保护))研究人员满足访问机密数据的标准。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

丹丹,凯王,Yujian郑设计项目;人张、徐Jiabo Xueliang张参与数据收集;丹丹,李冯,随着李执行的分析数据;《唐宋方杨写的手稿。所有作者贡献的解释结果,修订手稿批判性,批准了最终版本的手稿。

确认

这个项目是由中国国家自然科学基金(11461073,11461073)。

引用

o·辛格和e·c . y .苏”,hiv - 1蛋白酶裂解位点的预测使用的组合序列,结构和物理化学特性,”BMC生物信息学补充卷17日17日,第289 - 478页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
m·a·诺瓦克和a·j·麦克“艾滋病毒如何击败了免疫系统,”科学美国人,卷273,不。2,58 - 65、1995页。
视图: 出版商的网站 | 谷歌学术搜索
n . i Ming-Jian j . Chen y . Zhang et al .,“新疆艾滋病病毒/艾滋病的流行现状的分析,“疾病控制和预防中心的公告,27卷,不。2、1 - 3,2012页。
视图: 谷歌学术搜索
董问:郑,j . Wang y et al .,“新疆艾滋病的监测数据分析,从2004年到2015年,“疾病控制和预防的公告,32卷,不。1,34-48,2017页。
视图: 谷歌学术搜索
m·a·凌,“艾滋病毒/艾滋病在乌鲁木齐从1995年到2011年,“现代预防医学卷,109年,第2729 - 2727页,2013年。
视图: 谷歌学术搜索
m·a·凌x和y王,”特征与男性发生性关系的人报告艾滋病病例通过互联网建立直接报告系统在乌鲁木齐,”世界最新的医学信息,16卷,不。52岁,1 - 2,2016页。
视图: 谷歌学术搜索
i . h .威滕·e·弗兰克,m·a·霍尔数据挖掘:实用机器学习工具和技术,2011年谷歌电子书。
d . a . Adeniyi z,和y .涌泉,“自动化web使用数据挖掘和推荐系统使用再分类方法(资讯),“应用计算和信息,12卷,不。1,第108 - 90页,2016。
视图: 出版商的网站 | 谷歌学术搜索
h·b·伯克·h·古德曼·b·罗森et al .,“人工神经网络改进癌症生存预测的准确性,”癌症卷,79年,第862 - 857页,1997年。
视图: 出版商的网站 | 谷歌学术搜索
c . d . Chang c . c . Wang和公元前江,“使用数据挖掘技术multi-diseases预测建模高血压和高脂血症的常见危险因素,”专家系统与应用程序,38卷,不。5,5507 - 5513年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
x h·孟x y黄,d . p . Rao问:张先生,问:刘,“比较的三种数据挖掘模型预测糖尿病或前驱糖尿病的危险因素,”高雄医学科学杂志》上卷,29号2、93 - 99年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
l .王”,应用数据挖掘技术在诊断和治疗艾滋病,”医学杂志》上的数学,26卷,不。1,第99 - 97页,2013。
视图: 谷歌学术搜索
a·奥利维拉b m法,a . r . Gaio l·p·里斯,“艾滋病监测系统中数据挖掘,”医疗系统杂志第41卷。。4,51页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
b . d . Wang贮藏室,A .瑞et al .,“比较的三种计算模型方法预测病毒学反应组合的艾滋病毒治疗,”人工智能在医学上卷,47号1,第74 - 63页,2009。
视图: 出版商的网站 | 谷歌学术搜索
w . Hai-Lei, j . s .钱和c,“艾滋病毒载体预测模型基于支持向量机的检疫,”实用预防医学,17卷,不。11日,第2155 - 2152页,2010年。
视图: 谷歌学术搜索
t·g·海驴”,比较数据挖掘技术在艾滋病毒检测预测,“智能信息管理,卷07,不。3、153 - 180年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
a . Famili w .沈、r·韦伯和e . Simoudis数据预处理和智能数据分析,“智能数据分析,1卷,不。1 - 4,3-23,1997页。
视图: 出版商的网站 | 谷歌学术搜索
r . Blagus和l .社”击杀高维class-imbalanced数据”,BMC生物信息学,14卷,不。1,第116 - 106页,2013。
视图: 出版商的网站 | 谷歌学术搜索
l, c .张高r, r·杨和歌曲,“使用击打技术和混合动力特性预测的类型离子channel-targeted个,“理论生物学杂志》上卷,403年,第84 - 75页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
e . m . Karabulut和t . Ibrikci脊柱疾病的有效自动预测基于物流与击打预处理模型树,”医疗系统杂志,38卷,不。5 p。2014。
视图: 出版商的网站 | 谷歌学术搜索
x h . Liu, d .郭赵z,伊敏,“特征选择结合神经网络结构优化为hiv - 1蛋白酶裂解位点预测,“生物医学研究的国际ID 263586条,卷。2015年,11页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
j . r . Bienkowska g . s . Dalgin f . Batliwalla et al .,“收敛的随机森林预测:方法预测药物反应公司数据应用于anti-TNF回应,“基因组学,卷94,不。6,423 - 432年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
陈x和h . Ishwaran基因组数据分析,随机森林”基因组学,卷99,不。6,323 - 329年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
m . Kotti l . d .他答:a .费萨尔和a·h·麦格雷戈”检测膝骨关节炎及其识别参数使用随机森林,”医学工程与物理,43卷,19-29,2017页。
视图: 出版商的网站 | 谷歌学术搜索
A . Hapfelmeier和k·乌尔姆,”一个新的变量选择方法使用随机森林,”计算统计和数据分析,60卷,50 - 69年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
m . Sandri和p . Zuccolotto变量选择使用随机森林”数据分析、分类和搜索,第270 - 263页,2006年。
视图: 出版商的网站 | 谷歌学术搜索
b . h . Menze b . m .凯尔姆经常r . Masuch et al .,“比较的随机森林和其基尼重要性标准的最优化方法对光谱数据的特征选择和分类,“BMC生物信息学,10卷,不。1,第216 - 213页,2009。
视图: 出版商的网站 | 谷歌学术搜索
A.-L。Boulesteix a·本德j·洛伦佐贝尔梅霍,c . Strobl“随机森林基尼重要性支持单核苷酸多态性与大型小等位基因频率:影响,来源和建议,“简报的生物信息学,13卷,不。3、292 - 304年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
t . k . Ho“随机决策森林”学报》3日国际会议文档分析和识别p。278年,蒙特利尔,魁北克,加拿大,1995年8月。
视图: 出版商的网站 | 谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。
视图: 出版商的网站 | 谷歌学术搜索
m . Dauwan j·j·范德阿赞德·e·范Dellen et al .,“随机森林区分路易体痴呆和阿尔茨海默氏症,”阿尔茨海默氏症和老年痴呆症:诊断、评估和疾病监测4卷,第106 - 99页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
A . t .阿扎尔h . i Elshazly A . e . Hassanien和A . m . Elkorany“随机森林分类器淋巴疾病,”计算机在生物医学方法和项目,卷113,不。2、465 - 473年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
t . Shaikhina d·劳s数据d·布里格斯r·希金斯和n . Khovanova“决策树和随机森林模型预测结果抗体不兼容的肾移植,”生物医学信号处理和控制37卷,第1042 - 1025页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
美国Bhattacharyya, s . Jha k . Tharakunnel和j·c·韦斯特兰”为信用卡欺诈数据挖掘:比较研究,“决策支持系统,50卷,不。3、602 - 613年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
桔多淇x, y田、z气和y史,“有效的稀疏最小二乘支持向量机的模式分类,“计算机和数学与应用程序,卷66,不。10日,1935 - 1947年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
c . s . c . m .王,“乳房先生图像分类的支持向量机”,计算机和数学与应用程序,卷64,不。5,1153 - 1162年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
郭y l . Yu z,温,m·李”使用支持向量机结合汽车协方差从蛋白质序列预测蛋白质-蛋白质之间的关系,“核酸的研究,36卷,不。9日,第3030 - 3025页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
h·杨,l·陈,即国王,“支持向量机回归股市波动预测,”智能数据工程与自动化学习-理想2002卷,2412年,第396 - 391页,2002年。
视图: 出版商的网站 | 谷歌学术搜索
c·k·威廉姆斯,“学习内核:支持向量机,正规化,优化,,”美国统计协会的出版物卷,98年,第489 - 489页,2002年。
视图: 谷歌学术搜索
v . p . Gladis Pushpa Rathi”,一个新的特征提取方法和选择对脑部肿瘤的MRI图像分类,“国际会议上计算机科学,工程和应用程序。,10卷,不。5,225 - 234年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
m . Akhil -贾巴尔b . l . Deekshatulu p·钱德拉,“心脏病的分类使用再和遗传算法,”Procedia技术,10卷,第94 - 85页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
t .封面和p·哈特,“最近邻模式分类,”IEEE信息理论,13卷,不。1,-,1967页。
视图: 出版商的网站 | 谷歌学术搜索
e·a·Aydın和m . k . Keleş乳腺癌检测使用再邻居从领结天线获得数据集的数据挖掘方法,”国际期刊的射频和微波计算机辅助工程,27卷,不。6、2017。
视图: 出版商的网站 | 谷歌学术搜索
f·阿拉姆,f . k . Bappee m·r·拉巴尼和m . m .伊斯兰教,“决策树分类器的优化配方,”通信在计算机和信息科学卷,361年,第118 - 105页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
j . r .否决权,z . m . de Souza s . r . de Medeiros奥利维拉et al .,“利用决策树技术来估计甘蔗生产力edaphoclimatic条件下,“糖技术。,19卷,不。6,662 - 668年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
k . Boonchuay k Sinapiromsaran, c . Lursinsap”基于少数熵决策树归纳为类不平衡问题,“模式分析与应用,20卷,不。3、769 - 782年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
t·福塞特,”介绍roc分析。”模式识别的字母,27卷,不。8,861 - 874年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
大学长春,h·e·贾s . c .风扇et al .,“数据挖掘技术在医学领域中的应用,第二军医大学的学术期刊,24卷,第1252 - 1250页,2003年。
视图: 谷歌学术搜索
d . m . Herrera-Ibata a . Pazos r . a . Orbegozo-Medina f . j . Romero-Duran和h . Gonzalez-Diaz”映射HAART-drug鸡尾酒的化学结构活性信息的复杂网络美国县艾滋病流行病学和社会经济数据,”生物系统卷,132 - 133年20 - 34,2015页。
视图: 出版商的网站 | 谷歌学术搜索
t·a·阿尔梅达r·m·席尔瓦和a . Yamakami“垃圾索引检测,机器学习方法”国际信息安全科学杂志》上,卷2,22页,2016页。
视图: 谷歌学术搜索
r . y, z . Wu Detels et al .,“艾滋病/性病发病率与男性发生性关系的男性在成都,中国对艾滋病病毒感染和相关危险因素,”获得性免疫缺陷综合征杂志》上,53卷,补充1,S74-S80, 2010页。
视图: 出版商的网站 | 谷歌学术搜索
d . Delen、g·沃克和a . Kadam”预测乳腺癌生存能力:三种数据挖掘方法的比较,“人工智能在医学上,34卷,不。2、113 - 127年,2005页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

2365年

下载

1298年

引用