文摘

机器学习已经成为一个强大的工具来分析医疗领域,评估临床参数的重要性,和提取结果研究医学知识。在本文中,我们提出一个机器学习的方法提取诊断和预后阈值,基于一个象征性的分类算法称为快速眼动。我们的性能评估方法通过确定新的预后阈值为著名的和潜在的心血管风险因素,用于支持医疗决定预后的致命的心血管疾病。我们的方法预测36%的心血管死亡一般的准确性特异性为80%和75%。新方法提供了一个创新的方法,可能是有用的支持决定医疗诊断和预测。

1。介绍

机器学习(ML)学科提供计算方法和学习机制,可以帮助从大型数据库生成新知识。毫升是有用的应用构造方法解决问题的分类、预测,识别模式,和知识提取、数据采用一组的形式的例子,和输出的预测的新实例(1,2]。从这个意义上讲,毫升可以提供技术和工具,帮助解决在医学诊断和预后问题域,输入是一个数据集特征的主题,和输出特定疾病的诊断或预后[3]。虽然诊断和预后相对简单的ML问题,临床决策使用毫升应用程序还没有被医学界广泛使用(4),因为这样一个复杂的任务不仅需要准确性,而且医生的信心专家对ML的功能使用方法在医学领域。

成功实现一个毫升应用在临床决策相关的问题,需要考虑一些具体要求(4,5]。例如,疾病进展的预测通常是与某些风险因素的演变;对于一些慢性疾病(如癌症、心血管疾病和糖尿病),风险因素包括nonchangeable特征,如年龄或性别。使用这种nonchangeable品质预测疾病的发生可能不是有用的避免疾病的演变,因为目前没有医疗修改这些生物学特性。因此,毫升应用程序通常专注于多变的特质,使预测更加困难和复杂的任务。

需要考虑的另一个重要方面是需要获得可判断的近似,为了为医务人员提供关于给定问题的有用的信息。这通常是通过使用符号学习方法(如决策树和规则系统),它允许决定以一种容易理解的方式来解释。然而,使用一个象征性的学习算法获得一个更易于理解的模型经常牺牲准确性的预测。

另一个问题,往往阻碍了高整体性能分析的医学数据集,通常这些展览一个不平衡类分布(6),包括多数或负类的健康人(正常数据)和少数或病人的积极类(重要的类)成本较高的错误分类。后者通常有更高的误分类率,因为标准的ML算法的性能往往是被大多数类,忽略了少数类的例子和获得结果与可接受的准确性和特异性(健康受试者诊断正确),但低灵敏度(生病的受试者正确诊断)。

除了发展毫升方法导致整体性能良好,为医务人员提供可判断的预后信息,提供决策支持的能力和减少医疗测试一个可靠的预后也是可取的。一定程度的诊断或预后的可靠性也很重要,因为这将给医务人员足够的信心实践新方法。另一方面,它也需要有一个方法可以提供可靠的预测基于少量的病人信息,因为收集这些信息往往是昂贵的,可能受到隐私问题,耗费时间,并可能对病人有害4]。

目前的研究集中在ML的实现方法来支持医疗决定在致命的心血管疾病的预后,排在前十的全球疾病负担(7]。先前确定的目标是解决问题,通过跨学科的工作,包括数据的收集和预处理的动态血压(ABP)监测研究8),目前的ML算法的实现与具体应用医学诊断和预后9),而新的预后阈值对风险因素的识别心血管死亡率。

2。方法

2.1。动态血压监测

目前ABP监视器全自动和便携式设备(图1),它可以记录BP 24小时或更长时间,而病人去他们的日常活动10]。这个英国石油(BP)测量技术提供了一个更好地估计风险的个体病人比传统的方法,因为它消除了可变性在个人观察,避免了“白大褂”效应(瞬态但变量海拔BP在医疗环境中)(11)和“蒙面高血压”(由诊所血压正常的测量和高血压动态测量)(12),包括英国石油公司固有的可变性(13]。ABP的详细描述测量方法提供了先前的报道马拉开波老化的研究(MAS) (8,14,15]。

2.2。主题

马斯是一个持续的以人群为基础的纵向研究,包括2500例年龄超过55岁,居住在圣卢西亚县马拉开波,委内瑞拉。所有参与者接受了广泛的临床和实验室检查和随机选择的个体也接受ABP监控。获得知情同意的受试者同意参与,和亲密的家庭成员,当怀疑存在主体的能力。伦理审查委员会心血管疾病研究所的苏利亚大学的批准了这项协议。

2.3。心血管危险因素

高死亡率的全球领先的风险因素是英国石油公司,负责全球死亡人数的13%。八多变的风险因素(使用酒精,烟草使用、高BP、高身体质量指数,高胆固醇,高血糖,水果和蔬菜摄入量低,和缺乏身体活动)占61%的心血管死亡。相结合,这些风险因素占超过四分之三的缺血性心脏病,全球死亡的主要原因(16]。

然而,调查人员继续寻找新的和新兴的心血管疾病的危险因素。最近的ABP监测研究使用小说变异性指数(14]报道重大高BP变化之间的关系(BPV)和心血管的结果17- - - - - -19]。BPV是一个多层面的现象,受外部情绪刺激之间的交互影响,如压力和焦虑,和内部心血管机制会心跳的心跳。然而,BPV的复杂性使得分析困难,其独立的贡献作为心血管预后的预测尚不清楚(20.]。本研究旨在确定新的心血管死亡率的危险因素预测阈值,包括高BP(最重要的心血管疾病的预测)和异常BPV(潜在的独立预测指标)。

估计24小时BP水平,我们的体重均值计算有效的血压(WBP)使用之间的时间间隔连续有效测量加权因素(18]。在BPV超过24小时的情况下,我们计算了平均实际变化(ARV)指数(14)使用(1): 在哪里 是有效的血压,的数量 范围从1到 −1, 之间的时间间隔是吗

2.4。机器学习方法

我们实现了一个跨学科的ML方法,从数据库中提取包含所有阶段的知识(数据预处理、属性选择、数据挖掘和知识提取),检查毫升支持临床决策的应用程序(图2)。

提高预测的准确性的影响(积极类),我们使用医疗诊断规则提取(rem)算法(9),一个象征性的看到下面成了分类方法,实现内部偏见策略在学习过程中(21]。rem雇佣知识提取过程中的三个主要过程: 选择属性,(2)选择的初始分区,(3)建设和分类规则。

首先,rem试图选择相关属性的最佳组合,使用一个简单的逻辑回归模型。这是一个标准的方法分析医学研究使用优势比指标(22),以确定如果有重大协会( )之间的属性和积极的类。rem然后开始构建初始分区(排他的和详尽的条件)灵敏度最大化和维护可接受的精度没有明显降低特异性。最后,rem使用各自的分区为每个选定的属性来构造系统的规则,包括 条件(每个选定的一个属性)在以下方式:如果条件1 <关系> 条件2 <关系> 条件 <关系> ⋯⋯⋯条件 <关系> 然后类= 1其他的类= 0,

其中<关系>是≥或≤取决于 与积极类相关联的是积极的还是消极的 (分区属性 )。

为了避免过度拟合训练和测试阶段期间,rem实现k-fold交叉验证技术,基于随机洗牌样本向量训练和测试之间的空间(23]。雷还维护原文的近似不平衡数据集通过 迭代。

2.5。数据预处理和属性选择

根据目前医学指南(24),我们只包括参与者ABP的录音技术质量好。因此,在24小时的血压受试者< 40 ABP时期被排除在外。收缩期血压值> 260 mmHg或< 70毫米汞柱,舒张期血压> 150 mmHg或< 40毫米汞柱被认为是异常值或错误的价值观和丢弃。缺失值的处理是解决预测技术,特别是多重线性回归分析考虑医疗标准。

只有连续多变的属性被认为是在知识提取的过程。连续属性有更高程度的不确定性比离散属性,因为离散属性通常是二进制在临床环境中(例如,吸烟者和不吸烟者),及其与特定疾病协会几乎都是众所周知的。我们也排除年龄,这是一个nonchangeable属性。属性被认为是在最初的ML分析身体质量指数(BMI)、血清胆固醇水平,24小时心率、收缩压和舒张压24小时WBP,抗逆转录病毒药物。

3所示。结果

3.1。数据集

可开采的数据集是由551年的观察与7属性,只有43个缺失值(1.1%),血清胆固醇属性。丢失的数据估计回归斜率的性别与年龄,根据医生的标准专家。样本包括374名妇女(67.8%)和170名患者(30.9%)接受抗高血压药物治疗(表1)。BP读数的平均值是65.1(5 95 = 51.5−77.5),表明质量好的ABP录音。平均年龄是 年。在招生,61人(11.1%)有心血管疾病史;100例(18.1%)有糖尿病史,其中59(59%)接受糖尿病治疗;86(15.6%)吸烟者;174人(31.6%)报告酒精的摄入量。平均总胆固醇水平 更易与L−1,平均体重指数 公斤米−2。的意思是24小时收缩压WBP 毫米汞柱,舒张压WBP 毫米汞柱。平均心率 bpm。

平均随访期为 年(5到95 = 1.7−12.3年)。只有参与者,死于心血管疾病( )分为积极的例子。包括10中风和心血管死亡率51心脏死亡事件率高的15.5每1000人每年。之间的不平衡比积极的(影响)和消极的(影响)类大约是1:9。

3.2。机器学习的过程
3.2.1之上。选择属性

使用简单的逻辑回归模型,快速眼动发现,只有两个属性显著相关的积极类:收缩期WBP ( )和抗逆转录病毒药物( )。然而,其他知名心血管风险因素,如血清胆固醇水平,BMI和舒张WBP [16,25),被认为是在进一步的分析。

3.2.2。规则系统的

为医务人员提供更多的信息和理解模型,我们使用快速眼动来构建一些简单的规则系统,其中包括个人和组合预测的更重要的属性(收缩期WBP和ARV),以及组合预测有额外的风险因素。

3.3。性能

混淆矩阵的预测系统的规则,结合高收缩压抗逆转录病毒药物,WBP,使用10倍交叉验证,表明rem执行0.36灵敏度,正确诊断超过35%的心血管死亡(表2)。rem关注改善灵敏度特异性,因为在医疗诊断/预测的情况下,假阴性错误分类的成本(FN,即。,sick subjects diagnosed incorrectly) is higher than that of false positives (FP, healthy subjects diagnosed incorrectly), because more specific medical tests could discover the FP error, but an FN could cause a life-threatening condition and possibly lead to death [26]。此外,比较而言,我们的方法的性能可靠的预测,我们选择从WEKA框架2毫升的方法,更好的表现与我们的数据集:朴素贝叶斯分类器,这是一个最有效的和高效的分类算法,已成功应用于许多健康问题27,28]。所有分类器是显示在表的性能3

4所示。讨论

只使用rem算法的选择更重要的属性提供了一些所需的功能为解决医疗诊断/预测问题: 不平衡数据集的良好整体性能,灵敏度为36.1%,特异性80%,和75.1%一般精度;(2)理解预后信息,基于规则系统和高度的抽象(只有一个规则来预测积极类的例子,独立于实例的数量和初始属性);(3)的能力,为医务人员提供足够的信心在实践中使用的规则系统,因为它是基于属性有信心水平高(> 99%),估计使用一个标准的方法的医学分析;(4)能够减少体检需要获得一个可靠的诊断和预后,因为一个简单的逻辑回归模型是用于选择属性与特定疾病密切相关。

毫升的方法生成一个新的预后阈值对心血管死亡率:收缩期WBP≥137毫米汞柱,这是低于当前提出的高血压指南(≥140毫米汞柱)和与最近的ABP的研究结果相一致29日,30.),但与我们的分析的优势是完全自动化的,有一个小样本。此外,我们毫升的方法生成一个新的预后阈值异常收缩ARV(≥9.6毫米汞柱)。在一起,这些新的阈值可以提供改善心血管死亡率的预测。

收缩期WBP和抗逆转录病毒药物是心血管死亡率的独立预测指标,执行> 50%的敏感性,但牺牲了显著特异性和准确性(≤60%)。其他著名的心血管风险因素大大减少预测的准确性影响受试者(< 23%)。因此,使用逻辑回归的重要属性的选择(> 99%)可能是一个有效的策略在这个阶段毫升分析在医学数据集。

毫无疑问,最重要的目标之一毫升在医学领域的应用产生新知识,为医学界提供工具来开发新颖的观点对任何给定的问题。在我们的例子中,例如,尽管以前的医学研究确定可能的低和高BPV测量范围些微抗逆转录病毒药物通过统计方法(中位数和四分位数分析)(17,18),我们的工作是先锋提议预后阈值异常收缩ARV(≥9.6毫米汞柱)。这个阈值有很好的性能作为一个独立的由致命的心血管事件的预测。这个阈值的使用应该促进新领域的调查关于BPV及其预后的相关性。

我们不主张使用rem毫升分析是医学诊断/预测问题的最终解决不平衡的数据集,因为有必要实现修改,提高快速眼动的预测能力的灵敏度(≥50%)没有显著恶化其特异性。然而,我们获得更好的结果比朴素贝叶斯分类器(11.48%),这是一种基准算法在任何医疗领域必须尝试过其它先进的方法(27]。因此,我们相信,我们的方法可以在这些医疗任务,提高性能,增加的信心医学界毫升的使用方法支持临床决策。

确认

作者感谢裁判在纸上详细的审查和评论。本文得到了Secretaria de Educacion Publica墨西哥DF、墨西哥(PROMEP / 103 - 5/11/4145)。马拉开波老化研究由委内瑞拉格兰特FONACIT g - 97000726, FundaConCiencia,奖。国家老化研究所的R01AG036469。