文摘
门静脉高压(PHT)是一个进化的关键事件不同的慢性肝脏疾病,会导致病人的发病率和死亡率。传统的可靠PHT评价方法是一种肝静脉压力梯度(HVPG)测量,这是侵入性的,而不是总是可用的或可接受的病人。HVPG测量相对昂贵,取决于医生的经验。有许多潜在的非侵入性方法预测PHT,其中肝瞬时弹性成像确定最准确的;然而,即使是瞬时弹性成像缺乏准确性PHT的完美的无创性诊断方法。在这项研究中,我们关注的无创性PHT评估方法依赖于选择best-supervised学习算法使用一组广泛的无创获取数据,包括人口、临床、实验室仪器,瞬时弹性成像测量。为了构建meta-algorithm表现最好的分类,一组21分类算法进行测试。通过选择表现最好的临床问题是扩展属性使用algorithm-specific过滤方法,给预测错误率最低临床重大PHT。文学中的建议meta-algorithm客观优于其他方法,可以很好的代替入侵PHT评价方法。
1。介绍
的标准方法评估PHT患者慢性肝病测量HVPG [1]。HVPG测量是一种侵入性和方便手术,锲入静脉压力之间的差异和免费的触觉静脉压力(2]。一个HVPG值1毫米汞柱和5毫米汞柱之间被认为是正常的。更高的压力被定义为PHT [3,4]。不同价值观的HVPG显示不同的慢性肝病患者出现并发症的风险(5]。并发症的发展标准阈值是HVPG > 10毫米汞柱,被认为是临床上重要的PHT。它与食管静脉曲张形成的风险有关,临床代谢失调,肝细胞癌(HCC)的发展,由于它(肝切除术后或死亡6- - - - - -9]。HVPG > 12毫米汞柱被认为是严重PHT和与急性静脉曲张的出血的风险更高(10,11]。主要问题在于没有获得可靠和无创生物标志物或方法,可以代替入侵HVPG测量具有足够精度。
提供非侵入性的方法间接评价PHT涉及许多技术,包括临床检查、腹部超声有或没有多普勒调查,CT和MRI扫描,评价食管静脉曲张,使用不同的技术和测量肝脾刚度(12- - - - - -15]。最有前途的结果显示在肝脏弹性成像瞬时弹性成像的形式。肝瞬时弹性成像演示了相当高的灵敏度、特异性和准确性(0.88、0.87和0.88,分别地。)来预测临床重大PHT [14),但并不足以取代入侵HVPG测量。
理想的方法诊断PHT应安全、定量、准确、客观、可再生的,便宜,和验证。没有今天的可用方法完全符合这些标准;然而,不同的方法的结合使用监督学习算法和一组广泛的无创可用数据可以克服这些限制。
几项研究都致力于寻找一个潜在的非侵入性方法对患者进行分类,有或没有PHT,使用不同的学习算法,给出了矛盾的结果16- - - - - -19]。不同的研究之间的分歧可以通过不同模型的分析和解释不同的数据输入用于生成结果。
在本文中,重点是涉及到无创获取临床数据的分类问题。发展的客观分类meta-algorithm似乎是一个可靠的无创性方法分类,没有PHT患者和打开的可能性一个交通便利,疲于考试更便宜,更安全、定量和可再生的。
研究的目标是选择和准备一个meta-algorithm分类患者分成组不同的HVPG值使用无创获取临床资料。任务包括以下:(我)选择最佳的分类meta-algorithm通过测试最常用的分类器与无创获取数据(2)排名/选择一个最优的属性(数据子集)执行最佳选择的算法
2。材料和方法
2.1。数据集
在报纸上发布的数据从原始研究Zykus et al。14)是用于这项研究。原始论文的主要目标是分析肝脏或脾脏瞬时弹性成像和HVPG之间的关系。收集所有数据用于本文前瞻性领先数据在原始研究弹性成像结果。
在这个研究中,数据集包含记录从107年慢性肝病患者,被称为HVPG测量。患者临床检查和实验室调查导致(表24属性1血清)包含人口、临床实验室、脾脏几何,瞬时弹性成像(TE),血液,静脉腹部超声获得的数据。创性测量HVPG被在我们的调查作为参考。生命伦理委员会批准和病人同意了之前收集临床资料。
常规临床(体重、身高,并导致慢性肝病),血液(完整的血细胞计数),和生化(胆红素、白蛋白、凝血酶原时间、ALT和AST)调查HVPG之前在同一天进行测量。腹部超声进行排除多个肝局灶性病变,和各种ultrasound-based参数记录(脐或pararenal分流,门静脉宽度、门户血流峰值速度,门户血流平均速度,门户血流类型(hepatopetal与hepatofugal),肝静脉血流类型(三相的,两相的,或单相),肝静脉阻尼指数和脾静脉大小(宽度、长度和厚度))。
肝硬度用FIBROSCAN®(Echosens、巴黎、法国)设备测量之前在同一天HVPG测量。病人在空腹状态。执行程序按照制造商的建议。四分位范围/中值< 30%,成功率> 60%是TE视为高质量的标准。我们为每个病人10成功执行测量。
评估脾脏刚度是由同样的方法用于肝脏弹性成像。质量标准(四分位范围/中位数、成功率和许多成功的测量)为肝脾刚度是一样的刚度。如果无法发现典型的弹性成像图片使用FIBROSCAN装置,精确点脾刚度测量被发现使用东芝Xario 200超声波设备(东芝医疗系统公司、日本)。
HVPG测定空腹状态。所有的病人都接受过药物影响门户HVPG之前压力测量。HPVG测量使用导管楔技术由有经验的放射科医生使用Judkins 6 fr导管(美国波士顿科学,马尔堡)。右肝静脉选择性插管,静脉血管造影导管位置确认。的阻挡位置导管检查了没有回流2毫升注射后的对比剂和外观sinusoidogram(无穷R50,德尔格,德国)。至少3读数的平均值被进行进一步分析。如果读数之差大于1毫米汞柱,所有以前的录音被取消,新的阅读。放射科医师临床数据和肝脏或脾脏刚度是不可见的结果。
39.25%的记录收集临床数据集有缺失值。缺失的数据似乎在集群分组每个病人记录,例如,在6.54%的记录,所有人口数据丢失;在12.15%的纪录,血液测试结果失踪;在12%的记录,多普勒检测结果失踪;在25.30%的纪录,肝静脉数据丢失;和7.48%的记录,缺乏脾刚度数据。
2.2。分类的目的是,标准,和类
数据集被分为两组基于HVPG测量值(1]。这个决定是基于一个标准方法评估临床重大PHT (CSPH)超过一个HVPG值为10毫米汞柱(12]。CSPH选择的阈值分割的病人在两个类:(1)HVPG < 10 mmHg-patients没有胃食管静脉曲张和较低的风险在未来五年。(2)HVPG≥10 mmHg-patients高风险的严重的并发症从静脉曲张的出血、腹水,肝癌或肝失代偿肝硬化的临床,结束。
数据集包含107条记录和类之间有一些不对称。类1下降27%的记录,到二班下跌73%的记录。数据集是不被认为是高度不平衡,但分类精度(Acc)不应该被用作主要的绩效评估标准。相反,一个更客观的分类性能度量参数,ROC曲线下面积(AUC),被选中(20.]。在文献搜索类似的工作时,有更多的指标,如敏感性(Sn)和特异性(Sp),用来表示不同的方法的性能。这些指标也包括在本研究为更好的比较。
2.3。处理缺失数据
大多数分类器对于缺失数据的数据集上运行的能力。为了测试一个场景和完整的数据,需要过滤掉记录缺失值。最激进的方式处理缺失数据是拒绝记录缺失的数据。问题是,通过这样做,我们可能会失去一部分的记录可能有一些影响分类器的训练精度。
在许多情况下,缺失值填充使用统计归责方法意味着或发布出去是依靠非难。分布方法似乎更准确和公正的相比mean-based归责方法(21]。更高级的缺失值归责方法使用最大似然可能的缺失值预测模型。然而,有一个风险,预测缺失属性通过使用类似的信息可以无用甚至有害的考虑特定的和敏感的医疗例的临床资料。当缺失值的数据集的数量,有可能来简化问题。如果缺失值的数据集不是随机分布的,有可能创建无效的知识(22,23]。
为了测试归责缺失值的影响,再邻居(资讯)方法与欧式距离函数实现的。算法选择最常见的值在所有邻居。
因为数据集是小,大多数集群缺失值,为了得到数据记录的最大数量没有缺失值,提出了一种算法,它在两个阶段(图工作1)。首先,缺失的数据从完整的数据集,然后选择最优属性使用一个包装器方法。接下来,一个最优的属性集映射到完整的数据集和缺失值只移除选中的属性。通过这种方式,我们应该得到一个次优的属性集和最大数量的记录没有缺失值。
2.4。选择最佳的特性集
第二个问题,我们专注于发现表现最好的属性用于分类算法。这种方式,我们可以降低数据的维数会导致冗余和噪声(24]。减少数量的属性可以提高性能,提高精度,减少过度拟合,同时,减少诊断的成本。通过减少属性数量,也有降低的风险决策树等算法的准确性。两个属性选择方法,在本质上是不同的。
第一个属性选择方法是减压过滤,这是一个士兵classifier-independent属性显示的相关性属性目标概念/阈值(25,26]。减压过滤的问题是,它可能排名有价值的参数,可能会有重大的影响在某些特定的分类算法。减压过滤方法可能是有用的在决定哪些缺失属性(孔)数据集”更有影响力。“排名最高的失踪应该省略了属性分类,而排名较低的属性将最有可能影响较低,因此可以留给分类任务。
第二个属性选择方法,classifier-dependent称为包装器。这是一个迭代的属性选择常规使用交叉验证方法来估计分类器的准确性对于一个给定的一组属性和,一个接一个地选择表现最好的分类器。可以选择最好的属性子集为每个算法(27]。属性搜索终止与一个用户可选择的阈值的标准差均值跨多个交叉验证。选择默认的阈值在所有测试达到1%。wrapper-based属性选择方法通常会导致不同的最优属性不同的分类器。这可能是一个障碍,实现meta-algorithm有多个分类器。要克服这一点,加入meta-algorithm使用属性的子集。
2.5。算法使用
数据挖掘软件Weka,怀卡托大学主办,有一组广泛的机器学习工具和方法,符合我们的需要,我们的选择的工具28]。初步分析后,五组最有效的算法,包括朴素贝叶斯(NB),回归,最近邻,规则为基础,选择和决策树(表2)。
每一个算法,就其本身而言,有优点和缺点29日- - - - - -31日]。一个meta-algorithm似乎有必要,特别是对于小数据集。使用一个基本分类器,有一个过度拟合数据或algorithm-specific错误的风险。meta-algorithm在第一阶段,在每个算法组表现最好的分类器,以及表现最好的属性,选择的AUC值最高。见图2,每组的选择算法是训练有素的连续使用属性选择和结果,然后结合为了预测最终的类。每个算法执行10倍交叉验证为了得到一个更通用的和独立的数据集导致过度拟合。
五个不同的组合规则,包括平均、产品多数投票,包含最低概率,和最大概率,寻找最佳的输出。测试该算法应该显示如果它能减少分类错误,给好的分类结果。meta-algorithm可以扩展到任意数量的算法组,每一组任意数量的算法。它也不是数据或属性依赖数量。这个详细meta-algorithm可以作为一个伪代码,这显示了固有的灵活性和容易演变的meta-algorithm新分类器的出现,以及新的数据,当可用。
3所示。结果
为了测试算法性能,实现了四个场景:I-data没有缺失值;II-unprocessed(全套)数据;III-missing值从最重要的属性;使用资讯和IV-missing数据估算的方法。
每个算法组内部测试在meta-algorithm使用WEKA配对建成的t测试工具以及统计意义。选中的置信水平为95%。实际意义的数字结果并不代表,没有必要在这中间的比较过程。只显示如果算法输出结果是重要的( )当基础算法相比,在集团使用。如果一个特定的算法似乎是重要的,它是选择表现最好的算法;否则,所使用的算法AUC是最高的。同样,如果算法似乎更重要,那么使用一个最高的AUC值。
3.1。删除缺失值,我为场景选择表现最好的分类器
为了得到数据没有缺失值,建议方法应用见图1。这种方法相比,显著增加了数据记录与缺失的数据实例的简单的删除。增加变化从26%到64%,取决于算法和最优属性设置选择使用包装器方法(表3)。
每个算法的性能输出表示为意味着AUC,标准误差,平均10倍交叉验证(图3)。每组的选择算法在表可见3。
当选择算法是组合成一个最终的结果,加入列表包含以下属性:9ALT,AST,白蛋白,pararenal分流,肝硬度,脾脏刚度,脐分流,肝静脉血流类型,脾静脉宽度。
3.2。分类原始Dataset-Scenario二世
在场景二、分类算法与未经处理的数据集测试没有缺失值。测试结果在图可见4,意味着AUC和标准误差线绘制。
五个表现最佳的算法选择在这种情况下:朴素贝叶斯,简单的逻辑,懒惰。KStar、决策表和随机森林。由于原始数据有一些缺失值分散,有更多的属性为每个生成算法。当选择算法是组合成一个最终的结果,加入列表包含16个属性:重量,pararenal分流,肝静脉血流类型,触觉静脉阻尼指数,肝硬度,脾脏刚度,门静脉宽度,凝血酶原时间,脾脏长度,脾脏宽度,ALT,脐分流,性别,PLT,白蛋白,年龄。
3.3。从最重要的第三Attributes-Scenario删除丢失的数据
在第三个场景中,有两个最高等级属性选择使用一个过滤器。0.1已经被选择的阈值来区分重要属性的删除缺失值。这样,任何重要属性是完全充满了数据在低等级属性被搁浅。
我们可以看到在图5这两个属性等脱颖而出:脾刚度、等级为0.18,0.16和肝脏刚度、排名。其他属性阈值低于0.1。从排名最高的属性删除缺失值后,99条记录的数据集。
同样,所有五组数据集的算法进行了测试,和下面的表现最佳分类器选择(图6):朴素贝叶斯、物流,懒惰。Kstar、部分和以前。当五个表现最佳分类算法结果相结合,加入列表包含16个最优属性:性别,高度,年龄,ALT,胆红素,白蛋白,AST,凝血酶原时间,脾脏宽度,pararenal分流,门静脉平均速度,脾静脉宽度,肝静脉血流类型,触觉静脉阻尼指数,肝硬度,脾脏刚度。
3.4。冠之缺失值使用资讯Method-Scenario IV
在这种情况下,缺失值与欧式距离函数估算使用资讯的方法。所有107数据记录被保存和缺失值满心最近邻值。
最好的五个算法如下(图7):朴素贝叶斯、简单的物流,懒惰。IBk、决策表和以前树。加入列表包含15个最优属性:年龄,高度,凝血酶原时间,脾脏厚度,pararenal分流,门静脉平均速度,触觉静脉阻尼指数,肝硬度,肝脏疾病,AST,白蛋白,脾脏长度,脐分流,脾静脉宽度,性别,脾脏刚度。
在表4,我们可以看到四个测试场景的数值结果。在每个场景中,算法的五组分别进行测试,统计意义t测试与选定的显著性水平 执行。在每个算法组,一个算法选为“基地”,这是用于比较其他算法的意义。“0”意味着没有意义;“1”是指算法更好的基础;和“−1”意味着对基础算法明显恶化。
3.5。Meta-Algorithm分类结果
之后表现最好的算法和最优属性选择的最后阶段meta-algorithm最好结果为每个分类器结合成一个单一的预测。图8代表一个10倍交叉验证,AUC均值和标准误差的四个场景代表并排。
我们可以看到,数据集分类与KNN-imputed缺失值给最好的结果:AUC = 0.96标准误差最小为0.02。的最大概率结合规则似乎是最好的在这种情况下工作。的t搭配意义测试没有显示意义在95%的置信水平比较的结果。在这种情况下,最高的AUC结果赢得被选中。对于一个未加工的数据集,结果略低:AUC = 0.96和0.04标准误差。其他两个场景给结果与AUC = 0.94(表略低5)。
我们需要指出的是,在每个场景中,由于使用不同数量的记录处理缺失值。其他因素也可能影响了每个场景的性能,如不同的最佳分类器选择在meta-algorithm数据概要文件在每个场景,不同的属性集。
4所示。讨论
在这项研究中,试图找到一个客观的分类模型,该模型将取代入侵PHT评估。研究表明,不同的分类算法产生不同的分类结果。每个算法都有其自己的优点和缺点。使用单一分类算法可能会增加机会overfit数据集,这是相当有限的只有107份病历。因此,最好的算法集成到meta-algorithm似乎合理。由于现实世界的数据总是有缺失值,四个场景分类的数据预处理与meta-algorithm测试过。
第一个场景包括分类数据与常数的值。数据记录的数量已经被使用最大化提出了属性选择和映射方法,使数据记录的最大数量的选择非最优属性设置。而不是简单地删除记录缺失值,28%的记录保存;然而,meta-algorithm没有产量的最佳分类结果。
在第二个场景中,更好的结果是实现了与原数据集。在这种情况下,更高的准确性和AUC产生的算法。因为有缺失值的数据集,分类器使用多个属性在数据发现更深层次的联系。所需meta-algorithm 16属性共有24。此外,记录的数量和最优分类器不同于第一个场景。
在第三个场景中,所有属性被其重要性排名使用属性过滤器。缺失值被移除最重要的属性;然而,比第二个场景meta-algorithm给稍差的结果,使用原始数据集。
在第四个场景中,缺失值估算使用资讯的方法。缺失值是充满了最近邻欧式距离来衡量价值。这样,所有107条记录中使用的数据集。
的数据集上运行meta-algorithm最好使用资讯缺失值估算方法执行。意味着AUC值最高的达到了0.96和0.02的最低标准错误使用时的最大概率相结合原则。15被选为24的属性,表现最好使用搜索的阈值为1%。一组(年龄,高度,凝血酶原时间,脾脏厚度,pararenal分流,门静脉平均速度,触觉静脉阻尼指数,肝硬度,肝脏疾病,AST,白蛋白,脾脏长度,脐分流,脾静脉宽度,性别,脾脏刚度)是运行meta-algorithm所需包含五个分类算法:朴素贝叶斯,简单的逻辑,懒惰。IBk、决策表和以前树。选定的属性不是根据其重要性排列的。algorithm-dependent包装器算法不能排名的重要性。为了找到PHT最相关的属性,可能需要额外的可能方法。
我们发现一些研究项目,试图根据HVPG分类患者使用无创方法。最好的meta-algorithm比较结果与其他研究项目在类似的领域是可见的在表完成6。
不是所有研究项目计算AUC值,所以我们有包括可用的其他指标,如敏感性和特异性结合成一个F1得分,AUC,准确性。当比较AUC值,我们meta-algorithm给最好的结果值为0.96,接近统计肝脏TE-based方法(14]的AUC 0.95,计算从相同的数据,我们使用。尽管性能略有增加,但meta-algorithm,包括许多不同的分类器,往往是比任何上述最健壮的和客观的。
从临床的角度来看,比较meta-algorithm第二最好的研究项目中,肝脏TE属性是使用,它有一些缺点。所需的数据字段的数量是相当大的使用在日常临床和一些属性通常不用于常规实践(例如,肝静脉阻尼指数),或者如果他们使用,有很大的机会,不是所有在执行每一个疑似PHT患者。在这种背景下,表现最好的“懒。Kstar”算法的AUC值0.97(仅0.95相比,肝脏TE)和属性的数量减少到5可能更容易接受(对于能力和临床实践)。为了得到更好的客观结果,需要更多的数据验证和调整参数,所以建议一个灵活的meta-algorithm候选人获得更好的结果可能所需的属性会更少。此外,meta-algorithm可以排除数据不习惯在日常临床实践中。
5。局限性和进一步的研究
可能有几个影响结果的客观性和比较。首先,数据集在每种情况下不同的大小,因为删除记录缺失值。临床数据集有107条记录可能太小了一些分类器以避免特定的错误。meta-algorithm需要进一步的测试和验证与更大的数据库。更大的各种各样的分类算法和他们的修改可以列入meta-algorithm以覆盖更多的可能性。我们最初试图改变参数的算法,看看他们给一个明显的变化。最初的研究表明,默认参数设置在WEKA工作,所以没有特定的参数和设置被注意;然而,这可能是值得一试优化参数以优化分类算法更好的结果。此外,缺失值及其分布的影响需要更多的调查。不同归责方法的缺失值需要测试为了找到最好的表演在给定数据类型。 Along with the wrapper method of selecting an optimal set of attributes, there could be cost-based classification algorithms implemented in order to find consensus between objectivity and approved every day clinical practice. WEKA built in basic statistical test tool is sufficient for comparison of intermediate results inside meta-algorithm. For more in depth statistical tests, the other tools and methods such as analysis of variance (ANOVA) may be used.
的利益冲突
作者宣称没有利益冲突。