复杂性

PDF
复杂性/2017年/文章

研究文章|开放获取

体积 2017年 |文章的ID 9023970 | https://doi.org/10.1155/2017/9023970

华金Abellan,哈维尔·g .可以见到效果,卡洛斯·j·蝠鲼, 新的强大的分类器噪声域:装袋的信条的C4.5树”,复杂性, 卷。2017年, 文章的ID9023970, 17 页面, 2017年 https://doi.org/10.1155/2017/9023970

新的强大的分类器噪声域:装袋的信条的C4.5树

学术编辑器:罗伯特·Natella
收到了 09年6月2017年
修改后的 2017年10月10日
接受 2017年11月02
发表 2017年12月03

文摘

从数据中提取知识与噪声或离群值在数据挖掘领域是一个复杂的问题。通常情况下,它是不容易消除那些有问题的实例。从这种类型的数据获取信息,使用健壮的分类器是最好的选择。其中一个是装袋计划在薄弱的单分类器的应用。教义的C4.5 (CC4.5)模型是一种新的分类树过程基于经典的C4.5算法和不精确的概率。它代表了一种所谓的教义的树。已经证明CC4.5更健壮的噪音比以前C4.5方法甚至比其他教义的树模型。本文在装袋CC4.5模型方案的性能在嘈杂的域。添加噪声的试验研究数据集是为了对比结果进行装袋方案应用于教义的树木和C4.5过程。作为基准,已知的随机森林(RF)分类方法也使用。它将表明,装袋合奏使用修剪信条的树优于成功装袋C4.5和射频与中级到高级的数据集时噪声水平进行分类。

1。介绍

监督分类(1在数据挖掘)是一个重要的任务,一组观测或情况下,由一组描述属性(也称为特性预测变量),变量的赋值或标签分类,也叫类变量。该变量必须离散;在其他情况下,学习的过程叫做回归的任务。分类器可以被视为一个学习方法从数据获得一套法律来预测类为每个新观测变量值。为了建立一个分类器的数据,可以使用不同的方法,如经典统计方法(2),决策树(3)和人工神经网络和贝叶斯网络4]。

决策树(DTs),也被称为分类树或分层分类器,是一种分类器,结构简单,知识表示是相对简单的解释。决策树可以被看作是一组规则树格式紧凑,在那里,在每个节点,一个属性变量引入;和树叶(或结束节点)我们有一个标签的类变量或一组概率为每个类标签。亨特等的工作(5)是决策树的起源,虽然他们开始获得重要的出版ID3算法提出的昆兰(6]。后来,昆兰提出了C4.5 [3)算法,这是以前的一个改进的ID3,获得更好的结果。这种分类器的特点不稳定,很少有变化的数据模型可以产生重要的差异。

信息的融合获得通过集合体或组合的几个分类器可以改善的最后过程分类任务;这可以通过一个改进的准确性和鲁棒性。一些比较流行的方案装袋(7],增加[8),或者随机森林9]。决策树(固有的不稳定性7)使这些分类器非常适合用于集合体。

类噪声,也被称为标签的噪音分类的噪音时,被命名为这些情况出现的数据集不正确的类标签。这种情况主要是出于学习和/或测试的缺陷数据捕获过程,如错误的疾病诊断方法和人为错误类标签分配(见[10- - - - - -12])。最重要的一个程序在分类任务的情况下成功的领域是使用分类器或应用程序集合。在文献中关于分类的嘈杂的域,装袋方案是最成功的计划。这个整体方案特点,它减少了方差和避免过度拟合。完整的机器学习方法和最近修订操作标签噪声可以在[13]。

另一方面,直到几年前,古典概率论(PT)的基本工具来构造一个分类的方法。许多理论代表信息出现的泛化PT,如理论的证据,措施的可能性,间隔的概率,和二阶能力。每一个代表的模型不精确概率(参见韦利(14])。

Abellan的信条的决策树(CDT)模型和道德15)使用不精确概率和一般不确定性的措施(见Klir [16构建决策树)。CDT模型代表一个扩展经典ID3模型的昆兰(6),更换精确概率和不精确概率和最大熵的熵。最后总不确定性的测量是一个广为接受的对于一些特殊类型的不精确概率(Abellan et al。17])。在过去的几年内,已经检查,CDT模型提供了良好的实验结果标准分类任务(见Abellan和道德18]和Abellan Masegosa [19])。包装方案,使用CDT作为基分类器,已被用于特定任务的分类数据集对信用评分(见Abellan和可以见到效果20.])。包装方案,使用一种信条的树不同于CDT在[15)将被描述在这工作。这个新模型达到更好的结果比CDT的装袋(所示20.]数据集时添加噪声进行分类。

蝠鲼和Abellan [21],昆兰的古典C4.5方法[3)已被修改使用类似的工具用于CDT的方法。新算法叫做信条的C4.5算法(CC4.5)。结果表明,使用不精确概率数据挖掘中有一些实用的优点:操作总数的无知是前后一致地解决不确定性或不一致是充分代表。因此,在嘈杂的域,这些分类器性能优良。这一主张在蝠鲼和Abellan可以检查21)和蝠鲼et al。22]。在[21),新CC4.5带来更好的结果比经典C4.5时应用于大量的数据集与不同层次的类噪声。在[22],CC4.5的性能与不同的参数值 分析数据集时不同的噪音水平进行分类和信息最好的价值呢 得到的噪声级的数据集。在这个工作,装袋方案分类器将使用CC4.5作为基地,取得了很好的结果数据集时添加噪声进行分类。

DTs与低偏差和高方差模型。通常,方差和过度拟合是减少使用postpruning技术。当我们说,合奏方法像装袋也用来降低方差和过度拟合。CDT程序和CC4.5还代表其他方法来减少这两个特征在分类过程。因此,我们有三种方法来减少方差和过度拟合在一个分类任务,可以应用于嘈杂的域时尤其重要。我们在这里证明这三种技术的结合(装袋+修剪+信条的树)代表一个融合噪声领域取得成功的工具。这个断言所示工作通过一组实验的装袋合奏执行过程通过使用不同的模型树(CDT, C4.5和教义的C4.5)有无postpruning过程。

实验中,我们显示的性能CC4.5模型时插入已知装袋(称为装袋CC4.5)的整体方案和应用与不同级别的标签数据集的噪音。这个模型得到改进与其他已知的各个分类器中使用这种类型的设置:C4.5的装袋计划模型和已知的随机森林分类器(RF)。文献所示,装袋方案与C4.5模型通常是赢得模型在很多研究中关于噪声分类23,24]。

装袋方案过程中,使用CC4.5作为基分类器,成功有三个重要特征在嘈杂的领域:(A)的不同处理不精确,(b)使用的包装方案,和(c)生产中型树(它固有的模式和相关(A))。

加强分析的结果,我们将使用最近的指标量化程度的鲁棒性的分类器是应用于嘈杂的数据集。这个措施是平衡的精确度损失(ELA)以及et al。25]。我们将看到,装袋计划使用CC4.5达到最佳值添加了这项措施的水平噪声增加。

剩下的纸是组织如下。节2,我们首先必要的先前知识决策树,教义的决策树,Credal-C4.5算法,以及使用的整体方案。部分4包含整体的评估方法的实验结果研究了各种不同数据集的比例添加噪音。部分5对实验进行了描述和评价。最后,部分6致力于的结论。

2。经典的DTs和DTs基于不精确概率

决策树是简单的模型,可以作为分类器。的情况下被一个或多个元素属性变量(也称为预测属性特性),由一个类变量变量在研究,分类树可以用来预测类值的元素通过考虑它的属性值。在这种结构中,每个nonleaf节点代表一个属性变量之间的边缘或分支节点及其子节点代表属性变量的值,而每个叶节点通常指定一个类变量的精确值。

推断的过程决策树主要由以下方面:(1)划分的标准,该方法用于选择要插入的属性节点和分支(2)标准的分支(3)方法分配一个类标签或在叶节点概率分布

过程来构建一个可选的最后一步DTs,用于减少模型的过度拟合训练集,如下:(4)postpruning过程用于简化树结构

在经典的程序构建DTs,使用基于PT的测量信息,则停止分支(上图点 )通常是这样的:当信息没有改善的措施或者当一个阈值增益的测量。关于上面的点 ,类变量的值插入一个叶节点是一个与多个频率的分区数据与该叶子节点相关联;相关的概率分布也可以插入。然后校长构建DTs所有程序之间的差异是点 ,即分割准则用于选择属性变量插入一个节点。

考虑经典的划分标准和基于不精确概率分割标准,区分它们的一个基本观点是如何从数据获取概率。我们将比较经典的过程使用精确的概率的一个基于不精确的狄利克雷模型(IDM)韦利(14基于不精确概率:(我)在经典分割标准,与状态相关的概率类变量,一个分区的数据,是经典的频率的这种状态分区。正式,让 的类变量 ,让 的分区数据集的概率 与分区有关 在哪里 是数据的数量与状态 在分区设置 ; 是数据的总数的分区, (2)当我们使用IDM模型不精确概率(参见韦利(14]),一个状态的概率 类的变量是用不同的方式获得。使用相同的符号,现在通过获得的概率是一个区间的概率: 的参数 是一个属于IDM hyperparameter。参数的值 调节上、下的收敛速度概率当样本容量也在不断增加。更高的值 产生一个额外的谨慎的推理。韦利(14不给一个决定性的建议参数的值 ,但他提出的两位候选人: ;然而,他建议值 。很容易检查间隔的大小增加的价值 增加。

在下面几节中,我们将解释经典的分割标准之间的差异和基于不精确概率的平行。我们将比较经典Info-Gain昆兰(6)与不精确的Info-GainAbellan和道德的15)和Info-Gain比率昆兰(3)与不精确的Info-Gain比率蝠鲼和Abellan [21]。最后的过程来选择要插入一个节点变量由每个分割标准表中可以看到1


搞笑
IIG

IGR
IIGR

经典的标准通常使用香农的测量为基础的信息,并基于不精确概率的使用最大熵度量。这种方法是基于最大不确定性的原则(16)广泛应用于经典信息理论,它被称为最大熵原理(26]。这一原则表明,最大熵的概率分布,可用兼容限制,必须选择。最大熵测量验证的一个重要组属性理论基于不精确概率是概率论的概括(见Klir [16])。

2.1。Info-Gain和不精确的Info-Gain

上面的符号后,让 是一个属于通用特性的值 是一般的分区数据集。Info-Gain (IG)标准介绍了昆兰作为他的ID3的基础模型(6),解释如下:(我)类变量的熵C的数据集 是香农熵(27),它被定义为 在哪里 代表类的概率 (2)平均熵产生的属性 在哪里 代表的概率 的子集 ,在哪里

最后,我们可以定义Info-Gain如下:

不精确的Info-Gain (IIG) (15)是基于不精确概率,利用不确定性措施信条的集(闭凸集的概率分布)。它介绍了建立所谓的教义的决策树(CDT)模型。概率区间得到的数据集使用韦利的不精确的狄利克雷模型(IDM) [14)(一种特殊类型的信条的集(28])。数学基础应用描述如下。

使用上面的符号, ,定义为每个值 的变量 ,通过IDM获得: 在哪里 的频率是 在数据集, 是样本容量, 是属于IDM hyperparameter。

表示给上升到一种特定的教义的变量 , (28]。这组被定义如下:

在这种类型的集合(真正信条的集,28可以应用]),不确定性的措施。程序构建上使用最大熵函数在上述定义的教义的。这个函数,表示 ,定义在以下方式:

获得的过程 特殊情况的IDM计算成本达到最低 (见Abellan [28更多细节)。

该方案诱导上就像一个经典的ID3算法所使用的(6),替换它Info-Gain分割标准的不精确的Info-Gain(IIG)分裂准则可定义在以下方式: 在哪里 计算通过类似的方式 搞笑的标准(更扩大解释,看到蝠鲼和Abellan [21])。

它应该被考虑,一个变量 和一个数据集 , 可以是负的。这种情况不发生Info-Gain判据。这一重要特点意味着IIG判据可以丢弃恶化的信息类变量的变量。这是一个重要的特征模型,该模型可以被看作是一个额外的标准停止树的分支,降低模型的过度拟合。

至于搞笑和IIG,每个标准的第一部分是一个恒定值为每个属性变量。这两个标准选择的不确定性的变量值较低的类变量属性变量时,表示在第二部分(5)和(9)。这可以被视为一种方案表1

2.2。Info-Gain比率和不精确的Info-Gain比率

Info-Gain比率(IGR)标准介绍了C4.5模型(3为了提高ID3模型。与许多州IGR惩罚变量。这是定义如下: 在哪里

方法构建信条的C4.5树(21)类似于昆兰的C4.5算法(3]。教义的C4.5是由取代Info-Gain比率从C4.5分割标准不精确的Info-Gain比率(IIGR)拆分条件。主要的区别在于,教义的C4.5估计的值通过使用不精确概率特性和类变量。这一标准可以定义如下: 在哪里SplitInfo定义在(11),不精确的Info-Gain(IIG) 在哪里 是教义的集获得通过的IDM吗 变量,分别为一个分区 的数据集15];和 是一个概率分布,属于信条的准备好了吗

我们选择的概率分布 最大化以下表达式: 这是简单的计算这个概率分布。更多细节,请参阅蝠鲼和Abellan21]。

2.3。装袋决策树

在机器学习中,考虑几个观点的想法之前决定当几个分类器结合应用。这叫不同的名字如多个分类器系统,分类器的委员会,专家,或ensemble-based系统。通常情况下,决策树的整体达到一个比单个分类器更好的性能(10]。

通常的战略决策树的组合是基于多个决策树的创建聚合多数票判据。如果出现一个非机密的实例,那么每一个分类器进行预测和类的票数最高的价值分配的实例。

Breiman的装袋(7)(或引导聚合)是一个直观和简单的方法,显示了良好的性能,降低了方差,并避免过度拟合。通常是用决策树实现,但是它与任何类型的分类器可以应用。多样性装袋获得通过生成复制引导原始训练数据集的数据集:“不同的训练数据集随机替换从原始训练集和,因此,复制训练数据集具有相同的大小作为原始数据,但某些情况下可能不出现或可能出现不止一次。”之后,一个决策树构建与每个新实例的训练数据集使用的标准方法29日]。因此,从一个不同的数据集,构建每棵树几个得到决策树,这是由一组不同的变量,节点和叶子。最后,这些树的预测相结合的多数投票标准。

3所示。装袋信条的C4.5和噪音

装袋信条的C4.5由使用装袋的方案,提出了在上一节中,教义的C4.5算法作为基分类器。CC4.5和经典C4.5是分裂的区别标准。CC4.5使用IIGR测量和C4.5使用IGR。它可以显示测量IIGR比测量IGR对噪声不敏感。因此,CC4.5可以嘈杂的数据集上执行一个分类的任务比经典C4.5是实验中演示(21]。

下面的例子说明了情况下,衡量IIGR比测量IGR更健壮的噪音。

例1。让我们假设一个数据集被噪声和由15改变情况下,9类的实例 和6类的实例 它可以认为有两个二进制特征变量 根据这些变量的值,实例是有组织的如下: 如果这个数据集出现在树的节点,然后C4.5算法选择的变量 因为对于分裂节点 在哪里 嘈杂的数据集是由15个实例。
它可以认为数据集是吵闹的,因为它有一个异常点时 和类是 通过这种方式,干净的分布是由10类的实例 和5类的实例 ,组织在以下方式: 当这个数据集出现在树的节点,然后C4.5算法选择的变量 因为对于分裂节点 在哪里 干净的数据集是由15个实例。
它可以观察到,C4.5算法,通过IGR标准,创建了一个不正确的子树在嘈杂的数据处理。然而,树用IIGR标准(和建造的 )选择变量 把节点在这两种情况下(嘈杂的数据集和干净的数据集)。也就是说, 在哪里 与噪声的数据集,然后呢 在哪里 是干净的数据集。

这个例子显示了不同的鲁棒性。CC4.5比C4.5算法更健壮的噪音。出于这个原因,装袋信条的C4.5比装袋C4.5也更健壮的噪音。这一事实将证明本文的实验。

4所示。实验

在本节中,我们将描述实验和获得的结果发表评论。我们选择了50个著名的机器学习领域的数据集,从获得的UCI机器学习库(30.]。所选择的数据集是非常不同的样本大小、属性的数量和类型变量,类变量的状态数,等等。表2简要描述所使用的数据集的特点。


数据集 N 的壮举 全国矿工工会 笔名 k 范围

退火 898年 38 6 32 6 2 - 10
心律失常 452年 279年 206年 73年 16 2
听力学 226年 69年 0 69年 24 2 - 6
汽车 205年 25 15 10 7 2-22
天平 625年 4 4 0 3 - - - - - -
乳腺癌 286年 9 0 9 2 到13
wisconsin-breast-cancer 699年 9 9 0 2 - - - - - -
1728年 6 0 6 4 3 - 4
cmc 1473年 9 2 7 3 2 - 4
马匹急腹痛 368年 22 7 15 2 2 - 6
信用评级 690年 15 6 9 2 2 - 14
德国信用 1000年 20. 7 13 2 2 - 11
皮肤病学 366年 34 1 33 6 2 - 4
pima-diabetes 768年 8 8 0 2 - - - - - -
ecoli 366年 7 7 0 7 - - - - - -
玻璃 214年 9 9 0 7 - - - - - -
哈伯曼 306年 3 2 1 2 12
cleveland-14-heart-disease 303年 13 6 7 5 2 - 14
hungarian-14-heart-disease 294年 13 6 7 5 2 - 14
heart-statlog 270年 13 13 0 2 - - - - - -
肝炎 155年 19 4 15 2 2
甲状腺 3772年 30. 7 23 4 2 - 4
电离层 351年 35 35 0 2 - - - - - -
虹膜 150年 4 4 0 3 - - - - - -
kr-vs-kp 3196年 36 0 36 2 2 - 3
20000年 16 16 0 26 - - - - - -
肝脏失调 345年 6 6 0 2 - - - - - -
淋巴管造影 146年 18 3 15 4 2 - 8
mfeat-pixel 2000年 240年 0 240年 10 4 - 6
托儿所 12960年 8 0 8 4 2 - 4
optdigits 5620年 64年 64年 0 10 - - - - - -
page-blocks 5473年 10 10 0 5 - - - - - -
pendigits 10992年 16 16 0 10 - - - - - -
原发肿瘤 339年 17 0 17 21 2 - 3
2310年 19 16 0 7 - - - - - -
生病的 3772年 29日 7 22 2 2
solar-flare2 1066年 12 0 6 3 2 - 8
声纳 208年 60 60 0 2 - - - - - -
大豆 683年 35 0 35 19 2 - 7日
spambase 4601年 57 57 0 2 - - - - - -
谱仪 531年 101年 One hundred. 1 48 4
拼接 3190年 60 0 60 3 4 - 6
海绵 76年 44 0 44 3 2 - 9
tae 151年 5 3 2 3 2
车辆 946年 18 18 0 4 - - - - - -
投票 435年 16 0 16 2 2
元音 990年 11 10 1 11 2
波形 5000年 40 40 0 3 - - - - - -
178年 13 13 0 3 - - - - - -
动物园 101年 16 1 16 7 2

我们已经进行了研究教义的C4.5的装袋数据和添加噪声相比,随机森林算法(9和其他基于树模型的装袋:C4.5 [10]和CDT [23]。我们使用每个模型和没有postpruning过程。每个模型的修剪过程已经为每个模型所使用的一个缺陷。因此,算法被认为是以下的:(我)装袋C4.5 unpruned卷发(BA-C4.5-U)(2)unpruned装袋上树(BA-CDT-U)(3)装袋信条的C4.5和unpruned树(BA-CC4.5-U)(iv)装袋C4.5 (BA-C4.5)(v)装袋上(BA-CDT)(vi)装袋信条的C4.5 (BA-CC4.5)(七)随机森林(RF)

Weka软件(31日)已被用于实验。方法BA-CDT和BA-CC4.5及其版本unpruned树使用数据结构的实现Weka。提供的C4.5算法的实现Weka软件,叫做J48,采用其默认配置。我们添加了必要的方法来构建信条的C4.5树具有相同实验条件。在上和教义的C4.5 IDM被设定的参数 ,即在原来的方法使用的值(18,21),分别。使用这个值是主要的原因,这是韦利(建议的价值14];和程序获得最大熵值达到最低成本计算这个值(见[28])。

装袋集合体的实现和随机森林所提供的Weka使用默认配置时,除了树的数量用于这些方法是等于100决策树。尽管树的数量可以强烈影响整体的性能,这是一个合理的低到中等大小的树木数量在这项研究中使用的数据集,而且这是树的数量用于相关研究,如(8]。

使用Weka的过滤器,我们添加了以下类变量的随机噪声的百分比:0%,10%,20%,30%,和40%,只有在训练数据集。过程引入噪声:给定的训练数据集的实例是随机选择的,然后,他们当前类值随机更改为其他可能的值。属于测试数据集的实例修改的。

我们重复10次10倍交叉验证程序为每个数据集。这是一个非常了解和使用验证过程。表3,4,5,6,7显示的准确性的方法添加了不同比例的噪音。表8总结了平均精度的结果,最好的算法为每个添加噪声水平是强调使用粗体字体和第二个最好是用斜体字体。


数据集 BA-C4.5-U BA-CDT-U BA-CC4.5-U BA-C4.5 BA-CDT BA-CC4.5 射频

退火 98.90 98.89 98.65 98.79 98.59 98.78 99.68
心律失常 75.35 74.49 75.16 75.04 74.36 75.09 69.12
听力学 81.83 80.41 82.03 80.75 74.35 82.08 80.36
汽车 85.45 80.27 79.28 84.39 72.65 78.98 84.29
天平 81.56 82.41 82.65 82.39 83.82 82.65 80.30
乳腺癌 70.43 70.35 72.84 73.09 72.35 73.73 70.02
wisconsin-breast-cancer 96.45 96.14 96.31 96.32 95.85 96.14 96.58
94.33 93.55 93.30 93.65 91.24 93.04 94.70
cmc 52.19 53.21 53.92 53.12 56.02 54.09 50.69
马匹急腹痛 85.51 84.91 85.40 85.21 85.21 85.48 85.59
信用评级 85.68 86.07 86.84 86.14 86.16 86.43 86.14
德国信用 73.01 74.64 73.96 74.73 75.26 74.84 76.08
皮肤病学 97.13 94.18 96.77 96.61 93.63 96.23 96.91
pima-diabetes 76.14 75.80 75.94 76.17 75.92 75.90 76.01
ecoli 84.88 83.82 84.34 84.70 83.75 84.49 84.67
玻璃 74.49 75.51 72.66 74.96 73.31 72.80 79.71
哈伯曼 70.17 73.76 74.25 72.95 73.47 73.89 65.44
cleveland-14-heart-disease 80.23 78.68 80.13 79.90 80.39 80.20 81.56
hungarian-14-heart-disease 78.92 81.18 82.88 79.87 82.09 82.88 80.25
heart-statlog 80.96 81.41 82.26 81.19 82.33 82.19 82.26
肝炎 81.76 80.99 82.09 81.37 81.57 81.90 83.58
甲状腺 99.62 99.59 99.59 99.61 99.55 99.58 99.51
电离层 92.57 91.23 91.74 92.54 90.77 91.74 93.48
虹膜 94.47 95.07 94.40 94.47 94.80 94.40 94.53
kr-vs-kp 99.46 99.40 99.46 99.44 98.92 99.45 99.27
94.03 92.44 93.48 93.86 90.80 93.45 96.60
肝脏失调 73.42 72.21 71.02 73.25 71.31 70.76 72.03
淋巴管造影 79.96 76.24 79.47 79.69 77.51 79.74 83.42
mfeat-pixel 83.86 87.20 84.40 83.60 87.04 84.37 96.37
托儿所 98.68 96.66 96.53 97.41 95.90 96.51 99.17
optdigits 95.84 95.55 95.84 95.79 94.74 95.83 98.30
page-blocks 97.36 97.32 97.33 97.37 97.29 97.38 97.46
pendigits 98.32 98.45 98.12 98.25 98.15 98.10 99.21
原发肿瘤 44.22 43.93 44.11 44.93 41.98 44.52 43.45
97.75 97.45 97.22 97.64 96.74 97.21 98.16
生病的 98.97 98.97 98.91 98.85 98.54 98.84 98.43
solar-flare2 99.49 99.53 99.53 99.53 99.53 99.53 99.43
声纳 80.07 80.78 78.86 80.40 77.57 78.77 84.63
大豆 92.28 90.47 92.37 93.10 88.81 92.37 93.31
spambase 94.73 94.65 94.30 94.58 93.98 94.24 95.68
谱仪 56.61 54.48 54.58 56.53 52.91 54.57 57.42
拼接 94.70 94.40 94.84 94.68 94.06 94.71 95.88
海绵 93.91 92.63 93.88 92.63 92.50 92.63 95.00
tae 60.88 60.88 54.85 59.43 57.56 55.18 68.25
车辆 75.22 74.78 74.47 75.17 73.06 74.49 75.18
投票 96.78 96.34 96.62 96.69 95.52 96.69 96.43
元音 94.04 92.17 90.66 92.64 88.96 90.68 98.16
波形 83.40 83.51 83.08 83.35 83.31 83.08 85.20
95.34 95.84 94.89 95.23 95.10 94.89 97.74
动物园 92.80 92.40 92.90 92.50 92.61 92.90 96.33

平均 85.28 84.90 84.98 85.29 84.24 84.97 86.24


数据集 BA-C4.5-U BA-CDT-U BA-CC4.5-U BA-C4.5 BA-CDT BA-CC4.5 射频

退火 98.05 98.50 98.45 98.64 98.36 98.59 96.44
心律失常 74.29 73.88 74.85 74.40 73.28 74.93 67.74
听力学 80.84 79.28 81.27 81.01 75.68 81.13 75.72
汽车 80.44 75.79 77.56 79.99 67.43 77.18 77.21
天平 81.09 81.97 82.67 82.22 83.84 82.71 78.03
乳腺癌 67.17 69.87 70.93 72.04 71.44 72.74 66.77
wisconsin-breast-cancer 95.49 95.75 96.24 95.81 96.11 96.27 94.61
90.92 92.34 92.29 91.98 90.94 92.08 93.30
cmc 50.12 51.82 52.78 51.56 54.75 53.22 48.51
马匹急腹痛 84.55 83.71 84.93 85.07 84.64 84.96 83.61
信用评级 83.30 84.77 86.12 85.87 85.80 85.97 84.01
德国信用 72.67 73.43 73.09 73.92 74.66 73.78 74.79
皮肤病学 95.46 93.82 96.64 96.48 93.85 96.53 96.25
pima-diabetes 75.59 74.48 75.92 75.53 75.84 75.80 74.24
ecoli 84.82 84.70 84.79 85.09 84.11 84.67 83.87
玻璃 73.33 74.37 72.48 73.10 72.32 72.30 76.82
哈伯曼 69.05 70.44 73.40 71.68 73.99 73.44 62.66
cleveland-14-heart-disease 80.30 79.73 80.73 80.43 81.07 80.77 80.76
hungarian-14-heart-disease 78.96 79.46 82.13 79.54 80.86 82.29 79.56
heart-statlog 79.70 79.26 80.74 80.07 81.11 81.11 79.37
肝炎 80.63 81.53 81.72 82.06 82.64 81.79 82.71
甲状腺 99.30 99.48 99.48 99.50 99.47 99.48 99.24
电离层 91.80 90.58 91.40 91.71 91.35 91.40 92.31
虹膜 93.80 94.20 93.87 94.00 94.33 93.87 90.07
kr-vs-kp 98.02 98.72 98.81 99.17 98.79 99.09 96.57
93.56 92.56 93.32 93.43 91.10 93.19 94.04
肝脏失调 70.47 69.43 68.66 70.09 69.97 68.37 69.38
淋巴管造影 79.58 77.02 78.69 78.63 78.10 78.75 83.09
mfeat-pixel 83.09 86.71 83.89 83.14 87.27 84.01 95.82
托儿所 96.27 97.11 96.95 97.12 96.08 96.69 97.55
optdigits 95.70 95.81 95.62 95.62 95.07 95.54 98.26
page-blocks 97.11 97.20 97.20 97.22 97.20 97.20 96.49
pendigits 98.43 98.43 98.27 98.35 97.99 98.19 99.08
原发肿瘤 41.62 43.06 42.77 42.33 43.12 43.04 42.15
96.75 97.08 97.10 97.14 96.49 97.04 95.92
生病的 98.08 98.47 98.40 98.43 98.45 98.43 98.17
solar-flare2 98.58 99.47 99.48 99.53 99.53 99.53 97.56
声纳 77.45 79.47 78.02 77.60 76.99 77.97 81.61
大豆 91.22 90.25 92.61 92.72 88.45 92.62 90.41
spambase 93.23 93.32 93.55 93.53 93.55 93.54 93.13
谱仪 55.42 51.85 54.16 55.67 50.58 54.16 56.39
拼接 93.11 93.54 94.08 94.18 93.54 94.22 93.98
海绵 91.39 92.68 93.00 92.34 92.50 92.57 92.98
tae 56.17 57.15 52.12 55.70 53.78 52.38 61.69
车辆 73.88 73.54 72.96 74.15 72.42 72.98 74.48
投票 95.22 95.35 95.49 95.91 95.56 95.89 94.11
元音 92.73 90.74 90.30 91.95 88.58 90.22 92.18
波形 83.16 83.16 82.99 83.17 83.05 82.98 84.94
94.44 94.50 94.77 94.60 94.54 94.77 96.86
动物园 93.66 93.37 93.27 93.77 93.77 93.27 92.97

平均 84.00 84.06 84.42 84.54 83.89 84.47 84.17


数据集 BA-C4.5-U BA-CDT-U BA-CC4.5-U BA-C4.5 BA-CDT BA-CC4.5 射频

退火 95.34 97.42 97.41 98.04 98.10 98.05 91.16
心律失常 73.87 72.84 74.87 74.25 72.02 74.91 66.75
听力学 76.25 75.57 78.81 78.37 72.84 79.12 71.28
汽车 73.34 69.80 74.52 73.88 63.51 74.61 70.63
天平 79.26 80.97 82.09 81.37 83.25 82.08 75.28
乳腺癌 63.40 66.20 67.74 70.95 69.94 71.10 62.02
wisconsin-breast-cancer 93.41 94.00 95.91 94.91 96.22 95.98 90.83
85.43 89.72 89.76 89.82 89.76 90.02 90.48
cmc 48.38 50.14 50.93 50.39 53.21 51.54 46.58
马匹急腹痛 81.46 80.73 83.93 83.96 83.44 84.42 80.70
信用评级 79.41 82.67 84.03 83.58 85.42 85.03 80.00
德国信用 69.91 71.38 70.82 71.90 73.85 71.64 71.80
皮肤病学 92.73 93.52 95.46 95.39 94.01 95.63 94.86
pima-diabetes 74.62 72.60 75.41 74.76 75.30 75.64 71.85
ecoli 82.56 82.91 83.81 83.06 83.81 83.78 80.74
玻璃 70.61 72.67 70.75 70.71 71.33 70.57 72.72
哈伯曼 66.55 66.33 70.98 68.45 71.80 72.79 59.43
cleveland-14-heart-disease 79.02 79.15 80.39 79.71 81.04 79.93 79.48
hungarian-14-heart-disease 78.14 78.36 81.99 79.34 80.79 81.96 77.81
heart-statlog 76.93 76.81 79.00 78.11 79.04 79.48 76.93
肝炎 79.35 79.95 80.88 80.63 81.38 81.20 79.69
甲状腺 98.34 99.37 99.36 99.29 99.36 99.40 98.65
电离层 87.84 86.70 89.44 88.01 90.41 89.41 88.39
虹膜 90.07 90.93 92.73 92.27 93.80 92.67 82.80
kr-vs-kp 92.68 95.63 95.75 97.50 97.99 97.43 90.37
92.57 92.32 93.01 92.97 91.28 92.92 90.57
肝脏失调 67.08 66.45 66.69 67.22 68.59 66.69 65.84
淋巴管造影 75.99 76.00 78.17 77.49 77.44 78.65 78.08
mfeat-pixel 82.19 86.60 83.17 82.59 87.63 83.52 95.32
托儿所 90.42 96.50 96.55 96.52 96.06 96.41 93.74
optdigits 95.73 96.07 95.74 95.75 95.41 95.68 98.01
page-blocks 96.33 96.79 97.12 96.80 97.10 97.10 94.68
pendigits 98.08 98.19 98.17 98.16 97.93 98.13 98.75
原发肿瘤 40.20 41.03 41.71 41.26 42.80 42.39 40.53
94.29 95.83 96.33 95.81 96.28 96.38 93.48
生病的 96.14 97.87 97.99 97.29 98.29 98.10 96.82
solar-flare2 96.45 99.23 99.15 99.52 99.53 99.51 94.76
声纳 74.77 76.27 76.06 74.86 76.22 76.06 78.54
大豆 88.07 87.70 92.21 91.93 85.51 92.42 84.83
spambase 90.39 89.95 92.26 91.13 92.78 92.31 89.33
谱仪 54.15 49.97 54.03 54.11 48.89 54.05 55.86
拼接 90.87 91.50 92.12 92.87 92.87 92.92 91.52
海绵 87.89 90.57 91.38 91.79 92.50 91.77 89.45
tae 53.13 54.80 51.21 53.27 50.48 51.02 54.87
车辆 72.59 72.41 72.68 73.01 72.55 72.60 72.52
投票 92.59 93.93 93.93 95.17 95.49 95.24 90.55
元音 88.88 84.42 88.31 89.17 84.80 88.26 84.23
波形 82.70 82.80 82.82 82.71 83.08 82.82 84.46
91.35 90.68 92.77 91.51 93.76 92.66 93.61
动物园 93.50 93.27 93.10 93.99 91.39 92.91 87.83

平均 81.50 82.15 83.27 83.11 83.01 83.58 80.99


数据集 BA-C4.5-U BA-CDT-U BA-CC4.5-U BA-C4.5 BA-CDT BA-CC4.5 射频

退火 89.44 93.97 94.70 95.99 97.54 96.36 83.29
心律失常 72.86 71.64 73.41 73.14 70.64 73.88 65.58
听力学 73.37 71.51 75.62 77.21 69.01 76.72 66.02
汽车 64.32 62.54 68.31 64.91 57.87 68.80 61.73
天平 74.95 77.10 80.27 78.32 81.82 80.59 68.62
乳腺癌 59.83 61.24 63.19 64.31 64.62 66.34 59.10
wisconsin-breast-cancer 87.78 88.35 93.46 90.96 94.15 93.95 82.88
78.65 84.87 85.65 87.05 88.13 87.45 85.41
cmc 45.41 47.51 48.73 47.75 51.32 49.65 43.54
马匹急腹痛 76.04 75.16 79.67 80.43 78.12 81.75 74.34
信用评级 71.61 75.30 77.57 74.54 81.55 79.43 71.72
德国信用 65.07 67.19 66.37 67.27 70.65 67.52 66.93
皮肤病学 88.71 91.04 92.35 93.30 93.63 93.41 92.84
pima-diabetes 70.80 67.50 73.68 71.09 71.53 73.72 67.04
ecoli 79.88 80.86 83.58 81.04 83.58 83.46 77.34
玻璃 66.90 68.39 68.46 67.18 69.32 68.46 67.69
哈伯曼 62.34 60.46 66.06 62.95 66.79 70.26 56.03
cleveland-14-heart-disease 75.60 76.57 78.49 77.41 80.14 78.52 75.82
hungarian-14-heart-disease 75.96 76.09 81.93 78.63 80.18 81.52 74.10
heart-statlog 69.52 69.89 75.30 70.52 75.44 75.63 70.96
肝炎 73.24 75.51 75.99 75.18 80.33 76.49 75.24
甲状腺 95.90 98.82 98.77 97.43 99.15 99.06 97.31
电离层 79.86 78.38 83.57 80.06 84.37 83.94 81.01
虹膜 81.73 84.13 89.20 84.80 91.67 89.47 73.47
kr-vs-kp 82.68 86.36 86.56 88.91 95.14 89.77 79.88
90.29 91.30 91.91 91.93 91.30 92.21 85.85
肝脏失调 61.66 61.44 61.71 61.89 63.61 62.01 60.26
淋巴管造影 73.02 73.14 76.13 75.82 76.53 76.00 72.06
mfeat-pixel 81.81 87.03 83.18 82.61 88.30 83.56 94.35
托儿所 81.74 93.42 94.23 95.32 95.64 95.60 87.09
optdigits 95.08 95.90 95.32 95.18 95.74 95.33 97.73
page-blocks 94.22 95.73 96.80 95.28 97.05 96.84 91.53
pendigits 97.39 97.76 97.87 97.62 97.86 97.87 98.04
原发肿瘤 37.61 39.73 39.85 39.05 42.42 41.15 37.14
90.50 93.15 94.84 92.33 95.99 95.09 90.13
生病的 90.34 94.64 95.77 92.47 97.25 96.69 91.44
solar-flare2 92.24 97.11 97.28 99.39 99.50 99.40 90.19
声纳 69.52 71.75 71.05 69.47 73.22 70.99 72.75
大豆 83.45 81.65 90.73 90.82 81.61 91.21 79.31
spambase 86.06 83.51 89.57 86.91 89.57 89.69 83.02
谱仪 51.62 47.97 52.28 51.89 47.05 52.28 53.58
拼接 87.83 88.76 89.11 89.86 91.89 89.97 87.55
海绵 77.45 84.05 82.27 89.16 91.95 86.88 81.07
tae 49.83 49.20 47.32 49.22 48.48 46.99 51.38
车辆 70.13 70.36 71.25 70.45 72.02 71.45 69.86
投票 86.25 88.87 88.75 91.54 94.00 91.79 83.33
元音 81.63 74.76 85.01 82.95 74.61 85.10 75.21
波形 81.82 82.14 82.40 81.86 82.83 82.40 83.60
85.63 85.69 89.12 85.97 92.91 89.06 88.90
动物园 89.71 90.71 90.50 91.31 90.53 91.41 80.50

平均 76.99 78.20 80.30 79.61 80.97 81.14 76.08


数据集 BA-C4.5-U BA-CDT-U BA-CC4.5-U BA-C4.5 BA-CDT BA-CC4.5 射频

退火 80.69 87.46 88.69 89.11 96.65 92.29 74.12
心律失常 69.56 70.07 69.34 70.07 67.57 71.2 63.74
听力学 66.31 60.64 72.52 72.34 60.2 74.31 60.38
汽车 53.96 53.59 59.65 54.36 50.98 59.99 52.03
天平 65.7 69.1 75.04 69.8 78.24 75.86 59.94
乳腺癌 53.26 54.14 55.64 56.02 57.15 57.26 54.07
wisconsin-breast-cancer 75.72 73.16 84.16 79.23 83.39 85.48 68.71
68.86 76.19 77.37 83.32 85.42 83.63 77.93
cmc 42.41 44.33 44.45 44.19 49.14 45.84 41.06
马匹急腹痛 64.64 63.42 69.32 68.48 65.78 71.58 63.08
信用评级 60.59 61.03 63.65 62.96 64.65 65.58 61.55
德国信用 57.51 59.63 58.96 58.86 62.57 59.71 58.87
皮肤病学 83.33 85.41 87.62 88.38 91.74 89.62 88.02
pima-diabetes 66.12 60.25 68.4 66.05 64.37 68.49 60.12
ecoli 74.69 76.33 80.3 76.06 82.69 80.68 70.73
玻璃 61.45 62.87 64.07 62.05 67.52 64.2 61.08
哈伯曼 56.14 55.44 58.39 56.24 57.1 60.62 53.12
cleveland-14-heart-disease 69.76 72.58 75.2 71.6 78.52 75.83 70.26
hungarian-14-heart-disease 73.51 72.42 80.94 76.92 79.56 80.9 69.16
heart-statlog 62.07 61.56 64.59 63.3 65.96 64.67 62.33
肝炎 62.77 63.98 66.71 65.3 69.43 68.1 64.67
甲状腺 90.62 97.44 96.84 92.82 98.91 97.46 94.03
电离层 67.79 66.6 72.41 68.39 71.52 72.72 67.91
虹膜 72.6 74.87 86.13 75.2 87.73 86.07 65年
kr-vs-kp 67.81 69.83 70.06 71.52 80.02 72.24 65.9
85.81 88.67 89.1 89.21 90.94 90.23 79.34
肝脏失调 57.16 57.17 58.24 57.01 58.28 58.67 56.41
淋巴管造影 65.98 66.58 70.64 69.15 75.07 71.51 65.66
mfeat-pixel 81.54 86.94 82.79 82.43 88.71 83.42 93.04
托儿所 70.94 85.09 87.8 92.78 94.55 93.56 76.76
optdigits 93.99 95.56 94.46 94.23 95.82 94.52 96.85
page-blocks 89.84 92.85 96.05 91.33 96.75 96.15 86.03
pendigits 95.76 96.7 97.03 96.16 97.69 97.09 96.33
原发肿瘤 34.53 36.51 37.22 35.86 40.53 38.61 33.68
85.65 88.71 92.15 86.99 95.71 92.57 85.3
生病的 76.76 80.85 85.46 78.64 87.27 87.38 76.52
solar-flare2 85.62 90.37 90.66 98.69 98.6 98.71 82.52
声纳 60.66 62.1 62.3 60.52 62.16 62.35 62.11
大豆 74.85 69.3 86.09 86.89 73.66 88.5 69.74
spambase 76.7 70.98 82.02 77.74 77.3 82.31 70.71
谱仪 48.99 43.13 50.12 49.19 43.11 50.14 50.73
拼接 82.91 84.34 84.4 84.97 89.2 85.23 81.45
海绵 69.29 75.05 72.79 79.73 89.18 77.18 73.98
tae 46.17 45.71 43.48 45.9 43.17 43.22 46.67
车辆 65年 65.98 67.71 65.54 69.76 68.11 64.7
投票 73.54 75.62 76.2 79.39 83.92 79.85 70.73
元音 71.84 65.65 78.47 73.27 63.14 78.54 65.86
波形 79.59 80.21 80.84 79.65 81.78 80.84 81.54
78.25 79.1 83.99 78.82 88.06 83.99 81.07
动物园 81.58 84.46 85.15 86.05 87.52 86.05 70.25

平均 70.02 71.2 74.51 73.25 75.77 75.86 68.92


算法 噪声0% 噪声10% 噪声20% 噪声30% 噪声40%

BA-C4.5-U 85.28 84.00 81.50 76.99 70.02
BA-CDT-U 84.90 84.06 82.15 78.20 71.20
BA-CC4.5-U 84.98 84.42 83.27 80.30 74.51

BA-C4.5 85.29 84.54 83.11 79.61 73.25
BA-CDT 84.24 83.89 83.01 80.97 75.77
BA-CC4.5 84.97 84.47 83.58 81.14 75.86

射频 86.24 84.17 80.99 76.08 68.92

下面的建议Demšar [32),我们使用一系列测试来比较使用的方法 软件(33]。我们使用以下测试比较多个分类器在多个数据集。

弗里德曼测试(弗里德曼(34,35])。非参数检验,分别排名算法为每个数据集,表现最好的算法被分配的秩1和第二个最佳分配的秩2等等。零假设是所有算法是等价的。如果拒绝零假设,我们可以比较算法相互使用Nemenyi测试(36]。

所有的测试进行了水平的意义 。因此,表9显示了弗里德曼的排名的准确性方法应用于数据集时添加了不同程度的噪音。最好的算法为每个噪声是强调使用粗体字体和第二最好使用斜体字体标记。表10,11,12,13,14显示了pNemenyi测试的值对比较应用于数据集时添加了不同比例的噪音。在所有情况下,Nemenyi测试拒绝假设,如果相应的算法是等价的p值≤0.002381。当有显著差异,最好的算法是杰出的大胆的字体。


算法 噪声0% 噪声10% 噪声20% 噪声30% 噪声40%

BA-C4.5-U 3.17 4.88 5.63 5.94 5.82
BA-CDT-U 4.52 4.42 4.85 4.81 4.89
BA-CC4.5-U 4.08 3.60 3.09 3.34 3.26

BA-C4.5 3.78 3.09 3.45 3.92 4.08
BA-CDT 5.43 4.27 3.07 2.25 2.34
BA-CC4.5 4.24 3.48 2.68 2.14 1.91

射频 2.78 4.26 5.23 5.60 5.70


算法

21 BA-CDT与射频 0
20. BA-C4.5-U与BA-CDT 0
19 BA-CDT-U与射频 0.000056
18 BA-C4.5与BA-CDT 0.000134
17 BA-CC4.5与射频 0.000727
16 BA-C4.5-U与BA-CDT-U 0.00178
15 BA-CC4.5-U与BA-CDT 0.00178

14 BA-CC4.5-U与射频 0.002622
13 BA-CDT与BA-CC4.5 0.005882
12 BA-C4.5-U与BA-CC4.5 0.013265
11 BA-C4.5与射频 0.020638
10 BA-C4.5-U与BA-CC4.5-U 0.035183
9 BA-CDT-U与BA-CDT 0.035183
8 BA-CDT-U与BA-C4.5 0.086755
7 BA-C4.5-U与BA-C4.5 0.157987
6 BA-C4.5与BA-CC4.5 0.287015
5 BA-CDT-U与BA-CC4.5-U 0.308487
4 BA-C4.5-U与射频 0.366699
3 BA-CC4.5-U与BA-C4.5 0.487453
2 BA-CDT-U与BA-CC4.5 0.516937
1 BA-CC4.5-U与BA-CC4.5 0.711138


算法

21 BA-C4.5-U与BA-C4.5 0.000034
20. BA-C4.5-U与BA-CC4.5 0.001194
19 BA-CDT-U与BA-C4.5 0.002081

18 BA-C4.5-U与BA-CC4.5-U 0.00305
17 BA-C4.5与BA-CDT 0.006311
16 BA-C4.5与射频 0.006769
15 BA-CDT-U与BA-CC4.5 0.029579
14 BA-CDT-U与BA-CC4.5-U 0.057705
13 BA-CDT与BA-CC4.5 0.067475
12 BA-CC4.5与射频 0.07102
11 BA-CC4.5-U与BA-CDT 0.120962
10 BA-CC4.5-U与射频 0.126611
9 BA-C4.5-U与射频 0.151281
8 BA-C4.5-U与BA-CDT 0.157987
7 BA-CC4.5-U与BA-C4.5 0.237833
6 BA-C4.5-U与BA-CDT-U 0.287015
5 BA-C4.5与BA-CC4.5 0.366699
4 BA-CDT-U与射频 0.711138
3 BA-CDT-U与BA-CDT 0.728454
2 BA-CC4.5-U与BA-CC4.5 0.781207
1 BA-CDT与射频 0.981534


算法

21 BA-C4.5-U与BA-CC4.5 0
20. BA-C4.5-U与BA-CDT 0
19 BA-CC4.5与射频 0
18 BA-C4.5-U与BA-CC4.5-U 0
17 BA-C4.5-U与BA-C4.5 0
16 BA-CDT-U与BA-CC4.5 0.000001
15 BA-CDT与射频 0.000001
14 BA-CC4.5-U与射频 0.000001
13 BA-CDT-U与BA-CDT 0.000038
12 BA-C4.5与射频 0.000038
11 BA-CDT-U与BA-CC4.5-U 0.000046
10 BA-CDT-U与BA-C4.5 0.001194

9 BA-C4.5-U与BA-CDT-U 0.07102
8 BA-C4.5与BA-CC4.5 0.074716
7 BA-CC4.5-U与BA-CC4.5 0.342638
6 BA-C4.5-U与射频 0.354539
5 BA-CDT与BA-CC4.5 0.366699
4 BA-C4.5与BA-CDT 0.379114
3 BA-CDT-U与射频 0.379114
2 BA-CC4.5-U与BA-C4.5 0.40471
1 BA-CC4.5-U与BA-CDT 0.963078


算法

21 BA-C4.5-U与BA-CC4.5 0
20. BA-C4.5-U与BA-CDT 0
19 BA-CC4.5与射频 0
18 BA-CDT与射频 0
17 BA-CDT-U与BA-CC4.5 0
16 BA-C4.5-U与BA-CC4.5-U 0
15 BA-CDT-U与BA-CDT 0
14 BA-CC4.5-U与射频 0
13 BA-C4.5-U与BA-C4.5 0.000003
12 BA-C4.5与BA-CC4.5 0.000038
11 BA-C4.5与射频 0.000101
10 BA-C4.5与BA-CDT 0.000111
9 BA-CDT-U与BA-CC4.5-U 0.000668

8 BA-CC4.5-U与BA-CC4.5 0.005479
7 BA-C4.5-U与BA-CDT-U 0.008911
6 BA-CC4.5-U与BA-CDT 0.01164
5 BA-CDT-U与BA-C4.5 0.039403
4 BA-CDT-U与射频 0.067475
3 BA-CC4.5-U与BA-C4.5 0.179454
2 BA-C4.5-U与射频 0.431313
1 BA-CDT与BA-CC4.5 0.799032


算法

21 BA-C4.5-U与BA-CC4.5 0
20. BA-CC4.5与射频 0
19 BA-C4.5-U与BA-CDT 0
18 BA-CDT与射频 0
17 BA-CDT-U与BA-CC4.5 0
16 BA-C4.5-U与BA-CC4.5-U 0
15 BA-CDT-U与BA-CDT 0
14 BA-CC4.5-U与射频 0
13 BA-C4.5与BA-CC4.5 0.000001
12 BA-C4.5与BA-CDT 0.000056
11 BA-C4.5-U与BA-C4.5 0.000056
10 BA-CDT-U与BA-CC4.5-U 0.000161
9 BA-C4.5与射频 0.000177
8 BA-CC4.5-U与BA-CC4.5 0.00178

7 BA-C4.5-U与BA-CDT-U 0.031355
6 BA-CC4.5-U与BA-CDT 0.033222
5 BA-CC4.5-U与BA-C4.5 0.057705
4 BA-CDT-U与BA-C4.5 0.060822
3 BA-CDT-U与射频 0.060822
2 BA-CDT与BA-CC4.5 0.319611
1 BA-C4.5-U与射频 0.781207

为了清晰、Nemenyi的测试的结果可以看到图形如图1。在这个图表,列表示的值弗里德曼的排名和关键的区别是表达为一个垂直段。当一段列的高度低于另一个列,差异是显著的算法用低秩表示(低列)。

呈现的结果树的平均尺寸(节点数)获得的每个方法,我们使用图2。在这个图中,我们可以看到在一个快速的方法的平均大小树木由每个装袋方法应用于数据集时添加了不同程度的噪音。

我们已经延长使用最近一次测量的研究结果量化的程度的鲁棒性分类器应用于嘈杂的数据集。这个措施是平衡的精确度损失塞斯(ELA)等。25]。

平衡的精确度损失(ELA)测量是一个新的behavior-against-noise允许我们描述一个方法的行为与嘈杂的数据考虑性能和鲁棒性。 测量表达如下: 在哪里 是分类器的准确性没有添加噪音和应用于一个数据集 分类的准确性,它是应用于一个数据集添加噪声水平x%。

测量(存在另一个类似的命名的相对精确度损失塞斯(RLA)等。37]。我们发现 测量比更重要 测量,因为 考虑更高水平的准确性在数据集添加噪声)认为性能没有噪音值规范化程度的成功。这一特点使它特别有用当比较两种不同的分类器在同一数据集。分类器的最小值 将是最健壮的分类器。

15显示的值相等精确度损失( )措施。最好的算法为每个添加噪声水平是确定使用大胆的字体和第二个最好是用斜体表示字体。


方法 10% 20% 30% 40%

BA-C4.5-U 0.1876 0.2169 0.2698 0.3515
BA-CDT-U 0.1878 0.2102 0.2568 0.3392
BA-CC4.5-U 0.1833 0.1969 0.2318 0.3000
BA-C4.5 0.1813 0.1980 0.2391 0.3136
BA-CDT 0.1912 0.2017 0.2259 0.2876
BA-CC4.5 0.1828 0.1932 0.2220 0.2841
射频 0.1836 0.2204 0.2774 0.3604

5。评价结果

从一般的角度来看,我们可以,装袋信条的树(BA-CC4.5和BA-CDT)有一个更好的性能比模型作为参考(BA-C4.5和RF)当添加噪声水平的增加。这不仅对改善准确性,通过弗里德曼和Nemenyi进行的测试,也健壮性的措施。

结果的一个重要特点是,装袋乐团使用信条的树木建立复杂的模型比那些由经典C4.5的装袋,可以看到在图2。当添加噪声水平的增加,使用信条的集装袋模型的复杂性明显小于使用C4.5的。这种复杂性的一个重要方面是一个分类器应用于数据集时,噪音,因为当模型较大,过度拟合的数据有错误也更大。因此,该模型可以产生更糟糕的性能。这是根据图的射频2:随机树射频的复杂性是非常大的;因此射频性能不好时应用于嘈杂的数据集。

接下来,我们将分析结果,在每个级别的添加噪声,主要考虑精度鲁棒性指标。以下几方面必须说。

0 根据弗里德曼的准确性和测试,没有添加噪声, 是最好的模型。我们可以观察到在桌子上9(弗里德曼的排名),所有没有修剪的装袋模型在精度比相同的装袋模型与修剪。此外,BA-C4.5-U是最好的模型与其他装袋模型相比。这些结果与原装袋相干算法(7),为每个引导样品没有修剪树木。这样,树木往往更比如果他们修剪不同。这是一个很好的模型的特点,为减少方差,作为基分类器在装袋时计划。当我们使用unpruned树木,我们增加过度拟合的风险;然而,树木的聚合进行装袋抵消这种风险。我们备注这个断言是没有添加噪声对数据集。

10 添加了这种低水平的噪音,但BA-C4.5现在是最好的模型 对精度受其性能显著恶化。还BA-C4.5-U,优秀的没有添加噪声,现在是最糟糕的方法。必须说,它构建最大的树。BA-CC4.5开始有良好的结果在精度,被第二个更好的分类器这个水平的噪音。的 测量表明,最好的价值是BA-C4.5 BA-CC4.5紧随其后。根据弗里德曼排名的准确性,我们可以观察到每个装袋模型与修剪树木比相同的模型unpruned树添加噪声水平。与这些结果,我们可以得出结论,装袋算法需要聚合树修剪为了操纵数据集添加了低水平的噪音。只使用一个包装方案是不够的,以分类数据集添加了这种水平的噪音。然后,修剪树木也是必要的。

20. 添加了这中级到高级水平的噪音,情况明显不同的最低水平的噪音。这里BA-CC4.5是更好的程序的准确性BA-CDT紧随其后。BA-C4.5仍性能好但它比装袋信条的树木。我们不能说相同的射频性能很差,噪声级增加时变得更糟。Nemenyi测试进行了显著差异的装袋信条的树木相比,RF时没有修剪和一些版本的方法。的 测量BA-CC4.5有最好的结果。BA-C4.5-U再次恶化方法考虑所有的方面进行了分析。树的大小会损害严重的表现。因此,为了获得更好的结果,装袋方案需要使用修剪信条的树应用于数据集时添加了一定程度的噪音大于或等于20%(我们将会看到类似的结论为更高层次的添加噪声)。

30. 和40 与这些水平的添加噪声结果非常相似,我们一起将评论他们的结果。对于这些添加噪声水平,BA-CC4.5总是最好的过程的准确性。另一个模型基于信条的树木,BA-CDT,获得第二个更好的结果。这些评论强化了弗里德曼和Nemenyi进行的测试。在这里,甚至BA-C4.5明显比教义的树的两个包装方案,通过测试进行。射频现在甚至比添加了中等水平的噪音。值得注意的是,方法BA-CC4.5-U(没有修剪)比BA-C4.5修剪方法更好的结果,尽管他们也有类似的平均树大小。鲁棒性测量证实了这些断言。再次BA-CC4.5是最好的模型 衡量。在所有情况下,BA-C4.5培养基结果但相同的模型没有修剪,BA-C4.5-U,现在已经非常糟糕的结果,更糟糕的是这些高水平的添加噪声的方法。第二个更糟糕的结果是通过射频,也不是一个好的程序添加高水平的噪音,当它与包装方案的信条的树木。与这些结果,并考虑增加的20%的噪音,我们可以说装袋的结合,修剪,和教义的树是必要的,当我们想要获得最好的重要结果应用水平的数据集的方法添加噪声大于或等于20%。

关于平均树大小,我们有以下评论。它可以观察到模型BA-CDT构建总是小的树木。也许这就是为什么它适用的原因之一添加了高水平的噪音但没有添加噪声,当它与其他模型。当添加噪声水平的增加,增加的百分比BA-CDT的平均尺寸是最小的一个。BA-CC4.5介质树大小与所有的模型与修剪;我们记得它有像样的结果在精度数据集没有添加噪声,它是最好的模型在精度数据集添加了中、高水平的噪音。在树的大小,下列方法非常相似的大小,BA-C4.5 BA-CC4.5-U,也就是说,修剪的方法和一个unpruned;第二个是更好的精度水平的增加噪声的20 - 40%。在这一点上,我们可以认为,大小不是分裂准则使用同样重要;CC4.5有不同的治疗比C4.5的不精确,就像前面解释的。 The rest of unpruned methods build larger trees, with BA-C4.5 being the one with larger results in tree size but the one with worse results in the rest of aspects, when it is compared with the other methods.

我们可以得出结论,该方法与树中等或中等大小,BA-CC4.5,最好的结果的准确性和鲁棒性的措施,当添加噪声水平的增加。因此,我们可以认为树的大小不是一个模型的一个基本方面的性能在嘈杂的域。

6。结论

最近的模型称为信条的C4.5 (CC4.5)是基于经典的C4.5算法和不精确的概率。在之前的工作中,其优良的性能在噪声领域已被证明。在本文中,我们使用它在装袋方案试验研究。我们已经与其他模型相比,可以被认为是非常适合在这种类型的域:装袋C4.5和装袋信条的决策树(上)。最后一个模型,称为CDT,代表其他程序不精确概率的基础上,提出了几年前非常合适的噪声。

本文获得的结果,我们表明,装袋CC4.5取得优秀的成果应用与标签数据集时的噪音。它的性能比其他的模型作为基准在两个折叠:准确性和噪音措施下的鲁棒性。这一改进是更大的标签噪音水平增加时。

真实的数据一般有噪音。这个原因让我们相信教义的C4.5树的装袋是否一个理想人选从真实的应用程序中使用的数据。它结合了几个资源成功治疗嘈杂的数据:不精确概率,装袋,修剪。因此,它可以被视为一个强大的工具,适用于噪声域。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作一直支持的西班牙“Ministerio de隐藏y Competitividad”和“洋底Europeo de Desarrollo地区”(菲德尔)项目tec2015 - 69496 r。

补充材料

表1。结果准确性的方法用于数据集时没有添加噪音。表2。结果准确性的方法用于数据集时添加噪声的百分比等于10%。表3。结果准确性的方法用于数据集时添加噪声的百分比等于20%。表4。结果准确性的方法用于数据集时添加噪声的百分比等于30%。表5所示。结果准确性的方法用于数据集时添加噪声的百分比等于40%。 Table  6. Average result of the accuracy of the different algorithms when they are built from data sets with added noise. Table  7. Friedman’s ranks about the accuracy of the algorithms when they are applied on data sets with different percentages of added noise. Table  8. Nemenyi测试值对数据集的准确性没有添加噪音。Nemenyi拒绝这些假设未经调整的过程 价值——< 0:002381。表9所示。 Nemenyi测试值对数据集的精度10%的噪音。Nemenyi拒绝这些假设未经调整的过程 价值——< 0:002381。表10。 Nemenyi测试值对数据集的精度20%的噪音。Nemenyi拒绝这些假设未经调整的过程 价值——< 0:002381。表11所示。 Nemenyi测试值对数据集的精度30%的噪音。Nemenyi拒绝这些假设未经调整的过程 价值——< 0:002381。表12。 Nemenyi测试值对数据集的精度40%的噪音。Nemenyi拒绝这些假设未经调整的过程 价值——< 0:002381。表13。 Bonferroni-Dunn测试值对数据集的准确性没有添加噪声,随机森林是最好的方法在弗里德曼的等级。表14。 Bonferroni-Dunn测试值对数据集的精度10%的添加噪声、装袋的C4.5弗里德曼的等级是最好的方法。表15。 Bonferroni-Dunn测试值对数据集的精度20%的添加噪声、装袋的信条的C4.5弗里德曼的等级是最好的方法。表16所示。 Bonferroni-Dunn测试值对数据集的精度30%的添加噪声、装袋的信条的C4.5弗里德曼的等级是最好的方法。表17所示。 Bonferroni-Dunn测试值对数据集的精度40%的添加噪声、装袋的信条的C4.5弗里德曼的等级是最好的方法。(补充材料)

引用

  1. d . j .,分类规则的建设和评估约翰•威利父子,纽约,纽约,美国,1997年。
  2. d . j .,歧视和分类约翰•威利,1981年。
  3. j·r·昆兰C4.5:机器学习项目,摩根Kaufmann出版商公司、旧金山、钙、美国,1993年。
  4. j .珍珠概率推理的智能系统:似是而非的推理网络,摩根考夫曼、波士顿、质量,美国,1988年。视图:MathSciNet
  5. e·b·亨特,j .马林和p .石头诱导实验、学术出版社,1966年。
  6. j·r·昆兰“决策树归纳”,机器学习,1卷,不。1,第106 - 81页,1986。视图:出版商的网站|谷歌学术搜索
  7. l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。视图:谷歌学术搜索
  8. y弗洛伊德和r·e·Schapire”与一种新的提高算法实验,”《十三机器学习国际会议(1996年ICML),l . Saitta Ed,页148 - 156,摩根考夫曼,1996年。视图:谷歌学术搜索
  9. l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
  10. t . g . Dietterich”实验的比较三种方法的决策树构造集合体:装袋,提振,随机化,“机器学习,40卷,不。2、139 - 157年,2000页。视图:出版商的网站|谷歌学术搜索
  11. p·梅尔维尔和r·j·穆尼”,构建多样化的分类器乐团使用人工训练的例子,”诉讼18国际联合会议上的人工智能,IJCAI 03展出出版社,页505 - 510年,摩根Kaufmann Inc .)、旧金山、钙、美国,2003年,http://dl.acm.org/citation.cfm?id=1630659.1630734视图:谷歌学术搜索
  12. L.-Y。戴,C.-M。冯,J.-X。刘,学术界。郑,j . Yu, M.-X。侯”,通过联合健壮的非负矩阵分解图拉普拉斯算子和歧视的信息识别差异表达基因,”复杂性ID 4216797条11页,2017。视图:出版商的网站|谷歌学术搜索|MathSciNet
  13. b . Frenay和m . Verleysen”分类的标签噪音:一项调查,“IEEE神经网络和学习系统,25卷,不。5,845 - 869年,2014页。视图:出版商的网站|谷歌学术搜索
  14. p·韦利,“从多项数据推断:学习一袋球,”ournal皇家统计学会。系列B(方法论),卷。58岁的没有。1,3-57,1996页。视图:谷歌学术搜索|MathSciNet
  15. j . Abellan和美国道德”,构建分类树使用总不确定性准则”,国际期刊的智能系统,18卷,不。12日,第1225 - 1215页,2003年。视图:出版商的网站|谷歌学术搜索
  16. g . j . Klir不确定性和信息,广义信息论的基础Wiley-Interscience,纽约,纽约,美国,2006年。视图:出版商的网站
  17. j . Abellan g . j . Klir, s .道德”分解为信条的集总不确定性测量”,国际杂志的通用系统,35卷,不。1,突然增加,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  18. j . Abellan和美国道德上信条的熵集。教义的分类应用程序”,国际期刊的近似推理,39卷,不。2 - 3、235 - 255年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  19. j . Abellan和A。r . Masegosa filter-wrapper方法选择变量的朴素贝叶斯分类器基于信条的决策树,”国际期刊的不确定性、模糊性和以知识为基础的系统,17卷,不。6,833 - 854年,2009页。视图:出版商的网站|谷歌学术搜索
  20. j . Abellan和j·g .可以见到效果,”基分类器进行比较研究,在整体信用评分方法,”专家系统与应用程序卷,73年,页1 - 10,2017。视图:出版商的网站|谷歌学术搜索
  21. c . j .蝠鲼和j . Abellan Credal-C4.5:决策树基于不精确概率分类嘈杂的数据,”专家系统与应用程序第41卷。。10日,4625 - 4637年,2014页。视图:出版商的网站|谷歌学术搜索
  22. c . j .蝠鲼j . Abellan和j·g .可以见到效果”分析Credal-C4.5分类在嘈杂的领域,”专家系统与应用程序卷,61年,第326 - 314页,2016年。视图:出版商的网站|谷歌学术搜索
  23. j . Abellan和a。r . Masegosa装袋计划在分类的类噪声的存在,”专家系统与应用程序,39卷,不。8,6827 - 6837年,2012页。视图:出版商的网站|谷歌学术搜索
  24. Verbaeten和a . Van典藏”乐团的噪声消除方法分类问题多个分类器系统卷,2709在计算机科学的课堂讲稿海德堡,页317 - 325,激飞柏林,柏林,海德堡,2003年。视图:出版商的网站|谷歌学术搜索
  25. j·a·塞斯,j . Luengo, f . Herrera”评估分类器行为与嘈杂的数据考虑性能和健壮性:测量准确性的平衡的损失,”Neurocomputing卷。176年,26 - 35周不等,2016页。视图:出版商的网站|谷歌学术搜索
  26. e . t .我们“最大熵方法的基本原理,IEEE学报》,卷70,不。9日,第952 - 939页,1982年。视图:出版商的网站|谷歌学术搜索
  27. c·e·香农”通信的数学理论,贝尔实验室技术杂志27卷,第423 - 379页,623 - 656年,1948年。视图:出版商的网站|谷歌学术搜索|MathSciNet
  28. j . Abellan”措施的不确定性概率区间的不精确的狄利克雷模型,”国际杂志的通用系统,35卷,不。5,509 - 528年,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  29. l . Breiman j·h·弗里德曼,r . a . Olshen和c . j .石头,分类和回归树沃兹沃思贝尔蒙特,质量,美国,1984年。视图:MathSciNet
  30. m . LichmanUCI机器学习库,2013,http://archive.ics.uci.edu/ml
  31. i . h .威滕·e·弗兰克,数据挖掘:实用机器学习工具和技术,摩根Kaufmann系列在数据管理系统中,摩根Kaufmann出版商Inc .,旧金山,CA,美国,第二版,2005年版。
  32. j . Demšar”统计比较分类器在多个数据集,“机器学习研究杂志》上7卷,外墙面,2006页。视图:谷歌学术搜索|MathSciNet
  33. j . Alcala-Fdez l·桑切斯s加西亚et al .,“龙骨:软件工具来评估数据挖掘问题的进化算法,”软计算,13卷,不。3、307 - 318年,2009页。视图:出版商的网站|谷歌学术搜索
  34. m·弗里德曼“使用中避免正常隐式的假设方差分析,“美国统计协会杂志》上,32卷,不。200年,第701 - 675页,1937年。视图:出版商的网站|谷歌学术搜索
  35. m·弗里德曼“比较替代测试的意义m排名的问题,“数理统计年鉴中,11卷,不。1,第92 - 86页,1940。视图:出版商的网站|谷歌学术搜索|MathSciNet
  36. p . Nemenyi传播变为免费多重比较(博士论文)美国新泽西州普林斯顿大学,1963。
  37. j·A·塞斯,j . Luengo f . Herrera,“基于模糊规则的分类系统和脆健壮的学习者培训类噪声的存在影响:一个案例研究,”学报2011年11日智能系统设计与应用国际会议上,ISDA的11西班牙,页1229 - 1234年,2011年11月。视图:出版商的网站|谷歌学术搜索

版权©2017华金Abellan et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

对本文没有相关内容可用。
PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1341年
下载666年
引用

相关文章

对本文没有相关内容可用。

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读