研究文章|开放获取
华金Abellan,哈维尔·g .可以见到效果,卡洛斯·j·蝠鲼, ”新的强大的分类器噪声域:装袋的信条的C4.5树”,复杂性, 卷。2017年, 文章的ID9023970, 17 页面, 2017年。 https://doi.org/10.1155/2017/9023970
新的强大的分类器噪声域:装袋的信条的C4.5树
文摘
从数据中提取知识与噪声或离群值在数据挖掘领域是一个复杂的问题。通常情况下,它是不容易消除那些有问题的实例。从这种类型的数据获取信息,使用健壮的分类器是最好的选择。其中一个是装袋计划在薄弱的单分类器的应用。教义的C4.5 (CC4.5)模型是一种新的分类树过程基于经典的C4.5算法和不精确的概率。它代表了一种所谓的教义的树。已经证明CC4.5更健壮的噪音比以前C4.5方法甚至比其他教义的树模型。本文在装袋CC4.5模型方案的性能在嘈杂的域。添加噪声的试验研究数据集是为了对比结果进行装袋方案应用于教义的树木和C4.5过程。作为基准,已知的随机森林(RF)分类方法也使用。它将表明,装袋合奏使用修剪信条的树优于成功装袋C4.5和射频与中级到高级的数据集时噪声水平进行分类。
1。介绍
监督分类(1在数据挖掘)是一个重要的任务,一组观测或情况下,由一组描述属性(也称为特性或预测变量),变量的赋值或标签分类,也叫类变量。该变量必须离散;在其他情况下,学习的过程叫做回归的任务。分类器可以被视为一个学习方法从数据获得一套法律来预测类为每个新观测变量值。为了建立一个分类器的数据,可以使用不同的方法,如经典统计方法(2),决策树(3)和人工神经网络和贝叶斯网络4]。
决策树(DTs),也被称为分类树或分层分类器,是一种分类器,结构简单,知识表示是相对简单的解释。决策树可以被看作是一组规则树格式紧凑,在那里,在每个节点,一个属性变量引入;和树叶(或结束节点)我们有一个标签的类变量或一组概率为每个类标签。亨特等的工作(5)是决策树的起源,虽然他们开始获得重要的出版ID3算法提出的昆兰(6]。后来,昆兰提出了C4.5 [3)算法,这是以前的一个改进的ID3,获得更好的结果。这种分类器的特点不稳定,很少有变化的数据模型可以产生重要的差异。
信息的融合获得通过集合体或组合的几个分类器可以改善的最后过程分类任务;这可以通过一个改进的准确性和鲁棒性。一些比较流行的方案装袋(7],增加[8),或者随机森林9]。决策树(固有的不稳定性7)使这些分类器非常适合用于集合体。
类噪声,也被称为标签的噪音或分类的噪音时,被命名为这些情况出现的数据集不正确的类标签。这种情况主要是出于学习和/或测试的缺陷数据捕获过程,如错误的疾病诊断方法和人为错误类标签分配(见[10- - - - - -12])。最重要的一个程序在分类任务的情况下成功的领域是使用分类器或应用程序集合。在文献中关于分类的嘈杂的域,装袋方案是最成功的计划。这个整体方案特点,它减少了方差和避免过度拟合。完整的机器学习方法和最近修订操作标签噪声可以在[13]。
另一方面,直到几年前,古典概率论(PT)的基本工具来构造一个分类的方法。许多理论代表信息出现的泛化PT,如理论的证据,措施的可能性,间隔的概率,和二阶能力。每一个代表的模型不精确概率(参见韦利(14])。
Abellan的信条的决策树(CDT)模型和道德15)使用不精确概率和一般不确定性的措施(见Klir [16构建决策树)。CDT模型代表一个扩展经典ID3模型的昆兰(6),更换精确概率和不精确概率和最大熵的熵。最后总不确定性的测量是一个广为接受的对于一些特殊类型的不精确概率(Abellan et al。17])。在过去的几年内,已经检查,CDT模型提供了良好的实验结果标准分类任务(见Abellan和道德18]和Abellan Masegosa [19])。包装方案,使用CDT作为基分类器,已被用于特定任务的分类数据集对信用评分(见Abellan和可以见到效果20.])。包装方案,使用一种信条的树不同于CDT在[15)将被描述在这工作。这个新模型达到更好的结果比CDT的装袋(所示20.]数据集时添加噪声进行分类。
蝠鲼和Abellan [21],昆兰的古典C4.5方法[3)已被修改使用类似的工具用于CDT的方法。新算法叫做信条的C4.5算法(CC4.5)。结果表明,使用不精确概率数据挖掘中有一些实用的优点:操作总数的无知是前后一致地解决不确定性或不一致是充分代表。因此,在嘈杂的域,这些分类器性能优良。这一主张在蝠鲼和Abellan可以检查21)和蝠鲼et al。22]。在[21),新CC4.5带来更好的结果比经典C4.5时应用于大量的数据集与不同层次的类噪声。在[22],CC4.5的性能与不同的参数值分析数据集时不同的噪音水平进行分类和信息最好的价值呢得到的噪声级的数据集。在这个工作,装袋方案分类器将使用CC4.5作为基地,取得了很好的结果数据集时添加噪声进行分类。
DTs与低偏差和高方差模型。通常,方差和过度拟合是减少使用postpruning技术。当我们说,合奏方法像装袋也用来降低方差和过度拟合。CDT程序和CC4.5还代表其他方法来减少这两个特征在分类过程。因此,我们有三种方法来减少方差和过度拟合在一个分类任务,可以应用于嘈杂的域时尤其重要。我们在这里证明这三种技术的结合(装袋+修剪+信条的树)代表一个融合噪声领域取得成功的工具。这个断言所示工作通过一组实验的装袋合奏执行过程通过使用不同的模型树(CDT, C4.5和教义的C4.5)有无postpruning过程。
实验中,我们显示的性能CC4.5模型时插入已知装袋(称为装袋CC4.5)的整体方案和应用与不同级别的标签数据集的噪音。这个模型得到改进与其他已知的各个分类器中使用这种类型的设置:C4.5的装袋计划模型和已知的随机森林分类器(RF)。文献所示,装袋方案与C4.5模型通常是赢得模型在很多研究中关于噪声分类23,24]。
装袋方案过程中,使用CC4.5作为基分类器,成功有三个重要特征在嘈杂的领域:(A)的不同处理不精确,(b)使用的包装方案,和(c)生产中型树(它固有的模式和相关(A))。
加强分析的结果,我们将使用最近的指标量化程度的鲁棒性的分类器是应用于嘈杂的数据集。这个措施是平衡的精确度损失(ELA)以及et al。25]。我们将看到,装袋计划使用CC4.5达到最佳值添加了这项措施的水平噪声增加。
剩下的纸是组织如下。节2,我们首先必要的先前知识决策树,教义的决策树,Credal-C4.5算法,以及使用的整体方案。部分4包含整体的评估方法的实验结果研究了各种不同数据集的比例添加噪音。部分5对实验进行了描述和评价。最后,部分6致力于的结论。
2。经典的DTs和DTs基于不精确概率
决策树是简单的模型,可以作为分类器。的情况下被一个或多个元素属性变量(也称为预测属性或特性),由一个类变量变量在研究,分类树可以用来预测类值的元素通过考虑它的属性值。在这种结构中,每个nonleaf节点代表一个属性变量之间的边缘或分支节点及其子节点代表属性变量的值,而每个叶节点通常指定一个类变量的精确值。
推断的过程决策树主要由以下方面:(1)的划分的标准,该方法用于选择要插入的属性节点和分支(2)标准的分支(3)方法分配一个类标签或在叶节点概率分布
过程来构建一个可选的最后一步DTs,用于减少模型的过度拟合训练集,如下:(4)postpruning过程用于简化树结构
在经典的程序构建DTs,使用基于PT的测量信息,则停止分支(上图点)通常是这样的:当信息没有改善的措施或者当一个阈值增益的测量。关于上面的点 ,类变量的值插入一个叶节点是一个与多个频率的分区数据与该叶子节点相关联;相关的概率分布也可以插入。然后校长构建DTs所有程序之间的差异是点 ,即分割准则用于选择属性变量插入一个节点。
考虑经典的划分标准和基于不精确概率分割标准,区分它们的一个基本观点是如何从数据获取概率。我们将比较经典的过程使用精确的概率的一个基于不精确的狄利克雷模型(IDM)韦利(14基于不精确概率:(我)在经典分割标准,与状态相关的概率类变量,一个分区的数据,是经典的频率的这种状态分区。正式,让的类变量 ,让的分区数据集的概率与分区有关 在哪里是数据的数量与状态 在分区设置 ;和是数据的总数的分区, 。(2)当我们使用IDM模型不精确概率(参见韦利(14]),一个状态的概率类的变量是用不同的方式获得。使用相同的符号,现在通过获得的概率是一个区间的概率: 的参数是一个属于IDM hyperparameter。参数的值调节上、下的收敛速度概率当样本容量也在不断增加。更高的值产生一个额外的谨慎的推理。韦利(14不给一个决定性的建议参数的值 ,但他提出的两位候选人: 和 ;然而,他建议值 。很容易检查间隔的大小增加的价值增加。
在下面几节中,我们将解释经典的分割标准之间的差异和基于不精确概率的平行。我们将比较经典Info-Gain昆兰(6)与不精确的Info-GainAbellan和道德的15)和Info-Gain比率昆兰(3)与不精确的Info-Gain比率蝠鲼和Abellan [21]。最后的过程来选择要插入一个节点变量由每个分割标准表中可以看到1。
|
||||||||||||||
经典的标准通常使用香农的测量为基础的信息,并基于不精确概率的使用最大熵度量。这种方法是基于最大不确定性的原则(16)广泛应用于经典信息理论,它被称为最大熵原理(26]。这一原则表明,最大熵的概率分布,可用兼容限制,必须选择。最大熵测量验证的一个重要组属性理论基于不精确概率是概率论的概括(见Klir [16])。
2.1。Info-Gain和不精确的Info-Gain
上面的符号后,让是一个属于通用特性的值 。让是一般的分区数据集。Info-Gain (IG)标准介绍了昆兰作为他的ID3的基础模型(6),解释如下:(我)类变量的熵C的数据集是香农熵(27),它被定义为 在哪里代表类的概率在 。(2)平均熵产生的属性是 在哪里 代表的概率在 。 的子集 ,在哪里 。
最后,我们可以定义Info-Gain如下:
不精确的Info-Gain (IIG) (15)是基于不精确概率,利用不确定性措施信条的集(闭凸集的概率分布)。它介绍了建立所谓的教义的决策树(CDT)模型。概率区间得到的数据集使用韦利的不精确的狄利克雷模型(IDM) [14)(一种特殊类型的信条的集(28])。数学基础应用描述如下。
使用上面的符号, ,定义为每个值的变量 ,通过IDM获得: 在哪里的频率是在数据集,是样本容量,是属于IDM hyperparameter。
表示给上升到一种特定的教义的变量 , (28]。这组被定义如下:
在这种类型的集合(真正信条的集,28可以应用]),不确定性的措施。程序构建上使用最大熵函数在上述定义的教义的。这个函数,表示 ,定义在以下方式:
获得的过程特殊情况的IDM计算成本达到最低 (见Abellan [28更多细节)。
该方案诱导上就像一个经典的ID3算法所使用的(6),替换它Info-Gain分割标准的不精确的Info-Gain(IIG)分裂准则可定义在以下方式: 在哪里计算通过类似的方式搞笑的标准(更扩大解释,看到蝠鲼和Abellan [21])。
它应该被考虑,一个变量和一个数据集 , 可以是负的。这种情况不发生Info-Gain判据。这一重要特点意味着IIG判据可以丢弃恶化的信息类变量的变量。这是一个重要的特征模型,该模型可以被看作是一个额外的标准停止树的分支,降低模型的过度拟合。
至于搞笑和IIG,每个标准的第一部分是一个恒定值为每个属性变量。这两个标准选择的不确定性的变量值较低的类变量属性变量时,表示在第二部分(5)和(9)。这可以被视为一种方案表1。
2.2。Info-Gain比率和不精确的Info-Gain比率
的Info-Gain比率(IGR)标准介绍了C4.5模型(3为了提高ID3模型。与许多州IGR惩罚变量。这是定义如下: 在哪里
方法构建信条的C4.5树(21)类似于昆兰的C4.5算法(3]。教义的C4.5是由取代Info-Gain比率从C4.5分割标准不精确的Info-Gain比率(IIGR)拆分条件。主要的区别在于,教义的C4.5估计的值通过使用不精确概率特性和类变量。这一标准可以定义如下: 在哪里SplitInfo定义在(11),不精确的Info-Gain(IIG) 在哪里和 是教义的集获得通过的IDM吗和变量,分别为一个分区的数据集15];和 是一个概率分布,属于信条的准备好了吗 。
我们选择的概率分布从最大化以下表达式: 这是简单的计算这个概率分布。更多细节,请参阅蝠鲼和Abellan21]。
2.3。装袋决策树
在机器学习中,考虑几个观点的想法之前决定当几个分类器结合应用。这叫不同的名字如多个分类器系统,分类器的委员会,专家,或ensemble-based系统。通常情况下,决策树的整体达到一个比单个分类器更好的性能(10]。
通常的战略决策树的组合是基于多个决策树的创建聚合多数票判据。如果出现一个非机密的实例,那么每一个分类器进行预测和类的票数最高的价值分配的实例。
Breiman的装袋(7)(或引导聚合)是一个直观和简单的方法,显示了良好的性能,降低了方差,并避免过度拟合。通常是用决策树实现,但是它与任何类型的分类器可以应用。多样性装袋获得通过生成复制引导原始训练数据集的数据集:“不同的训练数据集随机替换从原始训练集和,因此,复制训练数据集具有相同的大小作为原始数据,但某些情况下可能不出现或可能出现不止一次。”之后,一个决策树构建与每个新实例的训练数据集使用的标准方法29日]。因此,从一个不同的数据集,构建每棵树几个得到决策树,这是由一组不同的变量,节点和叶子。最后,这些树的预测相结合的多数投票标准。
3所示。装袋信条的C4.5和噪音
装袋信条的C4.5由使用装袋的方案,提出了在上一节中,教义的C4.5算法作为基分类器。CC4.5和经典C4.5是分裂的区别标准。CC4.5使用IIGR测量和C4.5使用IGR。它可以显示测量IIGR比测量IGR对噪声不敏感。因此,CC4.5可以嘈杂的数据集上执行一个分类的任务比经典C4.5是实验中演示(21]。
下面的例子说明了情况下,衡量IIGR比测量IGR更健壮的噪音。
例1。让我们假设一个数据集被噪声和由15改变情况下,9类的实例和6类的实例
。它可以认为有两个二进制特征变量和
。根据这些变量的值,实例是有组织的如下:
如果这个数据集出现在树的节点,然后C4.5算法选择的变量因为对于分裂节点
在哪里嘈杂的数据集是由15个实例。
它可以认为数据集是吵闹的,因为它有一个异常点时
和类是
。通过这种方式,干净的分布是由10类的实例和5类的实例
,组织在以下方式:
当这个数据集出现在树的节点,然后C4.5算法选择的变量因为对于分裂节点
在哪里干净的数据集是由15个实例。
它可以观察到,C4.5算法,通过IGR标准,创建了一个不正确的子树在嘈杂的数据处理。然而,树用IIGR标准(和建造的
)选择变量把节点在这两种情况下(嘈杂的数据集和干净的数据集)。也就是说,
在哪里与噪声的数据集,然后呢
在哪里是干净的数据集。
这个例子显示了不同的鲁棒性。CC4.5比C4.5算法更健壮的噪音。出于这个原因,装袋信条的C4.5比装袋C4.5也更健壮的噪音。这一事实将证明本文的实验。
4所示。实验
在本节中,我们将描述实验和获得的结果发表评论。我们选择了50个著名的机器学习领域的数据集,从获得的UCI机器学习库(30.]。所选择的数据集是非常不同的样本大小、属性的数量和类型变量,类变量的状态数,等等。表2简要描述所使用的数据集的特点。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们已经进行了研究教义的C4.5的装袋数据和添加噪声相比,随机森林算法(9和其他基于树模型的装袋:C4.5 [10]和CDT [23]。我们使用每个模型和没有postpruning过程。每个模型的修剪过程已经为每个模型所使用的一个缺陷。因此,算法被认为是以下的:(我)装袋C4.5 unpruned卷发(BA-C4.5-U)(2)unpruned装袋上树(BA-CDT-U)(3)装袋信条的C4.5和unpruned树(BA-CC4.5-U)(iv)装袋C4.5 (BA-C4.5)(v)装袋上(BA-CDT)(vi)装袋信条的C4.5 (BA-CC4.5)(七)随机森林(RF)
的Weka软件(31日)已被用于实验。方法BA-CDT和BA-CC4.5及其版本unpruned树使用数据结构的实现Weka。提供的C4.5算法的实现Weka软件,叫做J48,采用其默认配置。我们添加了必要的方法来构建信条的C4.5树具有相同实验条件。在上和教义的C4.5 IDM被设定的参数 ,即在原来的方法使用的值(18,21),分别。使用这个值是主要的原因,这是韦利(建议的价值14];和程序获得最大熵值达到最低成本计算这个值(见[28])。
装袋集合体的实现和随机森林所提供的Weka使用默认配置时,除了树的数量用于这些方法是等于100决策树。尽管树的数量可以强烈影响整体的性能,这是一个合理的低到中等大小的树木数量在这项研究中使用的数据集,而且这是树的数量用于相关研究,如(8]。
使用Weka的过滤器,我们添加了以下类变量的随机噪声的百分比:0%,10%,20%,30%,和40%,只有在训练数据集。过程引入噪声:给定的训练数据集的实例是随机选择的,然后,他们当前类值随机更改为其他可能的值。属于测试数据集的实例修改的。
我们重复10次10倍交叉验证程序为每个数据集。这是一个非常了解和使用验证过程。表3,4,5,6,7显示的准确性的方法添加了不同比例的噪音。表8总结了平均精度的结果,最好的算法为每个添加噪声水平是强调使用粗体字体和第二个最好是用斜体字体。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
下面的建议Demšar [32),我们使用一系列测试来比较使用的方法软件(33]。我们使用以下测试比较多个分类器在多个数据集。
弗里德曼测试(弗里德曼(34,35])。非参数检验,分别排名算法为每个数据集,表现最好的算法被分配的秩1和第二个最佳分配的秩2等等。零假设是所有算法是等价的。如果拒绝零假设,我们可以比较算法相互使用Nemenyi测试(36]。
所有的测试进行了水平的意义 。因此,表9显示了弗里德曼的排名的准确性方法应用于数据集时添加了不同程度的噪音。最好的算法为每个噪声是强调使用粗体字体和第二最好使用斜体字体标记。表10,11,12,13,14显示了pNemenyi测试的值对比较应用于数据集时添加了不同比例的噪音。在所有情况下,Nemenyi测试拒绝假设,如果相应的算法是等价的p值≤0.002381。当有显著差异,最好的算法是杰出的大胆的字体。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
为了清晰、Nemenyi的测试的结果可以看到图形如图1。在这个图表,列表示的值弗里德曼的排名和关键的区别是表达为一个垂直段。当一段列的高度低于另一个列,差异是显著的算法用低秩表示(低列)。
呈现的结果树的平均尺寸(节点数)获得的每个方法,我们使用图2。在这个图中,我们可以看到在一个快速的方法的平均大小树木由每个装袋方法应用于数据集时添加了不同程度的噪音。
我们已经延长使用最近一次测量的研究结果量化的程度的鲁棒性分类器应用于嘈杂的数据集。这个措施是平衡的精确度损失塞斯(ELA)等。25]。
的平衡的精确度损失(ELA)测量是一个新的behavior-against-noise允许我们描述一个方法的行为与嘈杂的数据考虑性能和鲁棒性。测量表达如下: 在哪里是分类器的准确性没有添加噪音和应用于一个数据集分类的准确性,它是应用于一个数据集添加噪声水平x%。
的测量(存在另一个类似的命名的相对精确度损失塞斯(RLA)等。37]。我们发现测量比更重要测量,因为考虑更高水平的准确性在数据集添加噪声)认为性能没有噪音值规范化程度的成功。这一特点使它特别有用当比较两种不同的分类器在同一数据集。分类器的最小值将是最健壮的分类器。
表15显示的值相等精确度损失( )措施。最好的算法为每个添加噪声水平是确定使用大胆的字体和第二个最好是用斜体表示字体。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
5。评价结果
从一般的角度来看,我们可以,装袋信条的树(BA-CC4.5和BA-CDT)有一个更好的性能比模型作为参考(BA-C4.5和RF)当添加噪声水平的增加。这不仅对改善准确性,通过弗里德曼和Nemenyi进行的测试,也健壮性的措施。
结果的一个重要特点是,装袋乐团使用信条的树木建立复杂的模型比那些由经典C4.5的装袋,可以看到在图2。当添加噪声水平的增加,使用信条的集装袋模型的复杂性明显小于使用C4.5的。这种复杂性的一个重要方面是一个分类器应用于数据集时,噪音,因为当模型较大,过度拟合的数据有错误也更大。因此,该模型可以产生更糟糕的性能。这是根据图的射频2:随机树射频的复杂性是非常大的;因此射频性能不好时应用于嘈杂的数据集。
接下来,我们将分析结果,在每个级别的添加噪声,主要考虑精度和鲁棒性指标。以下几方面必须说。
0 。根据弗里德曼的准确性和测试,没有添加噪声,是最好的模型。我们可以观察到在桌子上9(弗里德曼的排名),所有没有修剪的装袋模型在精度比相同的装袋模型与修剪。此外,BA-C4.5-U是最好的模型与其他装袋模型相比。这些结果与原装袋相干算法(7),为每个引导样品没有修剪树木。这样,树木往往更比如果他们修剪不同。这是一个很好的模型的特点,为减少方差,作为基分类器在装袋时计划。当我们使用unpruned树木,我们增加过度拟合的风险;然而,树木的聚合进行装袋抵消这种风险。我们备注这个断言是没有添加噪声对数据集。
10 。添加了这种低水平的噪音,但BA-C4.5现在是最好的模型对精度受其性能显著恶化。还BA-C4.5-U,优秀的没有添加噪声,现在是最糟糕的方法。必须说,它构建最大的树。BA-CC4.5开始有良好的结果在精度,被第二个更好的分类器这个水平的噪音。的测量表明,最好的价值是BA-C4.5 BA-CC4.5紧随其后。根据弗里德曼排名的准确性,我们可以观察到每个装袋模型与修剪树木比相同的模型unpruned树添加噪声水平。与这些结果,我们可以得出结论,装袋算法需要聚合树修剪为了操纵数据集添加了低水平的噪音。只使用一个包装方案是不够的,以分类数据集添加了这种水平的噪音。然后,修剪树木也是必要的。
20. 。添加了这中级到高级水平的噪音,情况明显不同的最低水平的噪音。这里BA-CC4.5是更好的程序的准确性BA-CDT紧随其后。BA-C4.5仍性能好但它比装袋信条的树木。我们不能说相同的射频性能很差,噪声级增加时变得更糟。Nemenyi测试进行了显著差异的装袋信条的树木相比,RF时没有修剪和一些版本的方法。的测量BA-CC4.5有最好的结果。BA-C4.5-U再次恶化方法考虑所有的方面进行了分析。树的大小会损害严重的表现。因此,为了获得更好的结果,装袋方案需要使用修剪信条的树应用于数据集时添加了一定程度的噪音大于或等于20%(我们将会看到类似的结论为更高层次的添加噪声)。
30. 和40 。与这些水平的添加噪声结果非常相似,我们一起将评论他们的结果。对于这些添加噪声水平,BA-CC4.5总是最好的过程的准确性。另一个模型基于信条的树木,BA-CDT,获得第二个更好的结果。这些评论强化了弗里德曼和Nemenyi进行的测试。在这里,甚至BA-C4.5明显比教义的树的两个包装方案,通过测试进行。射频现在甚至比添加了中等水平的噪音。值得注意的是,方法BA-CC4.5-U(没有修剪)比BA-C4.5修剪方法更好的结果,尽管他们也有类似的平均树大小。鲁棒性测量证实了这些断言。再次BA-CC4.5是最好的模型衡量。在所有情况下,BA-C4.5培养基结果但相同的模型没有修剪,BA-C4.5-U,现在已经非常糟糕的结果,更糟糕的是这些高水平的添加噪声的方法。第二个更糟糕的结果是通过射频,也不是一个好的程序添加高水平的噪音,当它与包装方案的信条的树木。与这些结果,并考虑增加的20%的噪音,我们可以说装袋的结合,修剪,和教义的树是必要的,当我们想要获得最好的重要结果应用水平的数据集的方法添加噪声大于或等于20%。
关于平均树大小,我们有以下评论。它可以观察到模型BA-CDT构建总是小的树木。也许这就是为什么它适用的原因之一添加了高水平的噪音但没有添加噪声,当它与其他模型。当添加噪声水平的增加,增加的百分比BA-CDT的平均尺寸是最小的一个。BA-CC4.5介质树大小与所有的模型与修剪;我们记得它有像样的结果在精度数据集没有添加噪声,它是最好的模型在精度数据集添加了中、高水平的噪音。在树的大小,下列方法非常相似的大小,BA-C4.5 BA-CC4.5-U,也就是说,修剪的方法和一个unpruned;第二个是更好的精度水平的增加噪声的20 - 40%。在这一点上,我们可以认为,大小不是分裂准则使用同样重要;CC4.5有不同的治疗比C4.5的不精确,就像前面解释的。 The rest of unpruned methods build larger trees, with BA-C4.5 being the one with larger results in tree size but the one with worse results in the rest of aspects, when it is compared with the other methods.
我们可以得出结论,该方法与树中等或中等大小,BA-CC4.5,最好的结果的准确性和鲁棒性的措施,当添加噪声水平的增加。因此,我们可以认为树的大小不是一个模型的一个基本方面的性能在嘈杂的域。
6。结论
最近的模型称为信条的C4.5 (CC4.5)是基于经典的C4.5算法和不精确的概率。在之前的工作中,其优良的性能在噪声领域已被证明。在本文中,我们使用它在装袋方案试验研究。我们已经与其他模型相比,可以被认为是非常适合在这种类型的域:装袋C4.5和装袋信条的决策树(上)。最后一个模型,称为CDT,代表其他程序不精确概率的基础上,提出了几年前非常合适的噪声。
本文获得的结果,我们表明,装袋CC4.5取得优秀的成果应用与标签数据集时的噪音。它的性能比其他的模型作为基准在两个折叠:准确性和噪音措施下的鲁棒性。这一改进是更大的标签噪音水平增加时。
真实的数据一般有噪音。这个原因让我们相信教义的C4.5树的装袋是否一个理想人选从真实的应用程序中使用的数据。它结合了几个资源成功治疗嘈杂的数据:不精确概率,装袋,修剪。因此,它可以被视为一个强大的工具,适用于噪声域。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作一直支持的西班牙“Ministerio de隐藏y Competitividad”和“洋底Europeo de Desarrollo地区”(菲德尔)项目tec2015 - 69496 r。
补充材料
表1。结果准确性的方法用于数据集时没有添加噪音。表2。结果准确性的方法用于数据集时添加噪声的百分比等于10%。表3。结果准确性的方法用于数据集时添加噪声的百分比等于20%。表4。结果准确性的方法用于数据集时添加噪声的百分比等于30%。表5所示。结果准确性的方法用于数据集时添加噪声的百分比等于40%。 Table 6. Average result of the accuracy of the different algorithms when they are built from data sets with added noise. Table 7. Friedman’s ranks about the accuracy of the algorithms when they are applied on data sets with different percentages of added noise. Table 8.Nemenyi测试值对数据集的准确性没有添加噪音。Nemenyi拒绝这些假设未经调整的过程价值——< 0:002381。表9所示。Nemenyi测试值对数据集的精度10%的噪音。Nemenyi拒绝这些假设未经调整的过程价值——< 0:002381。表10。Nemenyi测试值对数据集的精度20%的噪音。Nemenyi拒绝这些假设未经调整的过程价值——< 0:002381。表11所示。Nemenyi测试值对数据集的精度30%的噪音。Nemenyi拒绝这些假设未经调整的过程价值——< 0:002381。表12。Nemenyi测试值对数据集的精度40%的噪音。Nemenyi拒绝这些假设未经调整的过程价值——< 0:002381。表13。Bonferroni-Dunn测试值对数据集的准确性没有添加噪声,随机森林是最好的方法在弗里德曼的等级。表14。Bonferroni-Dunn测试值对数据集的精度10%的添加噪声、装袋的C4.5弗里德曼的等级是最好的方法。表15。Bonferroni-Dunn测试值对数据集的精度20%的添加噪声、装袋的信条的C4.5弗里德曼的等级是最好的方法。表16所示。Bonferroni-Dunn测试值对数据集的精度30%的添加噪声、装袋的信条的C4.5弗里德曼的等级是最好的方法。表17所示。Bonferroni-Dunn测试值对数据集的精度40%的添加噪声、装袋的信条的C4.5弗里德曼的等级是最好的方法。(补充材料)
引用
- d . j .,分类规则的建设和评估约翰•威利父子,纽约,纽约,美国,1997年。
- d . j .,歧视和分类约翰•威利,1981年。
- j·r·昆兰C4.5:机器学习项目,摩根Kaufmann出版商公司、旧金山、钙、美国,1993年。
- j .珍珠概率推理的智能系统:似是而非的推理网络,摩根考夫曼、波士顿、质量,美国,1988年。视图:MathSciNet
- e·b·亨特,j .马林和p .石头诱导实验、学术出版社,1966年。
- j·r·昆兰“决策树归纳”,机器学习,1卷,不。1,第106 - 81页,1986。视图:出版商的网站|谷歌学术搜索
- l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。视图:谷歌学术搜索
- y弗洛伊德和r·e·Schapire”与一种新的提高算法实验,”《十三机器学习国际会议(1996年ICML),l . Saitta Ed,页148 - 156,摩根考夫曼,1996年。视图:谷歌学术搜索
- l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
- t . g . Dietterich”实验的比较三种方法的决策树构造集合体:装袋,提振,随机化,“机器学习,40卷,不。2、139 - 157年,2000页。视图:出版商的网站|谷歌学术搜索
- p·梅尔维尔和r·j·穆尼”,构建多样化的分类器乐团使用人工训练的例子,”诉讼18国际联合会议上的人工智能,IJCAI 03展出出版社,页505 - 510年,摩根Kaufmann Inc .)、旧金山、钙、美国,2003年,http://dl.acm.org/citation.cfm?id=1630659.1630734。视图:谷歌学术搜索
- L.-Y。戴,C.-M。冯,J.-X。刘,学术界。郑,j . Yu, M.-X。侯”,通过联合健壮的非负矩阵分解图拉普拉斯算子和歧视的信息识别差异表达基因,”复杂性ID 4216797条11页,2017。视图:出版商的网站|谷歌学术搜索|MathSciNet
- b . Frenay和m . Verleysen”分类的标签噪音:一项调查,“IEEE神经网络和学习系统,25卷,不。5,845 - 869年,2014页。视图:出版商的网站|谷歌学术搜索
- p·韦利,“从多项数据推断:学习一袋球,”ournal皇家统计学会。系列B(方法论),卷。58岁的没有。1,3-57,1996页。视图:谷歌学术搜索|MathSciNet
- j . Abellan和美国道德”,构建分类树使用总不确定性准则”,国际期刊的智能系统,18卷,不。12日,第1225 - 1215页,2003年。视图:出版商的网站|谷歌学术搜索
- g . j . Klir不确定性和信息,广义信息论的基础Wiley-Interscience,纽约,纽约,美国,2006年。视图:出版商的网站
- j . Abellan g . j . Klir, s .道德”分解为信条的集总不确定性测量”,国际杂志的通用系统,35卷,不。1,突然增加,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j . Abellan和美国道德上信条的熵集。教义的分类应用程序”,国际期刊的近似推理,39卷,不。2 - 3、235 - 255年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j . Abellan和A。r . Masegosa filter-wrapper方法选择变量的朴素贝叶斯分类器基于信条的决策树,”国际期刊的不确定性、模糊性和以知识为基础的系统,17卷,不。6,833 - 854年,2009页。视图:出版商的网站|谷歌学术搜索
- j . Abellan和j·g .可以见到效果,”基分类器进行比较研究,在整体信用评分方法,”专家系统与应用程序卷,73年,页1 - 10,2017。视图:出版商的网站|谷歌学术搜索
- c . j .蝠鲼和j . Abellan Credal-C4.5:决策树基于不精确概率分类嘈杂的数据,”专家系统与应用程序第41卷。。10日,4625 - 4637年,2014页。视图:出版商的网站|谷歌学术搜索
- c . j .蝠鲼j . Abellan和j·g .可以见到效果”分析Credal-C4.5分类在嘈杂的领域,”专家系统与应用程序卷,61年,第326 - 314页,2016年。视图:出版商的网站|谷歌学术搜索
- j . Abellan和a。r . Masegosa装袋计划在分类的类噪声的存在,”专家系统与应用程序,39卷,不。8,6827 - 6837年,2012页。视图:出版商的网站|谷歌学术搜索
- Verbaeten和a . Van典藏”乐团的噪声消除方法分类问题多个分类器系统卷,2709在计算机科学的课堂讲稿海德堡,页317 - 325,激飞柏林,柏林,海德堡,2003年。视图:出版商的网站|谷歌学术搜索
- j·a·塞斯,j . Luengo, f . Herrera”评估分类器行为与嘈杂的数据考虑性能和健壮性:测量准确性的平衡的损失,”Neurocomputing卷。176年,26 - 35周不等,2016页。视图:出版商的网站|谷歌学术搜索
- e . t .我们“最大熵方法的基本原理,IEEE学报》,卷70,不。9日,第952 - 939页,1982年。视图:出版商的网站|谷歌学术搜索
- c·e·香农”通信的数学理论,贝尔实验室技术杂志27卷,第423 - 379页,623 - 656年,1948年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j . Abellan”措施的不确定性概率区间的不精确的狄利克雷模型,”国际杂志的通用系统,35卷,不。5,509 - 528年,2006页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- l . Breiman j·h·弗里德曼,r . a . Olshen和c . j .石头,分类和回归树沃兹沃思贝尔蒙特,质量,美国,1984年。视图:MathSciNet
- m . LichmanUCI机器学习库,2013,http://archive.ics.uci.edu/ml。
- i . h .威滕·e·弗兰克,数据挖掘:实用机器学习工具和技术,摩根Kaufmann系列在数据管理系统中,摩根Kaufmann出版商Inc .,旧金山,CA,美国,第二版,2005年版。
- j . Demšar”统计比较分类器在多个数据集,“机器学习研究杂志》上7卷,外墙面,2006页。视图:谷歌学术搜索|MathSciNet
- j . Alcala-Fdez l·桑切斯s加西亚et al .,“龙骨:软件工具来评估数据挖掘问题的进化算法,”软计算,13卷,不。3、307 - 318年,2009页。视图:出版商的网站|谷歌学术搜索
- m·弗里德曼“使用中避免正常隐式的假设方差分析,“美国统计协会杂志》上,32卷,不。200年,第701 - 675页,1937年。视图:出版商的网站|谷歌学术搜索
- m·弗里德曼“比较替代测试的意义m排名的问题,“数理统计年鉴中,11卷,不。1,第92 - 86页,1940。视图:出版商的网站|谷歌学术搜索|MathSciNet
- p . Nemenyi传播变为免费多重比较(博士论文)美国新泽西州普林斯顿大学,1963。
- j·A·塞斯,j . Luengo f . Herrera,“基于模糊规则的分类系统和脆健壮的学习者培训类噪声的存在影响:一个案例研究,”学报2011年11日智能系统设计与应用国际会议上,ISDA的11西班牙,页1229 - 1234年,2011年11月。视图:出版商的网站|谷歌学术搜索
版权
版权©2017华金Abellan et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。