研究文章|开放获取
圭多Yoichi Hayashi博洛尼亚, ”比较研究从神经网络规则抽取乐团,提振了肤浅的树木,和支持向量机”,应用计算智能和软计算, 卷。2018年, 文章的ID4084850, 20. 页面, 2018年。 https://doi.org/10.1155/2018/4084850
比较研究从神经网络规则抽取乐团,提振了肤浅的树木,和支持向量机
文摘
一种方法使知识存储在一个人工神经网络更理解是提取符号规则。然而,生产规则的多层感知器(mlp)是一个np难问题。许多技术被引入从单一神经网络生成规则,但很少提出了集合体。此外,实验很少评估10倍交叉验证试验。在这个工作中,基于离散可判断的多层感知器(DIMLP),实验重复10日进行分层10倍交叉验证试验超过25二元分类问题。DIMLP架构允许我们生产规则从DIMLP乐团,提振了浅树(bst)和支持向量机(SVM)。规则集的复杂性测量的平均数量和平均数量的先例规则生成规则。使用的25个分类问题,最复杂的规则集生成从bst训练“温和促进”和“真正的提高。“此外,我们明显观察到复杂的规则越少,他们的忠诚是越好。事实上,规则生成的决策树桩训练通过适度提高,几乎所有的25数据集,最简单的保真度最高的。最后,平均预测精度和平均规则集的复杂性,一些的比较我们的结果与文献中报道的竞争。
1。介绍
神经网络响应的解释是必要的验收。作为一个例子,医生不能相信任何模型没有任何形式的启示。一个直观的方式给洞察知识嵌入在神经网络连接和神经元激活是提取符号规则。然而,生产规则的多层感知器(mlp)是一个np难问题[1]。
在分类的背景下,一个象征性的格式给出规则如下:“如果测试前情是真的,那么类 ,对先行词”,“测试”是形式 或 ,作为输入变量作为一个实数。类指定一个类在几个可能的类。提取规则的复杂性的定义通常与两个参数:描述的规则,每个规则的先行词数。规则集的低复杂度是首选相比高复杂性,因为乍一看更少的规则和更少的前身是更好的理解。偏好的另一个原因是规则基础较低的复杂度也在新数据减少过度拟合的风险。然而,Freitas澄清相关的可理解性的规则不一定是少量的规则(2]。他提出了一个新的衡量表示prediction-explanation大小,这很大程度上取决于每个规则先行词的平均数量。另一个衡量规则的透明度是一致性。具体地说,一个提取规则集被认为是一致的,如果在不同的训练下,规则提取算法生成规则集分类样本到相同的类。最后,一个规则冗余如果它传达了同样的信息或一般信息比另一个规则所传递的信息。
规则集的一个重要特点是他们是否订购。命令规则对应如下:如果测试前情是真的,那么…,如果测试前情是真的,那么…,…,其他的…
其他无序规则“如果”再次被“如果测试代替先行词是真的,那么结论。“因此,样本可以激活超过一个规则。长命令规则集是很难理解,因为他们可能包括许多隐含的先例;具体地说,这些“其他如果否定。“一般情况下,无序的规则集现在比要求的规则和祖先,因为所有规则前身是显式提供,因此比命令更透明的规则集。每个规则的一个无序的知识规则集表示一块可以单独检查,因为所有祖先明确。大量无序的规则,一个试图准确地理解每个规则的含义对数据域。获得全球图片可能需要很长时间;然而,一个可能只对整个知识的某些部分感兴趣,例如,这些规则数量最高的样本覆盖。
的离散可判断的多层感知器(DIMLP)代表一个特殊的前馈神经网络架构的脆符号规则提取在多项式时间(3]。这个特殊的多层感知器(MLP)模型可以用来学习任何分类问题,和规则提取也进行DIMLP集合体。此外,特殊DIMLP架构也产生模糊规则定义(4]。
决策树广泛应用于机器学习。他们代表透明模型因为象征性的规则很容易提取。然而,当他们在一个规则相结合,提取越来越难(5]。在这里,我们建议从浅总体决策树生成规则的帮助下DIMLP集合体。实际上,每个规则提取树插入单个DIMLP网络;然后,所有的规则生成的从树上系综是由DIMLP合奏。最后,执行规则提取获得代表知识嵌入到决策树的规则集。因为没有免费的午餐定理没有比其他模型,在一般6]。因此,如果一个联结主义模型比直接统治的学习者更准确等开膛手(7),那么值得理解分类提取规则,即使这需要额外的计算时间。
作者生成规则从单一神经网络和支持向量机(svm),很少由十倍交叉验证评估他们的技术。我们的实验是基于十重复分层十倍交叉验证试验超过25二元分类问题。注意训练试验的总数等于42500。此外,我们比较规则的复杂性来自DIMLP乐团,提振了浅树(BST)和支持向量机。SVM我们定义量化支持向量机(QSVM),这是一个DIMLP架构由一个训练支持向量机学习算法(16]。我们的目的不是确定哪些模型是最好的这些分类问题,但描述的复杂性产生的规则模型。我们的研究结果可以作为基础研究人员想比较他们的规则提取技术应用于联结主义模型10倍交叉验证。在下面几节中我们提出的DIMLP模型允许我们从bst产生规则,支持向量机,然后实验中,紧随其后的是结论。
1.1。国家的艺术
因为勇敢的最早的工作从神经网络规则抽取17),介绍了许多技术。在1990年代,安德鲁斯等人介绍了分类旨在描述规则提取技术(18]。从本质上讲,规则提取算法属于三个类别:全局;教学;和折衷的。在全局技术中,规则提取的隐藏和输出神经元通过分析重量值。在这里,一个基本要求是计算每个隐层和输出单元的输出必须映射到一个二进制结果对应规则顺向的概念。教学方法的基本思想是把规则提取作为一个学习任务,目标函数计算的概念网络和输入属性只是神经元网络的输入。重量值并不考虑这类技术。最后,折衷的方法考虑全局和教学技巧两方面的内容。几年后,杜赫等人发表了一篇调查文章关于这个主题(9]。最近,Diederich出版一本关于技术提取符号规则从支持向量机(svm) [19)和诺曼和布拉德利审查的规则提取技术应用于支持向量机(20.]。
1.1.1。从神经网络规则抽取集合体
许多规则提取技术从单一神经网络引入了,但只有少数作者已经开始从神经网络提取规则的集合体。博洛尼亚提出了离散可判断的多层感知器(DIMLP)生成无序符号规则从单一的网络和集合体(21,22]。与DIMLP架构提取规则是由确定的axis-parallel歧视超平面的精确位置。周等人介绍了REFNE(从神经网络集成的规则提取)算法(23),利用训练集合体生成实例,然后从这些实例中提取符号规则。属性是离散在规则提取和它还使用特定的保真度评价机制。此外,规定仅限于只有三个先例。约翰逊,从乐团是一个优化问题中提取规则之间的权衡的准确性和可理解性必须考虑(14]。他利用遗传编程技术生产20神经网络规则的集合体。Ao和Palade提取规则的集合体Elman网络和支持向量机通过一个教学方法来预测基因表达微阵列数据(24]。最近Hara和Hayashi提出了two-MLP乐团通过使用“衍生法则萃取”(Re-RX)算法(25)与混合属性数据(26]。Re-RX利用C4.5决策树和反向传播训练mlp递归。这里的规则祖先从那些连续属性离散属性是脱节的。随后,Hayashi的人提出了“three-MLP合奏”Re-RX算法(27]。
1.1.2。从总体决策树中提取规则
基本上,规则提取技术应用于决策树属于两个杰出的组织的集合体。首先,决策树的目的是减少通过增加他们的多样性。多样性的优化技术报告(28];作为一个例子Gashler等人改进了整体多样性通过结合不同的决策树算法(29日]。
技术在第二组集中在整体建筑规则提取。一个著名的代表技术在这一组RuleFit(30.]。基本学习规则提取大量的CART决策树(31日]。具体地说,这些树木被训练在随机学习集的子集,主要的想法是定义一个线性函数包括规则和特性接近整个决策树的合奏。最后这个线性函数代表一个正规化的过程回归的合奏与大量的反应系数等于零。节点收获是另一个基于规则的代表技术32]。它的目的是找到合适的权重规则通过执行一个最小化与线性不等式约束的二次规划。最后,在[33),规则提取问题被视为一个回归问题使用稀疏集团套索方法(34),这样每一个规则被认为是一种特性,目的是预测的响应。随后,大部分的规则被试图保持准确性和富达尽可能高。
1.1.3。从支持向量机中提取规则
从支持向量机产生规则,各种技术应用教学方法(35- - - - - -38]。作为第一步,根据目标类训练样本是国家提供的支持向量机。然后,新的数据集是由一个透明的学习模型,如决策树,它大约学习支持向量机已经学到了什么。作为一个变种,只有一个子集的训练样本作为新的数据集:支持向量(39]。决策树算法的训练之前,Martens人产生额外的学习例子接近随机选择支持向量(38]。在另一个技术,诺曼和布拉德利从支持向量的一个子集生成规则使用修改后的覆盖算法,该改进的一组初始规则由最歧视的特性(40]。
福等人提出了一个针对方法确定超矩形的上、下角是由决定每个路口的分离超平面的支持向量(41]。这是通过求解一个优化问题根据高斯内核。Nunez等人决定为每个类原型向量(15,42]。使用支持向量,这些原型转化为椭圆体或超矩形。迭代过程被定义为了椭圆体或超矩形划分为更多的地区,根据异常值的存在和SVM决策边界。同样,张等人介绍了从支持向量聚类算法定义原型43]。然后,小超矩形定义围绕这些原型和逐步发展直到满足停止条件。注意,最后这两个方法的规则的可理解性较低,因为所有的输入特性存在于规则先行词。
2。材料和方法
在本节中,我们提出的模型应用于这项工作,这是DIMLP乐团,量子化的支持向量机,浅了树木。最后两个模型的规则提取过程已经成为可能,通过转换成特定DIMLP架构。
2.1。DIMLP模型
DIMLP中长期规划不同于在输入层和第一个隐层之间的连接。具体地说,任何隐藏神经元只接收从一个输入神经元和偏见神经元的连接,如图1。后第一个隐层神经元完全连接。注意,经常DIMLPs定义有两个隐藏层,在第一个隐层神经元的数目等于输入神经元的数量。
2.1.1。DIMLP架构
输出层的激活函数是一个s形的函数给出
在第一个隐层的激活函数是一个楼梯的功能与楼梯,接近乙状结肠函数。 点的横坐标代表第一个楼梯。默认情况下 。 点的横坐标代表最后的楼梯。默认情况下 。否则,如果 我们有 方括号表示整数部分和函数 。的阶跃函数是一个阶梯函数的特定情况下只有一个步骤: 如果我们想要获得一个更好的近似乙状结肠函数我们可以改变这些值和增加楼梯的数量。隐藏层的激活函数上面第一个是乙状结肠。注意步骤/楼梯激活函数可以精确定位可能的歧视超平面。
作为一个例子,在图1假设两个不同的类,首先是被选中当 (黑圈),第二个 (白色方块)。因此,两种可能的超平面将位于 和 ,分别。因此,提取的无序规则如下:(我) 广场(2) 广场(3) 和 圆。
DIMLP网络的训练在第一步激活函数隐层是由模拟退火(8),由于梯度定义步骤激活功能。当楼梯被允许的数量很好地近似s形函数,用改进的反向传播算法(8]。默认的楼梯楼梯等于激活函数 。
2.1.2。规则提取
每个神经元的第一个隐层创建一个虚拟平行超平面的数量等于楼梯楼梯的激活函数的数量。因此,规则提取算法对应于一个覆盖算法的目标是确定一个虚拟超平面是虚拟的或有效的。这条规则提取技术的一个突出特点是,富达之间的匹配程度,网络分类和规则的分类= 100%,对训练集。
在这里,我们描述了一般规则提取算法背后的想法,因为更多的细节描述(3]。的相关性歧视的超平面对应点的数量看这超平面作为过渡到一个不同的类。在第一步的规则提取算法有识别力的超平面的相关性估计从所有训练例子和DIMLP反应。
一旦有识别力的超平面的相关性建立了一个特殊的决策树是根据构建的最相关的超平面标准。以其他的术语来说,在树归纳在一个给定的区域输入空间的超平面有最多的点查看这个超平面作为过渡到一个不同的类添加到树中。
每条路径的根和叶之间得到决策树对应于一个规则。在这个阶段规则是脱节的,通常他们的数量很大,以及他们的祖先。因此,修剪策略是根据最适用于所有规则扩大修剪前期标准。这种启发式方法的使用涉及到每一步修剪算法消除了统治前期主要是增加了例子的数量不改变DIMLP分类。请注意,此阶段结束时不再是脱节的,不必要的规则是移除。
当它不再是可以删除任何前期或任何规则,再次增加覆盖每个规则所有例子的数量阈值根据剩余的祖先的修改大多数扩大标准。更准确地说,每个属性的新阈值确定的名单有识别力的超平面。每一步,新的阈值前期主要是增加数量的例子覆盖在不改变DIMLP分类保留。
一般的算法是总结如下:(1)确定相关性的判别使用可用的例子。(2)建立一个根据最高决策树相关的超平面的标准。(3)根据最扩大修剪修剪规则祖先前期标准。(4)删除不必要的规则。(5)根据最扩大标准修改前期阈值。
2.1.3。DIMLP集合体
我们实现了整体学习DIMLP装袋[44和灭弧45]。装袋和灭弧是基于重采样技术。第一个训练方法,假设一个训练集的大小 ,装袋选择为每个分类器包含在合奏从原始训练集样本用替代。因此,对于每个DIMLP网络许多生成的样本可能重复而其他可能被排除在外。这样,一定多样性的每一个网络被证明是有益的对整个乐团组合分类器。
灭弧定义了一个与每个样本原始训练集的概率。每个分类器选择的样本根据这些概率。在学习之前,所有训练样本有相同的概率属于一个新的训练集(= 1 /)。之后第一个分类器训练样本选择的概率在增加新的训练集的样本和减少他人。
从乐团仍然可以进行规则提取,因为一个DIMLP网络可以被视为一个DIMLP网络与一个隐藏层。这种独特的DIMLP网络,子网之间的权重值等于零。图2展示了三种不同的DIMLP集合体。每一个“盒子”在这个图是透明的,因为它可以转化为符号规则。不同类型的组合所带来的整体也是透明的,因为它仍然是一个DIMLP网络权重的多一层。
2.1.4。分类规则的策略
对训练集之间的匹配程度,DIMLP分类和规则,也表示忠诚,等于100%。与无序的规则,一个未知的样本不属于训练集激活零,一个或多个规则。因此,几个激活规则不同的类包含一个模棱两可的决策过程。所提供的补救措施,分类DIMLPs考虑消除歧义分类过程。我们总结了可能的情况不属于非保密样本训练集:(我)没有激活的规则:提供的分类是DIMLP网络(因此,没有提供解释)。(2)属于同一个类的一个或多个规则对应一个DIMLP网络提供的:因此,规则(s)和网络同意。(3)一个或多个规则属于不同的类:如果提供的类DIMLP反映在规则(s),我们只考虑这个(这些)规则(s)来解释分类和丢弃其他(s)。(iv)一个或多个规则属于一个或多个类,但DIMLP提供的类并不代表在规则(年代)。因此,规则(s)和网络不同意和提供的分类规则是错误的。
预测精度的正确分类样本的比例是一个独立的测试集。对计算规则可以按照三种不同的策略:(我)提供分类规则。如果样本不激活任何规则提供的类模型没有解释。(2)提供分类规则,当规则和模型一致。在分歧的情况下,没有提供分类。此外,如果一个样本不激活任何规则提供的类模型。(3)提供分类规则,当规则和模型一致。在分歧的情况下,提供的分类是模式没有任何解释。此外,如果一个样本不激活任何规则,提供的类又没有解释模型。
遵循第一战略,原因不明的样品只是那些不激活任何规则。第二,规则和模型之间的分歧没有提供分类响应;换句话说,分类是不确定的。最后,规则和模型的预测精度是平等的在过去的战略,但对我们第一战略补充比例的样本,发现这些规则和模型不同意。
2.2。量子化的支持向量机(QSVMs)
功能,支持向量机可以被视为一种前馈神经网络。在这里,我们专注于如何变成了QSVM支持向量机,这是一个DIMLP网络与特定的神经元激活函数。自从QSVM也是DIMLP网络,规则可以通过执行DIMLP中提取规则提取算法。QSVM由标准支持向量机训练算法,训练中提供的详细信息(46]或[47]。
支持向量机的分类决策函数模型 和实际价值, 对应的目标价值的支持向量,和 代表一个核函数支持向量的向量组件。符号函数
以下内核使用:(我)线性(积)(2)多项式(3)高斯函数。
具体来说,我们点和多项式的情况下 与 点内核和 多项式的内核。高斯内核 与 一个参数。
我们定义了一个量化的支持向量机作为DIMLP网络有两个隐藏层。神经元的激活函数在第二个隐藏层支持向量机相关的内核。图3提出一个高斯QSVM激活函数在第二个隐藏层。
在第一个隐层神经元激活函数有一个楼梯。第一个隐层神经元的作用是执行标准化的输入变量。这个正常化进行通过重量值取决于学习阶段前的训练数据。注意,在训练这些重量保持不变。让我们假定我们有相同数量的输入神经元隐层神经元和隐藏在第一。这些重量是定义为(我) ,的标准偏差输入 ,(2) ,的训练集的平均输入 。
点内核,第二个隐层中的激活函数对应的恒等函数,虽然它是一个三次多项式与多项式的内核。这一层的神经元数量等于支持向量的个数,重量与传入的连接对应的组件支持向量。具体地说,第一次和第二次之间的重量隐藏层表示在图3对应于th组成部分支持向量。第二个隐藏层和输出神经元之间的权重表示在图3对应于系数(6)。最后,输出神经元的激活函数是函数。
2.3。乐团的肤浅的决策树
二叉决策树的节点和分支。在每个节点,一个测试在执行一个属性;根据其谓词价值的路径继续向左或向右分支(如果有的话),直到一个终端节点也表示一片叶子。浅树的节点数量非常有限;他们代表“软弱”学习者表达能力有限。作为一个例子,一棵树,一个独特的节点执行测试只有一个属性。这种肤浅的树也被称为决策树桩。浅总体决策树背后的关键思想是获得强分类器训练弱学习者通过提高(48]。三种变体增加用于这项工作培养了浅树(bst):(我)适度的演算法(49](2)温柔的演算法(50](3)真正的演算法(51]。
一个决策树建立根据分割准则。具体地说,在每一步的最有益的属性将训练集准确确定。许多可能的标准可以用来确定最佳分裂属性;更多细节,请参见[31日,52]。一旦训练完成,bst转变成DIMLP集合体。具体来说,对于每个BST,从根到叶子的路径代表一个符号规则。然后,每个规则插入到一个独特的DIMLP网络。还请注意,所有的规则提取DIMLP BST可以插入,但为了简单起见我们将展示前规则插入技术。我们假设这里DIMLPs有独特的隐层的激活函数是乙状结肠(cf。5))。
图4展品浅决策树有两个节点。根和叶之间的路径后,得到三个规则。
每个规则插入一个DIMLP。注意规则祖先之间的权重值出现在输入层和隐层(见图5)。
不失一般性,我们制定的规则插入算法两类的分类问题,向量编码第一节课和向量第二个编码。
规则插入算法(1)bst生成规则的列表与相应的类按照根和叶之间的所有路径。(2)对于每个规则在 ,让的前身 ;然后让我们定义一个网络与输入,隐层神经元,两个输出神经元。(3)为每一个编码一个独特的规则在和th先行词在 ,如 (作为一个常数), 和 ,被偏见隐藏神经元和神经元之间的权重值和被输入神经元之间的权重值和隐藏的神经元 。(4)为每一个编码一个独特的规则在对于每个前期在 ,如 , 和 。(5)为每一个编码规则类的 , ,因为 (指定重量值之间的隐藏层和第一个输出神经元)和 (神经元是重量值之间的偏差和第一个输出神经元); (指定重量值之间的隐层神经元)和第二输出 (偏见神经元之间的权重值,第二个输出神经元)。(6)为每一个编码规则类的 , ,因为 和 ; 和 。
提高算法为每个薄弱的学习者提供系数中插入组合层(cf图2)。请注意,对于DIMLP乐团训练这些权重等于装袋或弧 ,被网络的数量。
3所示。结果
在实验中我们使用25个数据集表示两个类的分类问题。表1说明了其主要特点的样本数量,数量的输入特性,类型的特性,和源。我们有四个类型的输入:布尔;分类;整数;和真实的。数据集的公共资源(我)UCI:机器学习库加州大学欧文:https://archive.ics.uci.edu/ml/datasets.html(53),(2)龙骨:http://sci2s.ugr.es/keel/datasets.php(54),(3)LIBSVM:https://www.csie.ntu.edu.tw/ cjlin / libsvmtools /数据/。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.1。学习模型和参数
我们的实验是基于10重复分层10倍交叉验证试验。训练集被高斯归一化规范化。具体来说,输入变量平均值和标准差计算训练集用于标准化测试的输入变量集。在25以下模型训练数据集:(我)提高浅树由适度提高训练(BST-M)(2)提高浅树由温和提高训练(BST-G)(3)提高浅树木的训练,真正提高(BST-R)(iv)DIMLP乐团训练装袋(DIMLP-B)(v)DIMLP乐团由灭弧(DIMLP-A)训练(vi)QSVM用点内核(QSVM-L)(七)QSVM多项式内核的第三个学位(QSVM-P3)(八)与高斯QSVM内核(QSVM-G)。
的复杂性增加了浅树控制根据参数定义的数量为每个浅树(cf分裂。部分2.3)。该参数从1到4不等。注意,当这个值等于1得到决定树桩。决策树的数量在每一套固定到200年,由于经常在这个值精度的提高很小。
DIMLP乐团学习参数(我)学习参数( ),(2)动量( ),(3)平点消除( ),(iv)楼梯的数量在楼梯函数( )。
默认在第一个隐层神经元的数量等于输入神经元的数量和隐层神经元的数量在第二经验定义为了获得一个重量的连接数小于训练样本的数量。最后,默认的DIMLPs一等于25,因为它已经经验观察到装袋和灭弧精度达到最实质性的改进与第一个25网络(44]。
QSVMs,默认学习参数中定义libSVM库(这个软件是可用的https://www.csie.ntu.edu.tw/ cjlin / libsvm /)。在楼梯台阶的数量设置为函数 ,为了保证足够数量的输入值的量子化的能级。我们使用nu-SVM [55];请注意,我们的目标并不是优化模型的预测精度只是使用默认配置,以评估模型的准确性和复杂性。对所有已定义的模型和数据集,训练的总量和规则的抽取,等于42500 (= )。
3.2。整体结果
图6给出了一个通用的对数规则集的复杂性(设在)产生的模型(设在)。在这里,复杂性对应于每个规则集规则先行词的总数。关于设在索引1到4表明BST-M分割参数不同的从1到4,从5到8 BST-G相关索引,索引从9到12表明BST-R,最后索引从13到17说明结果对应DIMLP-B, DIMLP-A, QSVM-L, QSVM-P3和QSVM-G分别。每箱线图,中央马克是中值通过交叉验证试验和盒子的边缘是第25和第75百分位数。
总的来说,对25个实验中使用的数据集BST-M1获得的平均复杂度最低,而中位数由BST-G3给出顶部,BST-G4 BST-R3, BST-R4。此外,它清楚地表明中值复杂性增加的数量的增加将浅树从1到3。
图7说明了提取的规则集的平均预测精度(设在)对每个模型(设在)。值得注意的是,BST-R4 DIMLP-B达到最高的中位数,与DIMLP-B获得更好的第25百分位。
图8显示了平均富达的箱线图提取的规则集。定性,BST-M获得最好的结果对中位数忠诚,而BST-G和BST-R给出最低的保真度的结果。作为结果的定性规则,提取的规则集的复杂性越低保真度越高,反之亦然。这个观察也见图9。具体来说,对25实验中使用的分类问题,每个点的这个数字代表的平均富达提取规则集和每个规则集的平均数量的先例。值得注意的是,从左到右(对吗设在)、红色的“+”表示BST-M1 BST-M2 BST-M3, BST-M4。因此,规则集的复杂性增加的数量将浅的树木。类似地,我们可以看到相同的三角形BST-Gs和BST-Rs相关趋势。基于17个模型,线性回归也会显示。因此,我们可以清楚地看到这一趋势的保真度成反比规则集的复杂性。
3.3。详细的结果
表2给每个数据集的平均预测精度得到最好的模型(列三个),以及平均预测精度最好的提取规则集(列5)。这些平均精度的差异报告列6。最后三列显示忠诚,平均的平均数量生成规则,分别和祖先的平均数量/规则。值得注意的是,规则集的平均预测精度很少比提供的预测精度最好的模型,因为规则的表达能力有限对原来的模型。然而,对于许多数据集来说,规则集平均预测精度相当接近,所提供的最好的模型。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
结果见表3类似于那些提供的表吗2。唯一的区别所在,规则集的平均预测精度测量。具体地说,在这里,我们只考虑是否生成模型从每个规则以及规则一致。在这种情况下,规则的平均预测精度总是等于或高于所提供的模型。直观地说,这意味着如果同意规则和模型结果更可靠。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
图的目的10是指之间的平均预测精度差模型及其生成规则集25分类问题。这个图的下方担忧这种平均差异当规则和网络同意。
表4和5现在的规则集的详细结果的平均预测精度和标准差。注意分类决定是由神经网络模型,测试样本是不受任何规则。此外,在冲突的规则的情况下(即。,rules of two different classes), the selected class is again the one determined by the model. Tables6和7显示平均复杂度的平均数量的规则,每个规则集的祖先平均数量。最后,表8和9说明平均富达结果的标准差。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在表10我们的目的是为了说明DIMLP集合体的影响对单一DIMLPs。我们专注于平均预测精度和平均生成的规则集的复杂性。列4和7有关单一架构。复杂性,给出的规则数量和平均数量的先例规则,在大胆的产品这两个组件是最低的。注意,对于单一架构,10%的样本被用来决定何时停止训练(80%的样本用于培训)。对单一DIMLPs装袋倾向于减少平均生成的规则集的复杂性,由于在22个问题25是较低的。相反,DIMLP乐团训练的灭弧,平均在20问题复杂性较高。最后,规则集的平均预测精度由乐团高于或等于由单一DIMLPs 25在22个问题。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.4。相关工作
几个出版工作的知识提取乐团,很少是基于交叉验证试验。表11提出了规则提取结果对乳腺癌的分类问题。只有最后两行关注规则提取的集合体。注意,一个公平的比较,提取规则的复杂性是困难的,因为一些技术,如Re-RX生成命令规则,而DIMLP-B提取无序的规则。预测的准确性,DIMLP-B获得最高的平均水平。
使用G-REX [14),遗传编程技术,约翰逊提出了一系列结果的提取从乐团20神经网络决策树,基于10倍交叉验证的一个重复。表12体现了这些结果,3和4列描述结果提供的钻孔机(14),这是一个通用技术知识提取(13]。我们的结果与DIMLP-Bs(基于10重复分层10倍交叉验证)最后三列所示。平均富达DIMLP-Bs总是大于通过G-REX和钻孔机(五分类问题)的要求是相当高的。除了一个分类问题,我们的模型和规则集的平均表语精度值有点大于G-REX和欺骗。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在[15]从svm提取规则是根据十重复分层十倍交叉验证报告。表13说明了与QSVMs获得的结果进行比较。注意,祖先的平均数量是没有报告,因为他们的数量在15]等于输入的数量。因此,我们生成更复杂的规则集,平均,而我们的预测精度更好或非常接近。最后,我们获得更好的平均忠诚。
|
||||||||||||||||||||||||||||||||||||||||||
3.5。讨论
svm通常用作单一模型,因为提高他们倾向于overfit数据。浅树是薄弱的学习者;因此他们必须训练有素的集合体。DIMLPs,我们观察到,当他们被训练到装袋,提取的规则集的复杂性往往是有点低于规则集由一个网络25 22倍。相比之下,乐团训练灭弧显示增加了复杂性的提取规则集25的20倍。关于模型结构的影响,从这个工作原来提高了决策树在分裂的数量增加,然后提取的规则集往往更复杂,平均(见图9BST-M, BST-G, BST-R分裂的数量在一个决策树不同从1到4)。
对规则集,保真度越低,复杂性越高。相反,保真度越高,复杂性越低。由于平均预测精度是在某些情况下提供的最复杂的规则集,我们也有一个清晰的准确性和复杂性之间的权衡。另一个考虑的妥协是覆盖样本的比例对预测精度。具体来说,从表2我们经常显示规则集的平均预测精度低于模型的生成。在规则和模型之间的分歧的情况下,如果无视规则,更多的样品没有解释,但是剩下的规则将有更好的预测精度,平均(cf表3)。
让我们假设一个医生在一个现实的情况下,病人的诊断是由DIMLPs的合奏。如果病人的症状(例如,输入)不受任何规则,医生无法解释的反应神经合奏。因此,首先可能是再次执行规则提取包括新患者数据。然而,这种解决方案有两个缺点。第一个是规则提取时间,快速的使用数据集在这工作,但与大数据将被禁止。第二个缺点是,反萃取后的规则,新规则集可以大大改变,所以医生可能需要时间来理解它。
减少新样本的次数仍然无法解释,我们可以增加忠诚。聚合规则提取的基本思想包括几个模型。使用无序规则代表一块知识,即使他们的数量大于同单个模型,他们的理解可能在合理的时间内。在接下来的实验中我们考虑的5个模型组合(17)的多数投票,即使提取规则的数量大约增加一个因素等于五。当不同类别的规则被激活我们无视规则,不同于多数投票响应(对应于第一战略部分2.1。4)。这种方法应用于10分类问题。表14显示了所有可能的结果的组合五聚合规则集,等于6188。第二列代表了平均超过6188种可能的组合的平均预测规则集的精度(标准差)。列3和4显示了最小和最大规则集的预测准确性和最后一列的平均平均忠诚。值得注意的是,最后一个值总是规则集的平均在99.6%以上,平均精度大于相对应的最佳值见表2(第五纵队)。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。结论
在这部作品中,DIMLP模型被用来提取无序规则从DIMLPs集合体,提振了肤浅的树木,和支持向量机。10个重复实验数据集25日的10倍交叉验证。我们测量了表语生成的规则集的准确性,复杂性,和忠诚。使用的17个分类器在这项研究中,我们强调一个强大的平均复杂度和平均忠诚之间的关系提取的规则集。因此,我们获得的光谱模型显示一个明确的保真度和复杂性之间的权衡。一端谎言树桩的决定由适度的训练不那么复杂的演算法生成规则集,也把最好的保真度,平均。另一端谎言与最高最低复杂性和忠诚模型,对应于bst的训练,真正的演算法和温和的演算法。规则集的平均复杂度由bst扩充为分裂节点的数量。
测试样本的覆盖之间的另一个代价是规则和预测精度。我们清楚地指出,当模型和规则集同意然后平均预测精度更好当我们忽视模型和规则的测试样品不同意。直观地说,这可以解释为,当模型和规则不同意分类更加不确定。通过聚合反应的几个模型可以提高保真度和预测精度。然而,这也增加了复杂性。
很少工作系统地评估符号生成的联结主义模型的交叉验证规则。因此,我们的工作可能是有用的在未来的研究人员想比较他们的结果。到目前为止,与工作中长期规划提取规则的集合体是有利于我们的忠诚和预测精度在八9分类问题。此外,对两个数据集的规则生成svm我们获得更好的保真度,预测精度是更大的问题和稍差。最后,我们希望鼓励研究人员进行系统的实验10倍交叉验证评估他们的规则提取算法应用于神经网络。
的利益冲突
作者宣称没有利益冲突有关的出版。
引用
- m . Golea从神经网络规则抽取的复杂性和网络查询。在规则提取训练人工神经网络研讨会,研究社会行为的人工智能和模拟车间系列(AISB) 51-59, 1996页。
- 答:a . Freitas“易于理解的分类模型,ACM SIGKDD探索通讯,15卷,不。1、1 - 10,2014页。视图:出版商的网站|谷歌学术搜索
- g·博洛尼亚,”一个模型基于单个和多个知识网络,”人工智能在医学上,28卷,不。2、141 - 163年,2003页。视图:出版商的网站|谷歌学术搜索
- g .博洛尼亚“FDIMLP:一个新的去噪模型,”学报》国际神经网络联合会议(IJCNN 01),卷2,页1328 - 1333,美国2001年7月。视图:谷歌学术搜索
- a . Van典藏和h . Blockeel”看到森林穿过树林:学习理解模型从一个合奏,”机器学习:ECML 2007卷,4701在计算机科学的课堂讲稿海德堡,页418 - 429,激飞柏林,柏林,海德堡,2007年。视图:出版商的网站|谷歌学术搜索
- d·h·沃伯特”,缺乏先天的学习算法之间的区别,”神经计算,8卷,不。7,1341 - 1390年,1996页。视图:出版商的网站|谷歌学术搜索
- w·w·科恩,“快速有效的规则归纳”第十二国际研讨会论文集在机器学习,第123 - 115页,1995年。视图:谷歌学术搜索
- g·博洛尼亚和c . Pellegrini”三个医学在神经网络规则抽取的例子,”自然史》,13卷,不。1,第187 - 183页,1997。视图:谷歌学术搜索
- w .杜赫,r . Adamczak和k .草̧bczewski,“提取的新方法,清晰和模糊逻辑规则的优化和应用,“IEEE神经网络和学习系统,12卷,不。2、277 - 306年,2001页。视图:出版商的网站|谷歌学术搜索
- j . Huysmans r . Setiono b Baesens, j . Vanthienen“密涅瓦:连续覆盖的规则提取,”IEEE系统,人,控制论,B部分:控制论,38卷,不。2、299 - 309年,2008页。视图:出版商的网站|谷歌学术搜索
- k . Odajima y Hayashi、g .天下和r . Setiono“贪婪规则生成离散数据及其使用的神经网络规则抽取,”神经网络,21卷,不。7,1020 - 1028年,2008页。视图:出版商的网站|谷歌学术搜索
- y Hayashi和s . Nakano”使用衍生法则与J48graft提取算法,实现高度精确和简洁的规则提取乳腺癌从大的数据集,”医学信息学解锁,卷1,9到16,2015页。视图:出版商的网站|谷歌学术搜索
- m·克雷文和j·w·Shavlik提取训练网络的树形结构表示,“先进的神经信息处理系统,能力1996页。视图:谷歌学术搜索
- 美国约翰逊,获取准确、理解数据挖掘模型:一个进化的方法。林雪平大学计算机与信息科学学院,2007。
- c . h . Nunez Angulo, a . Catala“基于规则的支持向量机学习系统,”神经处理信件,24卷,不。1队,2006页。视图:出版商的网站|谷歌学术搜索
- g·博洛尼亚和y Hayashi QSVM:支持向量机对规则提取,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言卷,9095年,第289 - 276页,2015年。视图:出版商的网站|谷歌学术搜索
- 美国。格兰特,“联结主义专家系统”,ACM的通信没有,卷。31日。2、152 - 169年,1988页。视图:出版商的网站|谷歌学术搜索
- r·安德鲁j . Diederich a.b.逗,“调查和批判技术从训练人工神经网络,提取规则”以知识为基础的系统,8卷,不。6,373 - 389年,1995页。视图:出版商的网站|谷歌学术搜索
- j . Diederich从支持向量机中提取规则卷。80年,施普林格科学与商业媒体,2008年。
- n .诺曼和a·p·布拉德利”规则提取支持向量机:复习一下,”Neurocomputing,卷74,不。1 - 3、178 - 190年,2010页。视图:出版商的网站|谷歌学术搜索
- g·博洛尼亚,”一个研究规则提取从几个神经网络相结合,“国际期刊的神经系统,11卷,不。3、247 - 255年,2001页。视图:出版商的网站|谷歌学术搜索
- g·博洛尼亚”,从神经网络生成规则的集合体值得吗?”应用逻辑杂志,卷2,不。3、325 - 348年,2004页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- Z.-H。周、江y和S.-F。陈:“从训练神经网络提取符号规则乐团,“人工智能通信,16卷,不。1,p。2003。视图:谷歌学术搜索
- s i Ao和诉Palade合奏Elman神经网络和支持向量机的逆向工程的基因调控网络,”应用软计算,11卷,不。2、1718 - 1726年,2011页。视图:出版商的网站|谷歌学术搜索
- r . Setiono b Baesens, c .μ,“递归神经网络规则抽取数据与混合属性,“IEEE神经网络和学习系统,19卷,不。2、299 - 307年,2008页。视图:出版商的网站|谷歌学术搜索
- a . Hara和y Hayashi合奏使用Re-RX神经网络规则抽取算法,”《2012年度国际神经网络联合会议,IJCNN 2012年,2012年IEEE世界大会的一部分计算智能,WCCI 20122012年6月,澳大利亚,。视图:出版商的网站|谷歌学术搜索
- y Hayashi、佐藤r和s . Mitra”三套新方法使用衍生法则提取算法神经网络规则抽取,”《2013国际联合神经网络会议上,IJCNN 2013美国,2013年8月。视图:出版商的网站|谷歌学术搜索
- g·布朗,j·怀亚特,r·哈里斯和x姚明,“多样性创建方法:调查和分类信息融合》第六卷,没有。1,5 - 20,2005页。视图:出版商的网站|谷歌学术搜索
- m . Gashler c Giraud-Carrier, t·马丁内斯,“决策树合奏:小型异构比大型均匀”学报2008年第七次国际会议上机器学习和应用程序圣地亚哥,页900 - 905,美国2008年12月。视图:出版商的网站|谷歌学术搜索
- j·h·弗里德曼和b . e . Popescu“预测学习通过规则的集合体,”应用统计学的史册,卷2,不。3、916 - 954年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- l . Breiman j·弗里德曼,c . j .石头和r . a . Olshen分类和回归树,CRC出版社,1984年。
- n . Meinshausen”节点收获。”应用统计学的史册,4卷,不。4、2049 - 2072年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- m . Mashayekhi和r .肝”,从决策树规则提取集合体:基于启发式搜索的新算法和稀疏集团套索方法,”国际信息技术与决策》杂志上,21,2017页。视图:出版商的网站|谷歌学术搜索
- j·弗里德曼,t . Hastie和r . Tibshirani”报告集团套索和稀疏集团套索,”https://arxiv.org/abs/1001.0736。视图:谷歌学术搜索
- n .诺曼和j . Diederich”上优于rule-extraction从支持向量机”第十四届国际研讨会论文集ICCTA 2004计算机理论和应用程序,2004年。视图:谷歌学术搜索
- d·e·托雷斯d和c·m·罗克。,“Extracting trees from trained SVM models using a TREPAN based approach,” in学报2005:第五次国际会议上混合智能系统巴西,页353 - 358年,2005年11月。视图:出版商的网站|谷歌学术搜索
- d·马顿斯b . Baesens t . Van Gestel和j . Vanthienen”理解信用评分模型利用支持向量机的规则提取,”欧洲运筹学杂志》上,卷183,不。3、1466 - 1476年,2007页。视图:出版商的网站|谷歌学术搜索
- d . Martens b Baesens, t . v . Gestel“全局规则提取从支持向量机主动学习,”IEEE工程知识和数据,21卷,不。2、178 - 191年,2009页。视图:出版商的网站|谷歌学术搜索
- n .诺曼和j . Diederich折衷rule-extraction从支持向量机,”国际计算情报杂志》上,卷2,不。1,59 - 62年,2005页。视图:谷歌学术搜索
- n·h·诺曼和A·p·布拉德利”规则提取支持向量机:连续覆盖的方法,”IEEE工程知识和数据,19卷,不。6,729 - 741年,2007页。视图:出版商的网站|谷歌学术搜索
- 傅x, c . Ong s Keerthi g . g .挂和l .吴作栋”提取支持向量机中所蕴含的知识,”国际神经网络联合会议学报》上IEEE,页291 - 296年,2004年。视图:谷歌学术搜索
- c . h . Nunez Angulo, a . Catala”规则提取支持向量机”,Esann,第112 - 107页,2002年。视图:谷歌学术搜索
- y, h·苏·t·贾,j .楚“规则提取从训练支持向量机,”知识发现和数据挖掘的进步卷,3518在计算机科学的课堂讲稿施普林格,页61 - 70年,柏林,德国,2005年。视图:出版商的网站|谷歌学术搜索
- l . Breiman“装袋预测”,机器学习,24卷,不。2、123 - 140年,1996页。视图:谷歌学术搜索
- l . Breiman偏差、方差和灭弧分类器(技术报告460)。统计部门,加州大学,1996年。
- v . n . Vapnik统计学习理论、适应性和学习系统的信号处理、通信、控制、威利-跨学科,纽约,纽约,美国,1998年。视图:MathSciNet
- c . j . c . Burges”教程对支持向量机模式识别,”数据挖掘和知识发现,卷2,不。2、121 - 167年,1998页。视图:出版商的网站|谷歌学术搜索
- r . e . Schapire”,简要介绍提高”学报》第16届国际联合会议上人工智能(IJCAI”展出99),页1401 - 1406,斯德哥尔摩,瑞典,1999年8月。视图:谷歌学术搜索
- a . Vezhnevets诉Vezhnevets,“适度adaboost-teaching演算法更好地推广,”学报》第15届国际会议在计算机图形学和愿景,GraphiCon 2005,12卷,页987 - 997,计算机图形学在俄罗斯,2005年6月。视图:谷歌学术搜索
- j·弗里德曼,t . Hastie和r . Tibshirani”添加剂逻辑回归:增加的统计视图,“统计年报,28卷,不。2、337 - 407年,2000页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- y弗洛伊德和r . e . Schapire desicion-theoretic泛化的在线学习和提高应用程序,”《欧洲会议上计算学习理论页,23-37施普林格,1995年。视图:谷歌学术搜索
- s . l .扎尔茨贝格”C4.5:为机器学习程序j·罗斯昆兰。摩根Kaufmann出版商,Inc ., 1993,“机器学习,16卷,不。3、235 - 240年,1994页。视图:出版商的网站|谷歌学术搜索
- m . Lichman UCI机器学习库,加州大学欧文分校信息与计算机科学学院,2013。
- j . Alcala-Fdez a·费尔南德斯j . Luengo et al .,“龙骨数据挖掘软件工具:数据集中存储库,集成的算法和实验分析框架中,“杂志和软计算多元逻辑,17卷,第287 - 255页,2011年。视图:谷歌学术搜索
- b . Scholkopf a . j . Smola r·c·威廉姆森和p . l . Bartlett”新的支持向量算法”,神经计算,12卷,不。5,1207 - 1245年,2000页。视图:出版商的网站|谷歌学术搜索
版权
版权©2018 Guido博洛尼亚和Yoichi Hayashi。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。