文摘
最近,移动云计算的重要性增加了。移动设备可以从各种传感器收集个人数据在一个短的时间内从用户和基于传感器数据包含有价值的信息。先进的计算能力和数据分析技术基于云计算提供一个机会将大量传感器数据标签。随机森林算法被称为黑盒模型难以解释里面隐藏的过程。在本文中,我们提出一个方法,分析了变量的影响在随机森林算法澄清哪些变量影响分类精度。我们运用沙普利值随机森林分析变量的影响。假设每一个变量作为球员合作在合作博弈的情况下,沙普利值相当的收益分配变量。我们建议的方法计算的相对贡献变量在其分类过程。在本文中,我们分析的影响变量和变量的优先级列表,影响分类精度的结果。我们建议的方法证明其适用性等资料解释在黑盒模型随机森林的算法适用于移动云计算环境。
1。介绍
移动云计算成为数据挖掘的一个重要问题。由于多通道传感器数据是来自移动设备,移动云计算环境中的数据挖掘是一个重要的研究领域。多维数据来自健康信息等移动设备和GPS成指数增加,这样很难手动处理。
有一些研究进展测量变量的影响从大数据分类和回归多维属性使用数据挖掘算法。作为数据变得更加复杂,研究的重要性在解释数据分类和回归结果的意义是增加。多维数据分析的主要问题是维度的诅咒。从高维数据流实时,这是所谓的“小n大p”问题,降维是一个关键问题进行有效的数据分析。下面的例子说明了增加研究需要识别重要的变量,影响了分类以及提高分类精度。
例1。假设医生诊断病人的情况P使用数据挖掘算法来确定是否病人得了癌症。算法,完成了培训过程基于病人数据判断cancer-positive在以前的数据判断病人Pcancer-positive。之前医生使病人明确诊断P医生想知道具体的原因,学习算法给病人cancer-positive诊断P。
例2。我们假设两个人B银行家和C作为客户。C想从银行借钱。当C参观了银行,问B他的贷款批准,B想知道事务的历史呢C。在确认之前,B想要预测是否C有能力偿还贷款。因为事务数据由多维属性,是不可能的B调查的所有数据。因此,数据挖掘算法可以支持这个决定基于数据库的查询历史数据C。当算法给出了建议,允许贷款C,B可能想检查算法做出决定和哪个变量对结果产生重大影响。
上面的例子显示,需要测量变量影响的研究越来越多。然而,即使学习算法的预测精度高,这是很危险的,医生的诊断的可靠性可能恶化如果医生无法直接证实算法结果的原因。同时,在第二种情况下,它是非常重要的对于银行业来确定客户的数据影响了分类的结果,然后再决定是否批准客户的贷款。
最近在生物信息学领域,随着个人医疗数据变得更加复杂和实时积累,提出了相关工作(1- - - - - -3]。越来越需求研究算法,可以准确地预测病人的疾病名称的多维属性(4]。因此,它是重要的衡量变量之间个人的医疗数据中包含的各种属性影响了算法的预测结果。随机森林算法执行可靠的分类。Statnikov et al。5)应用二进制和multicategory对癌症诊断分类。本文调查,随机森林是由支持向量机的表现。Diaz-Uriarte和阿尔瓦雷斯·德·安德烈斯(6]证明随机森林算法适合大量数据和基因选择问题上解决分类问题。吴et al。7]5机器学习算法相比,线性判别分析,k神经网络分类器、装袋和提高分类树,支持向量机,随机森林。
然而,随机森林算法有一个关键问题。因为它是一个黑盒模型,我们不能看到哪些变量是影响分类结果。是很重要的解释变量的分类的结果测量的重要性。Hapfelmeier et al。8]调查变量重要性时测量数据包含缺失值。研究提出分配随机变量而不是交换价值来克服以往方法的缺点不考虑缺失的数据。此外,Gregorutti et al。9)提出新算法递归消除变量用较少的数据来预测。该算法有效的高维回归或分类时是必需的。
在本文中,我们提出一个新的方法,准确地掌握相对分类变量之间的影响测量的影响分类的变量使用随机森林算法试图解决的问题。为了解决这个问题,本文提出了一个方法来把经济学理论叫夏普利值合并到MDA中索引。
1.1。随机森林
随机森林算法,它是一种集成学习技术,通过引导学习数据生成多个决策树和任意学习它们。然后我们结合所有的树获得的学习结果的平均的回归和预测精度的分类的多数。通过学习随机决策树,然后平均,随机森林解决在求和问题通过减少方差比单一的决策树。特别是,随机森林是更适合的生物信息学研究领域时,他们有一个好的性能排序数据和多维数据属性为每个“小但少量的数据大”。然而,随机森林算法对应于黑盒模型预测精度高,但它有一个缺点,它不能直观地解释数据的分类是直接在内部执行的过程。
随机森林的原则操作如下。首先,各种子集生成任意从现有学习数据随机森林的学习。随机森林的最重要特征是装袋。装袋Breiman提出的是(2)在1996年作为引导的速记聚合。分类决策树原本是好的,但是,由于重载,随机森林使用引导扰乱数据。根据Breiman,装袋预测的方法使用一个聚合生成多个版本的预测和预测。装袋可以提高算法的准确率,因为扰动在学习设置可能会导致预测结构的变化。变量影响测量稳定性的研究基于随机森林算法获得高度关注在这些天10]。在最近的一项研究中,测量变量的影响分为两类:平均减少杂质(MDI)和平均减少精度(MDA)。
1.2。测量变量的影响指数
线性回归分析和决策树是最常用的算法验证分类结果的影响(11]。然而,随着数据年龄变得更复杂的随着大数据时代的发展,线性回归算法没有显示有效的分类结果。很容易直观地解释学习的结果,和一个决策树具有良好性能已成为另一种多维属性分类的数据。然而,决策树过于符合训练数据,有问题的共识,测试数据预测的准确性相对较低。随机森林方法提出解决问题的决策树的预测精度。
主要有两个指标来衡量的影响通过随机森林分类变量。一个是意味着减少杂质(MDI)指数,衡量变量的分类影响总计减少杂质的量进行分类,另一个是减少的数量的总和的准确性取决于特定变量的存在与否(意味着减少精度)。然而,由于这两个指标偏向适应变量的顺序在树结构中,有一个缺点,提供分类的影响比实际价值更大的价值。根据(12),有一个缺点,两个指标不能准确地确定分类的影响,因为他们不能区分虚假相关由于数据特征。摘要(12]因此提出了技术措施的影响条件变量分类来解决这个问题。然而,这种技术有局限性,不能准确把握相对分类变量和不一致的影响提供了优先级分类的影响。
本文有以下贡献:(1)我们提出一个变量影响基于夏普利值法的测量技术对随机森林回归。该方法试图解决这个问题,获得相对较高的高度相关的变量的贡献无论如何他们在预测是真正的贡献。(2)我们提出一个方法演示了联盟的影响变量。不仅考虑到个人变量是重要的变量的影响变量集,我们提出的方法可以检查变量之间的交互。它将增加一个变量的整体精度改善高优先级分类的影响时用作分区时变量在树上。(3)最后,我们提出一个连贯的变量影响的排名基于每个变量的边际贡献。
本文的其余部分组织如下。节2,我们描述相关变量影响的测量工作在随机森林回归算法。节3,我们解释了经济学理论方法夏普利值基本结构。节4,我们提出一个美妙价值变量影响的测量方法。节5,我们显示了与先前的方法和实验方法。节6中,我们总结我们的研究和总结。
2。相关工作
在本节中,我们讨论了先前的研究指数测量变量的影响。节2.1,我们介绍了先前的研究变量影响测量技术在一个随机森林。节2.2,我们将描述一些数据挖掘算法,应用夏普利值。
2.1。测量变量的影响指数
我们解释变量的相关研究影响测量指数随机森林。变量影响的代表方法测量指数平均减少杂质(MDI)和平均减少Breiman提出的精度(MDA) (2]。同时,为了改善其性能,Strobl et al。12)提出了随机森林条件变量影响测量技术。
2.1.1。意味着减少杂质
Breiman [2)提出了测量变量影响指数称为MDI基于杂质。数据杂质指数被用来决定我们想要分裂和变量,通常分裂。因此,MDI假设杂质的数量减少时,个体变量选择的分区节点是随机森林的贡献。因此,杂质减少所有的树的总和计算变量的重要性。减少杂质分类树使用基尼系数指数或信息增益和回归树使用变量的平均值。
变量的方程(VI)变量重要性如下。计算变量重要性对于MDI方法,它增加了基尼系数的降低从1到每个变量,这意味着树的数量,并获得所有的平均值。
意味着减少杂质的公式12]
MDI的优点是容易计算,但缺点是,它只能为分类变量,其中包含有偏见的多维属性。例如,如果有连续变量和分类变量包含多个类,这意味着变量更容易有偏见的,因为他们可以被认为是更表面上分区分类变量时在相同的条件下选择。当试图树分割成一个特定的变量,最有效的分区是当杂质是最低的。如果杂质减少到最大的程度由一个分区,这个分区被认为是一种有效的分区,这意味着高贡献树分区。
相反,当试图分裂成一个特定的变量,如果减少杂质的数量之前和之后该部门是0,这是毫无意义的执行部门,因为数据不是通过变量分类。因此,在本例中,变量的重要性判定为零。
2.1.2。意味着减少精度
MDA也被称为排列重要性。这是因为创建决策树时基于一组学习的数据集划分通过二次抽样,排列有一个重要性,背后的直觉不是一个有用的功能预测的结果。OOB (Out-Of-Bag)是一种二次抽样技术来计算每个训练样本的预测误差利用引导聚合。MDA方法,计算变量重要性排列和方法使用OOB划分它的示例数据。换句话说,OOB估计更精确的预测精度值通过计算OOB前后排列的变量和计算的差别。
自 ,变量的重要性在树的平均价值区别是在交换之前预测类吗,这是 后,交换变量,这是 ,在某些观察我。
公式的意思是减少精度(12]
2.1.3。条件变量的重要性
Strobl et al。12)确定偏差MDI和MDA的选择问题。这两种方法是敏感的时候选择分裂变量选择的变量是有偏见的。在预测变量与错误相关的情况下,变量的影响是高估了。这表明有条件地替换变量的一种方法的范围内指定的变量 通过分离变量的随机排列输入的数据被替换为自变量。这项研究显示了一个模拟找出问题在表1。上述变量引用下面的意思。第一行的数字输入变量,第二行是其权重预测。在这个模拟过程中, 是相关的。
2.2。数据挖掘算法与夏普利值
在本节中,我们研究相关研究数据挖掘技术运用沙普利值。大多数研究表明,运用沙普利值的原因是掌握客观变量或特性的重要指标在不同的算法。
2.2.1。特征选择方法
科恩et al。3]提出夏普利价值取向的特征选择方法。处理维度的诅咒来提高预测的准确性,Contribution-Selection算法(CSA)排名每个特性的贡献值利用夏普利值。根据贡献的特性,该算法执行选择向前或向后消除。执行时选择,算法选择特定数量的特性从最高的贡献值。否则,它从最低的选择特性的贡献值来消除。
2.2.2。多重回归分析
Lipovetsky从和康克林13)利用夏普利值分析预测变量的相对重要性的多元回归模型。多元回归分析是一种统计分析方法,估计两个或两个以上的独立变量之间的因果关系。沙普利值比较所有可能的子集内的平均预测模型提高预测精度通过计算单个变量的重要性。
2.2.3。可替换主体强化学习
在动态环境中多个代理相互通信,每个代理寻找一个平衡点,以确定其行为。在这项研究中,保龄球和曼(14)结合夏普利值的概率模型,结合了马尔可夫决策过程和矩阵为有效的强化学习。
3所示。沙普利值模型
在本节中,我们解释模型对夏普利值对应于经济学的博弈论。我们在部分解释夏普利值每一步4.1,4.2,4.3。
3.1。沙普利值是什么?
沙普利值Lloyd Shapley提出的1953年,关于公平分配理论与玩家共同利益关系在合作博弈的情况下。在博弈论中,游戏可以分为两种类型。一个是合作游戏,玩家形成某种联盟共同协议最大化他们的公共收益,另一个是一个非合作的游戏玩家最大化利益通过单独行动,而不是来自任何相互协作。根据夏普利值,玩家形成联盟,创造特定的共同收益。玩家在每个联盟获得差异化收益公平分配的基础上他们的贡献利用夏普利值。
3.2。基本结构
下面的概念是用来描述夏普利值(15]。首先,有一个球员谁想参与游戏。
根据(15),这个定理定义与给定coalitional游戏 。有一个独特的回报 ,大联盟的全部收益,满足对称,假球员,可加性公理。根据定理,沙普利值遵循公理进行公平分配对球员联盟。
首先,遵循夏普利值对称axiom分配有利于球员做出了相同的贡献。
公理1(见[15])。为每一个在, 。
其次,遵循夏普利值效率axiom分配集体收益联盟内产生与任何剩余收益。
公理2(见[15])。为每一个运营商的,。
第三,遵循夏普利值可加性公理,也叫聚合的法则。这个公理描述了两场比赛和的总和和应该是一样的吗 。
公理3(见[15])。对于任意两个游戏和,
沙普利值是一个理论,公平合理地分配集体收益来自联盟的球员。因此,下面的公式是用来计算的夏普利值的球员我假设每个玩家的概率将被放置在任何顺序在每个联盟将是相同的。沙普利值可以得到平均边际贡献可以获得当玩家联盟内放置在任何顺序通过以下公式。沙普利(定义的方程是15)如下。
给定一个联盟比赛沙普利值的球员我由以下给出。
沙普利值的公式(15]
一组球员组成
。因此,球员的总集合构造。其次,有一个联盟形成的球员在合作博弈的情况下最大化他们的回报。在这种情况下,年代意味着所有子集的集合N,联合政府,包括所有n球员被称为大联盟。第三,有一个回报,玩家愿意从联盟中获益。值的子集年代对于整个组N是特征函数所代表的。
4所示。测量变量的影响
在本节中,我们解释了该方法。在这项研究中,我们提出一个方法运用沙普利值从博弈理论解决问题的先前的研究变量的随机森林算法的影响。我们的研究遵循五个步骤的过程。细节如下。
4.1。贡献的计算步骤
首先,我们计算每个变量的贡献。当我们产生各种随机森林回归树算法,我们遍历每个树的路径分配每个值中使用的变量回归树。我们可以指定一个路径每一个联盟。我们执行这个贡献计算步骤基于MDA方法,这排列随机变量计算变量的预测精度,以便我们能够计算每个变量的边际贡献。
4.2。建设步骤
其次,我们构建联盟中使用的所有变量随机森林。我们认为联盟为个体变量作为合作博弈情况下的球员通过连接特定变量的贡献。每个变量都有自己的根据与每个联盟联合贡献回报。图1描述了一步。
4.3。作业步骤
第三,我们分配每个联盟与他们的贡献值。我们在每一个联盟分配值。在这种情况下,联盟的数量是一样的幂集回归树中使用的变量。我们比较联合形成的步骤5.2的幂集变量用于随机森林。如果一个变量不属于同一树路径和价值权力集没有分配,这个联盟的值被认为是零。这是因为联军决定,没有预测精度的贡献,因为它是一个联盟,没有导致回归树。
4.4。计算步骤
第四,我们使用Shapley值法计算变量的影响。我们把变量和他们的贡献结构。基于第5.3步,变量和贡献的分配会导致获得的夏普利值求出变量影响个体变量。
4.5。排名的步骤
最后,我们提供了一个连贯的排名基于变量的影响。沙普利值计算的影响个体变量以及变量的优先级值影响基于价值分配给联盟的贡献。在这种情况下,排名的排名不仅可以被认为是个体变量也影响联盟的价值。可以排队的最高级别的变量影响或排名最低。在未来的工作中,我们可以使用这个排名降维方法来提高预测准确率。
5。实验
在本节中,我们利用夏普利价值方法测量变量影响的随机森林回归。在实验中,我们比较变量的影响与之前其他测量技术研究与我们提出的方法:MDI和MDA。
实验环境是英特尔(r) (TM)核心i7 - 6700总部@ 2.60 GHz CPU / 2.592 GHz, RAM 16.0 GB, x64 Windows操作系统。我们用R和Python 3.5编程语言:我们主要使用Python变量影响实验测量技术和我们用R数据可视化和应用程序之前对随机森林算法randomForest包工作。
实验1。在前面的实验中,我们计算出偏差选择问题在之前的变量影响测量技术:MDI和MDA。我们设置某些公式简化这个问题。假设有一个公式
,我们预测和三个变量,,。因为预测变量同样有助于预测价值是三个变量的总和。因此,当我们测量的变量影响变量,每个三个变量等于同一变量的影响。
然而,MDI和MDA显示某些偏见在变量选择阶段。测量的结果变量的影响,,没有相同的影响。简要描述的偏见的选择,我们比较实验和10回归树MDI和MDA的随机森林的性能。的参数n树意味着许多分离变量。也就是说,当
,我们选择一个变量作为分割点回归树。随机生成的输入变量的数量是10000和中值是0,其标准偏差为0.1。
数据2和3展示实验结果偏差选择在MDI和MDA。即使所有变量的权重是一样的,结果表明最高的变量,这些变量的影响。
当 ,的三个变量的概率被选中作为一个分裂变量等于三分之一,这样分布相对相同的变量的影响。然而,我们可以看到有一个偏见的选择时选择多个变量。然而,MDI的测量,通过数据衡量变量影响杂质减少,表明有一个变量的影响高于或。
为了解决这种偏见的选择问题,我们运用沙普利价值的技术。我们生成10,150年和300年回归树,分别测量变量的影响。表2显示的是测量基于生成树分类的影响。
如表所示2,3,4这三种技术描述变量的影响,影响的其他两个变量的两倍。因为所有变量预测变量有相同的重量,这是偏颇的措施的影响。时的性能比较 ,MDI测量变量的影响区别大,,特别是,和显示不同的两倍或更多。MDA测量还显示,MDI影响最高。此外,这些结果不受树木的数量。因此,即使任意生成树是通过随机森林,之间没有显著差异MDI和MDA提供的有偏见的变量的影响。
然而,该方法基于夏普利值(SVC)减少影响这些变量之间的差异。如表2显示,几乎没有差异变量之间的影响变量的计算性能通过夏普利价值方法时 。表3显示了三个变量的影响的实验结果与测量技术 。表4显示了结果时是300。我们表明,SVC的价值似乎相对相似,尤其是当是10和150年。
不同于以前的方法,它有一个大的差异变量之间的影响变量,沙普利价值方法这种偏见问题提出了解决方案,减少变量之间的差异影响。
数据4和5显示每个技术基于表的变量的影响2,3,4。MDI和MDA代表明确的重要性没有任何明显的重要性。变量保持其重要性排名不管有多少树构造。
(一) 树= 10
(b) 树= 150
(c) 树= 300
另一方面,SVC在图所示的结果5,图表明的重要性估计是类似于其他变量而不是其他技术如MDI和MDA。从变量的影响都是相同的在上面的公式中,差异越小,,意味着更多的据估计准确的重要性。
然而,我们的方法有局限性,变量的变化影响范围极大的发生根据树的数量参数。缺点出来时n树是300。在这个实验中,变量之间的差异影响的情况 和 显著降低,但之间的区别吗和在的情况下 是两倍多。尽管SVC似乎偏向在计算变量的影响 ,该方法仍然执行比MDI或MDA更好的解释。
图6箱线图显示基于MDI技术变量影响的范围。轴是变量的影响变量和轴是三个变量。如上结果已经表明,这项技术提供了偏见的影响值,,。图7MDA技术显示了变量的影响。的变量似乎也有类似的重要性MDI技术的结果。
然而,图8显示了与SVC的实验。三个变量的重要性似乎比其他方法更平均,即使看起来不稳定范围。由于先前的研究表明,沙普利值选择完全不同的变量与其他分类器的特征选择技术(15),贡献值计算出的候选人在迭代变量被修改。
因此如果有重大变化在候选人的组合变量,变量的影响可以波动的范围。的影响和,该方法SVC仅限于提供一个完整的解决方案但仍有偏见在MDI和MDA。在SVC技术中,变量影响显示巨大的波动。波动的原因是,沙普利值计算每一个联盟来评估每个变量的影响在分类。自随机森林算法构造随机联盟并不是每个联盟影响结果,联盟的收益不最初由随机森林被认为是0。因为联合政府没有对结果没有任何贡献的回报。因此,当我们有一个波动平均边际贡献所有的联盟。这个问题导致不稳定SVC的变量的影响。
然而,本研究的贡献是,即使一系列变量的波动影响大于MDI或MDA, SVC可以判断更可靠的相对关系对变量。我们建议的方法显著减少了MDI和MDA的偏见,提供了计算变量的影响。
实验2。在这个实验中,我们使用一个真实数据集命名为波士顿楼市数据(11]。波士顿楼市数据提供506实例和13属性,影响房价的波士顿。波士顿楼市数据的描述符号(2)所示。
图9显示变量的影响用以前的方法来衡量。左边的图表显示变量的影响来衡量MDA方法,和另一个右边的图显示变量的影响来衡量MDI方法randomForest包R图书馆(16]。最高的两个变量是RM和LSTAT测量这些变量影响指数。
然而,这个排名是不可观的变量相关变量之间的影响。例如,有一种现象叫做多重共线性问题。多重共线性是指两个以上的输入变量是高度相关的,这些变量的影响是高估了。自从现象战利品相关输入变量和预测之间的重要性,我们需要减少多重共线性的可能性。
在这个数据,氮氧化物之间有高度的相关性,印度河,税。印度河意味着nonretail业务的比例每英亩城镇和氮氧化物意味着一氧化氮浓度。能推理的,印度河和氮氧化物正相关:随着工业区的比例增加,一氧化氮浓度的比例也增加。当印度增加税收比例增加。因此,印度河,氮氧化物,税收是高度相关的。
然而,这些相关变量的影响是相对较高。尽管这些变量获得较小的贡献比LSTAT或RM,排名应该可靠为了做出可靠的决策。这是更有效的,如果我们只使用一个相互关联的变量。消除不必要的变量,因为变量影响排名降低维数。为了解决这个问题,我们使用我们的方法。实验步骤。
首先,我们比较随机森林回归树的预测精度,当我们交换某个随机变量的边际贡献的具体变量来计算。第二,我们为个人变量构建联盟的球员合作博弈情况通过连接特定变量的贡献。每个变量都有自己的根据与每个联盟联合贡献回报。第三,我们分配了一套电力联盟N我们计算了MDA的贡献值。最后,基于结构,我们计算夏普利值。
我们实现了MDI和MDA在Python中比较变量影响测量结果与我们的夏普利价值提出了研究方法。在MDA,我们洗牌排列对随机变量的数据集的10倍。我们使用交叉验证技术,排列比较的随机变量。
表5,6,7展示我们的实验的结果。表5显示的结果变量的影响测量技术的随机森林回归通过生成20树。表6生成50个树和表7生成100棵树来测量变量的影响。在这个实验中,我们统一mtry参数为6。这意味着在随机森林回归树选择6个变量作为分离准则进行预测。相反,每个实验都有不同n树参数,随机森林中树木的数量。这意味着树生成过程迭代20日50和100倍。
SVC的价值 在表7而不是其他值SVC变化。自随机森林结构随机树和只使用抽样分类树,有稀疏的联盟不是由模型并没有对分类结果的贡献。然而,当涉及到计算每个变量的贡献,我们必须要考虑所有情况下的联盟虽然没有贡献。这些联盟视为虚拟球员,所以我们分配0回报由于公理。树的数量变大时,虚拟球员联盟没有价值的数量也增加了。最后,由于我们联盟的平均所有值计算SVC, SVC的价值降低了。
正如我们之前提到的,RM和LSTAT尤其是最重要的变量在波士顿房价预测。无论树训练随机森林的数量,RM和LSTAT最高的排名。同时,我们可以看到我们提出的方法的结果,指夏普利价值计算,最高排名保持一样的MDI和MDA。
我们找出方法解决多重共线性问题的变量影响测量在MDI和MDA。表6显示变量影响的印度河,氮氧化物,税收在MDI几乎是相似的。对于MDA,氮氧化物的变量影响印度或税收相比相对较低。不过,平均这三个变量的影响,这意味着三个变量都视为随机森林的分割标准。
另一方面,我们建议的方法减少了可能的多重共线性问题。当 ,印度河和税收的影响接近于零。氮氧化物的影响变量为0.057。SVC只考虑氮氧化物作为分离准则在预测和决定不发布一个明显影响印度河和税收因为他们是高度相关的。即使 或 沙普利价值取向的方法,结果表明,印度河的变量影响为零。
沙普利价值方法的结果变量的影响底盘是零。底盘是指查尔斯河哑变量。相关的变量似乎在MDI和MDA最低的变量的影响。到目前为止可以消除底盘变量作为一个哑变量不为任何预测。空球员没有贡献,这是公理的结果回报不是分布式的夏普利值。
图10显示变量的箱线图MDI的影响。图(一个)显示所有的变量影响波士顿楼市数据和图表(b)只显示小的变量。因为RM和LSTAT预测产生重大影响,可能可以省略次要变量的方差图。图(b)11显示了MDA的箱线图和图12显示了SVC的箱线图。
(一)总变量的变量的影响
(b)和次要变量的变量影响
(一)总变量的变量的影响
(b)和次要变量的变量影响
(一)总变量的变量的影响
(b)和次要变量的变量影响
然而,我们的方法揭示了限制SVC的实验方法提供了高度不稳定的变量的影响,而不是其他的技术。的范围变量的波动似乎分散实验结果的影响。然而,SVC的平均变量影响的方法显示了比其他方法更好的重要性。
表8显示变量高度相关的比较税收和印度河的影响测量技术计算了每个变量的影响。尽管夏普利价值方法的方差最大的均值是有意义的。我们发现多重共线性问题是解决变量影响的印度河和税收Shapley值法计算。
6。结论
在本文中,我们提出一个方法来衡量的影响变量使用Shapley值法在随机森林算法。一个现有的测量方法分类变量均值的影响减少杂质技术,它使用基尼系数来确定变量通过数据减少杂质的影响。另一个是意味着减少精度的方法,这限制了分类的影响通过计算的差异通过允许改变数据的预测精度的变量。指标都是常用的测量变量使用真实的数据分类的影响。
我们建议的方法执行比其他方法有两个主要原因。首先,我们的方法在其他技术试图解决多重共线性问题。在前面的方法中,计算不准确,因为变量影响的相关变量。在本文中,我们提出了夏普利价值取向的方法,这样回报相当变量之间的分布式的贡献。第二,我们的方法不仅考虑个体变量的影响还组变量的影响。变量之间存在协同效应时执行有效地结合。以前的方法没有考虑集团的影响。然而,在这篇文章中,我们要考虑群体的影响,这样我们可以检查变量之间的协同效应。
通过本研究,我们作出了以下三个贡献。首先,本文介绍了现有技术的问题寻找变量使用随机森林分类的影响,并试图解决它通过结合经济学理论的夏普利值。作为夏普利值应用于各种机器学习或数据挖掘算法,它是第一个研究将经济学理论的夏普利值测量的随机森林分类的影响。第二,我们可以获得的优先级的变量影响分类结果的准确性通过该方法。该方法提高了随机森林预测的准确性基于这个优先级。最后,本研究提高了黑盒模型的分析能力。解释变量重要性分类问题是至关重要的。该方法适用于测量变量的影响在黑盒模型如随机森林。此外,该算法适用于移动云计算环境。
在未来的工作中,我们将用几个不同的数据进行实验。此外,我们将研究减少复杂性,这样我们可以提高变量影响的性能测量技术基于夏普利值。
符号
(我)合作博弈理论的符号12]| 球员愿意参与合作博弈 | |
| 总组球员 | |
| 联盟的玩家共同的回报 | |
| 的回报,玩家获得联盟。 |
| 有罪的: | 城镇人均犯罪率 |
| 锌: | 住宅用地的比例划定的很多超过25000平方英尺 |
| 印度: | nonretail业务比例每英亩 |
| 底盘: | 查尔斯河哑变量(= 1如果束边界;0否则) |
| 氮: | 一氧化氮浓度(每1000万部分) |
| RM: | 平均每个居住的房间数量 |
| 年龄: | 业主单位的比例在1940年之前建成的 |
| 说: | 加权距离五波士顿就业中心 |
| RAD: | 可访问性指数径向高速公路 |
| 税收: | 全部价值每10000美元的财产税率 |
| PTRATIO: | 小老师比例的小镇 |
| 黑色: | ,在那里由城市黑人的比例 |
| LSTAT: | %地位较低的人口 |
| MEDV: | 自住房屋的平均价值在1000美元。 |
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的信息与通信技术促进研究所(IITP)由韩国政府拨款(MSIP)(没有。r0115 - 16 - 1009,开发智能学习交互内容获取外语通过经验意识)。