文摘
决策树算法是一种广泛使用的分类和预测方法。因为它生成一个树状分类器,它结构简单,被人们广泛使用。不管决定属性决策树算法,根据条件属性进行分类。判断过程从根节点到叶子节点。树的每个分支的选择最佳的分裂属性。然而,这种分类决策树的方法使它过于依赖训练数据。如果数据更复杂,有嘈杂的数据,不完整的数据等等。决策树通常会有过度拟合问题。本研究主要分析了随机森林算法模型和CART算法和CART算法适用于模型根据随机森林模型。针对该算法在解决大数据上的不足,本研究将通过MapReduce编程模型改进算法实现并行化过程和建筑的功能。结合的建设目标和原则的人才供应链管理系统,本研究构建的总体框架和操作过程企业人才供应链管理系统基于决策树模型从整体水平和操作水平。 Aiming at the enterprise’s talent management problems, it focuses on designing integrated management, flexible management, talent information integrated management, and evaluation and optimization management models to ensure that the constructed system is operable and measurable and can achieve dynamic optimization. Based on the current situation of talent management in a company, this study analyzes the enterprise talent supply chain management model based on the decision tree model proposed in this study and constructs the overall framework and core model of a company’s talent supply chain management system. The current situation of the company puts forward the safeguard measures for the implementation of the management system to assure that the established management system can be effectively implemented.
1。介绍
随着经济全球化的发展和促进国家产业升级,企业迎来了新的机遇和挑战1]。公司必须适时调整自己的战略和相应的发展。战略转型的成功最终将落在人才。人才是企业竞争力的核心要素,它具有深刻意义的实现公司的战略目标和可持续发展2]。但在实际操作过程中,大多数公司无法找到现有的人才在人才需求时。传统人才管理主要是将不同的工作模块人才管理和不能保证公司的人才可以获得一个匹配和持续供应(3]。供应链管理实现了有效集成供应链中的各种活动的系统和过程的想法和已经成为企业的战略竞争资源。不同学者供应链管理的概念和模型应用于其他领域,提出了全新的管理模式,如服务供应链管理、建设供应链管理、食品供应链管理,供应链管理理论在制造业领域的不断改善(4]。
决策树,树,也称为判断一个模型显示决策规则和分类结果在一个树状数据结构。归纳学习算法,其重点是将看似无序和混乱的著名的例子转换为树模型,该模型可以预测未知的情况下通过一些技术手段(5]。的路径属性的最大贡献到叶节点(最后的分类结果)代表一个决策规则。决策树算法的优点是不仅简单、容易理解,也有效和实用。它可以多次使用后建造一次,或分类的精度可以由简单的维护维护树模型。经典的决策树算法并不擅长处理模糊数据(6]。然而,在处理实际问题时,常常遇到模糊的场景,如区分高和低工资(7]。这些高和低的界限是不同的课程和不同的收入。随着模糊理论应用到复杂的智能系统,模糊决策树算法形成的融合理论和决策树算法。模糊决策树算法,作为经典的模糊扩展清晰决策树算法,扩大了算法的应用范围(从经典集扩展到模糊集),并对决策树算法的发展产生深远影响,甚至数据挖掘(8]。
本研究考虑的应用C4.5算法和使用Robida法则来提高算法的效率。然后,根据大规模数据挖掘的需求,车,作为一个算法,可以生成一个最小的决策树结构,将改进的基于随机森林模型。随机森林模型没有高要求的数据类型,缺失数据、属性分类和决策属性类别的决策树。由于这些优势,将购物车算法应用到随机森林模型可以克服CART算法的缺点。本研究将研究该算法并行化,选择最合适的MapReduce编程模型实现改进的CART算法,通过几个并行模型的研究。为了详细说明施工过程的企业人才供应链管理系统基于决策树模型,本研究使用一个公司为基础进行案例分析的人才供应链管理系统,构建公司的人才供应链管理系统现状的基础上,人才管理的公司。总体框架和核心人才供应链管理系统的模型构建是评估和演示。最后,结合评价结果和公司的现状,保障措施的实施管理系统提出了确保构建管理系统可以实现动态优化。
2。相关工作
迭代二分3 (ID3)算法的发展奠定了基础的决策树算法在未来(9]。这个算法的建议受益于公元香农提出的信息熵的概念。在信息理论中,代表离散随机事件的概率。ID3算法的核心思想是利用信息增益作为选择分裂属性的基础。信息增益显示多少“信息”属性带来的分类系统。ID3算法适用于与大多数数据集分类问题,分类速度和测试速度相对快。然而,该算法没有考虑如何处理连续属性,缺失的属性,和噪音的设计(10]。之后,相关学者设计了C4.5算法ID3算法的缺陷,介绍了信息增益率的概念11]。它克服了ID3算法无法处理缺失的属性和连续属性,介绍了优化决策树的修剪方法,使算法更高效,更适用。
相关学者提出了分类和回归树(CART)算法(12]。CART算法使用基尼系数,而不是信息熵和使用一个二叉树模型结构,所以该算法找到最佳二进制分区中所有的属性,而不是直接把数据属性值。CART算法不断把决策属性通过递归操作,同时使用验证数据优化树模型。
结合模糊理论,提出了各种模糊决策树算法(一个接一个13]。模糊ID3算法是ID3算法的延续,它定义了一个新概念的模糊信息熵和增强了ID3算法的适用范围。还有另一个算法基于最小的不确定性,Min-Ambiguity算法。该算法可以处理噪声数据,具有较强的适用性。相关学者提出了一种软决策树算法(软决策树),它定义了一套完整的树构建和修剪过程和提高决策树的适用性通过组件和重组14]。相关学者提出了C-fuzzy决策树(C-fuzzy决策树)算法基于模糊聚类算法(15]。该算法可以同时考虑多个属性,以构建一个树。模糊SLIQ算法选择最小的属性模糊基尼指数构建树中的每个时间和可获得数据构建树的过程。相关学者提出了广义模糊ID3决策算法(GFID3)基于广义哈特利信息度量,从而增加非线性决策属性的处理(16]。实验表明,它具有更高的准确性和更简单的决策规则。
研究人员已经提出了一个可扩展的并行的决策树归纳算法,可伸缩可平行的诱导决策树(SPRINT)算法(17]。并行计算提高决策的有效性,提高了算法的可扩展性。相关学者提出的改进算法SLIQ算法C4.5算法,利用策略的属性表,分类表和类直方图解决内存溢出的问题(18]。相关学者设计了雨林算法来提高对大型数据集进行分类的能力(19]。相关学者提出了决策树分类器集成构建和修剪(公共)算法基于CART算法[20.]。修剪策略更加有效。
相关学者进行研究方面的人才供给和需求,才能补偿,和人才分配和指出了研究方向的人才管理领域的人力资源(21]。研究人员分析了关键因素,影响企业实施有效的人才管理三个方面的工作,人才识别、和人才使用和解决这个问题的总劳动力和人才的短缺和技能(22]。
的改善供应链管理的战略地位和人才管理的战略意识的形成,学者们已经开始尝试将供应链管理理论应用到人力资源管理领域,并取得了相应的研究成果在宏观和微观方面23]。有关学者提出将供应链管理的思想引入到人才管理领域,利用供应链管理的核心概念和模型来解决突出问题领域的企业人才管理从microperspective提出四个经营原则适用于人才管理(24]。相关学者们扩大了人才管理过程外的从企业的角度来看,企业和人才管理过程的各个方面讨论从企业microperspective,包括预测需求,详细的工作要求,建立候选人才池,并评估候选人才(25]。
3所示。方法
3.1。系统网络体系结构
平台采用B / S体系结构的开发和设计。主要目的是减少系统维护和升级的成本和工作量。网络体系结构是采用图给出1。
根据系统的不同服务对象,人才成员单位和“人才”作为整个系统的主要服务对象。当系统被定义,他们被视为特殊的系统用户数据和管理数据的基本数据。
整个系统应用程序主要围绕流程、数据统计、数据查询等服务。考虑到系统的可扩展性和可维护性,在未来的基本平台提供了最基本的通用组件,以便系统中使用其他应用系统。
报告系统从技术进步和适用性,以确保用户意识到视觉数据统计和编辑,以及平台设计为用户提供了可视化报表设计工具。工作流引擎从标准化和理性,为了确保用户实现人才的统一管理和配置,以及平台为用户提供业务和应用程序绑定。全文搜索引擎提供数据检索规范和接口,实现系统级的数据检索服务。
3.2。系统应用架构
为了满足用户的要求,一个简单而快速的操作、业务应用程序体系结构的系统的设计将采用基于B / S架构的分布式三层体系结构。
牢记保密的需要和技术的可访问性,三层体系结构的应用程序将业务规则、工作数据访问、中间和合法性验证层进行处理。客户端不直接与数据库交互,但是建立中间层提供外部接口,然后建立一个正常连接的中间层通过HTTP和其他方法,然后通过中间层与数据库交互。服务器三层体系结构设计需要承担更多的工作期间的操作平台,以确保对数据库的访问和应用程序的执行是实现在服务器上;因此,客户的工作大大简化,客户端只需要配置。浏览器可以实现所有的功能,比如浏览和获取人才信息。
表示层是由用户界面(UI)和UI控制逻辑。UI的浏览器客户端。主要功能是有选择地反映服务请求从浏览器到任何web服务器在网络上。web服务器对用户进行身份验证,然后使用所需的HTTP协议,以反映用户的主页。传输到客户端,客户端接收到从web服务器主页文件并显示在web浏览器。UI控制逻辑的主要任务是处理UI和每个业务层之间的数据交换,和国家的自动控制流之间的UI,和数据验证和格式等功能。
为了提高软件的可重用性和可维护性,平台设计将组件技术应用于B / S三层体系结构为有效开发,实现业务逻辑封装,并确保该平台既简单又实用。
3.3。CART算法
分类和回归树(CART)算法产生一个简单的二叉树,每个部门的决策树是由两部分构成的。假设数据集包含n类,然后
其中,π的概率我th类型的数据年代。从公式可以看出,基尼系数衡量数据部分的杂质,所以基尼系数越小,节点分裂的质量越好。如果S分成年代1和年代2,然后将基尼系数如下:
有两种基本分类树的想法:一个是创建一个树递归的方式;另一种是修剪决策树与验证的数据。在建立阶段,购物车和SLIQ使用基尼系数作为测试属性选择标准。基尼系数越小,节点分裂的质量越好。在修剪阶段,购物车修剪算法有两个评价方法评价模型。
CART决策树算法的发展是一样的其他决策树算法。有必要检查每个变量及其值,然后找到最好的部门。discrete-valued属性,空集和全套以外的部门划分根据属性值;对连续值属性,确定分割点。分裂属性的选择标准是根据基尼每个属性的价值。基尼系数C的类别数量决策属性集D,基尼杂质当前节点的属性一个如下:
的公式,p我是指当前节点的属性值的概率属性属于类我。当前节点,如果属于同一类别的属性节点或没有样品被分割,那么这个节点是根节点或一个叶子节点。如果这两个条件不满足,二元分化应根据样本的属性和属性值。在这个时候,假设当前节点分为两个节点B和C根据属性的属性值,和B的比例p和C的比例一个是问,然后根据样本,它分为两个节点B和c,每个子节点的杂质变化量如下:
从公式可以看出,对于每个属性值的划分,更大的杂质的数量变化,纯度越高划分后的子节点,所以基尼(一个)作为选择指标的属性值,并为每个部门选择属性。最好的分裂属性是最大的价值变化杂乱。
Prepruning是处理数据之前修剪去除噪声等不利因素的数据,但这需要停止操作数据每次构造树。这修剪方法用于初始ID3算法。购物车的修剪算法采用事后修剪的方法,也就是说,成年决策树修剪,不必要的分支节点被删除,和决策树变得更简单,决策树成年后。
假设只有两种类型的样本集年代决定属性,积极和消极,属性计算作为决策树的根,决策属性的数量p,和负类的数量n。然后,把决策树所需的信息在这个时间如下:
属性的一个有不同的值。根据属性值,分为决策树(子集年代1,年代2、……西南)。假设年代我包含决策属性。明确的类的数量p我。属性值的信息熵我的属性是E(年代我):
此外,我们使用属性分类信息熵E(一个):
信息增益值如下:
在C4.5算法,信息增益率方法用于确定测试属性。信息增益率是信息增益值的比例分割信息数量。的分割信息SplitI (一个)如下:
信息增益率GainRatio (一个)如下:
假设 ,样本集年代分为年代1和年代2,然后,信息增益率计算公式可以简化如下:
其中,
生成的决策树CART算法具有典型的决策树的特点,如效率高、易用性和强鲁棒性。此外,它还具有以下明显的优势:(1)关于变量的属性示例数据,连续变量可以直接未经离散化处理(2)该算法可以处理null值的属性(3)因为该算法没有参数,没有要求和条件属性的分布决定(4)对孤立点,算法流程到叶节点在不影响整个决策树的构建(5)生成的二进制简单的树比其他算法更高效的计算和评价
3.4。模型建设
据推测将包含生成的随机森林模型k分类树,随机变量的数量在每个分类树生长时使用米(k和米需要优化建模之后)。随机森林的建模过程实际上是每个分类树的生长过程和决策树的评估过程。因为每一个决策树的生长过程是一致的,一个决策树的生长过程被认为是在这里。决策树生长所需的样本集的来源n从最初的随机抽样的样本数据集以自助方式。对于这些n样品,米最好的样本属性是随机选择分裂属性选择。这些增长过程划分n样品和米属性来生成一个决策树。的建立k分类树,如果模型用于分类,我们使用k分类树要分类的数据进行分类和投票,选择更多的选票结果的分类树;如果要预测价值,回归树生成,生成的值回归树平均结果。
通过随机森林的建模过程,可以发现,由于样本数据的选择和属性是随机的,划分的问题,过度依赖属性和避免过度拟合的数据。不需要测试k在建模过程中生成的决策树,因为当k需要不同的值,随机选择的样本数据从原始数据,这个过程已经包括内部评估。
对于每一个树构建样本集,米属性是随机选择建立树。假设原始数据的样本数量是N,每个样本的概率数据没有选择进入树构建样本集是1 /NN。使用近似计算,这个值可以被视为大约1 /e当N足够大。也就是说,近1/3的样品原始数据将不会被用作树构建训练样本。这可以避免过度拟合的数据。这种方法也被称为out-of-package误差评估。具体模型如图2。
由于CART算法本身有许多优点是简单和方便的构建,算法的效率和精度不能保证大数据集时。将该算法应用到随机森林模型解决了购物车的缺点大数据处理的算法,并且由于训练集数据和树构建属性是随机选择的,该算法有较低的要求数据本身。决策树得到最后决定通过投票或平均结果,进一步保证算法的准确性。此外,原车需要修剪算法和评估后,树的构建。虽然这可以确保算法的准确性,它有一个明确的对算法性能的影响,从而增加了数量的计算,和新算法的过程中构建树。评估,不需要修剪树建立后,决策树的准确性是保证由于随机方法。
3.5。基于随机森林的CART算法的并行设计
根据结构和数据流的改进算法和MapReduce模型,CART算法基于随机森林和MapReduce编程模型可以组合在一起,这是分为三个阶段,即树建筑,森林建筑,和投票。数据初始化过程中,MapReduce调用配分函数随机样本数据并完成随机提取的属性决策树样本集。森林建立过程在MapReduce模型优化如图3。
它可以观察到在图3当建筑森林,每一个决策树分类器的组件主要是并行。它可以进一步发现,施工过程的每一个决策树也可以并行。节点的属性被映射,输入减少每个属性的基尼系数值,并输出属性数和节点数的最小基尼当前节点的价值。决策树组件完成后,输出是决策树和决策树的数量信息。系统的映射对象是数据块原始数据后除以HDFS。装袋执行抽样;样品和属性提取树构建;和编号的信息返回决策树。减少的对象是决定每个数据块。决策树分类器的输出是一组由决策树树数量和相应的信息。
4所示。系统测试和分析
4.1。算法分析
在本节中,我们选择数据样本进行实验。在实验中,我们提取每个数据集作为训练数据的90%,其余10%的数据集作为测试数据,然后执行10从开始到结束。通过比较传统的时间复杂度和测试精度贝叶斯决策树算法和基于随机森林的购物车算法,它表明,在这项研究中提出的方法具有良好的实用性能,对增量数据有用的应用效果。在实验期间,50训练实验。为了提高培训的数量尽可能的实现结果的可靠性,10训练的实验被分成5组实验,每组和训练数据的数量是基于1000年。增量的25%和50%。在数据并给出了实验结果4和5。
(一)
(b)
(一)
(b)
从实验的数据分析,可以观察到购物车基于随机森林算法提出了增量数据分类,具有较强的可行性研究与贝叶斯决策树算法。贝叶斯决策树算法相比增量数据挖掘的数据样本,该算法在测试精度有明显的优势。在实际使用过程中,每个节点可以使用贝叶斯节点机器学习模型来做出判断。这个判断是更可信,有更明显的提高数据挖掘的结果,并且它可以越来越可靠。此外,效率也最重要的一个考虑的算法。在相同的实验条件下用同样的实验性能,贝叶斯决策树算法和该算法提出了研究比较平均1010交叉验证时间。
从数据4和5购物车,可以看出基于随机森林算法提出了研究大大提高性能而牺牲少量的时间,和时间的牺牲是一个可接受的范围内。一个算法的存储容量也比较算法的指标之一。从CART算法的结果判断,需要更多的存储空间,空间利用率算法并不好。相反,CART算法基于随机森林算法有更好的空间利用率。通过包括贝叶斯节点进行资源优化,这些节点有更强的数据处理能力,从而减少存储用于优化。六个算法相比,在这项研究中都使用贝叶斯的节点,所以没有空间利用率低的问题。总的来说,CART算法基于随机森林提出本研究将更适合优化人才生命周期管理平台系统的复杂的数据挖掘。
4.2。人才工作的综合管理系统
人力资源部门的大多数企业仍然独立的人才管理的各种工作模块,还有改进的余地人才工作的综合管理系统。具体的人力资源管理工作集成情况如图6。
如图6,大多数人力资源部门的工作缺乏信息共享和集成的流程管理的意识。只有7%的公司可以分享的人才信息数据库,形成一个动态联系人力资源管理系统充分保证人才管理过程。
企业可以有效地提高人才管理的效率,实现系统和综合管理人才管理工作。库存企业构建一个共同的人才信息,股票人才信息,及时了解人才管理的趋势,使得基于人才流动的管理决策,并与其他公司合作部门合作建设和管理人才,减少信息传递失真和信息传输延迟。
4.3。评估人才供应链管理系统的效率
根据指数分解原理和分解的效率评价的管理人才供应链管理系统,提取效率评价指标的人才公司的供应链管理系统进行了基于平衡计分卡的原理。
首先,我们分析公司的战略发展需求的四维财务、客户、内部运营、学习和成长,发现人才管理相关内容,并提供关键绩效领域的例子。财务维度包括的关键领域的整体操作人才供应链,信息系统管理和培训;客户的关键绩效领域维度是公司的内部客户满意度;的关键绩效领域的内部操作维度包括工作输入人力资源部门和供应的人才。
第二,我们改进的绩效评估区域人才供应商维度和找出衡量评价指标下的关键绩效领域的每个维度。例如,在客户维度,满意度是一个重要的评估区域。供应链管理的工作满意度的评价指标。考虑人才供应商可以选择“合作满意度的关键性能指标。“最后,我们修改评价指标根据指标选择的五项原则,形成最终的绩效评估指标体系,如表所示1。
如表所示1的评估指标,考虑公司的人才供应链管理系统资源输入和输出效率从五个维度,包括人才选拔过程的基础和专业能力评估和综合管理的协调规划和预测的过程。一系列的输入指标包括供应的比例、操作工作,培训效果评估,人才和满意度评估供应商和人才用人部门和运营效率的人才供应链管理系统,紧急处理的效率,人才梯队的建设,人才健身。等一系列的输出指标,工作稳定,全面、系统地考虑企业的资源配置效率的人才供应链管理系统。
4.4。分析的结果评价人才生命周期管理的效率
本研究使用模拟数据来证明公司的评估过程的人才供应链管理系统和法官所投入的资源公司是否在本期已经根据演示结果最大化。用比较分析的过程,两种不同的年作为决策单位。决策单元可以是一个连续或间歇年(或季度),记录为DMU。从评估结果,每个jDMU用于评估的相对效率的相对有效性的输入和输出的人才供应链管理系统公司在当前时期,也就是说,无论资源输入每个链接的人才供应链管理已经被充分的利用。之前和之后的相对效率系统优化如图7。
我们替换数据到系统模型,称为解决在软件解决人才供应链管理系统的资源利用效率在两年,并获得以下两年的评估值:(1)DMU1的年度评估结果是0.88,这意味着DEA相对无效。这有两个原因。一是操作过程的人才供应链管理系统,五个维度下的资源投资在每个指标太多,导致整个管理系统的产能过剩。第二,空间资源的不合理分配导致输出效率低的人才供应链管理系统和资源的短缺造成的。(2)DMU2的年度评估结果是0.95,这是DEA有效。是,公司实现了有效利用各种金融投资资源维度、操作维度、客户维度、学习成长维度,和人才供应管理维度和实现资源的优化配置人才供应链管理系统。
比较分析相关指标的两年,每年公司DMU2关注人才信息系统建设(I2),人才规划和预测(I5),人才供应链管理整体运营成本控制能力(O1群)、应急响应能力(O4)、人才的比例(O6),和其他方面已经与DMU2相比大大提高了。因此,一些策略可以提高管理系统资源分配的效率,如加强人才信息系统的建设,关注人才规划和预测,提高公司的综合管理和控制整个人才供应链管理系统的功能,灵活的管理措施,加强和改善内部招聘部门和外部人才的满意的供应商。
从一个特定的分析的角度来看,加强信息系统的建设可以有效地减少时间的比例在人力资源部日常工作,减少决策延迟的发生由于不合时宜的信息传输,提高预测的准确性和规划,逐步减少公司的人才供应链管理成本,和提高效率的综合管理人才。
人才供应链管理体系,公司的用人部门也参与供应链综合管理人才。的满意程度影响人才需求预测的准确性和人才流失的速度,改善用人部门。满意度水平可以促进后续人才梯队建设的顺利进行。
人才供应链管理系统包含人才供应商综合管理。供应商与合作的满意度会直接影响人才供应的及时性和质量的人才,人才供应预测的准确性,提高人才供给。供应商的满意度水平可以有效地促进人才的连续供应的人才供应链。人才供应链管理的操作系统追求整体资源配置的有效性。因此,在操作成本控制方面,我们也追求最好的整体价值,提高公司的整体运营成本控制能力的人才供应链管理系统,可以有效地减少资源浪费和资源短缺,并促进整个系统的有效性。
5。结论
本研究研究购物车的并行算法。通过研究大量的并行模型,CART算法应用于模型,然后,改进后的模型与MapReduce编程模型相比,结合随机森林模型。通过MapReduce操作过程的详细研究,算法改进和模型构造。相应的函数实现并行化。本研究构建的总体框架和操作过程企业人才供应链管理系统基于决策树模型。企业人才管理的现状的基础上,本研究分析了建设的必要性和可行性的人才供应链管理系统。的建设目标和原则的指导下的人才供应链管理系统,企业是由整体水平,结合决策树模型。本研究分析了企业人才的重要操作模式的供应链管理系统基于决策树模型。结合企业人才管理的问题,本研究侧重于综合管理的设计,灵活的管理,综合管理人才信息,评估和优化管理的操作水平,确保构造系统可以实现动态优化。根据公司的现状,本研究分析了本研究的核心内容,构建整体框架和四个核心公司的人才供应链管理系统的模型,并提出保障措施实施的人才供应链管理系统,根据评估结果。 The innovation of this study is that it conducts research on talent management from the perspective of the supply chain. Based on the decision tree model, it constructs the overall framework and operational focus of the enterprise talent supply chain management system and proposes an integrated talent supply chain management model.
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。