文摘
决策树算法是一种常见的分类算法在数据挖掘技术中,和它的结果通常是表达形式的if - then规则。C4.5算法是决策树算法,也易于理解和精度高的优点,和信息增益率的概念是与它的前身ID3算法。理论分析后,C4.5算法选择分析绩效考核结果,绩效评估的决策树生成通过收集数据、数据预处理、计算信息增益率,确定分裂属性和postpruning。系统开发的B / S架构,和一个研发项目管理系统平台,可以实现性能评估分析通过可视化工具,构建决策树算法和动态网页。该系统包括信息存储、任务管理、报告生成、角色权限控制,信息可视化和其他管理信息系统功能模块。他们可以实现项目管理等功能项目建立和管理、任务流程,员工信息填充和管理,绩效评估体系建立,各种尺寸的报告生成、管理驾驶舱建设。与决策树算法为核心技术,获得科学、可靠的项目管理信息系统高精度和实现数据可视化,可以帮助企业建立一个良好的管理系统在大数据的时代。
1。介绍
随着计算机技术的不断发展和进步和大数据技术,它提供了很多新的想法和互联网企业的管理方法1]。在今天的互联网的快速发展,互联网技术的使用和大数据分析科学和企业事务的有效管理,提高企业的核心竞争力,促进企业项目完成的进度,提高员工的效率和动力,降低操作成本,和维护企业、互联网企业构建特色管理系统有着至关重要的作用[2]。计算机和大数据技术的应用,企业管理可以充分提高企业的管理效率,越来越多的互联网企业使用各种系统为企业管理,比如腾讯的敏捷研发系统TAPD和禅道系统(3]。这些系统可以帮助企业管理项目和任务,并将工作分配给员工。通过这些系统,可以更快、更有效地管理项目。在企业管理中,员工绩效考核和项目成本分析起着关键的作用在公司的发展4]。一个公平公正的评价体系可以提高员工的积极性,提高项目完成的质量,提高员工的创造力和责任感。使用数据挖掘技术,结合企业项目管理系统,基于员工报告的信息系统分析和评估员工的表现,可以帮助员工开展self-planning和管理提供参考建议5]。
同时,使用项目管理数据和性能评估结果,可以分析企业的成本,和更加科学的分配可以根据员工的能力促进企业的科学和可持续发展。研发项目管理系统是管理项目的互联网企业从事软件开发(6]。通过这个系统,项目经理规划和管理的任务参与软件开发项目,组织和协调项目的生命周期,并使项目完成其最终目标有效地通过一个有效的管理系统7]。在本文中,我们使用数据挖掘中的决策树算法,分析了绩效考核结果由员工在系统中生成并生成一个决策树分析决策树,可以帮助员工了解绩效考核的重点,进一步规划自己的工作,提高工作效率(8]。同时,决策树可以直接生成员工的绩效考核结果,这可以减少将来企业管理人员的工作量,也使绩效考核更加公平、透明,和调动企业员工的动机9]。根据绩效考核结果,员工奖励、惩罚,和评价,以及他们的报酬决定,结合项目管理的费用,企业的每个维度的报告生成和显示在视觉形式,使企业的成本更清晰的领导,帮助企业了解企业的情况,以便制定未来战略和合理分配员工的工作,根据自己的能力,从而提高企业的市场竞争力(10]。决策树算法,作为一种常见的数据挖掘算法,也广泛应用于许多领域。其开发过程是很长的从简单到复杂,从简单到深。1966年,寻找开发了一个概念学习系统学习个人的概念,这是一个早期的决策树归纳学习系统(11]。
对决策树算法的研究仍在继续,目的是提高决策树算法的准确性,结合相关技术在其他领域产生更多的效益。决策树算法广泛应用于教育、绩效评估,研究,和其他领域。在中国,需要更深层次的研究和开发。在本文中,我们使用轻量级Vue MVVM框架。js, combined with C# language, SQL Server database, JavaScript assembly language, and other development technologies to develop and design the R&D project management system. Based on the C4.5 decision tree algorithm, the data set generated in the system is trained and analyzed to generate a decision tree related to performance evaluation. Through testing and analysis of the decision tree, we find out the points that the project leader pays attention to when scoring the performance appraisal and form a complete performance appraisal system based on the performance appraisal attributes in the system and the decision tree. Visualization tools are used to generate enterprise-related cost reports. Through the management of projects, tasks, and employees, the system realizes project management functions such as project creation and management, task flow, employee information filling and management, performance appraisal system establishment, report generation of each dimension, and management cockpit construction. This paper uses the C4.5 decision tree algorithm as the core technology to obtain high-precision performance assessment results and efficient project management system, visualize cost data based on system data, and assist enterprises to establish a good management system and performance assessment system. Through these systems, projects can be managed faster and more efficiently. In business management, employee performance appraisal and project cost analysis play a key role in the development of the company.
2。相关工作
当前项目管理水平不高,过程复杂,难以操作,并且远离发达国家,在市场上有很多漏洞管理、和质量系统的变化,通常使用C / S模式,不能实现项目信息网络查询;或项目管理产品太有针对性,没有创新的内容,需要二次开发定制的方法来满足个人需求的企业项目管理(12]。在项目管理行业,Wenpu日在中国领先;然而,面对越来越多的创新和竞争,他们不是足够灵活,能够满足他们的需求,并有一定的项目实施的风险,由于企业的不稳定性和低技能人员。例如,中国金融企业外包项目管理系统定制开发或内部开发,和只有很少的方法用于购买标准软件(13]。目前,中国的项目管理系统的应用相对落后,系统管理的大规模使用互联网是2010年之后,与此同时,中国现有的主要项目管理软件是分散并且以任务为中心,很少关注员工绩效的管理和成本分析的缺乏。因此,研究中国互联网企业的研发项目管理系统是不够的,和性能的评估在中国太落后14]。
研究者量化一组绩效考核系统基于k - means算法结合决策树算法和聚类分析实现量化绩效考核体系,可以实现科学和客观评价企业的绩效考核的员工。研究人员研发系统通过使用ID3决策树算法对员工绩效评价的概念,介绍了决策调度ID3决策树算法,从而有效地减少算法的复杂性(15]。目前,中国正在越来越关注绩效考核的应用方法和共同努力实现公平、科学、有效的绩效考核体系。数据挖掘算法,尽管中国起步较晚,近年来,它已经取得了非常重要的成就,在互联网行业,金融行业,气象分析、电子商务和其他领域(16]。和主要的大学也投入了大量的精力去进一步探索的价值的方法和更深入的研究这些算法的原则。例如,研究人员采用了ID3决策树算法的人力资源系统,以支持公司的战略决策,和研究人员ID3算法应用于员工的绩效评估研究机构,以及数据挖掘算法上文中提到的绩效评估系统的生成(17]。
这些算法的应用和研究已经加速在中国的项目管理系统的开发,提供了一个科学有效的方法生成一个良好的系统性能。基于决策树算法的应用程序的分析和性能评价体系在中国,数据挖掘算法已经应用于各种管理系统在中国(18]。根据先前的研究,结合现有的项目管理体系和绩效考核体系在中国,决策树算法的应用绩效评估可以提高绩效考核的公平和效率评估和帮助企业更好地管理。国外项目管理软件开始早,发展非常迅速。最早的美国陆军曼哈顿计划管理通过项目管理技术,取得了很好的结果。目前,项目管理软件在国外引入了通过算法和其他方法来改进传统的管理方法,并通过实践证明和标准化的研究,建立一个完整的项目管理知识体系(19]。
目前,国外较流行的项目管理软件是微软项目,任务分配、进度跟踪、预算管理和工作负载分析。在软件开发行业,项目管理系统长期以来一直被一些大型的软件开发公司在欧洲和美国20.]。外国绩效评估系统的整体发展比中国早,领先于国内。国外一直高度重视绩效评估体系的发展,及其科学性、公平性、合理性的评价与中国形成了一个巨大的差距。通过数据挖掘的方法,分析了绩效考核,结合大数据和互联网,和一个典型的例子是PeopleSoft [21]。通过比较研究,发现一个非常完整的绩效考核体系已逐渐生成在国外,已提高了绩效考核的要点,使企业的发展逐步科学和简单。欧洲和美国等发达国家利用越来越发达的网络技术和大数据技术改善绩效考核方法随着市场的进步和持续改进绩效评估方法根据当前企业战略。
3所示。对中小企业管理模式优化
3.1。数据挖掘
数据挖掘是分析实际数据获得隐藏数据,人们不能直接看到,大,随机的,模糊的,不连续的,隐藏的数据是未知的和有用的。随着数据库的发展,数据的管理越来越复杂,和生成的数据量已经变得越来越大。在这种情况下,数据挖掘技术从数据中提取信息,我们需要发展,但很难找到。该方法现已广泛应用于生产管理、科学探索,市场分析,工程设计。数据挖掘是一门交叉学科的学科,涉及多种学科,主要的集成人工智能,数据库,统计数据,可视化技术,和其他学科我收集和数据获取一些有用的信息,可以帮助决策者作出正确的判断和减少不必要的风险。主要步骤如图所示1。
数据准备收集和组织信息是开采和在实践中为自己的目的或收集数据来构建自己的数据从收集到的数据集。数据集成处理收集到的数据是根据用户的需求和理解该领域的特点,主要的缺失部分数据和清理脏数据的数据。下一个步骤是数据选择,即。,the selection of data in the database and the identification of the set of data to be analyzed to narrow the scope of processing and improve the quality of data mining. Data preprocessing is to clean the data through statistics, algorithm analysis, and other methods, to remove unnecessary noise data, to get the valid and standardized data set we want, to ensure the integrity and consistency of the data set. Data mining firstly determines the target, that is, the type of knowledge to be discovered, then selects a suitable data mining algorithm according to the determined target, uses the algorithm to correlate or classify the data set, extracts the relevant knowledge, and finally expresses it in some form. Finally, the extracted knowledge is analyzed, and the useful information is extracted from the knowledge and displayed through visualization tools. The main methods of data mining are classification, valuation, prediction, association rules, and clustering, where classification, valuation, and prediction are guided data mining, which can build a model that can describe specific attributes through data, and association rules and clustering analysis are unguided data mining, which use all attributes to find a certain relationship. Different data mining methods have their own data mining algorithms, such as decision tree algorithm for classification, regression analysis for prediction, and K-means clustering for clustering, which are described in Figure2。
本文使用的算法是决策树算法的分类算法。在数据挖掘分类算法中,决策树分类方法的优点是易于理解,并且不需要太多的专业背景知识比其他分类方法。决策树生成的结果通常是表达形式的if - then规则,简单明了,并被广泛用于许多领域,如金融行业,气象分析和交通管理。树的根节点代表一个属性,树叶代表分类标记,树枝代表输出结果。方法从根节点开始遍历树,将实例分配给它的孩子根据测试的结果。每个子节点需要一个价值特性和继续测试,并分配实例通过递归方法,直到它到达叶节点时,实例的最终分配到叶节点的类。在决策树中,有两种类型的数据集:样本数据集和测试数据集。样本数据集是一组数据的属性和分类,以及算法训练样本数据集来产生相应的决策树。测试数据集被用来测试生成的决策树,把数据转化为决策树,得到最终的分类,比较实际的类型和衡量决策树的准确性。决策树算法是高效,易于理解,计算小,擅长处理离散数据。决策树可以判断基于其正确性,其有效性测试样本数据集后,其复杂性、间接性、规模。 Information entropy is a key element of decision tree algorithms, where the word “entropy” is a word used in thermodynamics and represents a measure of the degree of chaos in a system in physics. In 1948, Shannon, the father of information theory, borrowed the concept of entropy and introduced information entropy, which is defined as the probability of occurrence of discrete random events. Generally speaking, the higher the probability of a message appearing, the more it is cited, and the lower the information entropy, the higher the probability of the message appearing. The formula for calculating information entropy is defined as follows:
决策树算法通常包括三个步骤:特征选择,决策树生成和决策树修剪。常用的决策树算法包括ID3算法和C4.5算法基于最大信息增益率改进的ID3算法,基于基尼系数和购物车。
3.2。模型优化决策树模型
该算法是基于信息增益的概念分类决策树的属性的选择。信息增益的值之间的区别是之前样品的杂质能级数据分类和分类后的杂质能级。ID3算法是基于信息理论和使用信息熵和信息增益作为标准对现有数据集进行分类。构建决策树时,获得的信息是每个分支节点选择的考虑。所有属性的信息增益计算和比较,信息增益最大的属性是作为分裂属性,和随后的叶节点继续通过这个操作周期生成决策树。ID3算法只能处理离散属性和第一步是计算信息熵目标属性的数据集使用公式H (X),第二步是计算预期的特定属性的数据集的信息,假设总分类,可分为第二步是计算预期的数据集的属性信息,假设类别是一个总数,可分为n类别,每个类别的概率P (C1)、P (C2),…,P (Cn),然后,分区后的信息熵的属性如下:
第三步需要信息增益,这之间的区别是在第一步获得的信息熵和信息熵在第二步中获取属性C。公式如下:
信息增益越高,更适合分类的属性,属性选择当前节点。属性的列从列表中被淘汰,剩下的数据从第一步迭代。当只有一个值的目标属性分类,或所有的属性值的比例达到一个阈值,迭代结束。最终的决策树生成的迭代完成时。
C4.5算法可获得连续数据如下:首先,所有属性的值按升序排序获得属性值的序列(X一个1,X一个2、…X一个),有N1两个方法,即。,there are N-1 separation thresholds, and the dichotomous method is used to divide this data series into two parts, i.e., two subdata sets (X一个1、…X一个我)。C4.5算法的计算步骤通常是相同的ID3算法,但是添加了属性的信息增益率信息增益,和过程如下:首先,将计算的信息假设训练数据集X分为我subdatasets的价值一个属性,XjXj表示样本的数量jth subdataset,X原始数据集的样本数量,和分裂属性的信息可以获得如下:
然后,分裂后的样本集的信息增益根据属性一个是由
信息增益率后的样本集属性一个分裂是
C4.5算法执行后,所有属性的信息增益率的结果,和最高的属性信息增益率选为当前节点的分裂属性。其他属性将继续递归地计算。属性逐步计算,信息增益率变得越来越小,相对较大的属性信息增益率选为分类属性。C4.5的流程图如图3。
3.3。决策树修剪
训练样本是一个关键因素在决策树构建,当训练样本太小或有问题数据,生成的决策树可能异常,这可能会导致不准确的决策树,可能会使决策树非常复杂。根据研究,并非所有复杂和大型决策树结果更精确的规则集。因此,复杂的决策树需要简化,叫做修剪。Prepruning发生在建设的决策树生长时提前终止在计算过程中,执行和修剪。Prepruning很简单,但很难确定终止的时机在决策树的增长,这使得它不太实用。一般使用postpruning决策树算法。Postpruning执行在一个成年决策树以自下而上的方式,取代子树节点和叶节点不符合的信心水平,和标签类最常用的类子树的节点。修剪步骤重复,直到所有节点满足条件,最后生成的决策树更可靠的比之前的决策树。prepruning相比,postpruning减少许多干预措施。共产党共同postpruning方法(成本复杂性修剪),代表(减少错误修剪),PEP(悲观错误修剪),议员(最小误差修剪)。 In the comparative study of several pruning methods, it is found that PEP pruning is a top-down pruning method, which has the highest accuracy among several pruning methods and does not require a separate pruning data set.
目前,大多数现有的项目管理信息系统的开发和设计使用B / S体系结构,这是一个browser-server架构模型,通常和用户通过浏览器访问系统。B / S系统易于维护和升级的优势,低成本、安全、等前端使用Vue。js, a bottom-up progressive MVVM framework for building user interfaces, and the back end uses C#, an object-oriented development language derived from C++. MVC is an abbreviation for Model-View-Controller, which is a framework for layering systems, separating business logic, data, and display interfaces. The framework is layered on the system, and the business logic, data, and display interface is separated, to more clearly delineate their respective functions. The model layer is usually used to handle the logical part of the application data, generally responsible for access to the database. The view layer is the display layer, which handles the display part of the data and is created based on the model data. The controller layer is the user interaction part, which reads data from the view layer, controls user input, and sends it to the model layer.
MVC框架的优点是低耦合、高可重用性,较低的生命周期成本、可维护性高,快速部署。然而,这增加了系统结构和实现的复杂性,以及一些简单的页面,使用MVC框架可能导致其运作效率的降低;与此同时,可能存在低效的访问的视图模型;视图和控制器之间的紧密联系将会导致他们的独立重用。MVVM框架是Model-View-ViewModel的缩写,它是一种改进的基于MVC框架的版本和MVP框架。这使得很难维持MVC模式。这是因为控制器处理逻辑与数据转换复杂项目变得非常大且难以维护,为了改变这个模型的局限性,控制器的逻辑处理和数据转换是剥离,和一个特殊的对象,创建视图模型,来管理这些操作。这种方法使得控制器代码变得非常小和易于管理。这使得MVVM框架作为主流框架用于软件开发在这个阶段。
4所示。基于决策树算法的优化分析
一个公平的和负责任的评价系统将刺激员工的动机,提高员工的效率和积极性,增强企业的竞争力。今天,随着互联网的快速发展,绩效考核通过数据挖掘将成为一种新的方式。当一个员工提交一个任务使用这个系统,该系统将记录任务完成的时间和员工提交的代码的数量,和项目经理评估员工根据员工提交的信息。使用这些数据,我们分析员工的性能通过决策树算法得到员工的绩效评估结果,以便公司能够指导员工的工作,帮助员工提高他或她的质量,以及提高公司的技术实力。数据挖掘之前,我们首先确定样本数据,选择和数据从系统中在线公司的项目管理功能,员工填写的信息和输入的员工评估分数经理。公司是一家软件开发公司,主要是收集的数据来自公司的研发人员。270年的数据收集,其中180被用作训练数据集的决策树算法,和其余作为测试数据集,数据集主要从系统的员工信息表,根据任务,员工的工作环境和经理的评估员工在时间期间。员工信息表:主要信息的员工当他们在系统中注册,其中绩效评估标准如下:姓名,部门,专业,学位,等。工作状态:该数据集是由员工的提交任务卡,如代码提交的数量、时间的填写,完成工作,工作完成的效率,等。这些数据后,由系统自动计算员工填写的数据和系统的存储在不同的表中,SQL语句和总结。员工评价:这些数据由项目管理评估下属员工的表现。这个过程的整合数据称为数据集成。 The data are aggregated by the unique ID of the employee in the system and stored in the performance appraisal table with the structure as shown in Figure4。
的过程中获得的数据集,有很多数据和null值。对于这些数据,我们判断数据变量值在进入到系统数据库,并禁止出现的数据为零。上面的许多变量值从其他数据库表中提取系统,当我们得到这些数据,我们将填补空值在进入之前,和填充规则如下:代码量:这些数据是零,这意味着员工在这个时期没有代码提交记录,并记录为0的值。数据是空的,这意味着员工没有填写小时在这个时期。自从填充率与员工的出勤,如果它是空的,员工可以找到他的考勤记录在考勤表填写并计算百分比。学习能力、技术能力、工作效率:如果这些数据是空的,员工的主管没有评价他/她,且默认评价是中高档c .在数据采集的过程中,会有一些随机的错误或错误,我们称之为噪音数据。噪声数据的出现会导致巨大的错误数据挖掘的结果。因此,我们需要进行预处理的数据;通常,处理噪声数据的方法如下:回归,拳击,人机结合检查,集群,等。例如,当代码体积数据异常,数据的平均值可以用来取代噪声数据。此外,我们还可以使用多元回归算法的原理来平滑噪声数据。 In this paper, we will use different methods to deal with the noise data according to the attribute values. Since the decision tree algorithm cannot handle continuous values, it is necessary to discretize the continuous variables before data mining, as shown in Figure5。通过测试和决策树的分析,我们发现的分项目负责人关注得分绩效评估时,我们形成一个完整的绩效考核体系基于绩效评估系统和决策树的属性。
在本文中,我们报告的公司的员工使用这个系统在2019年一个月,根据上面的数据处理过程中,我们得到的数据集在图6,表中的数据是取自30名员工的绩效考核成绩在公司的软件开发部门2019年1月,在实际的计算过程中,我们将30名员工在本部门的数据在2019年上半年的决策树算法。在实际的计算过程中,我们将数据的30名员工在2019年上半年部门计算的决策树算法和90在2019年第三季度的数据测试结果的决策树算法。系统可以自动生成决策树的数据集的基础上,通过决策树的分析,我们可以发现模块经理关心的性能appraisal-the的代码数量和完成的工作。这些数据来源于员工报告的信息系统,这就要求员工计划他们的任务在日常工作,按时完成它们,并报告他们的成本系统及时。由系统记录生成的决策树算法,用于绩效考核的评价。
这个例子的目的是最终的评价结果的绩效考核,和目标类与4评价结果值:一个,B,C,D。在180中提取的数据集,4的值如下:59,92年,25岁和4。
在这个例子中,有6属性分裂的可能性,可以计算每个属性的信息熵方程(2)。(3)81,20日= 1.4922位。硕士学位的价值时,有36个数据,如图7属于四种类型,其中样本如下:19日,11日,5日和1我(19日11日5,1)= 1.5484比特,从中我们可以得到它的信息熵的属性是教育:H∗(教育)= 144/180。当属性代码,有4种值,值一个,有36个数据,样品是24日,12日,0,0。然后,我们有我(24日12 0 0)= 0.87218比特和0。如果该值为C有60个样本数据与6日,48岁,6岁,0。然后,有我(6,18日6,0)= 1.2954622位。如果该值为D与样品,有24个数据项为0,12日,12日和0。然后,我们有我(12 0,12日,0)= 1.0000位。
90个测试样本的评价结果进行比较与评价结果产生的C4.5决策树算法和决策树ID3算法,其中30这里列出测试样本空间的原因。创建每个项目后,项目成员在项目中需要创建多个任务。任务的类型可以由系统管理员创建。任务包也需要估计该模块下的使用成本。任务创建后,项目团队成员需要完成任务应该创建任务卡片任务下,被定义为短期计划和目标为项目成员在完成任务的过程中。员工管理模块是本文的核心和关键功能的研究是基于决策树的员工绩效考核系统的计算。在员工管理模块,首先,员工创建他们自己的账户,填写信息。然后,系统管理员填写员工的组织和其他信息的员工。
有两种类型的员工管理,一个是项目经理的管理下属人员,另一个是员工的自我管理。首先,员工可以分配自己的任务和建立自己的卡片系统中,有一个个人工作台系统,员工可以查看自己的任务和卡片并自己管理任务卡的状态。在工作台,员工可以填写工作时间并查看每周和月度报告。绩效考核模块的子模块,员工管理模块,生成的三个关键信息代码量,完成工作,和工作完成率基于信息系统中报告的员工,和项目经理需要评估员工的学习能力和技术能力系统中基于他们的平时表现。这些指标用于生成决策树的性能评价。系统要求项目负责人给员工的绩效评估的最终评级。原始数据后,系统生成一个决策树相关的绩效考核数据集的基础上,帮助员工了解需要改进的领域。它将决定员工的工资。
5。结论
本文从项目管理的角度来看,C4.5决策树算法,这是一个优秀的数据挖掘技术,用于绩效评估分析。首先,我们收集和处理相关信息软件研发项目负责人和员工的表现形式性能数据,然后生成一个决策树模型与绩效评估基于这个数据集通过数据后处理,属性分裂,模型构建,修剪操作,和评价分析。决策树模型与测试数据集的生成系统进行了测试,准确率达到90%以上,高于决策树ID3算法的结果。基于决策树的分析,我们可以识别需要改进的领域的软件开发工作,为项目经理的绩效评估提供一个参考。另一方面,关于项目的信息管理和评价员工绩效的体系会影响该公司的成本。基于这些信息,可以生成成本报告的公司。报告是可视化多维的方式显示该公司的成本。可以使用报告由项目负责人和相关公司领导人清楚地理解公司的操作,并可用于指导公司的下一个计划。本文基于Vue。js, a lightweight MVVM framework, and uses C# language, SQL Server database, and other tools to design the system. The system is based on the C4.5 decision tree algorithm to mine and analyze the data set generated by the system, generate decision trees related to performance evaluation, and use Echarts and other visualization tools to generate related cost reports. The system is developed in B/S architecture, and a R&D project management system and platform that can realize performance assessment analysis are built by means of visualization tools, decision tree algorithm, and dynamic web pages. In the future, members of the project need to create multiple tasks within the project, and the types of tasks can be created by the system administrator.
数据可用性
所有的数据、模型和代码生成或使用在研究文章中是可用的。
的利益冲突
作者宣称没有利益冲突。