文摘

本研究的目的是为了解决决策效率低的问题,论述了基于业务应用程序数据和决策分析的方法提出了企业数据管理系统基于知识挖掘。系统使用改进的决策树算法进行数据管理,优化选择的最佳阈值分割点离散化过程中连续属性值特性。一种改进的决策树算法,并应用于企业数据管理。提出了一个方法来优化阈值分割点,这减少了分区阈值点,降低算法的时间复杂度。实验结果表明,模型的运行效率和分类准确性的数据集鲍鱼由于传统C4.5算法,可以有效地处理大型企业操作的分析和管理知识挖掘数据。

1。介绍

人类社会已经进入知识经济的时代,经济信息化的趋势,网络、技术和全球化带来了企业的基本商业环境的变化。知识和智力资本越来越多地取代物质资产的主导地位,成为衡量企业竞争力的主要因素。随着知识经济的到来,知识管理的作用和意义越来越重要的过程中企业成为资本密集型向知识密集型的。同时提高知识管理的理论体系和结构,它促进知识管理应用程序的开发相结合的理论和方法的技术信息,管理科学,数据统计,和其他学科1,2]。

许多企业积累了一定的信息资源和建立自己的信息共享和管理系统。然而,使用这些信息只有就保持在这一高度的共享和浏览,以及简单的检索功能部门的数据,所以很难进行深入分析和利用(3,4]。工作流的OA系统侧重于流程的设计信息组织结构而不是知识的脉状构造。很难直接使用OA的结构知识挖掘和服务,这就是为什么有必要重组结构。

随着互联网的快速发展,互联网,和人工智能的设备,数据收集企业变得越来越简单,而收集到的数据集变得越来越复杂和巨大的。不管的特征维度数据或样本的数量,它们呈指数级增长,往往形成大规模甚至超级大规模数据量。例如,无线射频识别、条形码和其他实时监控技术广泛应用于生产过程,和收集的数据的粒度相关生产过程越来越详细。导致数据维度的迅速增加,以及非结构化数据的比例组成的文字,声音,图像和视频越来越多,带来了越来越多的数据与multilabel特性(5]。进入计算机辅助管理的阶段后,文献[6]认为数据挖掘的相关技术和方法将发挥重要的作用在处理大规模高维,和complex-quality数据。应用程序在产品质量管理包括:质量预测和分类,前者是使用最广泛的方向。基于集成策略,文献[7]提出一种光学通道传输质量预测方法,提高精度不足的问题的光学通道传输质量预测方法在动态广域光骨干网络,因此它有良好的非线性逼近性能。在文献[8),模糊优化方法被用来突出了复杂产品开发过程的不确定性和时间不确定性,任务执行时间是由一个模糊数表示。知识结构之间的映射关系的单位,建立了任务知识需求的相似性,因此,GA算法被用来解决这个问题;文献[9采用多目标优化方法;针对智能制造环境的生产任务分配问题,考虑到服务能力和协作水平,建立多目标优化模型,以便改进POS算法和加权TOPSIS决定算法是用来解决问题;为了找到最优数量的任务在每个类,我们使用双边聚类方法在每个类中找到最优数量的任务。

目前,知识挖掘的基本任务是数据分类、数据聚类、经济衰退和预测,数据关联,数据描述和识别、知识挖掘技术,主要显示了挖,准确识别、科学提取、动态管理、智能分类的特点,所有的信息在数据库中使用的技术可以详细、全面和系统的分析。它可以协助知识管理工作,如企业财务管理、客户关系管理、供应链管理、企业发展规划。由于不同的需求和用户的隐式的行为,用户对知识服务的需求较少受到许多因素的影响,如地理位置,以便现有知识推送技术不能形成有效支持企业知识服务,但也阻止企业之间的知识共享和池。的高成本和低速度更新大量数据会导致落后的管理知识和错误的决策,这将大大降低企业的竞争力;此外,有类别不平衡问题在企业操作数据,也就是说,相关数据的比例管理者关心的问题很小,这使得它很难分析原因和发展趋势。

因此,本文介绍了数据挖掘在知识转移的方法和模型,并结合定性分析知识转移与知识挖掘的定量模拟。摘要信息数据分类处理的方法和决策分析的方法讨论了使用业务应用程序生成的数据,和一个企业数据管理系统提出了基于知识的挖掘。优化方法的选择最佳阈值分割点离散化过程中连续属性值特性,这使得一个突破和提高知识管理的概念。一种改进的决策树算法,并应用于企业数据管理。提出了一个方法来优化阈值分割点,这减少了分区阈值点,降低算法的时间复杂度。基于该平台,任务规划和分解,和离散任务活动节点被分配到多个合作企业来完成,以提高企业的决策能力的业务信息。

2。企业数据管理系统的设计基于知识挖掘

2.1。信息来源

知识挖掘是一系列的处理过程中提取潜在的有用的知识隐藏在大量的不完整,模糊和随机的实际应用数据,将它们显示在最终可以理解的模式(11]。系统的建设主要包括以下四个方面:(1)解决企业的背景知识。系统分类和存储各种信息根据企业的需要,个人,和各种专业科目,建立一个企业组织知识库,个人知识库,专业特殊的知识库,和其他知识基础。(2)深化企业知识挖掘。系统提供了各种各样的语义检索知识库建立的企业。检索,根据知识内容的相似度,聚合成不同的类别,每个聚合的给出精确的类别主题词汇类别。(3)提供各种各样的知识服务。系统实现了用户之间共享的信息资源,并使客观评价他们所使用的信息。

2.2。功能设计

根据系统建设内容的分析,系统的主要功能包括四个模块:知识上下文结构、知识挖掘、知识分析和知识服务。主要功能结构如图1

知识背景:主要功能是个人和组织信息的管理和结构以及知识体系的建设,这不仅定义了主体结构的知识体系结构化信息的个人和组织也注入各种主题数据库和信息从网络到知识系统根据结构形成一个完整的知识体系。知识体系的主要结构可以修改和手动定义帮助系统构建一个更合理的结构。

在知识挖掘,主要功能是提供词义检索、智能索引、词义模糊分类、语义词典的自身建设。知识服务:主要功能是提供公共知识服务的基础知识体系,包括知识评估、知识共享、用户个性化定制和推动,文档相关的建议,编写援助,自主学习,和其他特定的功能。

知识分析:主要功能是进行深入分析和挖掘知识体系的基础上,提供专门知识服务,如学术趋势分析,注意分析,学会分析机构人员,等等。

2.3。操作过程

2显示正在运行的进程的采矿系统功能。核心过程包括以下三个步骤:(1)请求数据和预处理数据根据挖掘需求。首先,定义后的数据用于挖掘必须获得开采要求。获取所请求的数据,我们需要做一些有针对性的预处理,然后,将它存储在数据仓库中供以后匹配到合适的模型和最终调用相应的算法。(2)模型和算法匹配和培训。在这一步中,我们可以找到最佳匹配的方法根据挖掘算法的要求。(3)预测和评价结果。根据预测结果和挖掘的结果,是否满足矿业需要评估的结果。如果需求没有得到满足,需要进一步挖掘需求应该进行修改或算法训练;如果需求得到满足,他们可以存储和发布。

2.4。平台建设

通过研究系统动态配置策略和模式,功能动态配置加载方法,统一的分级参数配置方法,功能组件(模块)注册方法,服务发布和注册机制。它提供了技术支持和保障平台的开放互动和兼容的扩展能力。

在制定规则和机制保障,本文首先研究了快速切换机制来支持正常状态和高并发、高负载状态。它还研究load-aware性能瓶颈位置,抢占式调度,自适应优化,等等。实现资源的动态调度和任务以满足高度灵活的动态扩展平台。第二,统一资源管理、动态调整、备份和迁移机制进行了研究。负载均衡技术,动态资源调度、实时状态监测、高容错自愈、智能诊断、研究和维护提供技术支持的综合管理平台,支持平台的高可用性,提高平台的健壮性和稳定性。

此外,根据数据安全的要求,应用程序安全性,和维护安全在企业研发的集成和共享知识资源,构造多维安全平台的系统模型,全面保护基础设施虚拟化网络、系统、应用程序、数据、等等,以满足风险控制的要求,合规、和可靠性,我们建立了统一的安全体系结构来解决安全管理,安全保护和安全合规问题。

3所示。企业数据管理模型基于改进的决策树算法

如图3任务计划和分解的基础上平台,在离散任务活动节点被分配到多个企业合作完成。与此同时,资源配置是严格控制的平台。为不同的活动节点,搜索知识库中获取相应的可行集的知识资源,那么,知识资源的安排和组合方案。当知识资源更丰富的类型或活动的数量大,结合数字很难估计,以及资源匹配的难度将大幅上升12]。因此,通过集群知识资源,资源的可行集的检索过程简化。使用知识库的知识数据,数据仓库的数据集成,和工程建设由业务应用程序生成的数据,分析和基于决策分类预测模型可以提供一个重要的依据企业智能决策和获得竞争优势。

3.1。C4.5算法

针对降低分类精度的问题造成的冗余的特征属性在企业分类的数据集,本文提出一种改进的决策树算法。优化方法的选择最佳阈值分割点离散化过程中连续属性值特性,并修改信息增益率的计算方法。

首先,熵 用于表示数据集分类的成本来获取属性字段 ,这是定义如下:

其中, 是属性的值的数量吗 , 是样品的总数。信息增益率是用来表示每单位成本,获得的信息量定义如下: 在哪里 是信息增益,每个属性的信息增益进行比较计算,以确定测试属性字段。

传统C4.5算法处理连续值如下:(1)数据样本的变量子集排序一致,按升序序列获得和属性 (2)根据属性值的分区 候选人分割阈值点。为 分割阈值点,thesegmentation值设置为 中间 ,和样本集分为两个子集。(3) 候选阈值分割点,和信息增益率系数阈值分割点计算。最佳阈值分割点是点最大的计算系数。

在上述计算,有必要计算信息增益率 阈值分割点。当数据的总量很大,时间复杂度高的问题,很容易出现。针对上述问题,在C4.5决策树处理连续变量分裂属性,提出了一种优化阈值分割的方法分,这减少了部门分割阈值点,降低算法的时间复杂度。当样本数据集很大,它可以提高操作效率。

3.2。属性约简

概率论的皮尔森系数是用来衡量属性之间的相关性[13]。属性约简的目的是:为决策属性和功能属性,它们之间的相关性越大,越好,以确保没有其他不相关的属性特征属性子集;对于功能属性,每个属性之间的相关性越小,越好,所以没有冗余属性的属性子集。

随机变量之间的相关系数(皮尔森) 表示如下:

两个任意随机变量之间,下列方程:

在决策树模型中, 代表两个特征属性集的数据集,数据样本num的总数,和它们的属性值,分别 ,包括属性值 ; ,包括属性值 在哪里 代表的价值 在功能属性 , 代表的价值 在功能属性 代表样本的数量满足条件 , 代表的样本的数量 , 代表的样本的数量

相关系数 特征属性 的绝对值,可以推导出如下:

现有功能属性的数据集,它们之间的相关性越大,价值就越大 ,否则越小。当属性之间的相关性很大,通过比较信息增益率之间的属性,可以删除冗余属性信息增益率小,减少数据集的特征属性,提高决策树模型的精确度。

3.3。最优分割点的判断

基于边界点的判定定理,算法的时间复杂度降低除以边界点。的步骤如下。(1)连续属性按升序排序的序列。(2)阈值分割点划分,每个阈值分割点是否属于边界点决定。(3)信息增益的计算边界点,选择信息增益最大的边界点的离散化。(4)连续属性值分为两个部分,构造决策树节点。

3.4。模型实现

C4.5决策树优化后的伪代码如下:输入:节点N、训练样本集年代、分类属性设置一个;输出:决策树;过程make_decision_tree (N,年代,一个);根节点初始化;一个样本集的计算一个方案,分支一个是解决;如果(一个是一个连续属性)。获得的阈值分割点在升序排序;如果(阈值分割点边界点)。在计算增益系数;选择Max_In离散化;如果(节点N满足分支条件)。年代分为年代1,年代2通过分支计划;创建子节点N1,N2的N;make_decision_tree (N1,年代1,一个);make_decision_tree (N2,年代2,一个);endif结束

在确定最佳阈值分割点,部分连续值属性选择避免分化的功能属性,和的方法处理连续值特征属性修改。步骤1的连续属性值的节点上按升序序列获取属性 第二步按升序,大概阈值分割点生成,n的值分割点在哪里 样本数据集分为两个子集,除以边界点和边界点优化方法来减少计算阈值分割点。第三步计算边界点的信息增益,并选择边界点和最大信息增益特性的最佳分割点属性。第四步离散化连续值属性和计算信息增益率的最佳边界点,通过减去磅(N−1)/ |D|是什么,它已被修改,修正方法 在哪里N是连续的值的数量特征,D训练数据集的样本大小,获得比x是属性的信息增益率离散化后x这个节点。

4所示。实验结果和分析

4.1。参数设置

实验在PyCharm平台上进行,Python语言和算法实现。本文中使用的数据集来自UCI机器学习平台。鲍鱼数据集用于验证模型,及其功能属性包括连续值属性和离散值属性。属性的数量是39,实例的数量是898。

CPU运行时间和准确性作为评估标准来衡量算法的时间复杂度和准确性。测试用例是生成一个分类决策树。首先,减少数据集的特征属性删除冗余属性。然后,离散连续价值功能属性进行优化,修改信息增益率计算。

4.2。不同模型的比较

在实验中,70%的数据集随机选择作为训练集和30%作为测试集。实验的平均值作为实验结果,如图45

实验结果表明,改进后的C4.5算法运行效率有一定的提高和模型精度。决定优化基于阈值分割的边界点可以减少计算连续值属性离散化和提高决策树生成的效率。当样本容量小,运行效率提高了约50%。与样品的数量的增加,运行效率的提高更明显。同时,减少冗余属性和修改信息增益率可以有效地提高模式分类的准确性。

4.3。企业数据管理

通过分析变量特征和冗余的特征属性,决策属性和决策因变量之间的关系可以初步探索。该系统提供了一个视觉显示变量之间的关系,分析两者之间的关系。它提供了一个为好企业管理决策参考。员工流动率作为一个例子,可视化数据管理结果如图67

从视觉显示图表我们可以看到,在公司部门、销售部门最大的影响是否离开公司,以便员工离开岗位的比例是最高的。工资水平和成交量之间的关系的因素,员工工资水平较低的倾向于离开,这样影响因素远远超过中等和高水平。员工的流动率较高的工资水平较低,这是符合企业人才流动的现状。员工的满意度水平主要集中在0.6到-1.0之间。满意度越高,越低的概率营业额和留在企业的可能性就越大;在工作时间和周转因素之间的关系,员工的稳定性高有在企业工作了3年。随着工作时间的增加,员工的营业额趋势增加。因此,在企业管理中,员工的工作几年,企业应该更加注意工作时间,工资水平,企业的满意度是否在合理的范围内。以便进行合理、科学的标准化管理的企业人员,这也可以降低员工流失率。

5。结论

本文介绍了数据挖掘在知识转移的方法和模型,结合定性分析知识转移的定量仿真知识的挖掘。它设计企业数据管理系统基于知识挖掘,这是更准确和高效处理的多源信息,并提供了一个信息资源数据库。获得巨大的信息资源和信息处理工具,企业可以迅速而及时做出科学的决策。低成本也保证了系统的操作和后续发展。系统的系统模块为核心,收集、分析从周围的多系统的反馈信息,实现了多党合作的集群决策和有效的实时控制决策,所以它可以为企业管理提供一个交互式决策处理平台。

数据可用性

所有的数据可从相应的作者以合理的要求。

的利益冲突

作者宣称没有利益冲突。