文摘
进入知识经济的时代,人才教育的经济价值越来越多的强调,这更有助于当地经济和地方经济发展注入了新的活力。然而,仍然有一些困难在人才教育和地方经济的协同发展,如集成程度低的“行业、职业和就业”,学校和企业之间缺乏协同影响的高质量发展人才教育和限制了区域经济的长远发展。本文结合机器学习算法构建一个多元统计分析模型基于相关分析模型之间的人才培养质量和区域经济发展。基于多元统计分析理论和方法,定性分析和定量分析与科学紧密结合拿起主要指标影响人才综合素质的培养,克服人工主观赋值的值的缺点。通过明智地选择评价指标,建立了科学、公平的评价模型,和人才培养的目标与区域经济发展相结合,综合分析,提供了一种新的区域经济发展的手段。
1。介绍
经济的正常功能离不开人才,资本、土地、技术、和其他因素。在经济发展之初,往往是一个适当的劳动力(1),确保劳动的直接贡献以及人力资本与经济增长。这段时间也可以用来抑制资本收益递减的过程通过转移劳动力增加资源分配率和有效促进经济持续增长。这也被称为“人口红利”。人口红利发挥了相当大的作用在中国长期的经济快速增长后,改革开放(2]。在世纪之交,我国的人口结构开始出现老龄化社会的特点,劳动也变得短,企业的劳动力成本提高,传统因素的影响支持经济增长正在减少,和瓶颈来了3]。尽管数量所产生的人口红利的劳动力消失,劳动年龄人口的质量,如教育、技能、和教育经验,也提供了一个巨大的经济增长潜力和经济发展进入一个新时期,劳动力的质量是主要的激励因素。
为国家的可持续经济增长,科技进步,劳动力的数量,改善经济体制都是必要和重要的因素4]。一定数量和质量的人力资本是一个关键因素将上述影响到合理的水平。如今,总劳动力过剩和临时劳动力短缺共存,在中国有一个高质量和高技能劳动力缺乏。人力资本在中国的总体水平仍处于不合理状态的不均匀分布和低质量;一方面,中国正面临劳动力供给和需求之间的不平衡,另一方面,它是暴露在对比低文化素质和专业技能的劳动力和落后的人力资源管理水平,而产生不均匀分布的尴尬局面,大中国人力资本的整体数量(5]。和人力资本显示一定的逐利本性,人力资本将流向经济发达地区,导致人才流动的现象。低生育率水平,国家不再能够依靠劳动力的数量来推动经济发展,必须转向劳动力质量驱动经济;因此,有一个不断改进的质量和技能工人的需求,提高全要素生产率,把中国从一个人口众多的国家,一个国家,并有很强的人力资本。人才代表高质量劳动力,知识的载体,和价值的创造者;因此,人才是取之不尽的资本力量的源泉。地区的人才竞争力的强度有很大的影响在其经济发展,和人力资源已成为经济发展的一个重要因素,它收到了来自不同国家和地区的关注。我国政府高度重视人才,秘书习近平经常提出才能有关的话语,他强调综合国力的竞争归根结底是人才的竞争,也应该完善人才发展机制,建立健全系统的人才系统,等等,他指出人才的强大作用,保持其资源的重要性(6]。
教育是人力资本形成的一个重要方式,而职业教育是教育的一个重要组成部分。职业教育主要是关于发展技能的人力资本(7]。随着中国经济和社会的迅速发展,产业结构的不断优化升级促进了对高技能人才的需求。最近越来越多的技术,知识,高技术人才和资本密集型产业的劳动力越来越重要的组成部分。现阶段对人才的需求主要取决于职业教育人才的供应,和职业教育起着至关重要的作用在经济和社会发展的漫长过程。在过去的几年中,国务院提出了加快现代职业教育的发展,逐步建立一个职业水平具有中国特色的教育体系(8),如适应工业发展的需要,深化一体化的产业和教育,和协调职业教育与普通教育。19日全国代表大会的报告提出了加快职业教育现代化的发展,不仅可以减轻就业的压力,但也提供更多的高技术人才9]。研究职业教育人才供给的空间效应对经济增长基于人力资本的角度和地理分布的不平衡等因素所导致的人力资本空间异质性和经济发展水平是考虑为政策的制定提供了理论依据与职业教育在中国的发展。
最近,在中国不同地区正面临转型升级,和目标的竞争从自然资源和资本转移到人才。许多一线和二线城市,如深圳、西安、南京、长沙、天津,引入了大量的人才吸引策略来吸引大部分的知识和技能的人才。自2016年以来,深圳市政府已经大幅放松的要求在这座城市定居并给予额外补贴的大学生来上班。然后,长沙和武汉同样采纳了一项政策自由化的户籍和提供住房的让步。在2017年5月底,西安市政府发布了23个人才吸引策略,它计划大力投资吸引五年内的100万他连得。
分析了主要因素影响人才培养的质量和吸引力和正确评估区域经济的影响人才培养的质量和吸引力。国内外学者们对人才的吸引力在每个区域使用不同的统计方法。本文通过梳理现有文献,他们研究的人才培养质量之间的关系,从不同的维度,如经济发展区域经济发展环境、生活服务环境和科技教育环境。在这个阶段,人才已成为经济发展的重要战略资源,所以我们需要有一个全面了解区域经济发展的需要和当地发展的总体状况来吸引人才。其次,探讨人才的数量和结构结合机器学习算法的统计方法,定性、定量和分析数量对经济发展的作用,其结构的程度,产业结构。基于上述分析,我们正在寻找一个平衡因素适用于区域经济发展和人才培养质量。
2。相关的工作
2.1。人才质量和区域经济的互动发展
现在,中国的人才教育显示出良好的发展趋势,深度开发人力资源、创建一个talent-driven区域经济发展的红利,这使得当地经济的一个重要贡献(10]。服务区域经济发展是地方高校的任务之一,是共同发展的道路为当地大学和区域社会建立一个健康的互动发展关系。符合国家经济结构的转型,产业结构,经济发展模式,它已成为一个共同的社会关注高等教育机构如何扮演一个角色在参与地区经济和社会发展(11]。因此,许多当地的大学将注意力集中在提高人才培养质量,增强区域经济服务的能力。
它不仅是高等教育的发展趋势也是社会发展的客观需要和国家战略发展的内在要求。大学的位置和特征符合时代的发展和社会和经济建设的实际需要,也是学校的长期发展过程中形成的操作。学校的合理定位和深化的特征,前提条件是服务于区域经济的实现,人才培养质量是服务于区域经济发展的关键。在高等教育的大众化,社会需求的差异化需要明确人才培养的层次结构(12,13]。当地大学基于区域经济和社会发展的需要,明确区域社会发展培养人才的根本任务,规范人才培养,探索人才培养体系的创新和新模式适合当地大学的定位。
符合中国经济的快速发展,对人才提出了更高的要求培训。使专业设置更接近经济和社会发展的需要,同时积极发展重组专业项目并特别专业,当地学校应该清楚地理解,作为一个独特的教学和研究大学,他们不应该仅仅是培养应用创新型人才,也培养创新人才,培养多学科cross-composite人才工程和管理等,培养高质量的工程技术人才14];不仅要满足行业和企业的发展需求,也满足区域经济社会发展和国家经济对高等教育的需求,甚至国际需求;不但要总体目标的知识,能力,但也提供了不同的发展方向和质量需要根据学生的个人发展。学生不仅能够执行科学管理工作但也有创新能力,甚至会成为行业领袖。为此,学校应根据自己的优势和特色,应精心设计的培训项目,提供多元化的培训的创新人才15]。
此外,进一步完成school-enterprise联合训练机制,需要面向社会的需要,以实际工程为背景和工程技术为主要集中在提高学生的工程意识、工程素质和工程实践能力。充分利用企业在工程人才的培养的作用,促进学生的工程素养,培养,并创建一个大量的高质量工程技术人才和强大的创新能力和适应经济和社会发展的需要,关注学科的交叉渗透和培养复合人才。社会的发展现状显示一个高度多样化的趋势,这就需要学校出人才与不仅扎实的专业基本知识,而且复杂的人才具有广泛基础,跨学科的背景,和国家的竞争力。为此,大学的整体优化的多学科创新人才培养计划和构建信用相互认可课程,设立一个联合培训课程平台,构建一个复合人才培训项目按照规程强调的基础和原则。
2.2。多元统计分析方法和他们的主要类型
主成分分析的方法是数学的应用降维方法,它的目的是取代旧的与新的变量,这是相互独立的,并允许用户决定是否执行分布统计信息(16]。因此,主成分分析是一种分析模式,取而代之的是一些不相关的变量大多数相关变量。主成分分析的关键特性是,它可以避免设置参数和实际误差的影响最终的统计分析结果,分析方法选择更多的变量在统计的过程中,提高了准确性的基础变量的大小。还有更少的变量在分析的过程中,和更少的变量互不影响;这样一个过程可以使统计分析结果更符合实际情况的17,18]。
因子分析法是分析方法开发了主成分分析的基础上,及其主要的研究目标是矩阵中的连接的程度,也就是说,以矩阵与原索引数据为基础,研究这个矩阵的内部结构,然后寻找独立的新的因素,对这种结构以显性效应定位这些特定因素影响的变量。因子分析的目的不是要发现的主要因素(19,20.),但知道这些因素。但主成分分析方法发现的初始载荷矩阵解决方案的主要因素不满足结构简单原理和典型变量代表了每个因素不是很突出,从而导致歧义的因素的意义。因此,它不容易解释经济因素。为此,可以旋转因素获得令人满意的结果(21]。
聚类分析的基本解释是总结变量具有类似属性通过计算变量的分布和总结他们的分析过程,实现减少系统变量的统计方法为目的。事实上,聚类分析方法是一种找到一个数据,也就是说,一个统计数据,可以客观地反映变量之间的联系的紧密程度,这些变量在此基础上进行分类22]。两个常用的聚类统计距离和相似系数系数。然而,有三种聚类分析方法:系统聚类方法,调优方法和图论方法。
多元数据的统计分析是数理统计的一个分支,出现了计算机的迅速发展,和它的统计分析应用程序已经开发在电脑的帮助下“优越的数据处理能力,使统计分析更容易,并允许对大批量数据处理。大数据时代已经到来,和多元统计分析方法已被应用于各个领域的经济发展。多变量数据的统计分析是集中在理论和方法论的应用数学和统计方法的原则,从而导致多变量问题的研究,它可以简化复杂的基尼指标和给一个清晰的背后的经济指标,这也是最重要的实用多元统计分析。允许变化的多元统计分析方法和模型结构在不影响现有的信息,这使得复杂数据简单。
3所示。方法
图1给出了原理图框架的人才培养质量和经济基于机器学习算法的相关分析模型构建。三个主要模块包括数据预处理、机器学习模型构建和训练,和相关性分析。
3.1。数据预处理
数据的质量决定了数据挖掘结果的准确性在很大程度上。因此,数据预处理技术数据挖掘过程中发挥关键的作用[23]。事实上,各种原始数据来源,缺失值异常,嘈杂的数据,和不一致的数据,而这些数据可以严重妥协的质量和执行效率的数据挖掘结果,甚至可能导致偏见的实验结果。因此,预处理操作,如清洗、集成、转换和法规应该执行对数据在数据挖掘提供一个可靠的和标准数据集后数据分析和挖掘。
3.1.1。数据清理
数据清理的消除是不准确、不完整、不一致,从大量的原始数据离群值数据。数据清洗是最基本的和费时的任务在数据预处理(24]。一般来说,没有缺失值的处理主要包括治疗(缺失值没有影响数据分析)、删除(考虑用缺失值的数据量),和数据插值(合理填写缺失的数据)。最常用的操作缺失的数据完成在实际应用程序中,和常见的缺失值完成手工填写,平均填充,填充和特殊价值。不一致和离群值通常发生,因为原始数据存储在多个数据库或数据不一致的命名规则,并消除不一致的数据命名并指定数据一致,这也是数据集成的先决条件。异常值的处理通常是合法使用删除或意味着校正操作处理。
3.1.2。数据集成
使数据挖掘结果更准确、有效,我们可以从不同数据源集成和总结数据通过使用来自多个数据源的数据(25]。由于数据存储方法和数据类型的差异,要注意每个数据源的命名和格式在集成过程中,和属性冗余问题和实体识别问题应该充分考虑。
3.1.3。数据转换
数据转换主要是数据的归一化形成数据格式符合数据挖掘方法,和规范加工数据在数据挖掘过程中是一个基本的任务。不同的源数据常常有各种各样的大小和价值观,和大数据对象的变化会影响数据挖掘的结果在很大程度上。因此,规范和扩展属性数据的数据规模分配其价值观在一个特定的区域,以方便数据分析数据对象。常用的数据转换方法包含min-max正常化和零均值归一化26]。
Min-max正常化(27:给定的数据属性转换映射区间[0,1]。Min-max正常化保持原始数据的关系数据对象的属性和删除数据水平的巨大差异的问题和数据数据对象的范围,如方程所示(1)。 在哪里表示数据对象的数据值后min-max正常化的过程。v表示数据对象的初始值;最大和最小表示数据对象的最大和最小值,分别。
为规范(28):让属性的均值和方差一个是和σ分别改变属性的值一个数据转换1 0均值和偏差,计算方程所示(2)。
数据离散化是连续数据的划分成小段,把这些数据离散区间。常用的数据离散化包括equal-width离散化,频率相同,和聚类离散化;equal-width离散化的数据属性值为区间的划分相同的宽度;频率离散化是相同的位置在每个时间间隔的数据量;和凝结离散化是由聚类算法来获得k集群,然后标记每个集群的分类价值。
3.1.4。数据规约
被分析在实际应用中,数据通常以大量的数据和大量的数据集包含冗余的数据不相关的数据挖掘,数据分析和挖掘耗时。因此,数据大小是减少了相关的数据分析和挖掘之前,和之后的数据属性数据规约几乎仍然保留着原始数据的完整性,数据量相对较小,因此分析挖掘的性能和效率法规数据集上大大提高,产生几乎相同的分析结果。法规主要包括的数据属性法令和法规的记录。
3.2。机器学习算法人才培养质量和经济相关性分析模型
3.2.1之上。文本挖掘原则
从技术的角度,文本挖掘是一个多方面的研究领域涉及意义挖掘、信息检索、字处理、多检查,和许多其他元素。文本挖掘是一种有效的挖掘工具,既有效地提取更深的意义和准确处理的有效部分。城市群的文本在文本聚类技术的应用主要是指判断的统一数据对象划分为多个类别,它允许高度相似的关键词虽然不同数据之间的意义相反的含义。分类的过程是首先一个文本特征提取的过程。在此基础上,文本对象具有类似关键字分为同一组,和聚类模型重建组轮流;集群的分析是使用软件描述方法实现基于集群的所有算法描述。上述过程如图2。
3.2.2。文本分类表示
基于文本挖掘技术的原理,选择了支持向量机(SVM)作为文本聚类模型施工方法。支持向量机模型的表达词语的相似度空间相似。使用空间的向量计算方法分类文本,文本之间的相似程度,可以使用空间向量计算。计算余弦距离是一个经典的方法分析文本相似度的措施。支持向量机模型(29日),因为每个文本中的信息必须转化为各种各样的多维数据集,计算机可以处理,整个计算机的文本集是由一个空间向量函数表示。
一个文档集 ,自在一个文档集合可能会严重影响文本分析由于其顺序和重复。使它容易理解,假设该文档忽略了文件的顺序,而不是复制。此时,n维坐标可以表示为 ,把重量 作为一个相应的位置和坐标。SVM的流动结构如图3。
优化数据流文本挖掘中常用的聚类分析,和必要的操作之前执行流聚类分析对文本是使用一个特定的算法对文本进行相似的措施。本文采用综合性能指标。模型库的两个相关向量可以表示成一个文档向量 , 这个模型库的功能内容,在哪里 。仿真之间的相似度向量可以表示为方程(所示3)。 在哪里和代表两个文档的特征向量的模型库,分别 表示欧几里得距离。由方程(Hermann文本之间的距离计算4)。 在哪里k赫尔曼距离表示参数,这个参数是2,赫尔曼距离和欧几里得距离可以得到一个计算。接下来,我们可以用正弦相似性来衡量两个文本的相似度,两个向量之间的正弦相似,也就是说,向量之间的相关人才培养质量和区域经济,和 ,计算见方程(5)。
建立数据向量空间模型的文本相似度测量正弦相似的两个向量范围在0和1之间。两个文档之间的关联向量相似性措施,也就是说,人才发展和区域经济的质量,可以通过方程(表示6)。 在哪里 是一组两个文档有相同的特性,然后呢 是一组两个文档的内容。
4所示。实验
4.1。实验环境和评价指标
实验运行时环境使用英特尔(R) (TM)核心i7 - 8750 h CPU@ 2.20 ghz,显卡是NAIDIA GTX 1080 ti 16 g内存,python 3.7,利用pytorch深度学习框架。优化器使用亚当;最初的学习速率 ,衰减系数为0.0005,重量和批量大小是32。模型训练损失曲线如图4。在图4,当模型的迭代的数量时代是12,损失曲线的训练集和测试集往往是平滑,表明该模型具有聚合。
在本文中,考虑到数据的稀疏,60%的数据作为训练数据,40%选择测试数据。SVM模型作为基分类器,和模型的鲁棒性和泛化能力是评估使用不同的预测。
调查的有效性,本文的模型分析、人才培养质量和区域经济发展之间的关系,准确,精密,回忆,和F1值使用。每个评价指标如表所示1和计算方程所示(7)- (10)。
4.2。协会挖掘可视化
考虑到计算基于同一组的不同特性两个向量之间的收益率,而普遍的结果。因此,有必要优化数据流聚类算法。优化数据流聚类算法将输入数据,输出数据的优化,满足的条件,和聚类的可视化图所示5。的顺序步骤初始聚类点,初始部门,修改聚类分,划分所示的顺序从上到下,从左到右。我们可以看到weight-balanced意味着每个集群对象的质心计算得出每个集群之间的最大距离物体的质心和比较它们与相应的集群对象根据最小距离,并重新计算聚类中心的对象改变了根据优化的数据。以上两个步骤的过程是一次循环,直到个体聚类中心不再有任何更改时执行计算。这产生了一个集群k个人,精度满足最小方差准则。
4.3。分析的结果
验证所提出的基于机器学习的相关模型统计模型来评估和分析人才培养质量对区域经济发展的影响,单一的随机森林(RF) (30.),一个GBDT [31日),和一个Xgboost [32)建立了相同的实验设置,分别。第一个模型是基于很多因素影响区域经济发展的相关人才发展。培训和使用历史数据,我们评估模型的预测能力预测指标的区域经济和比较它们与实际的指标。比较该模型评价指标的准确性,精确,回忆,F1,比较结果如图6。
我们可以看到,本文提出的预测模型有很大改善所有四个指标与单一随机森林相比,GBDT, Xgboost模型,预测精度较高。也可以看到,个别区域经济预测模型的分类效果的真实数据有很大区别,虽然改进的版本或优化模型提高了最终的预测在某种程度上,真正的核心决策模型的精度的选择特性和多元统计数据融合模型。多元统计模型的主要原因比单个模型是多元统计模型集成多个分类模型,可以充分考虑每个算法从不同的数据空间和结构观察数据,,充分发挥不同算法的优势。从模型优化的角度来看,个体模型训练可能陷入局部最小值,这可能会导致模型泛化性能差,多个基本的力量融合学习者可以有效地减少陷入局部最小值的概率。
图7本文给出模型的时间开销和比较模型,我们可以看到,我们的模型的整体优势明显更好的实时性能,在培训和测试阶段。特别是本文模型的训练时间开销是11.2和测试时间开销6.1年代。培训的时间开销下降3 s表现最好的GBDT模型相比,在所有比较模型。
4.4。烧蚀研究
进一步验证不同的设置的影响距离的度量函数模型的整体性能,我们使用欧几里德距离,编辑距离(Ed)和余弦相似性聚类样本聚类(Cos)措施模拟,分别和算法的初始参数保持不变,和不同的距离度量函数曲线的影响如图的预测性能8。我们可以看到从使用欧几里德的明显的优势在Cos和艾德。主要原因是欧几里得的简单计算,距离度量的集群和相似特性的实现只有通过计算两点之间线段的长度。和余弦相似度不考虑向量的大小只有他们的方向。此外,结构相对复杂,高维数据的时间开销很高。两个编辑器的距离,艾德,通常是用于计算字符相似度计算之前,需要规范化。
检查的有效性总体性能的各种特性,不同特性的结合,分别预测,结果如图所示9。
在所有,我们认为教育(A)的特点,工业发展程度(B)、文化(C),吸引政策(D),人才政策(E),经济环境(F),政府和政府服务理念和水平(G),我们可以看到从图9预测模型的精度往往会增加随着特征数量的增加,预测精度相对较高,尤其是当特征相关教育政策和文化气候都考虑进去。
5。结论
服务区域经济发展是地方高校的任务之一。这是唯一的方式为当地大学和区域社会创造一个良性的互动发展关系的共同发展。本文建立了多元统计分析模型的人才培养质量和区域经济发展之间的关系的协助下机器学习算法,它还介绍了如何大学立足区域经济发展,把升级的能力为区域经济发展提供人才培养模式,探索了一种优秀的创新路径加强服务区域经济和提高人才培养质量的多元化人才培养模式创新,加强实践教学,industry-university-research的结合。
数据可用性
在当前的研究中使用的数据集是可从相应的作者在合理的请求。
的利益冲突
作者宣称,关于这项工作他们没有利益冲突。
确认
支持的研究是海南省的教育部门(项目编号:Hnjg2022-51),以及中国的海南省自然科学基金(项目编号:722 qn307)。