文摘
分解的结构大量的现有职位通过数据挖掘将大大提高企业人力资源结构优化的影响。为此,本文提出了一个端到端的competency-aware工作要求自动化工作要求的一代,一代框架和基于能力的预测主题可以实现工作要求的技能预测。那么encoder-decoder LSTM提出了实现工作要求的一代,和competency-aware注意力机制和复制机制提出了指导生成过程,以确保生成的工作要求全面覆盖相关的描述和代表能力和工作技能要求。competency-aware策略梯度训练算法,然后提出了进一步加强理性生成的工作要求的描述。最后,广泛真实的人力资源数据集实验清楚地验证了该框架的有效性和可解释性和它的变体相比,先进的基准。
1。介绍
为了实现长远发展,企业需要把小时的优势更好地使用。现代人力资本理论共识指出,一个企业的最有价值的资产,可以获得长期利润的王牌在竞争激烈的市场,为企业获得最大好处是人力资本(1]。如果一个企业想要实现长期可持续发展和制定一个更加持久的发展战略,必须以精确和详细的人力资源规划为首要任务,特别是在人力资源成本上升的现状,只有准确提前部署人力资源成本可以降低成本2]。只有通过提前规划精确和详细的人力资源成本,减少人力成本,转移到一个更有效的成本分配模型(3]。
即使最好的员工的劳动生产率在同一个位置远高于一般或较差的员工,最好的员工在同一位置不应作为员工的标准(4]。只有系统地筛选和判断能力,经验,和不同级别的员工以及位置的需要我们可以找到最合适的员工位置从而达到最佳整体组织有效性(5,6]。然而,值得注意的是,人力资源分配的过程不是一个简单的选择过程只有依靠科学的方法来实现系统的最佳效果。
人力资源的使用计算智能,企业能够访问所有与人力资源密切相关的内容(7]。实际应用的相关数据和信息,一方面,和容易掌握企业发展的特定信息,另一方面,可以为企业提供参考,使相应的管理决策。当数据挖掘技术应用于人力资源管理,主要内容可分为三类:第一类是实时数据。这种类型的数据主要反映在人员名单,包括个人和组织水平,在个人层面上包含的人员数量,人员结构、工作经验、年龄结构、教育结构、技能和专长,认证结构,和家庭背景8]。组织级别包含六个模块,包括人力资源管理,人力资源战略管理、工资和绩效管理。第二类是动态的数据。这部分的数据通常是反映在数据报告,如劳动力成本表等等(9]。在这些数据的管理,统计计算和跟踪记录是必需的。第三类是数据集成。它主要是指信息的形式设计问卷等集成和分析之后,如员工的满意度。
有各级人员的数量有限,过多或过少会影响公司的稳定运行10,11]。因此,管理者对员工的比例应该保持在一个合理的范围内。与此同时,在人力资源管理中,实现不同的管理方法对于给定数量的员工,有不同的管理效果。同时,相同的管理风格不同的质量和能力的员工也将使管理效率有所不同。因此,它是至关重要的,企业采用科学有效的管理方法在人力资源管理根据不同的信息,而使用传统的管理方法,很难意识到保健的使用和有效的掌握相应的信息。相比之下,管理与数据挖掘技术在新时代的援助可以改善的影响开展的相关工作12]。例如,如果一个公司控制的比例的员工负责相应的函数,通过分析信息,如有关人员的工作能力和服务的人数,可以快速确定员工是否应该增加,维护,或减少和改善人力资源的合理使用13]。
此外,本文提出了一个端到端的competency-aware神经工作要求代框架自动生成工作需求,和基于能力的预测主题使技能在工作需求的预测。神经的主题模型是第一个旨在探索各种能力和技能从现实的人力资源数据信息。然后提出了递归神经网络encoder-decoder实现工作要求的一代,和competency-aware注意机制和复制机制提出了指导生成过程,以确保生成的工作要求全面覆盖相关的描述和代表工作的能力和技能需求。competency-aware策略梯度训练算法,然后提出了进一步加强理性生成的工作要求的描述。最后,广泛真实的人力资源数据集实验清楚地验证了该框架的有效性和可解释性和它的变体相比,先进的基准。因此,该框架可以有效地应用于人才吸引人力资源服务的场景。
2。相关工作
常用的定义后,计算智能指的是重要的识别小说的过程,可能有用,有效数据中的模式(9,14]。在此期间,有一个广泛的数据挖掘应用领域和相应的研究领域,包括企业管理领域,以及完善的分支学科,如客户管理、生产管理、财务管理(14]。
最近,这些企业应用程序域似乎以人力资源管理作为补充。在过去的几年里,越来越多的研究贡献的目标是支持人力资源管理中数据挖掘的实际应用。贡献是人力资源管理的各种活动和过程,如选择员工或预测员工流动率(15),以确定员工的能力发展,或性能预测和评估员工绩效管理(16- - - - - -18]。提供这些功能,等一系列的数据挖掘方法分类树(19),聚类(20.),协会分析(21),支持向量机(22),或神经网络(12,23[],而系统的改进和定制24)也提出了。简而言之,浏览文学给人的印象一个繁荣的新数据挖掘研究领域符合人力资源领域的具体要求,因此对人力资源实践非常有用。
然而,大量的相关贡献和不同的结果使研究现状的概述。因此,本论文旨在设计一个合理的架构人力资源管理中有效地应用于人才吸引力场景人力资源服务。
3所示。Data-Mining-Based多因素人力资源需求
3.1。数据挖掘
数据挖掘也所有数学算法来发现潜在的有效使用模式从结果信息。因此,它也可以表示的过程中发现的内部法律公司的人力资源需求和其他影响元素相互作用是使需求预估数据挖掘的过程中公司内部和外部的影响25]。
机器学习使用统计发现一般模式中存在的各种类型的输入数据和构建培训模型基于他们预测新的输入结果。例如,支持向量机是基于统计学习理论,它可以减少结构性风险,理论上足够的优势和操作方便26]。
最初,提出了支持向量机在数据分类的背景下,但内核函数的作用支持向量机和支持向量导致问题的扩展领域的回归分析,生向量回归机的问题,也称为支持向量回归。所有采样点的最小偏差可以获得样本空间,因此,原始空间中的非线性回归的效果可以派生。SVR-based特性可以探索样本数据中的出色表现,这对于企业是非常有用的预测小时。
定义回归函数的方程如下:
在高维特征空间中,SVR表示输入量更好的通过核函数,而惩罚系数C松弛变量ε介绍了一起优化日常功能如下:
极值点的计算是主要通过拉格朗日函数实现的。
3.2。支持向量回归机变量重量
预测小时需求时,需要有效地输入时间序列的历史数据,它的特点是随时间逐渐下降回归(27,28]。的过程中回归,回归之前的数据和新数据之间的误差几乎为零。松弛变量的重量在传统的SVR模型是相同的,和大样本方差绝对是占主导地位的回归超平面,使回归失真出现。的帮助下权重系数向量 ,一个完全相同的小惩罚强度对所有样品,和早期的重要性和最近的数据样本系列有效的区分,这样每个样本的回归效果科学整合。
权重系数可以被索引, 在哪里N年的历史数据的总数。
4所示。人力资源需求预测情况
以处理汽车公司为例,如果公司的人力资源需求进行了分析,根据这种方法生成的结果是测试的预测。基于相关性的分析,相关因素选择合理,和总输出值,总利润,销售情况,型号为核心元素用于预测人力资源需求13,21]。
4.1。预处理的数据
如果数值大小的关键因素之间的差异非常明显,这将导致一个严重影响序列的方差差异因素,如果直接使用进行,影响有一个很大的差异将导致直接影响的回归结果,所以有必要对所有的数据进行预处理28]。在处理每一组数据,z得分方法可以使用,其公式如下: 在哪里x是原始数据,y是预测值,是分布的因素。预处理后,所有核心因素的近似数值大小是有效的。
4.2。变权SVR预测人力资源的需求
内核函数是由高斯函数如下:
实验结果仔细分析,虽然多年来积累的经验有效结合,和内核宽度设置为 ,这样的高维非线性数据更好的代表。当惩罚因子C= 100,就可以避免惩罚因子,导致恶化的性能和泛化的数据。当放松的基础变量在模型中设置为0.01,数据点的准确性非常高和支持向量的个数最少训练模型,导致一个更好的模型的外推。为了实现该方法的预测精度,5年的历史数据从2015年到2019年被合成到一个训练集26,29日),它允许回归模型中创建一个合理的方式。公司的实际情况在2019年的小时遭到了公司的战略实施需要最大程度,这充分证明了该预测方法的有效性。这是一个很好的表明了方法的有效性。使用这种方法来预测公司的人力资源需求,2020年的6年历史数据从2015年到2020年被组合成一个训练集,和所有关键因素有2020人进入了SVR模型,导致人力资源需求5963人的2020年,超过300人的缺口。
5。拟议的框架
5.1。问题定义
本文的目的是自动化的生成工作要求的描述。给定一组C工作要求的文件不同的工作, ,在哪里是工作职责,它描述的职责我th的工作,是工作需求,描述工作的各种能力需求。具体而言,为每个任务的责任 ,它被认为包含话说,, 需求通常包含多个句子来描述不同的能力要求,表示为每个工作要求 ,在哪里是 - - - - - -句子。例如,图1包含五个工作要求语句,N= 5,对应于教育的引入,编程,机器学习,音频处理,和团队合作;不同的颜色在图1代表不同的神经元。
此外,它假定包含话说,, 。为了分析每个作业的细粒度的能力要求,论文的想法之后这里来训练一个神经模型提取每个工作要求技能的话。基于这些词的注释,能力的话相应的列表可以生成, 。基于这个想法,以下工作要求描述一代问题在本节中定义。
人力资源问题定义:给定一组文本块C。每一个 包含一个工作职责和工作要求 。职位要求描述一代的目标是学习模型米光滑的和合理的工作要求吗可以当一个新生成的工作责任是给定的。
提出的工作要求自动生成框架(狭谷)基于技能预测包含三个主要组件:能够感知能力下神经的话题模型(CANTM),工作要求代下能力知觉的神经模型(CANJRG)和策略梯度算法训练能力知觉(CAPGTA)。图1显示了一个示意图没有CAPGTA训练算法的框架。
5.2。CANTM
本节提出了一种新颖的CANTM挖掘潜在能力的话题在工作职责和工作要求,如图2。接下来,生成过程和推理过程在CANTM分别描述。CANTM生成过程:为了模型的潜在语义的工作职责和工作要求,我们假设存在两个主题空间的潜在主题的数量和 。每个主题分为和 ,分别。
词分布和可以表示为 在哪里 和 分别基于主题的参数, 和 分别基于参数,所有这些都将在培训过程中学习。另一个和的单词列表大小的工作职责和工作要求,分别。只有能力单词的列表被认为是这里的数据输入工作要求CANTM的一部分,它可以减少输入噪声和提高学习的性能潜力竞争力主题工作需求。
类似于小伙子主题模型(30.),这里假定是,每个工作的职责和列表的能力的工作要求有话题向量和 ,分别在哪里 和 。在这里,和分别基于高斯softmax生成。具体来说,文章的生成过程如下:
抽样隐变量 :
为lth词 :取样字 ,在哪里和先验参数和吗是一个由非线性神经元激活函数。
所不同的是,生成过程能力的单词列表在工作需求 ,通常情况下,只有一个主题设计能力。在此基础上,生成过程如下:
抽样隐变量 :
这个词的概率在 - - - - - -句子可以表达为 在哪里和先验参数和吗代表言语能力的列向量 。在本文中,一个端到端的competency-aware神经工作要求代框架提出了自动化的生成工作要求,在工作要求和技能的预测单词可以实现基于主题的预测能力。一个神经的话题模型是第一个设计;然后一个encoder-decoder LSTM提出了实现工作要求一代,紧随其后的是一个基于competency-aware政策梯度训练算法,进一步提高生成的工作要求描述的合理性。最后,广泛真实的人力资源数据集实验清楚地验证了该框架的有效性和可解释性和它的变体相比,先进的基准。
此外,为了每个职位之间的关联度模型和能力的工作要求 ,下面的映射关系假设的先验参数的潜在主题。
CANTM推理过程:边缘(可能性31日]CANTM-based的生成过程如下:
这里使用的神经变分法近似后验分布和 。基于方程(10),为对数似变分下界如下: 在哪里和是真正的估计方差分布后 和 ,分别。代表了Kullback-Leibler散度(5,32]。证明推导如下:
我们生成方差参数 ,和 这里基于纸张的想法估计 , , ,和通过输入 。这允许CANTM模型探索潜在的能力通过主题表示工作职责和 。因此,根据观察到的工作职责推理网络介绍,结合方程(12)生成上述方差参数如下: 在哪里是bag-of-words向量的 , 是由非线性神经元激活函数,和是线性神经感知功能。
在此基础上,下面的损失函数可以直接为每个实例集最小化 在培训过程中:
CANTM可以推断出,因此,所有参数和潜在竞争力主题参与每个位置可以进一步探讨。
5.3。CANJRG
学习后的潜在能力通过CANTM主题,本节描述了如何使用encoder-decoder神经模型生成工作要求。如图3,它包含两个主要组件,包括编码器序列提取语义信息从输入的工作职责 ,和下一个序列译码器能力意识,可以生成中的每个单词的工作要求指导的潜在能力的主题。
序列编码器:首先用一个嵌入层找到嵌入向量为每一个词在然后使用一个Bi-LSTM [5,33编码序列 : ,在哪里 是这个词向量的LSTM是一个单向LSTM网络。最后, 用于表示最后的隐藏的向量序列编码器。
Competency-aware序列译码器:下面描述了如何构造一个译码器来生成每个单词在工作要求 。在生成过程中,能力的话题首先估计每个句子吗在 ,然后每个单词预计以下概率 : 在哪里 代表序列 和代表 代表所有的隐状态序列编码器。是 ;通过CANTM隐式功能话题向量学习, 每个话语的主题标签吗 。
具体来说,序列译码器在功能意识是构建基于两个单向LSTMs [34]。和代表主管的隐状态的话题和文字分别计算由LSTM。 在哪里和嵌入式的表示吗和 。 声明的长度是 。同时,隐式状态和初始化的 ,和初始化的 。此外,两个能够感知能力的注意机制设计来捕捉从上下文特征H提高性能的生成过程如下:
能够感知能力上下文向量和可以由以下公式计算:
主题标签可以预测的能力。和每个单词的如下:
此外,ability-aware复制机制设计,提出了译码器可以直接复制能力词汇中的词。具体地说,一代概率时这里定义生成kth词: ; 。
的概率分布的能力的基础上预测了单词单词列表可以更新以下方程: 在哪里是这个词分布的话题。
最后,在异构模型,为每个组的训练实例 ,模型中的参数学习通过最小化叉损失函数如下:
5.4。能够感知能力策略梯度训练算法(CAPGTA)
引入CAPGTA之前,一个基本的端到端的培训方法将上述两个模型中的所有参数学习。具体来说,由于CANTM神经变异,失去功能 , 和 ,可以训练共同在同一时间。
,在哪里和hypermastigote平衡每个模型。老师强迫算法在训练过程中,也就是说,之前的真实的词用于计算培训和 。为主题的能力 ,下面是用于生成:
和预测的值作为输入在测试会话。
直接最小化并不总是产生最好的工作需求,因为它不直接离散优化评估指标如胭脂和BLKJ [35]。此外,它需要在这里生成的能力参与工作的准确性要求可以更直观地进行优化,以便生成结果的合理性和有效性可以更好的保证。
最近的一些强化学习技术可以用来解决这个nondifferentiable任务指标问题。在这里,CANTM和CANJRG可以被看作是一个代理(30.,36],它与环境的相互作用,即训练实例。给定一个输入的工作职责X、战略 是由参数决定的,0为每个行动的情报,那就是,基于当前状态的预测下一个单词。直到最后位置(EOS)序列的生成工作要求,奖励将观察到的。整个培训的目标是学习策略通过最小化的负面期望的奖励
基于强化学习算法,它获得
可以使用一个简单的蒙特卡罗抽样基于战略如下: 在哪里 是蒙特卡罗(37样本的标签的能力。 和 计算从方程(23)和(24),分别。
正如前面提到的,在这里,是想要直接优化的准确性的能力生成的工作要求。因此,我们使用F1值[38)生成的技能作为奖励函数,也就是说, 在哪里年代是一组在实际工作要求和技能的话的技能集字在吗 ,代表一组大小。ROUGE-1分数也纳入奖励功能,用于测量统计信息基于最长公共子序列之间的实际和model-generated工作需求。这使得句子的相似度的直接优化层次真实性,这有助于提高流畅性生成的文本。奖励可以被设置为函数
最后,和联合使用来获得总体学习目标函数如下: 在哪里在培训过程中动态血钠过多。首先设置为0的单独训练 ,然后逐渐增加的价值。
6。实验分析
本节提供了广泛的定量分析实验的结果和人工评价现实的人力资源数据集(4,12)证明的有效性提出的狭谷工作技能预测和工作要求的一代。
6.1。实验数据
两个现实的人力资源数据集(4,12),包括技术(T)和产品相关工作数据集,使用。具体地说,3475年和2351年不同的收集工作,分别包括他们的工作职责和相应工作要求文本,已由六个人力资源专家仔细校对,以确保流畅性和合理性。一些统计数据如表所示1和数字4和5。在实验中,80%的数据集是随机选择作为训练数据,另一个10%,测试数据来验证性能,最后10%被用来优化参数。
除了生成合理的技能在工作需求,LSTM-CRF [15,25]模型训练,提取可能的能力基于纸张的方法。人力资源专家的帮助下,最后一个词汇表包含4825个技能实体。
6.2。训练参数和环境设置
competency-aware神经话题模型,原始输入职位描述的工作职责和能力的话是第一个转换成bag-of-words向量(4,23]。,在此之前,禁用词和高,低频词被增强模型。模型的性能增强的停止词和高,低频词。在这里,主题的数量 将(30、50)和(30、30)T和分别的数据集。此外,我们在计算添加批量正常化 ,和 为了避免KL分歧消失在训练的问题。
在能够感知能力postrequirement生成模型,嵌入层尺寸的词 ,和主题标签分别是128、128和50。序列编码器实现双向LSTM,每个LSTM层的隐层大小是256。能够感知能力序列译码器由两个单向LSTMs,实现这两个隐藏层大小为256。此外,隐层的大小州能够感知能力的注意机制和能够感知能力复制机制也设置为256。
完整的狭谷框架的培训期间,使用泽维尔的参数初始化策略。
200轮pretraining CANTM执行。之后,我们集 和 训练的狭谷强化学习以外的损失函数。最后,我们组 并逐步增加训练我们的模型方程(12)。此外,亚当作为优化器,最初的学习速率设置为0.001。1.0,梯度作物也将稳定培训过程。测试阶段的一代,我们使用了定向搜索算法和集群大小设置为4。
整个实验在Linux服务器上配置了RedHat 4.8.536, 2.40 G赫兹英特尔(R)至强(R) Gold6148 CPU;模型是基于张量流框架。
6.3。基准测试算法
评价该方法的有效性,比较几种先进的文本生成方法,这些方法适应适应问题定义设置。
Seq2Seq [14)是一个经典text-to-text生成模型,本文提出了实现神经机器翻译的目的。在本节的实验,concat-based方法计算的注意机制也应用,这是类似于本章中提出的方法。
工具包(18Seq2Seq)是一种变体,网络模型,实现了一个指针和一个叠加机制来处理自动消化问题。
孩子是一个自然语言生成模型基于变压器网络,提出了解决sequence-to-sequence生成问题。
此外,先进的自动化工作描述写作方法进行了比较。
央行(19,21是最先进的自动化工作描述写作模式,本文提出。与该模型为一个公平的比较,它使用的附加信息的特征(例如,公司规模)删除本节的实验。
此外,四个变异狭谷框架的比较来评估每个组件的影响的模型生成的结果:狭谷(w / o RL)是一个变种的狭谷CAPGTA从训练中移除,即培训是由公式直接完成的。狭谷(w / o RL, )是一个变种的狭谷(w / o RL, )删除主题标签的能力相关的序列译码器的一部分,也就是说,只有是用来介绍主题信息的能力。
狭谷(w / o RL, topic-copy)是一个变种的狭谷RL (w / o),这消除了能够感知能力replication-based机制。
6.4。评价指标
为了评估工作要求生成的有效性,同时自动和手动评估。
在自动评价,标准胭脂指标被使用,包括ROUGE-1 ROUGE-2, ROUGE-L,衡量一元词的统计数据重叠,二进制字重叠,和最长公共子序列(LCS) [31日]在现实和自动生成结果的比较,分别。蓝色的评价指标,它衡量的共存n——他们也使用。最后,精确率、召回率,F1值的技能在工作需求是用于自动验证生成的结果的合理性和有效性,如表所示2。
图6显示了准确性、召回和F1值数据集的狭谷及其变体;该模型提高了自动度量ROUGE-1 BLEU-1, 1.06%和4.60%,3.00%和7.16%在手工的度量标准流畅性和有效性,分别,而现有的最佳技术。显然这个结果证明了该模型的有效性产生流利的和合理的工作要求39]。
(一)
(b)
此外,图6显示了精密、召回和F1值生成的能力在这份工作的要求。在这里,可以发现,该模型优于最好的结果基准的9.49%,3.55%,和6.73%的技术数据和20.62%,5.29%,17.69%,产品数据集,分别。显然验证生成的结果,该框架可以更准确地捕捉相关的、有代表性的技能需求的位置。
烧蚀实验:在这里,该模型及其变异的影响进行了比较。和Seq2Seq也可以作为该方法的一个变种,即CANTM模型。显然,从结果很明显,所有的模型组件可以增强效果。具体来说,性能迅速下降,当只被认为是潜在能力的话题信息,这证明预测潜在能力的重要性的话题标签解码器。如图7capability-awareness-based注意力机制可以提高约2.61%和1.38%的ROUGE-1 BLEU-I,分别在技术数据集,在产品数据集和2.53%和4.83%,分别。同时,capability-awareness-based复制机制可以提高1.87%和0.84%的技术数据集ROUGE-1 BLEU-1白勺效果和产品数据集中的2.92%和1.54%,分别。此外,图8表明该CAPGTA可以有效地提高精度,召回和F1值生成工作要求的技能的话。
(一)
(b)
(c)
(一)
(b)
(c)
主题数参数实验:如图8评估的参数敏感性,狭谷是训练有素的调优参数和 ,0到100,其他的都是固定的 和 技术数据集和 和 在产品数据集。在这里,它可以清楚地观察到,可以获得最好的结果在技术数据集 和 在产品数据集 和 。
6.5。生成实例研究和讨论
为了进一步说明该框架的有效性和可解释性,狭谷生成的工作要求的一个例子是在图9。考虑到职位招聘数据挖掘算法工程师,它可以发现生成的结果是流利的,包括能力需求关于教育,工作经验,数据挖掘算法,基本的编程语言,和团队合作,其中大部分是工作要求中提到的专家写的。这证明该模型是有效地生成流利的和合理的工作要求。除了在生成每个工作要求语句时,对应词云表示预测能力的话题。出于这个原因,可以看出该CANTM可以有效地学习主题意义的能力,证明潜在能力的主题可以有效地指导工作要求文本的生成,从而证明该框架的可解释性。
7所示。结论
在本文中,一个端到端的competency-aware神经工作要求代框架提出了自动化的生成工作要求,在工作要求和技能的预测单词可以实现基于主题的预测能力。然后提出了递归神经网络encoder-decoder实现工作要求一代,紧随其后的是一个基于competency-aware政策梯度训练算法,进一步提高生成的工作要求描述的合理性。最后,广泛真实的人力资源数据集实验清楚地验证了该框架的有效性和可解释性和它的变体相比,先进的基准。
数据可用性
本文中使用的数据集可从相应的作者。
的利益冲突
作者声明,关于这项工作他们没有利益冲突。
确认
这项工作是支持的优秀青年学者计划(2020):“研究驱动机制、模型选择和路径优化人力资源服务行业的转型升级安徽省在人工智能时代”下批准号gxyq2020229。