文摘

物联网的发展已经改变了的求职方式。在线招聘已逐渐取代了传统的线下招聘模式。一些图谋不轨的人使用网上招聘平台发布虚假招聘广告,这不仅给求职者带来财务和声誉损失,也损害了社会的可持续发展。然而,以往的研究没有使用统一的评价指标和数据集,并检测欺诈招聘广告缺乏系统的研究。要解决这个问题,本文选择四个代表(即传统的学习方法。,random forest, support vector machine (SVM), logistic regression, and Naïve Bayes) and three deep learning methods (i.e., TextCNN, gate recurrent unit (GRU), and bidirectional long-short-term memory (Bi-LSTM)), which perform good in natural language processing (NLP) and use the same evaluation metrics and datasets conducting comparative experiments on balanced and unbalanced datasets, respectively. The experimental results show that the TextCNN method achieves the best detection performance with relatively low energy consumption on the balanced dataset. All the metrics values are more significant than 0.93. On unbalanced datasets, the TextCNN method still performs best with increasing imbalanced proportion.

1。介绍

随着物联网的发展(物联网),人们从电子设备可以快速获取信息。与此同时,劳动力市场的主要招聘方法迅速从线下转移到网上,和从互联网获得招聘信息已经成为主流。物联网改变了效率低下的找工作方式。在线招聘有效性的优势,从容,和效率1]。然而,一些图谋不轨的人使用网络平台的弱点在互联网上发布虚假招聘广告欺骗金钱和剥削劳工的名义招聘。一些假招聘已经从欺诈暴力抢劫、威胁,限制人身自由的,和其他严重违反2]。

虚假的招聘广告已经成为一个全国性的社会公害。根据2017中国互联网用户的消费者保护人权报告(https://wenku.baidu.com/view/f50682067ed5360cba1aa8114431b90d6d85894e.html),在所有的欺诈案件报告的保护权利,虚假兼职工作是最常见的类型的欺诈行为(占22.1%),而且大部分的虚假招聘发生在著名的招聘平台。数据从中国的司法大数据服务平台(http://data.court.gov.cn/pages/research.html)表明,欺诈每年招聘情况下增加。数据从人工智能媒体咨询通过2019年中国网络招聘行业市场研究(https://www.iimedia.cn/c400/63879.html)表明,在网络平台上的各种不好的经历,大多数情况,求职者的企业信息是不真实的(占34.8%)。第二次是个人信息泄漏(占31.8%)。可见,检测欺诈招聘广告是一个迫切需要解决的关键问题。检测欺诈招聘广告基于物联网系统生成的数据不仅有助于保障求职者的权益,但也促进经济增长并创建一个绿色物联网环境。图1虚假的招聘广告显示了检测过程的物联网环境。然而,这一领域仍然是一个相对未开发的领域,没有得到学术界的广泛关注。此外,检测欺诈在合法的招聘广告是一个技术上的挑战问题3]。最虚假的招聘广告进行研究从理论方面。例如,鲁宾(4]分析了原因和对策的商业欺诈通过广告从信息经济学的角度,说明欺骗操纵信息来获得优势。从法律的角度看,江(5提出了口号”以法律为保障,加强广告监管功能,增加整改措施,打击虚假和欺骗性的广告。”

技术检测欺诈招聘广告是有限的和不成熟。根据采用的方法,有限的现有研究发现虚假的招聘广告一般可以分为三个部分:上优于传统检测方法,采用传统学习+特性检测方法和基于深度学习检测方法。上优于传统检测方法主要使用传统的学习算法来检测假招聘广告。传统学习+特性采用检测方法主要使用特征提取方法来改善传统的学习算法的性能。基于深度学习检测方法使用各种深度学习算法来检测工程就业骗子没有功能。这些检测方法的相似性是识别隐性欺诈数据中的模式。特别是,现有研究涉及不同的检测方法,不同的特征提取方法,不同的评估指标,不同的数据集。因此,有必要研究检测的假招聘广告系统。检测假招聘广告进行系统的研究,本文选择NLP七算法具有良好的性能。它进行系统、全面的实验使用相同的评价指标和数据集。 The main contributions are summarized as follows.(1)现有的检测方法,详细描述和分析了虚假的招聘广告(2)比较分析现有的工作是使用相同的数据集进行实验和评价指标。七个算法用于公共就业欺诈检测数据集进行对比实验,并详细分析了实验结果(3)实验结果表明,深的TextCNN学习方法优于其他方法精度相比,精度,回忆,和 - - - - - -得分。在时间性能方面,虽然TextCNN的训练时间远远高于传统的学习方法和学习+传统的特征提取方法,其测试时间是相似的支持向量机和支持向量机+ TF-IDF,为物联网设备是可以接受的。因此,综合考虑精度、精度还记得, - - - - - -分数和测试时间,TextCNN方法执行最好的在所有这些比较方法(4)本文的进一步研究都有一个特定的参考价值更高的性能和更低的能耗检测方法实现绿色物联网的目的

本文的组织如下。部分2回顾了相关研究招聘欺诈检测。部分3介绍了具有代表性的方法。部分4介绍了设置的实验和实验结果的分析。部分5是本文的工作的总结和未来的前景。

本节回顾了相关工作(即从三个类别。,the traditional learning-based detection methods, the traditional learning + feature extraction-based detection methods, and the deep learning-based detection methods) that we classify in Section1在细节。

2.1。上优于传统检测方法

一些研究人员使用基于传统的学习方法来学习一些规则。例如,Vidros et al。6首次分析了就业欺诈。他们解释了工作过程的在线招聘和申请人跟踪系统在这个过程中所扮演的角色。一组规则的经验总结了从分析可行的现实世界中的数据。与此同时,垃圾邮件(7)、保险欺诈和网络钓鱼非常类似于招聘欺诈,他们也详细讨论这些领域。

此外,一个更全面的和广泛的研究8)是基于以前的工作(6]。他们的贡献和评估一个真实的数据集17880年招聘advertisements-Employment骗局爱琴海数据集(EMSCAD) (https://www.kaggle.com/datasets/shivamb/real-or-fake-fake-jobposting-prediction)。基于这个数据集的一个子集,他们词袋进行建模和训练六个WEKA (http://www.cs.waikato.ac.nz/ml/weka)分类器(逻辑回归、J48决策树、朴素贝叶斯随机森林,等等)。因此,实证规则集是派生的延伸。

基于监督学习方法,杜塔和Bandyopadhyay [9)提出了一个自动分类工具。他们使用单一和系综分类器来检测欺诈招聘广告,分别。单一应用朴素贝叶斯分类器,多层感知器(MLP), - - - - - -最近邻(资讯),决策树。系综分类器,随机森林,和演算法被应用。此外,他们这些分类器的性能相比原高度不平衡的数据集。

招聘广告应该从各种来源收集数据全面。为了解决这个问题,Nindyati和Nugraha10印尼就业骗局中提取数据集(IESD)从印尼招聘数据和手动标记它基于实证分析和公共就业报告欺诈投诉。他们认为虚假的招聘广告发布的平台。此外,他们行为特征添加到先前的研究[8)和行为活动上下文特征用于欺诈检测。朴素贝叶斯、逻辑回归、资讯、决策树和支持向量机作为分类器。结果表明,添加行为特征可以提高检测效果的假招聘广告。

2.2。传统学习+特性采用检测方法

根据提出的分类方法Vidros et al。8),功能被分成三个类别在特征提取阶段,即。基于语言上下文,和基于元数据的功能3]。他们选择J48、逻辑回归和随机森林方法三基线。然后,他们投票相结合技术,包括平均投票,多数投票,投票和最大,这三个基线时构造检测模型。此外,他们的性能评估模型在不平衡数据集,使实验更全面。

缺乏足够的背景信息在招聘网站上使检测欺诈招聘广告更具挑战性。为了解决这个问题,Mahbub和Pardede11)关注小说功能空间设计,进一步提取招聘公司的信息。他们不仅手动提取的上下文特征,认为文本和结构特点还上下文特征。实验结果在朴素贝叶斯J48, JRip分类建议添加上下文特性提高了检测性能,进一步丰富了规则集。

Alghamdi和Alharby12)基于随机森林分类器的整体方法用于检测欺诈招聘广告。SVM算法提取的主要功能,包括公司简介,公司标志,需要经验。此外,检测性能得到了改进基于可靠的模型获得的预处理和特征选择阶段。

Mehboob和马利克13)关注的影响力特征EMSCAD检测假招聘广告。他们使用信息增益选择重要的特性。实验结果表明,公司简介,薪资范围,组织类型,需要教育最具影响力。因此,他们认为结合良好的特性和增加价值的特性,以帮助改善模型的性能。此外,他们使用梯度增强技术建立了一个健壮的检测模型。

2.3。基于深度学习方法

骗子可能提前知道规则集,使得检测欺诈招聘广告越来越棘手。金等。14)认为有一个内部欺诈行为之间的相关性,所以他们提出了一个深基于层次聚类的神经网络算法来检测数据中隐含的欺诈。他们把异常特征作为神经网络的初始权重深autoencoder并培训他们。该方法放弃了特征信息,全球和本地数据结构作为切入点,并使用集群和深层神经网络,揭示了内部欺诈行为之间的关系。

2.4。总结

现有的研究做了一个出色的检测欺诈招聘广告。然而,使用规则集来检测假招聘广告已经可怜的扩张和挑战申请新的数据集。与此同时,现有的研究使用不同的检测方法,不同的评估指标,不同的数据集。他们缺乏比较分析,使检测的假招聘广告缺乏系统的研究。

为了解决这个问题,本文选择四个传统算法,随机森林、逻辑回归、支持向量机、和朴素贝叶斯常用在上面的文献和被证明是好繁杂的各种数据评价指标。此外,三个受欢迎的深度学习算法,包括格勒乌,Bi-LSTM, TextCNN,采用检测假招聘广告,都在NLP领域表现良好。袋子的机器学习方法,单词(弓)算法和术语Frequency-Inverse文档频率(TF-IDF)算法(15)采用实现特征提取。同时,在深入学习方法,我们也尝试使用pretraining模型,包括词向量(Word2Vec) [16)和全球向量(手套)17]字嵌入。此外,我们使用相同的评价指标和数据集进行系统和全面的比较实验。

3所示。检测方法比较和分析虚假招聘广告

因为本文旨在比较和分析检测方法用于现有的实验工作,本节将分析中采用的四种典型的传统学习方法经常招聘广告检测文献[3,8- - - - - -10,12,13)和三个目前流行的深度学习方法。详细,四个传统的学习方法包括随机森林、逻辑回归、支持向量机和朴素贝叶斯。三个深度学习方法包括格勒乌,Bi-LSTM, TextCNN。

3.1。随机森林方法

作为古典乐团学习方法,首次提出了随机森林Breiman (18),结合装袋合奏学习理论(19与随机子空间法[]20.]。随机森林是一个基于决策树分类器,它可以解决性能瓶颈的决策树的输出通过投票的结果。此外,噪声和离群值随机森林具有更好的耐受性,对高维数据的分类具有较强的可扩展性,具有更强的模型的泛化能力。此外,随机森林是一个数据驱动的非参数分类方法,只需要学习分类规则从给定样本没有先验知识。

3.2。支持向量机方法

基于统计学习理论(21),支持向量机是一种数据挖掘方法,可以成功地处理回归和模式识别问题。支持向量机的目标是寻找最优超平面空间满足分类要求。支持向量机是一种最常用、最有效的分类器,它具有良好的泛化性能基于结构风险最小化的原则。此外,支持向量机有一个坚实的理论基础和具体的数学模型和被研究者广泛关注,因为它提出了。

3.3。朴素贝叶斯方法

基于概率模型,提出了朴素贝叶斯的马龙和库恩(22]。朴素贝叶斯的“幼稚”指的是两个主要假说:有条件的独立和位置独立。详细条件独立性假设假设属性值是相互独立的,也就是说,之间没有依赖关系。位置独立性假设意味着文档中的词的位置不影响的概率计算。

3.4。逻辑回归方法

逻辑回归的机制(23]使用一组数据适合一种逻辑回归模型和多元回归预测事件的发生概率的关系在任何区域。逻辑回归的优点在于统计分析的自变量可以是连续的或离散的,不需要满足正态分布。

逻辑回归善于解决二元分类问题,并检测欺诈招聘广告是一种常见的文本的二元分类问题。逻辑回归分类器是简单和容易理解,和模型是高度可判断的。它不需要事先假定数据分布和直接模式分类的可能性,避免不准确的问题假设分布。此外,只有存储每个维度的特征值,和内存资源消耗小。

3.5。TextCNN方法

卷积神经网络(CNN) (24)是一种前馈神经网络识别二维图像放大,收缩和位移不变性。近年来,CNN已经主要用于图像处理或分类识别。金(25)首次采用CNN文本分类并提出了TextCNN模型。图2是TextCNN的结构。TextCNN和CNN的设计非常相似。所不同的是,CNN使用相同的卷积核宽度和高度在处理图像。不过,TextCNN的卷积核宽度符合这个词向量维度。CNN过程图像时,进行二维卷积运算在卷积层,而TextCNN进行一维卷积操作过程的文本。

3.6。LSTM方法

Long-short-term内存(LSTM) (26)是一种特殊的递归神经网络(RNN) [27]。其一般RNN网络结构是一样的。所不同的是,内存模块取代了求和单元在隐藏层。图3是LSTM的结构模型。细胞状态的信息可以增强或削弱了LSTM的“门”的设计,因此,长期依赖信息可以学习,有效地克服传统RNN的缺陷。

格勒乌(28]和Bi-LSTM [29日LSTM)是最经典的两个变体。格勒乌提出了解决长期记忆问题和梯度反向传播。和Bi-LSTM克服了缺点LSTM模式由前往后只能单向信息但不能从后往前。向前和向后LSTM网络获取上下文信息,并改进模型的性能是有效的。

4所示。实验和结果

在本文中,我们设计了两组实验。第一组实验是验证平衡数据集上的每个算法的性能。第二组实验进行验证数据集不平衡率的影响的实验性能。以下部分说明了数据和实验设置的细节,评价指标和实验结果。

4.1。数据和实验设置

在实验数据部分,使用EMSCAD。数据集包含17880个真实的招聘广告从2012年到2014年,17014年列为合法和欺诈,合法和866欺诈。数据集描述如表所示1。我们构建五个数据集的基于原始数据集使用将采样的方法,其中包括平衡数据集和四个不平衡的数据集。表2详细信息数据集,最后一列是每组实验中我们使用的数据集。作为很多价值观都错过了,我们选择公司概况,描述,要求,和福利,主要选择在现有文献作为文本特征。在开始实验之前,我们“干净”的实验数据,包括删除标点符号,停止的话,和处理缺失值。

在实验中,七个算法进行比较选择,也就是说,随机森林方法(缩写RF)、逻辑回归方法(缩写LR),支持向量机方法,和朴素贝叶斯方法(缩写NB),这是招聘广告中采用的四种典型的传统学习算法检测文献[3,8- - - - - -12相关工作部分中描述的)。TextCNN方法,格勒乌法,Bi-LSTM方法三个有前途的深刻的学习算法。对于特征提取,弓算法在传统的学习方法,和古典TF-IDF算法采用传统学习+特征提取方法。此外,深度学习方法使用嵌入Word2Vec和手套的词。所有的实验都验证了5倍交叉验证。

4.2。评价指标

准确度、精密度、召回和 - - - - - -分数作为评价指标。混淆矩阵介绍首先介绍以上四个评价指标。表3是一个二进制混合矩阵。在这个表中,TP代表真正的阳性样本的数量,分为积极、FP代表的数量实际上负样本但分为积极、FN代表的数量实际上正样本但归类为负,和TN代表实际上负样本的数量和分类为负。

准确的细节,精确,回忆, - - - - - -分数如下所示。(1)精度正确的数量的比例分类样本总样品吗 (2)精度是真正的比例正样本的预测积极的样品吗 (3)回忆所有真正积极的样本的比例是成功地预测了吗 (4) 分数指的是加权求和平均精度和召回

4.3。实验结果和分析
4.3.1。第一组实验的结果和分析

4列出了平衡数据集上的实验结果。表4显示所有的传统学习方法实现好的结果( , , , 都是大于0.88),随机森林上执行最佳平衡的数据集。在使用TF-IDF特征提取的算法,结果所有的传统学习+改进特征提取方法( , , , 都大于0.9),除了朴素贝叶斯。特别是,支持向量机+ TF-IDF方法实现最佳的性能。TF-IDF算法措施的重要性,一个词的频率。这些结果表明,使用TF-IDF特征提取中扮演着重要部分的增强方法的有效性。深度学习的方法,TextCNN执行最好的( , , , 都大于0.93)。原因是TextCNN使用三种不同大小的卷积核进行嵌入。与随机森林和SVM + TF-IDF相比,TextCNN改善的性能( :3.1%, :3.2%, :3%, :3%)和( :0.2%, :0.1%, :0.3%, :0.2%),分别为。使用嵌入Word2Vec和手套词后,格勒乌的性能,Bi-LSTM, TextCNN比以前更糟。在我看来,这两个pretraining模型训练在一个特定的数据集,这是不同的写作风格EMSCAD数据集,所以实验结果并不理想。

4.3.2。第二组实验结果和分析

5列出了四个不平衡数据集上的实验结果。从表5略不平衡数据集时,例如,在dataset-2 dataset-1不平衡和不平衡的情况下,结果是大致平衡的数据集上的相同。在细节,dataset-2 dataset-1不平衡和不平衡的情况下,我们可以看到,随机森林执行最好的传统的学习方法,而支持向量机+ TF-IDF执行最好的传统学习+特征提取方法。同样,TextCNN深度学习类别执行最好的相比,上面的方法。dataset-1不平衡,相比之下,随机森林和SVM + TF-IDF TextCNN改善的性能( :3.1%, :2.3%, :3.8%, :3.3%)和( :3%, :2.7%, :3.3%, :3.2%),分别为。dataset-2不平衡,相比之下,随机森林和SVM + TF-IDF TextCNN改善的性能( :3.2%, :1.2%, :6.8%, :4.8%)和( :2.4%, :0.8%, :5%, :3.5%),分别为。后的深度学习+ pretraining方法,使用pretraining模型Word2Vec字嵌入和手套,格勒乌和Bi-LSTM的性能显著下降。和TextCNN方法的结果略有减少。我们也想这些结果可能导致的这两个pretraining模型训练在一个特定的数据集,这是不同于EMSCAD数据集的写作风格。

dataset-4 dataset-3不平衡和不平衡的情况下,虽然这两个数据集的不平衡比率增加,TextCNN方法保持其优势。不过,与其他方法相比,最佳的检测效果。特别是,dataset-3不平衡和不平衡的dataset-4, TextCNN执行最好的相比其他方法。随着数据集变得更加不平衡,TF-IDF对精度的影响,精确,回忆, - - - - - -分数逐渐降低,和回忆 - - - - - -分数的传统学习方法和传统学习+特征提取方法显著降低,这表明TextCNN方法具有良好的鲁棒性,即使数据集是非常不平衡的。我们认为TextCNN方法使用多个不同大小的卷积核嵌入文档丰富的语义表示。总之,TextCNN优势在处理平衡和不平衡的数据集;因此,它更适合处理现实生活中的数据。

4.4。分析能源消耗

因为绿色物联网的目的是实现更好的结果在一个环保的方式(即。少计算消费),计算消耗,应该考虑两个方面,即。、培训时间和测试时间。测试时间是更重要的比得到良好的培训时间为物联网设备模型。这是由于物联网设备减少测试时间更敏感,有助于更好的人机交互。因此,进一步比较性能的方法相比,本节实验结果从培训的角度分析时间和测试时间和测试时间作为首要考虑的问题。数据45的结果在平衡数据集训练时间和测试时间。两个人物所吸引,因为传统的训练时间和深度的学习方法是不同的数量级。

从图可以看出4(一),在四个传统学习方法(见图左柱状丛4(一)),朴素贝叶斯训练时间最短,SVM有最长的一个。特征提取后(见图右柱状丛4(一)),期待逻辑回归,所有其他方法的训练时间,如射频、SVM, NB,增加。与传统的学习方法相比,基于深度学习检测方法的训练时间显著增加更大的数量级,如图5(一个)。这是因为深度学习的方法需要更多的时间来训练神经网络。除了格勒乌法,Bi-LSTM的训练时间和增加TextCNN后使用嵌入pretraining模型词(见图右柱状丛5(一个)),TextCNN方法训练时间的增加最明显。

测试时间,根据图4 (b),我们可以看到,几乎所有的方法都需要小于0.05年代针对每个测试除了支持向量机和支持向量机+ TF-IDF方法。我认为支持向量机和支持向量机+ TF-IDF花更多的时间寻找最优超平面。特别是,逻辑回归方法最短的测试时间,这意味着它为物联网设备是最敏感的方法。在使用TF-IDF特征提取(见图右柱状丛4 (b)),其他两种方法的测试时间,如NB和LR,却降低了除了RF和支持向量机方法。从图5 (b),我们可以看到,在深学习方法,比格勒乌TextCNN的测试时间短和Bi-LSTM。采用Word2Vec和手套,格勒乌的测试时间,Bi-LSTM, TextCNN都增加了。值得注意的是,TextCNN响应时间约为0.6秒/测试,这是略高于传统的学习方法。与结果相比,我们得到了通过使用传统的学习方法和传统的学习+特征提取方法在表4和表5,我们可以看到TextCNN精度达到最佳的检测性能,精度,回忆,和 - - - - - -得分。此外,比较的结果数据45,我们可以看到TextCNN达到可接受的在测试过程中能源消耗时间。因此,TextCNN是一种有价值的方法检测欺诈招聘广告在物联网环境中。

5。结论

分析和比较17方法,四个传统的学习方法(即。,随机森林(RF)、支持向量机回归(LR)和朴素贝叶斯(NB))。这四种传统的学习方法结合(即特征提取方法。,RF+TF-IDF, SVM+ TF-IDF, LR+TF-IDF, and NB+ TF-IDF) and three deep learning methods (i.e., GRU, Bi-LSTM, and TextCNN); these three deep learning methods combined with pretraining model for word embedding (i.e., GRU+Word2Vec, GRU+GloVe, Bi-LSTM+Word2Vec, Bi-LSTM+GloVe, TextCNN+Word2Vec, and TextCNN+GloVe). To further analyze the performance of each method, comprehensive experiments are carried out based on the EMSCAD dataset.

实验结果表明,深层学习方法通常比传统的学习方法,学习+传统的特征提取方法,甚至是深度学习+ pretraining-based方法,无论平衡或不平衡的数据集。特别是,TextCNN优于其他深度学习的方法。在时间性能方面,尽管TextCNN需要很长时间离线训练的时间,测试时间(即。响应时间)略高于基于传统的学习方法。这些结果表明,TextCNN方法可以检测真实虚假招聘广告在物联网环境中。

总之,使用统一的评价指标和数据集和考虑不平衡率的影响使虚假招聘广告的比较和分析检测方法更加系统和全面。因此,本文可以帮助研究人员系统地了解虚假招聘广告的检测方法,为选择提供方向和探索合适的方法。实验结果有一个特定的参考价值更高的性能的进一步研究招聘广告检测方法。

根据本文,在未来,我们的目标是收集我们的就业欺诈检测数据集,我们将研究一个更高的性能和更低的能源消费欺诈招聘广告检测方法来帮助实现绿色物联网的目标。这是一个激动人心的方向如TextCNN合奏高性能方法,LSTM或其他受欢迎的深度学习方法和技术(如注意力机制、面具机制)。此外,深入pretraining字嵌入模型也一个有趣的方向。

数据可用性

我们使用的数据是可用的,并且可以从作者((电子邮件保护))。

的利益冲突

作者宣称没有利益冲突。

确认

本文由中国自然科学基金(71772107),中国的山东省自然科学基金(ZR2020MF044 ZR202102230289, ZR2019MF003),山东省研究生教育质量改进计划(2021),和安徽工程实验室的开放研究基金大数据分析和煤矿安全预警技术(没有。CSBD2022-ZD01)。