文摘
众包是集体智慧的完美展示,完成完美的众包的关键任务是将合适的任务分配给合适的工人。现在的众包平台选择任务通过任务搜索,但它缺乏个人推荐的任务。Tag-semantic任务推荐模型提出了基于深度学习。摘要词向量的相似度计算,和语义标记相似矩阵数据库建立基于Word2vec深度学习。任务推荐模型建立了基于语义标签实现众包任务的个人建议。通过计算标签的相似性,得到了任务和工人之间的相关性,提高了鲁棒性任务的建议。通过天蓬网络数据集进行对比实验,验证该模型的有效性和适用性。
1。介绍
深度学习提出了杰弗里•辛顿等人在2006年。这种方法模拟人类大脑神经网络模型,实现多个抽象级别(1,2]。2006年,美国《连线》杂志记者提出的杰夫•豪众包概念(3]。作为一种新的商业模式,众包已经在各领域的普遍关注,成为计算机研究领域的新热点。任务请求者,众包平台,和工人组成众包系统[4]。众包的过程包括设计任务,发布任务,选择任务,传感任务,提交解决方案,和集成解决方案。其中,任务的选择是关键阶段在众包的过程中。这是完整的众包的关键任务,适当的工人选择适当的任务在适当的时间(5]。
流行的众包平台使用任务搜索得到最喜欢的任务通过关键字搜索(6]。然而,随着众包的快速发展,信息过载的问题越来越严重。此外,越来越多的很难得到工人的最喜欢的众包任务。推荐系统是一种有效的媒介为了解决这个问题,这是使用在许多电子商务平台,如阿里巴巴、亚马逊和Netflix (7]。但是有很多问题不解决在推荐系统中,如相似性计算,推荐精度越低,稀疏性、冷启动。总之,提高推荐系统的准确性和可靠性已被学者更加关注。
然而,个人推荐研究的任务是小众包,和任务选择是依赖于爱好和专长。一些众包平台可以积极推荐任务。本文研究基于Word2vec众包任务推荐模型的语义标记为了达到个人推荐的众包任务(8]。
本文的主要贡献包括以下三个内容:(1)计算词向量的相似性,建立语义标签相似矩阵数据库基于Word2vec深度学习。(2)研究基于语义标记任务推荐模型实现众包任务的个人建议。本文计算相似的任务和工人基于语义标签相似矩阵。(3)利用天蓬网络数据集进行实验。实验结果表明,该模型是可行和有效的。该模型可以用于其他领域,根据不同的语义数据库。
本文组织如下。部分2评审相关工作。讨论了Work2vec部分3。此外,推荐的任务模型和基于语义标记的实现方法进行了研究4。比较实验,以及实验结果的分析,介绍了部分5。结论提出了部分6。
2。相关的工作
为了讨论众包的相关工作建议,我们分别介绍众包的相关工作和建议。
2.1。众包
2006年,杰夫豪提出的众包的概念首先[3]:一个公司或一个机构外包任务由一个员工在过去的一个未指明的公共网络自由和自愿的方式。众包技术的发展,不同的众包的概念出现了。陈等人。9)总结了40个不同的众包定义。冯et al。10)给众包的定义根据众包的基本特征。根据定义,众包是一个分布式开放互联网公共问题解决机制,和完成任务很难完成一台计算机通过整合计算机和未知的公众在互联网上(11]。
众包应用于语言翻译成功,图像识别,智能交通,软件开发,条目解释,旅游摄影,和其他领域,已成为群体智慧的完美体现12,13]。众包的任务请求者,众包平台,和工人。众包的工作流包括设计任务的任务请求者,发布任务,选择任务,工人,解决任务,提交答案,和安排的答案。众包的工作流图所示1。公众参与是众包的基础。和高质量的完成众包任务的关键是推荐适当的任务在合适的时间合适的工人(14]。
2.2。推荐系统
大数据时代的到来,信息过载的问题越来越严重,找到有用的和最好的信息越来越困难。推荐系统是一种有效的媒介来解决上面的问题(15]。然而,也有一些固有的缺陷在推荐系统中,如低精度、数据稀疏、冷启动,集中系统的缺陷,相似度计算,容易被攻击。此外,许多推荐系统应用于业务系统,其目的是为了卖出更多的产品和寻求最大的好处,而不是向用户推荐最好的商品。总之,推荐系统的可信度和准确性需要改进,引起了学者们的注意。杨et al。16)提出了一个推荐系统基于转移学习。陈等人。17提出了一个基于上下文绑定的推荐系统。唐et al。18]研究了推荐系统基于交叉知识。刘(19和周et al。20.]研究社会推荐的推荐系统。结合马尔可夫和社会属性的用户,王et al。21)提出了一个概率为用户推荐模型推荐项目。
众包的任务建议主要从众包平台的角度。基于任务模型,发现众包平台推荐相关任务根据工人的偏好5]。主要的众包平台基本上采用的任务搜索和很少采用的方法推荐(22]。一些任务的推荐方法是基于传统的推荐方法的研究,包括基于内容的推荐、协同过滤,混合推荐算法。Ambati et al。23]提出的使用任务和工人的历史信息的建议。袁et al。24)提出了一个worker-task推荐模型通过结合员工的历史信息和浏览历史。邓et al。25]研究时空任务的任务选择最大化的问题。
3所示。Word2vec
2003年,Bengio et al。26)提出了神经网络语言Model-NNLM基于3个层次。NNLM用于计算的概率 的下一个单词语境,词向量是副产品在训练。Word2vec基于深度学习是一种工具来计算词向量的相似度由谷歌公司在2013年提出27]。它转换成词向量和计算根据词向量之间的余弦相似性。在使用该工具时,分割后的文本输入,和output-word向量可以用来做很多自然语言处理(NLP)相关工作,如聚类、寻找同义词,词性分析。
Word2vec使用词向量表示模式基于分布式表示。辛顿在1986年提出的分布式表示是(28]。它的基本思想是映射到每个单词 - - - - - -维度真实向量通过训练(是一个hyperparameter模型)和判断它们之间的语义相似度根据单词之间的距离(如余弦相似性、欧氏距离)。它使用一个三层神经网络,输入layer-hidden layer-output层。其核心技术是使用霍夫曼编码根据词频,使激活内容基本一致的词频相似单词隐藏层。这个词的频率越高,越少的数量他们激活隐藏层,这有效地减少了计算复杂度。
与潜在的语义Index-LSI和潜在狄利克雷Allocation-LDA相比,Word2vec使用语境和语义信息更丰富。有两种培训model-CBOW(连续Bag-of-Words)和Skip-gram Word2vec,由图所示2。两个模型都包括输入层、投影层和输出层。CBOW模型预测当前单词根据上下文,和Skip-gram模型预测上下文,根据当前的单词。
(一)CBOW模型
(b) Skip-gram模型
本文的目标优化函数CBOW表示 在哪里这个词意味着向量霍夫曼树的根节点,代表单词的上下文 ,的集合外围的话说,表示路径的节点数量 ,和 代表单词的霍夫曼编码 ; 对应的向量nonleaf节点的路径 。因此,逻辑回归概率 那通过一个节点霍夫曼树中所示(2)。相应的参数所示(3)。 为了清楚地代表逻辑回归概率的意义 ,我们结合(2)和(3)获得的价值 ,所示的 为避免的价值太小,对数似然函数是用来表示目标函数;因此,(1可以转换成) 通过结合(4)和(5),目标函数表明 因此,(6)是CBOW本文的目标函数。Word2vec使用随机梯度上升CBOW优化目标函数的方法。
4所示。推荐的任务模型和基于语义标记的实现方法
4.1。基本模型框架和数学计算模型
结果和讨论可能单独提出,或在一个部分相结合,可以被分成部分。
该模型的核心是标签相似矩阵的研究。模型使用标签相似矩阵来计算工人的相似性和任务,产生worker-tag相似矩阵,实现任务推荐或工人的建议。在模型中,标签相似矩阵是通过Word2vec计算。Worker-tag矩阵是根据职工的历史工作信息,登记信息,等等。和task-tag矩阵是根据任务描述、任务分类等。
定义标签相似矩阵 , , 是一个对称矩阵,即 , 代表了标签的相似性和标签 , ,和它的值是通过使用Word2vec工具来计算。定义worker-tag矩阵 , ,,其中, 。
我们定义task-tag矩阵 , ,,其中, 。
因此,worker-task相似矩阵获得的是(7),是worker-tag矩阵,标签相似矩阵,意味着task-tag转置矩阵。通过(7),员工之间的关系和任务可以获得。
4.2。基本流程
过程的主要步骤提出建议的模型如下所示:(1)根据Word2vec计算词向量;(2)计算词向量的相似度;(3)生成标签相似矩阵;(4)获得worker-tag矩阵和task-tag矩阵;(5)计算worker-task相似矩阵;(6)标准化和规范化;(7)任务和工人的建议。标签相似矩阵生成使用Word2vec工具。Worker-task相似性计算使用数学方法在前一节中介绍。部分主要介绍标准化和规范化的方法。
标准化的方法:规范定义的向量 显示如下: 。
为了使归一化单位正常,之间的映射和建立,这样吗规范的1,证据显示如下: 的价值表明 为了得到数据的标准化和通用性,标准化数据的是标准化的,所以数据下降区间 ,(所表现出的转换公式10),意味着最低 ,和是最大的 。
5。实验和仿真
在本节中,我们进行比较实验模拟数据集和真实数据集,分别。真正的数据集是来自天蓬web站点的数据集。
在实验中,text8语料训练集,和实验环境是英特尔酷睿(TM) i5 - 337 u @1.8GHz双核CPU,和8 gb内存。
5.1。模拟数据集上的实验
在这组对比实验中,训练参数如表所示1。
此外,培训后的标签相似矩阵如表所示2。矩阵的元素显示标签之间的相似之处。
在这组实验中,有100个工人,50个任务,2000标记实验。worker-tag矩阵是随机生成的,如表所示3。表中的元素3代表工人和标签之间的相似之处。task-tag矩阵如表所示4。表中的元素4表明任务和标签之间的相似之处。计算worker-task矩阵后,标准化和规范化的worker-task矩阵如表所示5。表中的元素5意味着工人和任务之间的相似之处。
回忆、精度和F-measure是常用的评价指标29日]。三个评价指标的计算方法(所示11),(12)和(13)。根据(11),(12)和(13),可以看出F-measure指数是综合衡量指数通过考虑召回和精度。 阈值是0.55,0.6和0.65,分别和召回,精密,F-measure 50个任务。比较实验结果在回忆、精度和F-measure索引显示数据3,4,5,分别。在这些实验中,横坐标表示Task-tag矩阵T,纵坐标召回率,精确率,分别和F-measure率。从实验结果可以看出阈值= 0.6全面更好的性能比其他两个阈值。
此外,我们比较该方法与任务的方法研究。实验结果显示在图6,横坐标表示Task-tag矩阵T和坐标意味着工人的数量。本文中使用的方法比任务中使用的方法的研究,证明了本文方法的有效性。此外,潜在的工人可以通过降低阈值,可用于分析潜在用户。
5.2。天蓬上的实验数据集
收集的数据收集从天蓬网站形成一个语料库进行训练,和标签相似矩阵得到如表所示6。
我们选择510名工人和371任务从天蓬数据集作为实验对象。利用数据集,我们进行的对比实验来验证该模型的有效性。在对比实验中,0.6作为阈值,随机选择20个任务推荐对象。实验结果与二进制映射匹配和贪婪算法的召回率、准确率、f值衡量指标。
根据召回衡量指数,比较实验结果显示在图7。坐标表示Task-tag矩阵T,坐标给出了召回率。从实验结果可以看出,提出的建议模型具有最好的性能通过与贪心算法相比在召回率和两偶图匹配。此外,提出的建议模型具有更好的稳定性和T的变化。
图8显示实验结果精确率。同样,坐标表示Task-tag矩阵T,纵坐标表示精确率。在实验结果,提出推荐的精度平均比其他两种算法。从图7可以看出,提出的建议具有最好的性能通过与贪婪算法和精确率两偶图匹配。
根据实验结果F-measure图所示9,我们也可以看到提出的建议对F-measure最佳的性能。此外,F-measure指数是综合衡量指数通过考虑召回和精度。因此,我们可以推断该推荐具有最佳的性能通过与贪心算法相比,两偶图匹配算法。
通过比较表明,提出的方法比二进制地图匹配方法,贪婪算法召回,F-measure指数明显,精度高和低,因为使任务能够完成的任务,建议尽可能多的工人,包括工人的潜力,所以推荐的准确性指数可以放低要求。可以看出,本文提出的方法具有较高的现实意义和应用价值。
6。结论
众包是群体智慧的完美展示。它被应用在许多领域作为一种新的商业模式。近年来,它已成为新的热点研究计算机科学。众包的成功关键是推荐任务适当的工人。提出了基于标签的推荐方法相似矩阵。方法使用Word2vec技术生成标签相似矩阵,然后计算相似性的工作和任务。根据对比实验,证明该方法是有效的和可行的。建议方法可以扩展到其他领域的不同的全集。
因为众包的成功关键是参与的工人,它已成为一个热点话题在众包的研究中,如声誉机制、进化的偏好,和隐私保护的工人。这将是未来研究的重点,提高推荐系统的准确性通过结合推荐系统与声誉,进化和历史信息的偏好。
数据可用性
(天蓬)数据集用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由中国国家自然科学基金支持下拨款61472095号,61502410号,61572418号,2017号中国博士后科学基金会资助下m622691,美国国家科学基金会(NSF)资助下,1704287,1252292号和1741277号,四川省自然科学基金批准号2018 hh0075之下。