文摘
基于监督学习推荐模型,与高质量的基础设施足够的训练样本,已经广泛应用于许多领域。在大数据时代,数据量的爆炸性增长,训练样本应该贴上及时、准确,保证优秀的建议基于监督学习模型的性能。机注释不能完成任务的标签与高质量的训练样本,因为有限的机器智能。尽管专家注释可以实现高精度,它需要很长一段时间,以及更多的资源。作为人类智力参与机器计算的新方法,众包注释弥补短缺的机器注释和专家注释。因此,在本文中,我们利用众包注释标签训练样本。首先,一个合适的众包机制设计为训练样本标签创建众包基于注释的任务,然后两个entropy-based(即地面实况推理算法。、边境和门)提出了实现质量改进的噪音标签提供的人群。此外,下行和随机顺序礼仪众包也探索了基于注释的任务。实验结果表明,众包注释显著提高机器性能的注释。在地面实况推理算法,边境和门提高基线的性能; meanwhile, HILED performs better than HILI.
1。介绍
tRecommendation系统已经越来越引起关注,因为他们可以显著缓解信息过载的问题,帮助人们在互联网上找到感兴趣的项目或日常生活中做出更好的决策。在推荐模型,基于监督学习的已经广泛应用于许多领域,比如云/边缘计算(1),复杂系统(2,3),服务质量(QoS)预测(4,5]。毫无疑问,高质量保证的足够的训练样本推荐基于监督学习推荐系统的性能。因此,有必要研究如何及时、准确地在大数据的时代标签足够的训练样本数据量的爆炸性增长。虽然机器注释标签足够的训练样本及时,他们不满足高质量的要求,因为有限的机器智能。所以,很自然想到利用人类的智慧。
事实上,专家注释(即。,hiring domain experts to label training samples) can achieve a high accuracy. However, it requires a long time as well as more resources. Research studies [6,7]表明,众包带来了机器学习(及其相关研究领域)的好机会,因为众包可以很容易地通过公共或个人平台访问人群(8,9),如MTurk [10],有效地处理智能和电脑硬盘任务通过使用成千上万的工人在一个相对较低的价格。因此,作为人类智力参与机器计算的新方法,弥补了众包注释注释和专家注释短缺的机器。众包注释有五个步骤:(a)请求者选择一个公共或个人的众包平台和设计众包注释的任务,包括定价、时间的限制,并要求响应数量的每个注释的任务。(b)的请求者所选择的众包平台上发布众包注释的任务。(c)人群登录平台(也称为工人)选择适合自己的任务和完成任务(即。提供标签)。注意,请求者不知道任何信息(如专业知识和信誉)的工人完成注释任务在这一步。(d)请求程序下载提供的标签的工人(即工人和一些额外的信息。,接受任务的完成时间和数量)的众包平台。(e)请求者利用现有地面实况推理算法或提出小说(s)来推断真值(s)从所有工人提供的标签。在本文中,我们关注标签训练样本关键词提取利用众包等注释,因为从文本中提取关键词(特别是一个简短的文本)是一个复杂的过程,需要丰富的辅助信息,如背景的实体和事件进行讨论。机注释和专家注释不能有效处理关键词提取等,因为他们的短缺。 For convenience, our entire approach is denoted as Crowdsourced Keyphrase Extraction (CKE) hereafter; meanwhile, a single task of crowdsourcing annotation generated by CKE is named L-HIT.
从训练样本中提取关键词CKE包括标签和排名操作和每个单一L-HIT包含三种任务类型(9,11]:多项选择题,填入到网页的空白,评级。前两个是用于收集适当的关键词为训练样本,最后一个是用于收集的重要性排名分配合适的关键词。这不同于二进制标签和多类标签的大部分任务,通常有一个类型。此外,有三个重要的问题(即。,quality control, cost control, and latency control) which are also required to be balanced in CKE [9]。质量控制重点是标签和高质量的关键词排名,成本控制的目标是减少成本的劳动力和资金,同时保持高质量的地面真理,和延迟控制研究如何减少单个任务的循环(11]。我们利用四种方法来处理在CKE权衡了上述三个问题。
摘要pruning-based技术(9)是第一个采用修剪基于机器算法提供的候选人;与此同时,互补选择添加补充适当的关键词,因为各种原因失去了。pruning-based技术和互补的选项可以有效地降低劳动力成本和时间成本。然后,对于每一个L-HIT时间约束集,由于时间限制可以显著降低单个工人的延迟11]。第三,每个工人被要求选择一个重要性排名为每个关键词标签等自己而不是排序它们。最后,为了克服可能的低质量的一些工人关键词标签和排名等,设计了众包机制允许多个工人(6完成一个L-HIT]。总结了本文的主要贡献如下:(1)合适的众包机制旨在为训练样本标签创建众包基于注解的任务。此外,四种优化方法(即。,a pruning-based technique, a complementary option, time constraint set, and repeated labelling) are used to balance the quality, the cost, and the latency controls in CKE.(2)(即两个entropy-based推理算法。,HILED and HILI) are proposed to infer the ground truth based on labels collected by crowdsourcing annotation. In addition, two different order manners in L-HITs, which are the descending one and random one, are also explored.(3)我们进行多个MTurk实验来验证众包注释的性能改进。实验结果表明,众包注释表现良好。在推理算法,边境和门改善的性能基线。
本文的其余部分组织如下。部分2将介绍CKE的细节,部分3将报告实验结果,相关工作在部分将讨论吗4,然后我们将在部分得出结论5。
2。众包关键词提取等
在本节中,我们将首先介绍一个L-HIT的成分,然后我们将这两个提议推理算法。
2.1。一个L-HIT
我们MTurk进行多个实验,这是一个受欢迎的众包市场支持人类智慧的众包执行任务(点击)12]。以来发布的单个任务的结构我们的实验基本上是继承自一个MTurk支持,我们发布的照片被称为标签(艺人)人类智力任务。单个L-HIT,对应于一个训练样本,由五部分组成:指导、内容、候选人选择,补充候选人,提交。如图1指导的部分(蓝色矩形包围)帮助工人完成当前任务方便和有效。部分的内容(一个黑色矩形包围)显示工人一个训练样本的内容。提交的部分(蓝色椭圆包围)是利用L-HIT提交完成。这三个部分是当前任务的基本元素。
(1)多项选择题。当一个工人阅读训练样本的内容,他/她可以直接选择适当的选项(s)从这部分最后的关键词(s)等。(2)评级。一旦一个选项被选中最后一个短语,工人需要选择一个重要性排名从相应的下拉框。我们的评级两两比较的工作是不同的,在任务(或评级),问工人相互比较选定的项目(9]。它将比较操作转换为一个作业。也就是说,工人不需要考虑其他选择的选项而分配的重要性排名选择一个基于他们的理解当前的训练样本。这种转换可以减少延迟,同时获得有序短语列表。
候选人的选择(一个红色的矩形包围)显示工人的候选人。候选人被机器标注关键词标签。注意,这部分只持有最多15个选项。如果训练样本超过15个关键词标签由机器注释,这部分只显示前15名的最高分数。此外,对于每个候选人,都有一个独立的下拉框(提供重要性排名)。重要性排名表示当前训练样本选择是多么的重要。它随−2 2,2代表最高水平的重要性和−2表示最低的重要性水平。候选人的选择有两个任务类型如下。
一些适当的关键词不得列入候选选项的一部分,因为各种原因,例如,词语出现频率较低或较低分数分配的机器注释。因此,对于每一个L-HIT,候选人补充部分,让工人补充失去的关键词以及相应的重要性排名(包围着一个黄色的矩形)。候选人的补充也有两种任务类型,这是填入到网页的空白(即。,supplementing lost keyphrase(s)) and评级(即。,selecting importance rankings), respectively. Note that supplementing the lost keyphrase(s) is an optional job for workers.
2.2。推理算法
本文推断仍然被视为真理短语列表的过程first-integrating last-grading短语。虽然算法IMLK、IMLK-I IMLK-ED [13]适合推断真理短语列表从多个关键词列表,他们忽视了计算三个短语的固有属性捕获一个主题由训练样本,意义的不确定性,和无用14]。研究[15)表明,计算信息熵(16的短语是一个重要的方法来测量这三个短语的固有属性。因此,我们利用信息熵和相应的方程(15)测量三个短语的固有属性捕获一个主题。用于地面实况推理算法的符号如表所示1。
属性的意义k在T表示k积极的捕捉概率表达的一个主题T。通常情况下,它是衡量的分布k作为一个独立的短语,因为次数越多发生时,更大的主题是由积极的概率k。定义的属性意义如下: 在哪里= 0的情况下k语料库中并不存在。
顾名思义,属性的不确定性k在T表示k的不规则捕获所表达的一个主题T,这通常是由分布的测量Tsub-keyphrase。sub-keyphrase意味着它可以扩展成另一个短语与其他单词。注意,(一个)不同的关键词表达同一点不同的表达深度和(b)不同关键词表达完全不同的点。例如,尽管短语”主题模型“是sub-keyphrase”主题意识传播模型,“他们表达不同的观点。凭直觉,次数越多发生时,主题是由越不稳定k。属性不确定性的定义如下:
属性的无用k在T表示k的负的概率捕获所表达的一个主题T,定义如下:
总之,信息熵k完全可以衡量其三个固有属性使用方程(4)或(5)(当情况发生)。
最后,结合信息熵算法边境和门提出了基于算法IMLK-ED和IMLK-I(所13),分别对应的方程重新计算关键词的成绩修改如下: 在哪里表示的信息熵短语的关键词列表,等表示重要性分数提供了工人,表示工人提供的质量在算法仿真,短语列表表示工人提供的质量关键词列表中该算法等门米表示的总数量短语列表提供了一个工人。
3所示。实验和讨论
在本节中,我们将首先介绍实验有不同的礼仪,下行和随机的,然后我们将讨论影响性能的因素改善众包注释。
3.1。众包试验降序排名
自IMLK、IMLK-I IMLK-ED提出(13)和KeyRank提出(15表现很好,我们使用它们作为基线。KeyRank机器注释方法之一,它的性能评估数据集收集(17]包含2000摘要(1000培训,发展500年,和500年测试)(15]。考虑工人的成本和延迟,我们选择100摘要500测试的数据集收集,KeyRank执行最好的,作为我们的多个众包实验数据。此外,这些100年的黄金标准测试抽象被当作注释标记的专家。正如我们之前说的,每一个抽象的对应于一个L-HIT。也就是说,我们有100对应的艺人。候选选项的一部分在每个L-HIT列表15(或更少)的候选人降序排名。这些候选人关键词标签,KeyRank加权。再一次,为了克服单个工人的短缺,质量为关键词提取等有时是相当低的,我们请求10回应每个L-HIT来自10个不同的工人。也就是说,整个实验1000发表艺人因为每个人发表MTurk上十倍。每个L-HIT成本5美分,整个实验完全支付50美金。 According to feedback from crowdsourcing platform MTurk, more than four out of five workers completed the optional “candidate supplement” tasks. The minimum time that a single crowdsourcing task required is 50 seconds, and the maximum time is 5 minutes. The time required for most of the crowdsourcing tasks was between 90 and 200 seconds.
精度(P),回忆(R),分数是受雇为性能指标。P,R,分数定义如下: 在#正确表示正确的关键词的数量获得众包注释,#标签表示关键词从众包获得注释的数量,和#专家表示关键词的数量获得专家注释。通常,#专家对于大多数抽象从3到5不等,所以#标签的价值在我们的实验中从3到5不等。
经过10响应的每个L-HIT来自10个不同的工人,算法IMLK IMLK-I, IMLK-ED,边境,门是用于推断真理短语列表从这些反应。的推断结果IMLK、IMLK-I IMLK-ED,边境,门与KeyRank的比较P,R,得分。此外,为了评估KeyRank的性能,IMLK, IMLK-I, IMLK-ED,边境,和门很明显,比较是分为三个不同的组,即。第三组,第4组和5。例如,第4组命名为这样是因为#标签的数量是4,当它报告KeyRank之间的比较,IMLK, IMLK-I, IMLK-ED,边境,门的P,R,分别得分。此外,工人之间的关系数据(表示# WorkerNum)和推断的结果也探索,分别进行七组比较。# WorkerNum的值设置为3,4,5,6,7,8,9,分别。因为每个抽象有10个短语列表所提供的10个不同的工人,分别,为了摆脱工人的影响顺序,每个算法在每个抽象的运行在一定十倍# WorkerNum,和相应的数量短语列表是随机选择从其每次10关键词列表等。例如,当# WorkerNum是5,我们随机选择5个关键词列表从10个短语列表等。所有比较KeyRank之间的所有组、IMLK IMLK-I, IMLK-ED,边境,门在图所示2。
(一)
(b)
(c)
从图2,我们注意到IMLK、IMLK-I IMLK-ED显著执行比KeyRank在所有组的P,R,得分。我们也注意到边境和门明显比KeyRank表现更好,IMLK IMLK-I, IMLK-ED所有组的P,R,得分。在边境和门之间,除了在第三组比较,第4组,5、5 # WorkerNum的值时,6、7 (# WorkerNum = 7的情况只发生在第三组)的P,R,分数,边境总是表现比门。此外,我们注意到的增量# WorkerNum, IMLK的性能,IMLK-I, IMLK-ED,门,边境有上升趋势。因此,我们可以得出这样的结论:(1)边境和门执行比IMLK IMLK-I, IMLK-ED;(2)边境执行一个小比门;(3)# WorkerNum影响推断的结果;(4)采用众包注释是一个可行的和有效的方法对训练样本标签。
3.2。众包试验随机排名
对于每个L-HIT发表在众包试验降序排名(CDR)来表示3.115(或更少)候选人列入候选选项的命令根据KeyRank分配他们的分数从高到低。之间是否有相关性的顺序列出候选人和改善性能的礼仪众包注释吗?
为了探索它们之间是否存在这种相关性,我们创建另一个100艺人使用选定的100代表摘要中提到的部分3.1。与此同时,我们还为每个请求10回应L-HIT来自10个不同的工人。对于每个L-HIT, 15(或更少)的一部分中列出候选人是随机选择候选人。本节我们命名实验众包试验随机排名(CRR)表示。做出公正的评价,所有退休研究中心的实验参数遵循CDR。所有KeyRank之间比较,IMLK、边境和门的P,R,分数在图所示3。
(一)
(b)
(c)
从图3,我们可以看到IMLK、边境和门在哭泣总是比KeyRank表现得更好的P,R,得分。这再一次证明,采用众包注释是一个可行的和有效的方法对训练样本标签。然而,我们注意到IMLK的性能,边境,和门CRR比这些算法在CDR,证明订单礼仪上市候选人做影响改善性能的众包注释,降序排列的方式是更有效的比随机。
3.3。讨论
适当的工人数量。CDR或退休研究中心向我们表明,增量的# WorkerNum,众包的改进性能注释有上升趋势。然而,更多的工人并不意味着更多的适用性。一方面,更多的工人可能会导致更多的延迟。例如,工人可能心烦意乱或任务可能无法吸引足够的工人。另一方面,更多的工人意味着更多的货币成本因为众包注释不是免费的。它只是一个便宜的标签及时足够的训练样本的方法。因此,权衡质量、延迟和成本控制需要考虑和平衡。实验结果表明,适当的工人数量从6到8因为众包注释的改善表现在这些阶段是相对稳定的,数量是适当的,以避免延迟和成本高。
降和随机排名礼仪。实验结果表明,降序排名方式执行比随机的。原因可能是工人的耐心有限,因为他们不是训练。通常情况下,工人们只关注前5名(或少5)候选人列入候选选项的一部分。如果他们没有找到任何合适的人(s)从上面几个候选人,他们可能会失去耐心读剩下的,所以他们会选择随机或补充选项(s)的一部分候选人当前L-HIT补充完成。然而,随机选择一个(s)可能不是合适的,补充一个(s)可能会与候选人的候选人中列出的部分重复选择。因此,精确度损失发生。
4所示。相关工作
推荐模型(18)已经广泛应用于许多领域,如复杂系统(19,20.),服务质量(QoS)预测(21,22)、可靠性检测实时系统(23)、社交网络(24- - - - - -26),和其他(27- - - - - -29日]。在现有的推荐模型,基于监督学习的日益关注,因为有效性。然而,众所周知,基于监督学习推荐模型受到训练样本的质量。因此,标签足够的训练样本及时、准确地在大数据时代成为一个重要的基础基于监督学习的建议。因为本文标签训练样本关键词提取利用众包等注释,介绍的相关工作将关键词提取和众包等注释。
最原始的作品标签关键词简单选择单个或连续的高频率,如食肉鹦鹉(14]。然而,这些单个或连续的话语并不总是提供文本讨论的要点。研究[30.]表明,语义关系上下文可以帮助提取高质量的关键词。因此,一些研究采用知识库和本体获取上下文语义关系改善的品质[提取关键词31日]。很明显,这些方法获得的语义关系受到相应的知识库和本体。研究[32,33)利用图论方法标签关键词排名,短语的重要性决定于它的语义相似度。从一个文档,他们只是总关键词对应的语义关系不稳定,不能准确地揭示了关键词之间的“关系”。研究[34,35]应用序列模式挖掘与通配符标签关键词,因为通配符为约束条件的差距提供灵活性捕捉语义关系在上下文。然而,他们中的大多数计算昂贵,因为他们需要多次扫描整个文档。此外,他们要求用户显式地指定适当的差距事先约束,这是耗时和不现实的。根据常识,单词不重复出现在一个有效的短语,KeyRank [15)重复扫描操作转换为计算模型,大大减少了时间消耗。然而,它也是frequency-based算法可能会失去重要的实体与低频率。总之,机器注释标签足够的训练样本及时,他们不满足高质量的要求,因为有限的机器智能。招聘领域专家可以达到较高的精度。然而,它需要很长时间和更高的资源。因此,人们很自然地想到利用众包的注释,这是一个人类智力参与机器计算的新方法以较低的价格,将足够的训练样本及时和准确。
研究[6- - - - - -8)表明,众包带来伟大的机器学习的机会以及其相关的研究领域。众包平台的出现,比如MTurk [10和CrowdFlower合作36),众包就取得了广泛的应用,例如,实体解析[37和情绪分析38]。尽管应用程序的多样性,他们都采用众包注释以低成本收集数据(训练样本的标签)来解决相应的智能问题。此外,许多众包基于注解的系统(框架)提出了解决电脑硬盘和智能任务。利用众包基于注解的方法,CrowdCleaner [39)可以检测和修复错误,通常不能通过传统的数据集成和清洁技术解决。CrowdPlanner [40)推荐的最佳途径的知识经验丰富的司机。AggNet [12)是一种新型的众包基于注解的聚合框架,它要求工人检测到有丝分裂在乳腺癌组织学图像训练后人群与几个例子。
自人群中有些人可能产量相对低质量的答案,甚至噪音,很多研究专注于如何推断出地面真理根据工人提供的标签(9]。郑et al。41]采用domain-sensitive工人模型来准确地推断出地面真理基于两个原则:(1)一个工人提供的一个标签是可信的,如果工人是领域专家在相应的任务;和(2)一个工人是领域专家如果他经常正确完成任务相关的特定领域。郑et al。42)提供一个众包的详细地面实况调查推断注释和17现有方法进行了深入分析。张等人试图利用主动学习和标签噪声校正提高事实推理的质量(43- - - - - -45]。我们的一个初步工程(13]对待标签关键词的地面实况推理小说一个积分和排名的过程,并提出了三个算法IMLK IMLK-I, IMLK-ED。然而,这三种算法忽略三个短语的固有属性捕获文本所表达的一个点,这是有意义的,不确定性和无用。
5。结论
本文着重于标签训练样本关键词提取利用众包等注释。我们设计了新颖的众包机制为训练样本标签创建相应的众包基于注解的任务并提出两种entropy-based推理算法(边境和门)提高标记训练样本的质量。实验结果表明,众包注释可以实现更有效的改善性能比机器注释的方法(即。KeyRank)。此外,我们表明,候选人的排名方式,列在候选选项的一部分,影响众包注释的改进性能,降序排名比随机的方式更有效。在未来,我们将继续关注推理算法,提高标记训练样本的质量。
数据可用性
在这项研究中使用的数据可以通过访问https://github.com/snkim/AutomaticKeyphraseExtraction。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究部分由中国国家重点研发项目(批准号2019 yfb1704101),中国国家自然科学基金(批准号。U1936220和31771679),安徽科学技术基金会主要项目(批准号18030901034和18030901034 e01020006),农业电子商务的重点实验室,农业部中国(批准号。AEC2018003和AEC2018006), 2019年的安徽大学合作创新项目(gxxt - 2019 - 013),和合肥的主要研究项目关键技术(J2018G14)。