CIN
计算智能和神经科学
1687 - 5273
1687 - 5265
Hindawi
10.1155 / 2018/7836969
7836969
研究文章
除了面向强调:调查片段文字突出显示在搜索用户行为的影响
http://orcid.org/0000 - 0001 - 6147 - 550 x
张
回族
Alonso-Betanzos
帕罗
智能技术与系统国家重点实验室
清华信息科学与技术国家实验室
计算机科学与技术
清华大学
北京100084年
中国
tsinghua.edu.cn
2018年
4
12
2018年
2018年
15
05年
2018年
25
09年
2018年
08年
11
2018年
4
12
2018年
2018年
版权©2018张回族。
这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。
搜索用户依赖结果说明包括标题、片段和url来决定他们是否应该阅读并单击一个特定的结果。片段通常作为query-dependent总结相应的着陆页,因此作为搜索交互过程中最重要的因素之一。虽然存在许多努力改善片段生成算法和将更强大的交互功能纳入片段,但很少注意文字突出显示在用户行为的影响。高亮显示查询条件搜索片段一直被视为理所当然的事,是否存在一种更好的方式在片段文字突出显示仍被知晓。在本文中,我们试图找出高亮显示查询项的默认策略是否受雇于大多数商业搜索用户的搜索引擎是最好的。通过精心设计的实验,我们表明,检索效率可以通过不同的term-highlighting策略影响片段内容没有变化。我们也提出一个自动强调学习方法采用CRF嵌入基于词,维基百科和片段内容信息。实验结果表明,该方法可以预测突出显示的术语选择人群工人中等性能。
中国国家自然科学基金
61472206
61073071
1。介绍
对于大多数商业搜索引擎,虽然许多小说形式的搜索结果(例如,垂直
1,
2),卡(
3,
4)、知识图(
5),和直接的答案
6)已纳入结果列表,结果仍在传统形式的主要部分包含标题、片段和url。搜索用户依赖这个标题信息来决定他们是否应该点击的结果,看着陆页的内容。因此,结果说明信息的组织,尤其是代的片段,与用户的搜索交互过程密切相关,在搜索引擎界面研究的一个主要担忧(
7- - - - - -
12]。大多数这些现有的研究探讨合适的演讲风格的片段长度等搜索用户(
7,
13和可读性
8,
14]。他们还试图生成更好的代码片段来改善搜索用户满意度或搜索效率与改善内容摘要(
6)和互动功能(
15]。尽管有少量的作品关注片段突出显示在搜索的影响
16),大多数作品假设查询项突出的自然的方式搜索UI设计。小的工作已经完成调查的最好方式是帮助是否搜索用户定位相关信息以及如何改善搜索结果的这简单而重要的战略报告。
在信息检索研究,文本高亮显示是指改变的外观部分文本以使他们更直观地突出(
17]。在网络搜索场景中,文字突出显示的形式通常是高亮显示查询条件(或其同义词)。这种类型的查询词强调战略是采用片段内容和标题(参见图结果
1一些例子)。根据手动实验结果(
16和眼动跟踪研究
10)、查询词高亮显示可以帮助搜索用户的注意结果最有可能是相关的查询,甚至改变他们的注意力分配一些低层次的结果在搜索页面。
例子从Bing搜索结果有不同的强调条款(a)和谷歌(b)查询“易趣客服电话”。
考虑所花费的努力研究人员产生更好的结果片段,我们仍然知之甚少的影响不同的术语强调策略对用户的搜索行为。搜索结果页(大幅)长期以来从齐次线性列表结果更异构信息单元的组合;而这个词突出策略仍然几乎相同的“十岁起蓝色的链接。“目前,一些搜索引擎试图还强调术语,不是直接从用户查询但高度相关的查询项(如“支持”这个词在图的例子
1 (b))。然而,哪种extraterms除了查询方式应该强调,这种修改突出战略如何改变用户行为仍然被知晓为我们所知。
查询词高亮显示(QTB)战略以来一直采用商业搜索引擎的早期阶段。它假设有许多片段的查询项匹配可能代表更多的有关文件,应该更加关注。的直觉是简单而有效的至少早期搜索用户。然而,搜索任务和网络信息来源进化和与早期不同的网络和网络搜索(
18]。探索性的增加需求(
19),动态(
20.),或多元化
21- - - - - -
23)当前查询搜索任务创建一个大的差距实际内容和用户的信息需求。与此同时,网络的冗余信息来源也引入了搜索结果可能包含许多匹配查询条件但关键信息。从图
1,我们可以看到四个例子为查询结果来自谷歌和必应“易趣客服电话。“更高的结果在这两个数字
1(一)和
1 (b)来自eBay的官方网站,包含有价值的信息关于如何联系客户服务团队,在低层次的结果数据吗
1(一)和
1 (b)来自两个不那么值得信赖的网站声称包含易趣的客户服务信息。谷歌排名的结果甚至声称提供eBay的800免费电话(这是不可能的,因为eBay不提供这样的服务(
http://pages.ebay.com/help/account/contact-customer-support.html))。然而,低层次的结果各有更强调条件比相应的高等(11比1的图
1(一)和图9和3
1 (b))。这意味着用户可能被高亮显示的查询条件和选择的结果,他们不太可能喜欢。
从上面的例子,我们可以看到,突出战略重点查询项(及其同义词)当代搜索环境中可能不那么可靠。因此我们试图调查项突出的影响策略搜索行为,看看我们能找到一种更好的方式来突出方面更有效地帮助用户找到有用的信息。关键研究问题我们想调查在本文中包括以下:(RQ1)片段条款应该强调提高用户的搜索体验?(RQ2)哪一种强调策略应采取:我们应该强调孤立的条款长连续短语或短?(RQ3)我们能自动显示突出方面对于一个给定的搜索引擎根据答案RQ1 RQ2 ?
阐明这些研究问题,首先,我们组织一个众包努力注释术语,帮助用户判断结果的有用性在serp中(部分
3)。通过这种方式,我们想要创造一个理想的每个结果的突出显示的术语列表并使用它作为地面真理在后者的研究。之后,我们执行一系列用户行为研究来比较用户的不同行为信号(包括点击率和眼球运动行为)在不同词高亮设置(部分
4)。特别是,我们检查是否用户的搜索体验从理想的关键词列表中获益。最后,我们尝试提出一个序列标签方法旨在选择方面需要强调的帮助下从维基百科中提取信息,字嵌入和同义词词典(部分
5)。我们也测试了该方法的有效性与实际用户的行为信号(部分
6)。
我们在本文的贡献是三个方面:(1)我们最好的知识,这是第一次尝试调查项突出策略除了查询项的影响用户的搜索交互过程中高亮显示。(2)通过比较用户的点击率和眼球运动行为在不同词高亮显示设置,我们表明,搜索用户受益更多强调的条款被众包工人比简单地匹配查询条件。(3)我们形式化术语强调任务作为监督序列标注问题,采用条件随机场(CRF)方法选择突出显示项基于基于内容和定位功能。
2。相关工作
三行相关的研究工作在本文中,我们描述:(1)片段内容和表现风格的影响在搜索用户行为,(2)片段生成算法和相应的评价方法,和(3)搜索交互过程中突出方面的影响。
约阿希姆等人指出,因为用户已知会偏向点击文档与更高的排名,如果文档有相对较低的排名,文档的片段必须包括引人注目的信息提示点击[
24]。片段有很强的质量影响搜索者的能力来判断文档的相关性。Turpin等人研究了占简易判决阶段如何改变红外系统评价和比较结果(
25]。甚至最相关的文档不太可能点击如果不提供信息的片段或有误导性。
自动摘要生成的大部分工作是关于如何最好地制定和显示一个总结。一些研究人员已经尝试用句子中的模型选择和总结长度(
11,
13,
26]。白等人尝试用不同的句子选择方法,包括给句子中含有更多的重量查询项与文本格式(例如,突出脸部或斜体)
12]。这种方法忽略了句子的上下文信息。同其它和Hristidis提出一个方法来创建一个查询特定片段通过识别最query-relevant片段,然后结合使用文档结构(图
11]。Cutrell和关相比搜索可变长度的总结,发现添加更多信息信息片段显著提高性能的任务但导航任务的性能退化(
26]。
文档的可读性的代码片段是一个重要的指标相关性,这与接收更多点击查询日志中(
25]。几个不同的搜索结果的摘要沿着几个维度,发现文本波浪翻滚和句子截断了负面影响和流派线索(会有积极的影响
27]。Kanungo或者发现一些功能(大部分的大写字母,标点符号,stopwords,每词和大量的字符)有负面影响可读性。此外,研究表明,突出项目会影响代码的可读性(
8]。有鉴于此,查询项突出已成为一个常见的方法在今天的主要的搜索引擎。Kickmeier和艾伯特显示突出的项目有一个清晰的密度对响应时间的影响,回答准确搜索任务(
28]。
人眼很容易接受不同的亮度在文本主体。文字突出显示旨在改变文本的出现为了使他们更直观地突出,或“引人注目的。”片段用颜色突出显示的查询项有助于吸引搜索者的注意,被发现是一个有用的特性信息访问的用户体验(
29日- - - - - -
33]。另一方面,很少告诉我们,很多文字突出显示可以减少视觉识别的能力
27,
34]。片段搜索需要的重要信息清晰,准确,没有外来的或分散杂乱。
大多数片段,事实上,手工精心总结从第三方网站(比如ODP2描述)或从元原始HTML页面的字段。片段的作用有时被称为文档代理打算帮助用户理解的主要对象和测量程度的相关性原始检索文档搜索任务(
22,
35]。强调片段的查询项反映了相应的web页面的最可能相关的查询和展示如何关闭查询项出现在文献[
36]。同时,搜索总结还包含很多nonquery的话,可能也有密切的关系与文档搜索任务的相关性。此外,在某些情况下,总结原位可以为用户提供所需的信息(例如,似是而非的问题)。目前,没有工作考虑查询词的综合作用,nonquery的话,似是而非的问题,强调密度。在本文中,我们研究项突出的影响用户的搜索交互过程中策略的片段。
3所示。数据收集
在本节中,我们描述了数据收集过程在我们的工作中,包括一个众包努力收集强调术语中,三种策略来生成一个oracle关键词列表,如果实验设置收集用户的搜索交互数据以及显式反馈和结果相关性注释。
3.1。众包
研究不同的片断项突出策略的有效性,我们进行一个众包努力收集高亮显示的列表。我们选择24的搜索查询NTCIR亚胺任务(
37),如表所示
1。我们写详细的任务解释24查询来避免歧义,其中有4个导航搜索任务(NA), 16个信息搜索任务()和4事务性搜索任务(TR),其中一些如表所示
2。我们使用了问卷平台(
https://www.wjx.cn/)查询的一致性及其任务描述。
的24个查询NTCIR亚胺的任务。
| 查询 |
| 中国工商银行主页 |
| 崔永元的博客 |
| 住在芒果电视 |
| 汉英在线 |
| 支付宝客服电话 |
| AIIB的创始成员 |
| 如何MI 4 |
| 简单的头发检索方法 |
| 锚的宝藏检查 |
| 新年卡片设计 |
| 丰田锐志 |
| 歌美玲的死亡日期 |
| 肖Muchong主页 |
| 301医院 |
| QQ免费下载 |
| 运单查询 |
| 子——皇冠 |
| 中文大写数字1到10 |
| 江西婺源 |
| 艾滋病的皮肤症状 |
| 类型的高血压 |
| 红酒 |
| 学习高尔夫球 |
| 十二生肖的起源 |
解释一些查询和详细的任务。
| 类 |
查询 |
任务的解释 |
| NA |
中国工商银行主页 |
你有一个普通的中国工商银行的银行卡,开通了网上银行,你想访问主页的工行网上银行的信息 |
|
| TR |
住在芒果电视 |
你是一个忠诚的粉丝芒果电视综艺节目爱好者。今天是你最喜欢的综艺节目。你想看芒果住第一次 |
|
| 在 |
如何MI 4 |
你的三星手机坏了,你想买一款新的智能手机。你想知道如何MI 4的性能 |
对于每个搜索任务,我们解决查询和结果,以确保我们的数据的一致性。搜索结果从Google搜索引擎,只有爬十大有机结果保留。垂直的结果和广告被排除在外,因为他们可能会影响用户参与(
38]。我们删除突出显示的原始片段从最初的片段形式的总结统一字体和颜色,如图
2(一个)。和我们邀请用户强调通过众包平台(
https://www.wjx.cn/),要求他们选择1∼5片段的词或短语(突出显示的单词或短语的用户可能会很长,这可能包括几个方面)需要强调每个片段的结果。强调单词注释的代码片段一个用户图所示
2 (b)。我们总共招募了10搜索用户,需要至少五年的搜索引擎的使用经验。每个用户完成了24注释任务(10结果每个任务)和支付4美元。通过这种方式,我们强调从10个用户为每个特定片段的结果,形成相应的片段的结果突出显示项列表。
例子从谷歌搜索结果与删除高亮显示术语(a)和一个带注释的用户(b)相同的查询和片段。
用户的突出方面反映一个有趣的现象,即用户关心远远超出最初的查询项。例如,用户搜索时强调“艾滋病的早期阶段”“艾滋病皮肤症状”,他们强调“配置”,“价格”,当搜索“丰田锐志。”这样的术语不查询术语但可以提供丰富的语义信息。即时的回答也很有帮助;例如,所有用户在众包过程中强调“2003年10月24日”一词的搜索查询是“歌美玲的死亡日期。“这种现象启发我们制定更合理的强调战略而不是简单的查询项突出显示。我们将更详细的分析部分
4和
5。
3.2。强调战略
研究强调片段在用户行为的影响,我们提出三种不同的强调战略除了原始查询术语强调方法的基础上,强调术语列表通过众包过程:
原来强调策略(S1):这是最初的查询项突出战略通过谷歌和其他商业搜索引擎。这种策略认为查询词是一个相关指标。查询词越多,相关性越高。
减少突出策略(S2):对于每个片段的结果,我们选择强调最长的三个查询词短语。如果存在片段结果少于3突出的话,我们只是让所有突出强调了术语的词汇列表。这个策略,突出显示的平均数量条款片段在很大程度上减少了。这种策略认为,强调词过多会分散用户的注意力。我们需要避免“红色”的广告效果是诱使用户点击。
任务级别强调战略(S3):考虑到我们有10个搜索结果为每一个任务,我们可以合并突出显示的10项列表到任务级别重点项列表。然后我们使用jieba分割工具(
https://github.com/fxsjy/jieba)中的词任务级别的关键词列表分割成短片段条款和条款删除stopwords以及重复片段。我们然后选择片段由至少5突出显示用户和使这些术语中强调任务十个片段的结果。这种策略假设应该突出重要信息相关查询。
Result-level强调策略(S4):对于每个片段的结果,我们选择了强调词(可能包含几个片段计算)由至少4用户从其突出强调了术语列表。我们做这些词高亮显示,通过这种方式,突出显示的百分比方面主要是等于原来的强调战略。这种策略认为重要的信息,应该强调不仅是相关的查询,但搜索结果。
我们建议减少突出战略为了研究强调片段的数量条款,因为原来的强调战略可能强调太多的片段,这可能会让用户产生疑惑。除此之外,我们也提出了任务级别和result-level突出战略为了找出我们是否可以选择一套更合理的突出显示项。
3.3。任务组织
考虑,我们提出三个突出策略(减少突出,任务级别的突出和result-level高亮显示)
3.3除了最初的强调战略通过谷歌,我们招募了36个参与者,将他们分成三组。每组的参与者将完成12个搜索任务设计与原强调战略和12个搜索任务设计一个特定的提议强调战略部分
3.3。我们采取了Graeco-Latin广场设计和随机序列以确保搜索任务不同的强调策略被证明用户提供同样的机会。通过这种方式,我们可以收集6个用户的行为数据为每个任务设计与原强调战略和六个用户的行为数据相同的任务设计提出相应的高亮显示在每个参与者的战略集团。
研究强调片段条款的影响,我们建立一个实验搜索引擎与选定的搜索任务来收集用户行为数据在serp中生成不同的强调策略提出了部分
3.3。有了这个系统,用户的交互行为记录日志而完成搜索任务,包括眼球运动和鼠标点击率的信息。
整个实验过程如图
3。在实验之前,每个参与者应该首先通过一个校准过程眼动跟踪的要求,以确保可靠的眼动信息收集。我们工作的眼动跟踪Tobii X2-30默认参数设置。每个参与者将首先完成两个热身的搜索任务之前实际的任务,以确保他/她熟悉实验过程。在每个搜索任务之前,参与者被要求首先通过搜索查询和相应的任务描述,以避免不必要的歧义。然后,他/她将引导一个预先设计搜索引擎在片段上突出显示不同的强调战略。参与者应该检查我们的系统提供的搜索结果并单击右上角上的一个按钮结束任务,进入下一个搜索任务如果搜索的目标是完成或他/她变得对结果感到失望。在参与者的搜索过程中,他/她的老鼠点击率数据被注入JavaScript在serp中的记录,和眼动信息也记录眼动跟踪。每个参与者被要求在90分钟内完成24搜索任务之后,我们会问他们一些简单的问题查询,以确保他们仔细完成搜索任务。我们还进行了一次采访一些参与者在整个实验,收集用户反馈的片断项突出显示策略。
数据收集过程。
36个参与者中,有12个女生和24个男生(每组4女性和8男性)组成的。所有参与者都从大学一年级本科生的自我报告的搜索引擎利用经验。经济学专业不同,美学、法律和社会科学。我们没有邀请计算机科学或电气工程的学生,因为他们可能太熟悉搜索引擎并不能代表普通搜索引擎用户。
3.4。外部的注释
做出深入分析不同的词高亮显示策略的影响,我们还招募了四个专业评估人员从商业搜索引擎公司标签4-point-scaled相关性分数为所有查询结果对用于我们的实验。每个结果的相关性是由四个专业的评估和判断注释的KAPPA系数为0.48,可以描述为一个温和的协议根据科恩(
39]。我们利用这些相关性分数计算累积收益(CG)和折扣累积(常规心电图)在以后的章节来研究强调条件用户参与度的影响。
4所示。用户研究
在本节中,我们尝试比较不同词强调策略与收集到的数据在一个收益成本框架。我们第一次表明,在最初的强调战略和三种策略提出了部分
3.3,基于结果突出策略为用户可能是最好的。然后,我们进行详细的分析,来说明用户受益于基于结果突出策略在不同的搜索任务。
4.1。词高亮显示策略
根据现有研究的理解用户的搜索交互过程(
40- - - - - -
42),用户参与可能会影响到他们从搜索引擎获得好处和成本在搜索过程中。所以,我们也尝试分析之间的差异不同的强调策略后,收益成本框架。
在本节中我们使用的评价指标如表所示
3。指标,从“C -”是基于点击率而开始“E -”是基于眼动信息。考试工作阈值设置为200毫秒,由先前的研究建议(
43,
44]。CG和常规心电图指标来评估搜索受益而另一些则采用来测量用户的努力。注意,我们在DT排除登陆页面所花费的时间,因为我们想关注的影响突出显示的代码片段在serp中用户参与。这些标准被广泛用于衡量搜索收益和成本在以前相关研究(
38,
40]。
在收益成本评价指标框架。
| 指标 |
描述 |
| C-CG |
累积获得根据用户的点击计算结果列表 |
| C-DCG |
折扣累积获得根据用户的点击计算结果列表 |
| E-CG |
累积获得计算基于用户的检查结果列表 |
| E-DCG |
折扣累积获得计算基于用户的检查结果列表 |
| DT |
搜索任务停留时间,不包括登陆页面所花费的时间 |
| C-RN |
点击数量的结果 |
| C-RD |
最大点击排名结果 |
| C-SL |
点击结果列表的长度 |
| E-RN |
检查结果数量 |
| E-RD |
最高等级的检查结果 |
| E-SL |
检查结果列表的长度 |
我们首先比较不同突出策略基于点击率的有效性信息,结果如表所示
4。我们使用默认查询条件强调谷歌战略(S1)作为基线,只有报告之间的差异提出策略和默认一个尊重的专有特性基线强调战略。表
4显示了一些有趣的发现:
任务级别强调战略(S3)并没有带来显著的差异在基线策略除了它导致停留时间的大幅下降。这可能是因为查询项以外的附加条款使用S3是一个小但不多,增加强调数量,增加搜索成本。
减少强调战略(S2)以及result-level突出战略(S4)显著不同基线策略从收益和成本两个方面。S2带来搜索成本大幅下降,这可能表明,过多的强调了术语可能不有利于用户和少量的长强调片段条款可以帮助他们更有效地找到有用的信息。这种现象符合发现部分
3.1。S4也导致搜索成本显著下降,这可能表明该方法生成的突出显示的术语是质量好,有利于用户在搜索过程中。
S2和S4也带来C-CG大幅下降和C-DCG,这有点奇怪。但更详细的分析表明,这些策略所产生的一些突出的术语是足够好的直接答案的搜索任务。因此,它是不必要的用户点击这些高度相关的结果,这可能会导致dropin搜索的好处。
比较不同的词高亮显示策略。
|
S2 (%) |
S3 (%) |
S4 (%) |
| C-CG |
▼
8.8 |
↓
4所示。7 |
▼
8.3 |
| C-DCG |
▼
7.3 |
↓
4所示。1 |
▼
7.6 |
| DT |
▼
12.8 |
▼
13.8 |
▼
12.5 |
| C-RN |
▼
10.5 |
↓
5。5 |
▼
9.1 |
| C-RD |
▼
17.6 |
↓
0.8 |
↓
9.8 |
| C-SL |
▼
10.0 |
↓
5。0 |
▼
9.4 |
比例减少,分别用向下箭头,三角形;了三角形表明t检验;统计学意义的
p
<
0.1
的水平。
虽然结果表
3表明,S2策略和S4策略显示改善基线方法,我们选择S4策略做出进一步分析在接下来的部分,因为通过这种方式,强调术语的比率几乎是一样的S1的策略。所以,我们可以关注突出的质量而不是数量。
4.2。收益成本分析
我们试图让一个进一步的分析调查之间的差异result-level强调战略和最初的强调战略基于点击率和眼球运动信息的信息。我们也试着调查的有效性提出result-level强调策略在不同的搜索任务。作为讨论的部分
3.1有三种类型的搜索任务在我们的工作中,也就是说,NA, TR。灵感来自用户的反馈和以前的结果部分
3.1和
4所示。1,我们也将我们的搜索任务分成两组,是否存在即时答案(IA)的片段。我们首先研究不同的强调策略搜索成本的影响在这些不同的搜索任务,结果如表所示
5。
搜索成本比较在不同的搜索任务。
|
NA (%) |
在(%) |
TR (%) |
w / IA (%) |
伊w / (%) |
| DT |
↑
6.3 |
▼
18.7 |
13.0 |
▼
27.2 |
▼
6.0 |
| C-RN |
↓
5。0 |
↓
7.8 |
▼
19.0 |
▼
16.3 |
▼
7.2 |
| C-RD |
↑
26.7 |
▼
13.7 |
▼
17.6 |
▼
28.4 |
▼
4所示。3 |
| C-SL |
5。0 |
▼
8.2 |
18.6 |
▼
17.5 |
▼
7.2 |
| E-RN |
↑
19.4 |
↓
9.3 |
↑
24.0 |
▼
20.2 |
↑
2.4 |
| E-RD |
▲
23.7 |
↓
13.7 |
↑
5。6 |
▼
34.2 |
↑
2.6 |
| E-SL |
↑
44.3 |
↓
11.1 |
↑
24.0 |
↓
23.5 |
↑
6.8 |
比例减少,分别用向下箭头,三角形,和百分比增加,分别用箭头和三角形。了三角形指示
t以及;统计学意义的
p
<
0.1
的水平。
表
5表明我们提出result-level强调策略可以大幅降低搜索成本信息搜索任务和事务性工作。它不能减少搜索成本导航任务,这可能是由于这样的事实,在这种任务,目标结果通常容易找到;因此,将会有不同的片断项突出策略之间没有显著差异。值得注意的是,result-level-based方法带来搜索成本的显著下降任务即时答案和没有重大改变这些任务没有即时的答案,这可能进一步证实我们提出突出策略可以帮助减少搜索成本明显在serp中如果存在即时回答。
我们也试图从搜索中受益的角度进行分析,结果如表所示
6。我们可以看到,该突出战略导致信息任务和不同的是大幅下降超过20%的任务即时答案,这表明片段与有用的信息突出显示与我们的战略,因此用户不需要点击或检查很多结果。我们还需要搜索任务如图
3作为一个例子,这是一个信息任务和任务与即时的答案。热图显示,用户可以找到答案的搜索任务在很短的时间内没有点击或检查结果太多,这将导致减少搜索成本和效益。
搜索效益比较在不同的搜索任务。
|
NA (%) |
在(%) |
TR (%) |
w / IA (%) |
伊w / (%) |
| C-CG |
↓
8.2 |
▼
9.1 |
▼
22.4 |
▼
21.7 |
▼
8.3 |
| C-DCG |
↑
6.2 |
▼
4所示。8 |
↓
20.9 |
↓
7.0 |
▼
7.8 |
| E-CG |
↑
15.6 |
▼
10.6 |
↑
14.6 |
▼
20.4 |
↑
0.7 |
| E-DCG |
↑
14.3 |
▼
17.6 |
↓
18.2 |
↓
26.4 |
↓
10.6 |
比例减少,分别用向下箭头,三角形,和百分比增加,分别用箭头。了三角形表明t检验;统计学意义的
p
<
0.1
的水平。
发现在这一节中显示,既减少强调战略和result-level突出战略超越原版突出方法通过谷歌,这意味着更少的和不再强调术语可能对用户更有帮助。同时片段提供即时答案搜索任务是如此重要,他们应该突出显示。基于收益成本框架,我们还表明,提出result-level强调策略可以带来最显著的改善信息搜索任务和任务即时答案。
5。自动高亮显示方法
在本节中,我们试图提出一个方法来自动突出文本片段。我们首先介绍了预测方法和特性集用于我们的工作。然后我们展示的预测结果自动片段文字突出显示。我们展示到什么程度我们可以建议强调了对于一个给定的条件自动搜索和比较不同的特征集的性能在不同类型的搜索任务。我们也进行特性分析,探索不同特性自动片段项突出的贡献。
5.1。方法
我们正式术语强调任务作为一个序列标签监管问题。我们使用jieba分割工具片段文本分割成几个方面,然后使用指定的算法自动预测哪些片段术语应该突出显示。学习算法在预测过程中选择条件随机域(CRF),这是一个最受欢迎的模型结构学习和序列标注问题[
45]。
现有的研究和我们的实验在前面的部分中突出显示的各种因素会影响用户参与的结果片段。因此,我们需要全面的信息,包括查询,维基百科知识以及搜索建议考虑在开发功能,可用于自动片段文字突出显示。整个列表在表提供的特性
7他们可以归纳为三组:
(★)确切的火柴:这些特性采用测量是否存在片段之间的精确匹配和查询,维基百科知识,百度百科(中国在线百科全书
http://baike.baidu.com/),搜索建议。
(■)相似性:这些特性使用几种基于距离的方法以及tf-idf值测量之间的相似片段项和相应的信息。
(◆)词embedding-based:这些特性的生成是基于字嵌入方法(
https://code.google.com/p/word2vec/)。我们使用向量来表示单词和计算各种特征。这些词向量训练基于SogouT数据集(
http://www.sogou.com/labs/dl/t-e.html)。
特性用于自动片段文本高亮。
| 功能 |
集团 |
描述 |
|
ifQueryTerm |
★ |
项是一个查询项是否片段 |
|
ifResulttitle |
★ |
片段的术语是否一个术语在结果标题 |
|
ifInWiki |
★ |
是否片段查询的词出现在维基百科的内容 |
|
wikiCount |
★ |
频率的片段查询的维基百科的内容 |
|
ifInBaidu |
★ |
片段词是否出现在百度百科的内容查询 |
|
baiduCount |
★ |
频率的片断项百度百科的内容查询 |
|
ifSearchRec |
★ |
是否片段出现在查询的搜索建议 |
|
searchRecCount |
■ |
频率的片段查询的搜索建议 |
|
queryTermJaccard |
■ |
Jaccard片段之间的距离和查询 |
|
queryTermEdit |
■ |
片段之间的编辑距离和查询 |
|
searchResultsOverlap |
■ |
数量的共享获得的搜索结果列表提交的结果片段的术语和商业搜索引擎查询 |
|
wikiTfIdf |
■ |
Tf-idf价值的片段在维基百科语料库(Tf值计算的频率在查询的维基百科的内容片段任期维基百科所有内容在我们的实验中使用的查询是用来计算Idf值) |
|
baiduTfIdf |
■ |
Tf-idf价值词在百度百科语料库的片段。类似于wikiTfIdf |
|
searchRecTfIdf |
■ |
Tf-idf片段价值词在搜索推荐语料库。类似于wikiTfIdf |
|
termTermW2V |
◆ |
余弦相似性的片断项向量和查询项向量(如果查询组成
n分割后,然后我们将得到
n余弦相似性) |
|
termTermProW2V |
◆ |
一般来说,前三平均、中、最大和最小的termTermW2V
|
|
queryTermW2V |
◆ |
查询向量之间的余弦相似性和片段词向量(如果查询组成
n分割后,我们使用的平均向量
n词向量查询向量)
|
|
resultTitleTermW2V |
◆ |
标题向量之间的余弦相似性和片段词向量(如果标题组成
n分割后,我们使用的平均向量
n词向量标题向量)
|
|
searchRecW2V |
◆ |
片段之间的余弦相似性项和搜索推荐语料库。类似于queryTermProW2V |
表中描述的功能
7,我们实现一个基于python-crfsuite工具包CRF模型(
https://github.com/tpeng/python-crfsuite)自动片段突出。部分的数据集
3采用预测实验5倍交叉验证和理想的突出显示的术语列表标签由众包工人作为地面真理。我们应该注意到,这是一个重要的任务,因为它是一个不平衡的学习问题。只有8.2%的片断项突出显示用户(887总共10789片段的条款突出显示)。
5.2。结果
考虑到标准CRF模型实现基于crfsuite旨在实现最好的整体性能预测都强调了术语和改变,我们的重点应该是突出的。CRF模型预测的有效性强调片段条款可能受到影响,因为不平衡的数据集。因此,基于预测的概率通过CRF模型,我们测试不同的阈值,看看当我们可以达到最好的性能预测方面突出显示。如表所示
8,我们报告最好的精度、召回和F1-score结果预测方面强调片段后测试不同概率阈值。精度在第二列的表
8计算基于所有片段的条款,包括突出的和改变的。
比较不同的特性集自动片段文字突出显示。
| 特性 |
P(%) |
R(%) |
F1 (%) |
| ★ |
22.50 |
99.22 |
36.68 |
| ■ |
60.60 |
80.60 |
69.18 |
| ◆ |
59.85 |
85.15 |
70.29 |
| ★■ |
63.00 |
84.89 |
72.32 |
| ★◆ |
23.55 |
99.77 |
38.11 |
| ■◆ |
64.50 |
79.56 |
71.24 |
| ★■◆ |
65.85 |
86.32 |
74.71 |
结果在表
8表现出许多有趣的发现:
三组的特性集,确切的火柴特性表现糟糕而相似性和词embedding-based特性执行得更好。这可能表明用户可能需要更全面的信息,以帮助与他们的互动过程。确切的火柴特性是有效的寻找高亮显示查询条件但不擅长识别一个片段是否术语查询中不应该突出显示。
我们可以实现F1-score略有改善,但如果我们把两个功能组在一起,除非我们把确切的火柴的特征和词embedding-based特性。这可能是因为遇到的预测模型过度拟合问题如果这两个群体的特性的总和。如果我们采取这三个功能组词高亮预测,我们可以达到最好的性能,明显优于其他功能组的预测结果。
虽然F1-score通过我们的预测模型是相对较低,预测精度都强调了术语和改变大约是0.9。这再次反映了这样一个事实:预测突出显示的术语是nontrival任务作为数据集非常不平衡。
表
9进一步显示了预测结果的比较和突出显示术语在不同的搜索任务。这三个特性集都纳入预测模型,因为在这种情况下,该模型表现最佳,如表所示
8。
预测性能在不同的搜索任务和片段。
| 搜索任务 |
突出显示项 |
F1 (%) |
| NA的任务 |
所有条款 |
84.00 |
| 在任务 |
所有条款 |
69.75 |
| TR任务 |
所有条款 |
64.50 |
| 所有任务 |
查询条件 |
78.26 |
| 所有任务 |
Nonquery条款 |
36.92 |
表
9表明我们的预测模型执行的NA任务。这是合理的,因为这样的任务通常的目标是找到一个特定的网站是高度相关的查询本身和我们的特性开发基于查询,维基百科知识以及搜索建议,可以提供足够的信息。相反,在和TR搜索任务往往需要用户找到更全面的信息,因此建议强调了术语可能会变得更加困难。我们也测试预测性能在不同的片段,即查询条件(条款包含在搜索查询)和nonquery术语(条款不包含在搜索查询)。表
9显示,当预测查询项,F1-score高达78.26%而F1-score只有36.92%的nonquery条款。这并不奇怪,因为许多我们使用原始查询相关特性,这使得预测查询条件相对容易的任务。预测nonquery条款是一个艰巨的任务,因为缺乏相关信息,我们将把它未来的工作。
我们也进行特性分析,探索不同的特性在表的贡献
7以预测突出的条件。表
10显示了十大特征的权重训练CRF模型。我们发现
queryTermW2V最大的重量,属于词embedding-based功能组。这个特性措施之间的余弦相似性片段词和搜索查询,这可能是很大的帮助寻找高亮显示查询条件和那些nonquery条款都是类似于查询从词中嵌入的角度。第二个重要特征
ifQueryTerm来自确切的火柴功能组。此功能显示搜索查询是否包含当前片段术语,从而有助于突出显示查询条件。从相似性特征组第三个重要特征是,这是
wikiTf。这个特性计算频率除以当前片段在维基百科内容的维基百科的内容的长度。找到更全面的信息可能是有用的搜索任务,而不是原来的查询,这可能有助于突出那些nonquery片段。表
10还显示,排名前十的重要特性包括功能从所有这三个特性集,这表明他们是有用的。同时,词embedding-based特性可能是最重要,因为一半的十大重要功能是基于字嵌入方法和最重要的是还开发了基于词向量。
CRF模型中特征权重。
|
特性 |
重量(%) |
集团 |
|
queryTermW2V |
72.30 |
◆ |
|
ifQueryTerm
|
52.92 |
★ |
|
wikiTf |
50.25 |
■ |
|
termTermW2V |
37.50 |
◆ |
|
averageTermTermW2V |
32.25 |
◆ |
|
queryTermJaccard |
25.95 |
■ |
|
searchRecCount |
25.45 |
★ |
|
top3AverageTermTermW2V |
25.35 |
◆ |
|
termTermW2V
|
25.20 |
◆ |
|
wikiTfIdf |
24.15 |
★ |
6。结论
搜索结果片段搜索交互过程中起到非常重要的作用,以及不同的强调策略的影响还没有追求。在这篇文章中,我们进行实验室研究和精心设计的实验调查应该突出哪些片段术语以及它们是如何影响用户参与。我们组织一个众包努力注释的片段条款有利于搜索任务和发展几个片段术语强调策略收益成本框架内来比较它们的有效性。我们发现越来越不再强调片段可以有利于用户和该result-level强调策略能更有效地帮助用户找到他们的目标,从而大幅度减少搜索成本。我们证明result-level突出策略可以显著优于原来的强调战略信息搜索任务,这些任务与即时的答案。我们也提出一个自动片段术语强调方法的信息从维基百科,百度百科,搜索推荐词嵌入,实现了有前景的结果在高亮显示查询项和nonquery条款文本片段。当然,我们只是确认不同的强调策略会影响用户的行为和不直接区分两种不同的策略之间的利弊。未来的工作需要更广泛的研究强调战略评价体系和自动评价方法。未来工作和有趣的方向还包括开发更多有效的自动词高亮显示方法,特别是对术语不查询术语自动高亮片段。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由中国自然科学基金会(61472206和61472206)。
[
刘
Z。
刘
Y。
周
K。
张
M。
马
年代。
垂直在考试网络搜索结果的影响
38市立图书馆学报》国际会议信息检索研究发展市立(2015)
2015年8月
圣地亚哥,智利
]
[
王
C。
刘
Y。
张
M。
将垂直结果纳入搜索点击模型
美国第36届国际市立图书馆会议在信息检索的研究和开发(" 13)
2013年7 - 8月
爱尔兰都柏林
ACM
503年
512年
]
[
Shokouhi
M。
郭
Q。
从查询卡片评估主动卡建议基于被动搜索历史
38市立图书馆学报》国际会议信息检索研究发展市立(2015)
2015年8月
圣地亚哥,智利
]
[
王
Y。
阴
D。
罗
J。
超越排名:优化整个页面展示
第九届ACM会议程序网络搜索和数据挖掘(WSDM 2016)
2016年2月
旧金山,加州,美国
]
[
Lagun
D。
谢长廷
学术界。
韦伯斯特
D。
Navalpakkam
V。
对更好的测量在移动搜索的关注和满足
美国第37国际市立图书馆会议在信息检索的研究与开发
2014年7月
澳大利亚的昆士兰黄金海岸
ACM
113年
122年
]
[
Keikha
M。
公园
j . H。
克罗夫特
w·B。
评估答案的段落使用总结措施
美国第37国际市立图书馆会议在信息检索的研究与开发
2014年7月
澳大利亚的昆士兰黄金海岸
963年
966年
]
[
陆
W。
贾
Y。
一个眼球追踪研究web图片搜索的用户行为
环太平洋学报》国际会议上人工智能
2014年12月
澳大利亚的昆士兰黄金海岸
施普林格
170年
182年
]
[
Kanungo
T。
奥尔
D。
预测的可读性短的网页摘要
学报》国际会议网络搜索和Web数据挖掘
2009年2月
西班牙巴塞罗那
]
[
林
J。
全
D。
Sinha
V。
是什么让一个好的答案?环境问题回答的角色
人机交互的程序(03)交互
2003年9月
瑞士苏黎世
]
[
Savenkov
D。
Braslavski
P。
列别捷夫
M。
搜索代码片段在Yandex评价:经验教训和未来的方向
程序的第二个国际会议上多语言和多通道信息访问评估
2011年9月
荷兰阿姆斯特丹
14
25
]
[
同其它
R。
Hristidis
V。
系统query-specific文档摘要
学报》第十五届ACM国际会议信息和知识管理
2006年11月
纽约,纽约,美国
ACM
622年
631年
]
[
白色的
r·W。
穆
j . M。
鲁斯温
我。
面向任务的研究的影响影响query-biased总结在web搜索
信息处理和管理
2003年
39
5
707年
733年
10.1016 / s0306 - 4573 (02) 00033 - x
2 - s2.0 - 0041381420
]
[
Kaisser
M。
赫斯特
M。
劳
J。
提高搜索结果的质量通过定制总结长度
美国46计算语言学协会的年会:人类语言工艺方法(ACL-HLT ' 08)
2008年6月
美国哥伦布,哦
]
[
玫瑰
D。
奥尔
D。
Kantamneni
R。
摘要属性和搜索质量
学报》第16届国际会议上万维网(WWW ' 07)
2007年5月
加拿大的班芙,AB
1201年
1202年
]
[
行业
H。
白色的
r·W。
傅
X。
支持定位在搜索结果检查
ACM SIGCHI会议程序在计算系统中人为因素
4、2013
法国巴黎
]
[
Iofciu
T。
Craswell
N。
Shokouhi
M。
评估片段突出显示在搜索的影响
市立学报2009车间了解用户
2009年7月
波士顿,美国
44
47
]
[
Lesk
M。
实际的数字图书馆:书籍、字节和美元
1997年
美国伯灵顿
摩根考夫曼
]
[
刘
J。
刘
Y。
张
M。
马
年代。
用户如何成长以及搜索引擎?长期的研究用户的行为
学报22 ACM国际会议会议信息和知识管理
2013年的10月
旧金山,加州,美国
ACM
1795年
1800年
]
[
白色的
r·W。
罗斯
r。
探索性搜索:超出了查询响应范式
合成专题信息概念、检索和服务
2009年
1
1
1
98年
10.2200 / s00174ed1v01y200901icr003
]
[
斯隆管理学院
M。
王
J。
动态信息检索:理论框架和应用程序
《2015国际会议信息检索的理论
2015年9月
北安普顿,妈,美国
]
[
Agrawal
R。
尼拉
年代。
霍尔沃森
一个。
梁
年代。
多样化的搜索结果
学报第二ACM国际会议网络搜索和数据挖掘
2009年2月
西班牙巴塞罗那
]
[
克拉克
c . L。
Craswell
N。
所博罗夫
我。
概述2009年TREC的网络跟踪
2009年学报文本检索会议(TREC)
2009年11月
美国马里兰州盖瑟斯堡
]
[
首歌
R。
张
M。
酒井法子
T。
NTCIR-9目的任务的概述
学报第九NTCIR研讨会会议上评估信息访问技术
2011年12月
日本东京
]
[
约阿希姆
T。
Granka
l
锅
B。
Hembrooke
H。
同性恋
G。
准确地解释点击数据隐含的反馈
学报》第28届年度国际市立图书馆会议在信息检索的研究和开发(SIGIR 05)
2005年8月
萨尔瓦多、巴西
]
[
教室
一个。
提高搜索结果的可读性摘要
2
2004年会议的程序人机交互:设计生活
2004年9月
英国利兹
]
[
Cutrell
E。
关
Z。
你在找什么?网络搜索的信息使用眼动跟踪研究
SIGCHI会议程序在计算系统的人为因素
4、2007
美国加利福尼亚州圣何塞
ACM
407年
416年
]
[
几
年代。
现在你看到它:简单的可视化技术进行定量分析
2009年
美国加利福尼亚州伯克利
分析新闻
]
[
Kickmeier
m D。
艾伯特
D。
scanability信息搜索的影响:在线实验
2
对社会学报2003:人机交互设计
2003年6月
克里特岛,希腊
33
36
]
[
Gowases
T。
Bednarik
R。
Tukiainen
M。
阅读文字突出显示改善用户体验放大显示
诉讼气11扩展抽象的计算系统的人为因素
2011年5月
加拿大的温哥华BC
ACM
1891年
1896年
]
[
蓝道
T。
伊根
D。
Remde
J。
提高可用性的文本通过计算机交付和形成性评价:SuperBook项目
超文本:心理学的角度来看
1993年
71年
136年
]
[
拉森
R R。
实际的数字图书馆:书籍、字节和雄鹿:Lesk迈克尔旧金山,CA。摩根考夫曼,1997。297页,49.95美元。ISBN 1-55860-459-6
图书馆和信息科学的研究
1998年
20.
2
204年
206年
10.1016 / s0740 - 8188 (98) 90023 - 8
]
[
Marchionini
G。
信息寻求在电子环境
1997年
英国剑桥
剑桥大学出版社
]
[
吴
黄永发。
元
Y。
提高搜索和阅读性能:突出显示和文本颜色编码的影响
信息与管理
2003年
40
7
617年
637年
10.1016 / s0378 - 7206 (02) 00091 - 5
2 - s2.0 - 0042131558
]
[
几
年代。
信息的仪表板设计:数据的有效的视觉沟通
2006年
牛顿、马、美国
O ' reilly Media, Inc .)
]
[
Marchionini
G。
白色的
R。
找到你需要的东西,明白你找到
国际期刊的人机交互
2007年
23
3
205年
237年
10.1080 / 10447310701702352
2 - s2.0 - 38849170633
]
[
Baldonado
m .问:W。
Winograd
T。
强调Hi-cites:动态创建引文与活跃
SIGCHI会议程序在计算系统的人为因素
1998年
美国洛杉矶CA
ACM新闻/ addison - wesley出版有限公司
408年
415年
]
[
刘
Y。
首歌
R。
张
M。
概述的ntcir-11亚胺的任务
学报11日NTCIR研讨会会议
2014年12月
日本东京
8
23
]
[
陈
Y。
刘
Y。
周
K。
王
M。
张
M。
马
年代。
垂直带来更多满意吗?预测搜索满意度在异构环境中
《24日ACM国际会议信息和知识管理
2015年10月
澳大利亚的墨尔本,维克
ACM
1581年
1590年
]
[
科恩
J。
加权kappa:定类尺度缩放分歧或部分信贷协议规定
心理上的公告
1968年
70年
4
213年
220年
10.1037 / h0026256
2 - s2.0 - 58149412516
]
[
江
J。
哈桑Awadallah
一个。
史
X。
白色的
r·W。
理解和预测分级搜索满意度
学报》第八届ACM国际会议网络搜索和数据挖掘
2015年
中国上海
ACM
57
66年
]
[
江
J。
他
D。
艾伦
J。
搜索、浏览和点击搜索会话:通过任务和用户行为的变化
美国第37国际市立图书馆会议在信息检索的研究与开发
2014年7月
澳大利亚的昆士兰黄金海岸
ACM
607年
616年
]
[
刘
Y。
陈
Y。
唐
J。
不同的用户,不同的意见:预测搜索满意鼠标移动信息
38市立图书馆学报》国际会议信息检索研究发展市立(2015)
2015年8月
圣地亚哥,智利
ACM
]
[
Lorigo
l
Haridasan
M。
Brynjarsdottir
H。
眼睛跟踪和在线搜索:经验教训和挑战
《美国社会信息科学和技术
2008年
59
7
1041年
1052年
10.1002 / asi.20794
2 - s2.0 - 67650444515
]
[
萨吴奇
D D。
戈德堡
j . H。
识别定位,扫视眼动跟踪协议
学报2000年研讨会上眼动跟踪研究和应用
2000年11月
美国佛罗里达州棕榈滩花园
ACM
71年
78年
]
[
阮
N。
郭
Y。
比较序列标记算法和扩展
24日国际会议的程序机器学习
2007年
科瓦利斯,或者美国
ACM
681年
688年
]