文摘

Pseudo-Relevance反馈(脉冲)是一个著名的查询扩展方法提高信息检索系统的性能。脉冲重复频率的所有条款对扩展用户查询文档并不重要。因此选择合适的扩张对改善系统性能非常重要。个人查询扩展条款选择方法已广泛调查改善它的性能。每个个体扩展项选择方法都有自己的弱点和优点。克服弱点,利用个人的优势方法,我们一起使用多个词汇选择的方法。本文首先改善总体性能的可能性,使用个人查询扩展条款已经探索过选择方法。第二,Borda数排名聚合方法是用于组合多个查询扩展条款选择方法。第三,语义相似度的方法是用来选择语义相似的查询后应用Borda数排名结合的方法。我们的实验结果表明,提出的方法取得了显著提高个人条款选择方法和相关的方法。

1。介绍

检索相关文件,可以满足用户需要的是一个重大挑战的信息检索(IR)系统。最可行和最成功的技术之一来处理这个问题是基于脉冲重复频率的查询(QE)扩张,一些顶级文档检索在第一个迭代用于扩展原始用户查询。考虑上述问题,有必要基于自动脉冲重复频率的量化宽松政策技术,可以自动将原始用户查询。在一些最后几年,发现网上的数据量急剧增加而搜索查询项的数量仍然非常少。根据作者(1),查询的平均长度是2.30的话,同样的关于查询长度已经被Rijsbergen[报道十年之后2]。而有所增加的数量长查询(5个或5个以上单词),最常见的查询仍一个,两个,三个字。在这种情况下,需要和自动查询范围扩张(AQE)增加了,但是有一些问题。

AQE的主要问题是它不能有效工作由于固有的稀疏高维语料库中用户查询条件。另一个问题是,并不是所有的条款前检索文档(反馈文档)量化宽松政策是重要的。量化宽松政策的一些条款可能是冗余的或无关紧要的。有些甚至误导的结果,特别是当有更多的量化宽松比相关的条款无关。量化宽松政策选择旨在消除冗余和不相关的条款从术语池(前检索文档反馈文件选择用户量化宽松条款),和选择的量化宽松条款应包含足够和可靠的原始文档的信息。因此,量化宽松政策条款的选择不仅要减少高维度反馈文档的语料库(池),而且还提供了一个更好的理解这些文件,以提高AQE结果。基于反馈不同的量化宽松条款选择方法已广泛应用于AQE,据报道,量化宽松政策条款选择方法可以改善IR模型的效率和准确性。

传统量化宽松条款选择方法AQE要么是基于语料库统计或术语协会,根据算法用于检索模型。学期协会的基础上选择方法,如互信息(3)和共存的信息(2,4],估计每一项基于的美好的发生方面反馈文档(池)。基于语料库统计量化宽松条款选择方法,比如Kullback-Leibler散度(5),信息增益(6),和罗伯逊选择价值(7),估计每一项基于分布的美好在语料库的术语。

大多数研究量化宽松条款选择专注于个人量化宽松条件选择的性能改进方法。然而,它仍然是一个挑战发展个体量化宽松条款选择方法,在大多数情况下优于其他方法。此外,由于多个量化宽松条款选择方法是可用的,很自然的将他们更好的性能通过利用他们的个人力量。过去,实验多个查询条件选择相结合的方法进行,但没有理论分析已经完成。组合两个不相关的和高性能的量化宽松政策条款选择方法检测(8]。作者在5)开发出一种天真的共存和概率的方法,与发达的方法获得的结果,改善同任何分别。这个结果证实,每种方法所提供的信息是不同的性质,因此,可以使用相结合的方式。作者在9]讨论了各种搜索结果排名聚合方法,如Borda和孔多塞和确认改善搜索质量。

后一组扩张方面得到应用基于Borda数排名相结合的方法,分析了一些获得扩张条件对用户查询语义无关。因此,它成为强制性检查选择的语义扩张与用户查询,以避免查询漂移问题。为了这个目的,我们使用的概念语义相似度与WordNet的帮助。在文献调查,基于语义的方法也用于一些研究;例如,概念水平的方法是用于情绪分析(10),表示的词和短语11),发现模式概念水平情绪分析(12,分析情感在自然语言(13]。其他一些作品已经完成通过使用的概念语义相似度的红外定量宽松政策。作者在14,15)提出了量化宽松政策技术使用WordNet词汇链,在WordNet上义词和下义关系、同义关系。词汇链作为扩张的基本规则和证实,量化宽松政策可以显著提高查询的性能。在[16]刘等人解释使用WordNet词汇本体扩展查询和选择适当的扩张方面,取得了合理的性能改进。应用语义过滤后,一套完善的附加条款得到扩张。之后,需要重新调整的方法,将原始查询提供更高的体重比额外的扩展条款。作者在17)提供一个查询权重的新方法来处理文档检索。它给用户的查询向量,根据用户的相关反馈,提高文档检索系统的性能。

提出的实验模型上执行两个著名的基准数据集,即火和TREC-3。绩效评估,该模型比较与Okapi-BM25 [18)和Aguera Araujo的模型(5]。拟议的方法提高红外系统的精确率和召回率来处理文档检索。它也得到了显著的更高的平均召回率,平均精度率 测量两个数据集。

这项工作的主要贡献是总结如下:(1)首先,我们现在的搞笑,共存,KLD,基于脉冲重复频率的AQE和RSV术语选择方法;,所有这些术语选择的实验分析方法给出了评价参数得分。(2)第二,我们建议最受欢迎Borda排名聚合方法结合不同排名列表的扩张、搞笑方面选择共存,逗留一番,RSV方法讨论的步骤( )。(3)第三,我们建议语义相似度的方法来过滤掉不相关和冗余扩张与上下文用户查询获得的一步 。接下来,使用额外的扩展条款后应用权重的方法。(4)最后,配对 以及我们提出的方法和其他模型之间进行的基准模型。

本文的组织如下。节2文档,我们简要介绍基于脉冲重复频率的选择和四个人量化宽松条款选择方法。部分3解释了我们建议的模型及其算法与基于Borda数排名方法和基于语义相似度的方法。部分4介绍了不同的量化宽松条款选择方法的实验结果,然后相互比较;下在本节中,我们提出的方法的结果或与基线分析方法相比,在精度方面,回忆,和 测量火灾和TREC数据集。最后,部分5给出了结论和未来的研究方向。

2。脉冲重复频率文档选择和查询扩展条款选择方法

在本节中,我们简要讨论脉冲重复频率为基础的量化宽松政策。节2.1,我们将讨论的标准选择提供的有关文件选择候选扩展条款。在剩下的部分2.2- - - - - -2.5量化宽松政策,我们将解释四个方面选择方法。它需要两个参数:设置值的最高数量的有关文件用于选择候选扩展条款和数量扩张的术语用于扩展查询。这些参数设置的经验。

2.1。脉冲重复频率基础上选择文件和条款

我们使用一个高效Okapi-BM25相似性度量选择一组初始的检索文档,这是更有效的比传统的余弦相似性度量。数据12显示我们提出的架构基于等级聚合AQE检索模型和语义过滤方案。构建术语池,我们首先从第一个检索一系列顶级文件检索文档的查询使用匹配的函数。在我们的问题中,我们使用一个Okapi-BM25匹配函数来检索第一个有关文件。Okapi-BM25测量是由以下(18] 在哪里 包含的查询条件, 项频率项吗 th文档 , 查询词的频率 。接下来, , , 是常量参数,参数的值,我们在实验中使用基于罗伯逊et al。18)( , , ): 在哪里 文档的数量和吗 是包含这个词的文档的数量吗 。参数 文档长度和平均文档长度。一旦顶部相关检索文档的帮助下Okapi-BM25方法在本节中,讨论所有的独特的高级文档选择表单项池或用候选术语集 。条款被任何排名的几个进球的技术/措施可用等级条款的基础上适当的扩张。这些得分措施在未来部分给出。

2.2。Kullback-Leibler散度基于查询扩展

Kullback-Leibler分流(KLD) [5在信息理论)是著名的4]。KLD基础的方法被用于自然语言和语音处理应用程序基于统计语言模型在红外(罗伯逊,1990)。KLD可以用作术语得分函数,基于术语的分布之间的差异的集合检索相关文件和整个文档集合。因此,下面的方程可以用来找到候选人的KLD分数膨胀条件: 在哪里 词出现的概率是 在高级检索文档集 ,由

词出现的概率是 在整个文档集合 解释说,

方程(3)用于找到候选人的KLD分数膨胀。一些顶级进球候选术语是用来扩展用户原始查询。这种类型的查询扩展称为KLD基于查询扩展(KLDBQE)。

2.3。基于同现的查询扩展

选择最可行的方法量化宽松条款是最初得分条款的基础上与原始用户查询项的共存。词同现的概念自90年代以来一直用于识别一些条款在文档之间的关系(4]。据van Rijsbergen [2),使用同现统计的想法是找到文档语料库和查询条件之间的关系,和作者使用这个想法扩大原来的用户查询。

我们可以使用 基于量化的力量共存两项之间的联系。以下是一些著名的同现系数方法;在这里 可以由下列方程给出: 在哪里 文档包含术语的数量吗 分别为, 文档数据,包含两项吗 在一起。

我们可以用这些共存系数值之间找到相似的价值用户查询条件 和候选人扩张 。但是有问题的查询通过添加这些高与用户查询条件类似的条款。处理这类问题,我们可以使用逆文档频率(idf)的概念。候选词的帮助下idf值和归一化共存系数值与用户查询条件,codegree系数候选术语,解释(8)。考虑 在哪里 语料库是文档的数量, 前排名检索文档的数量被认为是, th查询项, 是候选人扩张术语, 文档的数量在语料库包含术语 。和 之间的共存吗 在排名最高的文档,

方程(8)可用于寻找相似的术语 与单个查询词 。获取一个值测量 是整个查询 ,有必要把它与所有单个codegree原始查询术语出现在查询。所以我们使用

最后,(9)用于找到候选扩展条款的共存系数评分。这种类型的查询扩展称为基于共存的查询扩展(CBQE)。

2.4。基于信息增益的查询扩展(IGBQE)

信息增益(IG)系数是一个参数来找到类预测的程度存在与否的一个术语在一组文件6]。让 类的集合;在我们的案例中有两类:第一,最初的检索相关文件名为“脉冲”的用户查询文件;第二,组nonrelevant文档相同的查询。现在的价值信息增益系数的一个术语 可以解释如下: 在哪里 这个词的概率是多少 发生时, 意味着这一项 不发生(例如, ), 的概率吗 类值, 的条件概率是吗 鉴于th类值 发生, 的条件概率是吗 鉴于th类值 不发生。信息增益系数的值是用来衡量一个术语的重要性的所有类。项条款池或高级检索反馈文档排名是基于获得的价值(10)。选择一些高IG得分候选术语扩展用户查询。这种类型的查询扩展叫做搞笑基于查询扩展(IGBQE)。

2.5。罗伯逊选择基于价值的查询扩展

RSV的方法(7)是基于不要模型的红外系统性能(19]。假定系统检索项排名他们根据一些衡量与查询。不要理论的原则理念是检查值的匹配函数的分布在文档集合。更具体地说,它认为两个这样的分布,一个有关文件和一个用于nonrelevant的。如果检索系统是什么好,这两个发行版将会是不同的;尤其是匹配函数值一般会比nonrelevant的更高的相关文档。

总的来说,这两个发行版分开越多,系统的性能会更好。在其他条件相同的情况下,越高的区别 意味着之间的两个分布,性能就越好。实际的测量性能提出的不要和布鲁克斯提出的一个替代20.都可以表示为 归一化函数的分布的标准偏差。然而,这些措施相关的假设分布是正常的。这不是一个适当的假设的现状。所以目前的论点是基于使用 非规范,作为一个简单的测量性能。

如果候选项的重量 这些包含这个词的类 添加到他们的匹配函数值。对于查询扩展的情况下,我们考虑候选项 与重量 。相关的新意思并给出nonrelevant文档类 ,分别。

如果 对应的概率出现在相关和nonrelevant文档集合,分别的方程 (意味着相关文档)给出如下:

同样,新意思 (nonrelevant文档)给出如下:

和有效性 被定义为

如果两个分布之间的差异是非常低的 在哪里 最初的区别吗

最后,给出了候选扩展词的重量如下: 在哪里 的概率是扩张有关文件、术语 的概率是扩张nonrelevant文档或文集。方程(15)可以用来找到候选人的RSV分数膨胀。一些顶级进球候选术语是用来扩展用户原始查询。这种类型的查询扩展叫做RSV基于查询扩展(RSVBQE)。

3所示。提出Borda和基于语义相似度的模型

我们建议的工作可以分类主要是两部分:(我)首先,分数不同的个人方法使用Borda数方法的组合。(2)其次,运用语义相似度的方法去除噪声或无关紧要的方面。

脉冲重复频率的基础扩大量化宽松政策的方法选择候选术语最初的用户查询检索文档集。我们使用一个高效Okapi-BM25相似性度量选择初始检索文档,这是更有效的传统的余弦相似性度量。图1显示了我们提出的架构基于Borda数排名AQE检索模型组合和语义相似度的方法。

最初,我们使用共存的方法,哪些词出现在查询词前反馈文档用于选择扩张方面;我们称之为CBQE。在这种方法中,高价值共存条件选择从共存方法形成一个术语的候选项。此外,信息增益方法用于得分项池和一些高得分术语被用作查询扩展术语;这叫做IGBQE。接下来,背后的概念Kullback-Leibler散度(KLD)和罗伯逊选择价值(RSV)用于得分项池术语和高得分术语用于扩大用户原始查询;这些量化宽松的方法称为KLDBQE RSVBQE。

此外,知名Borda数排名结合方案用于组合多个方面排名获得共存,搞笑,逗留一番,RSV的方法。这个排名聚合方法产生一个组合的候选术语列表与Borda分数高到低从上到下。前 候选人而言,选择这种方法,用于扩展用户查询:这叫做Borda基于查询扩展(BBQE)。后获得的候选术语集应用Borda排名聚合方法包含一些嘈杂或语义无关的查询。如果我们把这些嘈杂的查询扩展的过程中,它可能导致查询漂移的问题。因此语义相似度的概念是用来过滤掉语义无关条款从BBQE获得查询再形成或扩张,叫做Borda扩张(BSBQE)和基于语义的查询。最后,新配方查询再加权扩张方面提交给搜索引擎的排名列表文档检索用户查询的最终结果。

3.1。该模型的算法描述

算法步骤的序列中使用该模型的实现中定义的算法1

算法1(为拟议中的AQE开发模型)。 应用Okapi-BM25相似性函数检索排名相关文档对用户查询。 所有的独特的方面 从一步检索获得的文件 选择项池。 不同的方法用于评分项池的独特条件,形成候选术语;这些下面列出:(我)搞笑的分数计算。(2)计算共存的分数。(3)计算KLD得分。(iv)计算RSV得分。从子步骤获得最高得分候选术语(i) (iv)的步骤 用于扩展用户查询和名为IGBQE CBQE, KLDBQE和RSVBQE分别。 Borda排名聚合方法用于结合不同的候选词排名获得子步骤(i) (iv)的步骤 (我)Borda排名聚合产生候选人的排名列表项。一些顶级 候选人方面获得分步(i)的步骤 用于扩大用户查询,称为BBQE。 语义过滤方法是用来过滤掉语义无关的扩张从扩张条款从BBQE获得方法。应用语义过滤后,这叫做BSBQE Borda和基于语义的方法。

3.2。提出了基于Borda查询扩展

应用不同的查询扩展条款选择方法后,我们分别有一个排名的量化宽松政策术语从每个术语列表选择方法。现在我们需要一些排列组合方法可以结合不同的量化宽松排名列表项为一个列表项。现在,一些顶级得分方面从这个列表中选择方面的量化宽松政策与用户查询。在本节中,我们短暂的读者的排名基于排名位置,我们使用组合方法在计划的工作。社会选择理论(21)是一个研究领域中投票算法作为一种技术,使社会或团体的决定。算法应用于本节是基于在选举中投票。

3.3。Borda数排名相结合的方法

根据Borda队伍相结合的方法,每个选民都有自己的偏好候选人名单。对于每一个选民,顶部第一候选人获得 点,第二个候选人获得 分,获得前三名候选人 点,等等。每个选民的和获得的价值点给每位候选人最终点。有几个候选人优先排序的选民(候选术语选择方法);然后剩下的点是分给优先排序的候选人。分数高的候选人获胜(22]。

例1。这里我们用一个例子来说明Borda队伍相结合的工作方法。在这里,我们假设一个结合单查询扩展条款选择法和五排名查询条件选择方法扩张之后,排名四个候选人 , , , 如下:候选人条件选择方法1: , , , 候选人条件选择方法2: , , , 候选人条件选择方法3: , , , 候选人条件选择方法4: , , 候选人条件选择方法5: ,

现在我们表示每个候选项的得分 通过候选人的分数

Borda排名(例如1):每个候选项的得分如下:候选人的分数 候选人的分数 候选人的分数 候选人的分数

因此,候选人方面的最终排名 , , ,

选择一些高排名候选术语Borda方案用于扩展用户查询:这种类型的量化宽松政策被称为Borda基于查询扩展(BBQE)。

3.4。提出基于语义过滤的查询扩展

获得一组候选术语后排名模块组合。在这个候选人名单,我们观察到一些候选术语扩展条款并不相关原始用户查询。如果我们使用这些候选术语作为查询扩展术语,它可能检索相关文件。因此,它是强制性的过滤掉这些无关紧要的候选项。消除不相关和冗余的候选人扩张方面,我们使用了语义相似度的概念,抓住了语义相关条款的查询项候选术语列表和过滤器语义nonrelated术语。应用语义相似度,我们使用语言本体WordNet背景知识。语义相似度的基本思想是,如果一个候选术语(即有某种语义关系。与查询词、同义词、上位词),那么它将适合查询扩展。根据本节的讨论,有一些语义相似度发现模块可以用来发现两个单词或术语或概念之间的语义相似度(如查询项和候选项)。流行的和可行的语义相似性模块/方法里柯克和Chodorow(华尔街日报)23,蕾斯尼克24,吴和手掌25),将两个单词/概念作为输入,并返回这两个词之间的语义相似度。我们使用Leacock-Chodorow(禄)语义相似度测量工作中,发现结果是激励。

本文作者还试图处理情绪和情感在某种程度上,通过使用中存在的方法(12]。为此,首先从用户查询使用情绪词选择背景知识(SentiWordNet)和这些词扩展通过添加其他相关情绪和情感词。

禄思方法定义了一个语义相似度衡量基于长度最短的距离 两个概念或术语 和缩放值两倍的最大深度的层次结构,给出 在哪里 最大深度(即。,12in case of WordNet-3.0); note that, in practice, we add 1 to both length 为了避免 ,当最短路径长度为0。

我们基于语义过滤BSBQE从BBQE候选人条件作为输入方法和过滤器语义无关的术语从候选术语列表。我们给一个新的公式寻找语义相似的扩张从候选术语集。新建议公式给出下面的方程用于发现候选词之间语义相似度和查询条件: 在哪里 所有查询条件, 是一个候选项,然后呢 是一个 查询的词。最后,嘈杂的或无关紧要的BBQE被这种语义的方法过滤,这叫做BSBQE基于语义的方法。我们提出了基于语义的量化宽松政策方法的算法步骤中列出的算法2

算法2(发达寻找语义相似度)。 一旦从一步获得的候选术语集 的算法1 输入两个术语/概念 ;第一项 从一步 第二个 是查询项。 字确认:如果两个词出现在英语WordNet词汇分类,去一步 别的,去一步 上位词树模块:找到上位词树 使用WordNet分类法。 Hypernymy验证模块:发现如果两个树具有相同的根。如果根是一样的,去一步 别的,去一步 LCS模块:找到最常见的上位词这两个单词的祖先节点上位词树,叫做最常见的包含(LCS)。 统计数字之间的边缘 通过给与LCS长度( )。然后应用禄语义相似度测量(16)方法(注意,禄方法使用最大深度 英语WordNet 3.0版本分类法是固定的和等于12)。 输出数值两项之间的语义相似度 停止。 候选词之间的语义相似度和所有查询条件是获得(17)。

3.5。权重的方法扩大查询条件

量化宽松政策条款的选择上面描述的方法生成候选项的列表,选中的候选人方面,系统增加了用户查询必须再加权。不同的方法已经被提出了量化宽松政策重新调整。我们做了一个对比分析,这些方法和测试哪一个是最适合我们的提议AQE模型。最传统和扩展术语权重的简单的方法是Rocchio算法(26]。在这提出工作中,我们使用Rocchio测试版Rocchio的算法,我们只需要 参数。最后,我们计算的新体重qtw候选术语作为扩张的原始用户查询如下:

在(18),参数 候选词的旧的重量吗 的最大重量是扩展查询项。 是一个设置参数, 查询词 频率, 查询词 最大频率出现在查询 。参数的值 是固定的, 在我们的实验。最后,选择候选术语权重后用于扩大用户查询。

4所示。实验研究

本文中的所有实验都是基于该模型提出了部分3。第一,个人的表现方法如CBQE RSVBQE, IGBQE, KLDBQE互相比较或与Okapi-BM25 [18]。第二,BBQE的性能和BSBQE Aguera和Araujo比较的模型(组合多个条件选择方法)(5使用不同的绩效评估参数)。

4.1。数据集

在本节中,我们描述了两个著名的基准测试集合用于我们的实验:TREC磁盘1和2和火临时数据集,不同的大小和类型(TREC磁盘1和2的尺寸是6 Gb,而火数据集是3.4 Gb)。的详细描述数据集给出了表1。查询数量从126年到175年用于火灾数据集和查询数量从151年到200年用于TREC数据集(50不同集合的查询用于数据集)。TREC磁盘1和2收藏品包含来自不同来源的新闻专线的文章,如协会出版社,华尔街日报、金融时报》和联邦公报,认为高质量的文本数据用最小的噪音。火临时数据集是一个包含新闻专线的中型收集从两条不同来源的命名提供的电报和BD新闻24印度统计研究所,加尔各答,印度。

在我们的实验中,我们只使用标题TREC和消防领域查询集检索任务,因为这个领域是更接近实际的查询实时应用程序使用。表的最后一列1介绍了平均文件长度在相应的TREC和消防数据集。

基于性能,波特抽梗机是用来干过程中每一项的索引和查询,和420年的最新列表停止词用于删除停止的话。火和TREC数据集,前10名,25岁和50检索文档是用来测量精度,平均召回,意味着平均精度。

4.2。参数调优

研究参数的最佳设置公平的比较,我们使用了训练方法解释迪亚兹和麦茨勒27为我们建议的模型,在红外领域很流行。首先,脉冲重复频率的参数模型,我们使用不同数量的前反馈文档基线和提出的方法(5、10、15、25和50),找到最优的反馈文档数。在这里,我们发现我们的模型表现最好的前15名的反馈文档;这就是为什么我们修复前15名反馈文档术语池在我们的实验中。第二,我们从排名选择不同数量的前候选词候选术语基于相似度值与查询项扩展条款(10年,20年,30、50、75),基线和提出的方法找到最优数量的扩张方面用于调整查询。在这里,我们发现我们的模型表现最好的前30名候选人的条件;这就是为什么我们修复前30名候选人条件将原始用户查询在我们的实验中。

4.3。评价参数

回忆( )、精度( ), 测量三个参数是用来评估信息检索系统的性能;召回是由 在哪里 组相关文件检索和吗 所有相关文件的集合, 在哪里 检索到的文档集。

平均精度(美联社)作为标准测量发现的质量信息检索的搜索系统。文档的精度 被定义为组内的部分相关文件检索文档。美联社的一组相关文件得到所有这些文档的平均精度: 在哪里 相关的文档集。

一般来说必须有之间的权衡精度和召回他们两人不能同时增加。根据要求,我们可能会感兴趣更高精度或召回。然而,如果我们想要评估的准确性考虑精度和召回,我们可能使用 测量评估结果的准确性。的 测量是一个精密的谐波组合( 和回忆 )的值 文档设置用于信息检索。

测量可以计算如下:

我们使用这些评价指标作为主要的单一性能指标在我们的实验中总结的主要官方评价指标也相应的TREC和消防评估论坛。更证实我们的方法结果的优越性,我们使用固定汇率水平插值precision-recall(公关曲线)曲线的基本比较该方法与其他方法。

4.4。实验结果的量化宽松政策选择方法

23显示查询的检索性能扩展条款选择方法的平均精度和召回火和TREC数据和与Okapi-BM25检索模型相比,在Okapi-BM25是一个先进的概率检索模型(14]。

在我们的实验中,我们发现,我们提出查询的性能扩展条款选择方法IGBQE CBQE, KLDBQE, RSVBQE Okapi-BM25取得显著提高基本的检索模型。我们还注意到改善通过该模型在TREC磁盘1和2是小大于火数据集。这可能是由于磁盘1和2集合包含新闻文章,这通常被认为是高质量的文本数据与低噪音。相反,火临时数据集包含新闻以及网页集合,更具挑战性,包括多个异构的源文件以及更多的噪音。表23表明,KLD基于查询扩展的性能方面选择方法(KLDBQE)高于其他条款选择方法在所有前检索文档集火灾和TREC数据集。

2显示了显著改善了所有个人条件选择使用方法Okapi-BM25 KLDBQE的优势比其他个体火和TREC数据集的方法。

所有使用的11点precision-recall曲线个人选择方法,即CBQE, RSVBQE IGBQE, KLDBQE,基线方法Okapi-BM25图所示3。11点precision-recall曲线图形绘制的插值精度信息检索(IR)系统在11标准召回的水平,也就是说, 。图被广泛用于评估红外系统返回排名的文件,这是很常见的在现代搜索系统。图3还显示了个人条款选择方法的显著改善基线方法在两个数据集。这也表明KLDBQE超过其他个别方法的优越性。

4.5。实验结果Borda和语义相似度的方法

45显示我们提出的检索性能Borda排列组合方法有或没有语义相似度的平均精度和召回火和TREC数据集。然后,我们将该模型与Aguera和Araujo的模型(模型基础上结合三个量化宽松条款选择方法)(5),Aguera和Araujo的模型是一个基于最先进的多个量化宽松条款选择组合检索模型。

两个表45的结果也存在Okapi-BM25和KLDBQE(最好的执行个体方法)的方法比较好。在我们的实验中,表45表明,我们提出的性能基于Borda QE方法BBQE单独和语义相似度BSBQE Okapi-BM25显著提高模型,实现KLDBQE(最佳个体量化宽松条款选择方法),和Aguera Araujo的方法。

4显示了明显改善由我们提出BBQE和BSBQE Okapi-BM25和Aguera Araujo的模型的回忆,精度 措施在火和TREC数据集。

11点precision-recall曲线提出的方法,即BBQE, BSBQE和基线方法Okapi-BM25和Aguera Araujo的模型图所示5。11点precision-recall曲线图形绘制的插值精度信息检索(IR)系统在11标准召回的水平,也就是说, 。图被广泛用于评估红外系统返回排名的文件,这是很常见的在现代搜索系统。图5也显示我们提出的方法的显著改善基线的方法。这表明两Borda排名聚合的组合方案和语义相似度方案对改善有积极影响扩张方面的质量。

4.6。统计分析
4.6.1。统计学意义的方法

通过观察,我们建议的方法是提供更好的性能比最好的个体相似度衡量考虑, 以及应用于显示改善显著。这个配对 以及比较一组与第二组来自同一样品测量。鉴于两套搭配 测量值,配对 以及决定他们不同于彼此重要的假设下的成对差异是独立的,完全相同的正态分布。

统计配对 消防和TREC数据集以及结果列在下表中6- - - - - -7。一个配对 以及在红外最常用的假设检验。在目前的工作,配对 测试进行,以确定该查询扩展方法在统计上不同于KLDBQE(最好的个人方法)和Aguera Araujo的模型。这些配对 测试的返回结果 值, 价值,CI值。的 值= 0表示零假设被拒绝的意思是我们的数据是明显不同于其他方法有95%的把握,因此不能拒绝零假设“相等”在5%显著性水平( )。

如果 值= 1,则表现不统计不同,因此零假设(“相等”)可以在5%的显著性水平(被拒绝 )。 是基于均值的95%置信区间 分布。表6清楚地表明,提出的改进Borda排名聚合方法在KLDBQE方法是统计学意义 ( 几乎是零火和TREC数据集)。

7显示配对 我们两之间以及值提出了方法和Aguera Araujo模型。表只包含该方法通过配对 以及。在我们的实验中,我们比较我们与Aguera提出方法和Araujo模型。表7清楚地表明,我们提出的改进方法BBQE和BSBQE Aguera Araujo模型是显著的 = 0.05 ( 几乎是零火和TREC数据集)。

4.7。总结

我们的观察实验结果的查询扩展的分数和等级组合查询的组合扩张选择方法总结如下:(我)个人查询扩展条款选择方法,即IGBQE, CBQE, RSVBQE KLDBQE,执行比Okapi-BM25 (nonquery展开法)。在所有使用条件选择方法,KLDBQE CBQE中表现最好,IGBQE, RSVBQE。(2)我们提出了基于Borda BBQE取得的成果和表现明显优于Okapi-BM25模型,KLDBQE(最佳个人扩张方面选择方法),和Aguera Araujo的方法。(3)我们建议Borda和语义过滤方法BSBQE比Okapi-BM25模型也表现得更好,KLDBQE(最佳个人扩张方面选择方法),BBQE(最好排名聚合方法),和Aguera Araujo的方法。(iv)配对 以及显示我们提出的方法在基线方法的统计学意义的 值, 价值, 值如表所示6- - - - - -7

5。结论和未来的工作

在这项工作中,我们探索的力量组合多个查询扩展条款选择方法来提高信息检索系统的性能通过使用AQE。我们研究Borda等级相结合的四个量化宽松条款两个真实数据集选择方法有或没有语义相似度的方法。在我们的实验中,我们观察到应用语义相似度后Borda排名聚合表现每个量化宽松条款选择方法的平均精度,回忆,和 测量值。在这种情况下,不同的查询扩展条款的不同的特征选择方法可以捕捉,和新术语可以获得更准确地代表的文件组。

在这篇文章中,我们提出了一个新的基于Borda排列组合的AQE文档检索方法基于脉冲技术,挖掘更多量化宽松政策方面,我们提出了基于Borda数集搞笑、共存,RSV, KLD分数候选人扩张的条件和产生一个候选人扩张的术语列表。拟议中的Borda方法使用投票的方法来推断出额外的查询项的权重,然后使用这些额外的查询项连同原始查询条件检索文件为提高信息检索系统的性能。Borda方法后,语义相似度算法被用来过滤掉语义无关的术语从候选人扩张后获得Borda排名基于聚合查询扩展的方法。

TREC和火基准数据集被用来验证我们提出的量化宽松政策的方法。实验证实,我们提出了量化宽松政策方法提高精度的价值观,回忆,和 测量。平均精度和平均召回的更高的价值也得到了该方法相比Okapi-BM25和Aguera Araujo量化宽松政策的方法。一个配对 以及进行统计分析。这个统计分析证实了提出的基于Borda QE方法显著提高了红外效率相比Okapi-BM25 Aguera和Araujo的方法。模型的鲁棒性,提出了量化宽松政策可能进一步其他TREC数据集上进行测试。

命名法

: 原始用户查询
: 最初由Okapi-BM25检索文档的用户查询的功能
: 词的频率
: 查询词的频率
: 文件长度
: 平均文件长度
: 整个语料库中的文档数量
: 最初的一些高级检索文档的用户查询或设置脉冲文档
: 整个语料库包含相关和nonrelevant文档的用户查询
: 逆文档频率
: 包含术语的语料库中的文档数量
: 候选人之间的语义相似度 和查询
: WordNet深度或概念的最大深度
: 最常见的包含
同现一个候选术语与程度 th查询词
: 华尔街日报模块之间建立语义相似度和候选术语 th查询词
: 池或候选术语集包含所有独特的脉冲重复频率的文档
: 单一的候选项
文档: 文档。

利益冲突

作者宣称没有利益冲突有关的出版。