文摘

简要介绍了基于内容的多媒体检索的特点在信息背景下,分析了这些技术的实现过程中多媒体档案检索系统包括视频和图像信息的数字档案,并指出基于内容的多媒体检索技术必将成为有机结合传统的文本检索方法。信息检索技术在过去只能遵守客户的特定需求。由于其普遍性的特点,他们很难满足不同环境的需求,同时各种目的,不同的时间。研究人员已经提出了个性化检索的多媒体文件基于BP神经网络的计算。通过这种方式,可以分析用户的兴趣模型基于用户的不同分类领域的特点。随后,进行相应的计算,并相应地更新模型。通过实验验证,提出概率模型最优解表达客户的利益及其变化。

1。介绍

近年来信息技术的快速发展已经进入了数字时代,数字和纸质文件的电子文件在过去是逐渐被取代。如何查询用户的需求信息在多媒体数据库中快速、准确地?目前的重要问题是如何处理的问题,供给和需求的档案信息,和个性化搜索的用户是一个有用的解决方案。通过个性化的搜索系统的应用程序引用的信息用户之间的一致性,新方法基于BP神经网络的计算可以发现,其中最重要的因素是用户的类型。然而,它需要用户的参与1- - - - - -3]。随着计算方法基于BP神经网络和协作个性化搜索方法有各自的特点,这两种方法已经在一些系统中采用。

在这篇文章中,用户的需求表达基于域分类的特点,提供了一个方法,用户的兴趣模型,相似度的计算。通过实验,验证,概率模型可以更好地满足用户的利益和需求比向量空间模型。本文主要关注的是应用程序的文本资源,如科学论文,但是我们的计算方法也可以应用于其他领域。

2。多媒体数字档案馆和表达用户兴趣模型

为了比较多媒体数字档案和用户的利益,多媒体数字档案馆和用户兴趣模型以一致的方式表达。传统上,多媒体数字档案馆是基于向量空间模型来表示。缺点是在BP神经网络算法,它需要与多媒体数字正确档案,并很难获得令人满意的结果。当多媒体数字档案馆的概率分布是用来代表了多媒体数字档案,它可以避免精确匹配的必要性之间的多媒体数字档案,这大大提高了搜索精度。以类似的方式,用户感兴趣领域的概率分布可以用来表示用户兴趣模型(4- - - - - -6]。

2.1。向量空间模型

多媒体数字档案馆的功能的应用程序,它可以代表了多媒体数字档案馆和用户感兴趣的一个简单的方式(7- - - - - -9]。为用户更感兴趣的文件,可以使用适当的关键字来表达用户的兴趣所使用的多媒体数字档案。这个方法需要一个训练阶段。首先,单词是用于存储多媒体数字文档的主题提前的话,并相应地为每个单词创建一个标识符。新的多媒体数字档案处理每一个分类器。单词意义的多媒体数字档案将会进一步提供多媒体数字档案。

然而,如果主题是预先定义的,它可能需要大量的工作,覆盖的范围也有限。一个更简单的方法是使用文字提取多媒体数字档案直接表达用户的兴趣(4,5]。该方法不受限制的词性提前定义的主题,在向量的维数一般是不固定的,而一个固定大小也可以被指定。这个方法不能保证有多个两个向量之间的填字游戏,它几乎不能确保为向量的相似度计算的准确性。

2.2。概率模型

向量空间模型不能区分用户的利益之间的差异,它只能显示用户感兴趣的关键词。建立相应的模型基于域的类型,然后是多媒体数据和计算用户感兴趣的主题。通过分类的概率模型,分析了多媒体数字文本和用户的主题,这可以更好地表示用户的兴趣的差异,也更容易在同一时间完成(10- - - - - -13]。话题的单词的数量大于用户感兴趣的类型分类的数量模型。同事要求效率高和速度也要求精度高。模型的相似类型的用户是相对较高的,可以更准确地表示用户的兴趣和他们之间的分歧。

我们为模型应用朴素贝叶斯分类培训。在本节中,探讨了多媒体数字档案的分类模型。的表达用户的兴趣是一致的多媒体数字档案馆的表达。假设的集合区域类型 ,在哪里n代表模型的大小, 代表了jth领域,多媒体数字档案d条件概率表示为向量 在这里,多媒体数字档案d后验概率高的课吗 ,如下:

在上面的方程中,p(d)表示如下:

估计是基于方程如下:

它假定所有的多媒体数字档案的特点独立出现,然后 可以表示为条件概率的乘积为所有多媒体数字档案的特点如下:

假设 这个特性的次数t出现在类 , 代表的次数的总和,所有出现在类的特性 ,和|V|代表所有不同特性的数量在多媒体数字档案集。随后,依照Lidstone连续性定律(克服问题的拉普拉斯连续性定律产生更大的偏差更大数量的分类),对于一个正数λ(一般来说,0.5的价值λ;如果λ= 1,Lidstone定律是一样的拉普拉斯定律),估计价值 可以表示如下:

3所示。用户兴趣模型的更新

在用户兴趣模型建立之后,用户可以自动更新模型,该系统还可以跟踪用户的行为和做出相应的动态更新14]。用户的行为可以添加书签,下载的多媒体数字档案,浏览摘要漏报多媒体数字档案,或者删除书签。这些行动代表用户的不同兴趣。因此,他们有不同的含义15),如表所示1

用户的利益是由多媒体数字档案的特点,如果一个多媒体数字档案推荐给用户,用户的兴趣的特点选择基于多媒体数字档案对应于用户的操作,可调整的次数的功能出现在用户的兴趣向量或重量。假设用户的操作u目前 ,然后相对应的多媒体数字档案用户的操作是dη。学习速率是一个小的常数时,下列方程是用来调整出现的数量和重量的特点:

事件分类模型的概率由用户的利益是条件概率向量。多媒体数字档案时呈现给用户,用户的行为是用来进行多媒体工作在同一时间。每一个分裂的概率向量相应修改。首先,的概率d多媒体数字档案分类模型计算,然后相应的方程用于修改用户感兴趣的条件概率如下:

3.1。个性化检索基于BP神经网络算法

后许多媒体数字档案和用户的利益,多媒体数字档案之间的相似性和用户的利益可以用来进行个性化检索的多媒体数字档案。摘要相似性计算方法,向量空间模型和概率模型和多媒体数字档案用户的个性化检索算法的基础上,介绍了BP神经网络算法。

3.2。相似度的计算方法

关于向量空间模型,传统的相似性的计算方法来计算向量之间的余弦相似性。用户之间的相似性u和多媒体数字档案d可以定义如下:

关于概率模型,是无法直接计算向量的余弦相似性。提出以下命题证明用户利益的多样化。

命题1。假设用户u是条件独立的多媒体数字档案吗d在地面上的分类模型 ,然后多媒体数字档案的概率d建议用户u可表示如下:

证明。从总概率方程,可以得到如下: 假设用户u独立存在的多媒体数字档案d条件下C。因此, 可以获得。此外, 可以获得相应的行动。因此,方程(10)可以转化为以下: 按照 ,方程(11)可以转化为以下: 基于定位的结果1的概率,多媒体数据库的用户可以计算。目的是将类似功能的概率模型来寻求条件概率的问题,证明了用户利益的多样化。基于BP神经网络算法的个性化检索过程如下(算法1):
的系统记录用户的搜索历史和记忆的特点采用相应的点击继续搜索用户的操作行为,即视为数据模型的信息来源。系统自动完成这个一致的操作,这样用户不经历任何干扰。首先,用户的历史搜索信息保存在浏览器,和用户的兴趣是后天习得的。然后,通过用户在搜索结果的操作,用户在搜索信息的利益相应的改变。时间标记被添加到感兴趣的数据。这样,感兴趣的点,用户可以更新(不感兴趣8]。文档是用自然语言表达,本文中使用的向量空间模型构建文档和实现的比较中相应的文件系统。用户兴趣模型的设计过程如图1
中文分词工作完成后通过使用IKAnaylyzer中文分词系统,建立了向量空间模型基于TF-IDF(术语frequency-inverse文档频率)算法。根据TF-IDF的计算方程,重量 的关键字 是通过文档中发生的数量和频率如下: 在上面的方程中, 代表的频率出现在所有的文本生成的关键字,和 代表的频率反向生成文本的文本,根据计算方法如下: 在上面的方程中,N代表文本生成的数量,n代表的数量都包含关键字的文本
考虑时间因素的关键字,和时间标记被添加到每个关键字,这是符合用户的搜索行为的实际情况。该方法计算关键字的权利 可以调整如下: 在上面的方程中,t代表最近的区别的关键字查询时间和一天(一天)的分析。特征向量的web页面显示如下: 在上面的方程中,d代表页面的特征向量, 代表了th当前页面的关键字 代表关键字的重量 在页面中d
比较的数据模型和用户感兴趣的文档,的大小θ成反比的用户的兴趣通过计算角度θ向量之间的 感兴趣的文档的特征向量 越小θ这个文件之间的相关性越高,用户的兴趣和偏好。计算公式如下所示:

4所示。多媒体数字档案馆用户个性化的检索算法

在多媒体数字档案,实现用户的个性化检索算法完成的三个阶段:用户数据的收集和分析,建立用户兴趣模型,用户兴趣模型的更新。获取用户信息为目的的多媒体数字档案,有必要获得明显的信息等用户的注册帐号,年龄、教育、职业、单位,感兴趣的关键词,先等等。用户可以修改和回复上面提到的重要的信息来实现逐步改善相应的信息的目的。然而,一些用户不愿意提供他们的信息由于个人隐私的考虑或时间问题,因此不提交准确的登记信息。为了解决这个问题,可以建立隐式信息的形式提取信息的用户。例如,可以提炼出关键字搜索的书签,并可以下载并保存的文件。基于用户和维护的书签下载并保存文档信息,它可以决定一个问题是否是用户关心的很长一段时间,和它的面积可以相应研究。因此,上述问题可以作为重要的信息来源模型的建立。

兴趣的使用是不固定的,有必要建立一个更新机制的建设模型,消除被遗忘在时间的主题,添加新内容,计算用户的利益的重量,开展基于比例的权重排序。人们的遗忘价值指的是遗忘的趋势开始,逐步发展到晚期阶段。模型系统,感兴趣的关键字的重量乘以更新时间,权重的短语合并,并相应地删除被遗忘的感兴趣的话题。有效的跟踪用户的行为完成后,和一个新的关键字得到重新计算比例。如果重量超过阈值,它被添加到用户的兴趣模型,模型更新完成。从命题1,它可以证明,根据排序的结果和查询基于推荐的比例,计算基于BP神经网络可用于查询用户的媒体数字档案。不平等(9)p(u),如p(u)不干扰的结果建议概率,多媒体数字档案的检索计算用户详细探讨了该方法的算法1)。

输入:域分类模型,用户兴趣模型,搜索关键字和搜索引擎。输出:多媒体数字档案馆的用户个性化的搜索结果。
(1) 搜索引擎是用于生成初步的搜索结果集X基于搜索关键词。
(2) 让迭代次数= 0。
(3) 的迭代操作集。th多媒体数字档案的设置X方程(1)用于计算分类模型的概率分布。
(4) 多媒体数字档案的概率计算建议当前用户基于方程(9),并添加到列表中Y
(5) 如果多媒体数字档案是最后一个多媒体数字档案在一组X,进入步骤(6);否则,让=+ 1,并返回到步骤(3)。
(6) 多媒体数字档案分类根据列表中的概率Y在降序排列,结果输出。

由于算法是实现基于另一个搜索引擎,有必要计算域分类模型的概率分布为每个多媒体数字档案的搜索结果,这可能导致重大影响算法的性能。如果搜索引擎计算域中的概率分布每个提前多媒体数字档案的分类模型,算法的性能将大大提高以满足实时处理的要求。

5。实验结果和分析

5.1。个性化服务实验系统

这四个部分,即浏览插件,个人管理,用户模型学习者,和个性化的信息搜索者,构成实验系统。如图2,众所周知,浏览器插件为用户提供了方便的工具。用户登录到系统后的登记信息,可以使用浏览器插件完成个性化检索多媒体数字档案没有登录到服务器的必要性。此外,浏览器插件主要是收集用户的个人信息和传送信息到服务器。个人管理器是用于管理个人信息的平台,它主要是管理个人信息,爱好,和书签的用户。跟踪用户的行为的目的是学习他们的兴趣。个性化信息检索设备可以完成个人用户查询和多媒体数据做出相应的建议基于BP神经网络的计算。

从其他个性化服务系统的差异如下。①系统的构成是不同的。我们的系统是分布式客户机和服务器的边缘。②系统还可以跟踪用户的行为时正在进行的动作,而不影响顾客的阅读和系统性能。

5.2。实验数据集

实验数据集的来源收集科学抽象的文件。科学论文的关键词和类型都比较明显,所以可以直接获得的结果。收集机制用于选择计算机软件行业,有45个类型。超过2000的计算机软件论文摘要从收集科学抽象提取文件,并相应实践领域进行分类。大小为1.9 MB。

在实验系统中,用户可以自动修改他们的兴趣。该系统还可以跟踪用户的行为。多媒体数字档案下载,用户的利益是动态修改,如浏览摘要,忽略多媒体数字档案,和删除书签。此外,论文感兴趣的用户推荐是基于他们的询问。

5.3。评估标准的实验

我们评估结果的实验通过使用验证率和回收率,广泛应用于信息检索的字段:

召回率计算是0.2。的检查率0.4,0.6,0.8,1%的平均精度定义为平均值的点上面提到的检查率5%。召回率是0时,精度可以适当的提供。一般来说,召回率略高于检查率为0.2%。实验曲线类似于ROC曲线。曲线下的面积越大,算法的准确性就越高。

5.4。实验分析

通过分析、向量空间模型的效果和用户兴趣模型搜索的概率模型计算方法的探讨。如图3向量空间模型的,平均精度小于平均概率模型的准确性。多媒体数字档案与用户兴趣分享更少的关键词。因此,平均精度呈现下降的趋势。然而,并不存在这种情况的概率模型。地区分类概率计算的相似特征的基础上,分析多媒体数字档案和用户的利益,因此平均搜索精度相对较高。

6。结论

目前的情况往往对个性化服务发展。一般检索系统在过去的再也不能满足检索的需求在不同的环境中,不同目的,不同的时间。本文进行一系列的研究和分析关于BP神经计算方法。通过实验,BP神经网络计算的干扰因素可以知道。实验表明,改进了计算的准确性,并且能够表示用户的兴趣和要求正确,这也进一步提高了多媒体数字档案馆的用户个性化检索的准确性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。