研究文章|gydF4y2Ba开放获取gydF4y2Ba
Kai江,像刘,荣小,计算gydF4y2Ba,gydF4y2Ba ”gydF4y2Ba挖掘当地特色为旅行者利用结构化和非结构化数据gydF4y2Ba”,gydF4y2Ba多媒体的发展gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2012年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba987124年gydF4y2Ba,gydF4y2Ba 9gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2012年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2012/987124gydF4y2Ba
挖掘当地特色为旅行者利用结构化和非结构化数据gydF4y2Ba
文摘gydF4y2Ba
最近,许多当地的评论网站Yelp等出现,这大大方便了人们的日常生活,如菜打猎。然而他们未能满足旅客的需求,因为旅行者更关注一个城市的当地特色,而不是城市的高排名的餐馆。为了解决这个问题,本文提出一种当地特产挖掘算法,它利用从当地评论网站结构化数据和非结构化的用户生成内容(UGC)从社区问答网站,和游记。该算法提取的菜的名字从当地审查每个城市数据建立一个文档,并应用gydF4y2BatfidfgydF4y2Ba加权算法对这些文档将菜肴。从非结构化UGC Dish-city相关性计算,结合gydF4y2BatfidfgydF4y2Ba排名得分发现当地的特产。最后,当地特产挖掘结果中重复的合并。推荐服务是建立当地专业旅行者,以及专业的相关餐厅、问答线程和游记。大数据集实验表明,该算法可以实现良好的性能,和单独使用当地审查数据相比,利用非结构化UGC能提高采矿的表现很多,尤其是在大城市。gydF4y2Ba
1。介绍gydF4y2Ba
的概念gydF4y2BaSoLoMogydF4y2Ba(社交本地移动)诱导的移动技术和应用程序。在这种趋势下,许多当地的评论等社交网络服务Yelp (gydF4y2Ba1gydF4y2Ba),点评网(gydF4y2Ba2gydF4y2Ba],和百度Shenbian [gydF4y2Ba3gydF4y2Ba)出现。这些网站允许用户探索、搜索、分享和当地业务实体审查,确实对人们的日常生活提供有价值的信息。比如美食狩猎,这些应用程序可能提供一个伟大的对这个问题的回答“什么是附近的餐馆,这些餐馆的特色菜肴是什么?”,可能满足当地居民,但对于一个旅行者,这是不够的。使旅游者与当地居民不同的是,而不是附近的餐厅,特色的菜肴,一个旅行者更关心城市的地方特色。当地特产意味着菜是如此的特别在某种程度上,它很少发现在其他城市。可能的成分,或烹饪风格,使这道菜味道特别,和当地特产往往揭示了当地文化和生活方式。因此,体验当地特色总是游客的一个重要任务。不幸的是,目前当地审查服务不能满足旅游者的需求,因为下面的。gydF4y2Ba(1)gydF4y2Ba目前当地审查服务往往向用户推荐餐厅的高排名,但一个城市的当地专业并不一定提供高素质的餐馆。因此,用户将无法发现专业。gydF4y2Ba(2)gydF4y2Ba在一些城市,尤其是大公司,餐馆的数量非常大,品种可以是巨大的。在这些城市,当地的专业可能是压倒性的,不能发现的旅行者。例如,百度Shenbian包含49903页餐厅在北京,和这些餐厅覆盖几乎所有中国菜品种,如Chuan-Style Xiang-Style, Lu-Style甚至外国菜品种,如意大利式、朝鲜特色的、日式的。很难一个旅行者挖到这个巨大的信息来找出是北京的特色。gydF4y2Ba
为了解决这个问题,本文提出一种当地特产挖掘算法,利用从当地评论网站结构化数据和非结构化数据从社区问答网站和游记。我们注意到,许多游客会问关于旅游目的地的信息在问答网站如雅虎答案(gydF4y2Ba4gydF4y2Ba之旅后,游客喜欢记录自己的旅行经验的游记。我们认为,社区问答数据及游记可以揭示价值有关旅游目的地的信息,所以这些非结构化的用户生成内容(UGC)采用我们的挖掘算法。gydF4y2Ba
我们的方法首先提取一道菜的名字从餐厅的特色菜肴信息在当地审查数据。这道菜的名字是过滤去除后琐碎的菜的名字,噪音和垃圾邮件。这道菜过滤后,文档是为每个城市建造。文档中的词是推荐的菜肴的餐馆。然后gydF4y2BatfidfgydF4y2Ba加权算法应用于这些文件排列菜肴。对于非结构化UGC,位置是第一次从问答中提取线程和游记,然后菜肴和城市的相关计算。的gydF4y2BatfidfgydF4y2Ba中得分来自当地审查从非结构化数据和生成city-dish相关性得分UGC结合生成最终的分数排名。菜肴与高级分数被认为是当地的特产。重复的菜在当地专业合并和reranked形成最终的当地特产挖掘结果。采矿过程后,推荐服务是建立可推荐当地特色一个旅行者,和对于每一个当地特产,相关的餐厅、问答线程,渊源的排名和展示。大量实验表明,利用结构化当地审查数据和非结构化UGC可以实现良好的当地特产挖掘性能,从而证明我们方法的有效性。gydF4y2Ba
本文的贡献如下。(1)我们所知,这是第一篇论文解决当地特产的采矿和小说问题是特别感兴趣的游客。(2)本文提出了一个方法,利用结构化当地审查数据和非结构化UGC,产生良好的挖掘性能。(3)推荐服务是建立推荐当地特色旅行者。当地的专业相关餐厅、问答线程和游记也呈现给游客,这些信息可以方便旅客的美食打猎。gydF4y2Ba
本文的其余部分组织如下。部分gydF4y2Ba2gydF4y2Ba评论一些相关作品。部分gydF4y2Ba3gydF4y2Ba制定当地特产挖掘问题,提出了挖掘算法的概述。当地特产中阐述了挖掘算法部分gydF4y2Ba4gydF4y2Ba,紧随其后的是推荐服务部分的描述gydF4y2Ba5gydF4y2Ba。节gydF4y2Ba6gydF4y2Ba首次引入实验的设置,然后评估算法的有效性,最后结果报告,其次是一些讨论。部分gydF4y2Ba7gydF4y2Ba总结了论文并提出了未来的研究方向。gydF4y2Ba
2。相关工作gydF4y2Ba
有一些与我们的工作相关的研究工作。这里我们给这些作品从三个方向简要描述。gydF4y2Ba
UGC上下文信息。有一些作品集中在具有里程碑意义的挖掘旅游推荐和旅游吸引力。这些作品采用用户生成的内容,如博客、用户评论、用户评分,作为上下文信息。高et al。gydF4y2Ba5gydF4y2Ba)建立一个旅游推荐服务由事业部矿业地标等照片共享网站Flickr照片。在具有里程碑意义的挖掘过程中,雅虎旅游指南(gydF4y2Ba6gydF4y2Ba)作为一个上下文信息来决定是否采用照片共享网站旅游相关的标记,在具有里程碑意义的排名过程中,用户评论和评级在雅虎旅游指南也带进使用。霁et al。gydF4y2Ba7gydF4y2Ba]收割旅行相关的照片和博客从Windows Live空间(gydF4y2Ba8gydF4y2Ba),并将照片与位置从文本中提取信息,如照片的标题、标签和博客。之后,照片的视觉信息和位置层次结构用于排序和推荐景点。gydF4y2Ba
旅行见闻讲演挖掘。有很多作品致力于提取位置相关信息的挖掘用户生成的大量游记(gydF4y2Ba9gydF4y2Ba- - - - - -gydF4y2Ba12gydF4y2Ba]。你们et al。gydF4y2Ba9gydF4y2Ba)的重点是确定一个游记的主题位置当有多个位置的游记。(gydF4y2Ba10gydF4y2Ba,gydF4y2Ba12gydF4y2Ba)生成模型应用于列车位置相关的当地主题游记,并提取位置的代表文本标签根据这些当地的主题。此外,这些代表标记用于检索相关的图片。代表标签和照片都是集群,排名,组织让用户更好的了解一个特定的位置。在[gydF4y2Ba11gydF4y2Ba]浩等人不仅生成位置的文本和视觉汇总时,他们所做的(gydF4y2Ba10gydF4y2Ba,gydF4y2Ba12gydF4y2Ba),但也充分利用位置的本地主题训练从游记进行旅游目的地推荐对用户的查询。gydF4y2Ba
地方菜。最接近我们的作品(gydF4y2Ba13gydF4y2Ba,gydF4y2Ba14gydF4y2Ba),致力于菜矿业。(gydF4y2Ba13gydF4y2Ba)是专注于菜肴名称提取从餐馆评论,和[gydF4y2Ba14gydF4y2Ba)推动这项工作。除了菜名字提取,gydF4y2Ba14gydF4y2Ba)也试图提取餐厅名字从用户的博客并将它们映射到一个POI数据库,以便提取的菜POI数据库中匹配的餐馆,可以部署到一个移动地图服务。然而,这些作品不同于我们在以下(1)。这些作品的重点是菜的名字萃取提取和餐厅的名字,命名实体的提取和识别问题。但在我们的工作,菜的名字是直接从当地获得评论网站,和我们的工作重点是当地特产的矿业城市,排名和建议有关的问题。(2)菜中提取,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba14gydF4y2Ba)一般当地餐厅提供的菜肴更适合当地居民,虽然菜由我们的工作是城市的特产,这是特别感兴趣的游客。gydF4y2Ba
3所示。系统概述gydF4y2Ba
本节首先给出了注释和制定当地的特色挖掘问题,然后描述了算法的概述。gydF4y2Ba
3.1。问题公式化gydF4y2Ba
餐馆信息经常在不同的地方审查应用程序也有类似的结构。图gydF4y2Ba1gydF4y2Ba显示了两个典型的本地回顾应用程序:左边一个是Yelp (gydF4y2Ba1gydF4y2Ba和正确的是百度ShenbiangydF4y2Ba3gydF4y2Ba]。本地移动应用程序总是把业务实体和地点,所以餐厅页面是固定的一个城市。餐馆页面餐厅的名字,用户等级,基本信息和餐厅的特色菜肴。gydF4y2Ba
在当地审查网站每个页面包含一个gydF4y2Ba城市,餐厅,菜gydF4y2Ba层次结构,所以从餐厅页的许多城市,在图中描述层次结构gydF4y2Ba2gydF4y2Ba可以构造。gydF4y2Ba
城市的注释、餐馆和盘子表中列出gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
|
||||||||||||||
当地特产矿业的问题是:给定一个城市gydF4y2Ba在gydF4y2Ba在城市,排名盘子gydF4y2Ba,gydF4y2Ba和gydF4y2Ba排名靠前的,所以菜特色在城市gydF4y2Ba,这意味着这些菜是著名的城市gydF4y2Ba在其他城市,但很少发现。gydF4y2Ba
3.2。系统架构gydF4y2Ba
图gydF4y2Ba3gydF4y2Ba说明了该方法的概述。我们当地的专业采矿和推荐系统包含四个步骤:步骤1,排名与结构化当地审查数据盘;第二步,排盘与非结构化的用户生成内容;第三步,结合所产生的分数排名第1步和第2步;步骤4,推荐当地特色及其相关餐厅、问答线程,用户及游记。当地的特色挖掘算法将阐述了部分gydF4y2Ba4gydF4y2Ba,推荐服务将在部分gydF4y2Ba5gydF4y2Ba。gydF4y2Ba
4所示。挖掘当地特色gydF4y2Ba
本节阐述了当地特产挖掘算法,包括4个阶段。(1)过滤盘移除琐碎的菜肴,噪音和垃圾邮件,等等。(2)排盘使用本地检查数据。(3)计算使用非结构化UGC dish-city相关性。(4)综合排名得分由阶段2和3生成本地特产,和合并复制和当地特产为最高排名。gydF4y2Ba
4.1。盘过滤gydF4y2Ba
因为餐厅的菜肴推荐页面通常从用户的评论或添加到餐馆老板,他们不能保证质量。他们这道菜采矿过程中必须首先过滤。gydF4y2Ba
我们考虑专业的质量很低,必须丢弃后如果在两个病例。gydF4y2Ba(1)gydF4y2Ba专业是微不足道的,而不是信息。gydF4y2Ba(2)gydF4y2Ba专业垃圾邮件/吵没有意义。gydF4y2Ba
我们开发两个简单的规则来过滤质量较低的专业。案例1,如果这道菜的名字经常出现在其他菜的名字,那么这道菜的名字不是信息,可以丢弃。例如,gydF4y2Ba炒饭gydF4y2Ba经常出现在许多其他菜的名字,如gydF4y2Ba扬州炒饭gydF4y2Ba,gydF4y2Ba牛肉炒饭gydF4y2Ba,gydF4y2Ba蛋炒饭gydF4y2Ba,gydF4y2Ba肉丝炒饭gydF4y2Ba,所以这道菜gydF4y2Ba炒饭gydF4y2Ba应该过滤掉。对于第二种情况,如果这道菜的名字是只推荐一个餐馆,那么它应该被丢弃。gydF4y2Ba
4.2。菜排名使用本地审查数据gydF4y2Ba
从图可以看到什么gydF4y2Ba2gydF4y2Ba,餐厅只能推荐一道菜一次,但是可以推荐一道菜多个餐厅,因此一道菜可以推荐几次在一个城市。凭直觉,如果多次推荐一道菜由不同的餐馆在一个城市,但很少推荐在其他城市,那么这道菜可能是城市的当地特产。所以问题就变成了如何找到菜肴经常出现在一个城市但很少出现在其他城市?,如何分析测量一道菜的“高频率出现在一个城市但出现频率较低的其他城市”?要回答这个问题,gydF4y2BatfidfgydF4y2Ba权重自然进入使用。gydF4y2Ba
的gydF4y2BatfidfgydF4y2Ba权重(术语frequency-inverse文档频率)算法(gydF4y2Ba15gydF4y2Ba常应用于文本分析和文档检索任务为文档选择代表单词。一个词会有高gydF4y2BatfidfgydF4y2Ba重量如果它匹配以下两个条件:(1)这个词词频率(高gydF4y2Ba特遣部队gydF4y2Ba)在给定文档;(2)这个词文档频率(低gydF4y2BadfgydF4y2Ba)在整个文档的集合,因此逆文档频率(高gydF4y2Ba以色列国防军gydF4y2Ba)。这完全符合当地特产开采问题,如果我们认为城市是一个文档,和菜的话。的gydF4y2Ba特遣部队gydF4y2Ba可以测量的频率一道菜建议在一个城市,在吗gydF4y2Ba以色列国防军gydF4y2Ba衡量很少推荐这道菜在其他城市。所以我们采用gydF4y2BatfidfgydF4y2Ba加权秩盘子如下。gydF4y2Ba
对于每一个城市gydF4y2Ba,我们将推荐的菜餐馆在这个城市gydF4y2Ba城市的文档gydF4y2Ba:gydF4y2Ba 如果菜推荐几次不同的餐馆在一个城市,然后这道菜会发生相同的次文档。例如,城市gydF4y2Ba在图gydF4y2Ba2gydF4y2Ba在以下城市文档形式:gydF4y2Ba 后gydF4y2BaCityDocgydF4y2Ba建立每个城市,gydF4y2BatfidfgydF4y2Ba权重可以应用于菜在城市:gydF4y2Ba 在这gydF4y2Ba代表时代这道菜gydF4y2Ba发生在gydF4y2Ba,gydF4y2Ba文档的长度吗gydF4y2Ba,gydF4y2Ba是城市总数,gydF4y2Ba的数量是gydF4y2Ba包含菜gydF4y2Ba。gydF4y2Ba
后gydF4y2BatfidfgydF4y2Ba排名,一道菜gydF4y2BadgydF4y2Ba与高gydF4y2Batfidf (c, d)gydF4y2Ba更有可能是当地特产在城市gydF4y2BacgydF4y2Ba。gydF4y2Ba
4.3。利用非结构化UGCgydF4y2Ba
因为菜狩猎常常是游客的一个重要任务,一个旅行者可能会怀疑她旅游目的地的当地特产是什么当她正在计划旅行。她可能诉诸社区问答网站寻求帮助,例如Yahoo !答案(gydF4y2Ba4gydF4y2Ba]和Quora [gydF4y2Ba16gydF4y2Ba]。例如,她可能会问“什么菜我已经尝试当我前往北京”,有人可能会回答“你应该试试gydF4y2Ba北京烤鸭gydF4y2Ba”。这次旅行之后,她可能会喜欢写游记分享她的经验,包括当地特产她喜欢的旅游目的地。通过这种方式,位置”gydF4y2Ba北京gydF4y2Ba“和菜名称”gydF4y2Ba北京烤鸭gydF4y2Ba“可能多次cooccur问答线程和游记。gydF4y2Ba
所以它是合理的利用信息隐藏在社区问答网站和游记,帮助当地特产挖掘任务。一个简单的想法是使用位置和菜共存测量一道菜的相关性和位置。gydF4y2Ba
由于社交网络应用程序的性质,问题和答案往往是短在社区问答网站,因此它可能会很容易从一个社区问答中提取位置线。但识别相关游记的位置是一个更加困难的任务。旅行见闻讲演的长度通常是长,旅行见闻讲演常常包含许多细节的描述。例如,一个旅行者可能提到她的位置开始旅行,地点在旅行,旅行的目的地;而且她可能比较目的地位置前的旅行。因此,旅行见闻讲演可能提到多个位置。后位置提取自游记,必要但很难确定哪些位置是旅游目的地和旅行见闻讲演中强调。在本文中,我们遵循的工作gydF4y2Ba9gydF4y2Ba旅行见闻讲演中强调)来确定位置。在[gydF4y2Ba9gydF4y2Ba位置是首先提取自游记,和两种类型的特点是计算这些位置,文本功能和地理特征。之后,利用两个独立类型的特性,采用cotraining框架来构建一个分类器来识别一个游记的强调位置。gydF4y2Ba
在问答线程和游记位置确定后,一个菜和一个城市之间的关系可以测量gydF4y2Ba 在这gydF4y2Ba代表这道菜的共存gydF4y2Ba和一个城市gydF4y2Ba在问答网站和游记,和gydF4y2Ba代表城市的集合。gydF4y2Ba
最终排名得分的一道菜是一个城市的当地特产可以通过结合gydF4y2BatfidfgydF4y2Ba体重从当地审查数据和从用户生成内容的相关性分数:gydF4y2Ba 在这gydF4y2Ba是一个因素控制的组合结构化当地审查数据和非结构化UGC。gydF4y2Ba
4.4。合并重复的菜gydF4y2Ba
一些菜可能称为别名或缩写在当地审查数据餐厅的特色菜肴,问答线程和游记。这可能会导致重复的菜在挖掘城市特色。例如,gydF4y2Ba北京烤鸭gydF4y2Ba和gydF4y2Ba烤鸭gydF4y2Ba引用同一个菜在北京,他们都是开采作为北京的当地特产。这将是尴尬和困惑如果他们都是推荐给用户,所以我们开发了一个算法来解决这个问题。gydF4y2Ba
我们观察到,菜的名字通常由4部分组成:原料,口味,烹调方法,和其他辅助单词。我们相信如果原料,口味,烹调方法都是一样的在不同的菜的名字,这些菜的名字应该参考相同的菜。取gydF4y2Ba北京烤鸭gydF4y2Ba和gydF4y2Ba烤鸭gydF4y2Ba作为一个例子,烹饪方法gydF4y2Ba烤gydF4y2Ba和成分gydF4y2Ba鸭gydF4y2Ba在这两个菜的名字是相同的,所以这两道菜的名字被认为指的是同样的菜。辅助词gydF4y2Ba北京gydF4y2Ba这道菜的名字匹配过程中被忽略。gydF4y2Ba
我们爬的菜原料,口味,烹调方法等几家烹饪食谱网站(gydF4y2Ba17gydF4y2Ba,我们使用这些词作为段菜的名字。如果原料,口味,烹调方法是一样的在不同的菜的名字,这些菜的名字被认为是指同一道菜,应该合并。这道菜的名字与最高的体重gydF4y2Ba选择的范例合并后的菜的名字,和合并后的菜肴名称的权重累积的范例的重量。例如,如果北京的排名当地专业{(盘、w(北京)}{(gydF4y2Ba炸酱面,0.18gydF4y2Ba),(gydF4y2Ba北京烤鸭,0.15gydF4y2Ba)(gydF4y2Ba炸猪肉牛肚,0.12gydF4y2Ba)和(gydF4y2Ba烤鸭,0.08gydF4y2Ba)},然后gydF4y2Ba北京烤鸭gydF4y2Ba和gydF4y2Ba烤鸭gydF4y2Ba将合并,gydF4y2Ba北京烤鸭gydF4y2Ba将被选择作为范例及其权重积累。所以最终排名当地专业列表将{(gydF4y2Ba北京烤鸭,0.23gydF4y2Ba)(gydF4y2Ba炸酱面,0.18gydF4y2Ba),(gydF4y2Ba炸猪肉牛肚,0.12gydF4y2Ba)}。gydF4y2Ba
5。推荐服务gydF4y2Ba
当地专业开采后,对于每一个城市,我们建立一个推荐服务,这样一个旅行者可以很容易地找到城市的当地特产和相关的餐厅,问答线程,游记。旅行者带来了很大的便利的美食狩猎和决策。推荐服务的用户界面图gydF4y2Ba4gydF4y2Ba。当用户选择一个城市,这个城市的当地特产将上市(图gydF4y2Ba4(一)gydF4y2Ba)。对于每一个当地特产,用户可以浏览相关的餐厅(图gydF4y2Ba4 (b)gydF4y2Ba(图),相关问答线程gydF4y2Ba4 (d)gydF4y2Ba)和游记(图gydF4y2Ba4 (c)gydF4y2Ba)。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
(c)gydF4y2Ba
(d)gydF4y2Ba
相关的当地特产的饭店餐厅的特色菜肴包含当地特产。我们采用支安打算法(gydF4y2Ba18gydF4y2Ba小修改等级这些餐馆考虑用户等级和restaurant-dish关系。排名算法,餐馆都视为gydF4y2Ba中心gydF4y2Ba是和盘子gydF4y2Ba当局gydF4y2Ba,gydF4y2Ba中心gydF4y2Ba许多饭店与餐馆的初始化用户等级。用户级别和restaurant-dish之间的权衡关系控制的迭代步骤gydF4y2Ba中心gydF4y2Ba和gydF4y2Ba当局gydF4y2Ba计算。收敛的迭代结果排名完全专注于restaurant-dish关系,和早期停止迭代步骤中可以排名结果偏向用户等级。排名过程后,高的餐厅gydF4y2Ba中心gydF4y2Ba分数往往更受欢迎的菜肴和更高的用户等级。这应该是更多的旅行者的首选。gydF4y2Ba
问答线程和游记的片段将提交给指定的用户在当地特产。当地特产的相关问答线程和游记第一项频率排名的菜,然后周围的文本提取表单片段。这些片段作为一个伟大的餐馆列表从当地补偿评估应用程序数据。他们可以帮助游客很多,因为他们是由旅游者和有经验的用户和包含更加生动和详细的信息,比如这道菜的味道如何,最好的菜,餐厅服务以及如何到达那里。gydF4y2Ba
这个建议服务集成到同行旅游指南项目:gydF4y2Bahttp://travel.msra.cn/gydF4y2Ba。gydF4y2Ba
6。实验gydF4y2Ba
此部分首先描述了设置的实验,并比较了该方法与其他三种方法。当地审查数据和非结构化的因素组合UGC也评估。结果报道在细节,其次是一些讨论。gydF4y2Ba
6.1。数据gydF4y2Ba
我们从百度Shenbian爬380965个餐馆页面,并提取gydF4y2Ba城市,餐馆,菜gydF4y2Ba层次结构。此外,我们爬182706位置相关的社区问答线程等流行的问答网站知道(gydF4y2Ba19gydF4y2Ba],了雯雯[gydF4y2Ba20.gydF4y2Ba和问gydF4y2Ba21gydF4y2Ba),和324905年游记等游记分享网站和新浪旅游博客gydF4y2Ba22gydF4y2Ba],网易旅游博客[gydF4y2Ba23gydF4y2Ba],Lvping [gydF4y2Ba24gydF4y2Ba]。盘复制合并的部分gydF4y2Ba4.4gydF4y2Ba68,我们爬一个数据集包含1723个成分,烹饪方法,和50风味烹饪食谱网站。gydF4y2Ba
图gydF4y2Ba5gydF4y2Ba描述了15个城市,大多数餐馆。餐馆的数量在一个城市揭示了城市规模的地理和经济发展。gydF4y2Ba
数据gydF4y2Ba6gydF4y2Ba和gydF4y2Ba7gydF4y2Ba给前15个城市根据问答线程数和游记。这些计算揭示了城市旅游的知名度。gydF4y2Ba
6.2。比较的方法gydF4y2Ba
为了研究开采当地特产的有效性通过利用结构化当地审查数据和非结构化的用户生成内容,我们使用其他三种方法进行比较的目的。所以总有四个评价的实验方法。gydF4y2Ba(我)gydF4y2BaLocalReivew_HITSgydF4y2Ba:这种方法利用restaurant-dish关系当地审查数据排列在每个城市的饭店和菜肴。它使用点击算法(gydF4y2Ba18gydF4y2Ba)restaurant-dish图,考虑到餐馆gydF4y2Ba中心gydF4y2Ba和菜gydF4y2Ba当局gydF4y2Ba,gydF4y2Ba中心gydF4y2Ba分数与餐厅用户等级初始化。迭代完成得分传播后,盘子高gydF4y2Ba权威gydF4y2Ba分数被认为是这个城市的特产。这个算法背后的基本假设是,一个城市的特色是提供大量的餐馆在这个城市,特别是高素质的,因此,专业高gydF4y2Ba权威gydF4y2Ba分数。我们称这种方法为gydF4y2BaLocalReview_HITSgydF4y2Ba。gydF4y2Ba(2)gydF4y2BaLocalReview_tfidfgydF4y2Ba:这种方法组所有城市的餐厅提供的菜肴作为一个文档,然后gydF4y2BatfidfgydF4y2Ba加权算法应用于所有城市的文档。高的菜gydF4y2BatfidfgydF4y2Ba体重是一个城市的特色。阐述了此方法在部分gydF4y2Ba4.2gydF4y2Ba。gydF4y2Ba(3)gydF4y2Ba非结构化UGCgydF4y2Ba:在这个方法中,当地的评论数据仅用于构建菜名字字典来检测盘在非结构化的用户生成内容(UGC),也就是说,游记和问答线程。菜肴和城市的关系从非结构化UGC,开采和菜有高度的相关性被认为是城市的特色。该方法中讨论部分gydF4y2Ba4.3gydF4y2Ba。gydF4y2Ba(iv)gydF4y2Ba结合gydF4y2Ba:这种方法是当地特产挖掘算法提出了。它结合了这两个gydF4y2BatfidfgydF4y2Ba重量所产生的gydF4y2BaLocalReview_tfidfgydF4y2Ba和city-dish相关性所产生的gydF4y2BaUnstructuredUGCgydF4y2Ba。gydF4y2Ba
6.3。组合因素gydF4y2Ba
的因素gydF4y2Ba控制之间的权衡的影响两个不同的数据源,也就是说,当地审查结构化数据和非结构化的UGC。我们改变的因素gydF4y2Ba在一个范围从0到1步长为0.1和评估当地特产矿业对性能gydF4y2Ba。通过这种方式,我们可以调查这个因素如何影响算法的性能和两个不同的数据源的贡献。gydF4y2Ba
6.4。评价gydF4y2Ba
我们选择15个城市根据餐厅计数,问答线程数,和游记,分别获得一套城市包含23个独特的城市。他们在北京、上海、香港、广州、深圳、三亚、丽江、杭州、苏州、桂林、重庆南京、西安、沈阳、济南、天津、昆明、拉萨,黄山,成都,青岛,武汉,厦门。评价不同的当地特产挖掘算法在这些城市执行。gydF4y2Ba
因为它很难找到所有专业在一个城市,甚至人类,回忆难以衡量。所以我们在这里只调查挖掘算法的精度。平均精度(gydF4y2Ba25gydF4y2Ba),这是一个广泛使用的评价指标在信息检索的研究社区,采用测量不同的当地特产挖掘算法的有效性。地面的真相是由人手动标记领域知识。gydF4y2Ba
6.5。结果和讨论gydF4y2Ba
表gydF4y2Ba2gydF4y2Ba列出前五名当地专业在一些主要城市所生成的方法。中国菜的名字和他们的英文翻译,和正确的专业是标记为斜体。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
图gydF4y2Ba8gydF4y2Ba展示城市的平均精度前5菜(AP@5)和十大盘子(AP@10)所产生的不同算法。gydF4y2Ba设置为0.4吗gydF4y2Ba结合gydF4y2Ba方法。表gydF4y2Ba3gydF4y2Ba显示了意味着平均精度在23个城市展示不同挖掘算法的整体性能。gydF4y2Ba
|
||||||||||||||||||||||||||||||
(一)gydF4y2Ba
(b)gydF4y2Ba
从图gydF4y2Ba8gydF4y2Ba和表gydF4y2Ba3gydF4y2Ba,我们可以告诉gydF4y2BaLocalReview_HITS的gydF4y2Ba性能是最差的gydF4y2BaLocalReview_tfidfgydF4y2Ba更好的工作。这告诉我们,背后的假设gydF4y2BaLocalReview_HITSgydF4y2Ba是错误的,也就是说,当地的专业不提供的大量的当地餐馆,这意味着一个旅行者无法轻易找到当地专业仅仅通过浏览顶级餐厅在当地审查的网站。这种情况尤其在大城市如北京、上海、广州和杭州。因为在这些城市,地理规模大,经济高度发达,和不同文化背景的居民,这些因素导致餐厅与巨大的数量和风格。算法利用非结构化的用户生成内容,gydF4y2BaUnstructuredUGCgydF4y2Ba和gydF4y2Ba结合gydF4y2Ba,比算法只使用本地检查数据。这个结果可以直观地解释,因为问答线程和游记透露更多具体信息相关的旅游者和旅游。的gydF4y2Ba结合gydF4y2Ba方法最适合所有评估算法,证明了算法的有效性。gydF4y2Ba
图gydF4y2Ba9gydF4y2Ba显示了该方法的性能变化的因素组合gydF4y2Ba。(1)矿业的图告诉单从非结构化的UGC (gydF4y2Ba是0)可以实现更好的性能比单独从结构化当地审查数据挖掘(gydF4y2Ba1),(2)当本地评审数据增加的贡献(一个更大的吗gydF4y2Ba),性能变得更好,但当当地审查数据的贡献增加到某一阈值(gydF4y2Ba增长高于0.7)时,性能大幅降低。这意味着当地审查结构化数据和非结构化UGC可以相互加强挖掘性能,和非结构化UGC在该算法中扮演更重要的角色。当地的评论数据仅是不够的,但非结构化UGC的帮助下,性能可以提高很多。gydF4y2Ba
7所示。结论和未来的工作gydF4y2Ba
本文提出一种挖掘算法处理小说的当地特产开采问题,这是特别感兴趣的游客。该算法利用从当地评论网站结构化数据和非结构化数据从用户生成内容的问答网站和游记。我们首先提取一道菜的名字从当地审查每个城市数据建立一个文档,并应用gydF4y2BatfidfgydF4y2Ba加权算法对这些文档将菜肴。从非结构化UGC Dish-city相关性计算,结合gydF4y2BatfidfgydF4y2Ba排名得分发现当地特产,紧随其后的是重复的删除。最后推荐服务是建立展示地方特色旅行者,以及专业的相关餐厅、问答线程和游记。大数据集上实验证明了该算法的有效性。结果表明,该算法可以实现良好的当地特产挖掘性能。和单独使用当地审查数据相比,利用非结构化UGC能提高采矿的表现很多,尤其是在大城市。gydF4y2Ba
在未来,我们打算继续在两个方向研究。(1)利用当地审查数据的层次结构更加彻底,如调查饭店和菜肴的关系之间的关系。(2)研究中的非结构化UGC语义水平得到更好的洞察力的旅游相关信息。gydF4y2Ba
确认gydF4y2Ba
这项工作是由中国国家自然科学基金(批准号60933013),国家科技重大项目(批准号2010 zx03004 - 003),中央大学和基础研究基金(批准号WK2100230002)。在同行执行这项工作。gydF4y2Ba
引用gydF4y2Ba
- Yelp,gydF4y2Bahttp://www.yelp.com/gydF4y2Ba。gydF4y2Ba
- 点评网,gydF4y2Bahttp://www.dianping.com/citylistgydF4y2Ba。gydF4y2Ba
- 百度Shenbian,gydF4y2Bahttp://s.baidu.com/citygydF4y2Ba。gydF4y2Ba
- 雅虎答案,gydF4y2Bahttp://answers.yahoo.com/gydF4y2Ba。gydF4y2Ba
- y高,j . Tang r .香港问:戴,t . s . Chua和r . Jain,“W2Go:旅行自动制导系统的具有里程碑意义的排名,”gydF4y2Ba《18 ACM国际多媒体ACM多媒体会议gydF4y2Ba2010年10月,页123 - 132。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 雅虎旅行,gydF4y2Bahttp://travel.yahoo.com/gydF4y2Ba。gydF4y2Ba
- r .霁x谢,h .姚明,w . y .妈,“图形建模、矿业城市地标从博客”gydF4y2Ba学报17 ACM国际会议多媒体,MM的09年,共存讲习班和研讨会gydF4y2Ba2009年10月,页105 - 114。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- Windows Live空间,gydF4y2Bahttps://login.live.com/gydF4y2Ba。gydF4y2Ba
- m .你们r·肖w·c·李和x谢,“游记服务主题位置发现,”gydF4y2Ba美国第34国际市立图书馆研究和发展会议信息gydF4y2Ba,第474 - 465页,2011年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- q, r . Cai,杨j . m . et al .,“TravelScope:站在专用的旅行者的肩膀上,”gydF4y2Ba学报17 ACM国际会议多媒体,MM的09年,共存讲习班和研讨会gydF4y2Ba2009年10月,页1021 - 1022。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- q, r . Cai, c . Wang et al .,“让游客了解采自游记,”gydF4y2Ba19学报》国际万维网(WWW会议10)gydF4y2Ba2010年4月,页401 - 410。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- q, r . Cai, x j . Wang j·m·杨y彭日成,和l .张“生成位置概述通过挖掘用户生成的游记,与图片和标签”gydF4y2Ba学报17 ACM国际会议多媒体,MM的09年,共存讲习班和研讨会gydF4y2Ba2009年10月,页801 - 804。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t·c·彭和c·c·施”,挖掘中国菜肴名称提取餐馆评论:一个应用程序来烹饪指导服务,”gydF4y2Ba《信息工程与计算机科学国际会议(ICIECS ' 09)gydF4y2Ba2009年12月,页1 - 4,。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- c . c . Shih, t·c·彭和w·s .赖“挖掘博客圈生成热点移动地图服务的当地美食,”gydF4y2Ba第四届国际会议上数字信息管理学报》(ICDIM ' 09)gydF4y2Ba2009年11月,页151 - 158。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- g·索尔顿海、e·a·福克斯和h . Wu”扩展布尔信息检索,gydF4y2BaACM的通信gydF4y2Ba,26卷,不。11日,第1036 - 1022页,1983年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- Quora,gydF4y2Bahttp://www.quora.com/gydF4y2Ba。gydF4y2Ba
- Douguo,gydF4y2Bahttp://www.douguo.com/gydF4y2Ba。gydF4y2Ba
- j . m . jonkleinberg“权威来源在超链的环境中,”gydF4y2BaACM的杂志gydF4y2Ba,46卷,不。5,604 - 632年,1999页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 百度知道,gydF4y2Bahttp://zhidao.baidu.com/gydF4y2Ba。gydF4y2Ba
- 李玖哲了雯雯,gydF4y2Bahttp://wenwen.soso.com/gydF4y2Ba。gydF4y2Ba
- 新浪问,gydF4y2Bahttp://iask.sina.com.cn/gydF4y2Ba。gydF4y2Ba
- 新浪旅游博客,gydF4y2Bahttp://blog.sina.com.cn/lm/travel/gydF4y2Ba。gydF4y2Ba
- 网易旅游博客,gydF4y2Bahttp://blog.163.com/travel.htmlgydF4y2Ba。gydF4y2Ba
- Lvping,gydF4y2Bahttp://www.lvping.com/gydF4y2Ba。gydF4y2Ba
- c·d·曼宁,p . Raghavan和h . SchutzegydF4y2Ba信息检索概论gydF4y2Ba英国剑桥,剑桥大学出版社,2008年。gydF4y2Ba
版权gydF4y2Ba
版权©2012 Kai江等。这是一个开放分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba