IJDMB 国际期刊的数字多媒体广播 1687 - 7586 1687 - 7578 Hindawi 10.1155 / 2017/1386461 1386461 研究文章 小说优惠扩散推荐算法根据用户最近的邻居 http://orcid.org/0000 - 0002 - 2323 - 8033 富国 1 2 http://orcid.org/0000 - 0002 - 4053 - 7051 Yehuan 1 Qinqiao 1 Hyo-Jong 1 信息技术学院 江西财经大学和经济学 南昌330013年 中国 jxufe.edu.cn 2 为信息资源管理研究机构 江西财经大学和经济学 南昌330013年 中国 jxufe.edu.cn 2017年 4 5 2017年 2017年 01 03 2017年 11 04 2017年 4 5 2017年 2017年 版权©2017富国Zhang et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

推荐系统是一个非常有效的方式应对信息过载的问题对在线用户。近年来,基于网络的推荐算法具有更好的性能比标准的协同过滤方法。然而,大多数基于网络的算法不给足够高的体重目标用户的最近邻居的影响在资源扩散过程中,当一个用户或一个对象与高度在标准的质量将获得更大的影响力扩散算法。在本文中,我们提出一个新颖的优惠扩散推荐算法考虑目标用户的最近邻居的意义和评价的三个真实的数据集:MovieLens 100 k, MovieLens 1 m, Epinions这样。实验结果表明,小说优惠扩散基于用户的最近邻居的推荐算法可以显著提高推荐精度和多样性。

中国国家自然科学基金 71361012 71363022 国家科学基金会的江西 20161 bab201029 江西省教育部门的基础 GJJ。150446年
1。介绍

随着因特网的快速发展在过去的几年中,网络信息的数量以指数速度增长,导致信息过载问题。当面对大量的信息,我们很难找到有价值的信息准确、迅速。个性化推荐系统是解决这个问题最有效的工具,它也可以帮助企业用户的潜在需求的现实需求 1, 2]。

到目前为止,各种推荐方法已经提出和发展。最成功的推荐系统的方法是基于协同过滤技术( 3- - - - - - 5]。最近,一些物理方法,如大规模扩散( 6- - - - - - 9和导热 10, 11),发现应用程序在个性化推荐。标准质量扩散算法应用三步质量扩散从目标用户的user对象由两部分构成的网络,它准确地优于标准的协同过滤方法( 1]。许多不同的由两部分构成的基于网络的方法( 12)提出了实现更好的推荐性能。在[ 6),周等人提出了一个混合法结合质量扩散和热传导解决推荐系统的明显diversity-accuracy困境。出于提高优惠扩散算法找到不受欢迎和定位对象的能力,优先扩散设计( 9]。此外,张和曾提出一个策略来增加一些虚拟连接到网络,这是有用的解决冷启动问题,推荐系统( 13]。

然而,这些方法并不足够高的权重的影响目标用户的最近邻居资源扩散过程。我们都知道,鸟以群分,物以类聚。用户的最近邻居的人有相似的品味与给定的用户。因此我们引入一个新的优惠扩散推荐算法考虑目标用户的最近邻居的重要性在扩散过程。

2。方法

一个推荐系统可以表示为一个由两部分构成的网络 G ( U , O , E ) ,在那里 U = { u 1 , u 2 , , u } , O = { o 1 , o 2 , , o n } , E = { e 1 , e 2 , , e } 是用户的设置、对象和链接,分别为( 7]。表示由 一个 × n 的邻接矩阵元素 一个 一个 = 1 如果用户 已选择的对象 一个 一个 一个 = 0 否则。

2.1。标准质量扩散推荐算法

作为显示在图 1,标准的质量扩散(SMD)算法相当于一个三步随机游走过程。首先,由两部分构成的网络中对象分配一个初始资源 f , f = { f 1 , f 2 , , f α , , f n } 为目标用户 。为简单起见,如果一个对象是用户收集的 ,其初始资源分配是1,否则被分配为0。也就是说,最初的资源向量 f 可以写成 (1) f α = 一个 α

标准质量扩散算法在工作由两部分构成的用户对象网络。用户显示为圆形和对象是方形。目标用户是黑色圆圈所示。

然后,每个对象的资源分配给用户收集的对象一般,和用户的资源收到对象是资源的总和。最后,每个用户的资源分配给他收集了一般的对象。对象的最后得分的资源可以通过转换计算 f = W f ,在那里 W 是资源转移矩阵。 (2) w α β = 1 k β l = 1 一个 l α 一个 l β k l , 在哪里 k β 对象的学位吗 β k l 是用户的程度 l

2.2。这部小说优惠扩散算法根据用户最近的邻居

根据先前的研究[ 14),小说的扩散过程优先扩散推荐算法根据用户最近的邻居(NNMD)如图 2。首先,我们计算Jaccard目标用户之间的相似之处 和其他用户 N 类似的邻居。Jaccard相似的公式 (3) J j = N N j N N j , 在哪里 J j 是Jaccard用户之间的相似之处吗 和用户 j N N j 用户邻居的用户吗 和用户 j ,分别。然后我们可以得到对象的初始资源用向量 f 1 , f 1 = { f 11 , f 12 , , f 1 α , , f 1 n } 为目标用户 f 1 可以写成 (4) f 1 α = 一个 α + k U 一个 k α , 在哪里 U 目标用户的最近邻居集吗 。在图 2, f 1 = ( 3、1 , 2、2 , 0 ) 。但只有目标用户的对象 选择了可以分配资源给用户通过转换,然后重新分配吗 (5) f 2 = W f 1 f , 在哪里 W 是一样的( 2)。在图 2, f 2 = ( 2、0.5、1 , 1.5,0 ) 。最后,我们使用资源向量的线性组合 f 1 f 2 得到最后一个向量对象的资源 F 。也就是说, (6) F = α f 1 + 1 - - - - - - α f 2 , 在哪里 α 是一个从0到1的变量参数。

小说优惠扩散算法通过用户的最近邻居在工作由两部分构成的用户对象网络。用户显示为圆形和对象是方形。目标用户由黑色圆圈和表示目标用户的最近邻居的圈子里有一个字母“ n “在他们, α 是变量参数。

3所示。数据和指标 3.1。数据

为了测试算法的性能,我们使用三个基准数据集如表所示 1。这些数据集的稀疏表的最后一列所示 1。他们非常稀疏,特别是Epinions这样数据集。MovieLens 100 k和MovieLens 1 m的数据集 15)被GroupLens研究小组收集。他们由100000评级从1682种不同的电影和1000209 943用户评级从6040用户3952个不同的电影,分别。评级是整数数字1到5的范围。Epinions这样的数据集( 16]由22166用户,296277对象,和922267年评级。有人指出Epinions这样数据集非常稀疏。用户只有少数项目系统中,为了得到更好的结果,我们删除这些用户和对象与程度小于7。最后,我们得到一个新的数据集由4066用户,7649个对象,154122评级。我们随机将数据集划分为两个部分:训练集 E T 包含80%的数据,其余20%的数据构成了探针集 E P

这三个数据集的基本性质和稀疏的定义是 E / ( N u N o )

网络 E N u N o 稀疏
MovieLens 100 k 100000年 943年 1682年 0.063
MovieLens 1米 1000209 6040年 3952年 0.042
Epinions这样 154122年 4066年 7649年 0.005
3.2。指标

已经有相当多的研究领域的推荐系统评价。准确性是最重要的方面在评估推荐算法的性能。在本文中,我们使用排名分数( 8)来衡量的能力推荐算法来生成一个目标用户排名的狼狈的对象匹配用户的偏好。为目标用户 u ,推荐算法将返回 u 他没有选择对象的排名,根据 E P ,如果 u 已选择的对象 o j o j 是在 r j 在排名,我们说的位置 o j (7) R j = r j l , 在哪里 l 是他没有选择对象的数量。我们获得所有用户对象排名得分的平均值 E P ;也就是说, (8) R = 1 E P j E P R j

显然,排名分数越大,算法的精度越低,反之亦然。

在实际的推荐系统,我们可以考虑对象的数量,用户的推荐列表。因此,我们需要另一个精度指标精度。对于一个目标对象 o j 和用户 u 在推荐系统,有4例。首先,推荐系统推荐对象和用户喜欢它。第二,推荐系统推荐对象,但用户不喜欢它。第三,用户喜欢的对象,但推荐系统不推荐它。最后,用户不喜欢的对象和推荐系统不推荐它。如表所示 2, C t p , C f n , C f p , C t n 表示对象的四个病例的数量。

的四例未经选择的对象目标用户的推荐系统。

用户喜欢 推荐系统推荐 推荐系统不推荐
喜欢 C t p C f n
不喜欢 C f p C t n

为目标用户 u ,推荐的精度 P ( l ) 被定义为 (9) P l = C t p l = C t p C t p + C f p

我们获得的平均精度 P ( l ) 所有用户的推荐系统。除了准确性,多样性是考虑评估推荐算法作为另一个重要方面。有两种类型的多样性。一个叫intrauser-diversity [ 17];另一个叫做interuser-diversity [ 18]。在本文中,我们考虑interuser-diversity。它认为在推荐列表中用户之间的不同对象。为两个用户 u u j ,可以使用由汉明距离测量的差异( 18]: (10) H j l = 1 - - - - - - 年代 j l l , 在哪里 年代 j ( l ) 之间的共同对象的数量吗 u u j 在推荐列表中 l 推荐列表的长度。显然,如果 u u j 有相同的推荐列表, H j ( l ) = 0 ,而如果推荐列表是完全不同的, H j ( l ) = 1

在现实中,人们已经发现,一个推荐系统具有高精度可能不满意的用户( 19]。例如,对于一个电影网站,向用户推荐流行的电影可能并不总是最好的建议,因为用户可能已经看到这些电影在其他方面。一个好的推荐系统可以找到的对象匹配用户的偏好和不太可能是已知的。因此,新奇也经常用于评估推荐算法的性能。

推荐列表中的对象的平均度被广泛用于识别的新奇推荐系统( 20.),它被定义为 (11) N l = 1 l u o O R k o , 在哪里 用户的数量, O R 推荐用户列表吗 u , k o 对象的学位吗 o

4所示。结果与讨论

在第一组实验中,我们比较NNMD算法在不同的分数排名 α 和顶部 N ( N 是目标用户的最近邻居的数量)与SMD算法。结果MovieLens 100 k, MovieLens 1 m, Epinions这样数据报告图 3。显然,我们可以看到,100年MovieLens k和MovieLens 1 m,增加 N ,排名分数越来越小;也就是说,推荐精度越来越好。然而,当 N 超过30,等级分数的变化很小。此外,只要 α 不等于0或1,等级评分的方法优于SMD算法。有趣的是,我们的方法的最优参数相同MovieLens 100 k和MovieLens 1 m,这是 N = 50 α = 0.9 ,同时,在Epinions这样,等级评分的改善并不重要。当 α 大于0还是 N 大于20的等级分数NNMD算法是一个小比的SMD算法,,的变化 α N 等级分数的两种算法几乎是相同的。但是,当 N 小于20, α = 0 ,我们的等级评分法优于SMD算法。显然,我们可以得到最优参数 N = 10 α = 0 在Epinions这样。

的整体排名得分NNMD算法在不同 N α 在MovieLens 100 k, MovieLens 1 m, Epinions这样的数据集和SMD的得分排名算法在MovieLens 100 k, MovieLens 1 m, Epinions这样。

然后我们在精密检测性能,interuser-diversity,小说和新奇的算法在最优参数 N α 。总结的结果对所有算法和指标MovieLens 100 k, MovieLens 1 m, Epinions这样数据集如表所示 3。最优参数的最低排名分数。其他三个指标,即精度,interuser-diversity,新奇,得到最优参数。显然,NNMD算法优于SMD算法在所有四个评价指标。

算法的性能MovieLens 100 k, MovieLens 1 m, Epinions这样的数据。精度、interuser-diversity和新奇的对应 l = 20。NNMD的参数 N = 50, α 100年MovieLens = 0.9 k和MovieLens 1 m, Epinions这样的参数 N = 10, α = 0。条目对应于最佳的性能在所有方法都强调以粗体显示。

数据集 算法 排名得分 精度 Interuser-diversity 新奇的事物
MovieLens 100 k NNMD 0.059537 0.2242 0.8401 237年
SMD 0.069011 0.1971 0.6970 279年

MovieLens 1米 NNMD 0.077039 0.2726 0.8816 1340年
SMD 0.095269 0.1949 0.5865 1828年

Epinions这样 NNMD 0.180439 0.0374 0.6787 204年
SMD 0.181141 0.0357 0.6743 205年

精密NNMD和SMD之间的比较三个数据集在不同长度的推荐列表如图 4。清楚表明NNMD算法的精度优于NMD算法在所有三个数据集和它有一个非常重要的改善MovieLens 100 k和MovieLens 1 m。也就是说,我们的方法可以更准确地为用户推荐对象。

NNMD和SMD算法的精度在MovieLens 100 k, MovieLens 1 m, Epinions这样在不同长度的推荐列表。NNMD算法的参数 N = 50 α = 0.9 在MovieLens 100 k和MovieLens 1 m N = 10 α = 0 在Epinions这样。

5展示了我们的方法之间的比较interuser-diversity NNMD和SMD在三个数据集在不同长度的推荐列表。它清楚地表明,我们interuser-diversity NNMD算法优于SMD算法在所有三个数据集,尤其是MovieLens 100 k和MovieLens 1 m。换句话说,对象推荐列表的方法更不同的用户之间。

的interuser-diversity NNMD和SMD算法在MovieLens 100 k, MovieLens 1 m, Epinions这样在不同长度的推荐列表。NNMD算法的参数 N = 50 α = 0.9 在MovieLens 100 k和MovieLens 1 m N = 10 α = 0 在Epinions这样。

6展示了我们的方法之间的比较新奇NNMD和SMD在三个数据集在不同长度的推荐列表。它清楚地表明,我们的方法的新颖性比MovieLens 100 k的SMD和MovieLens 1 m,同时,在Epinions这样,两种算法的结果非常相似,但我们的方法也有一个小比SMD算法的改进。

NNMD和SMD算法的新奇MovieLens 100 k, MovieLens 1 m, Epinions这样在不同长度的推荐列表。NNMD算法的参数 N = 50 α = 0.9 100年MovieLens k和MovieLens 1 m,而 N = 10 α = 0 在Epinions这样。

总之,我们的方法的推荐性能优于标准的大规模扩散。特别是,我们的方法的精度平均增加13.27%比100年MovieLens SMD k和平均增加35.9% MovieLens 1 m和Epinions这样平均增加4.47%。虽然在某些方面的改善算法性能没有显著Epinions这样的数据集,原因可能是数据稀疏,新颖的算法无法得到适当的用户的最近邻居和它会影响我们的算法性能。

5。结论和未来的工作

大多数基于网络的推荐算法倾向于向用户推荐流行的对象( 1因为对象有高度显著影响的资源扩散过程。在本文中,我们提出一个新颖的优惠扩散推荐算法基于用户的最近邻居一个高权重的影响目标用户的最近邻居资源扩散过程。实验结果基于MovieLens 100 k, MovieLens 1 m, Epinions这样数据集显示,做出适当的调整参数 α 或用户的最近邻居集合的大小可以帮助推荐算法得到更好的推荐性能。它不仅可以提供更准确的推荐也产生更多的多样和新颖的建议。

对于未来的工作,我们打算考虑用户之间的评级水平和他最近的邻居。此外,我们将使用信托数据( 21, 22在网络,因为它可以用来找到最近的邻居更准确地在高稀疏数据集,它可能有一个更好的推荐性能。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是由中国国家自然科学基金(批准号71361012和71361012),由国家科学基金会的江西,中国(没有。20161 bab201029),江西省教育部门(没有的基础。GJJ。150446)。

Zhoua T。 Kuscsik Z。 J。 Medo M。 Wakeling j . R。 Y。 解决推荐系统明显diversity-accuracy困境 美国国家科学院院刊》上的美利坚合众国 2010年 107年 10 4511年 4515年 2 - s2.0 - 77949497025 10.1073 / pnas.1000488107 l Medo M。 c . H。 Y。 Z。 T。 推荐系统 物理的报告 2012年 519年 1 1 49 2 - s2.0 - 84866757975 10.1016 / j.physrep.2012.02.006 Konstan j . A。 米勒 b . N。 麦克斯 D。 Herlocker j·L。 戈登 l R。 Riedl J。 应用协同过滤usenet新闻 ACM的通信 1997年 40 3 77年 87年 10.1145/245108.245126 2 - s2.0 - 0031103122 Breese j·S。 Heckerman D。 Kadie C。 实证分析的预测对协同过滤算法 《14日会议上的不确定性人工智能 1998年 43 52 Adomavicius G。 Tuzhilin 一个。 对下一代的推荐系统:一个调查的最先进的和可能的扩展 IEEE工程知识和数据 2005年 17 6 734年 749年 10.1109 / TKDE.2005.99 2 - s2.0 - 20844435854 T。 J。 Medo M。 Y。 由两部分构成的网络投影和个人的建议 物理评论E 2007年 76年 4 e046115 10.1103 / PhysRevE.76.046115 2 - s2.0 - 35648957764 m . S。 l y . C。 T。 实证分析的基于web的用户对象由两部分构成的网络 Europhysics字母 2010年 90年 4 e48006 一个。 Vidmer 一个。 Medo M。 研究。 similarity-preferential过滤的信息扩散过程 EPL 2014年 105年 5 e58002 10.1209 / 0295 - 5075/105/58002 2 - s2.0 - 84897133301 l W。 通过优先扩散信息过滤 物理评论E 2011年 83年 6 e066119 y . C。 布拉特纳 M。 y K。 热传导过程在社区网络上推荐模型 物理评论快报 2007年 99年 10 154301年 j·G。 T。 Q。 信息过滤通过热传导抱有偏见 物理评论E 2011年 84年 3 e037101 F。 一个。 吉拉德 年代。 Medo M。 基于网络的推荐算法:一个回顾 自然史答:统计力学及其应用 2016年 452年 192年 208年 10.1016 / j.physa.2016.02.021 2 - s2.0 - 84961591631 F。 一个。 改善信息过滤通过网络操作 Europhysics字母 2012年 One hundred. 5 58005年 10.1209 / 0295 - 5075/100/58005 2 - s2.0 - 84871339561 f·G。 y . H。 问:问。 小说质量扩散推荐算法根据用户最近的邻居 《信息技术国际研讨会收敛 2016年 http://www.grouplens.org/ http://www.epinions.com/ T。 r . Q。 R R。 L . L。 b . H。 Y。 准确的和多样化的建议通过消除多余的相关性 新物理学杂志 2009年 11 10.1088 / 1367 - 2630/11/12/123008 123008年 2 - s2.0 - 72049108093 T。 L . L。 r . Q。 y . C。 初始配置对网络的影响的建议 Europhysics字母 2008年 81年 5 58004年 58007年 10.1209 / 0295 - 5075/81/58004 2 - s2.0 - 79051469559 通用电气 M。 Delgado-Battenfeld C。 Jannach D。 除了准确性:评估推荐系统的覆盖和意外的惊喜 第四届ACM会议程序推荐系统(RecSys 10) 2010年9月 西班牙巴塞罗那 257年 260年 10.1145/1864708.1864761 2 - s2.0 - 78649970493 Z.-K。 C。 研究。 T。 解决与社会标签推荐系统本身的问题 Europhysics字母 2010年 92年 2 28002年 10.1209 / 0295 - 5075/92/28002 2 - s2.0 - 78751646378 Martinez-Cruz C。 Porcel C。 Bernabe-Moreno J。 Herrera-Viedma E。 一个模型来表示用户对推荐系统的信任使用本体和模糊语言建模 信息科学 2015年 311年 102年 118年 2 - s2.0 - 84927774789 10.1016 / j.ins.2015.03.013 X。 H。 G。 T。 个性化推荐结合用户兴趣和社交圈子 IEEE工程知识和数据 2014年 26 7 1763年 1777年 2 - s2.0 - 84904421842 10.1109 / TKDE.2013.168