一种基于用户最近邻居的新颖优先扩散推荐算法

摘要

推荐系统是解决网络用户信息过载问题的一种非常有效的方法。近年来，基于网络的推荐算法表现出了比标准的协同过滤方法更好的性能。然而，大多数基于网络的算法在资源扩散过程中没有给予目标用户最近邻的影响足够高的权重，而在标准质量扩散算法中，用户或对象的影响力越大。在本文中，我们提出了一种新的优先扩散推荐算法，考虑目标用户最近邻的重要性，并在三个真实数据集MovieLens 100k、MovieLens 1M和Epinions中进行评估。实验结果表明，基于用户最近邻的优先扩散推荐算法能显著提高推荐精度和多样性。

1.介绍

随着过去几年互联网的快速发展，在线信息的数量以指数速度增加，这导致信息过载问题。面对大量信息时，我们几乎无法准确迅速找到有价值的信息。个性化推荐系统是解决此问题的最有效的工具之一，它还可以帮助企业使用户潜在需求成为现实的需求[1,2］．

迄今为止，已提出和开发了各种推荐方法。最成功的推荐系统方法之一是基于协同过滤技术[3.- - - - - -5］．最近，一些物理方法，如质量扩散[6- - - - - -9]及热传导[10.,11.，已经在个性化推荐中得到应用。标准质量扩散算法在用户-对象二部分网上采用了从目标用户开始的三步质量扩散，准确地优于标准协同过滤方法[1］．许多不同的基于二部网络的方法[12.，以达到更好的推荐性能。在[6， Zhou等人提出了一种质量扩散和热传导相结合的混合方法来解决推荐系统的表观多样性-精度困境。为了提高优先扩散算法查找不受欢迎和小生境对象的能力，在[9］．此外，Zhang和Zeng还提出了在网络中添加一些虚拟连接的策略，这对于解决推荐系统中的冷启动问题非常有用[13.］．

然而，所有这些方法都没有给予目标用户最近邻在资源扩散过程中的影响足够高的权重。我们都知道，物以类聚，人以群分。用户最近的邻居是那些与给定用户有相似品味的人。因此，我们引入了一种新的优先扩散推荐算法，考虑了目标用户在扩散过程中最近邻的重要性。

2.方法

推荐系统可以由二分网络表示,在那里,，和分别为用户、对象和链接的集合[7］．表示由邻接矩阵，其中元素如果用户选择了对象和否则。

2．1．标准质量扩散推荐算法

如图所示1，标准质量扩散(SMD)算法相当于一个三步随机行走过程。首先，为二部网络中的对象分配初始资源，和针对目标用户．为简单起见，如果一个对象是由用户收集的，则初始资源赋值为1，否则赋值为0。也就是说，初始资源向量可以写成

然后，将每个对象的资源平均分配给收集该对象的用户，用户的资源为从对象接收的资源之和。最后，将每个用户的资源平均分配给他所收集的对象。对象资源的最终得分可以通过转换计算出来,在那里是资源传输矩阵。在哪里是物体的度数和是用户的程度吗．

2．2．基于用户最近邻的新优先扩散算法

继以前的研究[14.]，基于用户最近邻的新优先扩散推荐算法(NNMD)的扩散过程如图所示2．首先，我们计算目标用户之间的Jaccard相似性和其他用户获得顶级类似的邻居。Jaccard相似性的公式读取在哪里用户之间的Jaccard相似吗和用户和和用户邻居是user的集合吗和用户,分别。然后我们可以得到对象的初始资源表示为向量，和针对目标用户．可以写成在哪里是目标用户的最近邻居集．在图中2,．但只有目标用户的对象已选择可以向用户分发资源，然后通过转换重新分发它们在哪里是相同的（2）.在图中2,．最后，我们使用资源向量的线性组合和获取最后一个对象的资源向量．也就是说，在哪里是从0到1的变量参数。

3.数据和指标

3.1。数据

为了测试算法的性能，我们使用了三个基准数据集，如表所示1．这些数据集的稀疏性显示在表的最后一列中1．它们非常稀疏，尤其是Epinions数据集。MovieLens 100k和MovieLens 1M数据集[15.通过Grouplens研究组收集。它们由1682名用户的10万级等级组成，在3952电影中，从6040名用户提供1000名不同电影的额定值。评级是1至5尺度范围内的整数。渗透数据集[16.]由22166个用户、296277个对象和922267个评级组成。需要注意的是，Epinions数据集是高度稀疏的。用户在系统中只对少数项目进行评分，为了得到更好的结果，我们删除了评分小于7的用户和对象。最后，我们得到一个由4066个用户、7649个对象和154122个评级组成的新数据集。我们随机将数据集分成两部分:训练集包含80%的数据，其余20%的数据构成探测集．


网络				稀疏性

MovieLens 100 k	100000	943	1682	0.063
MovieLens 1米	1000209	6040	3952	0.042
盲文	154122	4066	7649.	0.005

3．2．指标

在推荐系统评价方面有相当多的研究。准确性是评价推荐算法性能最重要的方面。在本文中，我们使用排名分数[8]来衡量推荐算法生成目标用户未收集对象的排序列表的能力，该列表符合用户的偏好。针对目标用户，推荐算法将返回一份他所有未选物品的排名表，根据，如果选择了对象和是在在排名列表中，我们说的位置是在哪里是他未选择的对象的数量。我们获得所有用户对象排名分数的平均值；也就是说,

显然，排名分数越大，算法的准确性就越低，反之亦然。

在实际的推荐系统中，我们可以考虑用户在推荐列表中喜欢的对象的数量。因此，我们采用另一种称为精度的精度度量。对于目标对象和用户在美国，推荐系统中有四种情况。第一种是推荐系统推荐的对象被用户喜欢。二是推荐系统推荐的对象用户不喜欢。第三种是用户喜欢某个对象，但推荐系统没有推荐。最后是用户不喜欢该对象而推荐系统没有推荐的情况。如表所示2,,,，和表示四个案例中对象的数量。


用户喜欢	推荐系统推荐	推荐系统未推荐

喜欢
不喜欢

对于目标用户推荐的准确性被定义为

我们得到了平均精度推荐系统中的所有用户。除了准确性外，多样性是评价推荐算法的另一个重要方面。多样性有两种。一种叫做用户内部多样性[17.];另一个被称为交织者 - 多样性[18.］．在本文中，我们考虑了界面多样性。它考虑了“推荐”列表中的用户之间的不同对象。对于两个用户和，其差异可用汉明距离测量[18.]: 在哪里是常见物体的数量和在建议书籍和是建议书列表的长度。显然，如果和有同样的建议清单，，而如果推荐名单完全不同，．

事实上，我们发现一个准确度高的推荐系统可能并不会令用户满意[19.］．例如，对于一个电影网站来说，向用户推荐热门电影可能并不总是最好的推荐，因为用户可能已经通过其他方式看过这些电影。一个好的推荐系统可以找到符合用户喜好的对象，而且不太可能是已知的。因此，新颖性也常被用于评价推荐算法的性能。

建议列表中的平均对象程度广泛用于识别推荐系统的新颖性[20.，定义为在哪里为用户数量，是用户的推荐列表，和是物体的度数．

4.结果和讨论

在我们的第一组实验中，我们比较了NNMD算法在不同情况下的排名得分和顶部（为目标用户的最近邻数)和SMD算法的最近邻数。MovieLens 100k、MovieLens 1M和Epinions数据的结果如图所示3.．显然，我们可以看到在MovieLens中100k和MovieLens 1M，随着，等级得分较小，更小;也就是说，建议准确性越来越好。但是，什么时候是30以上，排名分数的变化很小。此外，只要不等于0或1时，我们方法的秩评分优于SMD算法。有趣的是，我们方法的最佳参数在MovieLens 100k和MovieLens 1M中是相同的和虽然在渗境中，秩分的改善并不重要。什么时候是大于0还是大于20时，NNMD算法的排名得分略低于SMD算法，且随着和，两种算法的排名分数几乎相同。但是,当小于20和，我们的方法的排名得分比SMD算法的排名得分更好。显然，我们可以得到最优参数和渗透。

然后，我们在最佳参数中审查了精密，间隔多样性和新型算法的新颖性的性能和．表格中显示了所有算法和MOVIELENS 100K，MOVIELENS 1M和渗流数据集的所有算法和度量结果的摘要3.．最优参数的排序得分最低。在最优参数下，得到了精度、用户间分集和新颖性三个指标。显然，NNMD算法在所有四个评估指标上都优于SMD算法。


数据集	算法	排名得分	精确	Interuser-diversity	新奇的事物

MovieLens 100 k	NNMD	0.059537	0.2242	0.8401	237.
MovieLens 100 k	SMD.	0.069011.	0.1971	0.6970	279

MovieLens 1米	NNMD	0.077039.	0.2726	0.8816	1340
MovieLens 1米	SMD.	0.095269	0.1949	0.5865	1828

盲文	NNMD	0.180439	0.0374	0.6787	204.
盲文	SMD.	0.181141	0.0357	0.6743	205.

不同推荐列表长度下，NNMD和SMD在三个数据集上的精度比较如图所示4．它清楚地表明NNMD算法的精度优于所有三种数据集中的NMD算法的精度，并且它在Movielens 100K和Movielens 1M中具有非常显着的改进。也就是说，我们的方法可以更准确地推荐用户的对象。

数字5显示在不同长度的推荐列表中三个数据集中的方法NNMD和SMD与SMD之间的间隔多样性的比较。它清楚地表明，我们的NNMD算法的间隔多样性优于所有三个数据集中的SMD算法，尤其是Movielens 100k和Movielens 1M。换句话说，我们方法的推荐列表中的对象在用户之间更加不同。

数字6显示了在不同长度的推荐列表下三个数据集中我们的方法NNMD和SMD之间的新颖性的比较。它清楚地表明，我们的方法的新颖性比Movielens 100k和Movielens 1M中的SMD更好，而在渗透率中，这两种算法的结果非常相似，但我们的方法也比SMD的改进略微改善算法。

总之，我们的方法的推荐性能优于标准质量扩散。特别地，与Movielens 100K中的SMD相比，我们的方法的精度平均增加了13.27％的百分比，并且平均增加了35.9％的Movielens1M，并且平均增加了4.47％的渗透百分比。虽然在某些方面的算法性能的提高在渗透数据集中不显着，但原因可能是数据如此稀疏，即新颖算法无法获得适当的用户最近的邻居，它会影响我们的算法性能。

5.结论和未来的工作

大多数基于网络的推荐算法都倾向于向用户推荐流行对象[1因为具有高度的对象在资源扩散过程中具有显着影响。在本文中，我们提出了一种基于用户最近邻居的新颖优先扩散推荐算法，其为目标用户的最近邻居在资源扩散过程中提供了高权重。基于MOVIELENS 100K，MOVIELENS 1M和渗透数据集的实验结果表明，在参数中进行适当的调整或者用户最近邻集的大小可以帮助推荐算法获得更好的推荐性能。它不仅可以提供更准确的推荐，而且可以产生更多样化和新颖的推荐。

对于未来的工作，我们打算考虑用户和最近邻居之间的评级水平。此外，我们将使用信任数据[21.,22.]在网络中，因为它可以用来在高稀疏数据集中更准确地找到最近的邻居，并且它可能具有更好的推荐性能。

的利益冲突

作者声明他们没有利益冲突。

致谢

该工作得到了中国国家自然科学基金的部分支持（授予No.71361012和71363022），由中国江西，中国国家科学基金会（20161BAB201029），江西省教育部的基础（NO.GJJ。150446）。

参考文献

T. zhou, Z. Kuscsik, J. Liu, M. Medo, J. R. Wakeling, and Y. Zhang，“解决推荐系统的明显多样性-准确性困境”，美国国家科学院的诉讼程序，卷。107，没有。10，pp。4511-4515，2010。查看：出版商网站|谷歌学者
L. Lü， M. Medo，杨振华，张颖，张振华，周涛，“推荐系统”，物理的报告，第519卷，第5期。1, pp. 1 - 49, 2012。查看：出版商网站|谷歌学者
J.A.Konstan，B. N. Miller，D.Maltz，J.L. Herlocker，L. R. Gordon和J. Riedl，“将协同过滤应用于Usenet新闻”，“ACM的通讯，第40卷，第5期。3，第77-87页，1997。查看：出版商网站|谷歌学者
J.S. Breese，D. Heckerman和C. Kadie，“对协作滤波的预测算法的实证分析”第14届人工智能不确定性学术会议论文集，页43-52,1998。查看：谷歌学者
G. Adomavicius和a . Tuzhilin，《面向下一代推荐系统:对最先进技术和可能扩展的调查》，知识和数据工程的IEEE交易，卷。17，不。6，PP。734-749,2005。查看：出版商网站|谷歌学者
T. Zhou，J.Ren，M.Medo和Y. Zhang，“二分网络预测和个人推荐”物理评论E.，卷。76，没有。4，e046115，2007。查看：出版商网站|谷歌学者
“基于web的用户-对象二部分网的实证分析”，“基于web的用户-对象二部分网的实证分析”，Europhysics字母，卷。90，没有。4，2010年物品ID E48006，2010。查看：谷歌学者
曾志强、维德默、米多、杨志强。相似优先扩散过程的信息过滤EPL第105卷第1期5、Article ID e58002, 2014。查看：出版商网站|谷歌学者
刘伟，“基于偏好扩散的信息过滤”，物理评论E.，第83卷，第83期6、文章编号e066119, 2011。查看：谷歌学者
张玉成，M. Blattner，余永康，“基于社区网络的热传导模型研究”，物理评论快报，卷。99，没有。10，物品ID 154301,2007。查看：谷歌学者
刘建国，周涛，郭强，“基于偏热传导的信息过滤”，物理评论E.，卷。84，不。3，物品ID E037101，2011。查看：谷歌学者
余辉，曾亚平，S. Gillard, M. Medo，“基于网络的推荐算法:综述，”物理A:统计力学及其应用，卷。452，pp。192-208,2016。查看：出版商网站|谷歌学者
F. Zhang And A. Zeng，“通过网络操纵改进信息过滤”Europhysics字母，卷。100，没有。5，物品ID 58005,2012。查看：出版商网站|谷歌学者
张凤国，刘艳华，熊秋青，“基于用户最近邻的质量扩散推荐算法”，计算机应用与发展，vol . 21, no . 2, pp . 344 - 346信息技术融合国际研讨会论文集, 2016年。查看：谷歌学者
http://www.grouplens.org/．
http://www.epinions.com/．
T.周，R. Q. Su，R.R.Liu，L.L.L.L.Jiang，B. H. Wang和Y. Zhang，通过消除冗余相关性，“准确和多样化的建议”新的物理杂志，第11卷，第123008条，2009。查看：出版商网站|谷歌学者
T. Zhou，L. L. L. Jiang，R.Q. Su和Y. C. Zhang，初步配置对基于网络的建议的影响，“Europhysics字母第81卷第1期5, pp. 58004-58007, 2008。查看：出版商网站|谷歌学者
M. Ge, C. Delgado-Battenfeld, D. Jannach，《超越准确性:通过覆盖面和意外发现评估推荐系统》，刊于第四届ACM推荐系统会议论文集(RecSys’10)，pp.257-260，巴塞罗那，西班牙，2010年9月。查看：出版商网站|谷歌学者
Z.-K。张超，刘永忠。Zhang和T. Zhou，“解决带有社会标签的推荐系统中的冷启动问题”，Europhysics字母，卷。92，没有。2，第28002，2010。查看：出版商网站|谷歌学者
C. Martinez-Cruz, C. Porcel, J. Bernabé-Moreno，和E. Herrera-Viedma，“一个使用本体和模糊语言建模来表示推荐系统中用户信任的模型，”信息科学，第311卷，102-118页，2015。查看：出版商网站|谷歌学者
钱学森，冯海华，赵刚，梅涛，“用户兴趣与社交圈结合的个性化推荐”，知识和数据工程的IEEE交易第26卷第2期7, pp. 1763-1777, 2014。查看：出版商网站|谷歌学者

国际数字多媒体广播杂志

大型视觉数据的紧急技术和应用

摘要