本文地址相似度计算的问题在传统的最近邻协同过滤推荐算法,特别是失败在描述动态的用户偏好。从的角度解决用户兴趣漂移的问题,提出了一种新的混合相似度计算模型。这个模型包括两个部分,一方面采用函数拟合模型来描述用户的评级行为和其评级偏好,另一方面它使用随机森林算法考虑用户属性特性。此外,本文结合两个部分为用户建立一个新的混合相似性计算模型的建议。实验结果表明,不同大小的数据集,该模型的预测精度高于传统的推荐算法。
传统协同过滤(CF)算法通常基于user-item评级计算用户或项目之间的相似度矩阵,并根据相似性计算他们选择了最近邻和构造预测分数来产生推荐列表。因此,相似度计算的精度和质量决定建议由启发式CF算法。然而,目前传统的启发式CF推荐算法受到一系列问题的相似度计算,如失败找到用户感兴趣的变化;即通过直接计算相似性的基础上统计,它只考虑用户评分和中心评级而忽略其他因素评级时,如用户属性、重量、时间和用户评级的习惯。
为了解决相似性计算的问题在传统的启发式CF推荐和改善其性能,罗et al。
开始从不同的角度,上面的研究旨在加强用户和项目之间的关系改善用户或项目之间的相似度,得到最优最近邻集合,最后在此基础上提高推荐精度和质量。然而,当加强用户和项目之间的关系,我们可以考虑一些因素,如用户的人口统计特征和衰减时间效应造成的评级,这对协会有一定的影响。这是非常有效的考虑用户属性特性在处理用户冷启动的问题。
因此,本文提出了一种新的相似性计算方法:RIT-UA算法。RIT-UA算法由两部分组成:一是用户rating-interest的相似性,认为用户评级的相似性和兴趣的变化和影响以及两个等级的约束下时间和用户之间的可靠系数;另一部分是用户属性的相似性,考虑了影响用户属性功能的建议和计算用户的相似属性后的重量每个属性特征。最后,RIT-UA直线算法适合两部分。实验结果表明,与传统方法相比,本文提出的算法可以获得更好的预测精度。
在对推荐系统的研究,尽管近年来,推荐系统研究了经常和发展充分,仍存在一些共同的问题,如数据稀疏、冷启动和用户兴趣漂移。为了解决这些问题,提高推荐精度和准确性,研究人员可能会考虑到很多方面,包括基本的用户属性特征和用户行为发生的时间和地点,并对这些形成相应的研究。
人口推荐系统(DRS)是一个推荐系统的重要组成部分。人口特征可以用来识别用户的类型和他们的偏好,和系统用户可以根据自己的属性特征和生成的建议基于排序的结果。DRS扮演一个伟大的配角在处理用户冷启动和数据稀疏的问题。目前的许多研究都证明,用户属性特性可以提高精度的建议。罗等。
与推荐系统研究的深入发展,为了获得更好的建议和提高推荐质量,许多研究者开始将上下文信息合并到推荐系统的研究。相对而言,信息容易收集之间的上下文信息,并提供了重要的价值研究提高推荐系统的时间序列的多样性,已成为一个热门话题在当前研究[
在相对稀疏数据的背景下,从的角度解决用户兴趣漂移的问题,本文提出了RIT-UA算法的基础上,传统的相似性计算,通过引入因素(如用户评级的属性特征和时间衰变)影响用户的评级行为。RIT-UA算法由两部分组成:一个是rating-interest的相似之处,另一部分是用户属性的相似之处。
rating-interest由评级相似的相似之处和兴趣相似,主要考虑两个方面:用户的偏好和用户评级的习惯。与此同时,基于两个方面,介绍了评级的时间衰减的影响以及用户之间的可靠系数也介绍了波动因素的结合提出了文献[
领域的电子商务系统,评级或投票通常被用来获取用户的直接对商品的偏好。假设用户对物品的偏爱程度分为5个层次,这是
User-item评级矩阵。
| 第一项 | 第二项 | 项目3 | 第四项 | |
|---|---|---|---|---|
| 用户1 |
|
|
- - - - - - |
|
| 用户2 | - - - - - - |
|
|
|
| 用户3 |
|
- - - - - - |
|
|
| 用户4 | - - - - - - |
|
- - - - - - |
|
表
方程(
每个用户都有自己的评级的习惯。例如,一些用户不坚持步枪总是给一个高分,虽然有些严格的用户关注细节可能会给很低的分数。因为他们更严格的分数,他们轻易不给高分。因此,用户习惯的描述有助于提高预测精度。为用户评级习惯和固有的属性项,科伦(
因此,评级项目的范围内,当用户往往会取得高分,喜欢一个对象,他/她通常给高分。然而,即使用户不喜欢的对象时,他/她不会给低分,反之亦然。因此,根据用户给出的平均分数的一个项目,他/她的兴趣和偏好的评级习惯可以显示。同样,基于文献[
方程(
一般来说,对用户的行为,发生在不同的时间同样会导致缺乏有效的定量分析。时间因素显示了用户兴趣漂移的程度的变化趋势。评级信息到现在时间越近,更好的推荐效果,反之亦然。在此基础上,一些研究使用线性和非线性函数来量化评级行为随着时间的推移。
在文献[
艾宾浩斯遗忘曲线的变化。
当用户数据的数量极其稀少,corated项目很小,有一个大的偶然因素相似度计算。李等人。
方程(
考虑到置信系数后,调整后的方程来计算用户的相似度rating-interest到达:
考虑到用户属性的相似性,一方面它可以提高预测的准确性,另一方面它可以解决新用户冷启动的问题;也就是说,当没有其他可用评级数据,数据的用户属性特性可用于构建模型并给出建议。至于描述用户属性的相似性,文献[
对单用户属性,表示为
它表明,当用户
在(
部分
在(
RIT-UA相似性算法在算法的描述
算法
输入:
算法
因此,从算法的描述
考虑到开放和权威的数据集,与此同时,我们的模拟实验是基于得分矩阵,所以我们选择了两个数据集,即movielens - 100 k和Netflix,进行实验分析和比较。如下所示的流程。
数据集是一个电影评级GroupLens研究提供的数据集。数据集包含100000电影评级从1682年的943用户,每个用户评级至少20个电影,和评级区间
User-item评级矩阵。
| movielens - 100 k | 网飞公司 | |
|---|---|---|
| 用户 |
|
|
| 项目 |
|
|
| 评级 |
|
|
| 评定量表 |
|
|
| 稀疏的数据 |
|
|
user-rated项的数量的变化趋势(降序)。
毫升- 100 k的数据集
Netflix的数据集
在ml - 100 k的数据集,只有4属性对用户的属性特征:性别、年龄、职业、和邮政编码。
Netflix的数据集是一个部分的原始Netflix游戏数据。后适当的数据清理,数据集包含387939个评级从5080年的4861用户对象,其中每个用户评级至少20对象,以及评级区间
的稀疏数据集
打扫Netflix数据集的过程中,由于没有用户属性特征数据,根据用户的特征属性数据的ml - 100 k,本文随机生成数据的三个用户属性在Netflix通过仿真实验:性别、年龄和职业。年龄属性的范围
一般来说,有评价数量如梅(平均绝对误差)和RMSE(根均方误差)在实验评价推荐系统的预测精度。比较之后,RMSE(根均方误差)作为本文的评价数量。方程是
从(
随机森林是一个学习方法,可以分析复杂的交互式特性数据,即使在某些数据噪声的影响是非常健壮的,并且它是非常有效的学习和分析功能。它的变量重要性度量可以对高维数据的特征选择工具。近年来,它已被广泛应用于各种预测,特征选择和异常检测(
因此,我们得到每个用户属性的权重值特性与随机森林算法在ml - 100 k和Netflix数据集。实验结果如图
排名的用户属性的权重值特性(ml - 100 k)。
排名的权重价值用户属性特征(Netflix)。
在ml - 100 k的数据集,从图
插图的部分数据
为了测试的相对最优权重值和每个属性的(年龄、性别、职业、和邮政编码)和(年龄、性别和职业)ml - 100 k和Netflix的数据集,我们进行几组比较实验,实验结果如图
实验比较不同用户属性的权重值(ml - 100 k)。
实验比较不同用户属性的权重值(Netflix)。
根据(
实验结果与不同的α和β(ml - 100 k)。
实验结果与不同的α和β(Netflix)。
从结果显示数据
为了验证本文算法的有效性,我们比较它与其他相似的措施,包括皮尔森相似,调整余弦相似性(Acosine), PIP [
实验比较不同的相似性算法(ml - 100 k)。
实验比较不同的相似性算法(Netflix)。
从图
基于ml - 100 k的数据集,本文选择20%,40%,60%,和80%的数据集,分别。邻居
比较不同算法所产生的结果数据集的大小不同(ml - 100 k)。
从图
针对传统的相似性计算中存在的问题,提出了一种新的相似度计算模型。如用户评级模型描述和表达方面的偏好,用户评级的习惯,和时间因素。此外,用户属性特性是考虑对用户评分的影响,以及每个属性的作用特性在建议进行了研究。然后随机森林算法来计算每个属性的权重值。最后的实验结果表明,与其他相似措施相比,本文中提出的方法显著提高了推荐精度,甚至在稀疏的情况下的数据还显示了更好的实验结果。实验的不足之处是,由于用户属性数据在数据集相对较小,没有明显的差异在计算用户属性的特征权重值,用户属性数据是私有的和不容易获得,这不可避免地投下阴影的实验。
作者宣称没有利益冲突有关的出版。
这个项目是基础研究基金支持的中央大学中南大学没有。2017 zzts623和湖南省2011协同创新中心开发和利用的金融和经济大数据属性。