文摘

相似度的计算是最重要的基本的协同过滤推荐算法。它扮演着一个重要的角色在计算用户之间的相似性(物品),找到最近的邻居,和预测分数。然而,现有的相似度计算是受到过分依赖条目分数和数据稀疏,导致低的推荐结果的准确性。提出了一种基于信息熵的个性化推荐算法和粒子群优化,考虑相似的用户的评分和偏好特征。它使用随机粒子群优化来优化他们的权重获取综合相似度值。公共数据集的实验结果表明,该方法可以有效地提高推荐结果的准确性的前提下,确保推荐报道。

1。介绍

随着移动互联网技术的发展,人们有越来越多的方法和方法来获取各种各样的信息在互联网上随时随地,可以更方便地选择他们想要得到的内容。然而,与此同时,它也积极或被动地淹没在大量的数据。互联网用户的内容选择过程变得繁琐和复杂的数据量的增加。他们不能快速获得自己真正有用的信息,并使用信息的效率降低。这就是所谓的信息过载问题。个性化推荐的出现有效地解决了这一问题。没有太多的交互,用户可以推荐他们感兴趣的项目或内容供用户选择。个性化推荐是指预测用户的喜好通过分析用户,项目,和与用户和项目相关的信息,然后向特定用户推荐最合适的项目。推荐系统的算法、协同过滤推荐算法是一个更成熟的个性化推荐方法。协同过滤推荐算法(1,2获取k最近的最相似的邻居用户/项目通过相似度计算,然后使用最近邻信息来预测用户的偏爱某一项。

然而,随着用户和项目的数量继续增加,user-item评级矩阵的稀疏的增加,普通项目评级的数量相对减少,和推荐结果的准确性降低。出于这个原因,研究人员专注于相似性计算方法(3]。优化和改进改进提高了推荐结果的准确性。一方面,它是针对user-item评分矩阵的稀疏。Sanjeevi et al。4)提出了一个基于biclustering协同过滤方法(CBE-CF),它使用biclustering密度识别模块的得分矩阵,然后措施新用户之间的相似性,通过信息熵密度模块。协同过滤算法的基础上提出了改进的加权坡一个文学,从而降低原始评分矩阵的稀疏和避免过于单一回填数据的问题5]。陈Zhang et al。6提出了一种混合协同过滤推荐算法。斜率算法是用来填写unscored项原始得分矩阵,然后计算技术用于填充分数矩阵进行奇异值分解,进一步修改预测评分。另一方面,对于传统的相似性计算方法,很容易夸大或减少用户的实际相似。王Yonggui [7)提出了一个混合推荐算法整合内容和协作矩阵分解技术,有效地缓解数据稀疏和提高推荐精度。太阳et al。8)通过融合获得全面的相似三角形相似性和Jaccard相似,这缓解问题,影响用户相似性计算中常见的物品。Nilashi [9通过Jaccard系数加权)修正余弦相似性,这在一定程度上解决了数据稀疏的问题。为了解决单参考方法的缺点,多索引协同过滤技术也被广泛应用10]。周et al。11)提出了修改用户相似度计算方法。用户相似度是通过修改皮尔逊相似的比例因子加权共同评估项目的数量。吴Senet艾尔。12)提出了一种稀疏的余弦相似度计算方法,通过区分用户息息相关的用户和用户相关性很差,并进一步设计差异化的数值为不同类型的用户相似度计算方法,以缓解传统数值相似。

传统的相似性计算只能计算用户之间的阶段学位((物品)根据用户的历史评分项目(13])。然而,有一个评价因素的问题,如用户的行为特征和项目的类别属性,并不全面。换句话说,相似性的协同过滤推荐只计算条目分数的相似性,而用户特点和项目内容的相似性(类别属性)不是在计算范围内。这些计算结果不能完全反映用户(项目)之间的相似性,从而影响推荐结果的质量。本文基于信息熵优化的相似度计算方法,提出了考虑用户的评分相似性和偏好特性相似,使用随机粒子群优化算法来优化他们的权重获取综合相似度值,保证了推荐结果的覆盖面和提高准确性。

1.1。基于信息熵的个性化推荐算法和粒子群优化

本文的技术路线如图1

针对传统基于用户的协同过滤算法所面临的问题,提出了一种个性化推荐方法,提高了计算用户相似性。一方面,鉴于user-item评级的稀疏矩阵,本文使用了圣言+ +算法来填补user-item评级矩阵,然后计算用户的皮尔森相似的用户评分线性相似 ;另一方面,针对不同用户评级功能,在用户相似性的影响有差异。介绍了信息熵的概念来计算相似度,和加权信息熵是通过添加共同评分项的区别 用户之间的信息熵计算公式。正常化后,使用Jaccard相似修正用户评级功能相似 粒子群优化算法用于解决权重系数的加权和两个相似之处,从而获得全面的相似性。然后,个性化推荐过程中使用的综合相似度来计算最终的模型的预测精度。

1.2。用户特征相似性计算基于加权信息熵

在基于邻居的协同过滤算法,相似度计算是个性化推荐的核心步骤。然而,传统的相似性计算方法有以下问题。(1)它只反映了用户向量的线性相关性。当两个用户的分数有很大的不同,可以获得更高的相似之处。例如,如果用户A和用户B的得分向量(1、2、1、2)和(4、5、4、5),分别计算出的结果皮尔逊相似性用户A和用户B是1,与实际情况相反。(2)的影响的数量的比例共享项评级计算用户之间的相似性是不考虑。当两个用户只有几个共享项评级和分数的这一部分是相似的,将获得更高程度的相似性。例如,当用户A和用户B的得分向量都是100 -维,但得分向量的常见项目仅仅是二维的,两只(4、5)。线性相似 用于计算用户相似度为1,这显然不符合实际情况。

因此,本文引入了信息熵的概念来计算用户相似度的方法。信息熵的概念(14,15)是由克劳德·香农提出,信息理论之父,在1948年。信息熵可以衡量一组数据的混乱程度;数据越混乱,信息熵就越大;集中的数据越多,信息熵越小。计算公式是

在这里, 元素的概率是 出现在示例 , 信息熵的样本吗 将信息熵引入到推荐系统的用户相似度计算过程,计算公式

在这里, 价值的区别是常见的项目评分,然后呢 差值的概率是 出现在普通的分数差别向量。信息熵越小的分数计算两个用户之间的区别,小的变化分数两个用户之间的区别,相应的两个用户相似度越高。公式(5)仍然有一定的缺陷时,直接应用于推荐过程。例如,用户和用户共同评分差异向量B和用户和用户C(4、3、3、4)和(1、2、1、2),用户A和用户B和用户之间的相似度和用户C计算公式(5),这显然是不符合实际情况。

因此,引入信息熵,考虑到每个共享项的分数的差异也会影响两个用户的相似性;即大共享项的分数的区别,两个用户之间的差异程度越大;此外,考虑的评级的影响两个用户的共享项目用户相似性,权重系数1 /n介绍了信息熵公式,在哪里n是评级的数量两个用户的共享项目。因此,加权信息熵的计算公式16,17)是

大于或等于0,它不能直接用作用户之间的相似性。它需要规范化区间[0,1]。本文指的是文学和提出了一个标准化的方法 ;计算公式是

在这里,更大的价值 ,两个用户之间的相似度越小;的值越小 ,两个用户之间的相似度越大。在文献[其他标准化方法如下19]和文献[20.),但在实际的推荐系统的应用过程中,归一化函数建立在本文中有一个小的预测误差。

当公式(4)应用于用户相似性计算的推荐系统,发现上面的计算公式仍然有一定的缺陷;也就是说,只有两个用户共同评分项的数量被认为是,但用户之间的共同项目评级的数量是不考虑。这将产生负面影响相似度计算,因此本文进一步修正的相似性计算信息熵加权分数的区别,介绍了Jaccard相似校正因子。校正因子的计算公式

在这里,分子代表共同项目评级的用户的数量 和用户 , 代表项目评估用户的数量 , 代表项目评估用户的数量

的校正因子总得分的比例添加到计算的相似度加权分数差异信息熵,以及相似度计算公式

1.3。用户评分相似性计算

圣言会+ +算法(18 - 20)是一种改进的算法基于奇异值分解(奇异值分解)算法。圣言会+ +基于奇异值分解算法考虑显式添加隐式反馈信息反馈和预测用户的未分级的项目。至于电影推荐,隐藏的因素可以等因素的类型电影和生产成本。明确的偏好是通过分析用户的电影的评级。内隐偏好是通过分析用户的历史浏览记录和其他行为。圣言会+ +结合显式反馈和隐式反馈评分预测未分级的项目。圣言的流行理解+ +如下:如果一个用户评价一部电影,这意味着用户观看了这部电影。这个用户行为包含了某些用户的偏好信息,这个信息是反映在隐式参数的形式。在模型中,从而获得更精致的模型。的公式预测评分

在这里, 的全球平均分数训练集的所有记录。 是一个项目偏差项。 是一个用户偏差项。 是两个矩阵降维后, h矩阵的列 , u矩阵的行 ,矩阵 是用户隐藏因子矩阵,矩阵 是隐藏的因素项矩阵。 是集所有电影的用户评价,然后呢 是用户的个人喜好偏差项隐藏在“电影评估

为了获得预测的有效性得分,损失函数被定义为

在这里, 的平方项预测得分之间的差异和实际得分, 正则化项, 是正则化系数。梯度下降法是用来计算模型参数 损失函数下 是最小化。

皮尔森相关系数是用来计算用户之间的相似性得分值u和用户 其计算公式如下公式所示:

在这里,用户 ; 是一家集用户 和用户的用户 ; 显示用户的评分项目; 是由用户在评价项的平均值 ; 表示项目的分数由用户 ; 在评价项的平均值是用户吗

1.4。综合相似度

本文认为用户相似性从两个方面。一方面,用户评级的方向线性相似 用户等级向量的线性相关性;另一方面,用户评级功能相似的方向 是实际的用户等级向量。偏差和用户评分的总数的比例,综合考虑从两个方面获得的相似之处,通过加权融合获得全面的相似性。综合相似度计算公式

1.5。粒子群优化

粒子群优化(21)是一个代表的群体智能优化算法,算法是一种进化算法。粒子群优化算法(22)是由模拟鸟类寻找食物的行为。基本思想是使用个人信息的共享组中,这样整个组的运动产生更新过程的障碍点解决问题的空间,从而获得问题的最优解。主要的过程是首先生成随机初始粒子。每个粒子是一个可能的解决方案的目标函数。粒子迭代寻找最优解的目标函数的最佳。在每次迭代中,粒子比较两个极端值迭代更新。这两个极端值的局部最优解 通过粒子本身和当前全局最优的解决方案 通过整个粒子人口。更新粒子的速度和位置的公式如下。

速度转换公式

位置变换公式

在这里, 是惯性因素,通常为1。 正在学习因素,的意思吗 每个粒子的个体学习因素,的意思吗 每个粒子的是社会学习的因素。 随机数在(0,1)。

本文采用粒子群优化算法来解决重量的逻辑步骤 相似:设置权重 粒子,粒子的约束条件 初始化n粒子,得到不同的综合相似度n粒子,然后合成相似。个性化推荐过程中,均方根误差均方根误差(均方误差)计算,和均方根误差均方根误差作为目标函数的粒子。粒子获得全局最优的解决方案,通过最小化均方误差RMSE流程图的步骤的粒子群优化算法。

1.6。最近邻选择和预测分数

根据综合相似,选择用户的最近邻,计算预测评分的项J目标用户推荐的u用下面的公式,并选择顶部k预测得分最高的项目推荐给用户。计算公式是 在哪里 代表用户预测评分u在项目j; 是用户u的平均分数的所有项目; 代表了最近邻用户组u; 代表着全面的用户之间的相似性u和用户 ; 代表用户的平均分数

2。实验

2.1。数据集介绍

本文所选择的数据集是movielens - 100 k的数据集,这是收集和发布的Grouplens团队,是一种常用的数据集进行测试协同过滤算法的影响。数据集是10000 1682部电影评级由943用户生成的数据,和评级范围是(1、5)。在这个实验中,80%的数据是随机选择作为训练集,和剩下的20%作为测试集。

2.2。评价指标

训练后的训练集数据,用户的预测价值的电影,和预测结果与实际测试得分数据来衡量预测的质量。在这篇文章中,平均绝对误差美(平均绝对误差)值和均方根误差权值作为评价指标(23),具体的计算公式

在这里,n代表用户评级在测试设置的数量, 代表用户预测评分 在项目, 代表用户的实际得分 在项目

推荐的报道作为另一个评价指标。建议覆盖率是指项目的比例推荐系统推荐的所有项目,及其计算公式 在哪里 代表了许多不同的项目,推荐系统推荐用户推荐列表的长度 代表所有项目的数量。

2.3。分析的结果
2.3.1。圣言的隐藏因素数+ +算法

隐藏的数量的影响因素对圣言+ +算法反映了这样的事实:当隐藏的因素的数量太小,圣言+ +分解将失去大量的原始矩阵的信息,和灌装时预测效果会更糟;当隐藏的因素的数量太大,计算+ +原始矩阵的分解将导致过度分解信息,降维的目的没有实现,从而导致过度拟合在填充,使得预测效果更糟。因此,设计实验探索隐藏的数量的影响因素计算+ +模型预测的准确性。设计参数(24,25)如下:迭代的数量是30,正则化系数为0.15,最初的学习速率为0.04,和迭代的数量是0.93。学习速率降低。实验结果绘制折线统计图,如表所示1

在表1横坐标是隐藏的因素的数量,和RMSE纵坐标。从图可以看出,在其他条件和隐藏的因素变化的数量,当数量的隐藏因素N= 40,RMSE值达到最小值。因此,在接下来的实验中,隐藏的因素的数量计算+ +模型设置为40。

2.3.2。融合系数综合相似

设计实验来探索融合系数的影响 在预测的准确性。粒子群优化算法的参数设置如下。迭代的最大数量是15,粒子的数量是10,生成的颗粒的范围是[0,1],和学习的因素 设置为2。惯性因子 是0.8。综合相似度加权 ,和融合系数的大小代表了两个相似的比例。更大的价值 ,更大的比例相似性计算修改后的加权信息熵;的值越小 ,较大的皮尔森的比例相似性计算计算+ +后填满。显示粒子迭代过程,选择迭代的数量作为第一,第五,第十,十五迭代画下面的粒子状态图。

如图2从第一次迭代的结果,粒子初始化10点均匀分布在区间[0,1]。从第五次迭代的结果来看,粒子最初开始收敛,集中在区间[0.5,0.7]。从10日迭代的结果,粒子正在寻找最好的点在区间[0.5,0.7]上一次迭代的基础上。在15日迭代,基本上颗粒聚集,和大部分的粒子集中在[0.5,0.7]的范围。经过15迭代,粒子群优化算法搜索最优解 此时RMSE值获得达到最低的1.01158546。

为了验证的有效性解决融合权重粒子群 ,在区间[0,1],9点包括开始和结束的值作为融合的重量 0.1的区间,RMSE和梅值在不同的权重 计算并绘制成如下图所示。

左派和右派的横坐标图在图3是权重系数 ,是在区间[0,1],纵坐标是RMSE和梅值,分别。图的线图显示了权重系数 在区间[0,1]及其对应的权值和梅值绘制每隔0.1。分散的点连接的虚线区间[0.5,0.6]是粒子群。计算权重系数及其相应的RMSE值和梅值绘制。它可以看到从离散点的值在图的左边3当权重系数为0.7,RMSE值是最小的。然而,当梅值是最小的在同等条件下,权重系数应该是0.6。结合粒子群更好的结果,可以看出,在离散点的方法来找到更好的权重系数值,粒子的最优位置可能会错过,这使得推荐系统不是最优的预测精度。实验结果验证的有效性体重系数得到的粒子群,并可以看出,最优参数获得的粒子群更具体和准确的比获得的离散点。

2.3.3。覆盖率分析实验结果

建议覆盖 可以作为一个指标来衡量算法的推荐能力落后于项目。如果推荐系统的推荐列表中的项目无法达到最重要的项目,也就是说,当推荐覆盖率低,推荐系统可能会降低用户的满意的推荐系统由于限制推荐项目的范围。因此,测量的基础上算法的预测精度,考虑推荐算法的影响的报道推荐列表,设计参数:最近的邻居的数量是30。画的覆盖率曲线算法在相同数量的最近的邻居,如图4

图中的横坐标是推荐列表的长度,纵坐标是覆盖。从图可以看出,当最近的邻居的数量是30,扩张的推荐列表,在推荐列表中项的比例覆盖项目集也增加。与基础计算+ +算法相比,算法的推荐报道提出了大大改善,和推荐的报道的其他算法相对较近,也充分表明,相似度计算的优化发挥了积极作用在提高推荐的报道。

2.4。实验结果的精度分析

在确定的参数算法,比较与其他协同过滤模型下进行了不同数量的最近的邻居,以验证本文提出的算法的有效性。比较模型包括协同过滤(Based-SVD + +)使用皮尔逊相似基于奇异值分解的+ +填充矩阵,协同过滤(Adjust-Info)使用修改后的加权信息熵作为用户相似性,和文学(26]惩罚用户。皮尔森系数校正得到的相似之处相似与相似度融合通过评级信息熵,并协同过滤(AdjustPear-Infor)执行。文献[27)添加了皮尔森相似常见项目得分比校正系数和平均分数。校正因子获得综合相似度的协同过滤(AdjustPear-Mean)。画上面的模型来计算模型精度指标权值在不同数量的最近的邻居,并绘制图5

在图5最近的邻居,水平轴的数量,纵轴是RMSE值。从每个算法的比较实验结果的分析,可以看出Based-SVD + +算法解决了稀疏的问题user-item评级矩阵在计算用户相似度,但不考虑用户间共享评级项目的影响相似,和获得的总体相似度非常高。在选择最近的邻居,很难选择最好的最近邻。虽然AdjustPear-Mean优化算法使用一个校正因子来优化皮尔逊相似,它不考虑皮尔逊相似性的问题不能正确地衡量评级用户之间的差异的影响相似。AdjustPear-Infor优化算法引入了信息熵的概念在用户差异和创新的归一化公式,但它仍然没有考虑的影响的比例共享用户之间的相似性得分项。

本文的优化算法与AdjustPear-Mean和AdjustPear-Infor优化算法在文献中。本文中的优化算法综合考虑了线性相似用户评分和用户评级的相似特性,提出了一个在用户评级功能相似。修改加权信息熵计算,两个相似性度量用户相似性的两个方面,以便更好的综合相似度加权融合后可以获得。实验结果表明,本文提出的个性化推荐方法来优化用户相似度,可以有效地提高推荐系统的准确性的前提下,确保推荐报道。

3所示。结论

提出了一种基于加权信息熵的个性化推荐算法和粒子群优化,综合考虑用户特征的相似性和分数。从仿真结果,该方法可以有效地提高推荐结果的准确性和推荐报道具有积极的影响。

推荐系统研究的深入发展,越来越多的群体智能算法和机器学习的理论和方法应用于个性化推荐领域。摘要粒子群优化算法优化加权因子综合多样性,并取得了一些结果。因此,未来的研究方向是如何深入结合群智能算法和机器学习与个性化推荐,提高推荐结果的质量。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。