文摘

概率矩阵分解模型可以用来解决高维稀疏的问题的用户推荐系统中数据和评级。然而,大多数现有的方法使用用户模型项评级,忽视用户和项目之间的关系,所以user-item评级的准确性预测仍然很低。因此,本文提出一种基于BP神经网络的概率矩阵分解模型整体学习,装袋,模糊聚类。首先,隶属函数的模糊聚类和聚类中心的选择是用来计算user-item评级矩阵;其次,BP神经网络训练user-item得分矩阵聚类后,进一步提高评分预测的准确性;最后,装袋方法介绍了整体学习,以user-item分数的数量为基础的学习者,学习者通过BP神经网络训练基地,并最终获得通过投票结果比分预测,提高模型的稳定性。与现有的及模型相比,均方根误差及模型的模糊聚类后增加了9.27%和3.95%,平均绝对误差增加了21.14%和1.11%,分别;然后,介绍了第一次模拟考试的表现。合奏的均方根误差的方法是增加了4.02%和0.42%,分别比现有的单一模式。最后,介绍了基于BP神经网络的权重训练学习者提高模型的精度,同时也验证了模型的通用性。

1。介绍

近年来,矩阵分解技术,具有良好的可伸缩性和推荐精度高,发展迅速(1]。著名的Netflix推荐比赛后,矩阵分解得到了更多的关注。矩阵分解技术的基本思想是认为用户的偏好和项目特征可以描述由潜在的因素,找到的最小平方和原始得分矩阵之间的距离。代表的是概率矩阵分解,贝叶斯概率矩阵分解,快速并行矩阵分解。

科伦提出了一个新的计算+ +模型结合域的推荐方法的矩阵分解模型(2]。Salakbuttinov和Mnih分析了矩阵分解的原则,从概率的角度,提出了概率矩阵分解(及)模型(3),最大似然解扩展矩阵分解。后来,贝叶斯概率矩阵分解(BPMF)提出了4]。

整体学习的想法也采用提高推荐系统的准确性。方等。5)集成的基于用户相似度的推荐方法,使用不同的相似性措施产生不同的推荐模型,并加权和最终预测评分,提高模型的预测精度。崔et al。6)构造一个新的数据集通过结合基于用户和基于产品预测得分差异与实际分数,然后与XG-boost模型训练和预测。所有上面的集成方法是基于一种基于内容的推荐算法,时间复杂度高的缺陷和预测精度相对较低。当应用于高维稀疏数据,用户或大宗商品与0相似之处可能会出现,也可以减少算法的预测精度。

基于上述分析,我们可以得出结论,概率分解矩阵有面对高维稀疏的固有缺陷。在这篇文章中,一个概率矩阵分解模型通过融合整体学习装袋方法提出了基于BP神经网络和模糊聚类。主要工作如下:(1)用户和商品的评分矩阵计算通过使用模糊矩阵的隶属函数和聚类中心的选择,这比传统的更准确的概率矩阵法和可以更好地构建用户和商品的评分矩阵。(2)装袋方法提出了整体学习self-sampling生成不同的训练集,和整体学习引入到该模型中,因此增加了并行性和提高评分预测的准确性和稳定性。

2。系统模型

在本节中,我们回顾文献有关我们的工作与我们的贡献并讨论他们之间的分歧。

2.1。概率矩阵分解(及)

及Salakhutdinov等人提出的,是一个著名的推荐系统的方法。表1总结及符号,和数字12显示图形的概述及模型。我们假设用户,N项目,一个评级矩阵 ,和项目潜在的矩阵 重建评级矩阵R。及的目标是确定最优矩阵U, V和最小化损失函数 如下:

目标函数确定后,随机梯度下降法用于更新u 迭代的最小化目标函数: 在哪里 是学习速率。当一定数量的迭代或者目标函数的变化小于某个阈值,迭代停止。最后,U, V特征矩阵是训练预测比分。

2.2。模糊c均值

模糊c是一种无监督聚类算法中,每个点都有一定强度的节点和特定的社区之间的联系(7]。

FCM最小化目标函数 : 在哪里 的隶属度th节点的jth集群和 之间的距离吗th节点和中心jth集群。在优化 ,约束 必须满足。的参数的模糊控制算法。作为f原来是大,过程是模糊的。 可以由以下公式计算:

可以通过以下公式计算:

可以最小化通过迭代优化隶属度的更新吗 和集群中心

2.3。整体学习

集成学习是使用一系列基本的学习者的学习(8),然后根据一定的规则整合学习结果,得到一个比一个学习者更好的学习方法。通常,有一些基础的学习者之间的差异,不同的算法或相同的算法(具有不同的参数或超参数)。一般来说,更大的基地学习者之间的区别,更好的最终的学习结果。在性能提升整体学习有很大优势,所以广泛应用于理论研究和实际应用。古典乐团学习方法主要包括装袋和提高。摘要装袋使用方法,详细介绍了该方法的原理。

装袋(引导聚合)是一种典型的并行集成学习算法。这是一个引导抽样总体学习算法。它可以获得较低的预测误差和改进推荐算法的准确性。算法的总体思路如下:给定一个数据集D包含K样本,样本是随机取出和放入采样集,然后放回原来的数据集,以便下一个抽样的样本可能被选中。由于使用的示例放回,样本可能出现多次样本集,或者它可能没有出现一次。从理论上讲,后K随机抽样,抽样集D′包含K样品可以获得。值得注意的是,如果每个采样在最初的训练集的概率是1 /K的概率样本不会被收集K抽样 ,和的极限

从上面的公式,被采样的概率

换句话说,每个样本的概率在自治抽样得到的样本集是63.2%。使用上面的方法,G采样集D包含K样本可以采样集{ },基础的学习者是基于每个样本集训练,然后是基础学习者综合生成模型预测。图2显示装袋的结构模型。

2.4。BP神经网络

BP神经网络由输入层、隐藏层和输出层,它可以实现连续非线性映射(9]。BP神经网络是一种多层前馈神经网络,它的特点是信号正向传播和误差反向传播。正向传播过程中,信号处理一层一层地从输入层到隐层,最后到达输出层。图3显示了BP神经网络的拓扑结构。

BP神经网络是一种监督学习算法,完成了从输入到输出的映射通过最小化目标函数。算法的主要思想的装袋algorithm-integrated BP神经网络算法所示1

输入:标准化的评级矩阵从训练数据集D=
输出:这个示例的评级预测结果x这个测试组
(1) t= 1,…,k做的(k是基础模型的数量),
1.1:随机选择簇中心的模糊隶属度矩阵与FCM和计算F隶属函数。F矩阵是一个集群为评级的用户之间的联系。选择k−1样本训练集。
1.2:BP神经网络训练样本获取基本模型。
(3) 平均所有的基本模型得到一个强大的学习者。
(4) 强劲的学习者是用来测试数据集。

BP神经网络的基本处理框架是如图3,在那里 是一组n从外部输入的值或其他神经元输出; 被称为重量,代表神经元之间的连接强度和其他神经元; 被称为激活值等于总人工神经元的输入;O指神经元的输出;b指神经元的阈值,如果大于输入信号的加权和b人工神经元被激活。通过这种方式,人工神经元的输出可以描述如下:

在方程(8), 被称为激活函数。本文中使用的激活函数是一个非线性变换函数和双相乙状结肠(棕褐色h(x)函数)。误差反向传播的过程中,推导对激活函数的问题,和双曲正切(x)函数导数不连续的解决问题和输出zero-centered有效的问题,所以作为本文的激活函数。所以作为本文的激活函数。这是定义如下:

BP神经网络的基本处理框架是如图4

本文使用了一个三层BP神经网络具有单隐层结构来模拟爆发的变化。

3所示。概率矩阵分解模型与模糊聚类

进一步提高预测精度的概率矩阵分解高维、稀疏矩阵,本文使用FCM方法通过模糊聚类过程得分矩阵。一方面,FCM算法适用于解决高维问题[10]和稀疏数据和具有强大的可扩展性;另一方面,它可以解决硬聚类的缺点,也就是说,它不强制一定分数分为特定类别但表达的程度一定类别分数属于某一特定的类别隶属函数的形式,更好地把评分用户没有明确的界限。

3.1。算法思想

FCM引入得分矩阵(11),n用户评分物品。矩阵中的每个元素 代表用户的评分在项目k和矩阵的行 ,在哪里 代表了用户;矩阵的列 ,在哪里 表示该项目。用户集群根据每个用户的分数,和整个用户分为的数量c集群的相似用户分数相同的集群是最高的,并且聚类结果表达的会员矩阵U。目标函数 基于user-item得分矩阵的模糊聚类如下。

FCM最小化目标函数 :

会员矩阵需要生成的模糊聚类算法2,需要由数据构造模糊相似矩阵在矩阵相似。模糊相似矩阵的施工方法包括最大和最小的计算方法、余弦角法和相关系数法。本文主要采用相关系数的方法。

输入:从训练数据集构建评级矩阵D=
输出:这个示例的评级预测结果x这个测试集。
(1) 初始化相关参数。
(2) 随机选择簇中心的模糊隶属度矩阵与FCM和计算F隶属函数。F矩阵是一个集群为评级的用户之间的联系。
(3) 集群应用及模型数据,初始化P与高斯分布。
(4) 评级预测。
3.2。算法描述

在图5,我们证明我们的工作的工作流程,首先,训练数据集,然后订婚了FCM用于分类的训练数据集的用户应用用户评分矩阵的相似。有用的评级预测交付给用户收到FCM和及模型的影响。

4所示。整体学习概率矩阵分解模型与BP神经网络装袋

概率矩阵分解模型和相似性的推荐算法大大提高了效率和预测精度。然而,由于数据本身的特点,高维稀疏和随机初始值的设置导致模型的不稳定性,导致大的方差预测分数,从而影响推荐的准确性。

考虑到单一弱学习算法的准确性不高,我们选择装袋集成学习方法。同时,为了进一步提高泛化能力的学习者,我们选择的概率矩阵分解模型装袋合奏BP神经网络能够有效地提高评分预测的准确性。

4.1。算法思想

首先,FCM算法初始化样本数据集D和集群的数量 区别在于,为了确保每个用户和产品在每个采样组训练样本,每个采样首先随机选择一个由每个用户评分数据的参与和产品为例,共有(+n)((样品+nk),然后对整个训练集进行自助抽样获得一组抽样包含K样本。然后,对于每一个样本集 ,BP神经网络算法用于训练最优权重,然后及模型用于预测比分。

对于回归的任务,让(x,y)是一个数据集的数据D,在那里x是特征向量,Y是真正的价值。多元回归模型是通过训练数据集,然后放入回归模型的特性来产生相应的预测值 集成预报值数据集的多个模型预测的平均值D: 在哪里x固定的输入值和吗y是输出值;然后,

应用方程(10)和不平等 然后应用方程的变化(12),我们可以得到

它可以看到从方程(12),均方根误差(RMSE)的预测价值 生成的合奏小于平均值的方法 RMSE,更加不稳定 是,更大的整体方法的改进模型的性能。

6显示了基于FCM和bagging-BP及模型。

4.2。算法描述

装袋算法的算法流程和BP神经网络及算法模型3

输入:从训练数据集构建评级矩阵D= 初始化相关参数。
输出:这个示例的评级预测结果x这个测试集。
(1) t= 1,…,k做的(k是基本模型的数量)
1.1:随机选择k−1样本训练集DT(放回抽样)
1.2:BP神经网络训练样本获取基本模型
(2) 平均所有的基础模型 强大的学习者
(3) 强劲的学习者是用来测试数据集
(4) 应用及与集群数据模型;初始化P与高斯分布
(5) 评级预测

5。实验

在本部分中,我们主要通过几组实验测试我们的假设:FCM聚类方法应用于及模型从不同方面来达到预测精度的目的。同时,该方法的预测精度验证,和平均误差(MAE)和均方根误差(RMSE)的预测减少: 在哪里 是分数的预测, 测试集的实际得分,N是数据块中包含测试的数量集。从梅和RMSE的定义,美可以反映预测误差,而RMSE更敏感异常值与一个更大的错误。通过计算均方根的平方误差的总和之间的预测用户评分与实际用户评分预测的准确性,权值越小,建议质量越好。梅和RMSE越小,精度越高的建议。

模型在同样的评价方法,本文将选择使用的评价指标比较模型来评估评分预测的准确性。

5.1。相关参数设置

不失一般性,我们将80%的数据作为训练数据,然后根据聚类结果预测剩余的20%的推荐精度,并设置这个实验的正则化因子 ;SGD的学习速率α= 0.03。英国石油公司的隐藏层的数量是100。本文所选择的数据集MovieLens FilmTrust,,分别应用于及,FCM-PMF, FCM-bagging-BP-PMF模型比较和结论。

5.1.1。数据集信息

这个实验是进行MovieLens FilmTrust数据集,这两个项目的包含用户的评级信息。评级值是1 - 5离散值,稀疏是4.47%和1.04%,分别属于一个高维稀疏矩阵。数据集的具体信息如表所示2

本文研究了聚类模型的数量。实验表明,不同的聚类数据对模型的性能有不同的影响。在实验中,我们设置了集群数量10、20、30、40、50。MovieLens数据集上的实验结果如图所示7

5.2。比较推荐的准确性

来验证该模型的准确性,及模型基于FCM和装袋BP评价实验,结果是与现有的模型相比,曼氏金融及在两个数据集。RMSE和梅不同模型的比较结果在不同的数据集如表所示3

从表可以看出3这个模型与模糊聚类方法的性能优于没有集群。RMSE和梅及模型的模糊聚类方法MovieLens(1米)的数据集是0.9305和0.95268,分别。RMSE和梅FCMPMF模型与模糊聚类方法的0.83781和0.74131,分别提高了9.27%和21.14%。最后,RMSE和基于装袋的美及模型的BP和模糊聚类约为0.79765和0.73074,分别。模糊聚类的效果是提高了4.02%和1.06%。三个模型的结果RMSE和梅MovieLens(1米)数据集的数据所示89

从表可以看出4模型的整体性能的模糊聚类方法优于没有集群。RMSE和梅及模型的模糊聚类方法FilmTrust数据集是关于1.440940和1.83424,分别。RMSE和梅FCMPMF模型与模糊聚类方法的1.401439和1.82315,分别和效果提高了约3.95%和1.11%。最后,RMSE和梅及模型的基于模糊聚类和装袋BP 1.397237和1.79593,分别和模糊聚类的效果提高0.42%和3.66%。三个模型的结果RMSE和梅FilmTrust数据集数据所示1011

6。结论

在本文中,基于BP神经网络的一个概率矩阵分解模型整体学习和模糊聚类算法。通过使用相似的得分矩阵,使用模糊聚类方法划分用户,这有效地解决了问题的评分一致性;每个基本学习者使用BP神经网络来找到最优权重,然后进行综合处理建立一个强大的学习者。及模型是建立在强大的学习者,提高模型预测的准确性。

数据可用性

我们使用的公共数据集MovieLens(1米)和FilmTrust,和我们的模型和相关的hyperparameters提供在我们的纸上。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的重点项目的安徽省高校自然科学研究:研究和实现解码单元为三元光学处理器(KJ2020A0681号和KJ2019A0682)和研究的关键技术数字化生存的陶瓷文物和巢湖大学理工学院的网络和分布式系统。