文摘
针对问题的相似性计算误差造成的极度稀疏的数据协同过滤推荐算法,基于斜率的协同过滤推荐算法的矩阵prefilling模型、主成分降维,二进制 - - - - - -本文提出了聚类。首先,该算法基于项目相似的斜率使用一个模型来预先填充原始得分矩阵。其次,主成分分析用于减少填充矩阵的维数,保留用户特征的最具代表性的维度,并删除维度较低的信息。最后,为了解决协同过滤算法的相似性计算的耗时问题在大规模系统的情况下,二进制文件 - - - - - -意味着集群在减少维度进行向量空间减少搜索范围的目标用户的最近邻居。该算法保证了效率和准确性的推荐而用户的规模扩大。movielens数据集上的实验结果表明,本文提出的算法优于传统的协同过滤算法和协同过滤推荐算法基于PCA(主成分分析)和二进制 - - - - - -意味着集群在召回率、准确率、平均误差和运行时间。
1。介绍
随着科技和社会的发展,人们逐渐进入了信息过载的时代信息匮乏的时代。在这个时代,如何找到您感兴趣的信息的质量信息和如何让您发布的信息突出已成为迫切需要解决的问题。因为人们常常不能清楚他们需要的信息,所以过去的分类目录和搜索引擎很难满足他们的需求,所以个性化推荐系统作为搜索引擎的补充成为一个代表解决信息过载的问题。推荐系统积极为用户提供他们感兴趣的信息分析用户的历史行为信息,所以它不需要用户提供明确的信息。在大量的现有的推荐技术,协同过滤推荐技术是最成功和广泛使用,主要包括基于用户和基于项目的协同过滤推荐算法。基于用户的协同过滤推荐给目标用户所喜欢的项目用户具有相同兴趣和目标用户不得分。基于项目协同过滤推荐的目标用户条目类似以前的样子。他们都意识到通过计算用户相似性或项目通过user-item得分矩阵相似。然而,随着用户和项目的增加,存在一些问题,如稀疏得分矩阵,冷启动,反应迟缓,和可扩展性差,导致传统的协同过滤算法的推荐质量的下降。为了解决数据稀疏的问题,Bidyut Kr。智利的et al。1]融合Bhattacharyya的相似性,提出了一个基于社区的协同过滤算法的相似性度量方法。结果表明,该算法优于现有的协同过滤算法基于其他相似度测量方法。Suryakant [2)提出了一种新的基于平均散度的相似方法,考虑用户的评分习惯。结果表明,提出的相似性测量比现有的预测精度。
汉延安et al。3)计算用户的偏爱的项目通过结合用户的偏爱物品的属性和项目的普及和不安项填写的和用户的偏好值和用户的平均分数。最后,时间函数作为加权因子的相似度计算和推荐过程中,有效地缓解了稀疏矩阵的问题,提高了推荐精度。马赫迪Nasiri et al。4)把时间看作是一个三维空间和应用架构来阻止用户和项目相似的组在同一时间和增加时间对于每个块,然后输入适当的值根据类似的用户数据丢失和条目分数在每个块,最后模仿用户之间的关系,通过张量分解项目,和时间。算法减少了稀疏问题和错误率,实际应用取得了良好的效果。
Truyen Tran et al。5)结合马尔可夫随机场(MRF),提出了一种稀疏感应算法自动估计用户和项目之间的互动结构。最后,他们证实了该方法的有效性在大规模实验电影推荐和数据匹配的数据集。王Panpan et al。6斜率)提出了一种基于加权的推荐算法。实验结果表明,改进的算法可以提高有效成绩预测的准确性和推荐性能。Maryam Khanian Najafabadi et al。7)提出了一个基于关联规则和聚类的协同过滤算法。实验结果表明,算法精度的性能,召回率,和其他方面比基本CF和其他扩展CF技术即使非常稀疏的数据。
马赫迪Nasiri和挂Minaei [8)提出了一种矩阵分解方法集成最初的用户和项目的潜在因素。结果表明,该方法可以提高矩阵分解技术的准确性基于矩阵分解的优化和提高收敛速度。博阳et al。9)结合稀疏的评级数据由用户给出稀疏的社会信任网络并与社会协同过滤推荐算法基于信任,此算法具有更好的性能,特别是对于用户本身。
音)(10)提出了一种改进的基于聚类的协同过滤推荐算法。该算法使用时间衰减函数来进行预处理用户的评分和聚类算法用于集群用户和项目,分别。然后,它使用了改进的相似性测量产生的建议。它可以有效地解决数据稀疏的问题和新项目,推荐精度显著提高。法里斯Alqadah et al。11)提出了一种新的头n个推荐任务的协同过滤方法基于双聚类。实验表明,算法产生更好的建议,特别是在稀疏的情况下数据。Haipeng你等。12)结合项目集群和斜率的结果表明,该算法能有效提高协同过滤推荐系统的准确性。Qlong英航et al。13)提出了一种协同过滤算法,结合聚类算法和奇异值分解的算法,这是图像处理领域的广泛使用。它提高了“冷启动”和“数据稀疏”系统,提高了系统的效率和可伸缩性。张石长(14)提出了一种改进的协同过滤推荐算法基于user-item混合模型,并设计和实现了一个个性化的新闻推荐系统。实验数据证明了该系统具有良好的个性化推荐功能,和个性化的新闻推荐系统基于该算法更有效。陈靖et al。15)提出了一种改进的基于用户评论TWMR商人推荐算法(时间因素和用户权重商人推荐算法),这是验证,该算法有效TWMR隐含的推荐效果的稳定性,提高了Yelp数据集上的实验比较,和更好的影响矩阵匹配推荐。亚历桑德罗·b·Melchiorre et al。16]研究先进的推荐算法产生不同程度的准确性分数根据用户的个性特征。他们的论文展示了几个用户组之间的显著差异表现得分高和组得分低几个性特征。维托安内尔利沃尔特et al。17)建立一个共同理解的最先进的头n个推荐任务。研究的结果表明,没有一致的赢家数据和指标的检查头n个推荐任务。马特奥Montanari et al。18)研究一个问题的影响数据抽样hyper-parameter优化(HPO)推荐算法以达到最高的精度性能。
Donghyun金等。19]结合卷积神经网络(CNN)和概率矩阵分解(及),提出了一个新的上下文知道推荐模型中,卷积矩阵分解(convmf)。实验结果表明,该算法明显优于最新推荐模型即使评级数据是极其罕见的。盛李et al。20.)提出了一个通用CF深度结构结合矩阵特征分解和深度学习和给一个例子CF深度结构结合概率矩阵分解去噪和边缘栈自动编码器。与现有的四大数据集电影/书推荐和响应预测模型,结合框架的性能得到了改进。费萨尔·m·Almutairi et al。21)展示的有效性XPL-CF真实数据从各种应用程序域和评估explainability user-item关系获得XPL-CF通过数值评估和案例研究的例子。Dong-Kyu崔et al。22提出AR-CF,代表增强现实CF,小说的框架解决本身的问题,生成虚拟,但似是而非的邻居预热将用户或项目,增加他们评级矩阵作为CF模型的附加信息。夏Lianghao et al。23)提出一种新的self-supervised推荐框架超图对比协同过滤(HCCF)共同捕捉当地和全球合作关系hypergraph-enhanced cross-view对比学习架构。一丁Zhang et al。24]研究小说的几何问题进行协同过滤(GDCF),旨在揭示和解决潜在的意图因素跨多个几何空间。奥伦巴坎et al。25)脱离的范式是常见的反复大量的协同过滤模型,展示了卓越的结果,和现在Anchor-based协同过滤(ACF)。巴普蒂斯特Barreau和劳伦卡莉26]提出一种新颖的协同过滤算法,捕获时间user-item上下文交互通过最近的用户和项目的交互历史提供动态的建议。任正非Jing-xia,吴Zhi-feng [27)提出了一种基于动态信任衰减的协同过滤算法(DTA-CF)。基于传统的协同过滤推荐算法,探讨了常见的分数和时间因素调整邻居选择机制和引入了信任衰减的概念重新定义邻国的影响。魏Zhang et al。28]提出的方法neuro-symbolic可判断的协同过滤(NS-ICF),学习可判断的推荐规则(包括用户和项目属性)基于神经网络。东胜李et al。29日)提出了一种神经快照合奏的协同过滤的方法,可广泛和显著提高精度高达15.9%(相对)在应用到各种现有协同过滤方法。弘治刘et al。30.)提出一个编译器通过选择和阶段排序的方法,称为迭代编译基于度量学习和协同过滤(ICMC)。基于相似性度量,这些人地区采用协同过滤方法也一个迭代推荐一些高级编译器通过为每个目标程序。Athanasios n Nikolakopoulos和乔治Karypis [31日]提出了基于项目模型是最受欢迎的协同过滤方法构建推荐系统。总之,在协同过滤推荐算法的研究,人们试图通过改善提高协同过滤算法的推荐质量各种规则,机制和算法。方面的相似性计算,最近的邻居相似,平均分歧,个人喜好,和时间维度介绍了提高相似度计算的准确性;针对稀疏数据的问题,我们用稀疏的感应,加权斜率,矩阵分解,和稀疏的评级提高协同过滤算法的性能;方面的推荐算法,有很多方法,如基于聚类的,双聚类社区为基础,user-item混合模型为基础,基于用户评论的,和hyper-parameter优化基础;在协同过滤方面,卷积神经网络(CNN),概率矩阵分解,自我监控的建议框架超图和动态信任衰变(DTA-CF)应用于提高性能和协同过滤算法的推荐效率。然而,需要进一步的研究来解决这个问题的相似性计算误差造成的稀疏数据的协同过滤推荐算法。因此,协同过滤算法基于斜率(名为SOPK-CF)一个矩阵prefilling模型、主成分分析和二元 - - - - - -意味着集群提出了。首先,采用坡一个矩阵填充模型充满原始user-item得分矩阵然后使用主成分分析(PCA)减少了矩阵的维数。最后,二进制 - - - - - -意味着聚类算法用于集群维度简化数据。目标用户的最近邻居可以快速找到目标用户的类别了。最后,通过最近的邻居相似,当前用户的预测价值non-evaluated项目是由权重计算。
2。相似的问题造成的计算误差非常稀疏的数据在这个算法
传统的协同过滤算法通常使用计算公式如Jaccard、欧几里得、余弦相似性,和修改余弦相似性计算用户或项目相似。这些方法都是计算原始得分矩阵,因此,计算精度取决于原始得分矩阵的准确性。因此,原始分数矩阵过于稀疏,这将直接导致相似度计算的不准确。例如,当两个用户评论几个受欢迎的商品或必需品,这并不意味着他们是相似的。因此,我们可以考虑填补原始得分矩阵,但填充方法应该是准确的;否则,原始得分矩阵将错误地填满,这将导致低精度的原始得分矩阵,最终导致推荐质量的下降。
2.1。SOPK-CF的基本原理
针对数据稀疏和可伸缩性的问题传统的协同过滤推荐算法,基于斜率的协同过滤算法的矩阵prefilling模型、主成分分析和二元 - - - - - -意味着集群(SOPK-CF)提出。摘要符号显示(参见符号)。
2.1.1。数据稀疏问题
首先,坡一个矩阵填充模型用于填写原始得分矩阵,这是比意味着填充更准确,零填充,填充模式。然后,PCA用于减少填充矩阵的维数,保留重要的信息,消除噪声信息。
斜率一个矩阵填充模式指的是加权斜率算法集成项目相似。其步骤如下:
输入:原始得分矩阵R。
第一步:计算修改后的余弦相似性 和类别相似 分别的项目;计算公式(1)和(2),分别为: 在哪里用户共同评分的项集吗和项目 , 是项目的评级吗由用户 , 用户的平均评级吗 ,和用户的评论项吗 。
步骤2:把修改后的余弦相似性 和类别相似 合成最终的项目相似 的计算公式 如下:
第三步:填写原始得分矩阵。如果它是默认的,使用公式(4)来预测并填写评分矩阵。 在哪里代表用户为项目的预测评分 , 表示最近的邻居项的集合 , 代表用户共同评分项的数量和项目 , 代表用户的评分项目 ,和代表平均用户共同评分项的区别和项目 。
输出:矩阵FR。
降维技术使数据更容易使用,他们常常可以去除数据中的噪声,因此其他机器学习任务更准确。尽管降维也会导致某些信息损失,在实际应用中,我们通常只需要保留数据和信息损失的最重要的特性在一定范围内是被允许的。降维常作为预处理步骤清洁数据之前应用于其他算法。有很多技术数据降维;在这些技术中,独立的主成分分析,因子分析,和主成分分析流行,那么主成分分析得到了广泛的应用。主成分分析是一种最常用的线性降维方法。PCA变换原始坐标系统的数据到新的坐标系统,和新的坐标系统的选择是由数据本身。方向与最大方差在原始数据中选择第一个新坐标轴和方向与最大方差正交于第一选择坐标轴在第二个新的坐标轴。这个过程一直重复;重复的次数是原始数据特征的数量。 We will find that most of the variance is contained in the first few new axes. Therefore, in order to reduce the dimension of the data, the remaining coordinate axis is ignored. The main steps of PCA algorithm are as follows:
输入:矩阵FR。
步骤1:平均每个维度的矩阵 ,也就是说,减去这个维度的平均值的数据维度。
步骤2:计算样本矩阵的协方差矩阵方程(5)。
第三步:找出相对应的特征值和特征向量的协方差矩阵。
步骤4:安排一个矩阵特征向量为从上到下显示对应的特征值的大小和形式矩阵P从第一行。
输出:公关= FRP,公关是填充的数据矩阵FR是减少到s维度。为了减少投影误差,必须选择适当的值,可以确定实验由方程(6): 在哪里特征的数量,分子之间的距离的和原始数据点和投影点。表示错误。误差越小表明,更多的主成分保留,降维的效果越好。的上限是错误。一般来说,是0.01,也就是说。,99% of the original data is retained.
2.1.2。耗时的相似度计算
计算所需的所有用户之间的相似性是传统的协同过滤算法。随着用户数量的增加,相似度的计算变得非常大,也强调了传统算法的可伸缩性。因此,二进制 - - - - - -意味着数据的聚类算法聚类介绍了降维后,最后计算用户之间的相似性在同一集群只需要,因此大大减少了计算用户之间的相似度并改善了算法的可扩展性。
聚类的过程是将一组物理或抽象对象划分为多个类。 - - - - - -意味着集群是经典的聚类算法。首先,算法随机选择聚类中心根据数据集,然后计算每个数据点之间的距离,每个集群中心,地方集群中的数据点对应于最近的聚类中心,然后计算每个集群的平均值作为新集群的集群中心。重复以上步骤,直到聚类中心不再变化。然而,我们的算法很容易受初始聚类中心的选择。选择不当会导致聚合质量中心,以便集群效应可能是局部最优。上交所是一个指数用来衡量聚类的效果。它的值的平方和的数据点之间的距离在每个集群和集群的中心。(所示的计算公式是7): 在哪里选择集群的数量,集群中心吗 - - - - - -th集群,集群的数据吗 ,和欧氏距离。小SSE越多,更好的聚类效果。二进制 - - - - - -意味着算法的一种改进算法 - - - - - -意味着算法。在这个算法中,所有的数据点被认为是一个集群,并选择一个集群 - - - - - -手段(= 2)部门。选择的标准是分裂的集群可以降低SSE最大程度上的价值,持续到集群的数量等于数量由用户给出。相比之下, - - - - - -意味着算法,该算法聚类速度快,不影响初始聚类中心,和更好的聚类效果。
2.2。SOPK-CF的算法流程
movielens数据集上运行SOPK-CF算法和具体过程如下:
步骤1:填写默认值的原始得分矩阵R与坡矩阵填充模型(加权斜率算法结合项目相似),和矩阵是法文。
步骤2:根据流程(见图1),使用PCA算法提取的主成分矩阵FR,和减少维度矩阵是公关。
步骤3:根据流程如图2、二进制 - - - - - -意味着集群减少维度矩阵进行公关,获得多个集群和集群每个集群中心。
步骤4:使用公式(8)来计算目标用户之间的相似性和其他用户在目标用户的集群然后相似度从大到小排序。 在哪里 代表用户的相似性和用户 , 代表目标用户之间的距离和其他用户 ,和代表一组集群中的其他用户的目标用户 。
第五步:使用基于近邻预测方法来预测用户的分数拉下台 。具体公式如下: 在哪里是用户的平均分数吗 , 最近的邻居的用户吗 , 代表目标用户之间的相似性和其他用户 , 代表用户的评分在项目 ,和代表用户的平均分数 。
第六步:使头n个建议和推荐列表形式根据预测分数。
2.3。理论分析和比较的方法
由于原始评分矩阵的稀疏,传统的基于用户的协同过滤算法在计算用户相似度的错误,从而导致推荐质量低(准确性、召回和平均误差);在计算用户相似度,将计算所有用户之间的相似性,所以时间消耗很大。基于PCA降维的协同过滤推荐算法和二进制 - - - - - -意味着集群首先使用均值填补原始得分矩阵,这从一定程度上缓解了数据稀疏,所以提高了推荐的质量。然后,PCA用于减少维度和去除少量的信息。最后,二进制 - - - - - -意思是用于集群。在计算用户相似度,只有目标用户之间的相似性和集群中的其他用户需要计算时间消耗很小。基于斜率的协同过滤算法的矩阵prefilling模型、主成分分析和二元 - - - - - -意味着集群使用坡矩阵prefilling矩阵填充模型之前,使填充数据更准确,进一步提高了推荐的质量。每个算法的性能比较(见表所示1)。
3所示。实验结果和分析
3.1。数据集
实验使用movieslen数据集(32]提供的GroupLens明尼苏达大学的项目群,其中包括943用户的100000得分纪录1682电影。其中,每个用户都有至少20分的电影评级范围1,2,3,4,5,1表示“非常糟糕”,5表示“非常好。“通过计算不稳定的项目的比例在整个数据集,稀疏的数据是93.6953%,它适用于测试SOPK-CF算法数据稀疏的缓解效应。本文使用的数据。数据表和u。项目表和主要计算的四个字段标识,movieid,评级,和流派。类型字段包含18类型和电影可以属于多个类型。u。数据表和u。项目表的格式(见表所示2和3)。
我们也对数据集进行实验灭克磷(来自UCI机器学习库(http://archive.ics.uci.edu/ml/index.php))与维= 36和基数= 65,536,5种手姿势来自12个用户。
3.2。评价指标
在实验中,梅(平均绝对偏差),精度和召回作为评价指标。美反映了预测分数和实际分数之间的偏差。偏差越小,质量越高的建议。美计算如下: 在哪里十字路口设置的项目推荐列表和项目在测试集,是项目的预测评分吗 ,和是项目的分数吗在测试集。
准确率描述条目的数量之间的比例推荐给用户的数量准确、项目推荐给用户。因此,更大,更好。计算公式(11)如下: 在哪里是项目推荐给目标用户的列表吗 ,和是项目评估的目标用户 。
召回率描述条目的数量之间的比例推荐用户准确、商品评论的数量由用户在测试集。因此,更大,更好。公式(12)如下: 在哪里是项目推荐给目标用户的列表吗 ,和是一组项目评估的目标用户在一组。
3.3。实验环境和参数设置
3.3.1。实验环境
处理器:英特尔(R)的核心(TM) i5 - 7400 CPU @3.00GHz。
安装内存(RAM): 8.00 gb。
运行环境:Win10(64位)操作系统。
开发语言:Python。
编程工具:Pychar。
3.3.2。参数设置
(1)相似度加权系数的训练。可以看出(见图3),当相似度加权系数是0.9,这个美(平均绝对误差之间的数据和相应的数据在测试集)是最小的,所以是0.9。
(2)集群数量的训练。可以看出(见图4),当集群的数量是7,美是最小的(见图5)。可以看出,集群的数量基本上不影响精度和召回率。因为算法主要使用目标用户的最近邻居集,当项目推荐给目标用户,无论数量的集群,只要目标用户群的一部分,是最接近目标用户保证(10个用户)。然而,集群的数量将影响算法的运行时间,因为在集群中的用户数量影响的计算用户相似性。因此,可以看出(见图6),当集群的数量是7 - 16日的最小运行时间(这个时间是指从二进制文件的时间 - - - - - -方法生成的建议),所以在这篇文章中,是7。
(3)培训用户的最近邻居UserNum的数量。可以看出(见图7和8),当用户的最近邻居的数量是10,平均美是最小的,平均精度和平均召回率是最大的,所以UserNum应该10。
3.4。实验结果
当相似度加权系数是0.9,集群的数量的数量是7,用户的最近邻居UserNum是10,佛罗里达大学传统的基于用户的协同过滤算法,基于PCA的协同过滤算法和k -均值聚类PK-CF二进制,基于斜率的协同过滤算法的矩阵prefilling模型和主成分分析和k -均值聚类SOPK-CF二进制比较。其中,数据9- - - - - -11是平均水平的比较图表每个算法的美,每个算法的平均精度,平均每个算法的回忆。数据12和13是根据使用不同的算法的实验结果推荐20岁,40岁,60岁,80和100项目中的所有用户测试集。
梅查全率和查准率的比较数据集家庭如图14情节,我们可以看到,该算法也比它的竞争对手。
4所示。结果分析
实验是进行movielens数据集和数据9- - - - - -13被吸引。这是一个系列的每个算法的比较数据平均绝对误差,平均准确率、召回率,平均运行时间,运行内存。
4.1。推荐质量分析
(1)平均绝对误差(见图9):SPOK-CF算法提出了比UCF PK-CF算法的平均绝对误差、平均绝对误差值的三个算法表现出下降的趋势,日益增长的推荐列表(2)平均精度(见图10):可以看出本文SPOK-CF算法的平均精度高于UCF PF-CF算法,和日益增长的推荐列表,平均精度的三个算法显示了一个温和的趋势(3)平均召回(见图11):可以看出,平均召回SOPK-CF算法提出了高于UCF PK-CF算法;三种算法的平均召回与日益增加推荐列表
从上诉分析可以看到,可以提高推荐的质量prefilling稀疏的原始得分矩阵与斜率算法整合项目相似性和通过使用主成分分析算法减少了矩阵的维数,并保留其主要特征。
4.2。时间和空间消耗分析
(1)运行时间(见图12):三个算法的运行时间是823年代,173年代和104年代分别,SOPK-CF < PK-CF <佛罗里达。SOPK-CF算法本文远小于UCF算法和大约一半的PK-CF算法运行时间(2)在运行内存(见图13):三个算法的运行内存105 mb、83 mb, 58 mb,分别,SOPK-CF > PK-CF >佛罗里达。SOPK-CF算法在本文中是一个小比PK-CF算法和UCF算法在运行内存的两倍
结果表明,使用二进制 - - - - - -意味着集群算法,用户,只计算目标用户之间的相似性和集群中的其他用户可以节省很多时间。系统中的时间要求和宽松的内存大小要求高,本文提出的算法是容易接受的。
5。结论
针对稀疏数据和较低的可伸缩性问题,传统的协同过滤算法,基于斜率的协同过滤算法的矩阵prefilling模型、主成分分析和二元 - - - - - -意味着集群SPOK-CF提出。实验结果表明,本文提出的算法优于传统的基于用户的协同过滤算法和基于PCA和二进制的协同过滤算法 - - - - - -意味着平均美,平均精度,平均召回,算法运行时间。
然而,这种算法只使用一个填充方法,一个降维方法,和一个聚类方法,不尝试其他算法。因此,下一步是尝试其他主流和高效的算法在矩阵填充和降维33)和其他聚类(34- - - - - -37]。
符号
| : | 用户的数量 |
| : | 物品的数量 |
| : | 项 |
| : | 项 |
| : | 用户 |
| : | 用户 |
| : | 普通等级用户的一组项目和项目 |
| : | 矩阵的维数减少 |
| : | 原始得分矩阵(mn) |
| : | 修改后的余弦相似性的项目和项目 |
| : | 类别相似的项目和项目 |
| : | 用户的评分项目 |
| : | 用户的评分项目 |
| : | 数据降维之前和之后的错误 |
| : | 列的矩阵 |
| : | 列投影矩阵 |
| : | 集群的数量 |
| : | 集群中心 - - - - - -th集群 |
| : | 欧几里得距离 |
| : | 最初SSE价值 |
| : | 集群划分的数量 |
| : | 用户之间的欧氏距离和用户 |
| : | 最近的邻居的一组用户 |
| : | 用户的评分项目 |
| : | 推荐的项目和项目的交集在测试集 |
| : | 项的得分在测试设置 |
| : | 为目标用户推荐商品的列表 |
| : | 召回率 |
| : | 用户的平均分数 |
| : | 评论的用户设置项 |
| : | 评论的用户设置项 |
| : | 修改余弦相似性和类别相似性的加权系数 |
| : | 最后一项之间的相似度和项目 |
| : | 用户为项目的预测评分 |
| : | 最近的邻居的一组项目 |
| : | 用户评论这两项的数量和项目 |
| : | 不同用户的平均分数和项目 |
| : | 填充矩阵(mn) |
| : | 填充矩阵的转置矩阵FR(n米) |
| : | 协方差矩阵(nn) |
| : | 减少维度矩阵(ms) |
| : | 特征向量矩阵(ns) |
| : | 转置矩阵的特征向量矩阵P(年代n) |
| : | 误差的平方和 |
| : | 的 - - - - - -th集群 |
| : | 集群与集群中的数据中心 |
| : | 变量代表集群中心的数量 |
| : | 第一个SSE价值 |
| : | 用户之间的相似性和用户 |
| : | 收集目标用户的集群中的其他用户 |
| : | 用户的平均分数 |
| : | 平均绝对误差 |
| : | 项目的预测评分 |
| : | 准确率 |
| : | 项目标用户的集合在测试集有推荐吗 |
| : | 数据误差的上限之前和之后的PCA降维。 |
数据可用性
在生成的数据集和/或分析在当前研究可从相应的作者以合理的要求。
的利益冲突
作者宣称没有利益冲突有关的出版。
作者的贡献
小李负责论文的补充和修订;彭和平提出了命题的研究,设计了研究思想,和写论文;王宏斌王负责论文的总体结构;Qingdan黄和钟山徐负责审查和修订的一些算法。
确认
本文的研究工作是支持的关键技术的研究和应用电磁暂态云仿真平台对于非常大的城市配电网(080037 kk52170012 / GZJKJXM20170023)。