文摘
基于理解和比较各种主要的推荐算法,本文侧重于协同过滤算法,提出了协同过滤推荐算法与改进的用户模型。首先,该算法考虑了得分差异引起的不同的用户评分习惯当表达喜好和采用解耦规范化用户评分数据归一化法;其次,考虑用户兴趣的忘记转变随着时间的推移,遗忘函数是用来模拟分数的遗忘规律,和时间遗忘是引入用户的重量分数提高推荐的准确性;最后,提高相似度计算在计算最近邻集合。根据皮尔逊相似性计算,介绍了有效重量系数获得更准确和可靠的最近邻集合。该算法建立了离线用户模型,使得该算法有更好的推荐效率。两组实验设计的基础上,平均绝对误差(MAE)。一组实验测试了算法中的参数,和另一组的实验与其他算法相比,该算法。实验结果表明,该方法具有更好的性能在推荐准确性和推荐效率。
1。前言
与国家政策的促进”共建和共享教育信息资源、教育资源的数量和类型是前所未有的丰富,和人们的认知能力的提高远远落后于信息扩散的速度。然而,大规模的教育信息资源导致认知超载,信息迷航和焦虑的问题。学习者的个性化学习资源的访问就像寻找海里捞针,和学习都已经演变成到处搜索(1- - - - - -3]。如何减少学习者的信息搜索成本和烦恼成本,以便学习者信息素养可以获得不同信息资源适合自己的需求,并提供教育资源服务符合他们的个性发展需要学习者有不同的知识结构和情报类型已成为不可避免的现实问题(4,5]。
根据不同类型的学习资源、学习目标,学生团体,设计一个灵活的个性化推荐模型的学习资源来解决这个教育问题已成为一个突破(6,7]。本研究提出了一个智能推荐基于用户模型的教育资源,旨在挖掘教育资源和学习伙伴,从大规模的教育数据满足学习者的个人需求,推荐学习活动,适应学习者的认知风格,并为它们提供适应性和个性化教育服务(8]。
2。算法
准确的表示教育资源和有效的知识组织是必要的先决条件多媒体英语远程教育资源的智能推荐(9]。要真正实现”共建、共享和广泛的多媒体英语远程教育资源的好处,一方面,有必要准确、全面描述教育资源;另一方面,需要有效的屏幕和组织教育资源。协同过滤推荐技术可以解决上述问题。是找到具有相同兴趣的邻居到目标用户的偏好和预测目标用户的兴趣偏好的邻居用户,从而完成目标用户的课程推荐(10]。
协同过滤推荐的基本思想是基于这两个假设。一个是,如果两个用户有非常相似的爱好,然后一个用户喜欢的课程是由其他用户可能喜欢;另一种是如果两个课程非常相似,那么用户同时喜欢一门课;很有可能他们也会像其他课程。协同过滤可以分为基于内存的过滤和基于模型的过滤。基于内存的协同过滤推荐计算在所有的数据集,并且每个计算添加新的数据重新计算。随着数据的不断增加,这种基于内存的协同过滤推荐系统的可伸缩性是大大减少。目前,一些新技术,如聚类、贝叶斯网络、机器学习,和关联规则,也被应用到模型的建立,为了更好地提高协同过滤推荐的质量。简而言之,协同过滤推荐目前吸引推荐方法研究人员的关注和支持11]。
针对上述问题,邓(12使用高斯分布方法规范化得分。Yitao et al。13)提出了一种解耦归一化法和得出结论,该方法具有更好的性能比高斯归一化。本文使用这种分离归一化法来处理用户的评级。本文提出的协同过滤算法是基于一种改进的用户模型。叫做一种改进的用户模型,因为用户评分前规范化建模与用户评分矩阵。许多的协同过滤推荐模型建立了基于用户评级,但用户评级由于不同用户的习惯会有所不同。用户的共同利益在相同的课程可能会给不同的评级。同时,他指的是著名的艾宾浩斯遗忘曲线,算法的非线性逻辑功能设计探索用户的评级忘记规则更紧密,从而给每个标准化评级不同时间忘记重量(14- - - - - -16]。考虑的影响推荐和邻居的真实性,本文设置一个有效的重量系数在计算用户相似度,这有助于提高推荐结果的准确性(17]。
3所示。提高了用户模型的协同过滤算法
传统的协同过滤推荐用户相似度的计算是基于原始用户评分数据,和推荐质量不是很理想18]。基于传统的协同过滤推荐的基本理念,改进的用户模型的协同过滤算法本文改善离线建模与在线推荐的推荐效率。同时,用户评分和正常化的引入评分时间重量模型的建立充分考虑不同的评分习惯的用户和用户的利益改变随着时间的推移,这一事实,以确保在线建议下一步的质量。在网上的建议,建立用户模型加载到内存,目标用户的最近邻居集是由计算用户相似性。这些最近邻集将被用作参考用户兴趣偏好与目标用户最相似,参与预测目标用户的评分nonscored项目,以及预测的分数。通过这种方式,协同过滤推荐结果生成基于改进的用户模型。在计算用户相似度,本文充分考虑了影响用户共同评分项的数量的用户相似性和排除了推荐结果的偏差造成的,很少有项目得分由两个用户和计算用户相似度非常高。工作流的协同过滤推荐算法提出了如图1。
为了改善传统的用户模型,本文算法首先采用解耦方法规范化用户评分,然后使用遗忘函数分配不同的时间忘记权重分数根据艾宾浩斯遗忘曲线理论,然后以这种方式处理。用户相似性计算后者得分矩阵的建议。
3.1。归一化分数
许多协同过滤推荐是基于用户评分数据,所以用户评级代表用户的真正的兴趣和爱好,以确保建议的准确性。在用户评级的进一步研究,本文发现,原来的用户评分数据显示相同的用户兴趣偏好的差异评级:(我)不同的评分范围:一些用户喜欢得分在更大的范围内,而另一些人则更喜欢在一个较小的范围内(2)不同的评分尺度:一些用户更“宽容”,更容易“怜悯”得分,分数一般高;相反,一些用户不给得分最高的,即使他们喜欢它
因为用户有这样的习惯得分的差异,本文建议降低其影响效果和使用解耦方法规范化用户的分数。解耦正常化是一个概率机制的方法,基于两个假设:
一个是,如果多数用户的课程分数小于或等于R,这意味着用户可能喜欢的课程;
第二个是,如果用户成绩的很大一部分课程分数 ,然后用分数这门课程不太可能被用户喜欢吗 。
根据这两个假设,根据semiaccumulative分布方法,定义脱钩正常化的方程如下:
的方程,是这种规范化处理的结果得分,代表课程得分的概率用户喜欢的吗 。 代表一个评级水平, 和 分别代表用户的概率将分数小于或等于和等于 ,反映课程评价的概率小于或等于和一个等于用户会喜欢吗 。通过这种方式,课程得分由用户作为 ,我们可以使用随着用户归一化的结果课程的评价是什么和其标记为 。
3.2。引入时间忘记重量
随着时间的变化,用户的利益总是转变。因此,由用户给出的分数在不同时期有不同的参考意义的建议。分数不能治疗相同的影响没有考虑时间评分的参考价值。
为了说明这个问题,让我们举个例子。表1显示了五门课程由四个用户的得分记录。应该注意的是,这些分数的时间有所不同。
在表1,如果比分的时候是不被认为是生成的,然后从分数的观点,很容易得到的 ,最近邻用户是 。然而,当我们考虑的时间分数生成,结果发生了变化。在这个时候,你会发现它是不合理的的最近邻 ,因为用户的得分过去时间用于计算相似性与另一个用户的评分在当前时期探索是否相似。兴趣偏好是毫无意义的。因此,考虑到进球得分的影响时间,最近的邻居的在表1应该是 。
这是一个例子,考虑到不同用户之间的时间忘记对得分的影响,对于一个特定的用户,用户的兴趣转变引起的时间忘记也存在。用户的偏好会随着时间改变。过去的评级和当前评级不能治疗相同,和不同的时间权重应该被分配。接下来,必须选择一个合适的函数来模拟用户的兴趣转移法生成时间忘记重量。
事实上,偏差用户感兴趣的规则非常类似于人的遗忘规律,所以时间遗忘函数可以由指的是忘记规则。关于遗忘的规律的研究,结果德国心理学家艾宾浩斯值得学习。著名的艾宾浩斯遗忘曲线在许多研究中也提到了。艾宾浩斯遗忘曲线显示人类记忆力的非线性递减规律。本文中的算法使用一个逻辑函数来模拟曲线法(19),反映用户兴趣的遗忘的转变趋势。物流功能模型图所示2。
这个逻辑函数是非线性增加,这意味着时间的流逝的时间越长,利息越忘记转变。然而,考虑到用户兴趣和爱好的偏差从忘记略有不同,用户的兴趣爱好在一段时间内保持相对稳定,不会很快改变。该算法做出了适当的改进物流功能。这是一个定义:让用户参数的时间差距的评级在同一时间差距产生遗忘函数值相同,哪个更符合兴趣转移法。因此,遗忘函数被定义为时间
的函数,代表用户的时候分课程 ,函数的自变量,代表用户最后一次得分的时候。定义了一个时间间隔参数,其值取决于实验验证的结果。 是常数大于零。的理论极限值。使用合适的方法来解决参数;这个公式是
的函数,是样品的数量。计算偏导数的常数 根据函数和偏导数等于0:
因此,未知参数 ,可以被定义为体重和时间忘记
其中,是规范参数。时间忘记重量是引入的得分结果正常化的过程,和处理过的得分记录 ,这是表示为
到目前为止,用户评分矩阵处理后获得的用户模型建立的算法。
一般来说,基于模型的协同过滤推荐包括以下步骤:第一步:数据收集步骤2:构建模型第三步:找到最近邻集合步骤4:推荐的预测
前面的内容讨论了模型的建立过程的协同过滤算法来提高用户模型。接下来的工作主要是推荐模型的基础上,也就是说,找到最近的邻居集和预测建议。
3.3。找到最近的邻居
的过程中找到目标用户的最近邻居集合的过程实际上是计算用户相似性目标用户和其他用户。两个用户是相似的,这意味着两个用户有相似的兴趣和偏好。基于用户的协同过滤推荐模型中,用户之间的相似度相对较大,他们更有可能喜欢相同的课程。因此,用户相似度可以用来找到目标用户的最近邻居集合。喜欢的课程,你可以预测哪些课程目标用户更感兴趣,使个性化推荐课程。
有几种相似性计算方法,有三种广泛应用于协同过滤推荐算法,也就是说,皮尔森相关系数法(20.)、余弦相似性和改进的余弦相似性的方法。本文中的算法使用皮尔逊相关系数的方法来计算用户相似性。相似的皮尔森相关系数计算公式定义如下: 在哪里 代表用户之间的相似性和用户 ,和代表用户评级当然是哪一个 。在这个算法,评级的评级加工处理模型。同样的,代表用户评级当然是哪一个 。 代表所有的平均评级的用户 ,和代表所有的平均评级的用户 。 指的是用户的课程集合和用户共同评价。
计算用户相似性的目的是找到真正的目标用户的最近邻居。然而,当根据公式计算用户相似性5,它可能发生,这两个用户得分只有一些常见的课程,但在计算相似度时,会发生两个用户之间的相似度很大,而高估了两个用户之间的相似度。使用这些最近的邻居来预测目标用户感兴趣的课程,推荐后预测的质量将受到影响。
为了提高相似度计算的准确性,改善上述问题,提出了一个有效的加权因子来改善皮尔逊相关相似性计算。这有效的重量系数定义如下: 在哪里代表课程得分由用户的数量和用户 ,和是一个可调参数。用它来设置阈值的课程得分由用户和用户 。在实验中,我们会发现一个参数恰当的值。这有效的体重因素是给皮尔森相似度计算的相似度值。它可以以这种方式来解释。如果两个用户共同评分的课程数量超过了设置的阈值 ,重量是1。两个用户的用户相似度取决于皮尔逊相关性的相似性计算的结果;相反,如果课程得分由两个用户的数量不超过阈值,这个有效的体重将会发挥自己的作用。很明显,两个用户共享相同的。课程的数量越少,一直认为,分子越小,和有效的重量系数越小。也就是说,在这个时候,皮尔森相关相似度计算结果的贡献,最终用户之间的相似度值会减少。
通过添加这有效的加权因子,最终用户相似性计算公式可以表示为
在上面的方程中, 代表用户之间的相似性一个和b,表示的重量因素, 代表后的最终相似度的加权因子的有效性。后计算目标用户与其他用户之间的相似性,分数目标用户对历史项目的介绍,进一步修改相似公式: 在哪里的平均分数是用户评价的项目。在这个时候,顶部用户可以选择相似度最高的价值目标用户的最近邻居集,和最近的邻居帮助目标用户预测和推荐课程可能会喜欢。大小最近的邻居集是由背景的具体建议。在实验中,最优值的改进的用户模型的协同过滤推荐算法的推荐背景和本文的实验数据环境也得到[21]。
3.4。预测的建议
在获得目标用户的最近邻居集,这一步是预测目标用户的评分得分课程基于最近邻居集。这个步骤使用传统的协同过滤推荐算法。预测评分部分取决于目标用户的平均分数,部分是由最近的邻居的邻居集。用户预测的公式的评级和劣质的课程如下: 在哪里代表用户的平均分数和代表用户的最近邻居集 。
通过计算目标用户的评分,分数获得的商与更高的预测分数可以推荐给用户最终的目标用户的个性化推荐结果。
4所示。数据集和实验测量
4.1。实验数据集
大部分的实验数据集的协同过滤推荐算法是源于一些著名大学多媒体英语远程教育资源推荐系统。
许多的协同过滤推荐算法的研究是基于数据集的推荐系统。根据实验室的研究环境和条件,本文运用东北大学的ml数据集实验数据集。该数据集包含100000个评级记录1682年推荐的943用户提供英语内容,1 - 5的评级范围,每个用户都有至少20评级记录。在实验中,80%的数据作为训练数据,剩下的20%用作实验验证数据。
4.2。实验环境和工具
这个实验的环境是微软Windows 7 + Java开发工具包v1.6.0 + SQL Server 2008,仿真系统运行在Tomcat 6.0平台上,英特尔(R)和服务器配置CPU 2.80 GHz Xeon (TM), 2 GB内存。
4.3。实验测量
4.3.1。实验测量标准
有几个标准来衡量协同过滤算法的准确性。在这篇文章中,平均绝对误差(MAE)用于测量和验证算法的准确性。
平均绝对误差(MAE)计算预测分数之间的平均绝对误差和实际得分。算法的精度误差的大小来判断不同。
如果用于表示课程的设置与预测和真正的目标用户评级,预测目标用户的分数吗本课程 ,和是真正的目标用户的分数吗本课程 。错误的计算方法(MAE)可以被定义为
美计算值越小,算法的精度就越高。
以下将平均绝对误差(MAE)作为测量标准,分为两组实验来测量和验证本文提出的算法。
4.3.2。参数设置
在本文的算法,有两个可调参数,需要通过实验。一个是时间间隔参数T在逻辑函数计算时间忘记体重,和另一个是阈值的相似度计算的有效的体重因素。实验结果的影响这两个参数对算法的数据所示3和4。
在实验测试值的参数T, T的单位是随着时间的周,进球记录和评分时间是秒。考虑到用户的兴趣偏好不会改变秒,T的单位转换的实验。为一个特定的用户,实验改变T的值观察T的变化的影响平均绝对误差(MAE)。所示图的结果3毫升数据集下的电影镜头,T的最佳值的算法,本文是2周。当然,T的值将是不同的在不同的推荐算法的环境。
的值为有效的加权因子,实验将改变的价值条件下,T不变的价值在一定用户和T的值为2周是最好的价值,同时,的价值获得的平均绝对误差(MAE)。审判的结果值实验如图4。这一结果表明,在本文的算法实验环境的最佳值范围是16岁到20岁,18岁的最佳值是在比较中选择实验。同样的,当不同的推荐系统的算法,的价值也应该被重置。
4.3.3。比较测量
接下来,提出了协同过滤算法与其他两种算法相比,即。,the traditional collaborative filtering algorithm, and the collaborative filtering algorithm based on hybrid user model. These algorithms are abbreviated by English initials as follows:CCF:传统协同过滤是一种传统的协同过滤算法HUMCF:混合用户基于模型的协同过滤是一个基于混合用户模型的协同过滤算法IUMCF:改进的基于用户模型的协同过滤是用户的协同过滤算法的改进模型
CCF是一个典型的协同过滤算法,该算法相比,本文是第一;HUMCF是一个基于混合用户模型的协同过滤方法,基于这样的一个混合用户模型,并结合用户评级,课程的特点和人口统计信息。权重的特征向量是学会了使用遗传算法,以计算用户之间的相似性来生成一组最近的邻居。实验证明,该算法也达到很高的推荐精度。作者参与了这个算法的研究。因此,实验比较了系统滤波算法提出了基于该算法与改进的用户模型。
IUMCF代表了协同过滤算法提出了改进用户模型。实验比较了平均绝对误差(MAE)三种算法在两种不同条件下的结果。
首先,每个参数的最佳值,看看梅的变化值的三个算法在不同数量的最近的邻居。实验后,结果如图所示5。
通过实验,最近的邻居的数量范围从10到50。从结果,基于混合模型的协同过滤算法和基于改进的用户模型的协同过滤算法在本文中有较低的平均绝对误差(MAE)比传统的协同过滤算法。但本文算法显然美价值较低。可以说,协同过滤算法提出了改进用户模型有更好的推荐精度。
其次,实验比较了三种算法的平均绝对误差为不同的随机用户。同样,所有参数最佳值。参数T需要2周,需要18,最近的邻居的数量需要35。只是随机选择不同的用户,不同的用户id不同的用户是随机选择的。实验结果如图所示6。
从结果可以看出在图6的美值算法是不同的对于不同的用户,但更重要的是,美值的三个算法对不同的用户明显不同。一般来说,基于混合模型的协同过滤算法和改进的用户模型的协同过滤算法本文仍然可以得到较低的平均绝对误差(MAE)比传统的协同过滤算法,但该算法在本文中有较低的美价值,这进一步表明,改进的用户模型的协同过滤算法提出了更好的性能在推荐精度。
5。结论
改进的用户模型的协同过滤算法提高了算法的精度水平的用户评分通过评级和正常化的引入时间忘记重量。同时,添加了有效重量系数在计算用户相似度。一方面,它可以避免数据稀疏的建议的影响,另一方面,它可以使的最近邻居集更合理,从而有助于提高推荐的准确性。算法的离线建模和在线推荐模式保存在线等待时间建议,在一定程度上提高推荐效率。实验也证明了这种改进的用户模型协同过滤算法具有良好的性能在推荐准确性和推荐效率。
数据可用性
使用的数据来支持本研究的发现可以从作者要求。
的利益冲突
作者宣称没有利益冲突。