文摘
在这项研究中,我们关注的是信息过期的问题时,使用传统的协同过滤算法,提出一种新的协同过滤算法通过将时间因素(ITWCF)。该算法认为信息衰减的影响随着时间的推移,介绍一个信息保存期基于半衰期的信息,和时间加权函数,提出了一种应用于最近邻选择和分数预测分配不同的时间权重分数。此外,为了进一步提高最近邻的质量选择和缓解数据稀疏的问题,一个方法计算用户的用户评论的情感倾向分析特性提出了挖掘用户的态度审查项目,扩展了评分矩阵。时间因素和情绪倾向然后集成到K——选择最近邻聚类算法。一个混合协同过滤模型(TWCHR)基于改进的K——然后提出的聚类算法,通过结合基于项目和基于用户的协同过滤。最后,实验结果表明,该算法可以解决的时间效应和情绪分析建议,提高模型的预测性能。
1。介绍
电子商务已经逐渐发展成为社交商务与互联网的快速发展。用户可以发布和获取信息越来越多的频道。推荐技术,基于协同过滤的概念,帮助用户更好地利用信息(1]。实际和理论上,基于用户的协同过滤推荐算法或项目取得了良好的效果。然而,数据稀疏等问题,冷启动和信息过期仍发生(2,3]。研究人员因此提出各种改进实现更高质量的预测和建议。
最常见的方法解决数据稀疏的问题是使用降维技术对原始数据进行压缩的(4]。的冷启动问题,郭et al。5)指出,在早期阶段,邻居可以根据用户或物品的特性。为了解决信息过期的问题,介绍了非线性遗忘函数,考虑信息的损失影响随着时间的推移,和一系列的推荐算法提出了将这个函数(3,6- - - - - -9]。
大多数电子商务网站功能在线评论代表用户的具体反馈产品,但数据稀疏的问题仍然是一个重大的挑战。研究人员发现,挖掘用户的情绪倾向从审查信息将提高用户偏好模型和推荐的准确性(10- - - - - -12]。因此,评论的矿业建立用户的兴趣偏好,结合用户评分改善传统的协同过滤算法,最近成为极大的兴趣的一个话题。Ganu et al。13)提出了一个multilabel文本分类器基于支持向量机(SVM)进行分类评价和生成文本分数和基于他们的建议。然而,这种方法需要3400句的主题类别和情绪分类需要人工注释。McAuley和Leskovec14]提出了隐藏的因素为主题(高频交易)模型结合潜在变量模型与文档主题生成模型(潜在狄利克雷分配,LDA)。LDA方法用于获取产品评论主题分布,然后结合潜在变量模型建立审查题和评分之间的关系。这种方法作为评审的主题分布符合潜在的分数维,从而建立了转换。Dehkordi et al。15添加用户评论和用户具有相似偏好隐含的反馈到协同过滤算法来提高推荐结果的准确性。
上述改进算法在一定程度上能够解决传统协同过滤算法所面临的问题,但建议质量仍有可能进一步提高了有效地解决信息过期和稀疏的问题。在这项研究中,我们地址信息过期时间加权协作首先引入一种改进的滤波算法(ITWCF),这假设虽然信息非线性衰减的影响随着时间的推移,特定时期内不会发生重大变化。保持不变的时间窗口信息集成到衰减函数。通过应用信息半衰期(7),建议保留一段时间的信息的概念,时间加权函数生成一种改进这项研究和引入传统相似性计算来提高其准确性,目的是实现更好的推荐结果。此外,为了更好地利用用户评论信息和缓解数据稀疏的问题,感情倾向计算方法基于审查特性的分析和应用于聚类分析,提出了改善质量的最近邻的选择。因此,提出了一种混合的推荐模型结合基于项目和基于用户的协同过滤。实验结果表明,该方法可以有效地考虑时间因素和用户情绪倾向,从而提高推荐的性能模型。
2。相关工作
2.1。基于用户的协同过滤
在基于用户的协同过滤,它假定目标用户会喜欢项目,类似于他或她的利益和偏好。这种相似性计算基于分数组用户的项目,和那些更类似于目标用户预测评分做出更大的贡献。目前,最常见的相似性计算方法包括余弦相似性、皮尔森相关系数,调整cos (16]。(1)余弦相似度作为每个用户的历史成绩n维向量,向量u和代表用户的历史成绩u和 ,分别。在这里,我th元素的向量是用户的评分我th项,未分级的项目是由0。余弦相似度的用户和可以表达的两个向量之间夹角的余弦值,也就是说, 在哪里r用户界面是用户的分数吗u为项目我和我紫外线是项目的集合被用户和 。(2)皮尔森相似性描述两个用户之间的一致性程度的评级趋势在几个项目基于用户的协同过滤。计算方法如下: 在哪里是用户的平均分数吗u在项目上。(3)在修改的余弦相似性,所有的用户都拥有不同等级的偏好。纠正偏差的不同用户的等级量表,用户的平均分数减去。修改后的余弦相似性计算方法如下: (4)预测分数和推荐计算用户的相似度,最近邻集合的地方N(u)的目标用户u根据获得最高N算法,然后用户预测评分u未分级的项我是
所有未分级的项目的目标用户u预计基于上述方法,顶部-N项目选择得分最高的预测和推荐给目标用户u。
2.2。基于项目协同过滤
未分级的项我我的用户u可以作为一个例子。首先,目标项目之间的相似性我我在设置和其他物品我计算。的k然后删除物品相似度最高的形式最近邻集合 的项目我我。相似性可以使用各种计算方法,最基本的余弦相似性、皮尔森相关相似,和修改的余弦相似度(16]。(1)余弦相似度的方法是类似于两个得分向量的夹角。角度越小,相似度越高(见公式(5))。如果分数矩阵r的值是null, 0: 在哪里r向量空间,和所有用户的得分向量在物品吗我和j分别为,Uij用户评价项的设置吗我和j。(2)皮尔森相似性用于测量两个得分向量的线性相关性,计算如下: 在哪里和是所有用户的平均得分为物品吗我和j,分别。(3)修正余弦相似性地址使用基本的主要缺点余弦方法来衡量相似。具体来说,基本余弦方法忽略了用户之间的差异的理解评级标准。为了解决这个问题,修改后的余弦相似性计算后的平均分数减去从每个分数对应的用户。细节如下: (4)在预测分数和推荐,获得最近邻集合N(我)的项目我我,用户的评分u在我我可以预测基于目标用户的分数吗u的物品N(我):
所有未分级的项目的目标用户u根据上述方法,预计最高呢N项目选择得分最高的预测和推荐给目标用户u。
3所示。基于协同过滤的效果
3.1。时间效应分析的项目得分
传统的协同过滤推荐算法没有考虑会随着时间而改变。然而,在现实的贡献条目分数建议并改变随着时间的推移,所以应该考虑时间效应的建议(17]。一般来说,用户更感兴趣最近选定的项目比选。然而,当计算邻居集,传统算法对不同时期同样的条目分数,这意味着你的邻居的目标用户可能不包括最近的邻居在真正的意义上,从而减少推荐精度。
计算的邻居集基于用户条目分数相同的或类似的时间更准确。一个例子说明这是展示在表1,4的得分记录用户(用户,用u)对应3时间段5项。
假设用户1是目标用户,只有三个邻居用户,和预测是必要的吗用户1的分数项3。的时差t1和t2是相对较小的,但区别t4相对比较大。根据传统的相似性计算方法,最近的邻居的用户1是sim卡(u1,u2)>sim卡(u1,u3)>sim卡(u1,u4)。如果考虑时间效应,然后推荐贡献的重量应该增加最近的时间段。在这种情况下,最近的邻居的用户1是sim卡(u1,u2)>sim卡(u1,u4)>sim卡(u1,u3)。因此,传统方法无法正确判断的最近邻用户1。
3.2。改进的时间函数
在文献[3),非线性指数遗忘函数是用来描述衰减程度的信息,和时间加权函数T值(t)提出,它反映了不同的贡献的分数在不同时间的建议。描述信息从发布到衰败的过程,最后消失,信息半衰期的概念提出了(7]。
半衰期的定义这些信息T年代是时间将其发布的信息的影响,也就是说,在时间吗T年代的影响,信息减半。因此,它可以描述如下:
从上面的公式,又一次T年代0.5,时间加权函数,即用户的评分的参考价值变得原来的一半。然后我们定义衰减因子γ如下:
时间加权函数T值(t)可以计算如下: 在哪里 ,t用户界面评级项目的时间吗我由用户u和的值T值(t)时间加权值,也就是说,衰减的程度的信息。这个函数的值保存在(0,1],它随时间的增加而减小tu,我最近,这表明用户的评级记录更有预测价值。
信息通常显示了一个非线性下降的影响,但在一定时期内,它不显著改变。因此,我们引入一个信息停留时间的概念。
信息停留时间的定义Tp是时间的影响信息保持不变。
引入信息保存期时间加权函数给出了一个改进的F值(t): 在哪里 , ,和t用户界面评级项目的时间吗我由用户u。
添加的概念信息保存期改善时间函数相当于引入一个时间窗口,信息仍然基本持平,到原始的加权函数。这导致一个指数衰减的梯度信息,哪个更符合现实。
3.3。改进的相似度计算方法
在传统的余弦相似度的计算,介绍了时间加权函数改进分配一个时间重量分数。(1)改进的基于项目相似度测量的计算方法如下: 在哪里尖(我,j)是相似的物品我和j,r用户界面和ruj是用户u项目得分我和j分别(Δtu,我)是时间的函数,和Δt用户界面=t现在- - - - - -t用户界面评级之间的间隔时间的项目吗我和当前时间。(2)改进的基于用户相似性度量计算方法如下: 在哪里尖(u, )是用户之间的相似性u和 。(3)改进的基于用户评分预测如下: 在哪里P(r用户界面)是用户u为项目的预测评分我,N(u)是最近的邻居用户的集合u,和用户的平均分数吗u和在整个项目集。(4)改进的基于项目评分预测如下: 在哪里P(r用户界面)是用户u为项目的预测评分我,N(我)是项目的最近邻居集我,和项目的平均分数吗我和j在整个用户集。
3.4。协同过滤算法集成的时间效应
基于相似度计算方法的改进和分数预测方法,一种改进的时间协同过滤(ITWCF)算法:算法1)。
4所示。情绪分析评估信息
情感倾向分析进行的这项研究旨在扩大得分矩阵,所以定量分析的结果是必需的。在我们的分析中,使用中性情绪作为参考,我们评估情绪偏差趋势(偏差强度)的评论,它建立了极性强度和允许量化结果。根据计算最终得分矩阵构造的人气值,这可以使评分预测。
4.1。审查数据预处理
复习句子通常是由主观和客观的条款。目的条款并不用于分析情绪倾向,因此他们必须被删除。方法基于[18)是用于分析从句的类型和保留了主观的条款。ICTCLAS分词工具用于每个评论句子段和标签。使分析更有效,任何信息不一致的评价主题也提前手动标记,和一个utf - 8停止词表是用来去除停止的话。
4.2。特征提取和情绪分析评估信息
假设的评论是审查D,所有评论的功能词 。步骤1。利用中国ICTCLAS分词工具输出所有的形容词和副词: 。步骤2。每个评审采用IKAnalyzer段,计算语料库frequency-inverse文档频率(CF-IDF)值所有的功能词。所示的计算方法如公式(17),功能词 选择: 在哪里f我这个词的频率我词在整个语料库,|审查D|评论文本语料库中评论的数量D、| {j|t我∈dj}|评论文本包含的数量我词语料库。步骤3。获得情绪词的评论,包括形容词,副词,动词,名词: 步骤4。合并功能。不同的词常常用来描述相同的特性f在审查,因此,如果功能不合并,主要可能发生偏差分析。我们使用基于知网的情绪词汇(19),点互信息(PMI)方法(20.)来确定情绪功能词之间的语义相似度计算公式(19))。相似度达到设置的阈值时,合并的特性: 在哪里 相似的功能吗f我和fj, 的概率特性吗f我和fj出现在一起,的概率特性吗f我包括在审查,然后呢的概率特性吗fj包括在内。步骤5。计算功能词的情感倾向。特性的词f我根据公式(19),细节如下: 在哪里PosWords和NegWords知网的集是积极和消极情绪词,分别。如果 ,这个功能f我是一种积极情绪词和表示是积极的。如果 ,这个功能f我是一个负面情绪词和表示是负一次。如果 ,这个功能f我是一个中性的情绪词。步骤6。计算的情绪倾向值检查句子。提取每个评论的功能词的句子和相应的有利的评论数量,然后,计算整个复习句子情感倾向的价值。计算方法如下公式所示: 在哪里N的总数是在复习句子和特性的情绪倾向特性f我。
5。基于时间效应和情绪分析聚类算法
如前所述,信息将随时间衰减的影响。在这项研究中,改进的时间函数F值(t)是应用于聚类的物品。此外,由于用户的情绪态度审查项目的直接表达用户的行为,充分利用用户的情绪倾向会导致改进适应他们的个性化需求。因此,ITWCF算法可以通过聚类分析优化,因此,一个项目时间加权函数聚类算法结合情绪分析和提出(算法2)。
|
6。混合协同过滤模型
确保推荐算法有基于项目的特点和基于用户的协同过滤,混合协同过滤模型提出了基于聚类后,有效地提高了推荐精度的K则算法。
6.1。混合模型建设
步骤1。使用n倍交叉验证预测并生成的训练数据步骤2。R被定义为用户的原始得分矩阵,和整个原始分数组随机分为n相等的部分。的年代部分是表示R年代(训练集)(测试集)是用来表示其他评级数据除外R年代在评分矩阵。P用户是基于用户评分预测函数,P项基于项目评分预测函数。利用公式(22)构建的训练数据步骤2: 在哪里P下一个(r用户界面)是预测价值,的预测价值吗r用户界面基于用户的预测评分功能,的预测价值吗r用户界面基于项目的评分预测功能。步骤2。开展基于项目的加权融合和基于用户的预测函数基于训练数据中生成步骤1和公式(23)是融合预测模型: 在哪里P(r用户界面)是预测分数加权融合后β1和β2基于项目的权重,基于用户的预测值,分别。
6.2。混合模型的解决方案
上述问题转化为一个二次优化问题和约束,称为一个目标函数,和细节如下: 在哪里β模型的参数, , 训练集的大小, 是kth训练样本, 。
使用拉格朗日乘数和KT条件来解决优化问题。集 ,和的导数β可以得到: 在哪里 , , , ,和 。
6.3。基于时间的混合推荐模型效果和情感分析
我们应用相结合的聚类算法的时间效应和情绪分析ITWCF算法,提出一种基于时间的混合推荐算法和情绪倾向集群(TWCHR)。细节如下(算法3):
|
7所示。实验验证和结果分析
7.1。数据集
安装7.1.1。MovieLens数据集
MovieLens数据集包含100000个评级记录1682部电影从943用户,每个用户评级至少20电影用1 - 5分代表他或她的喜好。这个数据集用于验证的影响时间对推荐结果的影响。在实验中,从MovieLens随机选择5组数据,每一个都包含180个随机用户的评级所有项目的信息,每个用户在每个组的得分数据按时间排序从最近到最长。第一个70%作为训练集,剩下的30%作为测试集,使用交叉验证方法和验证算法(算法3)。
7.1.2。本数据集
使用一个爬虫算法编写的Python,超过20000本书购买记录,20000分数,爬了100着迷介绍流行的电子商务的网站jd.com,包括图书名称、图书分类、图书介绍,用户名、用户ID、价格、购买时间、评论信息,分数,和复习时间。这个数据集用于验证时间因素的影响和情绪倾向的评论信息用户的购买行为。
数据集分为训练集和测试集,根据4的比例:1。训练集用于构建推荐模型,测试集是用来评估建议的结果。评价指标包括准确率、召回率,和F1的值。
7.2。评价指标
7.2.1。平均绝对误差(MAE)
这个评估条目分数之间的偏差度预测的推荐算法和实际的用户给出的分数。计算公式如下: 在哪里P(r用户界面)是预测价值,r用户界面是实际的分数,和n预测项目的数量。
7.2.2。准确性、召回和F1值
推荐n产品的用户u,表示R(u)。让用户u最喜欢的项目集的测试集T(u),那么准确率和召回率定义如下:
准确率和召回率是一对相互排斥的指标,通常的总和。的F1值是用来测量质量的建议,如下:
7.3。实验设计和结果分析
两个实验是为了验证本文方法的有效性和可行性。第一个使用MovieLens数据集分析参数对算法性能的影响,包括半衰期的信息,信息保存期,最近的邻居,集群数量和相似性阈值。在此基础上,比较实验的目的是比较和分析该方法的优点和缺点和其他方法在同样的参数。第二个实验中使用这本书数据验证该方法的优点在使用时间因素和情感倾向。
7.3.1。个性化的电影推荐结果和分析
(1)分析参数对推荐效果的影响。(1)半衰期的影响的信息T年代ITWCF算法的性能在这个实验中,我们设置了信息保存期Tp= 3和最近邻号码cln= 25,然后观察美ITWCF算法在不同半值的值。我们比较这些值与时间加权的协同过滤算法,不引入时间停留时间(TWCF算法),如图1。图1表明,在包括信息保存期Tp= 3,梅的ITWCF算法是最小的,推荐精度是最高的25岁以下的信息半衰期。与TWCF算法相比,ITWCF算法具有更小的美和更高的推荐精度相同的半衰期和相同数量的最近的邻居。(2)信息停留时间的影响TpITWCF算法的性能我们设置了信息半衰期T年代15天,25天,50天,分别和邻居的数量cln= 25。然后,我们观察到的趋势的美价值ITWCF算法作为信息停留时间的函数Tp,如图2。图2显示的值越小T年代越敏感的算法变化的价值Tp。信息停留时间变化时,算法的美价值将在较小的改变更重要T年代。Tp也会影响你的推荐结果ITWCF算法和最优值的信息保留时间对应不同的半值时间也不同。然而,该算法给出了最好的整体精度时Tp是2 - 3天。(3)聚类数目的影响K和目标项目相似度阈值ηTWCHR算法的性能
根据上述的分析T年代和Tp,我们设置T年代= 25Tp= 2和相似度阈值η= 0.2、0.3和0.4,分别。然后,我们观察美TWCHR算法的变化在不同的集群的数量K,如图3。
图3表明,无论多么大的价值η是,当集群数量在6 - 9的范围,算法的美相对较低,预测精度相对较高。然而,当集群数量很大,物品在每个集群的数量很小,因此,一些真正的邻居项目将被排除在最近的邻居集,导致不准确的推荐结果。与此同时,当集群数量太小,美将再次增加,因为有更少的物品,其价值可以达到相似集群中心η,导致一些项目没有达到准确预测分数。当有太少的集群,最近邻候选人变得太大,一些东西是nonnearest邻居可能会聚集在一起,这削弱了推荐结果。
(2)不同算法的比较分析。这是基于上述分析各种参数的影响。在这个实验中,我们设置Tp= 2,T年代= 25,K= 6,群集中心之间的相似度阈值和目标项目η= 0.3。美值基于项目的协同过滤算法(ItemCF),基于用户的协同过滤算法(UserCF) ITWCF算法,传统的clustering-based TWCHR (TR-TWCHR)和TWCHR算法,分别在不同数量的邻居相比,结果如图所示4。
实验结果表明,梅斯的ItemCF, UserCF, ITWCF TR-TWCHR, TWCHR算法显示出减少的趋势在最近的邻居数量的增加。因此,最近邻数的选择是影响性能的关键因素的协同过滤算法。给出相同的最近邻数,梅斯ITWCF和TWCHR算法基本上都是等价的,除了当最近的邻居的数量是最合适的,在这种情况下TWCHR优于ITWCF。此外,ITWCF、TR-TWCHR TWCHR算法,所有包括时间因素,比ItemCF UserCF。总之,TWCHR算法具有最小的美,因此优于他人的准确性。
通过以上实验,我们发现时间因素和聚类数量有明显影响个人电影推荐,和方法提出了利用时间加权因子改善推荐效果是可行的。
7.3.2。个性化图书推荐和结果分析
(1)用户评论情感分析建议的影响。验证用户评论情感分析的影响在个性化推荐的书,在这个实验中,我们比较和分析推荐准确性,召回率,和F1 TR-TWCHR价值和TWCHR算法在不同的聚类数。集群中心的不同的值K在推荐算法,基于评论情感分析,有不同的影响,因此有必要使用不同的实验K价值观和观察的影响推荐结果,见表2。
表2表明基于评论情感分析的推荐算法(TWCHR)在不同有不同的推荐结果K值。然而,一般来说,召回率和准确率F1建议的价值综合评估情绪分析略高于那些没有综合评论情感分析的推荐算法(TR-TWCHR)。因此,推荐模型的性能可以通过整合评论情感分析改进。
(2)不同算法的比较分析。来验证本文提出的算法的有效性,ItemCF, UserCF ITWCF和TWCHR算法(K= 30)比较而言,分类准确率、召回率,和F1值,结果如图所示5。
图5表明TWCHR算法优于ITWCF,这可能与选择最近的邻居的改进方法。TWCHR,聚类算法将时间因素与评估分析是用于选择最近的邻居,而对于ITWCF,只有时间因素是选择最近的邻居。这表明用户评论的情感分析直接影响推荐精度。此外,TWCHR算法的性能明显优于ItemCF UserCF,这可能与最近的邻居的选择方法和数据稀疏。这表明融合的时间因素和情绪分析非常有效提高推荐精度。此外,结果表明,混合推荐算法有效地结合了ItemCF的优点和UserCF。因此,本文提出的算法是合理和实用的。
8。结论
解决问题的信息过期和审查的使用信息,我们首先研究协同过滤算法,将时间因素和情感分析。其次,我们引入的概念信息停留时间,提高时间加权函数,导致ITWCF提出的新算法。然后,我们提出一个评审项目的情绪倾向特性的计算方法和一种新的聚类算法,将时间因素和情感倾向分析优化ITWCF算法。第三,利用基于项目和基于用户的协同过滤推荐模型,提出了混合。最后,进行了两个实验来验证该算法,结果表明,我们的算法可以充分考虑时间因素和情绪倾向,从而提高预测的性能。
数据可用性
数据用于支持个性化的电影推荐的结果是可用的https://grouplens.org/datasets/movielens/和精确的书评的原始数据记录不能被释放,以保护个人的隐私。
的利益冲突
作者宣称没有利益冲突。
确认
这部分工作是由贵州省的技术基础(批准号QianKeHeJiChu [2020] 1 y269),新的学术幼苗培养和探索创新项目(批准号QianKeHe平台才能[2017]5789 - 21),贵州的创新人才项目(批准号QianCaiJiao[2018] 190号),国家自然科学基金(批准号71901078和71901078),贵州理工学院高层次人才项目(批准号XJGC20190929),特别重点实验室人工智能和智能控制的贵州省(批准号肯塔基州[2020]001)。