文摘

针对穷人的推荐性能的传统资源协同过滤推荐算法,本文提出了一种基于深度学习的协同过滤推荐模型对艺术和蕴藏的资源。该模型首先使用嵌入向量基于metapaths学习的环境。嵌入向量基于上下文的metapaths聚合不同metapath信息网络公开课和不同metapaths可能有不同的偏好不同。其次,捕捉这种偏好漂移,该模型引入了一个机制的关注,从而提高推荐结果的可解释性。然后,通过引入拉普拉斯算子矩阵的先验分布隐藏因素特征矩阵,关系网络信息有效集成到模型中。最后,使用评分矩阵与传统模型相比,该模型在本文中使用文本词向量有效地缓解数据稀疏的影响,大大提高了预测的准确性。在分析实验结果,与其他算法相比,提出的资源协同过滤推荐模型在本文中取得更好的推荐效果,具有良好的稳定性和可扩展性。

1。介绍

目前,许多大学符合教育部的指标,利用互联网的优势,人工智能,大数据分析技术,提出智能教育。在实现智能教育、蕴藏资源是最重要的组件(1- - - - - -3]。因此,协同过滤推荐算法的设计蕴藏资源具有非常重要的研究意义(4,5]。

大数据技术的不断发展,蕴藏资源推荐算法已经出现。的帮助下推荐技术领域的电子商务,旅游的路线,和社交网络,许多优秀的蕴藏资源推荐算法提出了(6,7]。传统课程只有数十或数百名学生,而是一个蕴藏最多可以容纳100000多人。因此,在互联网上,使用协同过滤推荐艺术学习蕴藏资源(8,9]。由于资源数据的增长,现有的协同过滤推荐算法对艺术学习蕴藏资源只能停留在表面的数据,导致更高的美值。深度学习可以自动提取深度特性。因此,为了解决当前问题的过程中,协同过滤推荐蕴藏资源,本文设计一个蕴藏资源的协同过滤推荐算法基于深度学习。

本文的其余部分组织如下。部分2评审的相关工作。部分3介绍了提出的方法。部分4实验和结果报告。部分5总结我们的工作。

如今,推荐系统已广泛应用于所有职业,并不知不觉地改变着人们的生活。从外国媒体几乎如出一辙,据统计2003年亚马逊营收增加了约35%,由于其引入一个基于项目协同过滤推荐算法(10- - - - - -13]。传统的协同过滤方法使用浅机器学习模型,无法学习的深层特征用户和项目。因此,推荐的融合方面信息越来越关注,和混合的建议是越来越受欢迎。然而,经常有问题,如大规模的辅助信息,多种类型,不一致的数据类型和失踪的关键数据。混合推荐正面临严峻的挑战[14,15]。

近年来,许多方向的深度学习取得了巨大的突破人工智能,及其应用的方向推荐系统仍处于起步阶段。国际计算机协会的推荐系统分支举行研讨会上的应用推荐领域的深度学习和在会议上指出,未来重要的推荐系统的研究方向是深度学习(16]。因此,它具有重要意义深度学习应用于推荐系统的研究(17]。

基于最近邻居算法主要使用的方法计算用户或项目评分矩阵的相似性为用户提出建议。许多学者有改进和创新这个算法。典型的代表是基于项目的算法(18),已成功地应用于亚马逊的电子商务系统。王等人。19)提出了一种基于矩阵分解的协同过滤推荐算法,大大提高了推荐的准确性。随后,学者继续改进,先后提出了概率矩阵分解(及)模型(20.),圣言+ +模型(21),分解机模型(22)等等,取得了不同程度的某些改进。Hazrati et al。23)提出了一种基于限制玻尔兹曼机的协同过滤算法(元)。第一次深入学习是学习引入到推荐系统用户和项目的隐性因素。之后,一些学者的基础上做了改进,但RBM-based协同过滤算法有很多缺点,如长时间训练和大规模的重量参数连接隐藏层和可见层,实际应用中难以实现。陈等人。24)应用深度信念网(DBN)的推荐系统,提出了一种新的深混合推荐模型。在引入深度学习之前,刘et al。25提出了主题模型(CTR)。本文的模型抽象然后学习本文的隐藏特性表示,用于文章推荐。然而,当辅助信息非常稀疏,隐藏的特性通过主题模型学习的不足和无效的。在这个时候,深度学习的显示效果。黄等。26)直接用CNN和DBNs获取隐藏的因素从内容信息。然而,它只考虑项目的隐性因素,只适用于音乐数据。赵et al。27)提出了一种协作深度学习(CDL)模型来获取项目的文本信息隐藏功能。这个模型使用SDAE [28)而不是LDA,解决问题的学习不足隐藏的特性数据稀疏时协作主题回归。

CDL模型的出现立即引起了大量的关注,成为一个基准为大量人员来改善和比较。CDL模型中,作者表达了文章的辅助信息通过bag-of-words(弓)模型。这个模型使用无序语言来表达文本,不能挖出重要的信息隐含在单词的顺序。因此,Zhang et al。29日)使用循环神经网络的概念(30.]在编码和解码阶段提高SDAE模型转换为一个协作autoencoder复发,这使得单词之间的关联信息在独木舟的辅助信息。李等人。31日)提出了一个协同变分autoencoder (CVAE)降噪SDAE延伸。该模型不需要添加噪声的输入;它可以更好的了解项目的隐性因素的辅助信息。因为CDL只使用辅助信息的表层意义,熊et al。32]介绍了CNN在文本推荐我的辅助信息内的相关信息。他们用word-embedding技术取代弓模型来表示单词辅助信息。然后,这些话是连接到一个二维矩阵形式。卷积,池和完全连接映射进行二维矩阵,最终获得项目的隐性因素。

深度学习的趋势下,垂直和水平的建议,在深入学习模型采用我的隐藏特性,采用协同过滤算法把他们与不同的推荐情况,是一种趋势和方向(33- - - - - -36]。

3所示。异常行为检测算法

3.1。引发体系结构

引发体系结构的优点是,它更适合数据挖掘算法,它可以从大量的数据搜索隐藏的信息。火花框架包括SQL查询等功能组件,文本处理和机器学习。这些组件紧密集成在火花。计算性能更好,特别是在环境中大量信息分析和迭代,并使用火花框架的优点是特别大。因此本文选择了引发体系结构。

与网络公开课的广泛流行,大量蕴藏的资源可以搜索很多互联网社交平台。如果你想寻找你需要的信息在大量资源,您需要使用火花架构下的协同过滤推荐算法,即通过建立用户的搜索历史模型,记录用户的偏好和兴趣,并积极提供相关蕴藏推动。从的角度协同过滤算法,类似的用户将有相似的品味。因此,类似用户的偏好可以用来提出建议为目标用户。算法流程如图1

火花框架包括SQL查询等功能组件,文本处理和机器学习。这些组件是紧密集成到火花。其计算性能更好,特别是在质量分析和迭代的工作环境的信息;使用火花框架的优点更突出。当火花架构在一个集群中运行,司机首先完成资源通过资源管理器应用程序。经理分配资源后,相应的节点上执行程序启动。节点完成后提交的任务驱动程序,它最终将请求发送到司机。程序提交反馈。

3.2。基于双通道CNN蕴藏资源评分预测

推荐系统的输入基于深度学习通常蕴藏类之间的相关信息,和深层神经网络模型会自动学习之间的隐式表示蕴藏类和为用户推荐课程基于凯恩表示。基本的深度学习推荐系统包括一个输入层、一个建模层,和一个输入层。在建模层,最深度学习模型的使用包括疟疾、卷积神经网络和递归神经网络。在输出层,深层网络模型学习网络公开课之间的高度抽象的表示,然后生成一个项目推荐列表通过内积等步骤,Softmax转换成概率值,相似度计算和排名。

传统的矩阵分解方法只使用评分信息,所以它只学习蕴藏的表示。除了得分信息,这个模型也使用其他附加信息。因此,除了表示类之间的学习,该模型还明确学习metapath-based上下文表示用户和课程。我们可以看到在图2这个模型主要由两个模块,其中一个是嵌入向量学习基于metapaths的上下文。第二个模块是将拉普拉斯算子矩阵引入隐性因素的先验分布特征矩阵,和关系网络信息有效集成到模型中。

不同的路径实例metapaths分层神经网络的输入来记低维向量表示。路径实例向量的具体metapaths池获得的低维向量表示metapath本身。基于metapaths骨料不同metapath信息,网络公开课和不同metapaths可能有不同的偏好不同。为了捕获这个偏好漂移,模型引入了一个注意力机制。注意机制已广泛应用于自然语言处理领域学习的重要性不同的单词或句子。一个关注机制的引入不仅可以产生更好的性能,还提高推荐结果的可解释性。

本文中的模型可以有效地整合用户评分信息,蕴藏的内容和网络信息。此外,特征表达式学到可以蕴藏的关系网络中传阅,这样特征表达式可以更精确,可以更准确地描述蕴藏的内隐特征向量。通过引入拉普拉斯矩阵的先验分布社会隐藏因素矩阵,关系网络信息有效集成到模型中。

它可以从模型的生成过程,本文中的模型成功地整合了课程功能表达载体通过深入学习,用户的评价矩阵β,和网络矩阵α表示,这样的特性是蕴藏更准确,可以更准确地描述。推荐的这个模型框架如图3。首先,它是必要的训练数据集进行预处理,课程的用户的收藏记录转换成用户评级矩阵,S_matrix,并使用弓模型表达蕴藏的标题和摘要信息内容矩阵,C_matrix,网络公开课和引用关系作为社会邻接矩阵,J_矩阵。这三种信息融合,和两个相同的神经网络输入和输出同时训练。用户隐式特征矩阵和蕴藏隐式特征矩阵,最后预测结果。

目前蕴藏资源之间的相似度的计算公式和蕴藏的资源主要包括余弦相似性,皮尔逊相关系数和约束的皮尔森相关系数。他们的计算公式,从公式(1)- (3)。选择公式(3蕴藏的资源协同过滤推荐算法在本文中计算蕴藏资源之间的相似性和蕴藏资源B。

其中,英足总代表蕴藏资源的预测功能评分,和n代表蕴藏资源的数量。

3.3。蕴藏的推荐算法基于Word-Embedding向量

近年来,word-embedding向量已经广泛应用于自然语言处理的许多应用程序,使一个端到端的整体的训练模型的过程,而不是一个传统的管道。它不依赖于工程特点,极大地提高了系统的性能。通过word-embedding模型,长文本映射到另一个空间的功能G;即G: W - > Wm, W是一个字典单词组成的审查文本或描述文本和Wm是m维向量映射函数G .本文使用我表示技术审查文本和蕴藏的语义描述文本。在模型的输入层,审查文本和蕴藏描述文本,分别表示为一个矩阵word-embedding向量的,这样可以学到他们的语义信息。具体地说,所有评论的用户划分为一个文档 ,其中包含的n单词。然后,一个词向量矩阵E为用户构造;规则如下:

其中,变量 表示文档中的第一个词 通过矩阵 ,单词的顺序可以维护。

CNN层上的一系列操作之后,你可以学习网络公开课用户和隐藏功能。然而,这两个特性来自评论内容和描述文本,分别,不是在同一个特征空间,所以是不可能执行分解和其他操作。因此,有必要使用一个共享结构,合并前两到同一个特征空间可以执行后续处理和共享层出现了。

首先,一个单独的相关向量 需要建立连接用户隐式特征 输出通过CNN模型蕴藏隐式特征 然后,基于模型的隐藏因子模型用于推荐系统模型关联向量u和培训最终预测评分。对于给定的训练样本,损失函数所示

其中,变量 是分数的实际值,变量 是整个模型的整体偏差,和变量 向量的重量吗

4所示。结果与讨论

4.1。数据集

大量蕴藏的资源选择实验对象,分为十类。蕴藏资源的数量在每个类别表所示1

4.2。实验参数设置

除了蕴藏内容信息,该模型还可以使用关系网络信息提出建议。如果评分参数αβ设置为1,这意味着这个模型只使用蕴藏得分信息或仅集成了网络信息的建议。其他的值βα,这意味着在本文中提出的模型结合评分信息和网络内容信息在同一时间。

4(一)显示不同的参数值的影响α在召回率β是固定的。本文将集β= 10。从图可以看出,的价值β推荐性能的影响比较敏感。的价值α增加,推荐性能也逐渐增加。时的值α是10,本文中的模型达到了最高的召回率,然后开始下降。时的值α超过10个或更多,推荐性能明显恶化。原因是过多的alpha值使蕴藏资源相互关系过于密切,从而使预测结果错误。

4 (b)显示参数的影响β在召回率α是固定的。本文将集α= 20。从图可以看出,的价值β是推荐性能的影响不敏感。作为β价值增加,推荐性能也慢慢提高了。时的值β超过20,推荐的性能开始下降缓慢。这是因为,很小β,该模型在本文中大约相当于CDL。的价值β增加,本文中的模型还包含了更多的网络信息来提高推荐性能。一个特别大的β值表示该模型有一个严肃的关系网络信息的倾向。

在图的参数5都是训练有素的十倍,每个培训使用5倍交叉验证方法。平均均方误差对应的平均MSE十实验和迭代的数量所需的迭代次数当前模型损失值稳定。从图可以看出5(一个)可以实现最好的效果,当词向量维数是100。原因在于,随着词向量的维数增加,这个词向量在高维空间变化密度稀疏,这会削弱单词之间的联系。在图5 (b)卷积核的数量从1到5层是16。研究表明,最好的结果可以通过使用一个3 - layer卷积模块。原因是卷积在第一层中使用的参数的数量是最大的,维数减少的数量很小,输出矩阵很大,文本特征提取是不够的,最后完全连接层有许多神经单元,和训练速度慢。五下卷积模块、特征提取的卷积模块过于抽象。从图可以看出5 (b)使用3 - layer卷积模块的效果是最好的,所以比较含不同数量的卷积核的实验使用卷积一层结构。从图5 (c),最优数量的卷积核是16。分析发现,使用四和八卷积核,抽象特性的能力是有限的,和卷积内核没有完全用于提取用户之间的深层特征,蕴藏。当使用32和64卷积核,提取的特征太详细,噪音是抽象,导致过度拟合,训练时间长。

4.3。相似功能的影响和负样本比例推荐性能

相似函数可以用来衡量蕴藏类之间的相似程度。图6比较了不同的相似度函数对召回率的影响。因为意味着使用余弦相似度作为相似性函数。皮尔森意味着使用皮尔逊相关系数作为相似性函数。皮尔逊约束意味着使用受限的皮尔森相关系数作为相似性函数。从图可以看出,模型的推荐性能使用相似性函数约束皮尔森是最好的。可以看出,相似性函数将影响推荐性能,皮尔森和约束具有最好的性能。

推荐系统的目标函数可分为两类:逐点和成对。与双目标函数相比,逐点目标函数更自由选择的比例负样本。为了澄清负样本的影响比推荐的性能,本文做以下实验捕捉负样本率和性能之间的关系。

7显示模型的性能与不同的负样本比率在不同的数据集和不同的指标。从图可以看出,当负样本的比例低于4,性能将大大提高负样本的比例增加。然而,当负样本的比例超过四个,随着负样本的比例增加,性能将会增加,但幅度相对较小。此外,该数据集大小N次积极的示例,其中N + 1的比例负样本。因此,当积极的样本大,负样本的比例大采样会导致训练时间增加成倍增长。为了平衡性能和时间复杂度,选择一个小的负样本比率将是最好的选择。因此,负样本的最佳选择比例是6到8。

4.4。比较和分析蕴藏资源推荐的准确性

在上面的实验环境参数,算法基于云平台,传统的基于浅机器学习算法,本文算法,分别用于进行实验。实验结果如表所示2

实验结果表明,降低训练集和测试集的增加,美和RMSE值的三个算法都减少,和准确性得到了不断的改进。的美和RMSE值算法在本文中低于其他两种算法在每一个比例,和准确性高于其他两种算法。传统的机器学习算法采用浅模型,无法学习深度用户和项目的特点。这表明Spark-based艺术蕴藏资源的协同过滤推荐算法具有较高的推荐精度和更好的性能。

为了验证本文模型的稳定性,数据集被分为5倍交叉验证实验,和50轮实验。结果如图所示8。损失价值50-round实验与训练轮的数量负相关,不会有大规模的抖动在整个培训过程中,和最低的学习速率可以达到一个很大的学习速率。实验结果表明,本文的模型具有良好的稳定性。

选择资源协同过滤推荐算法的文献[19)、文学(23]和文献[27)进行对比实验。同样的数据集,其蕴藏的资源推荐准确性如图9

推荐的比较分析蕴藏资源图的准确性9表明蕴藏资源推荐在这个模型的准确性要高得多比文献[19)、文学(23]和文献[27]。它减少了误差蕴藏资源推荐。

5。结论

大数据技术的不断发展,蕴藏资源推荐算法已经出现。学生学习兴趣的基础上,系统分析了学生学习历史和相关材料。国外更加注重蕴藏资源的研究建议。他们已经提出了很多优秀的蕴藏资源推荐算法的推荐技术领域的电子商务,旅游的路线,和社交网络。然而,当前推荐这些算法的性能仍然是穷人。因此,基于火花的体系结构,本文提出了一种基于深度学习的协同过滤推荐模型的艺术教育资源。这个模型主要由两个模块,其中一个是嵌入向量学习基于metapaths的上下文。第二个模块是将拉普拉斯算子矩阵引入隐性因素的先验分布特征矩阵,和关系网络信息有效集成到模型中。使用评分矩阵与传统模型相比,该模型使用文本词向量有效地缓解数据稀疏的影响,大大提高了预测的准确性。在分析实验结果,与其他算法相比,提出的资源协同过滤推荐模型在本文中取得更好的推荐效果,具有良好的稳定性和可扩展性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。