文摘

文学作品个性化推荐服务是一种服务,关注用户的需求,主动分析用户的兴趣和爱好,并智能地、高效地发现用户感兴趣的信息。之前的推荐算法无法有效实时和准确的建议,导致糟糕的推荐结果。本研究提出了一种个性化推荐算法,基于标注语料库的文学作品来解决这些问题。词典是第一次使用标记的原始文本是由分裂的话。用户的阅读行为是然后使用结合个人性格特征分析和一组不同个人背景的因素,和个性特点和情况。最后,我们计算每一个修饰词和词的频率在修饰词向量为每个词语料库,创建特征向量,并进行聚类分析。结果表明,该方法的美(平均绝对误差)值总是低于传统方法,尤其是当你的邻居集大小是5,这方法明显优于传统方法,6.23%的最大区别。结论。算法可以产生令人满意的推荐结果,可以用来制作个性化的文学的建议。

1。介绍

科学技术快速发展的今天的信息时代,尤其是计算机信息网络技术的迅速发展和通信技术(1),对我们的日常生活提供了很大的便利,和产品和用户数据。读者会花更多的时间来选择自己喜欢的作品当浏览文学作品的各种文学作品成长,这可以很容易地生。在这种情况下,推荐技术已经受到了太多的关注,因为它可以帮助解决信息过载。当用户需要做出决定,他们给出了基于数据相关信息或决策建议,和人工模拟被用来帮助他们。用户不会困惑当导航知识的广阔的海洋一旦他们已经完成了选择和决策过程。知识导航可以受益于使用个性化推荐技术。

很难准确、有效地获取所需的信息,面对庞大的数据,那么您需要使用信息过滤技术。目前,信息过滤技术主要分为检索和搜索引擎技术和推荐系统技术。Guzman-Cabrera提出了一个基于内容的加权粒度序列推荐算法(2通过分析项目的属性关系。陈提出了一个基于内容和兴趣漂移模型应用到电影推荐算法(3];元等人利用关联规则挖掘的特点我的用户属性和项之间的关系,并提出基于关联规则挖掘的一个分类随机漫步算法(4];CF(协同过滤)的广泛应用推荐系统在实际系统中,一些缺点逐渐暴露出来。例如,用户在系统中是相对贫穷的历史,也就是所谓的数据稀疏问题。在稀疏数据的情况下,很难准确地度量用户之间的相似性,导致无法形成一套可靠的近邻,严重降低了推荐的准确性。稀疏性问题已经成为一个瓶颈限制协作推荐技术的发展5,6]。

目前,汉语词汇和构词法研究领域的汉语言文学是有限的语法、词性,之类的,没有全面研究的语义。研究成果的集成和信息技术仍缺乏。在读者的个人偏好错误评级,如未能考虑功能词的位置重量处理审查数据的文本时,可以在推荐准确性产生负面影响。这些问题必须立即解决7]。我们试图严格和严格建立语义成分的基础上,以往的研究结果,结合实际情况反映在实际的文本;我们尽力描述每个语义组件在一个相对完整的方式。本研究的目的是使理论和实践的进步。本研究的示例数据库提取并建立现代汉语特殊句型,句子和模型系统的特殊句型,使用大规模标注语料库。本文的研究创新如下:(1)基于无监督中国一个词性标注的语料库,本研究中国无监督词性标注适用于平行语料库,构建和设计相关模型,并通过实验验证(2)在这项研究中,文学作品的个性化推荐算法基于标记的语料库,提出了充分利用项目类别信息和动态调整用户权重邻居集根据不同目标项目,可以更准确地描述用户之间的相似性。修改后的重叠系数提出了弥补人工参数调整现有方法的不足,提高了实用性的方法。

2.1。标注语料库的研究

中国中国词汇学构词法一直关注和语法很长一段时间,这样的话形成相关研究在中文领域已成为一个热点话题。黄等人提出了一个完整的二阶隐马尔可夫模型的汉语词性标注(8];元引入双向中文词性标注的方法基于传统的隐马尔科夫模型(9]。道尔顿等人单词在句子的位置信息添加到词性标记,添加这个信息作为特征的算法,并构建了一个新的最大熵马尔可夫模型。这些信息表达的更具体的算法。在添加新特性、报纸语料库进行了测试,准确率超过95% (10]。

赛义夫等人提出的方法基于无监督词性标记语言学习。该方法使用分层贝叶斯模型来预测两种语言的词性标注序列,和结果验证多语言学习的有效性11]。郑等人提出了一个完整的无监督词性标注的贝叶斯方法,集所有可能的参数值,与只估计一组参数。使用贝叶斯方法进行词性标注可以实现更好的性能比使用最大似然估计(12]。史和朱探索相应的机制之间的语义成分和句法成分的句子。通过初步调查相应的代理的两个语义成分和病人之间的关系和三种句法位置的主题,状语,和对象,很明显,名词的语义特征,谓语动词,和句型限制了语义成分出现在语法位置(13]。

2.2。研究个性化推荐算法

推荐系统的核心,个性化推荐算法从用户收集一些以前的信息,分析用户的偏好,并向用户提出建议。如今,个性化推荐算法的深入研究和应用领域的电子商务,教育和旅游服务。

沃伦王等人认为表达知识网络中的知识体系,介绍了最近邻第一候选人知识选择策略,提出了一个个性化的知识推荐方法基于建构主义学习理论——建设性的建议模型(14]。胡等人提出CF推荐算法的研究,结合大数据技术、社会网络分析技术和关键用户分析技术(15]。可以看出,混合推荐算法结合机器学习,数据挖掘,和其他知识是未来研究与应用的主要方向。戴等人使用数据挖掘知识和CF算法提出一种混合推荐算法相结合的用户聚类和评级的偏好16];朴等人建议通过使用资源和用户的利益之间的相似性。当创建一个用户兴趣档案,您可以综合分析用户的兴趣和行为抽象成一个向量表达式。

先前的研究已经完成了一些商品基于模糊聚类的聚类操作(17,18),有效地提高了推荐系统的推荐效果。在郭和邓,为了有效解决高维稀疏矩阵模型的缺陷,结合多层次关联规则算法,最后的实验结果表明,召回率和计算时间优化,有效解决推荐系统面临的问题在稀疏的情况下读者(19]。胡等人提出CF基于神经网络,选择候选人的加权组根据用户的得分向量的十字路口,并使用BP神经网络来预测用户的得分项,从而减少候选加权的稀疏数据集(20.]。平解决数据稀疏的问题在一定程度上通过增加用户上下文信息(21]。社交网络环境下,西安等人研究了电子商务推荐系统,综合信任评级,并认为信任机制在《社交网络》中扮演了非常重要的作用。最后,他们提出了一个信任机制和基于社交网络的推荐系统的推荐方法模式22]。

3所示。方法

3.1。语义分析

通常没有共识的范围或存在主谓句由于汉语语法特点的不同诠释,主题,和主题,尤其是主谓句的语义和语用分析不够彻底。我们发现标签的主谓句语料标记过程中是一个艰巨的任务。一个句子的内部组件应该不仅是语义兼容的,但我们一直在思考如何分类主谓句。

是任何词在文本中。如果最初的两个词 文本是已知的条件概率 可以用来预测的概率 出现了。这是统计语言模型的概念。

它由 单词序列,即 ;然后,统计语言模型的概率是 这个词的序列 出现在文本中。使用该产品的概率公式, 展开如下:

不难看到,为了预测这个词的出现概率 ,有必要知道所有的单词的发生概率。

因为隐喻是很少通过语法结构生成,只能使用上下文语义信息来确定一个词或短语是隐喻性的。一些传统的方法不能被识别。当前深入学习模型是用来学习上下文语义信息在执行隐喻识别这一问题。结果,深入学习模型将用于本节学习的句子之间的语义信息,根据实际需要设计一个基于语义算法框架和算法的可行性,并使动词隐喻的最终识别基于语义信息之间的依赖关系。图1展示了语义框架的算法框架流程图流程图在这个文档。

以下将介绍框架的步骤流程和所涉及的相关技术:(1)我们获得通过其他技术如爬虫原始文本数据(2)无标号语料库分词标志着,然后,频率字典构造句子转换为模型输入格式;(3)的标记文本数据满足评估要求,我们根据需求构建最后的比喻语料库(4)我们使用一个众包平台手动标签隐喻(5)数据不标记为需要,我们暂时把它放到标记语料库

首先,我们从原始数据,然后选择特征子集生成功能。如果TF-IDF(术语frequency-inverse文档频率)特征加权算法没有使用,只能使用数字0和1来衡量是否有功能词在文本中。

次数越多单词出现在一个特定的一篇文章中,文档中的词的重量越大,如以下公式所示:

目前TF-IDF算法是可行的,它通常是用于文本处理,但在某些方面仍存在一些缺陷。我们需要改善TF-IDF通过集成权重,和改进的算法如下公式所示:

在这里,它是由 重量值。如果一个功能项均匀分散在不同的机密文件,即使逆文档频率值大,然后组内的色散的价值分析很小,和获得的重量值并不会相应大。

3.2。语料库词性标注

读者在同一个社区通常在选择文学作品有一个共同的趋势。同时,通过分析,发现读者在不同的群体有不同的倾向在选择文学作品。因此,我们得出结论,是非常重要的将读者的偏好在读者社区,这可以提高推荐的准确性。精确测量这一现象的社会部门的建议,最重要的是使用读者的许多文学作品划分社区。

行为是由人格特征和情况,也就是说,行为是一种人格特征和功能情况下,见公式(4)。

因此,通过整合个人性格特征,推导出设置的个人背景因素,并结合人格特征和背景下,本研究分析用户的文学阅读行为,以提高用户的推荐的文学作品,提高阅读的效果,为用户推荐的文学作品。

为了防止推荐用户喜欢推荐的文学作品,本研究提出了人格兼容性的概念。性格兼容反映了用户对每个候选人的性格特点的文学作品。它是计算用户之间的兼容性的程度属于文学作品这种人格特质和每个候选人,和年级反映用户的偏爱文学作品,如图2

在这项研究中,文学作品类型用户的偏好 分为两类:偏好和nonpreference,文学作品和文学作品的类型分为归属和nonbelonging。最终用户的兼容性与文学作品取决于数量 文学作品的文学作品中包含的类型

在分析用户的兼容性排名的文学作品,公式(5)采用特定的计算,可以充分反映这八类。 在哪里 代表用户的兼容性 与文学作品 ; 显示用户的偏好程度的文学作品的类型的用户 文学作品的类型 ; 代表用户的平均分数 喜欢所有类型的文学作品。

表明文学作品 属于文学作品类型 ;如果是这样,它的值是1;否则,它是0;和 代表了特定的值在0 - 1的平均得分向量文学作品的类型文学作品

NB(朴素贝叶斯)模型是一种常见的概率和统计模型和贝叶斯定理的数学基础。分类的基本思想是先学习训练样本集。学习过程使用统计方法计算每个类别的条件概率排序前测试样品。条件概率和先验概率获得统计数据分类过程中使用,和测试样本的类别可以决定使用贝叶斯公式。

在NB分类模型中,正是因为它假设每个特征属性变量在数据样本是条件独立的,所以我们可以做出以下推导:

在上面的公式中,由于分母的值是一个恒定值,不需要计算它,我们只需要计算分子和比较的价值最大的一个。

其中, 可以通过训练样本的统计计算,和训练样本的数据是离散值。我们使用以下公式: 在哪里 的属性值是样品的数量 和类 ,在哪里 样本与类的总数吗

3.3。个性化推荐算法的实现

CF算法本身,我们要提高推荐精度,主要考虑两个方面:首先是读者和文学作品之间的相似度计算;第二个方面是项目的预测评分预测;首先,我们只使用数学计算方法来计算相似度。第二个方面是考虑周边的影响的预测读者的文学作品。

我们也考虑到英语词类标志的影响,包括功能特征模板。我们模板质量,包括基本素质模板、词性模板质量,和英语单词词性对应的汉字,都被配置到目前为止。阅读历史数据分析发现在这个研究可以反映读者的兴趣和阅读习惯,聚类分析被用来分析文学作品的阅读数据,以便读者能够清楚地理解实际的信息需求。结果,我们使用普通读者阅读时间比平均阅读时间借来的所有图书的读者来计算相似性的文学作品反映读者的兴趣水平借贷。 在哪里 代表两个文学作品相同的分类索引号借由两个读者; 表明文学作品的借款时间 由两个读者 ; 是借贷行为的数量由两个读者的文学作品吗 ,分别; 表明文学作品的借款时间 由两个读者 ;和分母意味着所有文学作品的平均借款时间借由两个读者

我们添加的因素 调整,以便改进公式可以准确地反映两个读者的相似性,见公式(9)如下:

在上面的公式中, 代表的重量影响用户的评分标准, 由两个读者一起,代表了文学作品评价 代表的价值差异得分范围。

通过计算由读者宣传公式(借来的书8)或(9),每本书借由两个读者的相似性,从而形成一个文学作品的相似矩阵,在读者借列出数量相对较小的文学作品,和读者借一个相对列出了大量的文学作品。

然后,每一列的最大相似度与相似矩阵找到相似的文学作品反映了相同的两个读者的兴趣和爱好。也就是说,在矩阵的列数。然后,我们计算利息两个读者之间的距离根据公式(10)。

总算法流程如下:(1)我们进行预处理读者评级数据集获得读者的特点(2)应用聚类分析方法,然后使用社区划分的数量的读者群体。(3)我们计算读者和每个社区代表点之间的相似度,然后,我们选择社区相似度最高的建议在社区内。(4)通过计算目标读者预测分数邻近未分级的书的读者,这里的预测分数计算了包含用户评分标准的因素(5)我们形成一个推荐列表的书最高的预测评分,推荐他们的读者

本章通过使用上面的方法,设计和实现了文学作品的个性化推荐服务系统模型在标注语料库的基础上,如图3

文学作品的个性化推荐服务系统基于标记的语料库主要实现两个功能,一个是挖掘功能。数据关联规则挖掘寻找潜在读者的借贷模式,当借贷的文学作品。第二个是个性化推荐功能,将关联规则挖掘应用到文学作品的个性化推荐服务。

4所示。实验和结果

在本节中,我们分析上述培训和结果基于语义算法框架。作为隐喻生成的基于语义不是语言形式的限制,和深度学习模型需要大量的数据集,该算法实验,VUA语料库主要选择训练和验证,和其他两个语料库(TriFi和卫生部)也使用。实验结果分析。

在这项研究中,由于注意力机制,内部质量分布算法的分析和学习机制更适合动词隐喻的识别。图4各全集展示了实验结果。

不同的全集有不同的精度比和F1值,根据统计图4,这可能与语料库的大小和质量有关。语料库越大,分布越宽,学习更多的语义信息模型,模型的泛化能力就越好。模型在同一时间有多个输出,这有助于防止过度拟合,提高模型的泛化能力。汉字和英语段落之间的区别是,他们只是以文字的形式形成时,而中国文字不。这一个词与另一个。因为结合这些话分析将减少分析的效率,有必要删除它们在处理文本。

应用特征加权算法后,我们可以使用一个更精确的数字来表示这个特性元素的贡献记录排名。如果功能元素文本分类中扮演一个小角色,他们的比例很小,反之亦然。如果我们使用特征加权算法,文字识别的结果会更准确。如数据所示5- - - - - -7,增强TF-IDF算法优于F值的基本TF-IDF算法准确性和回收率。

当特征子集的维数是500尺寸,改进TF-IDF优于原算法在所有索引,和F值的精度和召回趋于稳定。TF-IDF算法的准确性为87.821%,召回率为89.036%,F值是91.368%,仍高于原来的TF-IDF算法和裁判16]。因此,在这项研究中提出的改进TF-IDF算法有效地改善了传统TF-IDF算法的性能。

有歧义的语言差异模型涉及词性标记。例如,模棱两可的词在一种语言用另一种语言可能不是模棱两可的。我们把简单的“发展”一词为例。它可以是一个动词或名词。为了避免语料库的一些矛盾,有必要预处理的语料库。应该注意的是,作为动词的修饰语,它可以是其中一个词类,如动词、副词、名词或演讲的许多地区,但是这里只提取副词修饰符。根据已经出现的动词,我们必须计算动词属于一个特定类别的概率,我们必须获得这类修饰符向量。显然,如果这个修饰符向量修改一个动词和概率是相对较高的,它属于这一类的可能性比较高。这个问题就变成了确定同现概率副词和动词的修饰语向量已知的动词,与主体的特征。因为如果有一个接收器的操作在一个特定的场景,也必须有一个发送者的行动,和接收器和代理必须依靠彼此和成对出现。 In general, determining whether a noun in the subject-object position is the agent or the recipient is influenced not only by the noun’s semantic features but also by the noun’s features and sentence patterns.

在这个实验中,我们使用相同的中文语料库和上述相同的评价方法。一对一的情况下可以直接处理相应的英语词性,但一对多情况下不能使用相应的英语词性。只有第一个单词的发音部分和相应的单词序列被选中。的词性标注结果聚类分析表1

为了直观地比较的性能实验,我们给的比较列曲线总词性标注精度,如图8

从实验结果表1和图8添加后,可以看出英语词性函数作为初始结果的基础上,第六标记结果,所有词性标记的准确性提高。这个实验的语料库用于循环迭代。通过比较两个初始预测的实验结果,可以看出,第二种情况的准确性高于第一种情况。在这项研究中提出的相似性计算方法可以更详细地描述用户之间的相似度通过加强重叠因子和地方相似。改进重叠因子不仅能较正确的用户可能的偏差评分项目时还考虑到用户的评分行为计算用户的得分的方差,它反映了用户的评级是否“可信的”。

使用信息从不同的属性作为聚类分析的目标特性的调查,几个具有代表性的集群可以获得。本研究从读者借文学作品的类别,使读者的聚类分析。我们把他们分成不同的池,然后进行有针对性的关联挖掘。图9和表2秀梅(平均绝对误差值的比较和准确性之间的算法和传统CF算法。

从图可以看出9这种方法的美价值总是低于CF方法,尤其是当邻居集中的用户数量是5;这种方法显然比CF方法;和6.23%的最大区别。本研究弥补了CF方法通过引入的缺陷修改的重叠因子,结合用户的得分的方差分析,并计算当地的相似性。它们之间的区别往往减少邻居集用户数量的增加,但该方法在本研究中仍比CF方法对于25岁的邻居设置用户。表2还提供了在这项研究中所用的方法极大地提高了推荐结果的准确性。总而言之,本研究提出的相似性计算方法可以更准确地描述用户相似性,提高方法的实用性。

5。结论

与互联网的快速发展和迅速崛起的e-literature阅读网站,如书籍和用户的数据量也在增加,这使得数据短缺和启动问题在文献中推荐系统产生越来越大的影响在冷藏,使推荐系统更有效,推荐的质量下降。在这项研究中,文学作品的个性化推荐算法基于标记的语料库,提出了计算和预测评分。对未注册的标记过程中,定义一些规则,根据这些规则和标记获得语料库,和读者进行分组聚类分析算法,形成不同的利益集团。发现这个方法的美价值总是低于CF方法,尤其是当邻居集中的用户数量是5;该方法明显优于CF方法;和最大值相差6.23%。最后的实验结果表明,该无监督词性标注方法在本研究提出进一步提高汉语词性标注的性能的建议,让用户更满意的结果。

数据可用性

数据支持这项研究的结果并不足以保护参与者的隐私。

的利益冲突

作者宣称没有利益冲突。