电影评论总结使用监督学习和基于排名算法

文摘

与日益增长的网络信息,在线电影评论是成为互联网用户的重要信息资源。然而,在线用户帖子成千上万的影评每天和他们很难手动总结回顾。电影评论挖掘和总结是自然语言处理的一个具有挑战性的任务。因此,一个自动的方法是可取的总结冗长的影评,这将允许用户快速识别的积极和消极方面的电影。本研究采用特征提取技术包的单词(弓)提取特征从电影评论和评论表示为向量空间模型或特征向量。下一阶段使用朴素贝叶斯机器学习算法分类影评(表示为特征向量)为积极的和消极的。接下来,一个无向加权图是由成对的语义相似性分类复习句子的方式图形节点代表审查的句子,而图像的边缘显示语义相似度的重量。加权图论排名算法(WGRA)应用于计算排名得分为每个评论句子的图。最后,排名最高的句子(图节点)选择基于最高等级分数生产采掘总结。实验结果表明,该方法优于其他先进的方法。

1。介绍

随着Web 2.0的发展,强调用户的参与,越来越多的网站等互联网电影数据库(电影评论网站IMBD)和亚马逊鼓励用户发布评论他们感兴趣的产品。为了满足客户和增强他们的购物体验,网上商家经常问客户给的意见或评论他们在网上购买的产品或服务。评论收到产品的数量将迅速增加,数百万用户发布评论产品,导致信息过载(1]。由于这个信息过载,客户很难扫描每个产品的审查以决定是否购买一个产品。与此同时,它也为网上商家/产品制造商或服务提供商跟踪大量的评论发布的客户对他们的产品或服务(1]。为了解决这个问题,需要自动评论挖掘和总结系统(2]。

在本文中,我们将关注电影评论领域。考虑到电影,总结成千上万的评论收到电影可以帮助查看器(客户)迅速扫描它的总结并迅速决定是否看电影。另一方面,这部电影影评的总结可以帮助服务提供商Netflix等迅速理解看模式或其客户的利益。

本研究提出了一种自动的方法挖掘和总结这部电影的评论。这种方法将帮助新用户迅速理解电影的正面和负面的方面,因此用户可以很快决定是否看电影。评论挖掘的任务和总结(RMS)包括两个步骤:第一步是评估采矿、矿山收到的评论电影的分类成积极的和消极的。第二步是生成一个简明的总结回顾总结的分类评价。

如今,RMS引起重大关注在许多领域(3]。例如,在线评论的政治新闻和公告,政府可以感知的影响最近的政策(或事件)老百姓和采取适当和及时的行动基于信息。产品评论,在另一方面,收集来自客户的反馈,总结客户反馈协助在线制造商/零售商知道他们的产品被客户。

审查矿业或情绪分析(4将审查文本分为积极的还是消极的。有各种各样的方法来分类用户评论文本到机器学习等正面和负面评论(ML)方法和基于字典的方法。许多ML-based朴素贝叶斯等方法(NB) [5),决策树(6),支持向量机(SVM) [7)和神经网络(8)已经提出了文本分类和显示他们的能力在不同的领域。NB是其中一个最先进的算法和已被证明是非常有效的传统文本分类。NB的分类决策非常好。NB经常用作基线在文本分类和情感分析研究因为它结合了良好的精度和效率8,9]。因此,本研究采用NB的电影评论的分类。另一方面,基于字典的方法使用单词词汇语义取向的文档(10]。然而,基于字典的方法无法处理特定于域的方向。

回顾总结就是从庞大的评论句子生成摘要的过程(11]。众多技术监督ML-based等回顾总结技术(6,7)无监督/ lexicon-based技术(6,12- - - - - -16应用了。然而,非监督/ lexicon-based方法严重依赖语言资源和仅限于单词词典中。另一方面,主要是监督毫升方法表现好于无监督ML-based方法但它们应用于特定的领域。先前的研究表明,文本总结已成功应用于众多的领域(7,17- - - - - -21]。文本摘要技术是用来提取重要信息从源文本和生产的一个压缩版本文本不同的用户(22- - - - - -25]。例如,给定一个用户查询,谷歌搜索可以给几个网站链接以及简短的摘要关于每个网站的内容,帮助用户决定网站是否有用。著名的例子应用软件用于文本摘要夏,它可以自动提取重要的新闻文章,然后显示每个新闻文章的总结基于新闻类别选择的用户。

几个用户帖子大部分评论电影评论等网站IMDB在日常基础上,涉及用户态度特定的电影。因此,自动挖掘和总结这些大部分评论是可取的。然而,前面的方法提出了电影总结是有限生成基于功能的总结而不是通用的总结。因此,本研究提出了一种评估挖掘和总结(RMS)方法监督毫升集成方法与基于排名算法自动生成通用的总结电影评论。该方法在以下方式:首先,我们使用一个简单的特征提取技术称为袋的话(弓)从影评和代表他们提取特征向量空间模型或特征向量。下一阶段使用朴素贝叶斯分类器分类影评为积极的和消极的。接下来,分类评价分割成句子,然后我们用word2vec模型提取字嵌入每个单词的句子。这个句子嵌入/向量是由意味着所有字嵌入的句子。成对的句子之间的语义相似性计算通过余弦相似性嵌入相应的句子。接下来,一个无向加权图是由成对的语义相似性分类复习句子的方式图形节点代表审查的句子,而图像的边缘显示语义相似度的重量。 The weighted graph-based ranking algorithm (WGRA) is applied to compute the rank score for each review sentence in the graph. Finally, the top ranked sentences (graph nodes) are chosen based on highest rank scores to produce the extractive summary. Our contributions are summarized as follows:(一)使用朴素贝叶斯分类的影评机器学习算法与unigrams和三元特性集。(b)提出一种基于排名算法嵌入和语义相似度产生一个通用的采掘总结分类影评。(c)评估提议的总结方法与先进的方法上下文ROUGE-1和ROUGE-2评价指标。

本文的其余部分组织如下。部分2展示了本研究的相关工作。部分3概述了该方法。部分4介绍了评价结果和讨论。最后,我们最后结论和未来的工作部分5。

评论挖掘和总结的任务包括两个主要步骤:评估采矿和回顾总结。首先,我们讨论了相关文献回顾矿业紧随其后回顾总结。审查矿业或意见挖掘提取的过程中,分析和主观分类信息和确定情绪与特定目标相关联。不同的方法提出了许多研究者评论挖掘的任务(4]。例如,考虑一个文档审查文本一个= ( , , ,…,)与一个类别集B=(积极、消极),评论挖掘的工作是我每句话都审查在文档中,用一个预定义的类别标签(正面或负面)在B组(26]。

众多评论挖掘方法如ML-based和情绪lexicon-based技术已经提出了矿业评价在不同的领域1,7,27,28]。作者在29日)提出了应用程序和评论/意见矿业领域的挑战。ML-based算法(5,29日,30.)也用于意见分类的文档。ML算法分为两类:监督和非监督毫升技术。这些技术实现情绪的目标分类的基础上,提取和选择适当的特性集。

监督机器学习方法,如支持向量机(7)申请人气电影评论数据的分类。作者在6)使用决策树分类高/低的短语从餐馆评论意见。另一方面,作者在12)使用非监督毫升与潜在狄利克雷分配技术,如无监督特征聚类(LDA)获取标记功能。他们最初的情感分类器训练之前信息从情绪词汇(标记为特征)。从无标号审查文档情绪分类器学习从不同的领域,如电影、书籍和电子产品。标签功能被用于模型的预测标记实例使用广义期望(GE)标准。作者在13]介绍了点名系统,确定利用松弛标记词的语义取向。一个脉冲系统14)挖掘主题和情感取向从客户反馈采样车评论数据库。系统训练情绪分类器通过使用一个引导的过程。

接下来,我们将讨论情绪lexicon-based方法回顾矿业,这可分为两类:基于字典的(15和基于语料库16)方法。作者在15)提出了一个基于字典的方法结合WordNet极性分类图。的方法确定极性分数等同义词典SentiWordNet [10),并把它跟随机游走的概念分析发现在电影评论。基于字典的方法受到限制,无法处理上下文和特定于域的方向自相同的词可能在不同的领域有不同的含义。作者在16)提出了一个基于语料库的方法利用语料库的影评手工注释。的方法获得的语言特性,比如名词、动词、形容词和副词进行词类影评(POS)标记。他们还利用了语义计算资源如SentiWordNet语料库中的极性电影评论文档的得分。语料库和基于字典的方法严重依赖语言资源和仅限于单词词典中。

众多的技术审查总结也一直在探索。回顾总结评论挖掘的任务是一个重要的一步和总结4),从评论文本中提取重要的信息并把它们总结的形式。最后总结可能是基于功能的总结也可以是通用的总结覆盖一般信息产品(相机、手机、和电影)以简洁的方式(4]。作者在1)提出了一个基于特征的方法总结为客户产品(相机和手机)的评论。词的属性使用的方法,包括词类(POS),发生的频率,并在WordNet同义词集。最后的总结是根据提取的组织特性。作者在7]介绍了潜在语义分析(LSA)为基础的方法来识别产品特性从电影评论。为了生成一个回顾总结,认为单词和产品特性被用来选择相关的句子形式回顾总结。然而,这种方法仅限于中国电影评论和没有应用到英语影评。提出了一种multiknowledge方法(3电影评论总结)。方法使用WordNet训练数据和标记的电影和电影投生产关键字列表确定特性和意见。最后,根据提取的特征总结的句子重组。然而,这种方法可能无法找到有效的feature-opinion对语法关系不检查意见词之间的语义关系和特性。然而,前面的方法提出了电影总结是有限生成基于功能的总结而不是通用的总结。因此,我们提出了一个基于监督毫升的文本摘要方法结合基于排名算法产生一个通用的总结电影评论。此外,基于无监督的文本摘要方法毫升(31日)也提出了从在线酒店评论生成摘要。然而,这种方法仅限于酒店评论。另一方面,我们提出了一个监督毫升方法影评等不同的领域。

文本摘要技术曾在不同的应用领域,如网页的摘要,专利,和新闻文章32,33]。作者在34)提出了一种文本摘要技术生产总结从专利。句子的方法使用不同的特性,比如位置和提示短语而确定句子的重要性。作者在35)应用术语TF-IDF技术和本体树结构技术寻找关键词和提取专利文档的重要内容。重要的句子然后分组使用集群技术来产生一个总结。作者在36从网页)生成的摘要。执行一个查询扩展的方法通过使用WordNet然后扩展查询了谷歌搜索引擎找到相关文档。最后的总结是产生基于句子包含相关的关键字。提出了一种统计方法(37)新闻文章摘要。新闻文档中的句子得分基于不同特征长度的句子,第一句话新闻文章,标题的新闻文章,专有名词和术语的频率。最高得分的句子选择生产总结。作者在38新闻文章摘要]提出了一种基于模式的方法。

近年来,各种图论方法有效地吸引了更多的关注和尝试对文本摘要。这些方法利用网页排名算法(39)和它的变体给排名/分数图节点,代表句子或段落。作者在40)提出了一个连接图,假设节点只带重要的信息,如果他们被连接到其他节点。作者在41]介绍了一种Lex-PageRank方法,基于特征向量中心,构造一个句子的连接矩阵,利用类似像PageRank算法找到重要的句子总结。类似的PageRank算法也提出了(42),发现突出的句子总结的一代。作者在24)提出了一个基于方法于一体的表面特征与文本内容与调查栏目功能在多个文档纳入基于排名算法。multidocument总结方法基于亲和图(43利用类似于PageRank算法和计算句子得分亲和图基于信息丰富。作者在44]multidocument document-sensitive图模型通用的总结和强调了全球文档设置信息在句子层面上的影响。加权图模型通用multidocument总结介绍了(45排名]结合句子和句子聚类方法。作者在46)提出了一个基于multidocument方法总结越南文档和使用传统的PageRank算法排名最重要的句子。作者在47]证明事件基于multidocument采掘方法总结。然而,这种方法需要建设的手工制作的规则参数提取,这是一个耗时的过程,可能会限制其应用到一个特定的领域。

前基于总结方法都应用到新文章领域和使用一个简单的网页排名算法。然而,我们提出一个基于总结电影评论域和方法采用加权图论排名算法嵌入的语义相似度。

最近的研究利用深度学习和强化学习方法的能力48- - - - - -51)提高文本摘要任务。普遍的挑战在深度学习和强化学习申请文本摘要是不可用手动创建的采掘总结所需的地面真理培训网络。作者在52]给出了一个全面的调查采掘和摘要式的技术文本摘要。我们建议的方法的细节在下一小节中介绍。

3所示。提出的方法

在本节中,提出研究的研究框架。图1描述了拟议的框架。框架分为四个阶段:(1)预处理,特征提取(2),(3)评论、分类和评论(4)总结。

3.1。预处理

数据的预处理计算语言是一个重要的过程,尤其是在评论挖掘和总结(RMS)。建议工作与RMS,审查文档需要预处理,以便它可以用在实验之前有效地使它作为输入到系统。预处理阶段包括四个步骤,即。,sentence segmentation, tokenization, stop words removal, and word stemming.(一)句子分割:它是一个重要的步骤在红外等自然语言处理应用,机器翻译,语义角色标注,和总结。边界检测的过程是在一个文件,将文件文本分解成句子。通常,句号/期(),感叹(!)的迹象,或审讯的标志(?)通常用于表示边界一个句子的53]。例如,我们有一个文本文档:“我喜欢这部电影。这是最好的电影之一。”上面的文本文档分割后得到一个字符串列表。输入评论文本:“我喜欢这部电影。这是最好的电影之一。”输出:分割文本:段1:“我喜欢这部电影。”段2:“这是一个最好的电影。”(b)标记:在这个任务中,我们使用一个简单的程序把句子分割成不同的单词通过分割在空白如空格,制表符,和标点符号等,分号、逗号、冒号分割的主要线索的文本标记。(c)停止词删除:频繁的出现在文档的词汇叫做停止的话。它由连词、冠词、介词和和频繁的单词像“,”“我”“,”和“a”。停止话语有很少或没有意义的文件,所以它是一个好主意,把他们从文档集合。消除阻止单词复习文档有助于提高系统的性能。巴克利停止单词列表(54)是用于拟议的框架。(d)词引发的:它是一个重要的任务在预处理阶段。词所转换派生的词汇捕捉它的茎或根类似的概念。在这项研究中,一个众所周知的阻止算法命名为波特的阻止55)是用于阻止删除后缀的单词。例如,单词“看”,“手表”和“观察家”将会转化为其根词“观看”的帮助下阻止算法通过删除后缀,——和人。该方法使用这个步骤选择有意义的单词复习句子。

3.2。特征提取

这个阶段的目的是提取特性评估分类采用著名的特征提取技术袋的话(鞠躬)。弓是一个简单的特征提取技术,将审查文本文档表示为向量空间模型。每个维度的向量空间表示一个特性。在这项研究中,我们使用unigrams和三元特性集。向量空间的特征代表所有可能的unigrams和三元(两个字序列)审查文本文档,而功能参考频率的值或发生unigrams /三元中包含审查文本文档。弓的方法将每个文档表示为一袋的话(unigrams)忽略了语法和单词在文本文档。

例1。考虑以下三个审查文本文档,为了方便起见,我们展示了一个复习句子从每个文档。审查文档1:“我喜欢这部电影。”审查文档2:“我讨厌这部电影。”审查文件3:“伟大的一部好电影。”有7个独特的单词(unigrams)从上述评论句子。提取的unigrams指的特性“表演”“好”,“很好,”“恨”,“爱”,“电影”和“。“代表审查文本文档的集合的特性代表了向量空间模型。功能表的值1表明unigrams的频率。
为了提振情绪分类精度;本研究结合unigrams与三元(两个单词组合)审查的向量空间表示。袋三元是指双语句对计算语言学,例如,“很棒的电影”,“美丽的天空”,“还没有,”等。三元等“好工作”,“干得好,”和“很好”有积极的方向。另一方面,一定像“相当昂贵,”“不行,”和“运气不好”等负面方向和三元”“中性取向。
另一方面,弓(unigram)方法将由两个词对诸如“不行”“不”和“好”,因此“好”这个词被认为是积极的。三元也有助于降低向量空间维度。表2描述了袋三元评审文档向量空间模型表示。指的是例子1袋三元向量空间模型审查文件如下所示。
表3显示了向量空间模型表示袋unigrams和一定范围的审查文件中给出的例子1。


审查文件	代理	好	伟大的	讨厌	爱	电影	这	类

回顾Doc1	0	0	0	0	1	1	1	+ ve
回顾Doc2	0	0	0	1	0	1	1	−已经
回顾Doc3	1	1	1	0	0	1	0	+ ve


审查文件	表演好	好电影	伟大的行动	讨厌这	爱这	这部电影	类

回顾Doc1	0	0	0	0	1	1	+ ve
回顾Doc2	0	0	0	1	0	1	−已经
回顾Doc3	1	1	1	0	0	0	+ ve


审查文件	代理	表演好	好	好电影	…	爱这	电影	这	这部电影	类

回顾Doc1	0	0	0	0	…	1	1	1	1	+ ve
回顾Doc2	0	0	0	0	…	0	1	1	1	−已经
回顾Doc3	1	1	1	1	…	0	1	0	0	+ ve

3.3。分类综述

这个阶段的目的是将用户的使用监督毫升审查文本分类算法。审查的任务分类分类用户的评论为积极的和消极的。在这项研究中,我们使用朴素贝叶斯分类算法(NB)因为它是一个健壮的分类器(56),取得了更高的精度在可伸缩的数据集相对于其他先进的分类算法。此外,NB分类器有几个在文本分类中的应用由于其简单性和准确性(56]。

为了进行分类评价,给出了特征向量及其标签作为分类器的输入。一个术语的某些类别的概率(正面或负面)计算基于一个词的出现次数与类别的审查文件。在这里,这个术语是指unigram或三元或三元模型因为在这项研究中使用的特性是unigrams和三元。为了一个新的审查文档进行分类,每一项的概率(unigram、三元和卦)在文档的类标签(+ ve),然后检查文档的概率给定类标签(+ ve)的计算方法是用所有条款的概率乘以目标类的概率(+)。同样,评审文档的概率的计算给定类标签(−ve)。

评审文档分为积极如果给定目标类(+ ve)的概率最大化;否则,它被划分为负。

贝叶斯定理数学表示如下:

考虑一个新的审查文档”我爱这部电影”给了NB分类器分类成或正面或负面。审查文档在这里是一个简短的句子。首先,审查文档表示成袋unigrams和三元特征向量表示如表所示3。审查文档的给定的特定类的概率(正面和负面)可以计算使用以下方程: 在哪里是审查文档,文件的长度,的概率是一个词W在审查文档的特定类(+ ve或−ve)。表3显示unigrams和三元矢量表示为相应的评审文档中给出的例子1。

为了分类审查文档”我爱这部电影:“我们需要确定所有条款的概率(unigrams和三元)审查文件中标记为正。每一项给定类的概率 , 计算如下: 在哪里是这个词的次数发生在正例和n单词的总数在阳性病例。显示独特的unigrams和三元的数量审查文档。上述评审文档的概率给出积极的情况下基于概率的估计unigrams和一定范围的审查文档。

上述评审文档的概率是给予正面的案例表示如下:

类似地,上述评审文档的概率估计是给定的负面情况如下:

为负面评论文档重复相同的过程。

基于以下方程,评审文档是分配给一个类如果评审文档的概率值的类是最大化。

换句话说,审查文档分配积极类,如果评审文档的概率值的类是最大化,反之亦然。

3.4。总结的评论

这个阶段的目的是总结分类评审(正面和负面评论)。这个阶段包括三个步骤:(1)创建图表的分类评价,(2)排名图节点(复习句子),和(3)选择最高等级的句子(节点)总结的一代。

3.4.1。图论表示分类评审

这个阶段的目标是建立一个从分类图的评论。首先,我们把分类评价分割成句子。接下来,我们发现复习句子之间的语义相似性和建立一个图表的成对的句子之间的语义相似性。为了计算两两之间的语义相似的句子,我们提取嵌入每个词在句子使用word2vec模型。我们使用谷歌pretrained word2vec模型(57,58)学习单词嵌入每个单词(字向量)在所有的句子。word2vec模型,发布的谷歌,是一个学习的神经网络实现分布式矢量表示的单词基于连续袋的话。模型训练大约1000亿字从谷歌新闻数据集。我们保留默认词向量长度为300的特性。

为了句子表示为向量,我们把所有单词的意思是嵌入在word2vec和忽略单词的词汇量没有出现在词汇。任意两个句子之间的语义相似度向量一个和B决定利用余弦相似性给出方程(8)。余弦相似度是两个向量的点积;1如果两个句子向量之间的余弦角是0,这是不到一个其他角度。

曾经为每一对句子语义相似度得分计算,一个语义相似度矩阵是由复习句子的相似度得分。接下来,构建一个无向加权图的语义相似度矩阵构造在前一步。以这种方式创建的图,如果相似的重量节点之间和(我≠j)大于0,那么他们之间建立链接;否则,无法建立链接。在这项研究中,我们只重要句子相似,因此定义一个经验相似性阈值设置为0.5 (59]。所以,链接只有建立节点之间的相似性得分之间的谎言别的,就没有建立节点之间的链接。两个节点有相似性得分越大0.5应该是语义上等同,不添加图中为了避免句子冗余总之一代。语义相似度两个节点之间和(我≠j使用方程()8)。图2描绘一个无向加权图。边缘显示不同颜色的固体酒吧指定不同范围的语义相似度权值图。图的节点指的是复习句子所示在哪里我范围从1到n。

3.4.2。排名图节点(复习句子)

现在,我们正式描述文档D分类综述;假设G=(V,E)是一个无向加权图n通过边连接的节点数/顶点VE,它表示文档集中的分类复习句子之间的关系D。让V顶点的集合,其中每个顶点在V表示的分类复习句子D。假设E与每条边边的集合表示两个顶点之间的语义相似度的重量和。接下来,我们应用加权图论排名算法(WGRA),考虑了边,这对应于sentence-sentence语义相似度。节点的重要性得分/顶点在考虑用。突出的分数计算顶点/节点的连接顶点(句子)加上考虑连接顶点的突出成绩(句子);在形式上,写如下: 在哪里d阻尼因子,通常它的值设置为0.85 (60]。是指向顶点的数量给定顶点吗 , 外部链接的数量从顶点吗 ,和代表了重量与边缘节点之间联系在一起和。从顶点代表与外部链接相关联的权重。

从实现的角度来看,基于加权排名算法(WGRA)首先初始化所有的图节点/顶点排名得分1。然后,该算法计算连接节点的数量/顶点考虑当前节点。一旦连接的节点数/顶点找到当前节点/顶点,算法计算每个顶点连接在两个步骤的重要性。

首先,鉴于连接顶点的外部链接数,然后与外部链接聚合相关的权重。这意味着排名算法计算一个给定节点的等级分数/顶点通过考虑节点的数量/顶点连接以及连接顶点的显著成绩。一旦获得突出成绩的链接节点/顶点,WGRA使用方程(9)来计算节点的新的排名分数/顶点。该算法不断计算节点的显著成绩/顶点直到达到收敛。融合是通过迭代/排名算法,当排名得分之间的差异计算任何顶点(句子)连续两个迭代低于给定的阈值(0.0001在这项研究)(59]。算法得到融合后,排名分数达到顶点的图在相反的顺序进行排序。

3.4.3。总结的一代

这一阶段的目标是生成摘要的分类电影评论句子。正如前面所讨论的,分类复习句子(正面和负面)表示为图和加权图论排名算法(WGRA)计算图中每个句子的等级评分。最后,等级分数达到为图的顶点(句子)倒序排序。下一步是选择排名最高的句子提取总结的一代。在这项研究中,我们选择了前20名的高排名的句子总结。

4所示。实验设置

4.1。评估数据

该方法包括两个部分:第一部分是朴素贝叶斯分类器(NB),将审查文档分为积极的和消极的。第二个组件是语义基于排名算法,执行的任务电影回顾总结。为了评估第一个组件(NB分类器),我们认为文档级和字面意思分类任务域的影评。

文档级情绪分类任务中,我们使用两个公开可用的电影评论的数据集。第一个是引入了彭日成和李(http://www.cs.cornell.edu/people/pabo/movie-review-data/)[61年),这是一个最广泛使用的极性数据集2000电影评论(版本2)。它由1000积极的影评和1000负面评论。中的每个审查数据集与二进制情绪极性相关标签。第二个基准数据集是由安德鲁(62年从IMDB),由50000年的评论数据集,并且每个电影仅限于没有超过30的评论。它与相应的标签组成的影评(情绪极性)。标签数据集平均分为2.5 k培训和2.5 k的列车。像以前的工作在极性分类,本研究也认为高极化的评论。数据集的负面评论得分≤4 10,在正面评价得分≥7 10。

我们也评估NB能主体性语句分类器在分类任务。对于这个任务,我们使用数据集引入了彭日成和李61年),其中包含5000主观和5000目标句子来自电影评论总结和电影情节总结,分别。我们比较NB分类器(变体袋话说特性)与基准模型情绪分析(62年),在上述三个评价任务分类精度。混合使用的基准模型无监督学习和监督技术词向量用于捕获语义和情感信息。

拟议中的语义基于排名算法的任务电影评论总结评估随机选择4日平衡的子集分类审查每个子集约含有100 100正面和负面评论。我们问2博士生工作在自然语言处理领域的手工生产的总结为每个子集分类评价。该方法的性能比较与先进的基于总结技术使用ROUGE-1和ROUGE-2评价指标。

4.2。实验步骤

给定数据集,首先,在数据预处理技术应用于数据集分割成句子,句子标记成单词,和删除停止的话。词所也进行剩下的单词,单词词根形式。接下来,使用弓技术文档特征提取。本研究使用NB ML算法为了我的影评。还有其他常用监督机器学习的技术意见挖掘支持向量机和神经网络等;然而,朴素贝叶斯分类的选择基于性能精度的影评。

为了执行电影评论分类任务,使用朴素贝叶斯分类器分类影评为积极的和消极的。NB的训练和测试,我们应用了10倍交叉验证技术在三个平衡的数据集。两个数据集,即PL04和IMDB,如表所示4,被用于文档情绪分类的任务,主观数据集能主体性语句用于分类的任务。在这项研究中,我们使用了分层10倍交叉验证(通常用于分类问题),折叠的选择以这样的方式,这样每个折叠包含类标签的比例大致相同。


	特性	PL04	满IMDB	主体性

1	Unigrams与注	81.5	86.66	90.75
2	三元与注	77.7	88.29	76.03
3	Unigrams +三元NB	82.4	88.91	91.22
4	Unigram频率+平滑IDF + cos正常化	82.1	87.36	90.7
5	三元频率+平滑IDF + cos正常化	81.15	88.31	76.72
6	Unigrams +三元+平滑IDF + cos正常化	83.7	89.28	90.91
10	基准模型(62年]	88.90	88.89	88.13

PL04指的是2000年的电影评论的集合通常用作情绪分类基准数据集(61年),IMDB数据集是50000条评论的集合,数据集和句子主观性是一家集1000电影评论61年]。

我们评估NB分类器的分类精度与不同词袋的特性集和比较结果与基准模型(62年]因为情绪分类如表所示4。基准模型利用无监督和监督技术学习词向量捕捉语义文档信息以及丰富的情感内容。1号线表4表明,NB分类器精度只有unigrams特性在小数据集(PL04和主体性)优越与三元产生的准确性。然而,第二行显示在大IMDB数据集,分类器的精度是提高了只有三元特性。第3行显示,分类器的精度进一步提高当unigrams和三元都用作特性集。

4号线表明unigram频率加权平滑逆文档频率(IDF)与余弦正常化稍微降低分类器精度在较小的数据集和大型数据集IMDB略微提高了精度。第5行表明,三元数加权与余弦IDF正常化增强在所有数据的准确性。第6行表明unigrams和三元features-count加权与平滑IDF余弦正常化超过基准模型和所有bag-of-words特性的变化在所有基准数据集的分类精度,除了主观数据集的精度略微下跌相比下降了0.31%,相同的特性集,没有IDF在第3行和余弦正常化。

一旦分类器将评论分为积极的和消极的评论,该方法利用语义基于总结技术生成摘要的分类评价。总结技术代表了通过一个图形分类复习句子,然后加权图论排名算法适用于排名的重要图节点(复习句子)。最后,排名最高的评论句子构成的摘要。

比较评价,我们建立了两个最先进的基于总结技术,即LexRank [63年]和TextRank [64年]。LexRank模型表示句子通过一个图表,并确定他们的突出基于特征向量中心的概念。模型构建邻接矩阵(图表示句子)的连接矩阵,基于intrasentence余弦相似性。LexRank模型是另一个基于排名算法,创建了图表示从整个句子和利用全球信息的显著图来决定一个顶点在一个图表(句子)。边缘的重量决定从内容相似的句子。然而,我们的语义图论方法利用句子之间的语义相似度来表示边缘的重量。

本研究采用ROUGE-1和ROUGE-2评价指标来比较我们提出语义图方法与先进的图论方法的总结,在通用的电影评论的背景下采掘总结任务。我们建议的方法和其他模型执行的任务multidocument总结,因为他们从多个生成摘要影评(或文件)。

有许多变体胭脂评价措施:高棉-N(N= 1,2,3,4),胭脂-年代,胭脂l。但是ROUGE-1和ROUGE-2有效申请multidocument采掘摘要任务(65年]。可以定义(65年)作为一个语法一套系统总结和人类之间的回忆(引用)总结和计算如下: 在哪里n的长度吗n -克,克_n和计数_匹配(克_n)的最大数量n克,同时发生在一个系统的总结和人类总结的一套。

精度、召回和F-measure系统总结(或候选人总结)计算如下:

表5和6说明该方法的评价结果比较和其他基于ROUGE-1和ROUGE-2措施,总结模型。这些结果实现对随机选择平衡的子集分类影评正如上面所讨论的。同样的影评的子集,我们问2博士生在自然语言处理领域手动创建工作总结20个句子。


技术	平均精度	平均召回	平均F-measure

提出技术	0.48485	0.47925	0.482
LexRank [63年]	0.39215	0.3997	0.3959
TextRank [64年]	0.24515	0.25535	0.25015


技术	平均精度	平均召回	平均F-measure

提出技术	0.4439	0.4388	0.44135
LexRank [63年]	0.30195	0.30805	0.305
TextRank [64年]	0.13595	0.14215	0.139

指ROUGE-1结果表5,我们提出了基于技术执行比其他总结模型基于平均精度,召回,F-measure。比TextRank LexRank产生更好的汇总结果。

同样,根据ROUGE-2结果表6,该技术仍然优于其他总结模型基于平均精度,召回,F-measure。LexRank还保持着比基于ROUGE-2 TextRank产生更好的总结的结果。

数据3和4可视化的汇总结果建议的方法和其他总结模型基于ROUGE-1 ROUGE-2,分别。

4.3。讨论

本节讨论分类和总结方法的评价结果提出了在前一节。首先,我们讨论电影评论的情感分类的分类方法。在这项研究中,我们提出使用NB分类器unigrams和三元作为情绪分类的特性集的电影评论。我们评价NB分类器的分类精度和不同bag-of-words特性集的上下文中三个数据集PL04(2000条评论),IMDB数据集(50000条评论)和主观数据集(1000句)。它可以观察到从表中给出的结果4NB分类器的精度超过了基准模型在IMDB和主体性的数据集,当unigrams和三元都是用作功能。然而,NB PL04数据集上的准确性降低比基准模型。指在表6号线4,当unigrams和三元features-count加权平滑与余弦IDF正常化,NB分类器的分类精度进一步提高,超过基准模型和所有bag-of-words特性的变化在基准数据集,除了主观数据集的精度略微下跌相比下降了0.31%,相同的特性集没有IDF和余弦正常化的第3行表4。从实证结果得出结论,结合unigrams和三元NB的特性是一种有效的特性集分类器,因为它大大提高了分类精度。

现在,我们讨论的总结结果提出语义图论方法和其他先进的基于总结模型的上下文中通用电影总结任务。该方法比较与其他总结模型的平均精度,召回,F-measure ROUGE-1和ROUGE-2获得。

指ROUGE-1结果表5,该方法优于最先进的总结技术,取得了更好的性能在精度方面,召回,F-measure。LexRank站TexRank站排名第二和第三的汇总结果。

该方法利用word2vec模型提取词向量中的所有单词句子。句子的特征向量计算平均每个句子中的所有词向量。特征向量的余弦相似性表示句子将捕获语义相关的句子。它帮助图排名算法在选择排名高的评论句子(节点)通过其选票从语义相关的其他评论句子(节点)。实验结果证明,提出的语义基于排名算法嵌入和语义相似度大大提高了总结的结果。

为了验证结果,我们也进行了统计显著性测试(T测试)来显示增强与其他先进的总结我们建议的方法模型。的paired-sampleT以及程序是用来比较两个结果的方式表示相同的测试组和低获得意义的值0.039,0.030,0.029,平均精度,回忆,和F-measure分别。值较低的意义T以及(通常小于0.05)表明,之间有显著性差异的结果建议的方法和其他总结模型。

5。结论和未来的工作

电影评论挖掘和总结是一项具有挑战性的任务,并在电影评论总结本研究设置了一个新的方向。一些研究成果已经在电影领域的评论。我们提出一个方法,分类和总结了影评用毫升技术和基于排名。该方法一般适用于任何领域,提供特定领域的训练数据。

在电影评论情绪分类的背景下,我们发现,朴素贝叶斯分类器表现很好时相比基准方法unigrams和三元被用作功能。分类器的性能进一步提高的频率特性(unigrams和三元)和IDF权重。

最后,我们使用了语义图论方法总结分类电影评论为了提供巨大数量的电影评论的要点。从实证结果,我们得出结论,该方法执行比其他先进的总结模型。

在未来,我们打算深入学习模型适用于从影评生成摘要式的总结。此外,我们希望我们的技术扩展到其他领域和研究该技术的有效性。

数据可用性

使用的数据来支持本研究的发现可以从以下网站:https://www.imdb.com/。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由著名德蒙特雷,墨西哥。

引用

m .胡锦涛和b . Liu“采矿和总结顾客评论,”第十届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,第177 - 168页,西雅图,WS,美国,2004年。视图:谷歌学术搜索
a . f . Alsaqer和美国Sasi”,系统进行条目设置电影评论总结并使用rapidminer情绪分析,”学报2017年国际会议上网络和计算技术的进步(NetACT)特里凡得琅,页329 - 335年,印度,2017年7月。视图:谷歌学术搜索
l .壮族f . Jing, X.-Y。朱,“电影评论挖掘和总结”学报》第十五届ACM国际会议信息和知识管理43-50页。视图:谷歌学术搜索
v . b . Raut和d . Londhe调查意见挖掘和总结网络上的用户评论表示,“国际计算机科学与信息技术杂志》上5卷,第1030 - 1026页,2014年。视图:谷歌学术搜索
a . Trilla和f .别名”,填空题型可以表达语音情绪分析,“IEEE音频、语音和语言处理,21卷,不。2、223 - 233年,2013页。视图:出版商的网站|谷歌学术搜索
s . j . Liu Seneff,诉Zue”收获和总结先进的基于语音的人机交互用户生成内容,“IEEE选定的主题在信号处理杂志》上》第六卷,没有。8,982 - 992年,2012页。视图:出版商的网站|谷歌学术搜索
C.-L。刘,W.-H。Hsaio,学术界。李,G.-C。陆,e .周素卿”电影评级和审查总结在移动环境中,“IEEE系统,人,控制论,一部分C(应用程序和评论),42卷,不。3、397 - 407年,2012页。视图:出版商的网站|谷歌学术搜索
c·曼宁,p . Raghavan和h . Schutze“信息检索概论”,自然语言工程》16卷,第103 - 100页,2010年。视图:谷歌学术搜索
f·塞巴斯蒂亚尼”,在自动文本分类、机器学习”ACM计算调查(CSUR),34卷,不。1,1-47,2002页。视图:出版商的网站|谷歌学术搜索
a . Esuli和f·塞巴斯蒂亚尼,“Sentiwordnet:观点挖掘的公开可用的词汇资源,”《LREC热那亚,页417 - 422年,意大利,2006年5月。视图:谷歌学术搜索
A . Nenkova和k .部“文本摘要技术的调查,”挖掘文本数据施普林格,页43 - 76年,柏林,德国,2012年。视图:谷歌学术搜索
y他和d .周”,从标签功能,为情绪分析自我训练,”信息处理与管理卷,47号4、606 - 616年,2011页。视图:出版商的网站|谷歌学术搜索
a m。Popescu和o . Etzioni”,从评论中提取产品特性和意见”自然语言处理和文本挖掘页9-28 Springer,柏林,德国,2007年。视图:谷歌学术搜索
m . Gamon a公司、美国Corston-Oliver和e .环”脉冲:从自由文本挖掘客户的意见,”《智能数据分析国际研讨会,第132 - 121页,马德里,西班牙,2005年9月。视图:谷歌学术搜索
a . Montejo-Raez e . Martinez-Camara m . t . Martin-Valdivia洛杉矶Urena-Lopez,“推特排名wordnet图情绪极性分类,“电脑语音和语言,28卷,不。1,第107 - 93页,2014。视图:出版商的网站|谷歌学术搜索
M.-T。Martin-Valdivia,大肠Martinez-Camara,人类。Perea-Ortega,洛杉矶Urena-Lopez”情绪极性检测用西班牙语评论结合监督和非监督方法,”专家系统与应用程序,40卷,不。10日,3934 - 3942年,2013页。视图:出版商的网站|谷歌学术搜索
a . Abdi n .伊德里斯·r·m·Alguliev和r . m . Aliguliyev”自动总结评估通过结合语义和句法信息智能教育系统,”信息处理与管理,51卷,不。4、340 - 358年,2015页。视图:出版商的网站|谷歌学术搜索
彭译葶。刘,M.-S。陈,彭译葶。曾“IncreSTS:对实时增量短总结评论流从社交网络服务,“IEEE工程知识和数据,27卷,不。11日,第3000 - 2986页,2015年。视图:出版商的网站|谷歌学术搜索
d . k . Ly k . Sugiyama林z, M.-Y。菅直人“产品回顾总结从更深层次的角度来看,“《第11届国际ACM和IEEE关于数字图书馆联合会议,页311 - 314,渥太华,加拿大,2011年6月。视图:谷歌学术搜索
p·梅塔”,调查电影评级和审查总结在移动环境中,“国际工程研究和技术杂志》上,卷2,不。3,2013。视图:谷歌学术搜索
y Sankarasubramaniam、k·拉马纳坦和s . Ghosh文本总结使用维基百科,“信息处理与管理,50卷,不。3、443 - 461年,2014页。视图:出版商的网站|谷歌学术搜索
m . Gambhir诉Gupta,“自动文本摘要技术:最近一项调查,”人工智能审查卷,47号1、1 - 66、2017页。视图:出版商的网站|谷歌学术搜索
诉古普塔和g . s . Lehal”文本摘要采掘技术的调查,“新兴技术在网络情报杂志》上,2卷,第268 - 258页,2010年。视图:出版商的网站|谷歌学术搜索
m .冰斗、美国Nunes和c·里贝罗”总结的变化动态文本集合使用潜在狄利克雷分配模型,”信息处理与管理,51卷,不。6,809 - 833年,2015页。视图:出版商的网站|谷歌学术搜索
摩尼,先进的自动文本摘要美国马剑桥,麻省理工学院出版社,1999年。
m . Tsytsarau和t . Palpanas挖掘主观数据在网络上的调查,”数据挖掘和知识发现,24卷,不。3、478 - 514年,2012页。视图:出版商的网站|谷歌学术搜索
a . Ortigosa j·m·马丁和r·m·卡罗”在Facebook和它的应用程序来学习情绪分析,“电脑在人类行为31卷,第541 - 527页,2014年。视图:出版商的网站|谷歌学术搜索
a . Joshi a . Balamurali p Bhattacharyya, r·莫汉蒂“C-Feel-It:微博的人气分析仪,”美国第49计算语言学协会的年会:人类语言技术:系统演示波特兰,页127 - 132,或者美国,2011年6月。视图:谷歌学术搜索
庞b和l . Lee,”意见挖掘和情感分析”,在信息检索基础和趋势,卷2,不。1 - 2、1 - 135、2008页。视图:出版商的网站|谷歌学术搜索
a . Dahou m·a . Elaziz j .周和熊,”阿拉伯语情绪分类使用卷积神经网络和微分进化算法,”计算智能和神经科学卷,2019篇文章ID 2537689, 16页,2019年。视图:出版商的网站|谷歌学术搜索
中州。胡,杨绍明。关铭陈,H.-L。周”,从在线酒店总结回顾一个文本意见挖掘方法,”信息处理与管理,53卷,不。2、436 - 449年,2017页。视图:出版商的网站|谷歌学术搜索
h·宋,y . Ko, j . Seo“如何提高文本总结和分类集成框架,通过相互合作”专家系统与应用程序,60卷,第233 - 222页,2016年。视图:出版商的网站|谷歌学术搜索
c . n .新罗Jr c . A . Kaestner和A . A . Freitas”一个非线性的话题检测方法用于文本总结使用wordnet,”车间的技术信息的程序语言人类(直到2003年)小溪,Preto,巴西,2003年。视图:谷歌学术搜索
中州。曾,Y.-M。王,我。林,C.-J。林,D.-W。Juang“专利代理提取和评价在专利地图的背景下,“信息科学杂志》,33卷,不。6,718 - 736年,2007页。视图:出版商的网站|谷歌学术搜索
a . j . c . Trappey c . v . Trappey彭译葶。吴,“专利文档自动摘要协作知识系统和服务,“系统科学与系统工程》杂志上,18卷,不。1,第94 - 71页,2009。视图:出版商的网站|谷歌学术搜索
d . Vazhenin s石川,诉Klyuev,“一个面向用户的网络检索总结工具,”学报2009年第二次国际会议上提出以人为本、个性化的机制、技术和服务葡萄牙波尔图,页73 - 78,,2009年10月。视图:谷歌学术搜索
j . s . Kallimani k . g . Srinivasa, b . Eswara Reddy”总结新闻报纸文章:实验和基于本体的定制,采掘文本摘要和得分,”控制论和信息技术,12卷,不。2,34-50,2012页。视图:出版商的网站|谷歌学术搜索
j。羌族,陈平,w .叮,f·谢,吴x,“多文档摘要使用封闭的模式,”以知识为基础的系统卷。99年,28-38,2016页。视图:出版商的网站|谷歌学术搜索
l .页面,美国布林、r . Motwani和t . WinogradPageRank引文排序:将以网络斯坦福大学:斯坦福InfoLab、斯坦福、钙、美国,1999年。
玛尼和大肠Bloedorn,“总结相关文档之间的相似之处与不同之处,”信息检索,1卷,不。1/2,35 - 67年,1999页。视图:出版商的网站|谷歌学术搜索
g . Erkan和d . r . Radev LexPageRank:威望在多文档文本总结”2004年EMNLP学报》上西班牙巴塞罗那,页365 - 371,,2004年6月。视图:谷歌学术搜索
r . Mihalcea和p . Tarau语言独立的单个和多个文档摘要算法,”IJCNLP学报2005年2005年10月,韩国济州岛。视图:谷歌学术搜索
x Wan和j·杨,“改善基于亲和图的多文档摘要”人类语言技术研讨会论文集北美协会的章计算语言学,页181 - 184,纽约,纽约,美国,2006年6月。视图:谷歌学术搜索
f·魏、w·李,问:陆,y,他“多文档摘要document-sensitive图模型”,知识和信息系统,22卷,不。2、245 - 259年,2010页。视图:出版商的网站|谷歌学术搜索
美国美国通用电气、>和h .他“加权图模型基于句子聚类和排名对于文档总结,”第四届国际会议上交互科学学报》上95年,页90 - 2011年8月,韩国釜山。视图:谷歌学术搜索
T.-A。Nguyen-Hoang, k阮,Q.-V。Tran“TSGVi:一个基于越南文档,总结系统”环境智能和人性化计算杂志》上,3卷,不。4、305 - 313年,2012页。视图:出版商的网站|谷歌学术搜索
g . Glavaš和j .Šnajder”事件图表信息检索和多文档摘要”,专家系统与应用程序41卷,第6916 - 6904页,2014年。视图:谷歌学术搜索
沈董y, y, e·克劳福德h .范霍夫和j·c·k·张“Banditsum:采掘总结作为一个上下文强盗,”2018年,https://arxiv.org/abs/1809.09672。视图:谷歌学术搜索
y刘”微调伯特采掘总结”,2019年,https://arxiv.org/abs/1903.10318。视图:谷歌学术搜索
刘y和m . Lapata”文本摘要pretrained编码器,”2019年,https://arxiv.org/abs/1908.08345。视图:谷歌学术搜索
a . Joshi大肠Fidalgo、大肠圣保罗和l . Fernandez-Robles”SummCoder:一个无人管理的框架,用于萃取文本总结基于auto-encoders深处,“专家系统与应用程序卷,129年,第215 - 200页,2019年。视图:出版商的网站|谷歌学术搜索
A . Mahajani诉迪亚,玛丽亚,和d·沙玛,“全面调查采掘、文本摘要,摘要式的技术”环境通信和计算机系统施普林格,页339 - 351年,柏林,德国,2019年。视图:谷歌学术搜索
费奥多尔,“文本规范化文档为中心的方法,”学报》第23届国际市立图书馆会议在信息检索的研究与开发希腊雅典,页136 - 143年,2000年7月。视图:谷歌学术搜索
c·巴克利·g·索尔顿海、j·艾伦和a . Singhal”自动查询扩展使用智能:TREC 3”诉讼的第三个文本检索会议(TREC-3)美国马里兰州盖瑟斯堡,NIST的特殊出版,,,1994年11月。视图:谷歌学术搜索
m·f·波特,”一个后缀剥离算法”,程序,14卷,不。3、130 - 137年,1980页。视图:出版商的网站|谷歌学术搜索
吴x, v . Kumar j·罗斯昆兰et al .,“十大算法在数据挖掘中,”知识和信息系统,14卷,不。1,1-37,2008页。视图:出版商的网站|谷歌学术搜索
g . t . Mikolov k . Chen拉和j·迪恩,“有效评估词表示的向量空间,”2013年,https://arxiv.org/abs/1301.3781。视图:谷歌学术搜索
t . Mikolov Sutskever, k . Chen g·s·柯拉和j .院长”的分布式表示单词和短语及其组合性”诉讼进展的神经信息处理系统太浩湖,页3111 - 3119年,CA,美国,2013年。视图:谷歌学术搜索
r . Mihalcea和p . Tarau语言独立的单个和多个文档摘要算法,”学报学报》的姊妹篇《会议摘要包括海报/演示和教程2005年,韩国济州。视图:谷歌学术搜索
美国布林和l .页面,“大规模的解剖学hypertextual Web搜索引擎,”计算机网络和ISDN系统,30卷,不。1 - 7,107 - 117年,1998页。视图:出版商的网站|谷歌学术搜索
庞b和l·李”,情感教育:使用主观情绪分析总结基于最小削减,”《第42计算语言学协会年度会议西班牙巴塞罗那,271年,页2004。视图:谷歌学术搜索
a . l .马斯河r·e·戴利·t·范教授黄d . a . y . Ng和c . Potts“学习词向量情绪分析,”美国第49计算语言学协会的年会:人类语言technologies-volume 1波特兰,页142 - 150,或者美国,2011年6月。视图:谷歌学术搜索
Erkan和d·r·Radev“LexRank:基于词汇中心作为文本摘要,突出“人工智能研究杂志》上22卷,第479 - 457页,2004年。视图:出版商的网站|谷歌学术搜索
r . Mihalcea和p . t . Tarau“文本、秩序”学报2004年大会在自然语言处理的经验方法西班牙巴塞罗那,页404 - 411,,2004年7月。视图:谷歌学术搜索
彭译葶。林,“胭脂:一个包进行自动评估总结,”程序的文本摘要分支:学报ACL-04车间西班牙巴塞罗那,页74 - 81,,2004年7月。视图:谷歌学术搜索