无线通信和移动计算

在这一页上

文摘介绍相关工作方法结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

自然语言处理授权移动计算

把这个特殊的问题

研究文章|开放获取

体积2018年| 文章的ID9839432| https://doi.org/10.1155/2018/9839432

自动情绪词汇的方法生成移动购物评论

小君丰 ,¹ 陈龚 ,¹ 小东李 ,¹ 和雷蒙德y . k .刘²

学术编辑器: 哲,他

收到了 2018年3月30

修改后的 2018年7月11日

接受 2018年7月30日

发表 2018年8月12日

文摘

急剧增加的使用智能手机使得人们评论各种产品在任何时间。情绪的分析用户的产品评论的质量很大程度上取决于情绪词汇。因此,高质量的情绪词汇的生成是一个重要的话题。在本文中,我们提出一个自动的方法构建特定于域的情绪词汇之间的关系通过考虑情绪词和产品功能在移动购物评论。方法首先选择情绪词和产品功能从最初的评论和矿山它们之间的关系用一种改进的点态互信息算法。第二,情绪词相关的移动购物集群分类形成情绪维度。在每一个情绪维度,每个情绪词可以取0或1的值,在1表明这个词属于一个特定的类别而0表明它不属于这一类。生成的词典是评估通过构造一个情绪分类任务使用多个产品评论写中英文。两个流行non-domain-specific情绪词汇以及最先进的机器学习和深度学习模型选为基准,和实验结果表明,我们的情绪词汇表现显著差异的基准,从而证明了该方法的有效性。

1。介绍

随着智能手机的快速发展,移动购物,已受欢迎,预计将增长得更快。购物之后,人们提供大量的评论关于不同类型的产品在互联网上。不同的产品可能不同偏好的消费群体。因此,它正变得越来越重要,了解客户通过在线评论情感倾向和最喜欢的产品。情绪分类可以执行使用机器学习、lexicon-based和混合方法。这些方法,情绪词汇是重要的参考资料。情绪取向的分析被广泛称为一个领域特定的任务。然而,几乎所有现有的情绪词汇是一般词汇,而不适合的分析产品评论在互联网上。因此,自动施工方法最近情绪词汇吸引了越来越多的关注,尤其是情感词典构建针对移动购物的方法。

情绪分析,也称为意见挖掘,审查矿业(评价提取),或态度的分析,检测的任务,提取、分类和意见、情绪和态度有关不同的主题(1]。在机器学习方法,情感分析可以被视为一种监督分类的任务。彭日成et al。2)解决了情感分类问题,训练分类器。然而,大多数机器学习方法依赖特性所设计的机器学习方法。lexicon-based方法,创建一个字典的极性判断单词在文本中是积极的还是消极的。例如,特尼(3扫描一个审查的短语匹配特定的模式(形容词和副词),然后添加所有情绪取向来计算文档的取向。结合上述方法和混合方法是在情绪分析具有相对优势。Ortigosa et al。4)开发出一种从一个语料库词典,然后选择情绪词连同标签类作为机器学习分类方法的输入特性。情绪词汇起着关键的作用在大多数上面的方法。

情绪词汇词典(或意见)是常用的单词和短语来表达积极或消极情绪(5]。研究人员已经提出了很多方法来编译这些情绪的话。从技术上讲,现有的自动词汇中英文语言的施工方法主要分为基于语料库和以知识为基础的方法。特尼(3)开发了一个基于语料库方法在一个词的情感取向被认为通过使用点态互信息(PMI)来描述这个词的亲密和种子词。以知识为基础的方法需要一个相对完整的知识库。胡和刘6)建造了一个情绪词汇通过搜索一个词的同义词和反义词在WordNet。对于一个特定的域,情绪词汇由相应的领域语料库更实用。在构建情感词典在线产品评论,产品功能修改情绪词也是非常重要的因素(7]。然而,现有的一般情绪词汇通常只包含有限的常用单词,这些单词分为二进制或其他固定类别根据情绪取向。

在本文中,我们提出一个新颖的方法来构建一个特定领域情感词典通过挖掘情绪词与产品功能之间的关系在一个特定的语料库。在我们的方法中,首先,一个情绪矩阵构造基于情绪词和产品特性之间的关系。情绪矩阵的每一行被认为是情绪的一个向量表示的词。的情绪词矩阵空间集群基于向量之间的距离。第二,情绪词相关的移动购物集群分类形成情绪维度。在建设的过程中情绪矩阵,词的想法frequency-inverse文档频率(TFIDF)是利用屏幕产品特性。此外,传统的PMI算法改进以获得新算法称为电源中断,哪个更适合移动购物评论。广泛的实验进行七个不同领域产品评论,其中包括评论中英文。相比两种流行的通用词汇以及最先进的机器学习和深度学习模型,我们的词汇可以获得令人满意的分类性能。实验结果还表明,过滤产品的特性和电源中断的应用算法可以大大提高我们的词汇的性能为移动购物评论。

剩下的论文结构如下。讨论情绪分类和词汇生成和回顾最近的研究提出了部分2。我们的方法构建移动购物评论和演练的情绪词汇的方法给出了部分的例子3。介绍了实验装置和结果部分4。总结了论文的结论部分5。

这部分的结构如下。在本节的第一部分,我们复习以前的工作情绪分类方法。在第二部分中,我们总结工作方法情绪词汇的创造。此外,我们简要介绍词汇的情绪维度考虑对产品评论和产品特征识别。

2.1。情绪的分类

情绪分类旨在自动分类的文本评论写的客户到正面或负面的意见。情绪分类技术大致可以分为机器学习,lexicon-based和混合方法(8]。

机器学习方法。在这种方法中,顾客的情感倾向的分析被认为是一个极性分类的问题。彭日成et al。2]应用三种机器学习方法(朴素贝叶斯(NB)、最大熵和支持向量机(SVM))情绪分类作为一种传统的基于主题的分类。Zhang et al。9)使用机器学习(NB和SVM)分类餐馆评论表达的情绪写在粤语。李等人。10]采用极端学习机和深度学习架构改善文本分类的特征表示。Enriquez et al。11)展示了一个基于矢量的词表示获得通过Word2Vec可以帮助改善的结果文档分类器基于bag-of-words模型。然而,这些监督机器学习技术需要一个大型语料库的训练数据,和他们的性能是可接受的只有训练和测试数据之间的匹配很好。

Lexicon-Based方法。这些方法采用词汇进行情感分析通过计算和加权情绪词评估和标记12]。Nasukawa和彝语(13)开发了一种方法来确定主题的好感度通过创建一个包含3513情绪情感词典。邱et al。14]lexicon-based方法用于识别情绪的句子上下文广告。最常见的词汇资源SentiWordNet WordNet, ConceptNet,在这些资源中,SentiWordNet是使用最广泛的15]。

混合的方法。如今,研究人员也使用相结合的方法,在两个或两个以上方法相结合来实现更好的精度。Sindhwani和梅尔维尔(16)提出了一个统一的框架中,词汇的背景信息,无标号数据和标签的训练可以有效地结合例子。李等人。17)建立一个系统来分析相结合的市场影响股票价格和新闻的情绪。Ortigosa et al。4)进行情感分类和情绪变化检测在Facebook上评论使用混合方法。他们结合lexicon-based和机器学习方法通过考虑词汇作为源的特性和使用词汇分类模型来评估;这种方法类似于一个用于我们的实验研究。

2.2。词汇创造

情绪词汇识别的一个重要工具是情绪极性移动用户提供的评论(18]。两种方法通常用于生成情绪词汇:基于知识和基于语料库的方法。

基于知识的方法。这些方法利用辞典编纂的可用资源,如WordNet或知网。胡和刘6)开发了一个词汇通过搜索一个词的同义词和反义词在WordNet。坎普斯(19]推断亲密的两个词就越大,越小的迭代次数要求确定同义词语之间的关系。这两个研究使用词汇知识库之间的关系。这些方法的主要策略是先手动收集一组初始种子的情绪词和他们的方向,然后寻找同义词和反义词在知识库扩大这组(12]。然而,很少有完整的和健壮的知识库用于汉语。

基于语料库的方法。这些方法取决于句法模式或模式发生一起连同种子列表的意见词找到其他意见词在一个大型语料库[20.]。Hatzivassiloglou和部21)发现,文本中的情感极性的变化,转折点出现但连接不。根据一个词的情感极性的想法往往是与周边的情感极性词一致,特尼和利特曼(22从大型语料库构建字典。这两个作品(21,22)是基于语料库而不是一个知识库。基于语料库的方法有一个很大的优点,它可以找到特定领域的单词和他们的方向如果发现过程中使用特定于域的语料库。也因此,我们的工作重点是基于语料库的方法。此外,PMI中常用这种方法利用句法模式共存的模式。特尼和利特曼22)使用PMI和潜在语义分析来衡量两个词之间的关系,这种方法,它使用PMI计算之间的相关性和种子词,叫做倾向性PMI (SO-PMI)。杨et al。23基于SO-PMI]引入了一个方法构造一个情绪词典SO-PMI模型和改进的基于用户行为。词汇建设的过程中,我们改进传统的采购经理人指数,使之更适合移动购物评论。

词典建设的过程中,我们集中在两个问题上:情绪维度的词典,和特性或主题标识在产品评论领域。

情绪维度。埃克曼(24]发现人类有六种基本情感类别:幸福、悲伤、恐惧、惊讶、愤怒和嫉妒。埃克曼的理论,接受了许多心理学家和语言学家,情感分析领域的广泛使用。鲁宾et al。25)提出了一个实际验证模型的基础上,这个想法(26),一种情感可以分为八类有两个主要的双维度:积极的和消极的影响。虽然早期的方法简单地关注这个二进制分类(27),我们不仅考虑两极性,也预期情绪词可以合理聚集成finer-gained分类。

特征识别。考虑到许多单词在不同的领域有不同的情绪极性,有必要明确提取情绪词汇和主题或产品特性,特别是在移动评估领域。快et al。28]发现使用专家或众包来构建特定于域的情绪词汇是非常困难的。Zhang et al。29日)提出了一种混合方法,结合先验的和PMI提取产品特性。Mishne [30.)选择了词性(POS)和单词计数特征在文本分类任务。在我们的研究中,原始的产品特征提取也使用POS作为选择标准。

3所示。方法

在本节中,我们提出我们的建议框架来生成特定于域的移动购物情绪词汇。图1展示了我们的方法的框架。特定领域的词汇之间的关系是基于情绪词和产品特性修改的情绪词。感情,采用矩阵来表示情绪词和产品特性之间的关系。首先,我们使用PMI表达情绪词和产品特性之间的关系。其次,我们使用TFIDF过滤产品特性,以降低矩阵维数。最后,我们改进了传统PMI开发一个名为电源中断的新算法,用于建立一个新的情绪矩阵。情绪矩阵中的每一行的向量表示情绪的词。集群获得人气矩阵后,我们情绪的单词分成几类,基于他们之间的距离向量表示。在施工的过程中使用的数学符号是列在表中1。

3.1。建筑的原始情绪矩阵

执行的关键一步矿业情绪词和产品特性之间的关系,我们需要确定情绪词语料库和产品特性。选择从语料库作为候选人的话,我们使用POS。

情绪词通常用来表达积极或消极的情绪。情绪词汇通常包含这样的话,它可以表示情绪极性(如“好”和“棒”表明积极的意见,而“垃圾”,“廉价”和“可怕的”表明消极的意见)。在移动购物评论,许多动词也可以表明情绪极性(例如,“喜欢”和“爱”表明积极的意见,而“不喜欢”和“退款”表明消极的意见)。在一些以往的研究(31日,32],POS的词是形容词或副词视为情绪的话。开发的情绪词汇或用于其他研究[6,33也主要关注的是形容词和副词。此外,产品特性在产品评论领域通常是名词或名词短语回顾中发现的句子6]。因此,我们选择形容词、副词和动词作为情绪词汇和选择名词作为原始的产品特性。例如,酒店评论”餐厅的食物很好,早餐好吃,“产品特性是“餐厅”,“早餐”和“食物”,和情绪词是“好”和“口味”。

如果一个情绪词修改产品特性B,我们认为它们之间有关系。在移动购物评论,这种关系可以表现为共存的现象。我们使用PMI量化这种类型的共存关系。采购经理人指数的定义是在这里, 的同现概率吗和在当地的窗口,表示为在哪里是语料库中包含单词的总数。代表了两个词出现的次数在当地的窗口。类似地,可以获得每个单词的频率在(1),给共存的可能性,如果这两个词是统计独立的。的比例来因此衡量词语之间的统计依赖的程度。

PMI价值之间的情绪词和产品功能可以反映它们之间的关系。通过计算PMI价值之间所有的情绪词和产品特性,我们可以获得一个情绪矩阵包含情绪词和产品特性之间的关系。让我们表示作为情绪词和集产品功能的集合。矩阵 ,如下所示,包括行和列。

定义1。情绪矩阵 :行代表的情绪词,而列代表了产品特性。每个单元格的值是由。在上面的矩阵,每个情绪词可以表示成向量。情绪矩阵一个是原始的情绪矩阵,这个矩阵进行优化,在下一小节中所描述的。

3.2。过滤的产品特性

到目前为止,我们已经获得了原始情绪矩阵 ,和每一个情绪词在矩阵可以表示为一个向量。根据我们的方法,这些向量应该集群分成几个类别。然而,我们发现产品功能的数量非常大,因为我们考虑所有名词作为产品特性。因此,这个词向量将面临维度灾难问题。高维数据的聚类仍然是一个具有挑战性的问题,因为诅咒的维数(34]。此外,高维度的使用将导致计算效率较低,尤其是在移动计算。在胡锦涛和刘的研究(6),只有那些产品特性有关,许多人表达了他们的意见保留。同样的,我们也从原始的名词选择关键产品特性。接下来,我们将详细描述我们的特征选择方法。

高维问题源于大量的语料库的名词。数量是巨大的,因为我们选择所有名词作为产品特性。例如,考虑产品评论“这酒店很好,下次我可以推荐我的妈妈住。”“妈妈”和“时间”将被视为产品特性,但这些话并不代表酒店的任何功能。此外,到处都可以找到这种类型的名词在移动购物评论。因此,需要过滤的关键产品特性,而不是选择所有名词作为产品特性。产品功能应该是名词频繁出现在一个特定类别的产品评论,很少出现在另一个类别去了。因此,我们使用TFIDF的想法选择真正的产品特性。TFIDF被定义为在这里,意味着这个词文档中的词的频率。意味着逆文档频率,是否这个词很常见或罕见的所有文档。重要的是要注意,同一个词的TFIDF价值可能是不同的在不同的文档。然而,TFIDF通常用于文档而不是评论。可能会有成千上万的评论一个单一的产品。我们只需要合并相同的评论在一起形成相应的文档。

从(5),我们可以获得词汇的TFIDF价值在不同的文档。与在前面的小节描述的分析,在这里,我们选择的名词TFIDF值相对较高的文档作为产品的产品特性。意外,我们发现TFIDF值相对较高的名词是单词,回顾产品密切相关。例如,如果有许多评论关于一个酒店,我们可以检索词如“浴室”和“空调”从相应的文档。当我们评论一个酒店时,我们通常指的是“浴室”或“空调”酒店。然而,这两个词很少出现在评论的产品从其他域等电子产品领域。我们可以定义一个阈值TFIDF值必须达到真正的产品特性。让我们表示在哪里的设置按TFIDF过滤后剩下的产品特性。因此,我们可以获得另一个情绪矩阵矩阵类似的情绪。这个矩阵(情绪矩阵)由行和列。

定义2。情绪矩阵 :这个矩阵可以被认为是情绪的一部分矩阵。行代表的情绪词,而列表示TFIDF过滤后的产品特性。每个单元格的值 ,这是一样的,在情绪矩阵 ,是由。
在矩阵B,每个情绪词可以表示成向量。在这里,可以大大小于当阈值适当地设置。而情绪矩阵一个,情绪矩阵B在字(词)嵌入能有效解决高维问题。然而,仍然有一些缺陷在情绪矩阵,将在下一小节中阐述。

3.3。优化电源中断的情绪矩阵

在这里,我们介绍一个例子从酒店评论进一步解释市场人气的缺陷矩阵和。我们专注于两个情绪词(= "富裕"= "的")和两个产品特性(= "食物"=“早餐”)。这两种情绪语言可以用来表达意见各种各样的食物。这两种情绪词的含义非常相似,和这些词常用在酒店评论领域。如果我们只考虑两个特性和 , 和可以表示成和在情绪的矩阵。是由。

众所周知,单词之间的距离或角度向量可以被认为是单词之间的相似之处。两个单词之间的相似性越大,它们之间的距离越短。然而,在酒店评论,两个情绪词( )和两个产品特性( )可以灵活地与对方。虽然有些客户可能会修改与和与 ,他们可能很少修改与和与。这意味着PMI的价值( ), 是比较高,但是PMI的价值呢和非常低。因此,创建一个错觉和不相关的两个维度和。这种非理性的结果源于产品评论的灵活性和词汇的多样性在移动购物评论。虽然很少修改 ,它不能被简单地认为是无关紧要的。

当我们考虑一个情绪词和产品特性之间的关系,这是不够的直接计算这两个词的PMI价值。我们仍然需要考虑情感词之间的关系和其他产品特性相关的初始产品特性。在移动购物评论关于一个酒店,有许多功能相关 ,如“食物”和“餐厅。“因此,当我们计算的PMI价值和 ,我们不仅考虑共存和但也和或其他相关产品特性。我们使用以反映两个产品特性之间的相关程度和。更大的价值 ,更相关的来。表明这两个特性和是无关紧要的。特别是,如果特性和表示相同的功能的价值他们之间是零。考虑到所有的产品特性中包含的语料库,我们定义电源中断一旦我们知道的价值任何两个特性之间和 ,我们可以获得电源中断值基于PMI值。考虑到屏幕我们可以根据描述的方法的特性在前面的小节中,我们关注的是过滤后剩下的产品特性之间的相关性和所有的原始特性。我们假设两个特性越频繁出现在相同的评论,他们之间的相关性就越高。的伪代码挖掘算法中展示了它们之间的关系1。

输入:

输出:矩阵
(1)
(2)而做
(3)
(4)而做
(5)为每一个做
(6)如果然后
(7)
(8)
(9)
(10)为每一行行做
(11)
(12)返回C

早期的定义之后,仍然是所有产品功能对于一个给定的集合生产,然后呢是产品功能的集合进行过滤得到的使用在前面的小节描述的方法。评论的相关产品。意味着特性和出现在审查。这个函数是一个简单的归一化函数,用于确保向量中每个元素属于。该算法是一种有效的算法,它可以找到最相关的特定的功能特性。我们可以获得矩阵C使用上面的算法。在获得矩阵 ,我们可以使用电源中断来构建一个新的情感矩阵。

定义3。情绪矩阵可以由(7)。情绪的唯一区别矩阵和是矩阵使用我们的方法获得(电源中断),而不是传统的采购经理人指数。换句话说,情绪矩阵中的每一个单元代表情绪词之间的电源中断的价值和产品特性,而不是它们之间的PMI价值。到目前为止,我们已经获得了三个情绪矩阵一个,B,F。情绪的词语可以表示为向量矩阵的情绪。

在移动购物评论,客户经常使用不同的情绪词修改不同的产品特性。此外,客户可能有很好的感觉对产品的一些功能,但他们可能不满意一些其他功能在同一时间。因此,不同的产品特性也反映出不同的感觉。我们假设情绪词可分为不同类别根据它们之间的关系和产品特性。

因此,我们集群情绪词分成几类,而不是为二进制或其他固定类别。换句话说,一个词在特定领域的词汇的情绪维度是灵活而不是只有有限的情感极性。对于每一个情绪维度,每个情绪词可以取0或1的值,在1表明它属于一个特定的类别而0表明它不属于这一类。如果我们集群情绪词分为五类,表示意味着这个词属于第三类。情绪维度的灵活性是一个特定于域的词汇使用我们的方法构建的主要特征。

3.4。演练的例子

这里,我们将详细说明电源中断之间的差异和PMI使用一个例子。假设我们想要确定情感词之间的语义相关性= "丰富”(丰富)= "丰盛”(的),表中列出的五个句子2是我们的语料库。这个小语料库是中国移动购物评论的一部分酒店。

在这里,33因为这五个评论包含33个汉字。在这个例子中,有四个名词(或原始产品功能),也就是说, “食物”(食物),“早餐“(早餐),餐厅”(餐厅),“种类”(品种) 。保持我们的例子简单和可以理解的,我们只关注两个特性, “食物”(食品) ”早餐”(早餐)。因此,可以。因为这个词是2只出现在这两次小型语料库。同样的,是2,3,是4。共存的局部窗口的大小设置为3。 2,因为和cooccur两次在第二和第四的评论在窗口。同样的, 是2, 是0, 是0。使用(1),我们可以获得和。同样的, 和。因此,情绪的两个字和可以表示成和分别在情绪矩阵一个和B。

我们计算使用算法1。首先,通过遍历这五个评论,我们获得的共存的实例的数量和(表3)。在这个表中,每个细胞显示了两个特征一起出现的次数相同的评论。这个表中的值相似的矩阵获得的算法1。

接下来,我们正常化这个表或矩阵。我们选择min-max标准化函数作为函数的算法。最后,我们获得 , , , , , 。请注意,和都是0。

使用(6),我们得到和。同样的, 和。情绪的两个字和可以表示成和情绪的矩阵F。

很明显,之间的距离和远比之间吗和 ,无论欧几里得或余弦距离。这个结果反映了我们的电源中断算法之间的差异和PMI。这两种情绪词非常相似,通常用于酒店的评论。这两个词之间的相似性越大,它们之间的距离越短。在聚类模型,向量位于较短的距离更容易被聚集到同一类别。

4所示。实验

评估特定领域词典使用我们开发的方法,我们设计一个实验装置使用,我们比较提出了特定领域的词汇有两个流行的通用词汇和先进的机器学习和深度学习的方法不使用词典。我们主要是评估不同的词汇和方法使用文档级分类任务域的在线产品评论。对于混合情绪分类方法,我们考虑文档的特征向量表示的词汇。我们使用F1-measure作为主要评价指标,选择NB和支持向量机作为分类器。下面的细节描述的实验及其结果。

4.1。数据集

数据集包括中文和英文购物评论。这些评论是七个类型的产品。这个数据集表中列出的详细统计数据4。

中国产品评论包括三个领域:酒店,布料,和水果。谭博士提供的酒店评论(http://download.csdn.net/download/lssc4205/9903298),布和水果评论从移动购物应用程序JD(爬https://www.jd.com/)。英语评论来自著名的亚马逊产品评论收集的数据集Blizter et al。35]。广泛用作基准数据集跨域情绪分类。四个domains-book, DVD,电子产品,厨房包括在这个数据集。对于每一个领域,包括1000 1000正面和负面评论。

4.2。实验设计

我们使用开源软件jieba (https://pypi.python.org/pypi/jieba/)中国产品评论进行预处理工作,包括中文分词和词类。情绪的分类方法不使用词典,我们比较我们的方法与经典bag-of-words和深度学习模型Word2Vec [36]。此外,我们比较特定领域情感词典有两个流行的一般情绪词汇。我们使用scikit-learn [37python库的分类器实现。详细的下面描述的三个测试组之间的差别。

(一)没有词典(鞠躬)经典的方法来表达文档涉及使用bag-of-words模型(2]。每个文档由feature-presence表示向量。(W2V)除了bag-of-words古典表示,我们使用编码Word2Vec提供的话说,这是一个深度学习工具在2013年发布的谷歌。这个工具主要采用两种模型体系结构之连续bag-of-words模型和连续skip-gram以学习向量表示的单词(38]。使用Word2Vec文档级别的任务,需要一个方法,可以统一所有词向量代表整个文档并生成一个向量(11]。因此,最终获得表示根据文档中包含单词的数量如下: 我们使用genism (https://radimrehurek.com/gensim/models/word2vec.html)Word2Vec的python库实现。我们使用默认值200年几乎所有的参数和使用向量维度。

(b)一般词汇对于这个测试组,我们使用混合情绪分类方法。我们考虑中的词词典,词典的情绪维度,单词和维度的组合作为机器学习分类器的特性。首先,我们选择一般情绪词汇DUTIR [39中国评论]。DUTIR词汇包含27446个常用汉字。这些词的情感极性标记为积极、消极或中性的。(DUTIR)我们只考虑这句话中包含DUTIR词典功能,如bag-of-words模型。因此,回顾可以表示成。(3)我们考虑三种极性DUTIR情绪词的词典。我们代表了产品审核一个三维向量 ,在那里 , ,和的字数有三种极性的审查。(DUTIR + 3)在这里,我们把上面的两个表示。产品审核可以表示成。英语的评论,我们选择一般情绪词汇SentiWordNet (http://sentiwordnet.isti.cnr.it/)。SentiWordNet分配三种情绪得分为每个同义词集的WordNet:积极、消极和客观性。换句话说,这两个词的情绪维度这两个一般情绪词汇在中文和英文3。(SentiWordNet)DUTIR词典的情况下,我们关注SentiWordNet词典中包含。审查可以表示成。(3)我们代表了产品审核一个三维向量。在这里,是单词的积极性分数的总和在复习吗。同样的,和代表消极和客观成绩之和,分别。(SentiWordNet + 3)在DUTIR词典的情况下,产品审核可以表示成。

(c)特定领域的词汇我们使用混合的方法来评估特定领域词典使用我们开发的方法。我们设置了窗口大小为3和0.01(如部分中提到3.2)。我们使用k——(http://scikit-learn.org/stable/modules/clustering.html k - means)集群情绪词基于距离矩阵空间的类别。不同于一般词汇,词汇的情绪维度在特定领域的词汇。注意,我们选择通过5倍交叉验证对训练集的选择的细节在下一小节中解释。在我们的实验中,集群的数量不超过30。在下面的讨论中,使用我们的方法构建的领域特定的词汇和DS表示。(DS)我们认为情绪词中包含特定于域的词汇特征,如bag-of-words模型的情况下。因此,审查可以表示成。(只有k)我们集群情绪词分类使用k则。我们代表了产品审核由一个维向量。很明显,代表情绪词属于的数量类别的审查。(DS +k)在这里,我们把上面的两个表示。产品审核可以表示成。三种不同情绪矩阵被认为是在我们的词典施工过程。情绪词表示在不同的矩阵是非常不同的。因此,聚类的结果也会不同。我们使用(PMI),(TFIDF-PMI),(电源中断)来表示情绪矩阵的聚类结果一个,B,F,分别。我们将讨论这三个矩阵的不同的结果在下一小节。

此外,我们对词汇的覆盖和使用。我们假设测试集包含独特的词汇和这些语言包括情绪词,词典中包含的情绪。我们还假设词典的大小,用于训练分类模型。因此,词汇的报道 ,词汇的用法。如果词汇的覆盖率很低,将不满意的分类性能。如果词汇的用法很低,应该避免计算资源会被浪费,这特别是对移动设备。考虑到这两个评价指标,我们提出平均F1-measure等评价指标。让 , ,和代表覆盖率、用法和普通的词典,分别。然后,被定义为

4.3。结果与讨论

整体结果。表5列出了整体分类结果。所有的任务都平衡的两种问题。每个域的最佳结果审查是粗体显示,和第二好的结果是强调。

首先,为特定领域和一般词汇,DS +达到最好的结果为所有七个领域的评论而DS达到次优结果的四个评论。DS优于普通词汇DUTIR SentiWordNet。这些结果表明,特定领域的词汇,这是由相应的语料库,显示了情绪更好的性能分类任务购物评论。

第二,没有词汇的方法,经典bag-of-words模型显然执行比深度学习模型Word2Vec情绪分类的任务。弓达到次优结果三的评论,而W2V显示近表现最差的中文和英文的评论。意想不到的表现不佳,和一个大语料库训练所需的训练数据可能是Word2Vec [40]。

第三,对于情绪维度,只有3和表演中文和英文评论相对较差。也就是说,它是不够的,仅仅考虑情绪维度当我们使用词典作为源的功能表达的评论。然而,DS +的性能只比DS和对中文和英文的评论。这个结果表明相结合的有效性单词和词汇的情感维度。

注意,在桌子上5,代表(电源中断)。考虑到(DS +)提供了最佳的性能,我们分析了DS +的结果之间的差异(PMI), DS +(TFIDF-PMI)和DS +详细(电源中断)。

电源中断与PMI和TFIDF-PMI。表6列表(DS +的分类结果节中提到的三种不同的方法3。首先,我们发现DS +的分类性能(电源中断)是更好的比DS +(PMI)和d +(TFIDF-PMI)。特别是,DS +的性能(PMI)是相对贫穷。根据一项以及,三种方法的结果差异显著( )。这个结果反映了情绪的电源中断的优势相对于传统的PMI分类。

第二,我们将讨论三种方法之间的差异的时间效率。图2显示了平均聚类时间矩阵所需的三种不同的情绪。被情绪的时间消耗矩阵和远小于被情绪矩阵。这是因为在矩阵和 ,空间向量的矩阵的维数减少使用一节中描述的方法3.2。降维导致大幅提高分类的效率和准确性。因此,情绪的矩阵F构造使用电源中断显示最佳的性能。

K的选择。的情绪维度领域特定的词汇。现在,我们分析的影响不同值的分类性能。图3只显示的性能(电源中断)的变化英文产品评论。当2,只有(电源中断)显示了书籍和DVD领域最佳的性能。厨房和电子产品领域,更大提高分类的性能(电源中断)。适当的值对特定领域的词汇是不同的不同的领域。我们选择的价值通过训练集上的5倍交叉验证实验。

然而,我们发现的性能(电源中断)比,只有3的书籍和DVD域(表5)。我们认为这是因为只不是一个好的选择吗(电源中断)进行情感分类的任务。为了证明这一点,我们看的性能结果对所有英语产品评论(表7)。

表7只显示的性能(电源中断)并不好当固定在2。在我们的特定领域的词汇,如低情绪维度对DS。有一个相当大的情绪影响我们的特定于域的词汇分类任务。因此,它是必要的选择通过交叉验证。

注与支持向量机。获取所有上面的结果,我们选择NB作为分类器。然而,分类算法分类性能的影响。因此,我们选择另一种流行的分类算法支持向量机作为分类器的方法和最佳的性能在每种类型的方法。表中列出的结果8,在那里显示性能的改善相比,当NB和使用显示性能的恶化。SVM执行比NB当使用DUTIR + 3为中国评论和当使用弓的书籍和DVD领域。相比之下,NB收益率在使用其他方法更好的性能。情绪分类也许是其中的一个领域,有明确功能的依赖,因此,NB的表现出乎意料的好41]。尽管特定领域的词汇表现更好的NB和支持向量机,不同类型的文本分类模型可能是所需文件与不同的属性。因此,进一步的实证和理论研究需要了解情绪之间的关系和分类模型的分类任务。

词汇覆盖率。最后,我们讨论了分类性能的报道(),使用(),平均()。测试集的结果列在表中9和10。在中文和英文域名,弓相对较高的平均值。对中国产品评论,覆盖和使用DUTIR最糟糕,因为DUTIR是一个通用词汇,只包含几个字经常出现在购物评论。SentiWordNet的覆盖率是大大高于DUTIR。这部分解释了为什么SentiWordNet的性能优于DUTIR情绪分类任务。更好的性能也可能是因为SentiWordNet包含更多的单词比DUTIR移动购物相关评论。覆盖面SentiWordNet高于特定领域词汇的英文产品评论,而使用比DS SentiWordNet相当低。非常低的词汇的使用可能会影响他们的性能和移动设备的计算资源的浪费。DS的平均值是远远高于一般词汇的中英文产品评论。这一结果反映出我们的优势领域特定的词汇为移动购物评论用另一种方式。

5。结论

情绪的分析用户的产品评论的质量很大程度上取决于情绪词汇。本文提出一种移动购物情绪词汇施工方法。在这种方法中,一个情绪矩阵考虑情绪词和产品特性之间的关系。情绪词是集群基于它们之间的距离矩阵的空间。我们语言的一个特点是情绪词集群分成几类,而不是为二进制或其他固定类别。换句话说,情绪维度的单词在我们的词典是灵活的。此外,产品特性过滤基于TFIDF的想法。此外,电源中断算法,这是更适合移动评估领域。实验结果表明,我们的情绪词汇表现的基准在统计上有显著差异的情绪分类任务,从而证明了该方法的有效性。

数据可用性

生成的数据集和分析在当前研究可从相应的作者以合理的要求。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

本文中描述的工作是国家重点支持的部分研发项目(批准号2018 yfc0407901),部分支持下由中国国家自然科学基金资助。61370091也没有。61602149,部分支持的基础研究基金批准号下的中央大学2016 b01714,部分优先支持的学术程序开发江苏高等教育机构。刘的工作是支持由香港特别行政区研究拨款委员会的使用证(使用证项目11502115和11525716)和国家自然科学基金委基础研究计划(71671155)项目。

引用

a . Montoyo p Martinez-Barco, a . Balahur“主体性和情绪分析:概述当前状态的区域和设想的发展,“决策支持系统,53卷,不。4、675 - 679年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
庞,l·李和美国Vaithyanathan大拇指?:sentiment classification using machine learning techniques,” in学报ACL-02会议经验方法在自然语言Processing-Volume 10 (EMNLP ' 02),页79 - 86,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2002年7月。
视图: 出版商的网站 | 谷歌学术搜索
p·d·特尼,”投赞成或反对票?“在美国40对计算语言学协会年度会议,页417 - 424年,宾夕法尼亚州的费城,2002年7月。
视图: 出版商的网站 | 谷歌学术搜索
a . Ortigosa j·m·马丁和r·m·卡罗”在Facebook和它的应用程序来学习情绪分析,“电脑在人类行为没有,卷。31日。1,第541 - 527页,2014。
视图: 出版商的网站 | 谷歌学术搜索
b . Liu“情绪分析和观点挖掘,”摩根Claypool &,2012年。
视图: 谷歌学术搜索
m .胡锦涛和b . Liu“采矿和总结顾客评论,”第十届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 04)2004年8月,页168 - 177。
视图: 谷歌学术搜索
Y.-J。Tai和H.-Y。花王,“特定领域情感词典自动生成标签传播”学报》国际会议信息集成和基于web的应用程序服务,62年53 - 2013页。
视图: 谷歌学术搜索
d·梅纳德和恐慌,”自动检测微博的政治观点”学报》2011年第一理解Microposts研讨会:大事小包装,男男同性恋者2011 - 8日共存扩展语义Web会议,ESWC 2011希腊,页81 - 92年,2011年5月。
视图: 谷歌学术搜索
>,问:你们、>和y,“情绪分类的互联网餐馆评论写在广东话,“专家系统与应用程序,38卷,不。6,7674 - 7682年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
曹x, j . z盘,“通过深度学习架构,市场影响分析”神经计算和应用,2018年,页1 - 12。
视图: 出版商的网站 | 谷歌学术搜索
f . Enriquez j . a . Troyano, t . Lopez-Solaz”一词的使用方法嵌入在意见分类任务中,“专家系统与应用程序卷,66年,页1 - 6,2016。
视图: 出版商的网站 | 谷歌学术搜索
z海龙、g .闻堰和j . Bo”机器学习和基于词典的情绪分类的方法:一项调查,”11 Web信息系统和应用研讨会论文集,低2014,页262 - 265,中国,2014年9月。
视图: 谷歌学术搜索
t . Nasukawa和j·易,“情绪分析:使用自然语言处理捕获的好感度,”第二届国际会议上获取知识,K-CAP 2003美国,页70 - 77,2003年10月。
视图: 谷歌学术搜索
g .秋他x, y Shi, f . Zhang j·布鲁里溃疡,和c·陈,“运限:Dissatisfaction-oriented广告基于情绪分析,“专家系统与应用程序,37卷,不。9日,第6191 - 6182页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
s . Jadav b Tanawal h . Guadani,“情绪分析:一个评论,”国际期刊的推进工程和研究开发4卷,第962 - 957页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
诉Sindhwani和p·梅尔维尔Document-word co-regularization semi-supervised情绪分析,”学报》第八届IEEE国际会议上的数据挖掘,ICDM 2008,页1025 - 1030,意大利,2008年12月。
视图: 谷歌学术搜索
李x h·谢·l·陈,j . Wang和x邓小平,“新闻对股票价格的影响返回通过情绪分析,“以知识为基础的系统,卷69,不。1、5、2014页。
视图: 出版商的网站 | 谷歌学术搜索
g . Badaro r·贝尔r . A et al .,“光Lexicon-based移动应用阿拉伯语微博的人气矿业”学报第二车间阿拉伯语自然语言处理北京,页15岁至25岁,中国,2015年7月。
视图: 出版商的网站 | 谷歌学术搜索
j·坎普斯m .马克思,r . j . Mokken和m . De Rijke”使用WordNet测量形容词的语义取向”诉讼的第四届国际会议的语言资源和评价,LREC 2004葡萄牙,页1115 - 1118年,2004年5月。
视图: 谷歌学术搜索
w . Medhat, a·哈桑,h . Korashy“情感分析算法和应用程序:一项调查,”Ain Shams工程杂志,5卷,不。4、1093 - 1113年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
诉Hatzivassiloglou和k·r·部”预测形容词的语义取向”学报35协会的年度会议上对计算语言学和第八次会议的欧洲章计算语言学协会(ACL的97),第181 - 174页,1997年。
视图: 出版商的网站 | 谷歌学术搜索
p·d·特尼和m·l·利特曼”测量赞扬和批评:推理的语义取向协会”ACM交易信息和系统安全,21卷,不。4、315 - 346年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
杨,j·林、周y和j·陈,“研究建立基于SO-PMI中国情绪词汇,“应用力学和材料卷,263 - 266。1,第1693 - 1688页,2013。
视图: 谷歌学术搜索
p·埃克曼”,论证基本情绪。”认知和情感》第六卷,没有。3 - 4、169 - 200年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
诉l·鲁宾,j·m·斯坦顿和e·d·李迪在文本识别情绪,斯坦福大学,2004年。
a . Tellegen d·沃森,l·a·克拉克”维度和层次结构的影响。”心理科学,10卷,不。4、297 - 303年,1999页。
视图: 出版商的网站 | 谷歌学术搜索
e·威尔士s云苓、a . Gelbukh和m . Thelwall“情感分析是一个很大的行李箱,”IEEE智能系统,32卷,不。6,74 - 80年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
大肠快,b . Chen和m . s . Bernstein”Empath:了解信号在大规模文本主题,”学报的第34届会议上人为因素在计算系统中,CHI 2016美国,页4647 - 4657,2016年5月。
视图: 谷歌学术搜索
m·h·张,z . Yu徐,y,“特性对中国产品评论的情感分析,”学报》第三届国际会议上计算机研究和开发(ICCRD),第140 - 135页,上海,中国,2011年3月。
视图: 出版商的网站 | 谷歌学术搜索
m·吉拉德”实验情绪分类的博文,“ACM交易多媒体计算机通信和应用程序,2005年。
视图: 谷歌学术搜索
f . Benamara c . Cesarano a . Picariello d . Reforgiato v . s . Subrahmanian,“情绪分析:形容词和副词仅比形容词,”《2007年国际会议上博客和社交媒体,ICWSM 2007美国2007年3月。
视图: 谷歌学术搜索
y, x, x, w . Liu, y,“探索用户评论的情感强度,”网络时代信息管理卷,6184在计算机科学的课堂讲稿施普林格,页471 - 482年,柏林,德国,2010年。
视图: 出版商的网站 | 谷歌学术搜索
t·威尔逊·霍夫曼s Somasundaran et al .,“OpinionFinder,”停止/ EMNLP学报》上页34-35,温哥华,不列颠哥伦比亚,加拿大,2005年10月。
视图: 出版商的网站 | 谷歌学术搜索
c .侯f·聂,d .易,道,“有识别力的嵌入集群:一个框架对高维数据进行分组,”IEEE神经网络和学习系统,26卷,不。6,1287 - 1299年,2015页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
m . j . Blitzer Dredze f·佩雷拉,“传记,宝莱坞,总是会和搅拌机:域适应情绪分类,”学报45的计算语言学协会年度会议(ACL ' 07)2007年6月,页440 - 447。
视图: 谷歌学术搜索
g . t . Mikolov Sutskever, k . Chen拉和j .院长”的分布式表示单词和短语及其组合,”学报》第27届年会在神经信息处理系统(少量的13)2013年12月,页3111 - 3119。
视图: 谷歌学术搜索
f . Pedregosa、g . Varoquaux和a . Gramfort Scikit-learn:机器学习在Python中,“机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。
视图: 谷歌学术搜索 | MathSciNet
h . d . Zhang徐、z . Su和y,“中国评论情绪分类基于word2vec SVMperf,”专家系统与应用程序,42卷,不。4、1857 - 1863年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
h·林l .徐任h . et al .,“构建情感词汇本体,”《中国社会科学和技术信息27卷,第185 - 180页,2008年。
视图: 谷歌学术搜索
美国马里亚诺·a·埃德加·r·Sidarta, f·s .迭戈”比较研究的LSA vs Word2vec嵌入小全集:一个案例研究在梦中数据库”阿根廷ASAI Simposio de Inteligencia人工,2016年。
视图: 谷歌学术搜索
p·多明戈和m . Pazzani“超越独立性:简单贝叶斯分类器的最优性条件,”机器学习,29卷,第130 - 103页,1996年。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

5800年

下载

1593年

引用