文摘
情感分析是一个重要的领域,允许公众舆论的用户了解几个方面。这些信息帮助组织了解客户满意度。Twitter等社交网络信息渠道很重要因为可以获得实时信息和加工。在这个意义上,我们提出一个deep-learning-based方法,允许公司和组织检测的机会通过情绪提高产品或服务的质量分析。这种方法是基于卷积神经网络(CNN)和word2vec。为微博分类决定了这种方法的有效性,我们进行了实验与不同大小的一个Twitter 100000条组成的语料库。我们获得了令人鼓舞的结果精度为88.7%,88.7%的回忆,和一个测量的88.7%考虑完整的数据集。
1。介绍
如今,网上有很多的意见。这些信息对用户很重要,因为它帮助他们决定购买一个产品,在政治选举中投票,和选择旅游目的地等科目。这些信息对组织也很重要,因为它帮助他们一般意见了解他们的产品,销售预测和客户满意度。基于这些信息,公司可以识别机会提高他们的产品或服务的质量。
一个很好的例子,演示的重要性的观点是一件t恤的Zara服装店收到负面意见,因为它看起来像在大屠杀中使用的衣服。在这些情况下,公司必须迅速采取行动,解决问题,以避免这些意见影响他们的声誉。在这个意义上,实时了解公众的意见是非常重要的。Twitter是一个社交网络,用户实时分享几乎所有的信息。因此,公司考虑这个社交网络作为一种丰富的信息来源,允许一般意见了解他们的产品和服务,其中包括(1]。然而,分析和处理所有这些观点人类需要太多时间和精力。在这些理由,技术,流程自动出现了这一信息。这种技术被称为情绪分析或意见挖掘。
情绪分析定义了几个作者。然而定义中使用的大多数研究社区刘提出的是(2],谁定义如下:“情感分析的研究领域,分析人们的意见,观点,评估,评估,态度,和情绪等对实体产品、服务、组织、个人、问题、事件、话题,和他们的属性。”
在过去的几年,情绪分析提出了几种方法。大部分的这些方法都是基于两个主要技术、语义取向和机器学习。两种技术虽然取得了较好的效果,一些作品在文献中已经证明,机器学习获得更好的结果。然而,近年来的新技术,即深度学习了研究人员的注意,因为它大大优于传统方法(3,4]。大多数deep-learning-based情感分析的方法是基于英语语言。因此,我们提出一个deep-learning-based方法微博情感分析的西班牙语。西班牙语是第三语言最常用在互联网上(http://www.internetworldstats.com/stats7.htm)。因此,我们认为情绪分析新方法的西班牙语是必要的。
本文的其余部分的结构如下。部分2的文献综述了关于情绪分析和深度学习。部分3描述了该方法。中给出的实验和结果部分4。最后,部分5给出了结论和未来的工作。
2。相关的工作
在文献中,一些作者提出了情感分析的方法。这些作品使用了两种主要的方法,语义取向和机器学习。对第一种技术,方法使用情绪词汇确定极性。在文献[SentiWordNet是最常用词汇5,6]。这个词典是基于WordNet,它包含多个感官的词。同时,它提供了一个积极、客观,负值为每个有意义的。一些作品使用这种技术已获得可喜的成果;然而,一些其他作品并没有得到好的结果,由于两个主要原因:(1)情绪词汇主要是基于英语,这迫使研究人员把英语词汇翻译到目标语言和(2)一个词可以有不同的感觉取决于所使用的领域,他们是。
关于机器学习的方法,作者使用分类算法如支持向量机(SVM) [7- - - - - -11),贝叶斯网络(BayesNet) [12),和决策树(J48) [10),等等。这种技术,两个数据集是必要的,一个训练集和评价集。训练集用于算法的学习特征域。与此同时,评价集是用于验证从训练集建立模型。机器学习技术的性能取决于所选择的特征提取方法的有效性。中最常用的方法是包的话(13],TF-IDF [14),克(unigrams三元,三元模型)11,15],基于词类特征[16),基于依赖关系的规则和特点(17]。
然而,最近的工作是基于深度学习技巧。例如,多斯桑托斯和•加蒂(18)提出了一个简短的文本情感分析方法。的方法是基于卷积神经网络应用于两个语料库,电影评论(斯坦福情绪Tree-bank)和Twitter消息(斯坦福Twitter情感语料库)。Araque et al。19]介绍了一种方法基于深度学习的情绪分类。作者用一个字嵌入模型和机器学习算法。评价该方法的性能,作者使用了六个全集公开Twitter和电影的评论。胡锦涛et al。(20.)提出了一个框架为情绪分析基于神经网络。这个框架由两个主要阶段。首先,特征向量是通过语言和领域知识。其次,深神经网络设计。同时,作者评估他们的方法在三个数据集(电子产品、电影评论、和酒店评论)。唐et al。21建立一个监督学习框架。作者结合情绪与表情符号的特点和特性,否定,标点符号,集群,克。然后,他们训练分类器通过使用2013年SemEval语料库提供一个基准。粗鲁的et al。22)提出了一个基于情感分析的方法。作者用卷积神经网络(CNN)的提取和情绪方面的分析。提议被评估在一些领域如餐馆、酒店、笔记本电脑、手机和照相机。Severyn和Moschitti4]介绍了深度学习模型,应用于2015年SemEval两个任务,即消息级别和Twitter的短语级情感分析。太阳et al。23)提出了一个对中国微博情感分析方法与神经网络模型。该方法提取的特征来获取语义和信息的单词。最后,三种模式,支持向量机,朴素贝叶斯和深层神经网络,选择来证明该方法的有效性。最后,云苓et al。24]介绍了情感分析的方法提取方面采用深度学习技术。此外,作者获得一组语言模式与神经网络结合起来。
另一方面,情感分析的方法主要集中在分析意见的博客,论坛,和旅游和销售网站。然而,最近在社交网络上出现了更多的特殊利益如Twitter因为很多信息从不同的主题可以提取分析。情绪分析研究最多的领域之一是电影,技术产品、旅游、和健康。最后,关于语言,其中大部分是基于英语和只有一个基于汉语。
下一节描述了deep-learning-based情绪分析方法提出了这项工作。更具体地说,本节描述我们的建议的体系结构以及其所有组件之间的关系。
3所示。方法
情感分类方法提出了工作分为三个主要模块:(1)预处理模块,(2)字嵌入的,和(3)CNN模型。图1显示系统的工作流。首先,文本的标记化和规范化。其次,word2vec用于获得特征向量。最后一步由卷积神经网络在训练分类tweet阳性或阴性。这些模块的详细描述在以下部分中提供。
3.1。预处理模块
第一步的方法包括预处理的tweet。Twitter是一个社交网络,用户使用非正式语言由于140个字符的限制。因此,有几个拼写错误等问题,俚语,缩写、字符和复制,其中,检测前必须解决的极性。图2提出了一个推特的这些问题。为了解决这个问题,我们采用的方法25微博处理)。
第一阶段的标记过程中由预处理模块。在这个过程中,文本分为令牌,可以文字或标点符号。执行这个过程,Twokenize (http://www.cs.cmu.edu/柜/ TweetNLP /)使用工具。这个工具是面向Twitter和允许识别物品的Twitter标签,提到和回答,和url。
第二阶段的这个模块在于文本的正常化。首先,物品被Twokenize移除,因为他们不为极性检测提供重要的信息。接下来,从微博描述每个项目。(1)提到和回复用户:这些物品是用@表示。(2)url:所有项目从http://(3)标签:在这种情况下,字符#只是删除由于其余的文本表示要分析一个重要组成部分。
例如,让我们考虑图中给出的tweet2:“Parece问绦虫razon @bufalo58 y tendre问cambiarme iPhone, xq el servicio tecnico de @SamsungChile没有va reparar mi celu # ChaoSamsung-It看起来像我和你是对的@bufalo58必须切换到iPhone,因为@SamsungChile技术服务不会修理我的手机# ChaoSamsung。“在这一步中,Twokenize检测两个提到和一个标签。然后,模块删除提到(“@bufalo58”和“@SamsumgChile”)和字符" # " " # ChaoSamsumg "(见框1)。
其次,标签(字符串包含一个或多个单词)分为基于大写字母。考虑上面提到的例子中,# ChaoSamsung分为两个词“潮”和“三星”。
第三,缩写和简写符号扩展。为了这个目标,我们使用NetLingo (http://www.netlingo.com)字典。例如,“什么”而不是“问”,“为什么”而不是“xq,”和“celular”而不是“celu。”最后,Hunspell (http://hunspell.github.io)字典用于正确的拼写错误。
3.2。字嵌入
在这种方法中,我们使用word2vec嵌入学习单词。这个工具实现了连续bag-of-words模型(CBOW)和skip-gram模型计算向量表示的单词(26]。字嵌入代表CNN架构的重要组成部分是因为它允许从微博获取句法和语义信息,这对情感分类是非常重要的。
3.3。CNN模型
我们使用一个深卷积神经网络分类的tweet积极和消极类。CNN(卷积神经网络)架构需要连接词文本的向量作为输入。关于这个模型的实现,Tensorflow (https://www.tensorflow.org)使用。
4所示。实验
4.1。数据
这种方法的主要目的是检测关于产品和服务的重要信息,允许公司和组织改善他们。因此,我们的方法需要一个语料库相关产品和服务。虽然在文献中已经提供了若干全集,缺乏语料为西班牙语。从这个意义上说,我们已经获得了来自Twitter的语料库在西班牙。收集这个语料库的过程描述如下。(1)微博收集使用Twitter4J (http://twitter4j.org/)图书馆。获得相关的微博,一组关键词相关技术产品定义。(2)重复的微博,转发,微博在其他语言中,和微博只包含url被移除。(3)我们一共获得了70000积极推和63000 - tweet。(4)最后,我们选择只有50000积极的推文和50000 - tweet,手动分析获得那些与我们的研究相关。这公开语料库是不可用的,因为根据Twitter的隐私政策不可能分享微博的内容。接下来,两个例子从语料库收集。图4显示了积极的推特“Una excelente caracteristica del iPhone 7 # JumboMobile @tiendasjumboco es苏雷西斯滕西亚半岛agua-An优秀功能的iPhone 7 # JumboMobile @tiendasjumboco是它的水阻力,”图5显示了一个示例-推”是quise dar entender es, n我salio好倪el搬运工倪el iPhone pq se rompieron洛dos-What我想说的是,充电器和iPhone都是不好的,因为两个断了。”
表1显示了我们的语料库的分布。可以看到,40000年的积极的和消极的推文被用来训练分类器和10000条积极和消极的被用来测试模型建立。
4.2。评估和结果
旨在衡量我们建议的方法的性能,我们使用众所周知的指标:精确,回忆,测量。精度(1)代表的比例预测真正的阳性阳性病例。另一方面,召回(2)是实际阳性病例的比例,正确预测。测量(3)是调和平均数的精度和召回27]。 同时,我们使用了宏精密(4),宏回忆(5),宏观测量(6)指标由于极性检测是一个多级的问题。 表2表明我们的方法获得了令人鼓舞的结果的精度为88.5%,88.8%的回忆,和一个测量的积极类88.7%,精度为88.8%,88.4%的回忆,和一个测量88.6%的负类。
4.3。与传统的学习方法
在这项工作中,不同的分类算法相比,相同的特征向量,即支持向量机,NB, CNN(见表3)。对于一个公平的比较,对每个算法没有使用默认参数进行额外的优化过程。这个分析是为了研究该方法的影响与卷积神经网络。算法进行评估与几个语料库的大小。每个子集被分成两个数据集:(1)80%的数据作为训练集,(2)20%的数据作为测试集。
我们可以看到在图6,传统的模型显示类似的结果。然而,支持向量机提供了更好的结果比NB的大小数据时增加。另一方面,结果还表明卷积神经网络获得更好的结果,传统模型(SVM和NB)的不同子集Twitter语料库。这些结果证实,深度学习技术优于传统的机器学习方法进行情感分析。
提到是很重要的,我们没有进行的比较我们的结果与报告相关的工作,因为缺乏深度学习的情感分析方法的西班牙语。
5。结论和未来的工作
在这项工作中,我们提出了一个微博情感分析的方法。这个方案的主要目标是提供基础了解客户满意度和识别改进的产品和服务的机会。提案是基于情绪的深度学习模型来构建分类器检测。我们的方法获得了令人鼓舞的结果,精确,回忆,和测量的88.7%。结果还表明,CNN优于传统模型,如支持向量机和NB。
作为未来的工作,我们正在考虑探索其他神经网络模型,如递归神经网络(RNTN)张量,递归神经网络(RNN),短期和长期记忆(LSTM)。同时,我们计划评估其他词在[嵌入特性21]。最后,我们考虑我们的方法应用到其他语言,如英语、法语和阿拉伯语。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作一直支持的西班牙经济和竞争力和欧盟委员会(菲德尔/ ERDF)通过项目KBS4FIA (tin2016 - 76323 r)。玛丽亚德尔皮拉尔Salas-Zarate和马里奥•安德烈斯Paredes-Valverde支持由国家科学技术委员会(CONACYT),公共教育秘书处(9月)和墨西哥政府。