文摘

人工注释的情绪词汇成本太多的劳动力和时间,也很难获得准确的量化的情感强度。此外,过度强调一个特定的领域大大限制的适用性领域情感词典(王et al ., 2010)。本文通过神经网络实现了大规模汉语语料库统计培训语言模型,提出了一个自动的方法构建一个多维情绪词典基于约束坐标偏移量。为了区分这些言语可表达的情感极性或正面或负面的含义在不同的上下文中,我们进一步提出了情绪消歧算法来增加我们的词汇的灵活性。最后,我们提出一个全局优化的框架,提供了一种统一的方式结合几个human-annotated资源学习词典SentiRuc十维情绪。实验表明SentiRuc词典性能优越的类别标签测试,强度标签测试,和情绪分类任务。值得一提的是,在强度标签测试,SentiRuc优于第二名21%。

1。介绍

意见挖掘和文本情感分析的在线已经成为近年来一个热门的研究领域,包括意见汇总和情绪分类。大多数这些任务将受益于一个高质量的情感词典提供优秀的情绪功能在没有训练数据是可用的。

情绪词汇的主要形式是二进制注释与积极的和消极的标签,如Sentiwordnet由意大利信息技术研究所(1,2),中国一般情绪词汇(NTUSD) [3由台湾大学)注释,从中国科学院中国情感词典,和英语Xsimilarity。多个情绪词汇作业强度的情绪也构造,如大连理工大学的情感词汇本体(DUT本体)4]。确定强度的情绪,也能进行手动方法,监督方法使用WordNet或其他语义资源,监督和管理方法,提出了基于大规模语料库。但很少工作评估的准确性和优化强度注释通过引入所有可能的语言启发法。

近年来,由不同的任务在不同领域,两极性词及其相关目标包括项目作为一种情绪。然而,应用领域等维数组词汇〈极性词,目标〉严格限制在一个特定的领域,而且这样的词汇很容易爆炸的大小与训练数据的增长,导致稀疏特性的问题。大规模在线文本领域情感词典的局限性日益明显,特别是在情绪分类任务在不同地区不同。因此,一位将军和适应性强的词汇对情绪分析很重要,以避免这个问题。

提出了一种自动构造方法和优化的multisentiment词汇通过大规模在线语料库的统计分析。本文的主要内容如下。首先,我们使用神经网络语言模型获取的分布式表示单词从大规模在线语料库(搜狗新闻语料库,3.17 GB) [5]。其次,我们研究情绪的分类和为每个类别选择种子词。之后,极性词选择和极性词和种子词之间的语义距离计算的分布式表示。距离值然后转化成情绪强度通过适当的约束。最后,我们评估词典结合语言启发式优化框架。此外,我们研究情绪倾向消歧方法提高词汇的语义描述能力。

本文的其余部分组织如下。节2,我们介绍一些相关的工作。的原则自动SentiRuc建设提出了部分3。部分4介绍了一种统一的优化框架。实验和评估报告5。我们在部分总结本文6未来的研究。

许多中国人情绪词汇,如NTUSD、知网,和DUT情感词汇本体,手工注释确保词汇的覆盖率和有效性。但是手工方法通常成本太多的劳动力和时间,也往往是主观的;报道也是一个问题。提供更多的粒度,有必要引入统计语言模型自动注释情绪类别和强度。

标签的情绪,我们应该首先研究情绪分类。早在1957年,奥斯古德分布式人类情感三个方面:强和弱,好的和坏的,主动和被动6]。2012年,刘等人提出了DUT情感词汇本体包含7情绪:快乐、喜欢、愤怒、悲伤、仇恨、恐惧、和惊喜5]。QuanChangqin Ren-CECps构造与8种情绪:期望,快乐,爱情,令人惊讶的是,焦虑、悲伤,生气,讨厌7]。但现有的情感分类是不对称的。例如,没有相反的情感“意外”或“恐惧”,会造成不便在特征提取和选择监督的情感分析方法。此外,情感类别之间存在耦合,如“赞美”和“。“因此,情绪分类需要根据计算语言学和心理学研究。

除了定性标签,情绪强度需要注释的定量。很多现有的词汇都手工注释,包括WordNet [8],一般询问者[9),和知网10]。为了避免手工工作的低效率和主体性,引导方法已经广泛使用。通常认为几个种子词的极性和采用不同的启发式提供传播策略来推断句话说的不为人知的情感极性。他给知网的条目在Google搜索和选择种子词根据搜索结果的数量11]。李等人介绍了网页级别确定词的极性(12]。每个词作为一个节点在一个图表,和知网是用来计算种子词和候选词之间的语义相似度作为边的权值。这些监督方法的性能依赖于有限或第三方工具或数据的准确性。一个可能的解决这个问题的方法是使用来自其他主体之一的无监督方法获得情绪强度或语义资源。多库酯钠等。13]构造条件的混合图提取像映〈方面,评价〉评论文本,每一项的强度是根据领域知识推断在混合图。Mukkamala et al。14)定义的表达情感的模糊集4个元素〈话题,关键字,对象,〉的倾向。每2集的关系强度是决定通过一个基于集合理论和模糊逻辑的隶属函数。特尼和利特曼15)提出一个基于情感词语的语义分类方法。他第一次提取形容词或副词短语根据几个模板定义和计算单词和短语之间的互信息来确定情绪词的趋势和强度。这些无监督方法提供了很多经验和帮助我们,但仍有许多选择的准确性的依赖,识别和提取各种关系的人气商品。

因此,重要的是要优化情绪词典条目和强度标签的集合。陈等人。16]构造极平方误差函数决定两个条目是否有相同的情绪倾向和现在迭代扩展方法。特尼和利特曼15]试图合理化分配强度通过比较和种子词的同现参数条目。王等人。17和乔和哦18)均将倾向注释作为情绪分类任务的副产品而未能评估注释的质量。一些学者试图同义或反义的关系引入到评价框架优化强度标签(19,20.]。与我们的工作相比,提到工作的优化框架相当简单,未能考虑multisentiment的话,这可能会在各种情况下表达不同的倾向。

考虑上面的点,本文提出了一种无监督模型的自动构建multisentiment词典基于" WLI神经网络语言模型(21)和一个全局优化框架。本文的主要贡献如下:(1)我们提出一个新的人类情感的分类,使语言特征更适合计算分析。(2)我们定义转换约束集的距离和情绪强度和现在的一个自动建筑模型基于" WLI语言模型。(3)提出了一种全局优化框架基于几个手动标注语义资源,提高我们的词汇SentiRuc语义描述。

3所示。自动SentiRuc建设

在本节中,我们提出了“10 5双极性分类的人类情感和自动注释multisentiment词典SentiRuc通过定义转换约束集的距离和情绪强度。我们也调查多个情感词的情感消歧。

我们集成NTUSD字典的条目,知网词典,和DUT本体SentiRuc词典的条目,其中包含14250情感词。

3.1。" WLI语言模型和人类情感的分类

传统的二进制情绪标签已逐渐无法满足情感分析任务的发展。多种情绪标签的主要工作是人类情感的分类。部分2讨论了相关的成就和存在的问题。本文以实现心理学、语言学理论,考虑和计算特征和人类情感分类到10类:快乐悲伤,like-hate, believable-unexpected gratitude-angry, complementary-critical。每组包含两个极性相反的情绪。我们的目标是每个情绪词注释与十维情绪向量W生梯(W),以及每个维度的值代表相应的情绪倾向的强度。在接下来的研究中,十个字直接作为种子词。

词包含非常丰富的含义,统计语言模型是用于提取语义特征。给定一个语料库,神经网络语言模型可能词汇映射到一个高维连续空间。Word2Vec基于深度学习的工具,谷歌发布了2013年,采用两种主要语言模型:连续袋字模型和连续skip-gram模型(22]。Mikolov等人还发现,表示有很好的线性语义特征(23),因此,在2015年," WLI神经网络语言模型提出了降低模型复杂度(21]。我们积累的抵消相应的维度两个单词表示它们之间的语义距离线性和进一步研究如何协调抵消可能影响词相似。在本文中,我们使用搜狗新闻语料库作为训练集,它包含大约110万个不同的字。

3.2。文字的距离转换成词的相似之处

所有单词表示位于一个高维向量空间,我们确定一个条目的极性和强度计算条目之间的距离和种子。然而,有许多词汇可以表达,例如,幸福。,很难选择一个作为唯一的“快乐的种子。”这里,减少主观性造成的偏差,我们使用坐标偏移列出50个词表示最近的邻居的“快乐”,然后手动选择几个词作为种子组”快乐。“例如,我们收集所有距离“苦乐参半”和“快乐”种子和之间的平均距离作为距离”苦乐参半”和“幸福”的情感。任何单词W,我们可以获得一个十维距离矢量Dis (W)和Dis (W)的每个维度,分别代表了W和快乐之间的距离,像,可信,感恩,免费,悲伤,恨,出乎意料,愤怒,和关键

先前的研究指出,一般来说,一个词主要是只包含一个或两个情绪(5),所以我们保留至少一个或两个距离Dis (W)的有效距离。更大的距离将被遗弃,这意味着这些情绪较低的相似之处将被消除。如果阈值 被分配为3.00“苦乐参半,“只有2距离在Dis (W), 1.13和1.34悲伤,快乐将被保留,因为没有达到2距离之和 。可以解释为“幸福”和“悲伤”中包含的主要情绪“苦乐参半。“只有这两个距离保留,用于后续工作,只保留这两个距离,作为“有效距离”的后续工作。

文献[23]指出线性坐标偏移量直接相关的词词表示形式之间的语义相似性。因此,我们可以标注词W W之间的极性强度根据坐标偏移量和种子词词表示的向量空间。考虑可能有一个以上的有效距离在Dis (W),有必要研究不同分布的距离如何影响单词的相似之处。解决这个问题将距离向量Dis (W)转换为情绪向量生梯(W),我们定义3转换约束。

约束1(约束)多样性。每个维度的生梯(W)是表示生梯(W) [ )( 是一个整数,从1到10),每个情绪类别的指示词W的强度。生梯(W) [ )应负相关有效距离计数的计数(Dis (W)),因为它是观察到单词更有效距离通常谎言远离每一个情绪类别,可以被解释成“心烦意乱”的情绪强度不同的极性。例如,“愤怒”只是1.92“愤怒”的范畴,而“不公平”距“愤怒”3.38和5.05远离“至关重要的”。

约束2(自我约束)。每个维度的Dis (W)是表示说(W) [ )( 是一个整数,从1到10),指示词W和每一个情绪的范畴之间的距离。某种情绪的强度有关,(W) [ )应当与相应的距离说负相关(W) [ ]。事实是,在字(词)表示,较小的距离表示更多的语义或务实的相似之处。

约束3(全球对比约束)。某种情绪的强度有关,(W) [ )应当与Dis的比率负相关(W) [ ),平均有效距离Avg (Dis (W))。的语言,人类的习惯导致单词频率差别很大,搭配的话还将单词分为各种集群。这些都影响量化词表示。例如,“享受”的有效距离向量(2.09,1.11,0,0,0,0,0,0,0,0)和“魔法”(5.26,3.87,0,0,0,0,0,0,0,0),全球之下约束是用来消除这种差异。

从转换约束集的生成公式我们可以得出W的情绪向量生梯(W)如下:

生梯(W) [ )表示词W的每个情绪强度的范畴。这个公式包含三个因素:多样性的因素约束不同,自我约束自我的因素,和全球对比的因素约束的对比。这些因素可以分别表示如下:

在公式(3),(4)和(5),计数(Dis (W))代表了计算有效的距离和Avg (Dis (W))是有效的距离的平均值。根据约束条件1、2和3,积极或消极的相关性已经说明了公式的分母和分子(3),(4)和(5)。 , , 是常数。在实验部分5中,我们将介绍的作业 , , 。3个参数 , , ,分别确定每个约束的影响。最优参数可以通过优化框架(培训部分4)。

最后,每一个情绪词W,我们在情绪词汇注释它与十维向量生梯(W)。每个维度的价值是W和这种情绪之间的相似性,即W这种情绪的强度。

3.3。基于词分布密度的情绪倾向消歧

3我们介绍了一个自动的方法来确定一个词的极性和强度。但是有些词表达不同的情绪在不同语境下的极性。是不适当的注释这样的话只有一个情绪向量,本节我们调查情绪消歧。陈等人。24)指出,“情绪消歧不同于词义消歧”,因为一般情绪词典,一个词的情感倾向与它的意义不是直接相关。

我们使用一个混合的方法筛选multisentiment的话从我们的词典的词汇。到目前为止还没有有效的方法自动选择multisentiment的话。我们试图提取单词出现在不同的同义词集的“打击Tongyicicilin”和“学生的同义词词典”和以这句话为候选集 multisentiment单词。然而, 显示了良好的精度,而且糟糕的回忆。例如,“幼稚”可以传达正面和负面的感觉而不是在候选集。我们终于决定手动选择multisentiment文字从“打Tongyicicilin”和“学生的同义词词典”,把这些话当成multisentiment词集 其中包括148个条目。

然后,113694句包含单词 选择从搜狗新闻语料库,这些词的情感倾向与一个积极的还是消极的标签注释。16在上下文窗口大小,每个上下文提取词的分布密度,作为支持向量机分类器的特征。一个上下文词的分布密度可以通过连续波

计数(CWpositive)表示上下文词连续波在所有句子,有积极的W . Count (CWnegative)是连续波数的所有句子都有负W . Count (CW)的总数是连续波出现在所有的句子,W。

消歧趋势后,multisentiment词W是分割,分割为两个独立的情况下 。这个词表示将再次培训,和的情绪向量 可以通过公式(2)。

4所示。全局优化框架

部分3提出了一个转换约束集,我们的词典SentiRuc初步被生成。本节建立一种统一的评价函数来研究各种约束的影响。我们收集的数据从Tongyicicilin,同义词词典对于学生,为学生反义词词典,NLPCC 2013竞争和NLPCC 2014数据集的竞争。这些数据集都是手动构建资源,因此可以被认为是黄金标准。误差函数是用来评估SentiRuc和那些黄金标准之间的偏差,我们的目标是找到一组参数,减少偏差。

4.1。同义关系

如果 注释是一对同义词Tongyicicilin或同义词词典的学生,我们可以推断出他们的情绪极性和强度往往是相似的。形式化的直觉,我们积累的情绪强度偏差 在SentiRuc相应的尺寸。误差函数如下所示:

生梯(W) [ )表示词W的每个情绪强度的范畴。在公式(7), 是同义词,对吗 , 是同义词的数对。 代表情绪强度的平均偏差 在相应的维度,当 既在SentiRuc和同义词资源。 随参数 , 在公式(3),(4)和(5)。

4.2。反义的关系

如果 注释是一对反义词的反义词词典对于学生,我们可以推断他们应当有极性相反的情绪,在强度往往是相似的。按照这个直觉,我们积累的情绪强度偏差 在SentiRuc相反的维度。显示了误差函数如公式(8)

生梯(W) [ )表示词W的每个情绪强度的范畴。在公式(8), 标有反义词(对吗 , 是相反的情感情绪的指标向量的 是反义词的数对。 代表情绪强度的平均偏差 在相反的方面,当 既在SentiRuc和反义词资源。 随参数 , , 在公式(3),(4)和(5)。

4.3。情绪评级在句子层面

如果SentiRuc能够贡献更多的注释相关任务,情绪分类结果使用SentiRuc应当比使用其他词汇接近人类的判断。我们选择6000句NLPCC 2013竞争和NLPCC 2014数据集的竞争和标签的句子“主要情绪”和一个可选的“subsentiment”,都是参与SentiRuc 10情绪类别。对于一个特定的参数公式(3),(4)和(5),我们生成一个单独的注释SentiRuc的情绪分类的任务。能误差函数语句是由Jaccard相似的分类结果和标记结果,表示如下: 每个样品的标识符。 是句子中包含的数据集的数量。标签( )代表一个句子和句子的标记情绪向量( 使用SentiRuc)是机密情绪向量。 显示了平均每个句子Jaccard相似的标记结果和分类的结果。 随参数 , ,

4.4。全球误差函数

结合以上三种评价方法得到全局优化框架基于手动构建资源,如图1

全球误差函数

全球的错误 随参数 , , 在公式(3),(4)和(5)。通过最小化 我们可以找到最优参数集

5。实验

我们第一次评估SentiRuc的生成过程,然后验证SentiRuc的可用性。评估的合理性产生过程,我们设计参数优化实验证明约束集的合理性(部分5.1)和验证情绪倾向消歧方法的有效性(部分5.2)。测试SentiRuc的可用性,我们比较SentiRuc的定性和定量注释与其他词汇(部分5.3),研究不同情绪的词汇分类任务的性能(部分5.4)。NTUSD台湾大学的词汇,知网情绪词汇,和DUT本体都参与了实验。

在所有的实验中,阈值距离值 分配和Avg (Dis (W)),因此只有一个或两种情绪仍将为每一个词。的参数 在公式(3)被设置为10,代表情绪类别的数量。 设置为8,这意味着情绪类别的数量减去最大剩余的情绪( )。 设置为3.38,代表每两个词之间的平均坐标偏移量包含在SentiRuc。维度的数量是60词表示。或多或少的尺寸会增加强度的值误差函数注释结果。

搜狗新闻语料库(3.17 GB)用作训练文本集。分割后ICTCLAS 5.0由中国科学院这个语料库包含约08.3亿字,词汇量的大小是1104914。我们没有其他任何预处理的数据,因此可以确保每一个语法示例是一个真正的中国单词序列,也表示这个词可以显示每个单词的实际语义分布。

5.1。评估产生约束集

部分3介绍了如何自动注释multisentiment词典SentiRuc通过定义距离和情绪强度的转换约束集。部分4提出了一种全局优化框架来优化参数。我们第一组α,β,γ1作为基线实验。如果一个参数设置为零,它可以被视为如果将忽略此参数。我们进行一些对比实验,每个实验参数是退出。的实验结果 与参数如表所示1

可以看出,删除约束将增加全球的错误,这表明所有在计算SentiRuc强度约束是有用的。当β被删除, 增加最多,这表明自我约束贡献最多。这意味着某种情绪的强度与相应的距离显著负相关,这证明了我们的方法是基于词的理性表示。然后我们试图通过variable-controlling方法找到最优参数集。如下面三行所示,全球误差进一步下降,最优参数组是列在底线。

5.2。评价倾向消歧

部分3.3介绍了如何选择148 multisentiment字。从搜狗新闻语料库我们收集的句子包含这些multisentiment文字和标签multisentiment词W与“1”W表示积极的趋势和“2”如果W包含消极的倾向。结果,确保优秀的标签,八名中国母语参与注释工作。每一个研究由大约5万个句子,每个句子独立注释的注释4研究人员。句子中如果有冲突的标签的结果,我们通过小组讨论最终结果。总的来说,113694句与积极的标签或负面标签注释。

根据标记结果,倾向基于词的消歧算法分布密度,这是介绍部分3.3,用于实验。十倍交叉验证的实验结果如表所示2

整个消歧113694句中的所有148个单词的准确性达到95.52%。条目“追随者”和“唯唯诺诺的人”获得最低的准确性,主要是由于有限的训练数据发生较低造成的。一般来说,这个实验结果表明,我们的消歧算法能有效区分不同倾向的一个字。

5.3。对注释的Sentiruc质量的评价

SentiRuc的情绪极性和强度都是来自一个中国GB级别的语料库;因此,其语义描述应该比手动构建词汇语义分布更接近实际。我们试图评估一些现有词汇的注释质量通过分析他们的情绪类别一致性(定性评价)和情绪强度的一致性(定量评价)。情绪类别一致性检查相似的同义词或反义词)趋势在SentiRuc注释。情绪强度的一致性指的是相似的同义词或反义词)强度在SentiRuc注释。

Tongyicicilin和同义词词典对于学生包含55265个同义词,我们选择2500个同义词作为测试数据集 。1774年反义词反义词词典对于学生作为测试数据集 。不包括在Multisentiment单词 。强度的一致性 和强度的一致性 可以表示为

生梯(W) [ )( 是一个整数范围从1到5)表示词每个积极情绪类别的W的强度。 代表相应的统计维度具有非零值注释。

同义词的评价结果是在桌子上3和反义词表所示4

34表明,SentiRuc注释同义词和反义词的趋势都是接近手动标记资源比其他情绪词汇。条件是每个单词的独立情绪强度计算,同义词和反义词的一致性强度SentiRuc达到92%和91%。这个分数是20百分点高于手工注释DUT的本体强度,远远超过预期。结果证明的有效性将约束集和公式(2),也表明SentiRuc具有更好的语义叙述。

5.4。SentiRuc评估情感分析任务

这个实验研究使用不同的词汇情感分析任务的性能。3100句选自NLPCC 2013竞争和NLPCC 2014竞争和3700句包含一个148 multisentiment单词选择新浪微博。所有6800个句子都贴有“主要情绪”和一个可选的“subsentiment”标签。我们定义2克词性(2-POS)和3-gram词性(3-POS)为每个标签样本和提取情绪倾向借助SentiRuc特性。支持向量机用于多元分类实验。与人类注释结果相比,多元分类的准确性达到62.0%。

为了方便不同词汇的比较,我们也进行二进制分类实验(积极或消极)。每个6800句的标签是“积极的”或“消极的”标签由四个中国的母语。其他3200目标句子没有感情也贴上“中性”并添加在测试数据集。对于每个句子,我们提取2-POS 3-POS特性和识别情绪特征SentiRuc的帮助。我们使用支持向量机分类器实现十倍交叉验证。此外,我们也调查的性能前后SentiRuc消歧的倾向。可以评估的结果

Result_Correct句子的数量是正确地贴上“正面”(或“负面”)。Result_Proposed是句子的数量贴上“积极的”(或“负面”)的支持向量机模型。Result_Labeled是句子的数量手动贴上“正面”(或“负面”)。结果如表所示5

5表明,F措施的积极的和消极的分类使用SentiRuc显然高于使用其他词汇。6800年所有主观的句子,句子包含multisentiment单词占54.4%,这么高的比例之前和之后的消歧结果明显不同。如此高的比例也带来了对整体的影响F测量一般域文本,分别为0.726和0.627。实际上,不含任何的6300句multisentiment词,F衡量积极的文本和消极的文本,分别为0.817和0.742。

6。结论

本文提出了一种自动框架建设和全局优化SentiRuc multisentiment词典。主要工作包括人类情感的分类,基于" WLI语言模型,自动构建模型全局优化框架基于几个手动标注语义资源,和消歧multisentiment的话。实验部分5表明SentiRuc执行通用的数据集。特别是在强度标签测试中,SentiRuc优于第二名21%,证明了统计语言模型性能出色的语义表示情绪。我们的词典是现在网上(https://pan.baidu.com/s/1jHAInlG)。

很难直接比较现有词汇由于各种情绪分类。我们将调查多级情绪分类任务的合适的评价方法。

虽然部分5表明词表示的出色表现情绪词汇的建筑、词的独特特性表示仍将问题文本挖掘任务。首先,统计语言模型很多取决于内在的语义和语法外的通信;因此,它具有重要意义的研究如何理解和区分“类似”字,“相关”的话,他们的协会与词表示的生成模型。其次,类似“向量只有不同多在几个特定的维度,进一步研究这种特性是必要的。我们将研究加权统计语言模型,研究各种矢量操作引入的可行性和影响语义距离的估计。

相互竞争的利益

作者宣称没有利益冲突。

确认

这项研究受到了美国国家科学基金会中国年轻科学家在拨款61601371,中国的国家自然科学基金资助71271209,北京市自然科学基金资助下4132052,和人性和社会科学青年的基础下的中国教育部授予11 yjc630268。