文摘
神经网络基于一个字或词的嵌入是一个主流模型框架文本情感分析,取得了良好的效果。然而,有一个缺乏了解词类和Sequence-Tagging。在这个研究中,我们提出一个multifeature文本data-augmentation模型(M-DA),对于多变量网络结构来克服这个问题的中文文本情感分析。首先,本文按顺序获得各种序列的中文文本,包括词序列,pos序列,字符序列,char_pos序列,char_4tag序列中,我们使用char_pos和char_4tag构造一个新的序列(4 tag_pos),然后使用4 tag_pos标记字符获得重建的字符序列(char_4tag_pos),从而达到增强的目的文本。然后,Word2Vec方法用于训练的初始重建字符嵌入。最后,BiLSTM网络用于捕获序列之间的长期依赖,和辍学技术和注意用于提高准确性。在实验的过程中,我们也意识到,最好是使用原始的序列和序列在文本作为输入BiLSTM网络的增强技术。因此,我们提出的模型还讨论了连接或点方法融合多个序列作为最后的嵌入。多组实验数据集上进行了比较,结果表明,该M-DA模型优于传统的深度学习技术的准确性,召回率,f-measure,精度,相对时间成本很小。
1。介绍
自然语言处理(NLP)已成为人工智能领域的一个重要方向,促进语言的不断发展和突破的情报。文本情感分析中提取出文本中包含的观点和倾向与主观意识的特点(1,2]。这是一个重要的研究方向在自然语言处理领域,广泛应用于各种行业3]。互联网的不断发展,微博,乎,豆瓣,天涯论坛,京东,业内,Eleme,淘宝,等等,许多应用程序和在线评论平台继续增加。互联网已经深深影响了生活的各个方面,和互联网用户的数量已经达到了一个上限。在使用互联网来获取信息,个人也有助于创建的信息。演讲、声明和其他材料被共享,和在线信息爆炸。通过文本情感分析技术,用户的观点或情感倾向开采从大量的用户数据4]。消费者可以帮助自己做出购买决定根据其他用户的评论的情感倾向。
企业管理者可以了解市场需求通过用户评论的情感倾向,及时更新和改进的产品。基于用户的政府人员可以分析公众舆论意见在流行社交媒体事件,正确引导网民的情绪蔓延,有效控制事件的趋势发展,或为制定相关政策提供支持。因此,文本情感分析具有很高的研究价值。神经网络基于一个字或词的嵌入是一个主流模型框架文本情感分析,取得了良好的效果。然而,有一个缺乏的知识词类,Sequence-Tagging等。在本研究中,我们提出一个multifeature文本data-augmentation模型(M-DA),对于多变量网络结构来克服中文文本情感分析的问题。
剩下的纸是组织如下:部分1提供了相关工作,部分2提供了文本data-augmentation步骤和算法,部分3提供了语言预处理。基于multifeature BiLSTM模型文本data-augmentation节中描述4。实验分析和结果部分中解释5。结论中给出了年代。
2。相关工作
文本情感分析方法可以分为两类,基于情感词典和机器学习方法。基于情感词典的方法是先用现有的情绪词在字典里匹配句子中的词,然后计算出情绪词的句子来获取句子的综合情绪倾向。坎普斯等。5)使用WordNet字典进行情绪也能进行分析。Hiroshi Kanayama et al。6)提出了一种全自动字典扩展面向领域的情感分析方法。然而,这种方法不考虑之间的连接词在文本和缺乏语义信息,分类效果太依赖字典的质量。机器学习的成功应用文本情感分析有效地促进了文本情感分析的研究和开发。传统的机器学习方法需要人为标记训练集和人为设计功能,为情感特征提取,然后使用文本分类器的分类。常用的分类器包括朴素贝叶斯最大熵、支持向量机等。7,8]。由于分类器的性能,依赖手动标记训练集的数量和质量会导致过多的人为因素的影响和巨大的人体工程学。之后,基于深度学习方法出现,深度学习是机器学习的一个重要分支。
(递归神经网络的9)是一种流行的模式,大多数研究使用方法的基本模块。Zhang et al。10)使用分布式技术和RNN网络情绪分类词表示。连续的深度学习模型LSTM网络(11解决问题的梯度消失或梯度色散RNN网络(12]。BiLSTM [13)是由前后两个LSTMs相反方向来获取上下文特征。周et al。14执行中国情绪分析结合Word2Vec和堆叠Bi-LSTM模型。2017年,Google机器翻译团队完全放弃了网络结构,如RNN和CNN和只使用注意力机制(15)为机器翻译任务,取得了良好效果。陈德良et al。16提出全球和本地的注意机制,促进了NLP领域的应用引起模型。Kokkinos et al。17]提出self-attention和应用self-attention情感分析任务。研究添加关注机制的一部分筛选功能的递归神经网络。范et al。18]与self-attention Bi-LSTM模型形成SA-BiLSTM相结合的方法。长等。19)研究了中文文本的情感分析社交媒体结合BiLSTM网络与多线程机制(支配)的关注。结果表明,添加关注机制筛选功能可以有效地提高分类效果。
文本表示已成功应用于许多下游自然语言处理(NLP)任务作为输入功能,已直接影响深度学习模型的影响(20.]。1986年,Rumelhart et al。21)首次提出的分布式表示单词用于深神经语言模型。Bengio et al。22第一次使用神经网络建立语言模型。Mikolov et al。23]提出了Word2Vec [24)技术基于Log-Bilinear模型(25]2013年,推广的快速发展词向量。尽管成功和嵌入的流行词,大多数现有的方法使用每个单词为最小单位,忽略这个词的形态信息。当优化代价函数相关的罕见的单词和它们的上下文,罕见的词不能代表。为了解决这个问题,最近,Wieting et al。26]提出Charagram嵌入,单词或句子是由字符n元数向量。这是一个简单的方法来学习基于字符的组合模型嵌入文本序列。太阳et al。27)提出了构建更好的词表示的两个新模型建模外部环境和内部语素在一份联合预测方法,称为被看到。这两个模型也可以扩展到基于分布式形态学理论学习短语表示。丽et al。28)提出了一种新的替代词表示相结合的体系结构。框架的序列标签,使用字符级和句嵌入。Rezaeinia et al。29日表明改进的词向量(IWV)是情绪分析非常有效。拉希米等。30.]提出了两个新的无监督模式词极性信息和词同现融入更多的定制的情绪分析功能。词极性和共存的形式聚集在一起紧张和紧张分解生成字嵌入。与其他字母书写系统不同,中国的目标是三个不同的粒度水平的自由基,人物,和文字。Yu et al。31日)提出了一个联合的方法嵌入的中国单词和他们的角色和激进subcharacter组件和定量评估的质量评价和字类比任务模型嵌入学到的词相似。彭et al。32]受到咄咄逼人的分级嵌入[33)设计了两种融合机制合并三个粒度对中国情感分析任务,取得了良好的效果。此外,吴et al。34)提出对情绪分析使用字典嵌入和极性倒转。
一个汉字可以一个词或multisyllable词的一部分。然而,在上述方法中,用于表示文档的向量计算不考虑位置或词性的词组成。在这项工作中,我们提出一个multifeature文本data-augmentation模型(M-DA)。首先,本文按顺序获得各种序列的中文文本,包括文字序列(词)、词性序列(pos),字符序列(字符),字词性序列(char_pos),字符位置;序列(char_4tag),然后使用字符位置。词性序列构造一个新的序列(4 tag_pos),然后使用4 tag_pos标记字符获得重建的字符序列(char_4tag_pos),达到增强的目的文本。例如,在“十”分分为字符,“十”将标记为第一个字符B_m量词,“分”将标记为最后一个字符E_m量词。然后,Word2Vec方法用于训练的初始重建“嵌入”这个词。最后,BiLSTM网络用于捕获序列之间的长期依赖,和辍学技术和注意力机制被用来提高准确性。在实验的过程中,我们也意识到,最好是使用原始的序列和序列在文本作为输入BiLSTM网络的增强技术。因此,我们建议的模型还讨论了连接或点方法融合多个序列作为最终嵌入,让我们最后multifeature文本data-augmentation模型(M-DA)。
3所示。文本Data-Augmentation
文本Data-Augmentation也叫Data-Augmentation,这意味着有限的数据的价值相当于没有大幅增加更多的数据资料。数据增强技术在图像领域已经是标准配置,和数据增强是通过技术,如图像翻转、旋转、镜像、高斯白噪声。领域的NLP,魏et al。35]介绍了NLP数据增强技术,提出了EDA模型,表明data-augmentation可以防止过度拟合,提高模型的泛化能力。
本文认为,文本的知识词类和Sequence-Tagging通常是非常有用的,因此本文提出了使用位置和词性的字符序列在文本重构原始字符序列,实现数据增强的目的。之前获得的位置和词性序列(4 tag_pos)的一个词,它需要获得序列(这个词词)、词性序列(pos),字符序列(字符),字词性序列(char_pos),字符位置序列(char_4tag)。最后,使用4 tag_pos重建字符作为一种新的文本序列(char_4tag_pos)。
例:“这真的很好。早餐让我非常满意。“文本data-augmentation过程如表所示1。
文本的过程data-augmentation表所示1。首先,posseg方法jieba用于获得POS同时作为分词。然后分为字符的话,同样的,POS迭代一个接一个得到吗POS的字符(char_pos)。关于文本Sequence-Tagging,2标签模型过于简单化了,不能获得足够的信息;6个标签使模型复杂。好如果训练样本足够大,但训练集太小,通过获得准确的信息6个标签(36]。因此,本文运用4个标签标记。“B”代表的开始位置的词,“M”代表这个词的中间位置,”E′代表这个词的结束位置,和“S”代表一个字符。通过迭代话说,马克马克的人物一个接一个4个标签生成一个新的文本序列(char_4tag)。然后,char_pos和char_4tag合并和获取位置POS信息对应字符(4 tag_pos)。最后,我们使用4 tag_pos马克的角色得到重建的文本(Char_4tag_pos)。的position-POS向量对应字符总是按照字符,可以增强模型的语义逻辑。增强的依赖关系在文本图所示1。量词“十分”(非常)可以突出事物的主要形态特征。“B”标志着“十”字是这个词的开始,而“分”标记字符B属于这个词的部分和结束位置。
4所示。语言预处理
谷歌的开源工具Word2Vec将文本字符串转换成数值向量,计算单词之间的距离,和组相似的单词根据其含义。周围的CBOW模型使用单词预测中心词,使用中心词的预测结果,并使用梯度下降方法,不断调整向量周围的单词。培训完成后,每个词将被用作中央的话,和词向量的调整,这样周围的字词所有单词在整个文本的向量。
本文使用基于负采样CBOW模型构建上述七个序列向量。例如,重构文本向量化。给定的背景下重建的性格 , 需要预测。因此,对于一个给定的上下文(w),重建的角色是一个正样本和其他重建人物是负样本。假设一个负样本子集 关于上下文(w)已经选定, ,定义 代表这个词的标签 。正面的标签样品是1,负样本的标签是0。
对于一个给定的积极的样品(上下文(w), w),这个模型的优化目标是最大化后验概率的一个给定的文本。
在方程(1)- (3),代表向量之和的重建的字符上下文(w),代表了一个辅助向量对应词u,这是训练参数。
5。基于Multifeature文本Data-Augmentation BiLSTM模型
BiLSTM网络中的一个常用的神经网络文本的任务。本文结合该multifeature文本data-augmentation模型(M-DA) BiLSTM网络完成中国情感分析任务。对于M-DA-BiLSTM模型是一个多变量网络结构。模型的示意图如图2。
对于一个给定的文本句子,使用重构文本方法获取三种类型的文本,例如词,字符,Char_4tag_pos,并将三种类型的文本输入的Word2Vec模型训练和获取词向量 , ,和特征向量 , ,和重建特征向量 , ,在哪里 词汇量的大小(dict_len), 是向量维度(vec_dim),获得字典索引用于表示句子年代。有3表示的方法:
5.1。输入层
实例化3 Keras张量;形状的值都设置为128,这意味着将一维输入向量和128个元素在这个维度。
5.2。嵌入层
在本文中,我们使用pretrained Word2Vec模型嵌入。预处理的数据集提供了一个独特的和有意义的单词序列;每个词都有一个唯一的ID。嵌入层使用Word2Vec pretraining权重来初始化嵌入重量和引入外部语义信息,这通常是非常有用的模型。嵌入层的输入应该是一系列整数序列,和所有整数序列将被相应的列在相应的取代词向量矩阵,这是它词向量。例如,词向量表示句子年代如图3。
通过辍学层,改变权重的统一的学习模式和统一更新参数在前面的网络。在每个迭代训练,网络中的一些参数是习得的。
5.3。连接层
连接层的输入列表。需要一个张量作为输入列表,所有的形状都是一样的除了连接轴,然后返回一个张量连接所有输入。这个句子年代输出时t如图4。
5.4。BiLSTM层
这是一个转发LSTM和向后LSTM。内存单元LSTM忘记门控制的 ,记忆的门 ,临时的内存状态 ,当前内存状态 ,和输出门 ,他们计算了隐藏状态在最后一刻和当前输入 。看到方程(5)- (7)。在计算,第一个需要使用隐藏的状态,但它并不存在,现实中通常设置为0。
是权重矩阵,偏差向量, 是激活函数。
在时间 ,由LSTM是隐藏的状态输出 ,和向后LSTM是隐藏的状态输出 ;然后隐藏状态输出由BiLSTM合并LSTM向前和向后的输出,如图所示
5.5。注意
本文使用注意表达之间的相关性文本句子中的词和输出结果。首先,生成目标体重的关注 ,然后使用将softmax函数盖然论的关注体重来生成一个概率向量 。最后,生成的注意重量分配给相应的隐层的状态 。不同的权重应用于国家在每一个时刻,确保信息冗余的问题解决,同时保留有效信息。
5.6。致密层
参数是1,激活函数s形的函数。概率预测的输入吗属于类别1所示
在上面的方程中,是样本特征向量, 是真正的标签的样本,然后呢是一个可训练的参数。
模型使用对数损失函数来更新参数权重矩阵完成体验最小化,如所示
的总结函数是用来打印M-DA-BiLSTM模型,如图5。
6。实验
实验数据是一种常用的和公共数据集在这个领域,(37),中国购物评论文本和二进制数据集情绪标签,标签和∈[0,1],负面情绪在哪里0和积极情绪是1。数据评估对象包括多种类型,包括酒店、牛奶、书籍、和移动电话。实验数据集的划分如表所示2。
在实验部分,我们将讨论实验设置,评价指标,详细对比方法和结果分析。
6.1。实验设置
实验环境配置数据如表所示3。
参数设置将直接影响后续的分类效果模型。具体参数设置如表所示4。
6.2。评价指标
四个模型评价指标的准确性、精密召回,F1是常用的NLP模型评价标准。精度评估模型的正确分类的能力。精度越高,模型的分类能力越好。精度的准确性,和回忆是回忆的一个评估。F1是一种加权平均的精度和召回,是综合评价指标。值越大,越好模型,如方程所示(12)- (15)。
在上面的公式中,其具体含义如表所示5。TP是积极情绪标签的模型,它是积极的情绪。FP是积极情绪标签的模型,它是负的。TN是一种负面情绪标签的模型,这是一种消极的情绪。FN代表了负面情绪标签的模型,这是积极的。
6.3。比较的方法
实验采用深度学习主流网络BiLSTM和古典语言pretraining技术Word2Vec基线模型,并设置以下一系列的对比实验。(1)Word-BiLSTM [14]:主流方法BiLSTM网络用于情绪分析和模型使用Word2Vec技术培训词向量。(2)Word-BiLSTM-attention [15,18:与模型(1)相比,注意力机制有利于重要特征的选择。(3)Char-BiLSTM-attention [26,28]:人物,语言pretraining模型用于字符转换成向量表示,这也是一个受欢迎的方法。(4)Char_4tag_pos-BiLSTM-attention:重建的文本(Char_4tag_pos摘要作为输入。(5)(Char_4tag_pos:词)-BiLSTM-attention:它是一个网络结构,多个输入和一个输出。输入的是Char_4tag_pos向量和词向量,合并使用连接方法,然后输入BiLSTM网络。(6)(Char_4tag_pos点词)-BiLSTM-attention:与模型(5)相比,的结果Char_4tag_pos向量和词使用点向量方法输入BiLSTM网络。(7)(Char: 4 tag_pos:单词)-BiLSTM-attention:这是一个网络结构有三个输入和一个输出。的输入是字符,4 tag_pos,和词向量,然后连接方法用于三个合并,这样整个文本表示模型可以获得更多信息。(8)(Char_4tag_pos:词:Char) -BiLSTM-attention:与模型(7)相比,输入的Char_4tag_pos,字符,和词向量,然后连接方法用于合并的三个。观察到的Char_4tag_pos向量是比4 tag_pos向量。这个模型也最终模型(M-DA-BiLSTM)提出。
在这项工作中,我们提出一个BiLSTM模型(M-DA-BiLSTM)增强基于multifeature文本数据。此外,该模型使用辍学技术和注意力机制来提高精度。模型使用文本4个标签序列和pos序列重建字符生成一个新的序列(Char_4tag_pos)来实现字符的文本数据增强的目的。在这里,我们需要考虑以下三个情况。
第一个是文本数据是否增强方法提出有积极影响,当应用到实验数据集。所以我们设置实验组,每组1、2、3和4,发送Char_4tag_pos向量直接网络,比较它与主流模型使用词向量或字符向量作为输入。
第二是使用增强的文本数据序列的影响是否和原始序列作为输入比一个单一的输入。不同的融合方法之间的区别是什么?所以我们设置实验组,每组5和6,使用连接或点方法融合Char_4tag_pos向量和词向量作为输入。
第三,将更多的输入和功能产生何种影响的模型?不同的子元素影响模式?所以我们设置实验组,每组7和8所示,使用连接保险丝4 tag_pos,单词和字符比较和融合Char_4tag_pos,单词和字符。
6.4。结果分析
测试集,四个模型评价指标的准确性、精密,回忆,和f - 1是用来评估训练后的模型。结果如表所示6、单位(%)。
在表6,Word-BiLSTM模型是情感分析的主流模型(14]。在其基础上,Word-BiLSTM-attention模型使用注意力机制提出了(15)优化模型。中国字符级粒度,不同于英语。提出在[Char-BiLSTM-attention模型使用字符级矢量26)作为神经网络的输入BiLSTM。通过比较3组的受欢迎的模型,Char_4tag_pos-BiLSTM-attention模型分数91.13%和91.07%的两个综合指标的准确性和F1,优于对照组。实验验证使用重建的可行性和有效性词向量作为输入BiLSTM网络。
该模型在表7都是网络结构与多个输入和一个输出,这样模型可以获得更多的文本信息。前两组模型的双输入结构Char_4tag_pos和词向量。他们使用两种不同的方法来合并两种类型的向量。通过比较这两种不同的合并方法,我们可以知道连接方法是比91.53%点方法的准确性,点方法是比91.43%连接方法在F1。因此,图6显示所有比较模型的时间成本。横坐标(x设在)是时代的迭代训练模型时,纵坐标(y设在)是每次迭代的时间,以秒为单位(年代)。从图可以看出6模型1没有关注最小的时间成本,其次是单输入模型4,2和3,然后双输入模型5,和三个输入模型8日7。双输入模型的基础上点方法有最大的时间成本。综合分析表明,模型的分数5和6是相同的错误。然而,的时间成本点方法的三倍连接方法,所以连接方法更实用点方法。
与模型4相比,模型5和6比单结构的重建词向量误差,显示的双重输入Char_4tag_pos和词向量可以进一步优化模型。在此基础上,Char_4tag_pos由基本元素字符和4 tag_pos。所以,我们讨论了三种输入字符,4 tag_pos,词向量和使用合并方法连接,这是更便宜的。
通过比较模型与模型5和6、7我们可以知道这样的三个输入模型7达到分数的92.35%和92.25%两个综合指标的准确性和F1,结果更好。只是增加了20年代的平均时间/时期相比,5双输入模型,它比这更短的模型6。
模型8是最终的模型在本文提出。这是一个对于三个输入变量网络结构。模型得分92.35%,93.87%,和92.25%的精度,精度和f - 1。102年代平均培训模式需要/时代。与模型7相比,矢量被替换为重建的字符4 tag_pos向量作为输入项,合并连接方法可以用来进一步优化模型时间成本的前提下尽可能小。
图7显示分布的准确率(val_acc)和损失率的变化(val_loss) 8组比较模型的验证集。图7(a)使用箱线图显示val_acc值的分布在整个模型训练过程。横坐标是比较模型编号,同一意义的标签,如图6,纵坐标是val_acc值。最大的优点是,它不受异常值的影响,可以描述数据的离散分布相对稳定。从图74 (a),模型相比第一季度三组模型。在单输入模型中,重建词作为输入向量包含最高的价值。比较模型与第一个四组5和6,双输入模型的中值较高,和模型5包含最高的价值。模型8包含val_acc的最高价值和中值最高,集中值分布。
(一)
(b)
图7(b)使用线图显示val_loss在培训模式的变化。横坐标是当模型训练的迭代次数,纵坐标是损失率的预测模型验证设置在每一轮的训练。为模型损失率越小,更好。从视觉的角度在图中,模型1的损失率最高,6最大的波动模型,剩下的6组更集中。模型8第四迭代,达到最小值和曲线是光滑的。基于数据的分析7(一)和7(b),我们可以知道8具有快速收敛的特点,模型精度高,稳定。
图8计算模型的预测结果8组2221 TP等六个指标的测试样本,FP, TN, FN,正确的,错误的。输出结果是预测样本的概率是1。为方便统计,输出结果大于0.5分为1,剩下的都是0。在图8(a), TP代表正确的积极的样品数量预测的模型,和TN代表正确数量的负样本的预测模型。值越高越好。在图8(b), FP代表负样本的数量错误预测的模型,和FN代表阳性样本的数量错误的预测模型。值越低越好。在数据8(c)和8(d),对样品的数量,模型预测正确,错的是模型预测的样本数量不正确。即对= TP + TN,错= FP + FN。
(一)
(b)
(c)
(d)
从数据可以看出8(一)和8(b),在积极的样品,模型3性能更好;负样本,模型中的8表现更好。从综合指标对与错图8(c)和8(d),可以看出,模型8对整个样本执行更好。模型8也最终模型(M-DA-BiLSTM)提出。
总之,本文中使用的数据集,我们验证了提出M-DA-BiLSTM模型。在这里,我们考虑以下三种情况:
首先,我们设置实验组,每组1,2,3,4,发送Char_4tag_pos向量直接网络,比较它与主流模型使用词向量或字符向量作为输入。可以看出Char_4tag_pos向量在本文实验数据更合适,这表明文本数据增强方法提出有积极影响,当应用到实验数据集。
第二,基于实验的结果组1,2,3,4,我们设置实验组,每组5和6,使用连接或点保险丝Char_4tag_pos向量和这个词向量作为输入。的影响可以看出,使用文本data-enhanced序列和原始序列作为输入比单个输入,但两种融合方法的准确性是等价的,所以我们有时间成本进行了分析,结果表明,该连接方法的时间成本很小。
第三,基于实验的结果组织5和6,我们建立了实验7和8组,使用连接保险丝4 tag_pos,单词,和字符,并比较和保险丝Char_4tag_pos,单词和字符。可以看出,三个输入比两个输入,和Char_4tag_pos更适合作为子元素。然而,三个输入的时间成本是双输入的近两倍。因此,训练模型输入和更多的功能要求越来越高的实验硬件和软件配置。
7所示。结论
在这项工作中,我们提出了一个multifeature文本data-augmentation模型(M-DA)。首先,这项工作按顺序收集一些中国文字序列,包括单词、pos, char, char pos, char 4标签(我们使用),和char pos产生一个新的文本序列(4标记pos)。实现文本的目标增强,利用4标签pos标记字符并得到重建的字符序列(char 4标记pos)。然后,Word2Vec方法用于训练的初始重建字符嵌入。最后,BiLSTM网络用于捕获序列之间的长期依赖,和辍学技术和注意用于提高准确性。在实验的过程中,我们意识到,最好是使用原始的序列和序列在文本作为输入BiLSTM网络的增强技术。因此,该模型连接或点方法的比较实验结果和选择使用连接。融合多个序列作为最终嵌入的方法,从而进一步提高文本分类的准确性。本文着重于二进制极性检测能情绪分析语句。在未来,我们建议调查的有效性提出了其他情绪分析任务M-DA-BiLSTM(如方面水平或多个情绪分析)。
数据可用性
使用的数据来支持本研究的结果都包含在这篇文章。
的利益冲突
作者宣称没有利益冲突。