深度学习结构跨域情绪分类基于改进交叉熵和体重

文摘

在情绪分类字段,卷积神经网络(CNN)和长期短期记忆(LSTM)因其分类和预测性能,但其准确性,损失率,时间并不理想。这个目的,深度学习结构结合改进的交叉熵和体重词提出了解决跨域情绪分类,其重点是实现更好的文本情感分类通过优化和改进递归神经网络(RNN)和CNN。首先,我们使用铰链损失函数的概念(铰链损失)和三联体损失函数(三合损失)改善交叉熵的损失。改进的交叉熵损失函数结合CNN模型和LSTM网络测试在两个分类的问题。然后,LSTM binary-optimize (LSTM-BO)模型和CNN binary-optimize (CNN-BO)模型提出了更有效的拟合预测错误和防止过度拟合。最后,考虑处理文本的特征的递归神经网络,输入单词的影响最终的分类分析,可以获得每个单词分类结果的重要性。实验结果表明,在相同的时间内,该weight-recurrent神经网络(W-RNN)模型有更高的重量与强情感倾向于减少情感信息的损失,提高分类的准确性。

1。介绍

分析文本的情感倾向,作为一个重要的研究焦点在互联网舆论的分析,主要用来分析和处理主观信息,如态度、情感、观点,和趋势,在文本。情绪分析首次提出了彭日成et al。1]影评的积极或消极的分类和特尼2)汽车的积极或消极的分类和电影在2002年。后续研究情绪分析已经广泛开展酒店、餐馆、产品评论、微博推特和其他领域。额外的发展包括积极或消极的偏振分类方法(3),五分类包括评级(4],和8个分类包括特定的情绪[5]。

传统情感分析算法大多是基于机器学习浅,如最大熵模型(6),条件随机场(7),支持向量机(8),等等。与人工智能技术的日益普及,数据驱动的模型已逐渐成为一个关注情绪分析模型的研究。

深入学习算法已经广泛应用于演讲、形象,自然语言处理与他们强烈的特征提取和优秀的信息表达功能和取得更好的结果比传统的模型。1988年,Rumelhart提出了反向传播神经网络(摘要)6),这是一个多层前馈神经网络(FNN),利用误差反向传播算法来调整权重。它是使用最广泛的神经网络模型。勒存et al。9)使用各种深层神经网络训练语言模型在大规模语料库水平和基于深层神经网络构造了一个概率语言模型,解决常见的自然语言处理任务分类和词性标注等情绪。陈等人提出了一个深刻的学习方法学习潜在的复杂和不规则的概率分布,它可以准确地估计累积分布函数的值(CDF)和概率密度函数(PDF) (10]。

在情感分析任务,深入学习算法也被广泛使用。与此同时,一些人利用卷积网络解决问题和自然语言处理领域取得了良好的结果在语义分析等任务,查询检索和文本分类。由于文本序列数据,单词之间有密切的关系和人物。2006年,辛顿(11)提出了一种提取特征的方法最大限度地、高效学习,在深入学习研究已成为热点。由于性能优良的深度学习在许多领域,许多研究人员已经开始对文本情感分析使用深度学习。由于长期依赖的循环神经网络在处理长文本任务和时间与文本信息,使用LSTM [12,13用于文本情感分类的)。肯尼迪和Inkpen [14)被认为是极性转移关系的单词在文本并确定词的情感倾向基于种子词集的计数。金正日相比多个深度学习模型在多个数据集,发现CNN的实验结果优于其他方法的15]。唐(16)认为情绪的用户信息和产品信息的重要性分类,结合词向量,用户向量,向量和产品在输入层,然后用CNN造型和softmax分类;结果高于基准体系的句子和短语级别。

预测值和真实值之间的差异模型的评价通常是通过损失函数,通常倾向于分类或回归算法的目标函数(17]。损失函数越小,其模型可以反映真实的数据(18]。实际和预期的输出之间的亲密关系是由交叉熵,它本质上是一个衡量两个规范之间的差异(19]。交叉熵通常是机器学习的最终损失函数或深度学习20.]。预测分布越接近真实分布,值越小。交叉熵的广泛应用,在2020年,崔et al。21)应用一个新的损失函数优化端到端网络第一次组成的二进制交叉熵和骰子系数;可以实现最佳的性能指标,从而验证了该模型的有效性。

深度学习方法已经成功地应用于跨域情绪挖掘任务表示学习和高效的分类能力。赵et al。22)提出了一个两级双向LSTM (Bi-LSTM)和参数传输框架短跨域情绪分类任务。2019年,戴伊et al。23]探索三步方法,不同的平衡训练,文本预处理和机器学习方法进行了测试,使用两种语言:英语和意大利语。在[24],cross-domain-labeled网络资源(亚马逊和Tripadvisor)是用来训练监督学习模型(包括两个深度学习算法)检测通常无标号的社交媒体评论(Facebook和Twitter),在Facebook上的火车模型测试数据对英语和意大利语。重量计算,戴伊et al。25]- gram的情绪得分计算通过使用个人情绪得分unigrams和预先计算的值的含硼铁合金和否定上。这些分数乘以相应的feature-importance价值生成的最终得分发送功能的审查。

在深入学习网络模型中,CNN已经取得了巨大成就,在图像处理领域的卷积和池结构可以很好地提取图像信息。因此,RNN被广泛使用作为处理序列数据的神经网络领域的文本分析。因为它的记忆功能,最好是在处理sequence-changing数据,其中,LSTM复发性神经网络解决问题的梯度和梯度爆炸消失复发性网络,这使得长时间序列数据的分析和建模成功。本研究着重于CNN RNN的优化和改进,达到更好的文本情感分类。根据每个深层神经网络的特点和不足,提出了以下三个文本情感分类模型。

基于CNN模型和LSTM网络,三联体的铰链损失和损失的思想用于改善中使用的交叉熵损失两个分类的问题。的LSTM binary-optimize (LSTM-BO)模型和CNN binary-optimize (CNN-BO)模型提出了更有效的拟合预测错误和防止过度拟合。

考虑处理文本的特征的递归神经网络,输入单词的影响最终的分类分析,可以获得每个单词与分类结果的重要性。拟议中的weight-recurrent神经网络(W-RNN)模型有更高的重量与强情感倾向于减少情感信息的损失,提高分类的准确性。

剩下的纸是组织如下。部分2是关于跨域情绪的深度学习结构分类。部分3阐述了我们的数值例子。结果和讨论部分中介绍4,部分5是我们研究工作的总结。

2。深度学习结构跨域情绪分类

2.1。改进LSTM-BO和CNN-BO模型

2.1.1。铰链损失函数和三联体损失函数

铰链损失函数是一个损失函数在机器学习领域,可以用于“max-margin”分类,常用的支持向量机的目标函数。三联体损失是一个损失函数在深度学习,最初是由斯沃夫提出et al。26训练样本太敏感,如相似性度量。输入三联体损失的三倍 : (锚);(积极的)指的是同一类别的样本 ; (负面)指的是不同类别的样本。样本相似度的计算是通过优化之间的距离和不到的距离和。公式如下:

所以,最终的优化目标是缩短距离和和扩展之间的距离和。结果分为三种情况:(我)简单的三胞胎: ,也就是说, ;这种情况下不需要优化和符合要求的距离和很近,距离和远。(2)硬三胞胎: ,也就是说,之间的距离和远。(3)半硬的三胞胎。 ,也就是说,之间的距离和非常接近,但边值的优势。

2.1.2。改进的交叉熵损失函数

文本情感分析任务从根本上是一个分类问题。分类模型,将存在问题的优化目标和评价指标是不一致的。在两分的任务,使用交叉熵作为损失函数模型,其来源是最大似然估计。然而,情绪分类的最终评价目标任务模型的准确性,而不是交叉熵的大小。通常,交叉熵很小,分类精度高,但这种关系并不一定是正确的。

两分的任务,由于模型拟合能力和数据类别不平衡等问题,为模型很难实现积极的示例输出和消极的示例输出。在实际预测,该模型认为,当大于分类结果 ,这是一个积极的样本,当它小于 ,这是一个负样本。这意味着该模型可以有选择地更新。因此,本文提出一种改进的模型:我们设定一个阈值 ,在哪里米属于(0,1)。当模型的正样本高于输出 ,或低于负样本的输出 ,模型将不会更新;模型将只有当更新的输出样本之间和 ,这可以确保模型侧重于那些样品不预测。这可以防止模型减少了损失函数和选择那些easy-to-fit样本训练过度,使模型更有效地适应样本的预测是错误的,从而提高分类效果。

基于上述模型的想法,这篇文章引用的铰链损失和三重态损失提高两分的损失函数模型。常用的交叉熵损失函数制定如下: 在哪里实际的输出结果和什么是预期的价值。

选择一个阈值米并介绍了单位阶跃函数 :

然后,新的损失函数是: 在哪里在哪里增加了修正交叉熵,这意味着进入一个阳性样品, 。很显然, 这个时候;如果 , 将建立,交叉熵将自动吗(达到最低)。相反,如果 ,然后 ;此时,交叉熵。也就是说,是否高于阳性样本 ,然后它将不会被更新。如果小于 ,它将继续更新;类似地,可以分析负样本。因此,结论是,如果输出已经低于 ,然后它将不会更新,如果它是高于 ,它将继续更新。

2.1.3。LSTM-BO和CNN-BO模型

LSTM-BO和CNN-BO模型是基于LSTM和CNN keras结合改进的交叉熵的损失函数描述的部分2.1。2。

2.2。Weight-Recurrent神经网络(W-RNN)跨域情绪分类

2.2.1。递归神经网络的基本结构

递归神经网络(RNN)指的是处理输入数据序列的网络结构在相同的结构随着时间的推移27]。拟议中的RNN处理序列信息的有效地解决问题。在传统的神经网络中,节点内隐层连接,每个输出是相互独立的。然而,在RNN,隐层节点相互连接在时间维度,和每个节点的输入不仅包括输入当前输入的输入层,而且输出信息隐藏层的以前的状态,也就是说,网络能记住以前的信息,用来计算当前的输出,如图1。

RNN的特点可以回忆以前的信息是基于隐藏层,这是不断重复作为一个内存单元并保存以前的状态的信息。作为一个逻辑结构,内存单元的内部结构如图2。当时 ,重量输入的和旧信息从由自连接矩阵处理吗通过隐藏层,其总和加偏移量一起获得的输出当前状态的隐层通过激活函数(例如,棕褐色h)。

的时间t和先前的信息继续传播直到最后,才是真正的隐层的输出。上述计算过程是制定

2.2.2。W-RNN跨域情绪分类的模型

它可以承认,在标准的递归神经网络,复发性单元的计算结果在每一刻不利用,但只有通过反复单位在下一时刻另一轮的计算,直到最后一刻,它的输出作为经常性的输出层。计算每一时刻的状态取决于前面的时刻,和颞订单信息不断保留这样的依赖。在本节中,结合递归神经网络的特点,将获得每个单词的重要性分析输入单词的影响最终的分类。基于这种思想,W-RNN模型,它提供了更高的重量和更强的情感倾向,减少文本情感信息的损失,从而提高文本情感分类的准确性。

复发性神经网络最重要的模型之一,许多任务序列。文本分类任务的常用的方法如图所示3。

如何测量输入的影响的重要性吗在最后的分类结果?假设这是一个情感分类的任务,首先,词产生更重要的影响最终的分类需要被发现。

因为最后一步的状态向量RNN(向量所代表的橙色阴影图3)传递给后续分类器分类、状态向量最后一步是一个目标向量。RNN是一个递归的过程逐渐接近。

所以,距离中间向量到目标向量可以考虑。从h_我来 ,由于过度考虑这个词 ,它可以推断,之间的距离和目标向量 ,但是现在的距离 ,所以我们可以使用的区别衡量这个词的影响最终分类。如果差值为正,这意味着的引入缩小距离的目标,促进正确的分类;否则,如果不同的是负的,这意味着它有一个反应的分类;值越大,影响的程度就越大。这个指标可以用来按照降序排列,每个单词的重要性。本文排除的影响维度除以标准的目标向量:

2.3。算法流程

根据上述模型结构,我们可以利用W-RNN情感分类模型的算法流(算法1)。

输入:
CWE-word向量
CTR-training语料库
CTE-test语料库
输出:测试样本的预测结果。
(1)	pro_processing (CWE)
(2)	Dict = word2vec (CWE) / /创建这个词向量字典Dict类型
(3)	批次[]⟵分裂(CTR) / / CTR划分为几个批次
(4)	为我⟵0到时代
(5)	为j⟵0到长度(批次)
(6)	为k⟵0到长度(批次j)做
(7)	⟵FindWord(批次j][k)/ /找到词向量分批从Dict [j] [k]
(8)	h⟵/ /特征向量h是提取
(9)	h′⟵测量(h)/ /测量的影响h
(10)	⟵排序( ,h)/ /词向量在降序排序h”
(11)	c⟵ExtractFeature ( )/ /提取辅助功能从这个词向量
(12)	z⟵Softmax (c)/ /被Softmax分类器样本的预测结果
(13)	结束了
(14)	更新(z, ,(b)/ /更新参数和b通过反向传播模型
(15)	结束了
(16)	结束了
(17)	为我⟵0到长度(CTE)
(18)	⟵FindWord (CTE [我])
(19)	h⟵
(20)	h“⟵测量(h)
(21)	⟵排序( ,h”)
(22)	c⟵ExtractFeature ( )
(23)	输出⟵Softmax (c)
(24)	结束了

Batch_size,用于集团培训,使样品少于Batch_size被组合在一起;时代代表训练的迭代的数量。

在该算法中,首先,距离排名根据h”。其次,每一次要功能c从这个词向量计算。然后,输出z获得的是c,z值是用于更新重量。W-RNN给予高权重与强烈的情感倾向,减少了单词与句子情感疲软的函数,这降低了文本情感信息的损失。

3所示。实验和设置

3.1。实验环境

这个模型的具体实验环境配置如表所示1。


实验环境	特定的配置

操作系统	Windows 10×64
CPU	英特尔(R) (TM)核心i7 - 4790, 3.6 GHz
内存	8 g
硬件	1 t
编程语言	Python 3.5
深度学习框架	keras2.0
词向量训练工具	Word2vec
分词工具	Jieba

3.2。数据集

由于分类模型可能拥有不同的土壤不同的语言和不同长度的文本,以验证模型的性能,实验测试了不同类型的数据集下几个著名的全集。本实验使用IMDB (28)英语电影评论数据和网易新闻分类文本数据,包括不同的语言,不同的长度,不同类型的文本分类任务。

以下两个数据集是专门描述。

IMDB英语电影评论数据集数据从亚马逊的互联网电影数据库(IMDB),其中包括很多关于电影的信息,如演员、电影长度、内容介绍、评级和评论。对于文本分类任务,这个实验中使用的电影评论数据区分积极的评论和负面评论,也就是说,它们包含两类,属于两分的情绪分析分类问题。数据集包含50000评论文本数据,及其标签分布平衡,也就是说,有25000个好评和25000负面评论。此外,非监督学习的数据集提供了50000年未标记的数据。

中国数据集是商品评论所提供的数据的集合,它包含六个方面的评论数据(书籍、酒店、电脑、牛奶、手机、和热水器),共有21107个文本数据,有10428个负面数据和10679年积极的数据。图4中国数据集描述上面。

在表2,样品积极情绪和消极情绪的样本和样本的两个数据集。


数据	积极情绪的样本	负面情绪的样本	的样品

英语	25000年	25000年	50000年
中国	10679年	10428年	21107年

3.3。数据预处理

实验中使用的文本数据集都是用中文和英文。中国数据集是商品评论语料库提供的数据的集合,它包含六个方面的评论数据,总共有21107文本数据。英国数据集IMDB电影评论数据集,共有50000评论文本数据。在情绪分类任务中,训练数据和测试数据的两个数据集随机生成的比例为80:20。

数据的预处理工作主要包括无效的特殊字符和标点符号的清洗,清洗常见的停顿词的语言,和汉语使用的分割jieba基于python的分词工具。本实验介绍Word2Vec pretraining,旨在构建词向量。适当的词向量可以提高模型的性能和计算速度。每个词向量维度pretrained Word2Vec设置为50,窗口大小设为10和训练skip-gram模型。培训Word2vec模型的参数设置表中描述3。


参数	价值

向量的维数	50
上下文窗口	10
采样值	1
迭代次	4
最小数量的事件	5
算法	Skip-gram
工人数量	4


的名字	描述

Batch_size	批量训练样本的数量
Hidden_dam	隐层节点
Embedding_dam	词向量维度
过滤器	过滤器的大小
Kernel_size	卷积的内核数
Max_features	词袋模型的最大特征数量
时代	次迭代模型
Min_count	最小词频


	LSTM	LSTM-BO	美国有线电视新闻网	CNN-BO	W-RNN

Hidden_dam	256年	256年	256年	256年	256年
Batch_size	32	32	32	32	32
Embedding_dam	50	50	50	50	50
过滤器	- - - - - -	- - - - - -	250年	250年	- - - - - -
Kernel_size	- - - - - -	- - - - - -	3	3	- - - - - -
Max_features	5000年	5000年	5000年	5000年	5000年
时代	10	10	10	10	10
Min_count	10	10	10	10	10
辍学	0.2	0.2	0.2	0.2	0.5
激活函数	乙状结肠	乙状结肠	线性整流函数（Rectified Linear Unit）	线性整流函数（Rectified Linear Unit）	乙状结肠

3.4。Superparameter设置

在神经网络模型的训练过程中,superparameter前设置值是一个参数,模型的训练。通常,superparameter需要优化,和一组最优选择superparameter为模型改进的性能和影响学习。模型的superparameter配置如表所示4。

表5显示了每个模型的superparameter设置,其中选择superparameter通过粗体的优化实验参数表6。


	LSTM-BO		CNN-BO
	精度(%)	损失(%)	精度(%)	损失(%)

0.5	74.18	0.2795	50.03	0.3464
0.6	82.14	0.2267	88.74	0.1637
0.7	82.06	0.2267	88.54	0.1637
0.8	82.06	0.2952	88.32	0.2199
0.9	81.72	0.5129	88.02	0.3844
1。0	81.41	0.9564	88.45	0.4811

4所示。结果分析

4.1。分析实验结果基于LSTM-BO和CNN-BO模型

损失函数的传统LSTM模型和CNN模型改进,和LSTM-BO CNN-BO模型构建进行文本情感分析任务,参数优化实验,使用基准模型的对比实验来验证新的网络模型的有效性情感分类的任务。


次损失函数	迭代
次损失函数	1	2	3	4	5

Binary_crossentropy	82.68	82.39	81.57	81.27	80.76
Binary-optimize	81.88	81.52	83.02	82.99	82.21
铰链	50.00	50.00	50.00	50.00	50.00
日军	50.00	50.00	50.00	50.00	50.00
美	54.78	75.38	77.25	78.04	78.81


	词向量维度	50	One hundred.	150年	200年	250年

LSTM-BO	精度(%)	82.14	82.48	81.69	81.76	82.04
LSTM-BO	损失(%)	0.2267	0.2234	0.2372	0.2577	0.2302

CNN-BO	精度(%)	88.74	87.66	88.56	88.34	87.46
CNN-BO	损失(%)	0.1637	0.1845	0.1652	0.1732	0.1832


	辍学	精度(%)	损失(%)	时间(年代)

LSTM-BO	0.1	81.62	0.2348	1265年
	0.2	82.14	0.2267	1136年
	0.3	82.06	0.2285	1148年
	0.4	82.05	0.2274	1143年
	0.5	81.98	0.2354	1254年

CNN-BO	0.1	87.72	0.1833	1249年
	0.2	88.74	0.1637	1172年
	0.3	88.72	0.1590	1184年
	0.4	88.39	0.1684	1227年
	0.5	87.43	0.1842	1265年

以下4.4.1。参数优化实验

为了研究各参数对模型的影响效果,本文四组参数优化实验设计和比较在IMDB公共数据集。(我)讨论实验结果的阈值选择在这个实验中,基于LSTM-BO和CNN-BO模型、阈值选择从0.5到1.0,增加了0.1。实验结果如表所示6。从表可以看出6LSTM-BO和CNN-BO阈值模型精度最高 ,分别是82.14%和88.74%;亏损率是相同的,当和 ,分别是0.2267和0.1637。从数据可以看出5和6的增加值,两个模型的准确性一般显示增加然后减少的趋势,和整体损失率会先下降,然后上升。当阈值是0.6,LSTM-BO模型的准确性达到峰值,损失率达到最小值;当价值变化从0.5到0.6,准确率大大提高,这是高7.96%;当值从0.9改为1.0,大大损失率的变化,增加了0.4435。的准确性和损失率CNN-BO模型类似于LSTM-BO模型,但整体效果更好。当 ,精度达到峰值和损失率是最小的。当值从0.5改为0.6,准确率提高了38.71%,损失率降低了0.1827。基于上述分析,阈值本文是0.6。(2)不同的损失函数对模型的影响在表7binary_crossentropy是一个标准的交叉熵损失函数;binary-optimize是本文提出的损失函数;铰链是一个损失函数,常用的支持向量机分类器;mean_absolute_percentage(日军)平均绝对百分误差损失函数;mean_absolute_error (MAE)绝对值方差损失函数。图7显示LSTM模型的准确性的变化在不同的损失函数的迭代次数的英文数据集。从图可以看出,LSTM-BO改良的损失函数模型精度最高的情绪分类的任务,这是82.21%,第二次迭代后一直在领导;LSTM模型使用标准的交叉熵损失函数与铰链,日军和梅损失函数具有较高的精度。使用铰链LSTM模型的准确性和日军损失函数保持在50%,迭代次数超过5次。基于上述实验结果,证明了改进的损失函数的有效性。(3)词向量维数的选择实验在这个实验中,向量维度所选单词是50,100年,150年,200年,250年和300年,分别。从表可以看出8LSTM-BO模型精度最高为82.48%,当这个词向量维数是100维度,损失率是至少0.2234。当这个词向量维度是50维度,CNN-BO模型的最大精度为88.74%和0.1637的损失率。辍学技术削弱了coadapting属性随机丢弃在同一层相邻元素的某些元素在前面的层在训练过程中。通过使用辍学,过度拟合现象明显减少,因此广泛用于深度学习的训练过程。为了研究辍学对训练过程的影响,这个实验将辍学的值设置为一系列不同的值在每个培训过程与其他参数固定。结果如表所示9。

从表可以看出9辍学时设置为0.2,LSTM-BO模型实现最高精度为82.14%,最小损失率为0.2247,最短的时间消耗。辍学时设置为0.2,LSTM-BO模型的最大精度为88.74%和最短的时间消耗。辍学是0.3时,损失率最低是0.1590。

4.1.2。实验结果的比较

为了验证的有效性LSTM-BO和CNN-BO模型,基于中文和英文数据集,结果与基准模型的情感分类结果相比LSTM和CNN。实验结果如表所示10。


数据集	网络模型	精度(%)	损失(%)	时间(年代)

英语的数据集	LSTM	80.98	0.8170	1187年
	LSTM-BO	82.14	0.2267	1136年
	美国有线电视新闻网	88.34	0.5588	1374年
	CNN-BO	88.74	0.1637	1172年

中国的数据集	LSTM	86.92	0.6820	1425年
	LSTM-BO	87.51	0.1705	1263年
	美国有线电视新闻网	88.84	0.5874	1523年
	CNN-BO	88.91	0.2231	1395年

(1)精度分析。数据8和9显示每个模型的准确性的训练集和测试集情绪在不同的数据集分类任务。水平轴代表迭代的数量,纵轴代表了准确性。蓝色曲线代表的准确性训练集的变化,和橙色曲线代表的变化测试集。图的准确性10显示了一个条形图的每个模型的最终测试集的精度在不同的数据集。图11显示了一个情节变化的每个模型的准确性10次迭代的英文数据集。从上面的实验结果,可以得出以下结论:(我)表10实验结果表明,存在一些差异不同的数据集。LSTM的准确性和LSTM-BO模型在中国的数据是5.94%和5.37%高于英语数据集,分别。CNN和波模型的准确性对中国数据集比英国高出0.5%和0.17%数据集,分别。(2)从表可以看出10和图10CNN-BO模型精度最高的情感分类中文和英文数据集与其他三个模型相比,分别是88.91%和88.74%。LSTM-BO模型是1.16%和0.59%的准确性高于基准LSTM模型在中国英语数据集和数据集,分别。CNN-BO模型的准确性高于基准CNN模型的数据集的英语和中国数据增长了0.5%和0.07%。(3)从数据可以看出8和9,训练集上的四个模型的准确性与迭代次数增加缓慢,还有一个显著变化之间的第一和第二迭代,并最终稳定。然而,迭代次数的增加不能测试集的准确性显著增加。测试中存在波动,尤其是LSTM和CNN模型波动极大地在测试。从图可以看出11在英语数据集,第二次迭代后LSTM-BO模型具有较高的精度,和第四次迭代后CNN-BO模型具有较高的精度。本文的分析结果,LSTM-BO CNN-BO模型可以更有效地适应样本预测错误,防止过度拟合,提高情绪分类任务的准确性。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

(2)损失率分析。数据12和13显示亏损率的变化曲线模型的训练集和测试集的情绪分类任务在不同的数据集,分别。水平轴代表迭代的数量,纵轴代表了准确性。黑色曲线表示训练集损失率的变化,和黄色曲线代表了测试集损失率的变化。图13显示了每个模型的损失率变化的情节在10迭代数据集的英语。从上面的实验结果,可以得出以下结论:(我)从数据可以看出12和13损失率的四个模型的中文和英文的训练集随迭代次数的增加,但模型在测试集上的变化更明显。LSTM的损失率模型和CNN模型在测试集出了较大的波动,显示一个上升趋势。LSTM-BO的损失率和CNN-BO模型在测试集上慢慢减少,最终往往是平的。(2)从图可以看出14第二次迭代后的英文数据集,每个模型的损失率大趋势,和LSTM损失率和CNN模型与迭代次数增加,最后飞)迭代后结束;他们分别为0.8170和0.5588,分别。LSTM-BO和CNN-BO模型慢慢减少随着迭代次数的增加,最终达到一个稳定状态。的损失比率LSTM-BO和CNN-BO模型减少了0.5903和0.3951,分别在基准LSTM和CNN模型。本文的分析结果,改进的模型具有更好的泛化能力,可收敛后多次迭代,实现降低损失率。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

(3)时间性能分析。图15显示了每个模型的时间消耗在中文和英文的数据集。从图可以看出,LSTM-BO减少162秒和51秒,分别在中国和英语相比数据集LSTM模型;CNN-BO减少128秒和202秒,分别,而CNN模型。本文的分析结果,LSTM-BO和CNN-BO模型,样品不会被更新时的预测价值高于阳性样本米或负样本的预测值低于米,专注于那些预测不准确,从而减少时间的消耗。计算量却降低了中国数据的预处理,去除无用的单词和标点符号,但相同的操作没有完成在英国的数据。

4.2。基于W-RNN模型的分析结果

定性和定量评估W-RNN模型提出在本节中,这个实验比较不同模型的影响在中文和英文数据集下的情感分析任务。的具体方法如下:定量评价实验中,一些数据选择中文和英文的数据集作为训练集,训练分类模型,最后的情感分类任务完成在测试设置测量的准确性;定性评价实验中,情感的重量计算的分析模型来验证该模型的有效性。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

4.2.1。准备定性实验结果与讨论

在定性分析实验中,首先,在训练集训练分类模型。然后,我们随机选择3个评论语料下英语和汉语训练数据集和处理它们的W-RNN模型和生成表中的结果。结果,第一个组件的括号表示词的位置分词后,第二个组件表示分词,第三个组件表示词的重量。例如,在表的第一行第一个组件:(7,“穷”,0.36663848)是单词“穷”的结果,在这7意味着“穷”是第七的位置句子分词后,“贫穷”是指这个词本身,0.36663848表示“穷”的权重因子。

(1)这本书的布局很差,和前面四到五页是空白的。

[(0.36663848 7“穷”),(17,“空白”,0.16964875),(0.16570723 13“页面”),(6,“非常”,0.11767213),(0.07908833 4“书”),(5”是“0.0750145),(0.06969571 4“这个”),(0.04458785 0“的”),(16,“前面”,0.023623824),(0.006633401 16“是”),(10“四”−0.0),(12“五”−0.015168488),(0.022220552 2”“−),(1“布局”−0.08092123)]

(2)这幅画书很好,我儿子喜欢它,一直不愿返回它。

[(1,“照片”,0.30500817),(0.2046071 5“好”),(4,“非常”,0.17955697),(0.17825627 2“书”),(4、9′,0.16365236),(0.15772212 14“不情愿的”),(7中,“我”,0.11790274),(0.10876195 16“回归”),(6日”。”,0.0819352),(3”是“0.064508274),(0.013084531 0,“这”),(12,“已经”,0.0077801645),(0.0015705228 8“儿子”),(15”到“−0.023336783),(0.16156882 11”和“−),(13“被”−0.39944094)]

可以获得以下结果从上面的实验结果:(我)从表可以看出11W-RNN情绪分类模型提出了排名前面的单词与强烈的情感倾向和赋予更高的权重。例如,在第二句,“好”这个词被赋予一个重量的0.2046071,和第四句“非常”一词是0.17955697的重量。(2)评价方案的重要性会自动考虑词的位置的影响。如果一个情感词重复的句子,这句话出现后一般加权低。

4.2.2。为定量的实验结果与讨论

为了验证的有效性W-RNN模型,基于中文和英文数据集,结果与基准模型RNN的情感分类结果。实验结果如表所示12。


数据集	模型	精度(%)	损失(%)	时间(年代)

英语的数据集	RNN	80.98	0.8170	1187年
英语的数据集	W-RNN	82.54	0.4500	1346年

中国的数据集	RNN	87.47	0.6948	1569年
中国的数据集	W-RNN	90.66	0.4616	1753年

(我)精度分析图16显示了每个模型的性能在训练集和测试集的情绪在不同的数据集分类任务。水平轴代表迭代的数量,纵轴代表了准确性。蓝色曲线代表的准确性训练集的变化,和橙色曲线代表的变化测试集。图的准确性17显示了一个条形图的每个模型的最终测试集的精度在不同的数据集。可以获得以下结果从上面的实验结果:(我)表12显示不同数据集的实验结果有一定的差异。RNN的准确性和W-RNN模型在中国的数据是6.53%和8.12%高于英语数据集,分别。(2)图16表明,两个模型的准确性在中文和英文的训练集增加缓慢,最终稳定的迭代次数。测试集上的准确率是平的。经过10迭代,W-RNN模型的准确性对基准RNN模型在中国英语数据集,数据集增加了1.56%和3.19%,分别。本文的分析结果是W-RNN模型可以分析输入单词的影响最终的分类、分配更高的重量与更强的情感倾向,和减少情感信息的损失,从而提高文本情感分类的准确性。(2)损失分析图18显示的变化RNN的损失模型和W-RNN模型在中文和英文的不同迭代数据集。黑色的曲线代表了训练集和黄色曲线代表了测试集。从图可以看出,两个模型的损失在中文和英文的训练集显示了一个下降趋势的增加迭代次数,最后达到一个较低的价值,成为稳定。然而,测试集的两个模型之间的区别是,10次迭代后的损失W-RNN模型的数据集的英语是0.1500,也就是0.3670低于RNN模型;失去W-RNN模型在中国10次迭代后的数据集是0.4616,0.2332低于RNN模型。本文分析可以防止过度拟合的模型在一定程度上,它可以有效地提取文本特征和减少损失。(3)时间性能分析图19显示了两个模型的时间消耗在中文和英文的数据集。从图可以看出19W-RNN模型的运行时间超过159秒比英语RNN模型数据集和超过184秒比RNN模型在中国数据集。W-RNN是低于RNN的原因是W-RNN模型在计算时间消耗词权重和排序根据词的重量。

4.2.3。讨论W-RNN模型优化损失函数

基于部分的改进方案2.1损失函数,W-RNN损失函数模型优化,和weight-recurrent神经network-binary-optimize (W-RNN-BO)模型和实验进行中文和英文数据集,分别。迭代的数量是10倍。实验结果如表所示13。


数据集	模型	精度(%)	损失(%)	时间(年代)

英语的数据集	W-RNN	82.54	0.4500	1346年
英语的数据集	W-RNN-BO	83.32	0.1430	1267年

中国的数据集	W-RNN	90.66	0.4616	1753年
中国的数据集	W-RNN-BO	91.25	0.1405	1648年

表13显示了准确性、损失率和时间性能W-RNN-BO和W-RNN模型的中文和英文数据集;图20.显示了一个线形图显示每个模型的准确性的变化随着迭代次数的增加在中文和英文的数据集。可以获得以下结果从上面的实验结果:(我)的准确性,从图可以看出20.W-RNN-BO模型的准确性高于第二次迭代后W-RNN模型的中文和英文的数据集。第十次迭代后,W-RNN-BO模型0.59%和0.78%高于W-RNN模型在中文和英文的数据集,分别。(2)损失率而言,它可以从表13的损失W-RNN-BO模型的收敛效果更好。第十次迭代后中文和英文数据集,损失率降低到0.1405和0.1430,分别低于W-RNN的0.3211和0.3070。(3)在时间性能方面,W-RNN-BO模型降低了79秒的英语数据集相比W-RNN模型和105秒W-RNN模型相比在中国数据集。

这个实验充分证明了改进的有效性损失函数描述的部分2.1,因此该模型具有更好的泛化能力,提高了准确性,损失率,时间,和其他表现的情感分类的任务。

5。结论

为了解决传统深层神经网络的缺点情绪分析任务,本文提出了三种情感分类模型,基于神经网络。首先,基于LSTM和CNN模型,改进传统的交叉熵损失函数。LSTM-BO和CNN-BO模型设计的改进模型可以更有效地适应预测误差样本和防止过度拟合现象。此外,结合循环神经网络的特点,通过分析影响输入单词的最后的分类,每个单词分类结果的重要性,和W-RNN模型。模型提供了更高的重量与更强的情感倾向,降低情感信息的损失。为了验证三种情绪分类模型的有效性,定性和定量的情绪分析实验在中文和英文两种数据集设计。实验结果表明,本文提出的三种模型改进文本情感分类的准确性在一定程度上也表现得更好的损失率和时间性能。

在接下来的工作中,我们将考虑CNN的特征提取的文本特征和RNN的能力系列任务,可以结合self-attention构建更好的文本特征提取和分类模型。

数据可用性

使用的数据来支持本研究的发现没有在28)可以从相应的作者在获得合理的请求。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢陈Chi-Hua Fangying歌提供必要的建议。这项研究部分国家重点支持的研究和发展项目的中国(2018 yfb1201500),中国国家自然科学基金(批准号陕西61773313),自然科学基础研究项目(项目号2020 jm - 709),国防科技大学科学研究基金(批准号ZK18-03-43)。

引用

庞,l·李和美国Vaithyanathan大拇指?:sentiment classification usingmachine learning techniques,” in《ACL-02会议经验方法在自然语言Processing-Volume 10,页79 - 86,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2002年7月。视图:谷歌学术搜索
p·d·特尼,”投赞成或反对票?:semantic orientation applied to unsupervised classification of reviews,” in美国40对计算语言学协会年度会议,页417 - 424,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2002年7月。视图:谷歌学术搜索
a . l .马斯河r·e·戴利·t·范教授黄d . a . y . Ng和c . Potts“学习词向量情绪分析,”美国第49计算语言学协会的年会:人类语言Technologies-Volume 1,页142 - 150,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2011年7月。视图:谷歌学术搜索
c·杜和l .黄”情绪分析方法基于分段卷积神经网络和生成对抗的网络,”国际期刊的计算机、通信和控制,14卷,2019年。视图:出版商的网站|谷歌学术搜索
y, y, y江,“情绪分类的研究基于递归神经网络对中国微博,“中国电子杂志,25卷,不。4、601 - 607年,2016页。视图:出版商的网站|谷歌学术搜索
a . McCallum d . Freitag f·c·佩雷拉,“最大熵马尔可夫模型信息提取和分割,“ICML,17卷,第598 - 591页,2000年。视图:谷歌学术搜索
y . f .锅、x侯和c·l·刘”文本定位在自然场景图像基于条件随机场,”学报第十届国际会议文档分析和识别,页6 - 10,IEEE,巴塞罗那,西班牙,2009年7月。视图:谷歌学术搜索
t . joachim学习使用支持向量机对文本进行分类施普林格,柏林,德国,2002年。
y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
学术界。陈,f的歌,F.-J。黄、吴l .“概率密度函数发生器基于神经网络,”自然史答:统计力学及其应用,541卷,2019年。视图:出版商的网站|谷歌学术搜索
g·e·辛顿美国Osindero, Y.-W。格兰”,快速学习算法深度信念网”,神经计算,18卷,不。7,1527 - 1554年,2006页。视图:出版商的网站|谷歌学术搜索
秦赵y, b、t·刘和d·唐“社会情绪传感器:检测和可视化系统主题话题在微博情感分析,“多媒体工具和应用程序,卷75,不。15日,第8860 - 8843页,2016年。视图:出版商的网站|谷歌学术搜索
y . Kim“卷积神经网络对句子分类,”2014年,http://arxiv.org/abs/1408.5882_2014。视图:谷歌学术搜索
a·肯尼迪和d . Inkpen”情绪分类影评使用上下文价换档杆,“计算智能22卷,第112 - 110页,2011年。视图:出版商的网站|谷歌学术搜索
y . Kim“卷积神经网络对句子分类,”2014年,http://arxiv.org/abs/1408.5882。视图:谷歌学术搜索
t . Zagibalov和j·卡罗尔,“自动种子词无监督情绪的中文文本分类,选择”美国22日计算国际会议Linguistics-Volume 1,页1073 - 1080,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2008年7月。视图:谷歌学术搜索
d . Tritchler生物统计学的损失函数,百科全书约翰•威利& Sons 2005。
k·p·科德和d·m·沃伯特“感觉运动学习的损失函数,美国国家科学院院刊》上,卷101,不。26日,第9842 - 9839页,2004年。视图:出版商的网站|谷歌学术搜索
x, y .问:陆,道,“健壮的子空间聚类在柯西损失函数”IEEE神经网络和学习系统,30卷,不。7,2067 - 2078年,2019页。视图:出版商的网站|谷歌学术搜索
a . Jati n . Kumar r . Chen等人“Hierarchy-aware损失函数在一个树结构标签空间音频事件检测”《IEEE国际会议音响、演讲和信号处理(ICASSP)2019年5月,英国布莱顿。视图:谷歌学术搜索
崔s, m·陈,c .刘”DsUnet:一个新的网络结构超声乳腺病变的检测和分割,“医学成像和卫生信息学杂志》上,10卷,不。3、661 - 666年,2020页。视图:出版商的网站|谷歌学术搜索
赵c, s . Wang和d·李深度学习社交媒体跨域转移情绪分类、中国国家社会媒体会议上处理施普林格,柏林,德国,2017年。
a·戴伊m . Jenamani和j·j·塔迦尔,“Cross-D-vectorizers:一组feature-spaces跨域从消费者评论情感分析,“多媒体工具和应用程序,卷78,不。16,23141 - 23159年,2019页。视图:出版商的网站|谷歌学术搜索
p .左拉·科尔特斯c·劳格诺,e . Brentari“社交媒体源和跨域情绪分类、交叉”国际期刊的信息技术和决策,18卷,不。1,第1499 - 1469页,2019。视图:出版商的网站|谷歌学术搜索
a·戴伊m . Jenamani和j·j·塔迦尔,“情绪重量- gram的数据集(发送):跨域情绪分类的特性,2017年第九次国际会议上的进步模式识别(ICAPR),“IEEE, 2017。视图:谷歌学术搜索
f·斯沃夫,d . Kalenichenko和j . Philbin”Facenet:统一嵌入人脸识别和聚类”《IEEE计算机视觉与模式识别会议圣胡安,页815 - 823年,公关,美国,2015年6月。视图:谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
c . Potts“消极的否定。”语义和语言理论,20卷,第659 - 636页,2010年。视图:出版商的网站|谷歌学术搜索

科学的规划

基于机器学习的智能决策支持系统和多准则决策

文摘

1。介绍

2。深度学习结构跨域情绪分类

2.1。改进LSTM-BO和CNN-BO模型

2.1.1。铰链损失函数和三联体损失函数

2.1.2。改进的交叉熵损失函数

2.1.3。LSTM-BO和CNN-BO模型

2.2。Weight-Recurrent神经网络(W-RNN)跨域情绪分类

2.2.1。递归神经网络的基本结构

2.2.2。W-RNN跨域情绪分类的模型

2.3。算法流程

3所示。实验和设置

3.1。实验环境

3.2。数据集

3.3。数据预处理

3.4。Superparameter设置

4所示。结果分析

4.1。分析实验结果基于LSTM-BO和CNN-BO模型

以下4.4.1。参数优化实验

4.1.2。实验结果的比较

4.2。基于W-RNN模型的分析结果

4.2.1。准备定性实验结果与讨论

4.2.2。为定量的实验结果与讨论

4.2.3。讨论W-RNN模型优化损失函数

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章