文摘

针对严重的口语社交网络文本和稀疏的语义特征,本文提出了一种CNN-BiGRU-based社交网络文本情感分析方法在大数据环境。首先,介绍了依赖语法树来表示单词之间的依赖关系构造这个词向量来表示文本。然后,情绪特征与不同粒度提取由多个不同大小的卷积核卷积神经网络(CNN)。这些情绪的功能是输入双向封闭的复发性单元(BiGRU)网络分析来获得更深层次的情绪特征。最后,一定数量的神经元被丢弃的辍学的方法,和情绪类型分类的乙状结肠激活函数。Weibo_senti_100k微博数据集被用来演示该方法。结果表明,如果辍学值设置为0.25和亚当优化器选择,分析性能是最好的。准确性、精密、召回和AUC是94.09%,95.13%,92.87%和0.953,分别具有一定的应用价值。

1。介绍

随着信息技术和互联网的快速发展,人们的生活也在改变。互联网用户可以更自由地发布信息和表达意见的社交网络平台,也提供方便公众舆论的传播1]。微博和其他主流社交网络媒体平台在民意沟通发挥着越来越重要的作用。近年来,对文本信息的相关研究社交网络吸引了越来越多的关注,尤其是文本的情感分析。是很有价值的把握网民在这个话题的态度和观点2]。

互联网上的热门话题是密切相关的公众情绪在现实社会。实时主题推动互联网和互联网用户的评论和转发的无穷让舆论传播的速度非常快。因此,对于一个话题,互联网用户很容易产生两极分化的群体,甚至导致群体事件在互联网上或在现实生活中3,4]。评论情绪表达的互联网用户不仅会影响公众舆论的传播对整个话题但用户的情绪会受其他用户的影响。负面的公众舆论将推动用户的负面情绪,促进负面舆论的发展方向。因此,有必要分析社交网络文本的情感,也就是说,从大规模的社会网络数据中提取有效信息,并分析公众的情绪倾向。网民的情绪分析结果可以指导和控制的主题有针对性的抑制负面事件的持续发酵的方法5]。如何从庞大的社交网络数据挖掘有意义的信息,分析评论内容,和我的评论文本的情感倾向,已经成为当前的研究热点。

分析文本的情感倾向也可以称为意见挖掘。它可以不断训练通过大量真实评论数据的机器学习或深度学习方法。最终的模型可以自动、准确地判断文本所表达的情感极性(6]。目前,市场人气的深度学习方法是优秀的分类。从本质上讲,深层神经网络可以有效地捕获的高层表达数据,和它的表达能力指数比浅的模型。它可以用于情绪分析更科学地反映真正的文本中包含的语义更仔细地反映主题的每个评价指标,更全面帮助用户和平台做出准确和高效的判断(7,8]。

然而,《社交网络》文本有严重的问题,如口语,稀疏的语义特征,和太简单精炼,基于深度学习分析方法仍有一些不足。因此,CNN-BiGRU-based社交网络文本语义分析方法提出了在大数据环境中。提出创新的方法总结如下:(1)针对复发性神经网络容易消失的问题梯度和无法掌握在长期内的非线性关系,从而导致长期的依赖,该方法使用双向封闭的复发性单元(BiGRU)网络获取隐藏文本的向量表示和单词之间的依赖性大的时间步长。(2)为了改善情绪分析的准确性,该方法结合了卷积神经网络(CNN)的优点和BiGRU。CNN可以提取局部特征和语义信息的文本,和BiGRU可以处理依赖关系信息单词之间有很大的距离。因此,CNN-BiGRU模型,提出了应用能力强。

其余本文的章节安排如下:第二章介绍了情感分析相关研究;第三章根据CNN-BiGRU介绍了情感分析模型;第四章是实验部分,设计对比实验来验证该模型的性能;第五章是结论。

情绪分析主要是找出一种积极或消极情绪的目标对象,和文本情感分析的目的是澄清评论家对评价对象的态度(9]。文本情感分析技术是将非结构化的主观句子根据他们不同的情绪倾向。目前,有三种文本情感分析的方法:基于情感词典,基于机器学习和基于神经网络(10,11]。分析方法基于情感词典构建情感词典根据文本的不同的上下文中,使规则来判断情绪倾向。例如,文献[12)提出了一个基于字典的混合方法技术和模糊分类技术,分析了情绪的Twitter文本。使用UCINET对社会网络分析工具,并结合人工神经网络对用户,微博内容的情绪分为7个类别,它有效地实现文本情感分析。为了克服非标准语言带来的挑战,文献[13)提出了两种无监督分类词典情绪的方法。通过使用大量的编码信息表达式,结合基于弱监督神经网络分类器,生词通过嵌入特定字段,认可和情绪分析情绪分类的基础上实现的。然而,non-high-frequency单位分类的情绪伪上下文通过网络扩张,导致穷人基于词典的分析方法的泛化能力和情绪难以构建字典。

基于机器学习的方法是培养大量的标签文本数据获得pretraining模型,以预测未知文本情感分类。例如,文献[14)提出了一种分层融合跨通道互补网络综合网络分析。从文本和图像的特征提取模块被用来学习的注意特征生成的文本和图像的图像文字发生器形成分层融合框架,可以充分整合不同的模态特性和准确地分析文本和图片的情绪。文献[15)提出了一种方法从基于位置的社交网络中提取相关的情绪信息并使用了一种新的规模分类的信息实现情绪分析Twitter文本数据。然而,传统的机器学习方法有一些问题,如高维度和稀疏的特性。

与传统的机器学习方法相比,神经网络在自然语言处理执行得更好。它将功能映射到低维的词向量与上下文信息和解决高维度的问题,稀疏,没有考虑特征之间的相关性在传统的文本表示模型。文献[16)提出了一种细粒度的情绪混合深度学习模型预测在多通道数据。通过结合深入学习网络和机器学习的优势,两个特定的符号系统,文本和视觉形象,被用于多通道融合实现上下文情绪分析。文献[17)提出了一种新的文本语义识别方法基于混合神经网络模型结构一词多义现象和主题微博文本的混乱。它使用了潜在语义关系在不同的语言环境和单词之间的共存的统计特性在微博和饲料的输出CNN LSTM过滤器来实现精确的微博情感分析。文献[18)提出了情感分析方法使用CNN和双向编码器来分析相关的语料库收集从Twitter使用三层卷积框架。它进行实验语料库的17000条推讯。结果表明,它具有很高的精度。

然而,由于社交网络流量的增加,文本信息严重的问题如白话,稀疏的语义特征,过于简单而雅致。情绪分析方法基于深度学习的能力独自解决这些问题需要改善。因此,CNN-BiGRU-based社交网络文本情感分析方法提出了在大数据环境。

3所示。使用CNN-BiGRU方面基于情感分析模型

3.1。模型框架

封闭的复发性单元(格勒乌)解决问题的梯度消失在复发性神经网络学习能力的长期依赖。BiGRU格勒乌上有所改善。它主要由两个天鹤座在相反的方向。通过这种方式,不仅以前的信息,以下信息的影响也可以被认为是当今世界上(19]。CNN可以提取文本特征和语义信息通过卷积操作使用卷积内核。一个CNN的影响或BiGRU模型在处理文本情感分析不是很理想。考虑CNN和BiGRU网络模型的优点在情感分析任务,CNN-BiGRU模型是由两个神经网络相结合来解决问题在文本情感分析的社会网络。模型结构如图1

3.2。词向量表示文本

这个词向量嵌入层包括句子字嵌入嵌入和方面。首先,给定一个句子 ,在哪里 是文本中的词的长度,然后呢 是的话,在哪里 是词的长度方面。非结构化文本映射到连续词向量表示的手套模型,然后句子嵌入 和单词方面嵌入 通过查找嵌入矩阵吗 ,词汇量的大小是用在哪里 ,和嵌入维是由

当单词出现在一个句子,一个方面更接近这个词词方面将有更大的影响方面的情感极性词(20.]。该方法引入了一个依赖语法树来表示单词之间的依赖关系。例如,在句子“这食物味道不错,但价格有点贵”,目标词价格,开源库史派西是用于构建依赖语法树。每个单词是作为一个节点,弗洛伊德是用来计算最短的距离第一个目标节点,每个节点作为位置指数。最短的距离指数序列表示为 ,及其相应的位置嵌入通过搜索获得位置嵌入矩阵 ,这是在训练过程中随机初始化和更新。

3.3。CNN层

CNN一层一层主要包括卷积和汇聚层。

3.3.1。褶积层

卷积层主要用于提取文本的特点和获取当地的句子的语义信息。的 过滤器用于卷积层对判决执行卷积矩阵提取局部特征 ,和计算如下: 在哪里 向量总吗 台词 句子中的矩阵, 卷积核, 是抵消, 是解决线性单元(ReLU)。

每个卷积内核将提取的一部分功能,和过滤器将幻灯片从上到下整个句子矩阵根据设定步长来获得当地的特性集 的计算 如下:

3.3.2。汇聚层

汇聚层进行特征降维(21]。该方法使用max-pooling方法提取最大的功能从本地特性集卷积得到的层来代替整个地方特性 ,和计算如下:

3.4。BiGRU层

一个词的文本向量由向量和一个位置嵌入向量。BiGRU用于单词和上下文信息获取方面,以获得一个隐藏层向量表示(22]。格勒乌性能类似于长期和短期记忆网络,但它有更少的参数和较低的计算复杂度。格勒乌网络有两个门的结构更新门 和重置门 用于表明细胞单元接收信息在前面的时间步。值越大,在前面的时间步是记住的更多信息。 是用来表示程度的忽略了信息在前面的时间步。价值越多,更多的信息被遗忘。在某个时间,格勒乌的隐藏状态计算如下: 在哪里 是隐藏的状态在以前的时候, 代表输入序列信息, 权重矩阵, 是乙状结肠函数。

输出 BiGRU编码器的结合了隐层 和落后的隐藏层 ,在哪里n句子的长度。

3.5。辍学层

CNN-BiGRU模型的参数和训练样本不足,太多了容易过度拟合。因此,辍学的方法是采用随机丢弃一定数量的神经元有一定概率的培训过程。只允许部分神经元参与培训和参数学习的模型,以确保模型不能依赖一些地方特色过度训练和学习的过程中参数。它可以提高训练效率和模型的泛化能力23,24]。使用辍学的神经网络模型方法如图2

辍学的方法的具体工作流程如下:(1)暂时删除隐藏层神经元有一定概率的网络。(2)输入网络中向前传播,然后再通过相同的网络。每次执行批大小后,更新相应的权重和补偿根据随机梯度下降算法。(3)复苏丢弃的神经元;这时,丢弃神经元参数保持不变,神经元参数没有被丢弃已经更新。(4)重复步骤(1),(2)和(3)。

从BiGRU层获得通过辍学来获得处理 ,和数学表达式如下:

3.6。情绪分类层

辍学后层,输出表示是转发到完全连接层通过激活函数。这一层地图前一层的输出所需的输出尺寸。这一层也学会保留所需的相关信息情绪的预测目标,忘记无关的数据。如果超过一个阈值,一个方面的极性概率方面分配给相应的情绪类(25,26]。细粒度的情感分析的最后任务是分类情感极性。该模型接受 作为输入功能。目标的最终预测情绪极性方面是概率最高的标签。

对于情绪分类,该方法使用一个s形的激活函数,它可以输出值在0和1之间。计算如下:

同时,该模型与L2正规化训练叉损失降到最低。

4所示。实验和分析

进行的实验是基于TensorFlow深度学习框架。具体的实验环境如表所示1

此外,实验中的模型参数设置如表所示2

4.1。数据集

为了验证该模型的有效性,Weibo_senti_100k微博开源中文自然语言处理的数据集的数据集在GitHub ChineseNLPCorpus项目被选为实验。Weibo_senti_100k属于新浪微博评论文本注释,与情绪分别约为50000正面和负面评论。

Weibo_senti_100k微博数据集预处理去除各种标点符号,HTML标记,“#”标签,在用户名“@”,等等。然后,使用Jieba分词工具段话说,和删除的停止词根据停止词列表哈尔滨理工学院。最后,为了训练和测试文本情感分析模型中,预处理数据集分为80000和20000项目,分别根据测试集和训练集的比例1:4。情绪类别分为积极的和消极的类别。

4.2。评价指标

实验的准确性,中华民国(接受者操作特征)曲线下的面积(AUC),精密,回忆,F1的分数作为该模型的评价指标。让TP真阳性的情况下,TN是真正的负面情况,FP是假阳性的情况下,和FN假阴性的情况。(1)精度:精度是一个指数用来评估分类模型。一般来说,正确的结果的准确性是指比例预测模型,计算如下: (2)AUC(曲线下的面积):该地区包围下的坐标轴ROC曲线。中华民国曲线计算AUC前计算。ROC曲线绘制相应的真阳性率(TPR)和假阳性(玻璃钢)的结果与不同的截止点垂直轴二维坐标系统。获得的曲线是中华民国曲线。TPR和玻璃钢计算如下: (3)精度:精度指标样本的比例确定为积极的类别,确实是积极的类别。精确定义如下: (4)回忆:召回是指一切积极正确分类样本的比例确定为积极的类别。召回的定义如下: (5)F1分:为了给考虑精度和召回,精度和召回是首选,所以它的导数F1分的调和平均数可以使用两个。调和平均数的一个重要特征:只有当两者都是大或小,调和平均数将大或小,只要一个很小,结果将大大降低。F1分数定义如下:

4.3。选择辍学的价值

CNN-BiGRU模型参数太多了,很容易产生过度拟合现象在训练过程中。为了解决这个问题,辍学方法用于随机丢弃神经元的数量与特定的训练过程中的概率值。只允许剩下的神经元参与培训和学习模型的参数。模型在培训过程中,不能过分依赖一些当地的特征信息,以提高训练效率和模型的泛化能力。在实验中,辍学值设置为0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45和0.5进行分析和验证。它探讨了不同的辍学值对情绪分析结果的影响。具体实验结果如表所示3

根据实验结果表3辍学值为0.1时,模型的整体性能相对较差,和准确性为89.24%。这可能是因为辍学值太小,随意丢弃的神经元的数量小,有太多的参数模型。辍学值增加到0.25时,模型的性能达到最好的三个评价指标的精度,精度F1,它是89.95%、90.07%和90.54%,分别。后模型的整体性能达到最优时,继续增加辍学的值。几乎所有的评价指标开始出现下降的趋势,并开始逐步下降的性能模型。这可能是因为丢弃的神经元的数目太大,导致参数太少。很难模型来分析数据,导致整体性能下降。因此,一般来说,辍学的值设置为0.25。

4.4。优化器选择

模型训练过程的本质是最小化损失函数。确定损失函数之后,优化器需要用于梯度优化。优化目标是模型中的参数。培训CNN-BiGRU模型中的参数包括CNN和BiGRU中的所有参数。在实验中,五个常用的优化包括SGD(随机梯度下降),AdaGrad, Adadelta, RMSProp(均方根道具),和亚当选择优化模型。探索不同的优化器对模型性能的影响。具体实验结果如表所示4

根据实验结果表4亚当优化器的效果最好,精度和准确性F1值的88.98%,88.86%,和90.27%,分别。这主要是因为亚当可以自适应地调整学习速率参数,结合Adadelta的优点,RMSProp,和动量,和亚当很健壮的超参数的选择。因此,优化器选择亚当。

4.5。与其他方法相比

根据模型在训练集训练,测试集进行了分析。为了证明该方法的分析性能测试集,在引用的方法相比(12,17]。结果如图所示3

从图可以看出3该方法执行在任何评价指标与其他两种方法相比,及其精度,精度,回忆,和AUC是大约94.09%,95.13%,92.87%和0.953,分别。自从BiGRU模型采用该方法可以更好地学习社交网络文本的上下文信息,更有利于学习文本情绪,其精度,精度,和AUC是提高了约2.16%,2.65%和0.081 LSTM模型相比文献[17]。此外,CNN和LSTM模型的结合文献[17可以更好地获取文本情感类型。相比之下,使用人工神经网络只在文献[12),其性能显著提高,AUC增加了约0.157。总体而言,该方法在文本情感分析最佳的性能,也验证了CNN-BiGRU模型的有效性。

5。结论

面对社交网络文本资源的爆炸性增长,如何有效地使用文本数据和挖掘潜在价值具有重要意义。因此,CNN-BiGRU-based社交网络文本情感分析方法提出了在大数据环境下准确地获得情感极性。依赖语法树是用来代表单词之间的依赖关系,并输入到CNN-BiGRU模型学习和获得各种情绪特性。同时,一定数量的神经元被丢弃的辍学的方法来提高分析效率。最后,乙状结肠激活函数是用来完成情绪类型的分类。实验基于Weibo_senti_100k微博数据集显示如下:(1)该方法采用辍学方法和亚当优化器来改善其分析性能。同时,辍学的值设置为0.25,其F1分数达到90.54%。优化效果显著。(2)提出CNN-BiGRU模型具有良好的情绪分析性能。其准确性、精密、召回和AUC是94.09%,95.13%,92.87%和0.953,分别,这是优于其他比较的方法。

文本信息的多样性,但该方法仅将文本的极性情绪分为积极和消极,没有更细粒度的文本识别和深部开采情绪,如分为三类(正面、中性、负面)或多个类别,如“快乐、愤怒、悲伤和快乐。“因此,更详细的研究将在接下来的工作。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版这篇文章。

确认

这项工作得到了中国高水平职业专业群建设项目(2019),国家级教学创新团队的职业教育教师(2019),和浙江工业大学合作,合作教育项目(2020)。