文摘
如今,社交媒体网络生成大量的社会信息的用户。理解人们的看法和情感倾向于商品或者事件及时,有必要进行文本情感分析用户的观点。微博的评论数据,总是夹杂着长和短的文本,这是相对复杂。特别是对于长文本数据,它包含了很多内容,单词之间的相关性是更复杂的比短的文本。研究这些混杂的情绪分类文本由文字和短,本研究提出了一种优化GloVe-CNN-BiLSTM-based情绪分析模型。在这个模型中,使用手套的话,进行向量化和CNN代表部分空格字符。BiLSTM用于建立时间的关系。Twitter的评论数据COVID-19用作实验数据集。实验结果表明,该方法可以有效地识别用户的情感倾向的在线评论,在完整文本情感分类的准确性,文字,和短可以达到0.9565,0.9509,和0.9560,分别明显高于其他深度学习模型。同时,实验表明,该方法具有良好的领域扩张。
1。介绍
情感分析(SA) (1),有时叫意见挖掘或情绪人工智能,在自然语言处理是一个重要的任务。文本情感分析的过程分析、处理、归纳、推理的主观情绪色彩的文本。文本分类作为积极的,消极的,中性的,或相互冲突的情感极性。随着互联网的快速发展,人们越来越像一个对象或事件来表达他们的意见对互联网社交平台(Twitter、Facebook、微博等),如商品在网店购买,新发布的电影,流行发展,甚至一些热门事件。人们对这些通常包含情绪的评价和情感倾向。如果我们可以收集这些评论和分析用户的情感倾向在这些评论中,我们可以了解用户的口碑,为后续决策提供强有力的支持。政府机构也可以在社交平台上收集数据,分析人们的观点在某些政策和公共热点事件,并及时采取对策,维护社会稳定。本文将在Twitter上关注COVID-19评论的情感分析已被这些年来世界各地的肆虐。
传统的情感分析算法分为几类:基于机器学习的方法(如支持向量机、朴素贝叶斯最大熵,和 - - - - - -最近邻算法),基于字典的方法和混合方法(2]。康等。3)提出了一种改进的朴素贝叶斯分类器,当两个类的准确性表示为平均值,这地址减少平均精度的问题。陈和曾4)使用两个基于支持向量机的多类方法:one-versus-all SVM和单机多类支持向量机分类注释;这种方法可以用高质量分类评价准确。他和周(5)提出了一个战略实现情绪分类任务通过使用特性监督而不是实例级监督、和先验信息提取现有的情感词典结合情绪分类器模型学习获得初始分类器。这种方法优于现有的弱监督情绪分类算法和可用于文本分类相关的先验知识。Polignano et al。6]研究分析社交媒体跟踪的问题来确定一个人的同情心的倾向。利用社会媒体的信息,他们使用线性回归算法预测用户的的共情水平。研究结果表明一个重要的移情和人格属性之间的关系。情感分析领域的,上面的文本情感分类模型的效果并不令人满意。很难适应丰富的语言环境。也很难被大规模应用和严重依赖于特征选择策略和模型参数的优化。在计算机视觉和自然语言处理,作为一个扩展的机器学习领域,深度学习已被广泛使用。
深度学习的基本结构实际上是深层神经网络,深入学习模式将原始数据转换成更高层次抽象表示通过一些简单的非线性模型,它可以通过结合多层复杂的函数特性学习转变。因此,作为传统机器学习模型相比,深度学习可以更好地应用于情绪分类任务,提高模型的属性。现有的深层神经网络方法主要包括CNN(传统神经网络),RNN, LSTM(长期短期记忆)。CNN可以有效地捕捉当地的情绪信息的文本情感分析领域的使用时,但很难考虑的长距离依赖文本和文本的顺序。时间递归神经网络,通过序列LSTM集成了文本,这适用于行为和预测里程碑相对长的时间和延迟时间序列。考虑到LSTM只能使用文本的信息,而不是文本的落后的信息,提出了一种双向长期短期记忆网络文本上下文信息合并到模型的同时,提高模型的预测性能。然而,由于大型输入维数,直接使用BiLSTM模型可能会导致相当大的计算开销。在这篇文章中,CNN和BiLSTM总和。CNN是用来创建一个池层,这是进一步LSTM沿管道传播。它可以降低原始数据的维数的词向量矩阵,然后把BiLSTM情绪分析模型。 Thereby, the model’s operational efficiency and forecast accuracy can be improved much more. Experiments with the CNN-BiLSTM model suggested in this research will be conducted on COVID-19 online review on Twitter. By extracting important words from twitter and embedding words, some words are difficult to extract their essence, such as satire and irony. Here, we can further divide words into multiple regions and use convolution layers to extract further features to solve them. In this paper, the GloVe model is used for word embedding.
本文的其余部分组织如下:部分2提出了一个简短的文献综述神经模型的情感分析和文本分类。部分3提出了相关的方法和详细描述了该模型。实验结果发表在部分4。最后,部分5本文总结并提出了未来的研究方向。
2。相关工作
提议的深度学习的概念,情感分析的研究开辟了一个新的发展阶段。Polignano和巴西7]证明了汉斯系统建立在一组分类器,包括支持向量机算法,随机森林,一个多层感知器神经网络。作者正式通信连接word2vec词向量和TF-IDF袋的话。王妃和库马尔8CNN)用于研究情绪分析在不同的语言。变量使用数字卷积层在实验中,随着不同数量和大小的过滤器。阿比德et al。9)创建混合架构,使用RNN首先捕捉长期依赖与CNN利用全球平均池层,和手套是通过无监督学习的相当大的Twitter全集。风扇等。10)提出了一个SDCNN模型建立了基于卷积神经网络和稀疏的辍学生,CNN相比,SDCNN增强模型的分类性能。在Twitter,情绪识别Chatterjee et al。11)建议SS-BED,多通道LSTM模型;在这个模型中,手套采用并行pretrained字嵌入的,和三个LSTM模块用于解决长文本的依赖性。Alotaibi et al。12]介绍了多通道深度学习框架,它结合了双向封闭的复发性单元(BiGRU),变压器,和卷积神经网络(CNN)微博评论进行分类分为两类:积极和消极对抗。赵et al。13)提出一个2 d CNN-LSTM网络认识到情感,它包括四个当地特色学习块(LFLBs)和一个LSTM层,和实验结果表明,所构造的网络语音情绪识别任务中表现良好。李等人。14)提出了一种双通道CNN-LSTM家庭模型字典集成和一些具有挑战性的实验数据集,如斯坦福大学人气树图资料库;结果表明,该策略优于几个标准的方法。Munandar et al。15)采用混合神经网络架构分类情绪多畴的短消息,mlp(多层感知器),cnn,和LSTMs是用于构建体系结构;实验结果表明,该模型可以有效地解决分类在自然语言处理的挑战。Polignano et al。16]提出一种基于BiLSTM情绪分类模型和CNN深层神经网络。模型是由一定程度的self-attention。作者用三个字嵌入方法实验三个数据集,和实验结果表明,FastText向量空间允许获得最好的结果的识别情感。比较表关于以上相关工作如表所示1。
分类文本准确、适当的文本特征表示尤为重要。文本特征表示可以压缩文本词向量空间的维数的前提下,正确地识别特征的文本内容,区分不同类型的文本特征项。在实践中,向量化词通常用于语义特征表示。目前广泛使用的有两种类型:一种是基于全球矩阵分解,如救生设备(17),另一种是本地上下文窗口,如跳过克word2vec使用。其中,LSA的主要优势是使用统计信息进行语义分析,但其影响词汇的比喻很差。尽管word2vec词法类比性能好,受限于本地窗口的特点,很难有效地利用全球词汇同现统计。手套结合了上述两种的优点,结合全局统计信息与当地的上下文窗口,和有一个更好的词向量化的效果。延安和大港18)将手套与word2vec词向量用于文本特征提取,然后用支持向量机用于文本分类。通过实验,证明了手套在文本分类具有更好的效果。此外,伯特(19谷歌在2018年发布的)模式取得了最好的结果在11经典NLP任务和已成为一个非常受欢迎的词向量模型。当然,仍存在一些突出问题伯特的实际应用。这些问题需要通过进一步的实验研究人员讨论。
灵感来自上述的特征提取方法使用词向量化和构建使用神经网络分类模型,提出了一种将手套与CNN-BiLSTM文本情感分析模型。在特性表征阶段,手套词向量的维数可以降低文本属性,然后情绪分类模型是由结合CNN-BiLSTM模型实现的目的充分利用文本上下文构造分类模型。实验表明,该方法可以获得较好的分类效果。
3所示。方法
的网上评论COVID-19作为一个例子,本文构造了一个基于GloVe-CNN-BiLSTM情绪分类模型。首先,我们应该做文本处理,如删除停止词,词元化,和标记化的单词。通过手套词进行向量化,这包含尽可能多的文本语义和语法信息,同时降低向量空间的维数。然后,构造CNN-BiLSTM训练的神经网络模型。它不仅可以利用CNN提取地方特色,还利用BiLSTM考虑文本序列的全局特征。图1显示模型的体系结构,主要分为两个部分:文本表示和CNN-BiLSTM-based情绪分类模型建立。
3.1。手套模型
手套模型是一种有效的方法来利用全球语料库统计和优化学习模型基于上下文窗口。它的主要目标是通过输入词汇向量和输出语料库进行向量化。实现方法如下:首先,构建一个基于整个语料库词同现矩阵;接下来,学习单词向量处理由于同现矩阵和手套模型。手套模型如图2。
手套模型可以描述由以下公式: 在哪里是同现矩阵和单词的次数和出现在一个窗口是由元素 。窗口大小一般是5 ~ 10,和代表单词的词向量和字 。 和的偏差,同现矩阵的尺寸吗 ,和权函数,在哪里必须有以下特点:
共存的单词数量是0时,重量也是0,也就是说, 。(1)共存时,单词量更大,它的重量将不会下降,也就是说,满足连续性和非衰减(2)当话语显得过于频繁,没有权重,也就是说,可以被指定一个相对较小的值。总之,权函数有以下公式:
通过实验时效果更好 ,由公式(1),手套可以直接使用语料库词向量计算的文档本身,它具有较强的可操作性和高灵活性。
3.2。卷积神经网络
卷积神经网络模型是一个前馈神经网络用于从文本中提取主题特征上下文特征。CNN的结构分为三个部分:输入层第一部分,卷积层和池层是第二部分,完全与多层感知分类器是第三部分,和CNN的核心是第二部分。CNN模型如图3。假设一个评论文本 ,在评论文本 ,这个词翻译成匹配词向量手套,一个句子矩阵创建从句子由单词在这里。
。在CNN模型中,卷积的输入层,卷积层使用一个过滤器的尺寸吗 旋卷句子矩阵和提取当地的语义属性 。的计算公式如下: 在哪里的过滤器 , 是ReLU非线性转换, 是 - - - - - -行词向量从来 在 , 是抵消,的本地语义特征吗 - - - - - -th句子的词汇提取通过CNN。随着滤波器通过整个滑翔机通过步长1,局部特征向量的集合终于获得:
最大池方法是用来提取特征值来代替整个当地最高的特性通过卷积操作,和特征向量的大小可以大大减少池操作:
最后,在完整的连接层,汇集所有功能集成,产生以下输出向量 :
CNN情绪特征提取模型如图3。
3.3。BiLSTM
LSTM模型如图所示4是一个循环神经网络解决创建通用RNN的长期依赖问题。与普通循环神经网络相比,LSTM门细胞RNN补充道,根据功能可分为输入盖茨输出门和伪造门,统称为长期和短期记忆单位。LSTM单位可以记得在任何时间间隔值,和三个控制单元控制信息流的单位。这是选择性阅读和写作的优势信息,极大地弥补了缺陷的梯度爆炸和梯度消失。
在长期的短期记忆神经网络部分,输入门 ,输出门 ,而忘记门在时间 ,分别有以下操作公式:
其中, 都是权重矩阵,LSTM结构图如下:
尽管LSTM解决了长期依赖问题,很难利用文本的上下文信息。BiLSTM的模型设计的概念特性数据获取时间在过去和未来之间的信息在同一时间。实验表明,这种神经网络结构模型具有更好的文本特征提取效率和性能比单一LSTM结构模型。在文本情感分类、BiLSTM还考虑文本的上下文,并使用CNN池层的输出作为输入的两个LSTM网络相反的时间序列。远期LSTM可以获取上述信息的输入序列,和向后LSTM可以获取上述信息的输入序列。输入序列的上下文信息然后计算矢量拼接获得最后一个隐层的表示。值得一提的是,在BiLSTM LSTM神经网络参数是相互独立的,他们只分享word-embedding词向量列表。BiLSTM模型显示在图5。
4所示。实验研究
4.1。实验数据集
本文的实验数据是COVID-19评论数据集,我们使用Python抓住COVID-19评论来自Twitter的数据通过网络爬虫的方法。数据集共有81696行和8列的评论,包括35093年的积极评价,负面评论,31060和15543中性评论。数据集分为训练集和测试集,和比8:2。数据分布是图所示6,显示了数据集的实例图7。
4.2。实验参数设置
改善情绪的性能分析模型的评论内容,本文调整超级GloVe-CNN-BiLSTM构造模型的参数,其中参数的影响主要包括CNN滤波器的窗口大小,手套词向量的维数,卷积过滤器的层数,输出BiLSTM维度。Glove-CNN-BiLSTM神经网络模型是由Python语言和Tensorflow2深度学习框架。我们的实验的操作系统是Windows,处理器是英特尔(R)的核心(TM) 19 - 10900 k的CPU @3.70 GHZ 3.70 GHZ和GPU GeForce RTX 3080。最优参数设置如表所示2。
4.3。实验评价指标
本文的准确性, - - - - - -分数和损失函数是用来实验的评价指标。对于一个给定的测试数据集,准确性是指数量的比例样本正确分类的分类器的样本总数,也就是说,测试数据的准确性,当损失函数是0 - 1。损失函数是用来衡量模型的预测,降低损失函数,模型越好。一般来说,有关阶级被视为积极的阶级,被视为消极类和其他类。测试数据集上的分类器的预测是正确的或不正确的。四个病例的总数记录如下:
TP:预测积极类作为积极的类的数量
FN:预测的数量正类的数量负类
外交政策:预测负类作为正类
TN:预测负类的数目为负类的数量
- - - - - -分数是精度和召回的调和平均数:
4.4。实验结果和分析
在本文的实验部分,进行了三个实验,即完整文本情感分析,文本情感分析,和简短文本情感分析。首先,文本应该分裂长度,短长度小于170的定义,定义和长文本长度为170到300。分裂后,有54167个文字数据和27529简短文本数据。完整文本指的是原始文本没有分裂。然后提出了模型的评价指标的计算是基于完整文本数据集,文本数据集,分别和简短文本数据集。其他深度学习模型(CNN-BiLSTM TextCNN)是用来做比较的实验。短的实例表所示3。
文字显示在表的实例4。
4.1.1。实验完整文本数据集
完整文本数据集的实验结果如表所示5和数字8和9。表5显示了三种模式的比较。图8显示的准确性和损失三个模型在测试集上。从表5和图8GloVe-CNN-BiLSTM模型中,观察到的精度高于CNN-BiLSTM模型和TextCNN模型,和GloVe-CNN-BiLSTM低于CNN-BiLSTM损失函数模型和TextCNN模型。这表明GloVe-CNN-BiLSTM模型的鲁棒性能比CNN-BiLSTM模型和TextCNN模型。GloVe-CNN-BiLSTM的混淆矩阵模型如图9;作为一个可视化工具,混淆矩阵可用于评估分类精度。积极评价的测试数据集是16329年,7175年,中性评论是3059年,6095年和负面评论。混淆矩阵,可以看出6962条评论和积极评价预测,预计2795条评论为中性评论,5862条评论预计负面评论。结合表5和数字8和9,它表明GloVe-CNN-BiLSTM模型中获得更好的性能。
10/24/11。实验文本数据集
文本数据集上的实验结果如表所示6和数字10和11。表6显示了三种模式的比较。图10显示的准确性和损失三个模型在测试集上。从表6和图10GloVe-CNN-BiLSTM模型中,观察到的精度高于CNN-BiLSTM模型和TextCNN模型,和损失函数GloVe-CNN-BiLSTM低于CNN-BiLSTM模型和TextCNN模型。这表明GloVe-CNN-BiLSTM模型的鲁棒性能比CNN-BiLSTM模型和TextCNN模型。GloVe-CNN-BiLSTM的混淆矩阵模型如图11;作为一个可视化工具,混淆矩阵可用于评估分类精度。积极评价的测试数据集是10825年,5164年,中性评论是1335年,4326年和负面评论。混淆矩阵,可以看出4122条评论和积极评价预测,预计1211条评论为中性评论,4960条评论预计负面评论。结合表6和数字10和11,它表明GloVe-CNN-BiLSTM模型中获得更好的性能。
4.4.3。短文本数据集实验
在短文本数据集实验结果如表所示7和数字12和13。表7显示了三种模式的比较。图12显示的准确性和损失三个模型在测试集上。从表7和图12,观察GloVe-CNN-BiLSTM模型的精度高于CNN-BiLSTM模型和TextCNN模型,和损失函数GloVe-CNN-BiLSTM低于CNN-BiLSTM模型和TextCNN模型。这表明GloVe-CNN-BiLSTM模型的鲁棒性能比CNN-BiLSTM模型和TextCNN模型。GloVe-CNN-BiLSTM的混淆矩阵模型如图13;作为一个可视化工具,混淆矩阵可用于评估分类精度。积极评价的测试数据集是5504年,1951年,中性评论是1778年,1775年和负面评论。混淆矩阵,可以看出1719条评论和积极评价预测,预计1662条评论为中性评论,1881条评论预计负面评论。结合表7和数字12和13,它表明GloVe-CNN-BiLSTM模型中获得更好的性能。
从上面的实验的结果,它可以证明,本文提出的模型具有明显的优势;这是由于强烈的特征提取能力和深度学习的非线性拟合能力,从而大大提高了深度学习模型的预测性能。此外,与其他深度学习模型相比,该模型还提出了具有显著的优势,这是由于BiLSTM手套模型和时间特性的模型。BiLSTM LSTM向前和向后LSTM的组合,可以联系上下文的关系,所以它可以有更好的预测性能。另一方面,该模型使用CNN降低维度的特性,所以它可以更有效地提取特征,并使用它们对情绪分析,进一步提高了预测精度和运行效率的BiLSTM模型。
5。结论
如今,在线评论的情感分类研究一直是NLP的重要任务之一。情绪的分类、特征提取和分类器设计尤为重要。解决Twitter网上评论文本的情感分类与长时间运行和短混合文本,本文提出了优化GloVe-CNN-BiLSTM模型。我们使用pretrained手套word-embedding嵌入层的初始权重向量,然后CNN-BiLSTM用于构建网上评论的情感分析模型。本文使用Twitter的COVID-19评论数据集验证实验结果。我们在完整文本数据集进行实验,文本数据集,分别和简短文本数据集。实验结果表明,GloVe-CNN-BiLSTM模型的精度可以达到0.9565完整文本数据集,0.9509文本数据集,对短文本数据集和0.9560,远高于CNN-BiLSTM模型和TextCNN模型。在线评论的情感分析有助于政府部门及时掌握公众的意见一些政治事件和舆论正确指导和制定相关政策。因此,本文提出的模型具有重要的现实意义。同时,本文提出的模型具有良好的域可扩展性。 In the field of marketing, companies use it to develop strategies to understand how customers feel about products or brands, how people react to their campaigns or product launches, and why consumers do not buy certain products. It is helpful for enterprises to improve their product sales. In the future work, we will apply our new method to the sentiment analysis of the Chinese online comments text which is also mixed with long-text and short-text.
数据可用性
使用的数据来支持这项研究的结果可以从相应的作者。
的利益冲突
作者宣称没有利益冲突发表这篇论文。
确认
这项研究受到了特殊的人文社会科学研究项目教育部(批准号18 jdsz3039)。