文摘
本文旨在探索共同进化的微博情感分析情绪感染和行为。因此,深度学习架构(表示MSA-UITC)提出了目标微博。首先,共同进化的情绪感染和行为之间的联系强度描述微博,也就是说,与情绪感染的传播,情感表达等用户行为将受到影响。然后,基于微博用户交互和相关目标,霍克斯过程采用量化微博之间的联系强度,构建相应的加权网络。其次,在加权网络,Deepwalk算法用于构建序列表示目标类似微博的微博。接下来,CNN-BiLSTM-Attention网络(卷积神经网络和双向长短期记忆与多线程网络注意力机制)的目的是分析目标的情感分析和类似的微博。最后,两个真正的Twitter数据集上实验结果表明,该MSA-UITC拥有先进的性能比现有最先进的方法。
1。介绍
信息扩散是一个被广泛关注的研究课题,它涉及生物流行病传播的研究(1在复杂网络[],计算机病毒传播2,3),和其他主题4,5]。社交网络是信息传播的重要载体之一(6,7];用户经常表达自己的意见和情绪在社会媒体,甚至模仿表情,声音,和别人的手势,这叫做情绪感染(8]。在蔓延,情绪可以感染和从一个人传播到另一个9]。因此,情感已经成为社交网络信息传播的重要驱动因素。此外,情绪感染在社交网络上很少是独立的行为或信息的传播,和他们共同进化,并有很强的相互作用10]。与社交媒体信息的爆炸性增长,微博已经成为一种公共意见和情绪在不同的公共话题。因此,有必要分析微博的人气数据。例如,微博情感分析可以帮助企业准确地获取客户对产品的反馈信息11,12),根据反馈信息从而提高产品质量和开发更有效的产品促销计划。此外,政府可以快速应对公共事件通过网民舆论监督,实现情感指导。此外,微博情感分析中起着重要的作用在许多其他领域(13,14]。
最常见的研究方法lexicon-based微博情感分析的方法,基于机器学习方法和基于深度学习的方法。lexicon-based方法使用重量算法来分析情绪(15,16),在分类情绪极性相对简单,但其性能受限于情感词典和建设质量的判断规则。对于这个问题,许多研究人员应用机器学习微博情感分析(17,18]。不幸的是,基于机器学习方法的性能取决于带注释的数据集的质量。自动特征提取,基于深度学习方法被广泛开发(19,20.]。然而,微博短信与不规则的语法和丰富的数据相对较短的噪音,这加剧了有效性问题有用的数据。因此,这些方法,只有依靠独立的微博数据都有自己的缺点。
事实上,这项工作(21]声称有一个共同进化的情绪感染和用户行为之间的关系。换句话说,传染和蔓延的情绪,情感表达等用户行为将受到影响。当用户浏览信息时,用户的情绪很容易受到影响,所以用户发布的内容将显示的影响。Leskovec et al。22)指出,用户倾向于和相似的人交朋友,并将不断地调整自己的行为以跟上他们的朋友(23,24]。基于这些理论,米勒et al。25)发现,微博消息的情绪影响的连接信息和传播后形成的网络用户之间的行为。此外,结果在26)表明,情绪感染下,快乐的行为动态社交媒体上的传播。上述研究结果表明,行为和社会媒体信息的传播是相互依存的27,越接近用户,之间的联系较强的情绪感染,帖子的情绪变得更加相似。因此,共同进化的现象在社交媒体可以用来改善上述方法的不足,只有依靠独立的微博数据。
一些研究人员认为是共同进化的现象来分析微博的人气数据。胡锦涛et al。(28)使用情绪一致性(即。,the messages posted by the same user tend to have the same sentiment polarity) and emotional contagion to construct the tie for analyzing the sentiment of noisy and short tweets. On this basis, other studies have considered more influential factors to describe the tie strength between microblogs. For instance, the work [29日)的相似用户的个人信息和互动的频率,和工作30.)添加文本的相似度。这些方法提取的影响因素,包括所有主题在计算系的力量,但未能考虑用户之间的联系强度会显著差异在不同的话题。
对于这个问题,邹et al。31日]的主题背景下作为一个有影响力的因素把力量和刘et al。32把数据按主题分类。此外,作者(33]提出的主观和客观因素影响用户的情绪变化来模拟之间的情绪感染用户对微博谣言传播过程中。上述研究综合考虑相关因素的影响,将力量在社交媒体上,从而获得人气微博之间的相关性。然而,这些研究所有经验设置每个影响因素的权重计算领带时的力量,它有一定的对领带的准确性的影响力量。此外,最上面的方法采用最小二乘法将情绪极性,这并不适用于高维和无标号数据。深度学习的成功应用在自然语言处理领域,2019年,赵et al。34]提出结合深入学习和分析微博人气微博之间的联系强度,结果表明,其性能优于最小二乘方法,但这种方法简单适用传统的神经网络结构。到目前为止,我们最好的知识,没有其他相关后续工作。
受的开创性工作34),提出了一种深度学习架构(表示MSA-UITC)探索共同进化的微博情感分析情绪感染和行为。具体来说,共同进化的情绪感染和行为之间的联系强度描述微博,这是霍克斯的计算过程。此外,Deepwalk算法找到类似的目标微博的微博。此外,CNN-BiLSTM-Attention网络(卷积神经网络和双向短期记忆与多线程网络注意力机制)的目的是提取微博文本的语义特征。最后,两个真实数据集上实验结果表明,该MSA-UITC可以改善情绪分析的准确性。
本文的其余部分组织如下。部分2详细描述了该MSA-UITC。实验结果描述部分3。最后,结论部分提供了4。
2。拟议中的MSA-UITC
2.1。一个框架概述
图1说明了拟议的微博情感分析MSA-UITC的概述。它主要包括三个部分:构建领带strength-based加权网络,构建类似微博的序列表示和CNN-BiLSTM-Attention网络。首先,霍克斯的过程适用于计算将基于用户交互的强度和相关目标微博构建基于领带强度加权网络。其次,利用Deepwalk算法得到的序列表示类似的微博。最后,使用CNN-BiLSTM-Attention网络来提取目标的共同特征和类似的微博情绪预测。现在,让我们详细说明这些过程。
2.2。构建领带Strength-Based加权网络
在社交媒体上,有一个用户之间互动行为,即下面的关系,类似于现实生活中的朋友关系。根据情绪感染理论,用户更容易受到他们的朋友(也就是情绪。,这两个微博短信发布的两个用户使用以下关系也有类似的情绪[28])。此外,在同一话题,微博之间的关系越近,联系强度越强。因此,两个因素影响微博之间的联系强度。一个是下面的用户之间的关系,另一种是微博之间的相关性。
这个词来描述微博之间的相关性,Frequency-Inverse文档频率(TF-IDF)方法(35采用。让向量 表示文本发布的微博用户 ,在哪里代表了在这个微博上文本和th词表示的重量 。然后,可以计算如下: 在哪里代表单词的频率用户在微博发布的文本 , 代表单词的总数在微博用户发布的文本 , 在数据集的微博短信总数,然后呢表示微博短信包含词的数量在数据集。
防止分母为0,集等于1。根据方程(1)- (3),向量和的微博用户发布的文本和可以获得。之间的相关性和可以通过余弦相似度计算: 在哪里表示向量乘法和意味着模量。
接下来,霍克斯的领带强度计算过程,通常用来预测对当前事件的影响基于事件之间的相关性。因此,霍克斯工艺已广泛应用于视频流行预测(36)和疾病预测(37]。[据霍克斯的定义过程38),系力量 可以表示如下: 在哪里 , 和 ,分别代表以下用户之间的关系和和微博文本之间的相关强度 , 是一个常数的基本力量,表示的重量影响因素,和是时候调整因素的影响因素。最大似然估计是用来计算中的参数霍克斯的过程。最后,用户之间的联系强度和可以通过方程计算(5)。
构造系strength-based加权网络,让 代表microblog-user相关矩阵,矩阵元素 意味着微博发布的用户。让 代表用户之间的联系强度矩阵和 ,和元素 。让矩阵 表示微博之间的联系强度。根据上述定义,微博之间的联系强度矩阵可以表示为 。领带强度计算矩阵的一个例子之间的微博图所示2。
随着图可以很容易地获取节点之间的联系强度,本文将领带强度矩阵成一个无向网络 ,在哪里 代表节点,每个节点的集合在与微博相关的文本,代表的边缘,和元素代表每个的重量和边缘 。基于上述描述,加权网络 构造。
2.3。建筑的序列表示类似的微博
发现微博短信更类似于微博的边缘weigth目标 ,Deepwalk算法(39],结合随机漫步算法和Skip-Gram算法采用本文是第一个网络学习低维嵌入方法潜在的网络中的节点表示。
Deepwalk算法的主要实现过程如下。首先,随机选择一个节点从加权网络开始节点的随机游走。接下来,从邻居节点,直到走抽样最大的步长是达到了。由于节点的概率抽样的重量有关连接边缘,随机游走算法得到的一组节点 基于边缘的重量。具体地说, 被定义为一组相关的上下文节点的每个目标节点和代表了窗口大小。最后,使用Skip-Gram算法的目标函数来预测上下文节点为每个目标节点 。目标函数的表达式 在哪里 在哪里代表了 - - - - - -维向量空间,可以表示如下: 在哪里 表示一个矩阵, 的向量表示节点吗 ,和代表了嵌入维度。
的向量表示节点可以通过最大化目标函数 ,矩阵和向量表示 网络中的所有节点可以获得。因此,一个表示矩阵的所有类似的微博获取文本根据Deepwalk算法。
2.4。CNN-BiLSTM-Attention网络
获取表示类似的微博后,本文设计了CNN-BiLSTM-Attention网络预测目标的情感极性和类似的微博。如图3,情绪分析过程可以分为两个分支。左分支用于提取语义特征的目标微博,和正确的分支是用来提取语义特征的微博类似目标的微博。的特征提取过程两个分支将分别介绍如下。
首先,让我们介绍一下CNN-BiLSTM-Attention左边的分支网络。本文运用CNN-BiLSTM多线程关注机制来捕获目标的高级上下文信息微博。提取语义特征,词中嵌入方法是用于生成的向量表示。随着微博短信很短不规则的语法,维pretraining字嵌入(40本文使用)。
假设这个句子 包含单词。然后,每个单词映射到通过嵌入表示为向量表示 , 。因此,所有的句子都转化为作为神经网络的输入向量表示。图4显示了CNN提取句子的过程特性。具体来说,一个矢量表示序列 句子是由词的嵌入。然后,地方特色是通过卷积层生成的。提取多种特征,三个不同大小的过滤器是用于特征提取、滤波窗口大小设置为 。卷积的输出层 在哪里 代表权重矩阵,代表 , 偏差向量,是一个非线性函数。因此,地方特色的集合 通过卷积的层。为了进一步获取功能,包含重要信息,特征图谱生成的三个过滤器是发送到马克斯池层: 然后连接输出。
因为BiLSTM网络融合前后LSTM,特性在前面和下面的信息可以被捕获。获取句子之间的上下文相关的信息,BiLSTM是用来捕捉上下文语义信息。BiLSTM的输入是一个连接池层的输出向量表示 。图5演示了BiLSTM学习的内部结构上下文语义信息。BiLSTM的内部信息更新如下: 在哪里意味着elementwise乘法,表示输入,是激活函数, , ,和代表输入门,忘记门,和输出LSTM门,分别代表LSTM的内存单元, , ,和代表LSTM的隐藏状态,隐藏LSTM向前,向后LSTM的隐藏状态,分别和权重矩阵, , , ,和偏差向量,意味着BiLSTM隐藏的输出状态。
接下来,注意机制是用来分配不同的权重BiLSTM的输出特性。本文使用了多线程的注意机制,由一系列self-attention模型和提出了(41]。self-attention机制的表达式如下所示: 在哪里 代表查询向量,关键向量,和值向量,分别和他们self-attention函数的映射向量,和表示的尺寸 。然后,多线程的注意机制可以表示如下: 在哪里 在哪里 , , ,和代表权重矩阵的线性层。多线程的注意机制的结构如图6。
现在,让我们介绍一下正确的学习类似微博的特性分支。根据上述介绍,类似微博的序列表示Deepwalk生成的算法。所有类似的微博被认为是句子,他们处理类似于目标微博。具体地说,单词是由使用的向量表示同一个词嵌入方法左分支。句子顺序不提供上下文依赖性,这里只有CNN和多线程的注意机制是用来提取每个句子的语义特征,这是一样的左分支。
从两个分支中提取特征后,所产生的共同特点是连接这两个分支的特性。进一步获得与情绪相关的重要特性表达式,本文使用了多线程机制这两个分支以后注意。然后,联合特性被送入完全连接层预测情绪极性,并将softmax函数是用来学习每个情感极性的概率。本文采用熵损失作为损失函数在培训过程中,目标函数的表达式 在哪里训练集,微博在训练集文本,是情感极性的数量分类,意味着是否文本的情感极性属于的类别 ,和代表的情感极性的概率预测微博是 。本文优化网络通过最小化损失函数,并使用反向传播算法训练网络。
3所示。实验
在前一节中,提出MSA-UITC已经详细介绍了。为了进一步验证其有效性,本节将进行一些实验。首先,本节将介绍实验设置。然后,将描述数据集和评价指标。最后,性能分析,包括与其他方法比较将会实现。
3.1。实验设置
在实验中,Deepwalk算法的参数设置如下:最大的步长 和窗口大小 。CNN-BiLSTM-Attention网络、嵌入维度将pretrained词 ,培训时代设置为50,批量大小设置为64,CNN过滤器和BiLSTM隐藏单位的数量都是设置为128,和self-attention机制设置的数量 。此外,本文使用辍学操作之前完全连接层,和辍学率设置为0.5。
3.2。数据集
所有的实验都进行两个单词Twitter数据集:Obama-McCain辩论(证明OMD) [42)和医疗改革(HCR) [43]。证明OMD和HCR数据集包括tweet和手动情绪极性标签:(1)证明OMD:这个数据集包括3269条推讯和内容是关于2008年总统奥巴马和麦凯恩之间的争论。推文是由至少三个注释亚马逊机械Turkers情绪是由四个极性标记:积极的,消极的,混合,无关紧要。摘要多数投票分数是用来表示情绪极性的tweet,只有不断地用正面和负面的极性tweet。获得以下用户之间的关系,本文运用完整的追随者爬的图(442009年)。在实验中,证明OMD数据集分为三个主题里面的关键词,即。,Obama (including keyword “Obama” without “McCain”), McCain (including keyword “McCain” without “Obama”), and debate (including “Obama” and “McCain” or none of them).(2)HCR:该数据集包含2516条,内容包括医疗改革事件2010年3月在美国。手工标注5极性的情绪标签:积极的,消极的,无关紧要的,中立的,不确定。此外,这个数据集手动推分为9带注释的话题,即。,health care reform, Obama, Democrats, Tea Party, Stupak, Republicans, conservatives, liberals, and others [43]。证明OMD一样,在实验中,只保留推正面和负面的极性和使用以下关系爬,442009年)。
在实验中,随机分配数据集的训练集和到一个测试集的数据集。证明OMD和HCR数据集的详细信息如表所示1。
3.3。评价指标
比较微博情感分析方法的性能,本文用四个指标: , , ,和 。具体地说,在总代表正确预测样本的概率预测样本,正确地预测样本的概率是积极的预测样本总数是积极的,表示积极的正确预测样本的概率总阳性样品,和调和平均数的吗和 。计算公式如下所示: 在哪里 表示 和 代表了 。
3.4。方法论的比较和分析
3.4.1。实用性的领带和注意力机制
进行一些对比实验来验证探索微博和多线程的注意机制之间的联系是否可以改善情绪分析的准确性。
验证的有效性领带,数字7和8显示MSA-UITC和MSA架构的比较结果(该微博情感分析架构之间的领带不使用微博)证明OMD和HCR数据集,分别。从他们,我们可以得出这样的结论:MSA-UITC领带表现最好的两个 , , ,和微博情感分析,暗示有用的领带。证明OMD数据集,结果表明,MSA-UITC优于MSA和获得提高3.72%和3.33% 。此外,HCR数据集,MSA-UITC也实现了改进的3.21%和2.22% 。这是因为MSA-UITC与领带减轻微博的稀疏问题的文献通过构造人气微博之间的联系。
验证注意机制的有效性,数字9和10显示比较结果在两个数据集。具体来说,“文字+ concat关注”表示架构使用三个注意机制,“文本关注”意味着架构只使用注意机制的特征提取过程目标微博和类似的微博,“concat关注”代表注意机制仅用于连接层,和“不关注”意味着架构不使用任何注意力机制。从实验结果,我们可以得出这样的结论:注意力机制发挥了重要作用,改善结构的性能在两个数据集。这是因为文本层注意力和注意力分配有效连接层权重确定的情绪词的情感极性微博文本。证明OMD数据集,MSA-UITC高出2.27%和1.32%和比没有注意的架构机制。HCR数据集,MSA-UITC也实现了改进的2.41%和1.18%与架构没有注意机制。
3.4.2。比较先进的方法
上面的对比实验验证的有效性提出的把微博和关注机制之间的架构。为了进一步证实MSA-UITC的优越性,用最先进的方法执行一些比较实验。这些方法的详细信息如下:(1)桑特是一个监督方法(28]。它使用情绪一致性和情绪感染分类微博人气。(2)SMSC提出了(45]。它是一个结构化的框架结合微博情感分析的内容和社会背景。(3)SASS提出了(31日]。它使用结构相似性为情绪分析和主题上下文。(4)SRPNN提出了(34]。这是第一工作结合用户信任网络和深度学习网络情绪分类。
表2显示精度的比较证明OMD和HCR数据集。与最先进的方法相比,MSA-UITC执行最佳证明OMD和HCR数据集,这意味着该领带强度计算方法和CNN-BiLSTM-Attention网络可以提高微博人气的性能分析。在细节,与桑特方法相比,证明OMD我们建议的体系结构的数据集除了提高了3.45%,我们的建议的体系结构优于SMSC方法提高1.77%和0.99%,分别证明OMD和HCR数据集。SASS方法相比,MSA-UITC也得到一个分别提高0.76%和2.12%,证明OMD和HCR数据集。主要原因是我们建议的体系结构可以有效地连接类似微博,提高人气的准确性分析CNN-BiLSTM-Attention网络。
进一步验证的有效性提出了深层神经网络,我们的架构与SRPNN方法采用CNN和简化LSTM网络获取文本的语义特征。的比较结果表明,我们的架构获得2.99%的改善证明OMD HCR数据集的数据集和2.92%。这表明BiLSTM网络和多线程的注意机制取得了提高性能通过提取上下文语义信息和功能分配不同的权重。
4所示。结论
本文深度学习架构(表示MSA-UITC)开发探索共同进化的微博情感分析情绪感染和行为。具体地说,拟议中的MSA-UITC考虑用户交互和微博文本相关的影响因素,并使用霍克斯过程计算系的力量。此外,Deepwalk算法找到类似的目标微博的微博。后来,CNN-BiLSTM-Attention网络旨在提高人气的性能分析。最后,一些比较两个真正的Twitter数据集实验证明建议的体系结构的优越性。
虽然提出了微博情感分析体系取得了竞争的表现,有些未来可以继续工作。一方面,这种架构只把正面和负面标签数据集上的微博,和有必要扩大情绪类别的标签。另一方面,也可以继续优化深度学习模型来提高人气的性能分析,如使用一种改进的措辞嵌入模式46]。此外,本文认为用户交互和相关目标微博两个因素影响微博之间的联系强度。然而,目标微博上也有类似的情绪作为目标微博。因此,有必要考虑的历史目标微博联系强度的影响因素。
数据可用性
没有数据被用来支持这个研究的发现。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
作者声称,这项研究是实现合作同样的责任。所有作者阅读和批准最后版本的手稿。
确认
这项工作是由自然科学基金(批准号61702066和61702066),主要项目科学技术研究项目中国重庆市教育委员会(批准号KJZDM201900601),重庆的基础研究和前沿技术研究计划(批准Nos. cstc2017jcyjAX0256和cstc2018jcyjAX0154),重庆市重点实验室项目支持的高等教育机构(批准号cqupt - mct - 201901),项目由重庆移动通信技术重点实验室(批准号cqupt mct - 202002),项目由移动通信工程研究中心、教育部(批准号cqupt-mct - 202006),研究重庆为研究生创新项目(批准号,CYS17217和CYS18238)。