西藏微博情感分析基于连续模型在线社交平台

文摘

随着微博的发展,销售和购买出现在在线社交平台,如新浪微博和微信。除了汉语,藏语也用于描述产品和客户的意见。在这篇文章中,我们感兴趣的是对西藏微博情感分析,有助于理解为西藏客户意见和产品评论。它具有挑战性,因为现有的研究很少关注西藏的语言。我们的核心思想是西藏微博表示为向量,然后分类。微博表现的更全面,我们选择两种功能,连续的特征和语义特征。此外,我们在新浪微博数据集实验结果清楚地证明的有效性特征选择和分类方法的效率。

1。介绍

微博广泛应用于人们的日常生活。由于这种工具是易于使用,它吸引了越来越多的人。类似于Twitter,新浪微博已经成为中国最重要的微博工具。在2016年第一季度,每月有2.61亿活跃用户,在新浪微博每天1.2亿活跃用户。微博提供了这样一个平台,用户不仅可以分享信息,还通过表情来表达自己的情绪,声音,和视频1]。

与用户的爆炸式增长,越来越多的卖家已经意识到微博平台可用于电子商务,开始宣传。西藏除了用普通话写微博的用户,用户有相同的必要性。例如,西藏用户愿意为一些产品做广告。他们描述这类产品在西藏,然后卖给他们。这必然增加,而西藏的用户增长。据统计新浪微博的用户组(2),西藏的日常更新微博约为2000。

客户倾向于阅读产品评论之前,网上买东西。和商人喜欢炎热的卖家。如果存在一些解决方案,可以帮助他们决定哪一个?毫无疑问,情感分析可以帮助了解意见和产品评论。不同于普通话,西藏语言有其自己的特点。西藏单词和短语与普通话不同的词语和短语。因此,很难做一个简单的映射。这是一个挑战来处理西藏微博。另一个挑战是缺乏基本知识。自西藏民族是一种少数民族,一些研究者关注西藏微博分析。 However, Tibetan microblog analysis, especially emotion analysis of Tibetan microblogs, is quite useful.

不同的情绪,从传统的分析我们将西藏的句子分为七类,而不是积极的和消极的倾向分类。倾向分类可以达到良好的分类效果是否它是基于字典的方法或统计学习方法3]。应对新颖和挑战分析西藏微博的情感问题,我们考虑不同的特性和微博使用multiclassification模型进行分类。我们做出一些贡献。

首先,我们分析西藏微博的情感通过连续的特性。给定一组文本,我们构造序列向量化。在每一个序列,我们对待情感词,连词,消极词汇和其他情感特征项。潜在的连续特性可以通过序列模式挖掘的控制下的最小支持或最小的信心。选择序列特征的主要原因是序列模式挖掘可以发现潜在的信息。

第二,我们继续微博情感分析西藏通过添加语义特性。语义特征包括情感词,程度副词,消极词汇。我们构建的空间向量通过使用词性特性(N-POS)模型和语法依赖性。

第三,我们在新浪微博上验证我们的特征选择和multiclassification数据集。实验结果证实multiclassification特征选择的有效性和效率。

剩下的纸是组织如下。我们在部分评审相关工作2。节3,我们分析西藏微博的情感通过连续的特性。节4通过添加语义特征,我们继续我们的分析。我们报告的实证评价结果部分5和总结的论文部分6。

西藏微博情感分析顺序模型相关的序列模式挖掘和情感分析。

2.1。情感分析

情感分析的系统研究始于21世纪初。情感分析的基本过程如图1,包括收购网络文本资源、文本预处理、语料库建设、情感词典构建和情感分析的相关处理。

2002年,彭日成等人首先应用监督学习的方法进行电影评论文本的情感倾向分类(4]。同年,特尼提出了基于语义倾向(无监督情感分类方法5]。两种情感分析方法导出:情感分析方法基于监督学习和情感分析方法基于无监督学习。

目前,使用机器学习分析情绪仍是主流。基于监督学习的情感分析方法也称为基于机器学习的方法。基于无监督学习的情感分析的方法可以分为基于词典的分析方法和基于规则的分析方法。

基于字典的情感分析的具体方法构造的情感词典首先,每一个情感词必须被给予一个情感极性和情感价值。然后根据情感词的极性和价值的句子,我们计算出每个句子的情感得分。提出了模糊集的分析模型,构造隶属函数,我们测量的句子情感倾向之间的距离不同层次(正面、负面和中性)。最短的情感倾向决定整个句子的情感倾向(6]。

基于情感词典,基于规则的分析方法在声明中介绍了组件之间的逻辑关系。这种方法是一个优化。基于规则的方法充分的语法关系和句子。他们对语法结构的句子作为一个整体,而不是一堆单词。句子之间的统计相似性研究没有句子解析(7),它使用单词放在句子中功能。

在[8),刘等人指出,西藏文本从页面中提取天然标签信息可以用来构造原始语料,单词和短语语料库,文本分类语料库,等等;“情感”是定义为一个积极的意见和负面意见由Das和陈2001年(9]。在[10刘),分析用户的观点,态度,和感受在定义的主题和情感分析(意见挖掘)在2012年作为主观信息。文本分析和挖掘多语言环境是密切相关的,和多语种语料库建设意见挖掘的一个重要的任务在多语言环境11]。

青木和田认为,估计所表达的情绪表情符号是重要的声誉分析和自动创建表情符号的情感向量的方法,提出了使用情感词和符号之间的关系从许多博客文章(12]。很多研究工作研究使用深度学习方法的可行性在情感分析根据相邻的单词在句子之间的关系。高等人提出了一种新的模型的情感极性转换模型加强文本协会(13]。朱等人使用知网在中国词的语义进行情感倾向的计算(14]。和Decheng进行情感分析的中国句子语义通过句法结构和依赖关系15]。

上述研究被用于英语或汉语情感分析,也没有有效的方法来分析西藏微博的情感。

2.2。序列模式挖掘

序列模式挖掘模型(16)也用于加权数据,模式被认为是一个模式的功能和支持被认为是重量。序列模式挖掘与广泛的应用程序,包括分析客户的购物模式,网络访问模式,和DNA序列数据挖掘的研究话题。它首次引入Agrawal和Srikant [17]。给定一组序列,他们想要找出所有的频繁子序列的发生频率序列的集合是不低于用户指定的min_support。提出了许多有效的算法挖掘序列模式。priori-based算法,比如GSP [18),试图减少搜索空间基于序列的先验的财产属性。和模式以算法,如FreeSpan和PrefixSpan [19),挖掘序列模式通过投影序列数据库基于序列的子序列,然后成长。然而,由于很难在实践中选择一个合适的阈值,我最高的任务k提出了序列模式。Tzvetkov等人提出了一个算法称为茶匙(20.],它旨在我前k频繁闭序列模式的长度不小于给定的最小长度。他们认为闭序列模式的紧凑表示频繁模式。减少时间和空间复杂性,提出了许多快速的方法。时间关系文本顺序关系制定信息分析包括一个事件的网络舆论矿业(21]。

3所示。情感分析基于连续模型

在本节中,我们首先介绍我们连续模型,然后利用模型对西藏的文本进行分类。

3.1。顺序模型

让是一组项目。一组项目是的一个子集:也就是说, 。一个序列是有序列表的项集,捐赠的吗 ,在那里是一项集。一个序列长度被称为一个序列。一个序列被称为另一个序列的子序列和一个超层序的,捐赠 ,如果存在整数这样。

一个序列数据库是一组元组吗 ,在那里是一个sequence_id和一个序列。一个元组据说包含一个序列,如果子序列的。一个序列的支持在序列数据库中是数据库中的元组包含的数量吗:也就是说, 。

频繁模式通常用于生成关联规则。考虑到规则 ,在那里和是项目集。法治的信心等于支持的比例的支持。

然后,我们举个例子来说明上面的概念,如表所示1。我们表示标记序列数据集和最小支持。数据集包含4序列和8项。其目的是找出所有的频繁k序列支持大于或等于50%。我们发现如果存在于一个序列,有75%的概率出现。换句话说,规则有75%的信心。另一个例子是,规则有100%的信心。


SID	序列

1
2
3
4

长度	模式

1	,,,
2	,,,
3	,,
4

3.2。序列的分类西藏文本

本节介绍了西藏微博的分类处理文本。在序列中,每个句子被认为是一个项目设置(在这里,单锤被认为是象征这句话部门),在连词也分别表示为项目。文本表示为一个序列,其中包含多个项目。我们举个例子在表2。

文本

(今天的测试结果出来了)

(结果不高)

(但进步是伟大的)

文本包含三个句子。考虑到负面词(“”),把连接词(“”),我们可以得到这个句子序列如下所示:

连词可以用来反映单词之间的相互关系(如事业的关系,把关系和因果关系)。和单词之间的关系有很大影响整个文本的情感。因此,重要的是要添加一个连接句子被序列化时作为一个序列特性。

在西藏建立一个序列数据库文本的步骤如下所示:(1)每个句子的西藏文本用于基于字典的方法确定句子的情感。(2)我们把每个句子的情感标签与句子的连词将文本转化为一个序列。(3)在训练集,我们表达的情感标记每个微博指着一个类。例如,文本的情感标签在上面的例子中是“快乐,”和下面的输入序列可以获得如下:

基于上述方法,我们可以构造一个序列数据库。通过序列化西藏句子训练集,我们可以使用序列模式挖掘算法找到满足最低的频繁序列规则支持或最低的信心。这些序列规则代表不同的情感类别的特定模式。

4所示。西藏的情感分类基于语义特征

在本节中,我们选择西藏微博特征用于分类和分析我们选择他们的原因。

4.1。语义特征选择

情感分类将给定的文本与一个或多个情感类别根据文本的情感特征。关键是要选择正确的情感特征。有效的特性能够显著提高分类器的性能。我们仍然使用经典的向量空间模型表达的微博。虽然传统的特征提取算法可以达到一个好的效果的主题文本分类,由于忽视语义特征,这类算法差效应应用于直接的情感分类。基于微博的特点,探讨了从不同角度提取微博的情感特征。微博的情绪隐藏大量的类别特征,可以从语法结构和语义提取的水平。为此,本文提出了以下四种类型的语义特征的候选特征向量构成的微博情感向量空间模型。

(1)情感词的特点。情感词包含情感色彩和表达人们的内心感受,如快乐、愤怒和厌恶。这类词有重要的参考价值。在实际的微博语言环境,网络词汇,短语,句子短,和表情符号的情感倾向。摘要情感词提取基于西藏微博的情感词典。

(2)情感因素。所谓的情感因素是消极词汇,学位的话,和相关的单词。这些单词的出现往往影响情绪变化或情感的力量在一个句子:例如,“”(尽管我们无法立即取得成功,但如果你努力工作,你最终会完成)包含了情绪上的影响因素”(不)”、“(但)”等等。这些情感词可以确定用户的情感的趋势。

(3)统计的单词。据统计和研究,我们发现一个词性或连续几个部分组合包含主观信息和客观信息。N-POS(词性)模型是一种基于语料库统计自然语言模型。当N是3,连续三个单词组合成一个模式。本文将连续三部分的序列视为情感特征。

例子如下:(我最好的朋友,很高兴认识你)。

词类如下:/ ng:名词,/:形容词,/ rh:代词,/ ks:晶格,/ vt:动词,/ h:名称标记,/ ki:晶格,/ ng:名词,/ vi动词,/ xp:象征。

句子的three-POS特性如下:名词、形容词、代词;形容词、代词和晶格;格代词,动词;格,动词和标记名称;动词,名称标记和晶格;名称标记、晶格和名词;格,名词和动词;名词,动词,和象征。

(4)语义依赖的特点。我们用单词和单词之间的语义关系来揭示句子的句法结构。语义依赖的主要元素是语法文法的句法结构。它指的是二元关系的词对句子,其中一个叫做中央词和其他词称为子公司。依赖表达语义中心词和子公司之间的依赖关系。通过探索之间的相互依赖中央单词在句子中的和子公司的核心词,我们可以获得有效的情感特征和帮助的情感分类实现更好的结果。

本文的分析采用西藏语法解析器由长Congjun和其他来自中国社会科学院的人,这是一个高度优化的概率上下文无关语法和词法分析器的依赖。解析器结构的句法树库方括号“(”和“)”和使用的详细标签方案表3标签。二进制依赖关系的帮助下,我们采取自底向上的方法建立的二叉树的句子。


的名字	象征

正常的名字	神经网络
佛教梵文	NF
中性的形容词	斧头
对象介词	P2
介词短语	页
实现介词	P3
积极的形容词	阿兹
判断动词	VJ
动词短语	副总裁
的名字	NR
消极的形容词	房颤
动词的存在	已经
名词短语	NP
副词	广告
感叹词	IJ
人称代词	RR
句子	知识产权
- - - - - -	- - - - - -

例句如下:(今天是父亲节。祝你好运!)

这个句子的语法解析结果如下:[[[IP(转专业(NP [ng(今天)]][[U(停顿)的粒子]]][副总裁(KP (NP (KP (NP (ng(父亲)]][K[公斤(所有格)]]][N [ng(假日)]]][K [kx(向格)]]](VP (NP (ng(祝你好运)]][V (vt]]]]](PU (xp]]]。

我们使用的语法树,首次引入了吕西安Tesniere [22),表示句子结构依赖关系。生成语法树如图2。

相应的句子结构依赖关系如下:转专业(NP, U), KP (NP, K), NP (KP, N), KP (NP, K),副总裁(NP, V),副总裁(副总裁KP), IP(副总裁转专业),和根(IP、PU)。

从图2,我们可以发现微博的主题(节日),谓语。微博的语法结构是显而易见的。

4.2。微博的情感向量空间模型

在本文中,我们使用向量空间模型表达微博短文本的文本。的微博。我们可以用特性集文本进行向量化的空间,例如,文本的向量化是 ,在那里特点,对应于特征项特征重量是。为了解决微博的数据稀疏问题,我们选择序列规则、语义特征,和面部特征。

语义功能包括情感词特征,情感因素,词性特点,和语法相关的特性。情感词的情感维度7和特征值是固定的情感词的数量在每个类别。情感因素主要有连词、消极词汇和程度副词的副词,连词和消极词汇使用这个词的频率作为特征权重;程度副词使用重量系数表中作为权重。有更多的词汇特征和句法特征的依赖。我们使用统计方法选择有效的特征项和使用TF-IDF值作为权重。

一个情感符号是独特的情感特征的微博,可以分类的“好”,“快乐”,“悲伤,”“恨”,“生气,”和“害怕,恐惧。“这七种表情符号作为特征项,选择和特征权重表达式的条件概率表达的符号在相应的类别。

5。实验和分析

5.1。实验数据

本文的实验数据来自新浪微博。选择这个数据集的主要原因是,新浪微博是应用最广泛的平台,可以提供丰富的训练语料库。很容易构建顺序特性自微博时间和遵循幂律分布。我们用以下步骤收集微博。

首先,我们建立了一个微博抓取种子手动设置(主要是藏族的微博用户)和选定的126用户高频率的西藏微博作为初始种子。

第二,我们随机选择用户种子爬行,与此同时,我们爬过滤文本。如果我们打算保存西藏的微博,我们将获得相关的评论和其他用户参与微博活动。如果这些用户没有访问,他们将被添加到种子收集以下访问。

最后,我们存储西藏爬根据微博的微博和相关评论id。

我们固定的时间间隔由2016年2月至7月。最后,我们获得了300000件西藏微博。后准备西藏微博文本和标记数据,我们使用xml标记库来存储的微博信息。存储字段包含id、用户名、原文,西藏文本、主题,西藏字标签,西藏的语法树,和情感上的标识,如图3。

通过标签和过滤爬微博,我们选择了19200条微博。每个情感类别的细节如表所示4。50%的语料库是用于训练模型和50%用于分类的测试。


类别	好	快乐	悲伤的	讨厌	害怕	愤怒的	恐惧

数量	9600年	4800年	2400年	1200年	600年	300年	300年

5.2。评价指标

准确率、召回率和值通常作为评价指标。的准确性是指比微博上文本和手册的准确性和结果是一致的分类标签。召回是指正确地预测样本代表的比例在所有样本属于类。为了应对multicategory问题,macroaverage和microaverage作为评估标准。的准确性、召回率和macroaverage和microaverage计算如下:

时序规则挖掘方法中引入部分3.1,我们使用训练集构造序列规则。每个训练语料库由一个向量来表示。序列模式在每一个规则作为功能。如果相应的微博包含序列,其相应的功能设定的值是1,否则由0。

图4显示了情感分类阈值的支持如何影响。增加的支持,功能维度开始减少。支持度增加到0.035时,达到最好的效果,表明该序列特性可以更有效的情感识别。然而,特征维数的减少会导致相对恶化的分类效果。

图5显示了性能变化最小信任阈值如何影响情感分类的影响。在这个图中,最低信心变化从0.005到0.5,我们可以看到微在一个大范围值是稳定的,价值的增加显著降低最低价值的信心。这表明信心在这个方法的影响不是特别大。

6。结论

分析西藏微博的情感,有助于理解为西藏客户意见和产品评论。首先,我们使用序列规则分类西藏微博。提高效率,我们添加语义特性,其中包括情感词的特点,情感因素,统计的话,和语义依赖。我们也建议分析西藏微博通过构建语法树和定义情感计算处理的树结构。实验结果证实multiclassification特征选择的有效性和效率。作为未来的工作,我们将分析西藏微博没有情感词的情感。

的利益冲突

作者宣称没有利益冲突有关本文的发表或资金。

确认

这项工作是由中国国家自然科学基金(没有。61672553)和中国(教育部)人文社会科学项目(项目号16 yjczh076)。

引用

w·凌l s。Marujo, c .戴尔a . w .黑人和Trancoso,“挖掘平行语料库从新浪微博和推特的网络连接,”计算语言学,42卷,不。2、307 - 343年,2016页。视图:出版商的网站|谷歌学术搜索|MathSciNet
x太阳、c·李和f .任“中国微博情感分析基于深度与卷积神经网络扩展功能,“Neurocomputing卷,210年,第236 - 227页,2016年。视图:出版商的网站|谷歌学术搜索
y y。赵、秦,和t . Liu”情绪分析”,软件学报,21卷,不。8,1834 - 1848年,2010页。视图:出版商的网站|谷歌学术搜索
庞,l·李,美国Vaithyanathan“情绪分类使用机器学习技术,”学报ACL-02会议经验方法在自然语言Processing-Volume 10 (EMNLP ' 02),页79 - 86,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2002年7月。视图:出版商的网站|谷歌学术搜索
p·d·特尼和m·l·利特曼”测量赞扬和批评:推理的语义取向协会”ACM交易信息系统,21卷,不。4、315 - 346年,2003页。视图:出版商的网站|谷歌学术搜索
k . Lun-Wei w . Tung-Ho l .李英et al .,“提取评估语料库的建设意见,”《NTCIR-52005年,页513 - 520,日本,。视图:谷歌学术搜索
j·张,y太阳,h . Wang, y,“计算统计句子之间的相似度,”融合信息技术杂志》上》第六卷,没有。2,22-34,2011页。视图:出版商的网站|谷歌学术搜索
h·刘D·h·诺M, l·马“西藏矿业web文本资源及其应用”,《中文信息处理卷,29号1,第177 - 170页,2015。视图:谷歌学术搜索
亚马逊s Das和m .陈”:从股票留言板,提取市场情绪”《亚太金融协会年会(APFA),35-43,2001页。视图:谷歌学术搜索
b . Liu“情绪分析和观点挖掘,”合成人类语言技术的讲座,5卷,不。1、1 - 167、2012页。视图:出版商的网站|谷歌学术搜索
j·张,y的太阳,和a . j . hara”多语种语料库”对语义相关,国际信息管理杂志》上,35卷,不。3,第1387条,第395 - 387页,2015年。视图:出版商的网站|谷歌学术搜索
青木和o .田”的方法自动生成的情感向量符号使用博客文章,“国际期刊的电脑5卷,第353 - 346页,2011年。视图:谷歌学术搜索
高k、y s·李和y . d .阮”微博情感分析的方法,《中文信息处理卷,29号4,40至49,2015页。视图:谷歌学术搜索
朱y L, j . Min, y,“计算基于知网的语义取向”《中文信息处理,20卷,不。1、14到20,2006页。视图:谷歌学术搜索
l . Decheng“Tianfang姚明。语义极性分析和对中国审查意见挖掘的句子,“计算机应用2006年,卷。11日。视图:谷歌学术搜索
。剑裴。加威汉,b . Mortazavi-Asl et al .,“PrefixSpan:由前缀映射模式挖掘序列模式有效地增长,”17 IEEE国际会议数据工程学报》上,页215 - 224,IEEE计算机协会,洛杉矶类似加州,美国,2001年。视图:出版商的网站|谷歌学术搜索
r . Agrawal和r . Srikant挖掘序列模式”IEEE学报》11日数据工程国际会议,页3 - 14,加州圣何塞,美国,1995年3月。视图:谷歌学术搜索
r . Srikant和r . Agrawal挖掘序列模式:归纳和性能改进第五届国际会议上扩展数据库技术学报》上1996年,页3 - 17。视图:谷歌学术搜索
j .汉j .贝聿铭b . Mortazavi-Asl问:陈,新德里和M.-C。许,“FreeSpan: pattern-projected频繁序列模式挖掘,”第六届ACM SIGKDD学报》国际会议在数据库知识发现,页355 - 359,波士顿,MA,美国,2000年8月。视图:谷歌学术搜索
p . Tzvetkov x燕,j .汉“TSP:矿业top-k闭序列模式,”知识和信息系统,7卷,不。4、438 - 457年,2005页。视图:出版商的网站|谷歌学术搜索
j·张,c .姚明、y太阳和z方,“建立基于文本的暂时联系事件网络科学大数据分析,“无处不在的计算,20卷,不。5 p。2016。视图:谷歌学术搜索
b .板材和a . Moschitti”在内核树中嵌入语义相似度提取领域适应气候变化的关系,”《51的计算语言学协会年度会议上,ACL 2013索非亚,页1498 - 1507年,保加利亚,2013年8月。视图:谷歌学术搜索