复杂性

在这一页上

文摘介绍相关工作结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

解决工程和科学问题使用复杂仿生计算方法

把这个特殊的问题

评论文章|开放获取

体积2021年| 文章的ID6152494| https://doi.org/10.1155/2021/6152494

Training-Optimization-Based方法构建特定于域的情绪词汇

Maokang杜 ,¹ 晓光李 ,¹ 和龙岩罗 ¹

学术编辑器: 宗庆后吸引Geem

收到了 04年7月2020年

修改后的 2020年9月27日

接受 2021年1月25日

发表 08年2月2021年

文摘

情绪分析已广泛应用于文本挖掘社交媒体的用户评论发现有价值的信息。情绪分析情绪词汇是一个重要的工具。最近的研究表明,特殊领域情感词典构建可以在情绪分析实现更好的结果。然而,它是不容易建立一个情绪词典为一个特定的领域,因为大多数当前的方法非常依赖于一般情绪词汇和复杂的语言规则。摘要情绪词汇转化为建设一个training-optimization过程。在我们的方案中,情绪分类的准确性作为优化目标。候选人情绪词汇被视为个人,需要优化。然后,两个遗传算法是专门设计来调整情绪词词典的价值。最后,提出最好的个体进化遗传算法选择的情绪词汇。我们的方法只取决于一些标签文本和不需要任何语言知识或先验知识。 It provides a simple and easy way to construct a sentiment lexicon in a specific domain. Experiment results show that the proposed method has good flexibility and can generate high-quality sentiment lexicon in specific domains.

1。介绍

目前,它已经成为人们表达意见和很方便的通过互联网分享知识。在互联网上在线评论的继续增加,情绪分析成为自然语言处理的一个研究热点问题。提供更好的个性化服务,情绪分析已经应用于提取用户从互联网上的评论意见1]。在大多数的情感分析方法,情感词典是必不可少的工具。情绪词汇包括情绪词或短语及其强度值和极性2]。一些最近的研究发现,不同的领域有其特殊的情绪的话,和这些特殊情绪词通常扮演着重要的角色在情绪分析(3]。因此,如何构建情绪词汇在特定的领域是非常重要的情绪分析,近年来也成为一个热点问题。

传统unigrams情绪词汇主要是手工收集的专家和注释。提出了一些常用词汇,如一般调查者(GI) [4]和SentiWordNet [5]。尽管这些方法提供了一个良好的基础构建情感词典,情绪词的词汇的数量很小,情绪词的范围是有限的。为了提高情绪词的报道,研究人员提出了一些方法来扩展传统情绪词汇(6,7]。Unigrams情绪词汇、程度副词和消极词汇构造组合在一起n克情绪词汇(2]。然而,n克词汇由这些方法只提供的情感极性n克但不能定量描述他们的情绪强度。此外,由于基本词汇的限制,这些方法不能产生新的情感词从未出现在基本词汇。

在某些情况下,该值和极性相同的情绪词可能会改变在不同领域。为了更好地满足情感分析的要求,有必要构建情绪词汇通过考虑域特征。有一些努力构建特定于域的情绪词汇。共同的想法是用在通用词典中情绪词的价值为基本价值,然后根据语料库自动调整的基本价值目标域(8,9]。然而,大多数的方法基于这个想法相关的背景知识域和语言学家们需要大量额外的注释。因此,这些方法没有通用属性和几乎不能为其他领域构建词汇。

近年来,提出了基于机器学习的一些方法来构造情绪词汇在特定的领域10- - - - - -12]。这些方法可以直接从语料库中提取情绪词的特定领域学习文本的功能。机器学习方法的主要优势是,他们不依赖于语言知识和领域知识,具有良好的通用性。此外,这些机器学习方法可以生成新的情感词,并不相关的基本词汇和基本词汇的限制。灵感来自于机器学习的概念,我们提出了一个training-optimization-based方法来自动构建特定于域的情绪词汇。不同的机器学习方法,我们认为学习的过程是一个优化过程和设计遗传算法优化情绪词的强度值。与加工学习方法相比,我们的方法都有一个简单的计算结构和高运行速度。本研究的主要创新和贡献如下:(我)框架的构建提出具体领域情感词典,建设的情绪词汇转换为训练和优化过程(2)收集我们的方法提取情绪词从简短的文本在目标领域,打破限制种子的词汇,有效提高了情绪的具体领域的报道(3)我们专门设计的两个遗传算法优化情绪词汇,这使得它可以自动调节情绪词的强度值根据域。我们的方法具有良好的通用性和可用于任何域

本文的其余部分组织如下。节2简要回顾相关工作情绪分析。部分3代表training-optimization框架和提出的算法构建情感词典。我们的计划的优点是所描述的部分4。节5,我们目前的实验结果。最后,结论部分6。

情绪词汇是一个重要的情感分析的基本组件,也对情感分类的结果有重要的影响。有一些著名的情绪词汇之前建造的专家,如一般调查者(4]和SentiWordNet [5]。虽然这些一般情绪词汇在文本情感分析,取得了一定的成功普遍情绪词汇是不全面的报道对一些特定的领域。扩大覆盖面的情绪词汇,王等人选择现有的一些情绪词的情绪词汇作为种子,用聚氨酯学习方法来生成新的情感词(6]。张等人构建一个全面的情绪词汇通过收集网络文字和表情符号广泛用于中国微博13]。情感词的极性在这个词汇是根据文本的情感极性决定的。旁边等人创建了一个emoji词汇在一个无监督的方法(7]。每个emoji最初的人气值设置为指定的值emoji创造者。然后,emoji的价值包含emojis调整基于文本。尽管这些方法有效地增加情绪词的数量和提供一些好的方法来设置情绪的强度值的话,他们不解决这个问题,情绪词不同域的值。

近年来,一些方法提出了构建特定于域的情绪词汇。为了适应特定域的情绪分类,邓等人从未经语料库中提取候选词(9]。然后,候选词的情感取向是由测量候选词之间的关系和情绪词词典。努诺·等人提出了基于统计的方法措施,构建一个股市词典(14]。情绪词的价值计算根据股市贴上微博。魏李等人提出了一个方法来检测新单词在特定域,它包含手动校准情绪得分,语义信息和统计相似性信息来源于word2vec [15]。弗兰克等人词极性适应目标领域训练有素的情绪分类器(8]。在培训过程中,错误地预测句子用作反馈正确的情绪词,这有效地提高情绪分类的准确性。然而,大多数这些方法需要外部人类注释和复杂的语言知识。自动构建特定于域的情绪词汇,研究人员提出了一些方法。威廉等人建造了一个词法定义图和图的图像边缘和传播情绪标签由一个随机游走方法(16]。然后,bootstrap-sampling的方法是利用获得信心在情绪得分区域。吴六等人利用句法关系和语义相似性对提取的意见。意见对利用支持向量机分类器在看到下面成了一个自动构建的情绪词汇特定的域(17]。然而,方法(16,17)不考虑字格的影响。研究人员证明n克是非常重要的情绪分类(18]。安多尼等人优化n-gram-based文本特征选择改善情绪分析的准确性(19]。在[20.),含硼铁合金和否定提取为跨域构造语法功能情绪分类。这两种方法的局限性19,20.)是,他们依赖于存在unigrams情绪词汇和不提供情绪值语法功能。

基于以上分析,构建情绪词汇的主要问题可以概括如下。(我)的传统方法,他们依赖于语言知识和情绪词慢慢更新。他们无法添加新的情感词生成的网络词汇。(2)一些unigrams词典和字格词汇只提供情感词的极性,但不提供情绪的强度值。(3)的现有方法构建特定于域的词汇是专门设计的背景知识领域,这不是普遍的。

今天,基于机器学习的方法也广泛用于情绪分析。Veny等人利用决策树的三种方法,朴素贝叶斯和随机森林分类的社交媒体推特(21]。Saerom公园等人提出了一个semisupervised分布式表示描述文档的不同情绪分析(22]。一些深度学习模式如CNN, LSTM,格勒乌应用于情绪分析(23,24]。注意机制应用于深度学习框架来提高情感分析的性能(25]。受这些理想的自学,我们提出一种新颖的方案来自动构造情绪词典基于主体之一。该方案可以克服上述问题存在于先前的研究,提供一种新的方式来构建情感词典的帮助下网络文本资源。

3所示。该方案

3.1。Training-Optimization计划的框架

在网络论坛上,有大量的用户评论,通常包含用户的情感取向。大量的用户评论聚集在网络论坛是有价值的来源提取情绪词在特定领域。然而,尽管用户评论中情绪取向主要是由情绪词的强度和极性决定的,它仍然是难以描述它们之间的关系由一个明确的公式。灵感来自于机器学习的概念,我们提出一个training-optimization框架来解决这个问题,在建设的情绪词汇在一个特定的域转化为一个监督学习的过程。因此,提出框架提供了一种新颖有效的方法构造情绪词汇并确定情绪词的价值根据文本的情感取向。

拟议的框架如图1,主要包括四个部分。第一部分是提取情绪词的训练数据集。在第二部分,随机初始化的值情绪词构造初始情感词典。在第三部分,根据情绪词汇和文本分类判断文本分类的结果满足要求。如果不满足要求,training-optimization-based算法用于调整情绪词汇四个部分。这四个部分的详细描述如下:(我)(我)的一部分。情绪词提取:审查文本在一个特定的域收集来自网络论坛和用作构建情绪词汇的主体之一。微博等自评论文本很短,每个单词和语法功能的文本情感分类的结果有一定的影响。因此,词和字格特征出现在主体之一选为候选情感词的两倍以上。(2)(2)部分。人气值初始化:情绪词的价值是根据10点系统设置。我们初始化每个情绪词的随机值区间{…−−10日,9日,−1,0,1,…,9、10}。积极的和消极的迹象表明情绪极性,和情绪词的价值代表了情绪强度。(3)(第三部分)。情绪分类和评价:选中的文本分类根据其情感极性。文本的情感极性决定如下。让每一个情绪的价值t根据情绪词汇和单词积累所有情绪词的价值。如果情绪的总和值大于0,文本分类是积极的。否则,文本分类为负。因为所有的手动测试文本已注释,可以评估文本分类的准确性与文本标签。最后,如果文本分类的精度满足要求或优化算法融合,输出当前词汇作为最后的情绪词汇。否则,去一部分(iv)和调整情绪词在词典的价值。(iv)(iv)的一部分。调整情绪词汇:由于没有明确的规则来指导调整情绪的价值,我们随机调整情绪词的价值。为了保证调整的有效性,我们进一步变换调整情绪词的值的过程变成一个优化的过程。文本分类的准确性作为优化目标。优化情绪词典将实现遗传算法,将部分中描述3.2。

3.2。提出的遗传算法

框架,如何调整情绪词在词典的价值核心框架的一部分。我们调整情绪的强度值基于遗传算法的概念。在本节中,我们首先设计遗传算法的基本操作,然后框架由两个算法,实现,分别称为算法1和2。

3.2.1之上。基本操作

(我)种群初始化为了通过遗传算法优化词汇,情绪词汇被视为一个独立的个体。相应地,在词典中每个情绪词被视为个人的基因。在词典中每个情绪词是初始化为一个随机整数-10和10之间。通过同样的方式,我们初始化整个人口。表1是初始化人口的一个例子。(2)健身价值计算健身价值的目的是基于情感词典能否正确文本进行分类。如果一个文本是正确分类词典,词典的健身价值是增加了一个奖励的价值。否则,健身价值减去了一个点球价值。奖励/罚函数描述如下: 在哪里是一个个体,即。,一个词典,是训练数据集的文本 , 是一个惩罚因子,是一个文本的情感价值计算的情绪词汇根据以下方程: 在哪里的价值吗情绪词,n情绪词的总数在文本。根据奖励和惩罚函数,词典的健身价值计算如下: (3)交叉让和是两个人执行交叉操作。在转换的过程中,位置是随机选择的。的人气值基因与交换吗基因。我们重复随机选择一个新职位和交换值相应的情绪。的总数由交叉比率决定交换基因。最后,我们可以生成两个新的个体的交叉操作,表示为和 ,分别。在这里,为我们更好地理解交叉方案,图中给出了一个例子2。在图2,第二和第五基因的个体l₁和l₂交换。(iv)突变一般来说,文本的情感极性情感词的极性密切相关的文本。如果一个情绪词的概率存在于正文本的概率大于负文本,情感词的极性也积极高概率,反之亦然。根据这一理念,我们设计一个新的变异策略,不同的传统变异策略,随机变化的价值的基因。定义积极情绪词的概率出现在文本。我们提出以下函数引导词的突变 : 函数绘制在图3。我们可以看到从图3的价值功能大约是0和变化缓慢时。这意味着词的概率出现在一个积极的还是消极的文本几乎是相同的。因此,函数扮演小影响情绪的价值。当 ,这意味着这个词出现在负面文字概率超过80%。因此,函数的输出是一个负值,价值极大地影响最终的情绪。同样的,当 ,函数的输出是一个积极的价值和发挥重要影响最后的情感价值。当或 ,他们是过渡时间间隔和功能最后情绪起到了媒介的作用价值。根据函数 ,我们建议突变的公式如下: 在哪里情绪词的价值吗在突变和一个随机数在区间[10]−10日。在方程(5),保证种群的多样性和功能使情绪词的价值改变极性方向。应该注意的是,如果的时间间隔(−10、10),分配相应的边界值。基于以上分析,我们的变异方案提出如下。随机选择一个基因在个体和改变它的人气值根据方程(5)。然后,我们重复随机选择一个新基因和改变其人气值。突变基因的总数是由突变比率。

3.2.2。算法1

根据进化的思想,提出了算法1建立一个情感词典。算法1的细节如下:步骤1。根据目标域,短的文本如微博和帖子从互联网上收集。挑出文字与情感和手工注释他们的训练数据集。步骤2。训练数据集,每个文本的词和字格特征选择出现两倍多的词汇情感词典。步骤3。初始化种群根据计划部分3.2。1。步骤4。计算每个个体的健身价值根据计划部分3.2。1。然后,轮盘赌策略用于从人口选择两个人。表示两个人选择和 ,分别。步骤5。交叉比率的价值和执行之间的交叉操作和根据交叉策略部分3.2。1。相应地,我们得到两个个体和后交叉操作。步骤6。设置值的变异系数执行变异操作和根据突变策略部分3.2。1。相应地,我们得到两个个体和后突变。步骤7。根据轮盘赌选择策略,从人口选择两个坏的人,表示和 ,分别。比较的健身价值 , , ,和 ,选择两个人健身价值较高的人口,并删除其他的两个人。

重复步骤4到7,直到人口聚集。最后,选择最好的个体人口情绪词汇。

3.2.3。算法2

算法2,我们优化情绪词汇的演变从一代一代的人口。此外,我们引入一个精英策略算法2提高收敛速度。2是算法描述如下:步骤1 - 3。这些步骤是相同的,算法1所示。步骤4。设置的值比例的精英人群。第一个个人更大的健身价值被认为是这一代的精英。这些精英们直接选为下一代的个体。步骤5 - 7。这些步骤是一样的步骤算法1的4 - 6。步骤8。生成的两个新个体和作为下一代的个体。重复步骤5 - 8,直到所有个体产生下一代。第9步。重复步骤4 - 8,直到人口聚集。输出的最佳个人情绪词汇。

4所示。我们方案的优势

我们的计划提供了一种简单的方式来构建情绪词汇为一个特定的领域。在我们的方案中,情绪词提取特定领域收集的主体之一。我们的计划可以被视为一个corpus-driven方法。足够的高质量语料库是非常重要的我们的计划。如今,微博、推特和网络论坛提供了足够的资源来创造主体之一。情绪词汇由我们的方案可以实现高覆盖率是否得到足够的主体之一。新生成的情绪词也很容易收集我们的计划如果全集不时更新。正如我们所知,在目前的技术条件下,不难从互联网上自动获取和更新语料库,这对我们的计划奠定了良好的基础。此外,在构建情感词汇的过程中,我们的计划不是相关领域的背景知识或语言知识。因此,我们的方案具有良好的通用性和可用于构建情绪词汇对于任何域。

在我们的方案中,我们采用了机器学习的工作方法。情绪的强度和极性词是由一个training-optimization过程。我们的计划提供了一个间接的和有效的方法来解决的问题,推断出的价值情感词的极性短的文本。因此,情感词典构建的计划不仅包括情感词和极性,也包括他们的强度值,可以更好地支持文本的情感分析。

在我们的方案中,情感词典的质量很大程度取决于语料收集从一个特定的域。利用网络搜索技术或网络蜘蛛技术,我们的方案可以不断地从互联网上收集语料,并自动获取新的情感词,包括unigram和字格,和更新他们的强度值。因此,情感词典构建的方法不断更新的能力情绪词汇和提高其质量。

5。实验

5.1。数据集

我们的实验是五个公共数据集上执行不同的域,证明OMD, SOMD, HCR SemEval2013, STS-Test。由于极性主体之一的数据集已经被注释的出版商,他们可以直接用来测试我们的计划。这些数据集的细节描述如下:(我)OMD1简短文本数据集是关于Obama-McCain辩论,这是捕获从2008年的奥巴马和麦凯恩之间的电视辩论美国的选举。它有710个积极的文本和1196 -文本,可以视为一个数据集在政治领域。(2)SOMD2严格Obama-McCain数据集。SOMD是另一个版本的证明OMD。它包含569积极和347 - tweet。也用作数据集在政治领域。(3)HCR3评论数据集在医疗改革,建于2010年。HCR数据集包含1286条,其中369是积极的文本和917 -文本。使用它作为一个数据集在医疗改革领域。(iv)SemEval20134是热点问题的简短文本数据集或产品,致力于微博情感分析。它包含3640积极的推文和1458 - tweet。它可以被视为一个通用的数据集与人们的生活相关。(v)STS-Test5斯坦福Twitter数据集,包括评论热点问题。STS-Test数据集的文本是手工注释;其中,177条短信是负面的和182条短信都是正的。

5.2。评价指标

以下性能指标用于本文的实验,包括准确性和F1-measure。精度是一种常见的和直观的评价指标所示方程(6),这表明正确的比例分类的文本文本的总数: 在哪里一个是积极的文本分类的数量正确,d是负的数量正确文本分类,b是积极的文本分类的数量不正确,然后呢c是消极的文本分类的数量不正确。

然而,在数据集的情况下有一个不平衡的分布、精度不能反映分类器的性能。在这工作,F1- - - - - -采用测量作为另一个指标,即加权平均的精度和召回。F1-measure定义如下: 在哪里和。

5.3。算法的参数

根据一般的经验,我们设置了人口规模2000和惩罚因子为60。由于交叉比率和变异率对遗传算法的性能有重要的影响,我们决定通过一个实验方法。选择HCR数据集作为测试数据集,因为它有很多短信。F1-measure作为选择指标和。测试结果如表所示2。根据表2,我们设置和。算法2,我们需要设置的值。根据我们的经验,我们集对所有数据除了STS-test。主要原因是标签文本STS-test非常小。对于这个数据集,我们集为0.025。

5.4。结果和分析

5.4.1之前。情感词典的结果

根据我们的计划,这种情绪词汇可以生成基于训练集,它是由随机选择80%从数据集全集。在这里,我们把HCR数据集的情绪词汇为例,构建医疗改革。在这个情感词典,有1787 unigrams, 1772元,843元。一些unigrams,三元,三元模型在医疗改革中列出的情绪词汇表3。从表可以看出3这个词“阻塞”作为负面词词汇在我们的情绪。一般来说,这个词“阻塞”并不被视为一个情绪词。在我们的情感词典,非常几句类似于“阻塞。“因此,这也证实了我们的方案提供了一个有效的方法来获得情绪词在特定的领域。

在情感词典构建HCR数据集的基础上,有1687个2500年积极词汇和消极词汇,提供一个好的情绪词的报道。然而,在情绪词汇,有214字,他们的信心值是0。这意味着这些话被视为中性词语在我们的方案中,可以从词典中删除。在我们的方案中,以提高词汇的报道,我们添加候选情感词根据语料中出现的词的频率。可能有些字没有情感词也被选中进入情绪词汇。最后,这些词集的强度值接近于0的优化过程。因此,尽管一些中性词语选择的情绪词汇一开始,这些话还可以排除通过设置他们的强度值,保证高质量的情感词典。然而,值得进一步研究如何从语料选择情绪词。

其他情绪词汇由数据集有类似情况的情绪词典基于HCR数据集。因此,实验结果证实了我们的方案可以自动构建情绪词(unigrams和- gram)为特定的域和合理设置的强度值。

5.4.2。性能分析和比较

我们首先测试算法1和算法2的表演五个数据集。然后,一些不同的条件也考虑算法1和2。Algorithm-SW意味着运行算法没有考虑停止的话。算法+ 1,2,3克给结果结合算法和语法功能。算法+ Lex计算结果结合刘必应词典(26]。每个数据集的所有测试结果列在表中4。

在[16),作者提出一个方法基于无标号的语料库的构建特定于域的情绪词汇。我们实现这个方法和测试它在准确性和F1-measure表演。结果也列在表中3进行比较。此外,一些类似的计划(27- - - - - -29日)选择和测试在同一数据集。保存文章长度,我们只最好的结果从文献列表27- - - - - -29日),表示BRFL表4。

根据表4,我们可以得到最好的精度和算法1和算法2的F1-measure总是比裁判的结果。16]。这意味着使用标注语料库是有利于提高情绪词典的质量。的四个数据集,即,STS-Test, HCR, OMD, and SOMD, the best results of Algorithm 1 and Algorithm 2 are better than the best results of BRFL. Only in the dataset SemEval2013, the BRFL has a little better performance than Algorithm 1 and Algorithm 2.

与此同时,算法1有一个更好的性能比算法2在大多数情况下。在我们的实验中,unigrams和语法功能也考虑。这里的语法功能包括三元及三元模型。根据表4我们可以得到,情绪词汇结合语法功能时具有更好的性能。测试结果还证实,市场人气的语法功能发挥重要作用分析。

根据表4,我们可以结合刘必应词典,在大多数情况下我们的计划可以取得更好的性能。主要原因是添加刘必应词典可以增加人气的报道的话。然而,在某些情况下,刘必应词典的结合我们的计划不能提高性能,甚至变得更糟的结果。主要原因是一些情绪的话,他们的人气值我们的词汇和Bing刘的词汇之间的冲突。刘必应词典的普遍情绪词汇。情绪词在刘必应词典不能反映特定领域的特征。因此,使用必应的情绪词的词汇来代替相应的情绪词在我们的词典会降低情绪分析的性能。因此,如何结合不同的情绪词汇是一个值得研究的问题。

此外,Algorithm-SW显示了使用该算法的结果没有停止的话。我们可以看到,在这种情况下变得更糟的结果。这也证实了结论(30.],省略停止词对情绪有负面影响的分析。

5.4.3。适应性分析

测试方案的适应性,我们构建一个中国股市数据集通过收集超过4000短一些金融网络论坛的评论,如“https://www.weibo.com/。”然后,我们手工注释的文本数据集。中国股票市场数据集用于测试我们的计划是否适合中国情感词典构建。我们生成一个中国情绪词典基于这个数据集和测试结果的准确性和F1-measure,如表所示5。

此外,一些中国著名情绪词汇,如DUTIR⁶和青⁷也用来测试结果在相同的数据集和比较与我们的计划。在[6),这种情绪词汇扩展基于神经学习方法梳理字典查找和极性协会。这种方法还用于与我们的计划。所有的测试结果也列在表中5为了更好的比较。

根据表5,我们可以看到,我们的方案具有更好的准确性和F1-measure比其他方案。试验结果表明,我们的方案是适合构建中国情绪词汇,也证实了我们的方案具有良好的适应性。

5.4.4。效率分析

算法1,只有两个人在每个迭代更新。这意味着收敛的速度不是非常快。人口最大的健身价值作为标准评价收敛。我们使用HCR数据集作为一个例子来评估提出了算法的效率。图4显示了健身价值算法的收敛过程1。可以看出,算法1是128000次迭代后聚合。两个人,因为每个迭代更新收敛时间可以被视为时间算法1更新256000人。

算法2,进化的人口是代代相传。算法的收敛过程见图25。算法2在第140代聚合。比较效率和算法1,我们使用的数量更新个人为准绳。对于算法1,分别更新个体的总数是256000。在算法2中,人口规模是2000和精英率是0.1。所以,每一代的更新个体数量是1800。140代,更新个体的总数是252000。比较的数量更新个体,算法2算法的效率高于1。

6。结论

情绪词汇是用于文本情感分析的一个重要组成部分。在本文中,我们提出一个框架基于训练和优化构建情绪词汇为一个特定的领域。根据这一框架,我们的方法提供了一种自动生成情绪词汇和其强度值为一个特定的域使用标注语料。特别是,我们设计两个遗传算法,它可以找到合适的值情绪词通过优化情绪分类的准确性。自互联网的快速发展,不难发现大量的文本在一个特定的领域,这为我们的方法提供了足够的主体之一。因此,我们的方法可以很容易地实现在实践中有效地构建特定的情绪词汇对于一个给定的域。我们的方法不依赖于领域知识,具有良好的适应性和通用性。五个来自不同领域的数据集的测试结果也证实了我们所产生的情绪词汇方法具有良好的性能,可以有效地支持短的文本的情感分析。

我们的方法的主要限制是,我们只是选择单词,出现两次短信心的话。其中相当多的单词并不是真正的情绪的话。虽然大部分这些词的人气值接近于0后优化和他们的影响很弱,这些话还有负面影响情绪分类的结果和效率。因此,有必要设计一个方法如何过滤不必要的单词。

在未来,我们仍然认为这是值得研究的,如何合并多个情绪词汇一起改善情绪词的范围,避免情绪词之间的冲突。此外,如何收集特定领域的高质量语料库从互联网仍值得研究。

数据可用性

数据用于支持本研究的发现文章中是可用的。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家自然科学基金(没有。61876200),MOELayout人文和社会科学(没有的基础。20 yjazh102),重庆市社会科学规划项目(没有。K2015-59)。

引用

l . Wei和l .史”,在人造限价订单市场投资者情绪,”复杂性卷,2020篇文章ID 8581793, 10页,2020。
视图: 出版商的网站 | 谷歌学术搜索
a·戴伊m . Jenamani和j·j·塔迦尔,“Senti-N-Gram:情绪分析n的词典蟋蟀,”专家系统与应用程序卷,103年,第105 - 92页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
p . Agathangelou Katakis, Koutoulakis, f . Kokkoras和d . Gunopulos“发现学习模式面向领域的意见的话,”知识和信息系统,55卷,不。1,45 - 77年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
p . m . r . j . r . Ragini Anand,诉Bhaskar”大数据分析救灾和恢复通过情绪分析,“国际信息管理杂志》上,42卷,24里面,2018页。
视图: 出版商的网站 | 谷歌学术搜索
f . Smarandache m . ColhonŞ。Vlăduţescu, x Negrea”句neutrosophic情绪相似,“应用软计算卷,80年,第176 - 167页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
张w . y, y, b . Liu”情绪词汇扩张基于神经PU学习、双字典查找,极性协会”学报2017年大会在自然语言处理的经验方法丹麦哥本哈根,页553 - 563,,2017。
视图: 谷歌学术搜索
m . Fernandez-Gavilanes j . Juncal-Martinez s Garcia-Mendez e . Costa-Montenegro和f . j . Gonzalez-Castano”创建emoji lexica从无监督情绪分析的描述,“专家系统与应用程序卷,103年,第91 - 74页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
f . z兴、f . Pallucchini和e·威尔士Cognitive-inspired域改编的情绪词汇,“信息处理与管理卷,56号3、554 - 564年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
邓,a . p . Sinha和h .赵”情绪词汇适应特定领域的社会媒体文本,“决策支持系统卷,94年,第76 - 65页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
h·j·亨,c . y华和w·c·姚”构建与深度学习情绪词典:金融数据,案例研究”数据分析和知识发现,2卷,第102 - 95页,2018年。
视图: 谷歌学术搜索
j . c .清、g . y . Bo和l .姚明,“构建一个基于中国的社交媒体领域情感词典文本,“数据分析和知识发现,3卷,第107 - 98页,2019年。
视图: 谷歌学术搜索
m . Ghiassi和s·李,”一个域转移词典设置微博情感分析使用监督机器学习方法,“专家系统与应用程序卷,106年,第216 - 197页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
王张,z, y, t·廖“中国微博情感分析文本的基础上扩展情绪词典,“未来一代计算机系统卷,81年,第403 - 395页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
n .奥利维拉·科尔特斯和n区域,“股票市场情绪词汇习得使用微博数据和统计措施,”决策支持系统卷,85年,第73 - 62页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
施k . w . Li郭,y, l .朱和y郑”DWWP:特定领域的词汇传播系统检测和情绪分析在旅游领域中,“以知识为基础的系统卷,146年,第214 - 203页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
w·l·汉密尔顿,j . Leskovec k . Clark和d . Jurafsky“从无标号全集诱导特定领域情感词典,”学报2016年大会在自然语言处理的经验方法奥斯汀,页595 - 605年,TX,美国,2016年。
视图: 谷歌学术搜索
吴,吴,y, c,和y黄,“自动构建有针对性的情绪词汇,”专家系统与应用程序卷,116年,第298 - 285页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
d·贾迈勒·m·Alfonse E.-S。m . El-Horbaty, a b。m·萨勒姆,”阿拉伯语中机器学习算法的实现使用语法特征、情绪分析”Procedia计算机科学卷,154年,第340 - 332页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
m·a·Cabanlit和k·j·埃斯皮诺萨优化基于语法的文本特征选择在情绪分析Twitter的商业产品通过极性词典,”学报》第五届国际会议上的信息,智能,系统和应用程序有关,页94 - 97年,希腊,2014。
视图: 谷歌学术搜索
a·戴伊m . Jenamani和j·j·塔迦尔,“情绪重量- gram的数据集(发送):跨域情绪分类的特性,”学报》2017年第九次国际会议上的进步模式识别(ICAPR),页1 - 6,班加罗尔,印度,2017。
视图: 谷歌学术搜索
v . a . Fitri r . Andreswari, m . a . Hasibuan”情绪分析社交媒体twitter的反同性恋的活动在印尼使用朴素贝叶斯决策树,和随机森林算法,”Procedia计算机科学卷,161年,第772 - 765页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
美国公园,j·李,k金,“Semi-supervised情绪分析文档的分布式表示,“神经网络卷,119年,第150 - 139页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
c·a·马丁j·m·托雷斯r·m·阿基拉和s·迪亚兹,“使用深度学习预测情绪:案例研究在旅游、”复杂性卷,2018篇文章ID 7408431、9页,2018。
视图: 出版商的网站 | 谷歌学术搜索
y z, l . Wang邹,c .甘”的最优动态内存网络为目标设计的情绪分类,“Neurocomputing卷。309年,36-45,2018页。
视图: 出版商的网站 | 谷歌学术搜索
m . e . Basiri s Nemati m . Abdar e·威尔士和美国r . Acharrya”一种引起情绪分析双向CNN-RNN深模型,”未来一代计算机系统的特殊问题卷,115年,第294 - 279页,2020年。
视图: 谷歌学术搜索
h . m .清和b . Liu“采矿和总结顾客评论,”第十届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页168 - 177,华盛顿特区,2004年。
视图: 谷歌学术搜索
n . f·f·达·席尔瓦·e·r·Hruschka和e . r . Hruschka”微博情感分析与分类器乐团,“决策支持系统卷,66年,第179 - 170页,2014年。
视图: 谷歌学术搜索
胡锦涛x l . Tang j . Tang和h·刘,“在微博情感分析,利用社会关系”学报第六届ACM国际会议网络搜索和数据挖掘,页537 - 546,意大利罗马,2013年。
视图: 谷歌学术搜索
h·赛义夫,y, h·阿兰尼人“缓解数据稀疏twitter情绪分析,”第二届研讨会Microposts感,第2 - 9页,里昂,法国,2012年。
视图: 谷歌学术搜索
h·赛义夫·m·费尔南德斯,y, h·阿兰尼人“stopwords、过滤和数据稀疏的情绪分析Twitter”第九届语言资源和评价研讨会论文集(LREC),页810 - 817,雷克雅未克,冰岛,2014。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

363年

下载

824年

引用

复杂性