文摘
本文解决了进化和评价文本形式的讽刺。越来越受欢迎的社交网站是众所周知的,和每个个体生成一套全新的观点在形式的博客,microposts,等等情绪分析人工智能发展最快的一个方面分类意见下积极、消极或中性的情绪。一个这样的情绪分析的一部分是讽刺。讽刺正在成为一个普遍现象在社交网站表达模糊的感觉包裹为输送高度使用蔑视积极的话,很难理解语句的实际意义。阅读用户评论或投诉时,它可能是有用的了解消费者的真实意图,以提高客户支持或售后服务的效率。摘要不同classifiers-decision树,朴素贝叶斯,再,和支持向量机用于预测属于讽刺或nonsarcastic使用推特发表声明数据;以下提出的用于实验评价方法得出给定分类支持向量机收益最高的准确性为93%,而朴素贝叶斯和决策树表现良好的准确性达83%和86%,分别与最低的51%获得资讯。
1。介绍
人工智能的主要方面之一,是自然语言处理(NLP);容易说,另有解释目前在全世界最持久和忧虑研究在理解意见,特别是个人情绪。具体名词用于精细的意见根据情况下的主要研究领域之一。近年来,世界已经遇到很多周期性变化,在前期在单词的过程证明了社交网站。与传统的匿名调查或问卷调查,网上帖子,交互,评论,和媒体提供更高效、准确洞察世界各地的人们的思想1]。日益流行的Twitter, Facebook,和Instagram轻信的时代有很多意见说积极的,消极的,和中立的语句。就像人工智能正变得越来越复杂和互联网更容易,所以也观察人类行为的能力1]。
在最近几年,毫升和AI是这个时代的新热门话题;制定方法是一种全新的分类的一部分的产品和电器(2]。机器学习算法可分为四种类型:监督,semisupervised,强化和无监督学习。监督学习是一种机器学习,能够构造一个函数从一个标记集。因为标记输出值的存在,监督学习可以构造一个像样的模型。这可能发生,因为预期结果需要处理的模型已经提供的训练数据集(3]。
情绪被定义为一个观点或者表达的不同的人在同一时间举行关于一个特定的主题或其他。情绪分析可以说是一个收集和分析数据的过程基于人类的感觉,评论,或想法(4]。申请以下可以作为监测社交媒体,表示产品分析、客户分析、业务分析、等等情绪分析在现实世界中越来越关键,指定domain-centred,即。,一个域的结果不能应用到另一个域(4]。另一个可以使用的同义词是意见挖掘,一个演讲者谈到一个特定的实体,并讨论其反馈。信息在社会媒体的增长会让情绪分析更重要5]。有一些情绪分析所面临的关键挑战等实体都指定了识别,利于识别、解析、讽刺检测,和许多其他人。从商业的角度来看,情感分析可以提供在线咨询和建议客户和商家(5]。
讽刺是定义为一个模式的矛盾的智慧往往根据其影响苦味和讽刺的语言,通常是针对一个独立的个体。在这个时代,人们将他们共同对讽刺的说话方式,很多讽刺说为了subjectify特定主题。本质上,讽刺可以表达意见的新方法。它可以通过演讲,表达文本等。在演讲中,理解讽刺就可判断的因为很多手势与讽刺相关联,使用面部表情,语气,手势可以用来识别讽刺。在文本形式,略微很难解释讽刺;处理只是一组单词变得有点难以解释。讽刺的检测是研究的主要领域之一,了解一个人的真实想法在讽刺语句。以下的应用程序可以被声明为市场研究,观点挖掘,和信息分类,也在NLP受益感兴趣的领域。
使检测讽刺困难的任务是,很难理解人类的情感,有时没有先验知识的话题。讽刺像躺在一些情况下,这使得更多的问题和艰巨的任务(6]。要理解文本的意图之一,我们需要分类的讽刺,重要的是设计一个系统,可以生成一个好和可靠的训练集分类器,一个标签袋的话,和算法能够检测出讽刺7]。然而,其他各种挑战所带来的流数据从社交媒体本身。(8]。讽刺检测起着至关重要的作用在公司的反馈,他们对自己的产品可以分析客户的真实意图。
提出了以下工作:情绪分析利用自然语言处理,其次是讽刺检测。本文解决了并发需要讽刺检测有助于了解人的意图。理解客户的意图和实际想法在阅读他们的评论或投诉也有助于改善售后服务或消费者援助的有效性。现有的系统是基于四个分类器预测;分类器是监督分类分类、检测结果的类别下的一份声明中讽刺和nonsarcastic。下的数据处理所需的规范分类器有效地分析。数据预处理是通过使用不同的库从自然语言工具包(nltk),总结结果用于预测和进一步分析。朴素贝叶斯分类器,决策树,SVC, twitter和资讯训练和测试数据,使用twint库刮,讽刺的检测是因此提出。
最初研究的要点主要如下:(我)当前系统使用上述几个监督分类器训练和评估模型预测的讽刺和nonsarcastic评论(2)Twint, Twitter抓取工具,用于收集数据开始,总共收集了10000条微博进行分析
2。文献调查
Dharmavarapu和Bayana9)提出了一个方法构建可靠和有效的在推特上讽刺检测算法。输出给定的微博列表分为讽刺和nonsarcastic tweet和使用情绪分析组织推到积极、消极或中性的tweet的概率。朴素贝叶斯分类算法的微博,在演算法用于确定相同的极性。只有两个分类器的使用是为了预测同样使其脆弱的计数器分类解释。
一位著名的研究者在这一领域(10)定义讽刺对情绪的影响分析;讽刺的影响范围的极性微博分类在他们的研究中,还提到的规则可用于情绪分析整合与讽刺执行更高的精度。门是他们开发的标签分,所以人气和讽刺中找到标签可以更容易发现。以下是他们的结果分类;的标签标记达到98%的精度,而讽刺检测精度达到91%。该研究发表在2014年,从那时起,许多重复的变化一直在讽刺契约条款,迫使迫切需要一个新的广义的方法。
“讽刺情绪分析检测流短数据”,普拉萨德et al。8柜台),提出了问题,社交媒体数据集,称为短的文本数据,即。、使用简写形式和俚语使用讽刺。比较不同的分类算法检测讽刺的tweet,使用随机森林,梯度增加,决策树,适应性增强,逻辑回归,和高斯朴素贝叶斯的twitter流API精度最高的81.82%的梯度增加的测试结果分裂60:40。他们的论文最后总结改善存在的讽刺检测算法的一种方式。验证只有2000条数据集,包括一般推与讽刺或nonsarcastic标签作为数据集提供建议的方法。
“Twitter-Sarcasm检测意见挖掘”(6由Parveen]等人做了一个演讲,由讽刺的存在影响的工作使用推特的不同组件。使用两个数据集,即。,before adding sarcastic tweets and after adding sarcastic tweets, they have incorporated three different classifiers: Naïve Bayes, maximum entropy, and support vector machine for the impact evaluation of sarcasm-related features on sentiment classification. The results concluded an enhancement after the involvement of sarcasm related features, signifying that the polarity of a tweet was misread due to the presence of sarcasm. The state-of-the-art approaches to sentiment analysis, however, perform less well in Twitter than they do when they are applied to larger texts because of the character limit (140 characters per tweet) and the usage of informal language.
信德和Vadivu“全面讽刺在情绪分析检测技术研究”(7]介绍了许多方法和程序用于情绪分析识别文本中的讽刺;数据用于以下工作亚马逊产品评论。最大的数字模型的实现是通过Twitter API。讽刺的检测是通过使用分类器和基于规则的方法。使用支持向量机,精度达到54.1%。
“在推特上讽刺检测基于模式的方法”(11)由布亚齐兹和Ohtsuki礼物的工作基于模式的方法检测的讽刺,还发现创建的模型用于讽刺检测的有效性。数据从Twitter API检索。四组的特征提取,包括使用俏皮话,呜咽,逃避的一种形式,和讽刺。Sentiment-related特性,punctuation-related特性,词法和句法功能,用来分类文本模式相关的特性,他们的建议策略达到83.1%的精度。
几位reasearchers12)使用监督的概念基于机器学习的方法来定义讽刺检测在Facebook上,集中在两个帖子内容(如文本或图像)和Facebook用户的交互与职位。数据收集完成图使用Facebook API。公共选择10页的集合讽刺文章。机器学习分类器被用于分析,随机森林和SVM比其他人表现的更好。
哈雷et al。13]提出的方法分析情绪的政府机构在他们的论文中“情感分析和讽刺印度大选tweet”检测。在Twitter上分析了数据2019年时间收集的tweet人民院选举。微博中包含的文本信息处理使用支持向量机分类器。作者一个主题的文章里所写的一些用户微博开玩笑。他们取得了84%的准确性比较模型结果的选举结果,这对于转移学习就足够了。此外,数据集用于以下方法从数据科学网站Kaggle;微博与选举有关的全部数据集访问。
Ashwitha et al。14]后来讽刺检测使用自然语言处理研究,涵盖讽刺的显著特性影响的社会和个人的关系;作者提出,讽刺评价桥梁相互通信的机器和人类之间的差距。工作是基于词典的4种方法,模式,机器学习和基于上下文的。项目的目的是演示如何现有技术可用于解决社会问题和阻碍言论自由。他们的工作是获得的精度96%。关键的区别可以表示为利用双曲特性集。
3所示。材料和方法
在这个提议在图1有四类,实现按照期望的结果:(a)收集的数据;(b)数据的预处理;(c)功能创建;(d)讽刺检测。功能创建这里提到的表1。
3.1。数据收集
任何分析之前,有效数据的收集是一个著名的任务评估的任何话题。有效性的数据影响分析的整个过程,和公正的数据的集合,是完全透明和构建一个新娘在理解情绪,在这种情况下。
Twitter智能工具或者twint是一种先进的Twitter抓取工具在python中用于抓取微博从Twitter没有使用Twitter API。工作在以下使用以下工具来收集数据从Twitter与关键字“讽刺”。使用twint总共收集10000条,和处理以下。
图2显示数据是如何收集的全部描述使用twint在以下研究。代码可以进一步推广用于任何关键字,在这里,它被指定为“讽刺”。现在工作的比较与其他杰出的研究人员在这个领域一直在总结表2。
10013项;0到10012。
数据列(总38列)。
3.2。数据预处理
数据预处理技术用于改变数据信息,数据挖掘是更适合的工作。在数据预处理,首先,输入数据和标签。这些标签是消除数据输入(9,15]。以下模块包括字段选择,数据清洗包括噪声去除、标记和遏制。收集的数据的处理是在以下的方式进行。
3.2.1之上。选择所需的列
列选择是处理数据的一个主要步骤。更大的影响是只有当需要处理的主要列使用除了subjectify整个数据集。自从有收集的数据字段,不一定是用于处理,因此它成为重要的选择一个主要研究专栏。
数据集在这里包含38列提及id、推、标签,cashtags, usr_id, usr_id_name,等等。在开始之前分类阶段,在这个集合的几个字段Twitter的数据需要处理。完成的工作是专门在语言绑定参数,即。,英语。处理数据之前,只有那些微博被认为是与指定的语言英语,使数据集针对超过8000行。关注的领域是微博,因此表中删除所有其他字段,和一个新的数据帧是由列公认为“推文”。
数据3和4描述上述文字,唯一关心的数据字段,即。,tweets are considered, and a new dataframe is made which will commence the further processing. Further Table3和表4总结的结果和精度水平通过不同的分类器。
8174项;0到8173。
数据列(总1列)。
3.2.2。数据清理
数据清洗是去除无能的过程数据,使数据所需的研究相当丰富。删除所有的数据集的数据所需的输出是数据清理的主要问题。由于数据包含了很多特殊符号,消除所有相同的是必需的。在python中一个常见的库支持的数据清洗与正则表达式,命名为“是”。下面是一个例子的数据清洗。
(1)噪声去除。文本分析的因素之一是噪声去除。在文本分类中,至关重要的是,要使数据能有益的研究。为了达到最大的输出,过程应用于数据最大的结果。过程删除字符的数字、url、停止的话,标点符号,文本,等等,从文本是噪声去除。清理过的数据进一步用于下一阶段。
在工作开始,如下图5噪声去除的例子,不必要的信息取决于项目的目标。表5进一步描述了精度检验。
(2)停止词删除。停止词可以被定义为词中常用的英语。这些单词被列为nonuseful单词和占用空间数据库;因此删除这些话优先进行分析。
在预处理中,停止词删除处理的灵活性分析;这里获得的输出后删除这些阻止单词列“tweet”以确保更好的分类。
(3)标记。文本处理的方面之一是标记,将文本分成更小的部分称为令牌使用分隔符。它是词法分析文本的主要特点(16]。标记在tweet上执行分解成完美的有意义的模块从一个句子8]。这些令牌进一步用作词汇在传统NLP使用计数vectorize和TF-IFD。分工的进一步分析中使用的数据。
下面的例子所显示的数据是如何标记化的推了,考虑到微博,和下面的图3给出代码用来标记依法使句子更有意义的分析。
(4)阻止。阻止自然语言理解的另一个重要方面,减少其干细胞这个词使其可行的减少根部的词汇和总结不同的单词输入方便分析。这样做的主要目的是减少重复的单词,将这个词的后缀到达这个词的基本形式(16]。
利用阻止这个词在开始工作,减少其阻止这样的词汇量减少。
图6显示了词是他们的根和数据进一步分析做好准备。
(5)项频率逆文档频率。一个词的意义(术语)语料库中的文档由TF-IDF量化统计(17]。在文本总结和分类软件,TF-IDF是常用的过滤词结束。此外,它被用来提高文档中单词的频率成比例。逆术语frequency-document频率(TF-IDF)是信息检索的一部分16]。
数字静态结束集合中的一个词的重要性,进一步用于检测出现这个词和它的重要性。下面的图像,如图7显示频率的长度。下面的代码是还提到了在相同。
3.3。功能创建
数据完全洁净后,创建特性进行进一步分析。创建新功能推广分析。该功能有助于在发展中一个数据帧与有用的领域,为进一步分析是可行的。
极性分类、情感分析的一个基本组成部分,检查是否一个意见的某些特质或方面的目标是表现在一个文档或者一个句子。(5]。新字段添加极性和主体性在各自的研究中,而另一个研究方向是主观或客观识别(5]。积极的,消极的,中性的感觉是使用的三类对情绪进行分类分析。现在是明智的知道一个特定的语句的极性、极性不同的解释可以在引用,和前进是主体性;它定义了一个语句是否在任何主题。与文本的使用blob、极性和主体性进行分类。
指数:8174项;0到8173。
数据列(总共3列):
3.4。讽刺检测
讽刺和幽默是人类的关键特征和最大的差距之一,人工智能必须桥,他们试图变得更似人类的直觉和行为(1]。虽然有几个机器学习算法,旨在实现精确,对文本进行分类根据其情绪提出了许多特殊的困难。这些可以归结为以下查询:“我们使用什么样的特征呢?(18]。”
讽刺检测模型的分类使用不同的监督分类机分类:决策树、朴素贝叶斯、资讯和支持向量机。决策树分类器提出了一系列精心设计的问题提供的功能算法(8]。朴素贝叶斯是对数线性模型;也就是说,在这两种情况下属于一个类文档的概率成正比。
模型的训练和测试比例为80:20分收集到的8000条推讯。获得了不同分类器的精度,预测一个特定的语句在基地中精度最高的四个分类器。
4所示。结果
4.1。数据集
在这个时代是巨大的数据生成。数据来自不同的社交网站。这些数据可以丰富和noninformative纯粹基于需求。在这项工作中,数据收集从一个这样的社交网站Twitter,数以百万计的微博上生成一天另外一个话题。自工作是检查语句是否讽刺或nonsarcastic,讽刺的使用微博是为了训练模型,使用关键字“讽刺”,和数据是取消了Twitter和归类为讽刺或nonsarcastic主体性的基础上,清洗后的数据。共收集8000条推讯,首选语言英语。分类的讽刺和nonsarcastic使用0和1,分别。
以下4.4.1。比较表
(1)实验评估。下面的图8显示云词的处理工作。使用python库WordCloud完成图的形成。图表明,这些单词中主要遇到的微博后,指定相关的微博讽刺围绕着这些话,使它有效的机器学习和解释讽刺检测。
使用数据集训练分类器模型,本文验证了使用自然语言处理的监督分类器;表中的结果是下面提到的精度,召回,F1-score对于每一个分类器。它可以明确表示,最高精度得到SVM为93%,最低的是资讯。决策树是资讯的表演比;同样,朴素贝叶斯的准确性达83%的数据也是一个很好的代表。
4.2。评价指标
在这项研究中,回忆的评价指标,使用精度,F1-score,准确性。这些指数表示的数学定义如下:[21),TP:真阳性,外交政策:假阳性,FN:假阴性,与TN:真阴性。
这个数字9显示了模型精度的比较所获得的不同的分类器。
4.3。分析
这项工作的基本救赎的预测可分为报表;所有的模型都使用虽然知道最高精度的支持向量机,测试是由喂养不同报表和评估是否声明是讽刺,分别用0和1。
5。结论和未来的工作
现在,众所周知我们的不同性质数据考虑讽刺;不绑定任何规范,因此它成为一个挑战机器来解释一个人的情绪,而且,讽刺。机器适应这些经常性的挑战,算法需要处理一次又一次。分析微博的情绪提供了一个有趣的了解公众对某一事件的意见(6]特点;这项工作纯粹是基于讽刺使用Twitter数据的检测方面,反复改变自己。通过理解客户的意图和真实想法阅读他们的反馈或投诉时,它也有助于改善售后服务或消费者援助的有效性。
本文情绪分类的分类下积极的,消极的,和中性情绪,一直延伸到讽刺检测。数据收集是通过Twitter,这需要预处理之前的结论。不同分类器参与前我们的目标。它可以明确表示,不同的监督算法和可靠的检测的讽刺。
未来的工作与传统机器学习和自然语言处理可用于分类讽刺tweet是积极的讽刺和消极的讽刺;这方面的研究可以为机器理解讽刺带来更清晰。
此外,有一个扩展的版本的讽刺挖苦说,双关语,开玩笑,幽默,等等,也可以使用相同的技术分类,让机器来更好地理解和实现所需的结论。
数据可用性
实时数据已经从Twitter,可以可以从作者要求。
的利益冲突
作者宣称没有利益冲突有关的出版。