文摘
快速增长的互联网用户的数量和在线评论的数量数据,大量的样本数据挖掘技术提供了可参考的信息。作为数据挖掘技术的应用,文本情感分类可以广泛应用于公众舆论管理、市场营销、等领域。在这项研究中,结合SVM(支持向量机)和IPSO方法提出了改进的粒子群优化)通过使用文本数据分类的情绪。首先,30000种商品评论的文本数据和相应的评级是通过网络爬虫收集。然后,TFIDF(术语frequency-inverse文档频率)和Word2vec货物审查文本数据进行向量化。接下来,由支持向量机训练分类模型,提出和初始IPSO的支持向量机参数进行优化。最后,我们训练SVM-IPSO模型应用于测试集和评估性能的若干措施。我们的实验结果表明,该模型表现最好的文本情感分类的数据。此外,传统的机器学习模型支持向量机参数优化后变得非常有效,这表明,参数的优化IPSO已经成功地提高了分类精度。此外,我们建议的模型SVM-IPSO明显优于其他基准模型,表明它可以应用于改善文本数据的情绪分类的精度和效率。
1。介绍
自然语言处理(NLP)指的是人类独特的自然语言处理技术与计算机作为一种工具,是一个重要的内容在人工智能和计算机科学领域(1]。情感分析是自然语言处理的方向之一,也被称为情绪提取或意见挖掘,并在文本挖掘的一个热门话题2]。文本信息挖掘可以应用于很多方面,如用户反馈,评论信息,广告推荐智能分析之后,政府部门的民意检测,处理不文明和不真实的信息。
大卫等人设计了最早的情感分析工具(3]。去等人用训练集数据设计的标签分类多个基于主题的集群(4]。Joshi等人设计了一套情感分析系统,该微博的评论分为积极和消极情绪基于微博的某些特征,如表情符号(5]。Gamon等人使用集群的功能来获得用户的意见和分析了情感的倾向和强度评价汽车(6]。李等人完成的情感分析,使用SVM特征选择和提取,贝叶斯分类和n元语言方法(7]。李Guwei等人构建一个无监督主题情感模型实现情感分类(8]。杰森等人CNN应用于文本,准确的预测在一维结构的帮助下(词序)的文本数据(9]。Yoom金正日使用卷积实现字面意思为英语文本分类模型。雪等人提出了一种基于卷积神经网络分类模型和闸门机制10]。Parupalli等人建造了一个语料库与系统化的注释11],它支持使用句注释来提高情感分析任务。Angelidis等人提出一种引起极性评分法对积极和消极的文本片段(12]。Gui等人提出了上下文信息的情感原因通过进一步建模中提取文本情感分类的基础上(13]。元等人用全球解码器前馈网络实现多语言文本的识别,铺设复杂的文本分析的基础(14]。Bordoloi等人设计了一个有效的情感分析模型,进行了一个先进的手机电子商务网站收集的评论分析基于图的关键字提取方法(15]。卷积神经网络(CNN)已经广泛应用于许多领域,如图像识别和NLP(例如,卷积神经网络16)已经被用于分类文本在社交网络感情基于图像卷积神经网络(17]。有些学者深层神经网络用于情感分类和自然语言处理(18]。其他研究已经通过注意力文本情感分类神经网络(19),和其他领域20.]。然而,cnn包含多个卷积层和汇聚层,需要更多的参数,需要大量成本参数的优化和调整。同时,梯度消失或梯度爆炸的问题存在于cnn,这限制了文本分类的准确性。
积极和消极情绪的分类使用支持向量机良好的执行效率,但支持向量机的参数模型来确定预测精度的关键因素。因此,研究人员引入粒子群优化算法(PSO)优化参数获得精度高。算法是智能优化算法的一个重要分支21),并在1995年提出了(22]。标准PSO算法具有良好的性能在解决各种各样的非线性优化问题。它控制整个迭代过程的帮助下单独优化和组织优化和收敛速度快,执行效率高。然而,在迭代后期,单个粒子的多样性的人口很小。如果全局最优的位置和当地最佳等于粒子,一定数量的迭代之后,该算法可能会陷入局部最优,从而导致全球表现不佳。提高算法的性能,引入惯性权重史等人在1988年发挥了关键作用在提高算法的性能23]。在这项研究中,自适应减少惯性策略和交叉算子相结合来提高搜索质量的粒子群优化算法和支持向量机模型的参数优化的改进算法,进一步提高预测精度。与其他情感分析模型相比,该模型的训练速度快,预测精度较好。
本研究的主要贡献是(1)30000种商品评论的文本数据和相应的评级是收集通过网络爬虫和(2)TFIDF和Word2vec货物审查文本数据进行向量化。研究结果表明,SVM-IPSO弥补传统情感词典的不足影响通过词序和不同的局部优化环境和解决问题。我们的研究避免了梯度的问题消失或分散使用卷积时,降低了参数优化和调整的成本,具有较高的运行效率和精度,并可以预测文本情感。我们研究的主要含义是,我们提出的文本情感分类模型可以广泛应用于公众舆论管理、市场营销、等领域。帮助从业者提供详细分析和顾客评论的肖像。
2。数据准备
在分类之前,数据准备包括数据采集和预处理是必要的。
2.1。评论数据获取
数据采集可以分为URL队列收购,相关网页解析,数据抓取、数据清洗和数据存储。
首先,商品评论的数据从淘宝电子商务平台。淘宝电子商务商品评论五星级评级机制,1星到5星:非常贫穷,贫穷,好,建议,和强烈建议;在这个实验中,一星和二星级的评论被认为是负面评论,而四星级和五星级的评论被视为积极的评论。然后,基于Scrapy框架来实现数据采集,我们生成相应的积极和消极情感评论的csv文件。最后,通过进一步筛选,21000获得的积极评价和负面评论是9000,其中三分之二被用作训练集和测试集。1/3的分布实验数据表中列出1。
获得足够的数据集规模,有必要实现模拟登录在爬行过程中,突破网络爬虫的局限性。同时,评论可能在当前页面是不完整的。Scrapy有一个默认的重复数据删除机制,这将决定第二次重复爬行,所以URL复制需要解决的问题。
2.2。文本预处理
文本预处理是进一步处理原始数据,使数据到下一个可操作的对象。预处理包括词重复,停止噪音,分词,词。<年代pan class="list">(1)年代pan>文本重:不仅有重复的单词在文本预处理,导致存储冗余,而且增加的计算量,因此有必要在重复的遍历。年代pan>(2)年代pan>文本去噪:一些令人不安的单词或混乱的字符出现在文本,需要去噪,提高分析的准确性。年代pan>(3)年代pan>分词:文本中的词分割并给予对应的词类结合字典。在英语中,每个单词之间用一个空格来分隔),所以它是容易的过程,而中国分词字典的综合精度有很高的要求,因此本文采用jieba分词在Python语言的环境中。年代pan>(4)年代pan>删除停止:停止词指模态粒子,副词,介词,连词,等等,这不是有用的实验结果,可以总结成停止词列表,删除。年代pan>
2.3。词向量化
文本非结构化或半结构式数据,不能认识到支持向量机分类器。因此,需要转换成文本向量形式为进一步分析和处理。辞典编纂的量化是指词的表达向量形式;同时,它是必要的,以确保加工向量的相关语义相似度和相对相似。词向量化可以映射的词或短语为实数向量和降低高维的特征向量空间到低维空间。有许多模型将文字转换成一个实数向量,如隐狄利克雷位置(LDA)和隐式语义分析(LSA)。然而,上述模型的计算量会急剧增加的数据总量的增加,和word2vec解决这个问题,提高了效率。
Word2vec深度学习多层神经网络结构打开谷歌2013年,可以被训练来简化处理的文本内容与k维向量操作。其主要结构由以下组件组成:输入层,几个隐藏层和输出层。它将所有功能词转换成矢量值匹配后,给文本数据的更深层次的功能表示。在此基础上,本研究使用word2vec实现词向量化。假定预处理文本评论是由N词,如表1所示,<年代vg height="12.5807pt" id="M1" style="vertical-align:-3.272799pt" version="1.1" viewbox="-0.0498162 -9.3079 14.2741 12.5807" width="14.2741pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
3所示。方法
3.1。支持向量机分类
支持向量机可以构造一个超平面之间的距离最大化决定的正负两极表面。主要的思想是图所示1。
在图1、四角恒星和圆圈分别代表两种类型的样本,SVM最大化这两种样品的直线距离。假设<年代vg height="9.14241pt" id="M5" style="vertical-align:-3.1815pt" version="1.1" viewbox="-0.0498162 -5.96091 12.2751 9.14241" width="12.2751pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
当<年代vg height="11.8174pt" id="M11" style="vertical-align:-3.1815pt" version="1.1" viewbox="-0.0498162 -8.6359 14.9631 11.8174" width="14.9631pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
SVM提出一个最优平面分类条件下的线性可分性,要求模型不仅区分数据没有错误,也最大化分类差距。线性判别函数通常表示为多维空间<年代pan class="equation_break" id="EEq4">
分类面方程是ab,判别函数归一化这两种样本之间的距离书籍和最优平面大于或等于1。
在这一点上,最近的样本分类平面上满足| g (x) | = 1的样本方程(5)是支持向量:<年代pan class="equation_break" id="EEq5">
2 /分类间隔<年代pan class="nowrap"> ,年代pan>的最低<年代pan class="inline_break"> 相当于最大区间,满足<年代pan class="inline_break"> ;年代pan>与此同时,分类表面满足方程(5)是最优分类面。然而,样品不是线性可分的,也就是说,SVM算法不能运行一个解决方案。为此,松弛变量的集合<年代pan class="inline_break"> :年代pan>
非线性问题可以转化为线性问题,损失函数的使用<我>ε我>惩罚参数C和松弛变量<我>ξ我>,减少错误率,同时实现样品分离,具体公式如下:<年代pan class="equation_break" id="EEq7">
拉格朗日因子<年代vg height="9.25202pt" id="M22" style="vertical-align:-3.29111pt" version="1.1" viewbox="-0.0498162 -5.96091 9.17078 9.25202" width="9.17078pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
使用高斯RBF,<年代pan class="equation_break" id="EEq9"> 在哪里<我>N我> 是标准正态分布。重点产品取代内核估计和判别函数的表达式<年代pan class="equation_break" id="EEq10">
损失函数<年代pan class="inline_break">
惩罚参数C和核函数参数<年代vg height="6.34998pt" id="M29" style="vertical-align:-0.2063899pt" version="1.1" viewbox="-0.0498162 -6.14359 7.47218 6.34998" width="7.47218pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
3.2。改进的算法
PSO算法源于对鸟类的觅食行为的研究(24),该算法首先随机初始化一群粒子,每个粒子的优化问题是一个可行的解决方案,和健身是根据目标函数决定的。粒子在当前最优粒子的方向移动;最优的解决方案是通过一代又一代地搜索。每一代的人口,有两个极端值最优的解决方案<年代vg height="9.8679pt" id="M31" style="vertical-align:-3.74389pt" version="1.1" viewbox="-0.0498162 -6.12401 22.132 9.8679" width="22.132pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
3.2.1之上。改进惯性权重
调整惯性权重可以分为四类:常数(23],随机数[27)、时变和自适应惯性权重。在初始阶段,步长较大和大惯性权重<年代vg height="6.1673pt" id="M43" style="vertical-align:-0.2063904pt" version="1.1" viewbox="-0.0498162 -5.96091 10.6 6.1673" width="10.6pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
3.2.2。引入交叉算子
为了避免算法陷入局部最优的可能性在迭代结束时,引入交叉算子以提高粒子之间的信息交换。搜索过程是由个体的优化,人口优化,和个人的遗传操作,以弥补缺陷,很容易陷入局部优化,该方法可以跳出局部优化,得到全局最优的解决方案。
3.2.3。模拟
评估PSO-W-GA算法的有效性,四个基准函数的球体,Schewefel, Rastrigin,。CEC2014被选来评估算法的性能。比较该方法与改进方法如下:(1)标准PSO,(2)皮犬<年代pan class="inline_break"> ,年代pan>f我>是进化的因素计算了粒子之间的距离,和(3)AIWPSO,哪里<年代pan class="inline_break"> ,年代pan>N是人口规模和S (t)是最好的位置的人<我>t我>时间。
根据经验,的值范围<我>ω我>是<年代pan class="inline_break">
(28]。在这项研究中,<年代vg height="9.23375pt" id="M51" style="vertical-align:-3.27284pt" version="1.1" viewbox="-0.0498162 -5.96091 27.4389 9.23375" width="27.4389pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
我们添加了传统RNN模型和CNN模型模拟实验的完整的比较和实验;表2显示了所有列出的算法实验结果。
在表2,<年代pan class="nowrap">
,年代pan>
,年代pan>
,年代pan>和<年代vg height="12.7178pt" id="M106" style="vertical-align:-3.42947pt" version="1.1" viewbox="-0.0498162 -9.28833 11.7923 12.7178" width="11.7923pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
数据2- - - - - -5表明,在四个评价函数,W-GA-PSO算法提出了研究最快的收敛速度,最小的错误,和性能最高,其次是皮犬算法,略有不如我们提出的模型。AIPSO算法排名第三,和PSO算法最糟糕的表现,表现不佳的评估指标。实验证明,提出的模型我们可以快速、准确地帮助情感分类模型来优化参数,实现良好的分类效果。
4所示。提出的模型
本研究结合PSO全局优化的特点和支持向量机快速分类,提出了优化的支持向量机模型改进算法实现情感分类。具体实现步骤如下。<年代pan class="list">(1)年代pan>抓取网页的评论信息和预处理文本年代pan>(2)年代pan>评论的数据分为训练集和测试集与相应的积极的和消极的标签。年代pan>(3)年代pan>搜狗新闻语料库训练Word2vec Skip_gram模型;接下来,word2vec向量的每个单词<年代vg height="12.5807pt" id="M107" style="vertical-align:-3.272799pt" version="1.1" viewbox="-0.0498162 -9.3079 14.2741 12.5807" width="14.2741pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
在这项研究中,整个实验过程如图6。
5。实验结果
预测结果可以分为4类:(1)TP,指积极预测的数量,(2)FN,积极的预测是消极的数量,(3)FP,预测消极为积极的数量,和(4)TN,负向预测数量负方向。
积极类的准确性<年代pan class="inline_break">
;年代pan>积极的召回率<年代pan class="inline_break">
。年代pan>积极的课堂<年代vg height="11.7065pt" id="M127" style="vertical-align:-3.18152pt" version="1.1" viewbox="-0.0498162 -8.52498 11.9489 11.7065" width="11.9489pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
速度和精度<年代vg height="11.7065pt" id="M129" style="vertical-align:-3.18152pt" version="1.1" viewbox="-0.0498162 -8.52498 11.9489 11.7065" width="11.9489pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
最后,不同模型下的分类效果比较表3。研究结果表明,该方法具有较高的预测精度和较高的运行效率。
时间消耗而言,情感词典最糟糕的表现。支持向量机算法与我们的算法比300年代。因为我们进行参数优化的基础上,支持向量机模型中,所有的耗时的SVM算法比单一的支持向量机算法,和我们的算法明显优于其他比较算法的准确性和F1的分数。这表明我们的算法的有效性。此外,CNN算法的精度也很高。我们会考虑添加CNN算法组合模型在未来的研究,进一步提高我们的情感分类模型的准确性。
6。结论
在这个研究中,我们提出了一种改进的粒子群优化算法,并用于优化支持向量机模型参数对中文文本情感分类。内核技术用于学习支持向量机模型中的非线性模型,和减少损失。研究结果表明,SVM-IPSO弥补传统情感词典的不足影响通过词序和不同的上下文和解决局部优化的问题。同时,它避免了问题的梯度消失或分散使用卷积时,降低了参数优化和调整的成本,具有较高的运行效率和精度,并可以预测文本情感。在未来,我们还将继续努力改进算法来提高精度;同时,本研究的实验数据都从网络中提取,因此有必要增加数据规模和验证该模型在大规模数据的分类效果。这个模型有很好的影响二元分类问题,所以我们将考虑扩展模型来解决更复杂的分类问题。我们的研究的局限性是,网络评论文本情感分类可能不是一个第二分类;我们可以设置更多的情感表达的情绪更准确的分类根据量化,比如情感的设计规模量化情感从低到高的分数值,以便更好的为管理者提供有效的决策支持。
数据可用性
本研究的实验数据是可用的要求从相应的作者。
的利益冲突
所有作者宣称他们没有关于这项研究的利益冲突。
确认
这项工作是由2018年河南高校的骨干教师培训项目(没有。2018 ggjs183)。