基于信息增益的文档情感分析特征选择与分类

摘要

影评中的情感分析是当今生活方式的需要。不幸的是，大量的特性使得分析的情绪变得缓慢和不那么敏感。寻找最优的特征选择和分类仍然是一个挑战。为了处理海量的特征并提供更好的情感分类，提出了一种基于信息的特征选择和分类方法。该方法减少了90%以上的不必要特征，同时达到了96%的情感分类准确率。从实验结果可以看出，提出的特征选择与分类相结合的方法取得了迄今为止最好的性能。

1.介绍

文本分类中一个有趣的挑战是情感分析，一项分析特定对象的主观信息的研究[1］．情感分析可以应用于不同的层次:文档层次、句子层次和特征层次。

电影评论中基于情感的分类是一种文档级的情感分析。它通过忽略单词在文本中的顺序，将复习作为一组独立的单词。每个单独的单词和短语都可以用作文档功能。因此，它构建了大量的特征。此外，它还减慢了过程，使分类任务产生偏差[2］．

事实上，并不是所有的功能都是必要的。大多数特性与类标签无关。另一方面，一个很好的分类特性是与输出类关联最大的特性。

针对情感分析中的特征选择问题，提出了一种基于信息增益的情感特征选择方法。此外，我们还提出了基于选择特征构建字典的分类方案。

2.以前的工作

情感分析有两种常用的方法:机器学习方法和基于知识的方法。威尔士(3.]提出了两种方法的结合:利用机器学习提供情感知识的局限性。另一方面，它不能应用于电影评论。SenticNet等情感知识高度依赖于领域和上下文。例如，“funny”在喜剧中表示积极的意思，但在恐怖电影中表示消极的意思[4］．

Pang等人初始化的基于机器学习的电影评论情感分析[5］．他们的工作准确率为70% - 80%，而人类基线情感分析的准确率仅为70%。2014年，多斯桑托斯和加蒂[6]采用深度学习方法进行句子级情感分析，准确率达70%-85%。文字作为情感特征。不幸的是，大量构造的特征导致了长时间的计算。

为了提供鲁棒的机器学习分类，需要一种特征选择技术[7］．一些研究人员专注于减少特征的数量[8］．Manurung [9]提出了一种名为特征计数(feature-count, FC)的特征选择方案。FC选择-top子特性的最高频率计数。它只花费选择子特性。O相反，它可以选择一个与输出类无关的特征，因为高发生率并不表示与输出类的高相关性。

尼克尔斯与宋[8]研究和OKeefe和Koprinska [10]的研究也提出了类似的思路，即根据类别为正的文档频率(DF)与类别为负的文档频率(DF)差异来选择特征。它被命名为文档频率差(DFD)。DFD选取正DF差和负DF差与文档总数比例最高的特征。他们的研究可能会选择具有高差异但与输出类相关性较小的特征。

情感分析中也提出了基于信息理论的特征选择，如信息增益或互信息[11，12］．Abbasi等人事先提出了一种基于子特征信息增益(IG)值搜索最优子特征的启发式搜索方法，称为熵权遗传算法(EWGA) [13］．EWGA利用遗传算法(Genetic Algorithm, GA)搜索最优子特征，遗传算法的初始种群由信息增益(IG)阈值方案选择。与另一个相比，EWGA是迄今为止最强大的功能选择。它选择的特征分类准确率达到88%。然而，这需要高成本的计算。

该研究使用了康奈尔评论数据集的polar v.2.0，这是一个用于文档级情感分析的基准数据集，由1000个积极和1000个消极处理的评论组成[14］．这个数据集分成十倍交叉验证。

3.电影评论资讯获取

信息获取度量特征的混合程度[15］．在情感分析领域，利用信息增益来度量属性的相关性在课堂上．类之间的互信息值越高和属性，阶级之间的相关性越高和属性．在哪里，类的熵为类给定属性的条件熵，．由于康奈尔影评数据集均衡了类、类的概率正负都等于0.5。结果，类的熵等于1。则信息增益可以表示为

的最小值仅当这意味着属性和类完全没有关系。相反，我们倾向于选择属性这主要出现在一门课上不管是积极的还是消极的。换句话说，最佳特性是只出现在一个类中的一组属性。它的意思是最大值到达的时候等于导致和等于0.5。当，然后是值结果和．的价值从0到0.5不等。

4.情绪分析框架

数字1展示了提出的情感分析过程。该过程分为词典构建阶段和分类阶段。字典构造阶段构造一个字典，该字典可用于对评审进行分类:积极的还是消极的。以下是本研究中词典构建阶段的步骤:阅读数据集,非字母删除，(3)标记化，(4)停止词删除，(5)词干提取(可选)，初始词汇构造，(7)初始特征矩阵构造，(8)DF阈值，(9)IG-DF-FS，(10)字典构造。

与词典构建阶段类似，分类阶段也包括预处理和特征构建。相反，它使用构建的词典而不是选择特征，并构建另一个词典。这个阶段的结果是被称为电影评论的情感。

4．1.IG-DF特征选择

有关资讯获取的过往工作[16]选择与输出类高度相关的特征。这些特征通常只出现在积极类或消极类中。不幸的是，它可能只出现几次，因为这种情绪可以用多种方式表达。结果，由于这些特征没有出现，就会发生过拟合。

另一方面，DF阈值[8，12]选择训练集中出现次数最多的特征。它可以选择总是出现在两个类中的特性。这些特征是不必要的，因为它不能区分它所属的阶级。

在本研究中，我们提出一种结合信息增益和DF阈值特征选择的方法，称为IGDFFS。IGDFFS选择IG分数等于0.5的功能。这意味着这些特性只与一个类高度相关。这些方案成功地减少了约90%的不必要的特征(算法1）.

（1）过程IGDF-FEATURE- s选举(输入:的属性和它的类，
输出:和消极的特性）
（2)为每个功能集中的功能做
(3)计算
(4)结束了
(5)为每个IGscore 做
(6)如果然后
(7)
(8)如果然后
(9)
(10)其他的
(11)
(12)如果
(13)如果
(14)结束了
(15）结束程序

4．2．分类

众所周知，熵和信息增益是决策树中常用的两种方法。所选择的具有最高信息增益的特征决定了评论的类别。基于这种直觉，我们将词汇分为积极特征和消极特征。如果一篇评论的大部分特征都是正面的，那么它就会被归类为正面评论，反之亦然2）.

（1）过程IG -基于- cLASSIFIER(输入:词汇特征向量:
×的数量，输出:标签:正面或）
（2)为特征向量中的每个文档做
(3)为每个vocabinVocabulary做
(4)如果是正的- - - - - -特性然后
(5)
(6)其他的
(7)
(8)如果
(9)结束了
(10)如果然后
(11)”积极的”
(12)其他的
(13)”负”
(14)如果
(15)结束了
（16）结束程序

5.结果和分析

数字2显示先前特征选择(FFSA)的性能[16]和建议的特征选择(IGDFFS)。结果表明，IGDFFS选择了更好的特征。

该方法选择与输出类相关度高且出现次数最多的特征。因此，生成的特征矩阵零值较小。与此相反，前一种方法可能能够成功地选择相关度高的特征，但可能只选取了很少的特征。罕见特性不会出现在训练集中的另一个电影评论文档中，也可能不会出现在测试集中。因此，生成的特征矩阵由大量的零值组成。许多没有任何特征的文件很难归类。

特征选择的目标之一是避免过拟合。实际上，在这种情况下，常见的机器学习技术可能会导致过拟合。原因是测试集的特征矩阵比训练集的特征矩阵由大量的零值组成。由于特征会影响机器学习模型，因此机器学习很难将模型与测试集中的特征矩阵拟合。

数字3.总结了SVM、ANN和IG分类器的性能。不幸的是，支持向量机和神经网络都存在过拟合问题。他们的测试精度达不到70%。与ANN和SVM不同，IGC在任何条件下都非常稳定。IGC成功地避免了过拟合问题。可以看出，IGC作为分类器的性能优于现有的分类器。

信息增益值说明一个特性与类的混合程度。当特征只属于一个类时，IG值达到最大值(此处为0.5)。这意味着当特征出现时，我们确保标签必须是正面的或负面的。在这种情况下，所选特征的IG值平均达到最大值(0.5)，可以用于自动分类。所提出的分类方案的特点是独立于数学模型。由于所提出的分类方法成功地避免了过拟合，可以说我们的方法比之前的工作要好。

6.结论与未来工作

为了提供更好的情感分析系统，提出了一种改进的基于信息增益的特征选择和分类方法。所提出的特征选择选择具有高信息增益和高出现率的特征。结果，它成功地提供了在测试中也很可能出现的特性。提出的分类器使用了之前IG计算得到的正特征和负特征。然后，它比以前的分类器(SVM, ANN等)花费更少的时间。

本研究结合信息增益和文献频率提出了特征选择;IGDFFS选择满足以下条件的子特性:与输出类高度相关数据集中出现频率高。因此，它构建了在分类中达到更好性能的子特征。

与现有分类器相比，信息增益分类器(Information Gain classifier, IGC)克服了目前属于EWGA的较高准确率(只有88.05%)。它成功地避免了任何条件下的过拟合问题。IGC的训练和测试性能都非常稳定。

我们正在考虑根据单词与正面和负面评论的相关性来分组。请注意，在英语领域(根据牛津英语词典)，有171,476个词是目前使用的，有47156个词是过时的。至少有有限数量的组会少于单词的总数。

的利益冲突

作者声明本文的发表不存在利益冲突。

参考文献

B. Agarwal和N. Mittal，面向情感分析的显著特征提取, 2015年施普林格。
R. Battiti，“在有监督的神经网络学习中使用互信息选择特征”，神经网络与学习系统，第5卷，第5期。4，第537-550页，1994。视图:出版商的网站|谷歌学者
E. Cambria，《情感计算和情感分析》，IEEE智能系统第31卷第1期2, pp. 102-107, 2016。视图:出版商的网站|谷歌学者
《电影评论挖掘:监督和非监督分类方法的比较》，P. Chaovalit和L. Zhou，《电影评论挖掘:监督和非监督分类方法的比较》，载于第38届夏威夷国际系统科学年会论文集(HICSS’05)， p. 112c, IEEE, 2005。视图:出版商的网站|谷歌学者
B. Pang、L. Lee和S. Vaithyanathan:“赞?情感分类的机器学习技术，"在自然语言处理经验方法学术会议论文集，第79-86页，计算语言学协会，斯特劳斯堡，宾夕法尼亚州，美国，2002年7月。视图:出版商的网站|谷歌学者
C. N. Dos Santos和M. Gatti，“用于短文本情感分析的深度卷积神经网络”第25届计算语言学国际会议论文集(COLING’14)，第69-78页，2014。视图:谷歌学者
I. guy, S. Gunn, M. Nikravesh和L. A. Zadeh，特征提取:基础与应用， vol. 207，施普林格，2008。
C. Nicholls和F. Song，“情感分析中特征选择方法的比较”，刊于加拿大人工智能会议论文集，页286-289，施普林格，2010。视图:谷歌学者
“基于机器学习的英文影评自动印尼语翻译的情感分析”，刊于高级计算智能及其应用国际会议论文集， Depok，印度尼西亚，2008。视图:谷歌学者
T. OKeefe和I. Koprinska，“情感分析中的特征选择和权重方法”，刊于第十四届澳大拉西亚文献计算研讨会论文集，页67-74,Citeseer，悉尼，澳大利亚，2009。视图:谷歌学者
B. Agarwal和N. Mittal，“使用机器学习方法的文本分类——一项调查”第二届问题解决软计算国际会议论文集(SocProS 2012)，第236卷智能系统和计算的进展， 701-709页，施普林格，印度，2012年12月。视图:出版商的网站|谷歌学者
M. Ikonomakis, S. Kotsiantis，和V. Tampakas，“使用机器学习技术的文本分类”，WSEAS计算机交易，第4卷，第4期。8，页966-974,2005。视图:谷歌学者
A. Abbasi, H. Chen，和A. Salem，“多语言情感分析:网络论坛意见分类的特征选择”，信息与系统安全学报第26卷第2期2008年第12条第3款。视图:出版商的网站|谷歌学者
B. Pang和L. Lee，“一个情感教育:基于最小削减的主观性总结的情感分析”计算语言学协会第42届年会论文集，第271页，计算语言学协会，巴塞罗那，西班牙，2004年7月。视图:出版商的网站|谷歌学者
r·m·格雷熵与信息论，施普林格科学与商业媒体，2011。
F. Amiri, M. M. R. Yousefi，和C. Lucas，“入侵检测系统的基于相互信息的特征选择”，网络与计算机应用学报第34卷第3期4, pp. 1184-1199, 2011。视图:出版商的网站|谷歌学者

应用计算智能和软计算

摘要