ACISCgydF4y2Ba 应用计算智能和软计算gydF4y2Ba 1687 - 9732gydF4y2Ba 1687 - 9724gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2018/1407817gydF4y2Ba 1407817gydF4y2Ba 研究文章gydF4y2Ba 在基于信息增益的特征选择和分类文档情绪分析gydF4y2Ba http://orcid.org/0000 - 0003 - 1200 - 786 xgydF4y2Ba PratiwigydF4y2Ba Asriyanti IndahgydF4y2Ba 1gydF4y2Ba http://orcid.org/0000 - 0002 - 3518 - 7587gydF4y2Ba AdiwijayagydF4y2Ba 1gydF4y2Ba ZuninogydF4y2Ba 鲁道夫gydF4y2Ba 大学之间gydF4y2Ba Telekomunikasi街1号gydF4y2Ba 40257年万隆gydF4y2Ba 印尼gydF4y2Ba telkomuniversity.ac.idgydF4y2Ba 2018年gydF4y2Ba 19gydF4y2Ba 2gydF4y2Ba 2018年gydF4y2Ba 2018年gydF4y2Ba 10gydF4y2Ba 07年gydF4y2Ba 2017年gydF4y2Ba 09年gydF4y2Ba 10gydF4y2Ba 2017年gydF4y2Ba 26gydF4y2Ba 11gydF4y2Ba 2017年gydF4y2Ba 19gydF4y2Ba 2gydF4y2Ba 2018年gydF4y2Ba 2018年gydF4y2Ba 版权©2018 Asriyanti Indah Pratiwi Adiwijaya。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

情绪分析在电影评论今天的生活方式的需要。不幸的是,巨大的特性使分析缓慢和不敏感的情绪。寻找最优特征选择和分类仍然是一个挑战。为了处理一个巨大数量的特性和分类,提供更好的情绪信息化提出了特征选择和分类。该方法减少了超过90%的不必要的特性而提出情绪分类的分类方案达到96%的准确率。从实验结果可以得出结论,提出了特征选择和分类的组合达到最佳性能。gydF4y2Ba

1。介绍gydF4y2Ba

一个有趣的挑战在文本分类是情绪分析,研究,分析特定对象的主观信息(gydF4y2Ba 1gydF4y2Ba]。情绪分析可以应用在各种水平:文档级别,句子层面上,和功能水平。gydF4y2Ba

Sentiment-based分类在电影审查文档级情感分析。它将审查视为一组独立的单词序列的忽视单词的文本。每一个独特的词和短语可以作为文档的功能。因此,构建大量的功能。此外,它还减缓了流程,使分类任务的偏见(gydF4y2Ba 2gydF4y2Ba]。gydF4y2Ba

实际上,并不是所有的特性是必要的。大部分的特性无关的类标签。另一方面,一个好的功能分类与输出最大相关性的一个类。gydF4y2Ba

在情绪分析特征选择是一个关键部分,在本文中,我们提出了一个基于信息增益的特征选择。此外,我们提出了基于词典的分类方案,由选定的特征。gydF4y2Ba

2。以前的工作gydF4y2Ba

有两种常见的情感分析方法:机器学习方法和基于知识的方法。威尔士(gydF4y2Ba 3gydF4y2Ba)建议两种方法的结合:使用机器学习提供情绪知识的局限性。另一方面,它不能被应用于电影评论。等情绪知识SenticNet高度依赖域和上下文。例如,“有趣”意味着积极的喜剧,但消极的恐怖电影(gydF4y2Ba 4gydF4y2Ba]。gydF4y2Ba

基于机器学习的情绪分析初始化的电影审查彭日成et al。gydF4y2Ba 5gydF4y2Ba]。他们的工作执行70% -80%的准确率而人类基线情绪分析仅达到70%的准确率。2014年,多斯桑托斯和•加蒂(gydF4y2Ba 6gydF4y2Ba深度学习方法用于字面意思情绪分析,-85%的准确率达到70%。单词和字符作为情绪特征。不幸的是,大规模的构造特性导致了长期的计算。gydF4y2Ba

为了提供可靠的机器学习分类,特征选择技术是必需的(gydF4y2Ba 7gydF4y2Ba]。一些研究人员专注于减少特征的数量(gydF4y2Ba 8gydF4y2Ba]。Manurung [gydF4y2Ba 9gydF4y2Ba)提出了一种特征选择方案命名feature-count (FC)。FC选择gydF4y2Ba ngydF4y2Ba 顶级subfeatures最高的频率计数。它只花费gydF4y2Ba OgydF4y2Ba (gydF4y2Ba ngydF4y2Ba )gydF4y2Ba 选择subfeatures。O则相反,它可能选择一个功能,没有相关性输出类,因为高发生并不意味着高相关性输出类。gydF4y2Ba

尼科尔斯和歌曲gydF4y2Ba 8gydF4y2Ba]研究和OKeefe Koprinska [gydF4y2Ba 10gydF4y2Ba)研究提出了类似的想法来选择功能基于文档频率的区别(DF)在课堂上积极和DF在课堂上消极的。它被命名为文档频率差异(过程)。目前选择的特性之间的比例最高积极DF-negative DF差异和文档的总数。他们的研究可以选择功能,具有较高的差异但不相关的类的输出。gydF4y2Ba

信息基于理论的特征选择信息增益、互信息等也提出了情绪分析(gydF4y2Ba 11gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba]。提前,Abbasi等人提出了一个启发式搜索过程来搜索最佳subfeature基于信息增益(IG)值命名熵加权遗传算法(EWGA) [gydF4y2Ba 13gydF4y2Ba]。EWGA搜索最优subfeatures使用遗传算法(GA)的初始种群选择信息增益(IG)阈值方案。与其他相比,EWGA是迄今为止最强大的特征选择。它选择的特性,分类准确率达到88%。然而,高成本的计算。gydF4y2Ba

康奈尔审查数据集,本研究利用极性v.2.0文档级情感分析的基准数据集,由1000名积极和1000消极处理评论(gydF4y2Ba 14gydF4y2Ba]。这个数据集分成十倍交叉验证。gydF4y2Ba

3所示。在电影评论信息增益gydF4y2Ba

信息增益度量混合特性(gydF4y2Ba 15gydF4y2Ba]。在情感分析领域,信息增益是用来测量的相关性属性gydF4y2Ba 一个gydF4y2Ba 在课堂上gydF4y2Ba CgydF4y2Ba 。类之间的互信息的价值就越高gydF4y2Ba CgydF4y2Ba 和属性gydF4y2Ba 一个gydF4y2Ba ,类之间的相关性就越高gydF4y2Ba CgydF4y2Ba 和属性gydF4y2Ba 一个gydF4y2Ba 。gydF4y2Ba (1)gydF4y2Ba 我gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba HgydF4y2Ba CgydF4y2Ba - - - - - -gydF4y2Ba HgydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba )gydF4y2Ba =gydF4y2Ba - - - - - -gydF4y2Ba ∑gydF4y2Ba cgydF4y2Ba EgydF4y2Ba CgydF4y2Ba pgydF4y2Ba CgydF4y2Ba 日志gydF4y2Ba ⁡gydF4y2Ba pgydF4y2Ba (gydF4y2Ba CgydF4y2Ba )gydF4y2Ba 、类的熵gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 是类给定属性的条件熵,gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba - - - - - -gydF4y2Ba ∑gydF4y2Ba cgydF4y2Ba EgydF4y2Ba CgydF4y2Ba pgydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 日志gydF4y2Ba ⁡gydF4y2Ba pgydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 。自康奈尔电影评论数据集平衡类,类的概率gydF4y2Ba CgydF4y2Ba 对于积极和消极= 0.5。因此,熵类gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba )gydF4y2Ba = 1。信息增益可以制定gydF4y2Ba (2)gydF4y2Ba 我gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba HgydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba 。gydF4y2Ba

的最小值gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 如果只发生gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 这意味着属性gydF4y2Ba 一个gydF4y2Ba 和类gydF4y2Ba CgydF4y2Ba 并不相关。相反,我们倾向于选择属性gydF4y2Ba 一个gydF4y2Ba 主要出现在一个类中gydF4y2Ba CgydF4y2Ba 无论是积极的还是消极的。句话说,最好的特性是一组只出现在一个类的属性。这意味着最大gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 到达的时候gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 等于gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 导致gydF4y2Ba PgydF4y2Ba (gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 和gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 等于0.5。当gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,然后的价值gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 结果gydF4y2Ba PgydF4y2Ba (gydF4y2Ba CgydF4y2Ba 2gydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 和gydF4y2Ba HgydF4y2Ba (gydF4y2Ba CgydF4y2Ba 1gydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。的价值gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba CgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 从0到0.5是不同的。gydF4y2Ba

4所示。情绪分析框架gydF4y2Ba

康奈尔审查数据集,本研究利用极性v.2.0文档级情感分析的基准数据集,由1000名积极和1000消极处理评论(gydF4y2Ba 14gydF4y2Ba]。这个数据集分成十倍交叉验证。gydF4y2Ba

图gydF4y2Ba 1gydF4y2Ba显示提出了情感分析的过程。这个过程分为字典构建阶段和分类阶段。词典构建阶段构造一个字典,可用于分类审查:积极的还是消极的。这是词典构建阶段在这项研究的步骤:gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 阅读数据集,gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba nonalphabetic移除,标记(3),(4)stopwords删除,(5)阻止(可选),gydF4y2Ba (gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 最初的词汇结构,(7)初始特征矩阵结构,(8)DF阈值,IG-DF-FS(9)和(10)词典建设。gydF4y2Ba

分类流程图。gydF4y2Ba

类似于字典构建阶段,分类阶段还包括预处理和功能建设。相反,它使用了字典,而不是选择特性和构造另一个字典。这个阶段的结果是人气电影评论的标签。gydF4y2Ba

4.1。IG-DF特征选择gydF4y2Ba

以前的工作在信息增益gydF4y2Ba 16gydF4y2Ba)选择与输出类功能,具有较高的相关性。这些特性通常只出现在正类或负类。不幸的是,它可能只出现几次因为情绪可以表达方式不同。因此,由于这些特性不发生过度拟合。gydF4y2Ba

另一方面,DF阈值(gydF4y2Ba 8gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba)选择功能,大多数出现在训练集,可以选择功能,总是出现在两类。这些功能是不必要的,因为它不能区分它所属的类。gydF4y2Ba

在这项研究中,我们提出一个结合信息增益和DF阈值特征选择,IGDFFS命名。IGDFFS选择功能,搞笑的分数等于0.5。这意味着一个类只有这些特性高度相关。这些计划成功地减少不必要的特性(约90%的算法gydF4y2Ba 1gydF4y2Ba)。gydF4y2Ba

<大胆>算法1:< /大胆> IGDF特征选择。gydF4y2Ba

(gydF4y2Ba1)gydF4y2Ba 过程gydF4y2BaIGDF-FgydF4y2Ba eaturegydF4y2Ba- sgydF4y2Ba 选举gydF4y2Ba(输入:gydF4y2Ba {gydF4y2Ba 数组gydF4y2Ba 的属性gydF4y2Ba 一个gydF4y2Ba 和它的类gydF4y2Ba CgydF4y2Ba }gydF4y2Ba ,gydF4y2Ba

输出:gydF4y2Ba {gydF4y2Ba 积极的gydF4y2Ba 和消极的特性gydF4y2Ba 集gydF4y2Ba }gydF4y2Ba )gydF4y2Ba

(gydF4y2Ba2)gydF4y2Ba 为gydF4y2Ba 每个特性featuresetgydF4y2Ba 做gydF4y2Ba

(3)gydF4y2Ba 计算gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba

(4)gydF4y2Ba 结束了gydF4y2Ba

(5)gydF4y2Ba 为gydF4y2Ba 每个IGscoregydF4y2Ba 我gydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba 做gydF4y2Ba

(6)gydF4y2Ba 如果gydF4y2Ba 我gydF4y2Ba (gydF4y2Ba CgydF4y2Ba ∣gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba =gydF4y2Ba 0.5gydF4y2Ba 然后gydF4y2Ba

(7)gydF4y2Ba VgydF4y2Ba ogydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba ugydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ygydF4y2Ba ←gydF4y2Ba VgydF4y2Ba ogydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba ugydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ygydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba

(8)gydF4y2Ba 如果gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba )gydF4y2Ba =gydF4y2Ba =gydF4y2Ba PgydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba ∣gydF4y2Ba CgydF4y2Ba pgydF4y2Ba ogydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba )gydF4y2Ba 然后gydF4y2Ba

(9)gydF4y2Ba fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ugydF4y2Ba rgydF4y2Ba egydF4y2Ba 年代gydF4y2Ba egydF4y2Ba tgydF4y2Ba pgydF4y2Ba ogydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba ←gydF4y2Ba fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ugydF4y2Ba rgydF4y2Ba egydF4y2Ba 年代gydF4y2Ba egydF4y2Ba tgydF4y2Ba pgydF4y2Ba ogydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba

(10)gydF4y2Ba 其他的gydF4y2Ba

(11)gydF4y2Ba fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ugydF4y2Ba rgydF4y2Ba egydF4y2Ba 年代gydF4y2Ba egydF4y2Ba tgydF4y2Ba ngydF4y2Ba egydF4y2Ba ggydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba ←gydF4y2Ba fgydF4y2Ba egydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ugydF4y2Ba rgydF4y2Ba egydF4y2Ba 年代gydF4y2Ba egydF4y2Ba tgydF4y2Ba ngydF4y2Ba egydF4y2Ba ggydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba

(12)gydF4y2Ba 如果gydF4y2Ba

(13)gydF4y2Ba 如果gydF4y2Ba

(14)gydF4y2Ba 结束了gydF4y2Ba

(15)gydF4y2Ba 结束程序gydF4y2Ba

4.2。分类gydF4y2Ba

众所周知,熵和信息增益通常用于决策树。选择信息增益最高的特性决定了阶级的审查。基于这种直觉,我们分类词汇的积极功能和消极功能。回顾将分为积极的审查,如果大部分的特性是积极的,反之亦然(算法gydF4y2Ba 2gydF4y2Ba)。gydF4y2Ba

<大胆>算法2:< /大胆> IG-based分类。gydF4y2Ba

(gydF4y2Ba1)gydF4y2Ba 过程gydF4y2BaIG -gydF4y2Ba 基于gydF4y2Ba- cgydF4y2Ba lassifiergydF4y2Ba(输入:gydF4y2Ba {gydF4y2Ba 情绪gydF4y2Ba 词汇特征向量:gydF4y2Ba

×的数量gydF4y2Ba 文档gydF4y2Ba }gydF4y2Ba 输出:gydF4y2Ba {gydF4y2Ba 情绪gydF4y2Ba 标签:正面或gydF4y2Ba 负gydF4y2Ba }gydF4y2Ba )gydF4y2Ba

(gydF4y2Ba2)gydF4y2Ba 为gydF4y2Ba 每个文档在featurevectorgydF4y2Ba 做gydF4y2Ba

(3)gydF4y2Ba 为gydF4y2Ba 每个vocabinVocabularygydF4y2Ba 做gydF4y2Ba

(4)gydF4y2Ba 如果gydF4y2Ba vgydF4y2Ba ogydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba 是正的gydF4y2Ba- - - - - -gydF4y2Ba 特性gydF4y2Ba 然后gydF4y2Ba

(5)gydF4y2Ba pgydF4y2Ba ogydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba ←gydF4y2Ba pgydF4y2Ba ogydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba +gydF4y2Ba 1gydF4y2Ba

(6)gydF4y2Ba 其他的gydF4y2Ba

(7)gydF4y2Ba ngydF4y2Ba egydF4y2Ba ggydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba ←gydF4y2Ba ngydF4y2Ba egydF4y2Ba ggydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba +gydF4y2Ba 1gydF4y2Ba

(8)gydF4y2Ba 如果gydF4y2Ba

(9)gydF4y2Ba 结束了gydF4y2Ba

(10)gydF4y2Ba 如果gydF4y2Ba pgydF4y2Ba ogydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba >gydF4y2Ba ngydF4y2Ba egydF4y2Ba ggydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba egydF4y2Ba 然后gydF4y2Ba

(11)gydF4y2Ba cgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba egydF4y2Ba lgydF4y2Ba ←gydF4y2Ba cgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba egydF4y2Ba lgydF4y2Ba +gydF4y2Ba ′gydF4y2Ba 积极的gydF4y2Ba′gydF4y2Ba

(12)gydF4y2Ba 其他的gydF4y2Ba

(13)gydF4y2Ba cgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba egydF4y2Ba lgydF4y2Ba ←gydF4y2Ba cgydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba lgydF4y2Ba 一个gydF4y2Ba bgydF4y2Ba egydF4y2Ba lgydF4y2Ba +gydF4y2Ba ′gydF4y2Ba 负gydF4y2Ba′gydF4y2Ba

(14)gydF4y2Ba 如果gydF4y2Ba

(15)gydF4y2Ba 结束了gydF4y2Ba

(16)gydF4y2Ba 结束程序gydF4y2Ba

5。结果和分析gydF4y2Ba

图gydF4y2Ba 2gydF4y2Ba显示之前的性能特征选择(FFSA) (gydF4y2Ba 16gydF4y2Ba),提出了特征选择(IGDFFS)。结果表明,IGDFFS选择更好的特性。gydF4y2Ba

特征选择的性能比较。gydF4y2Ba

方法选择输出类和功能,具有较高的相关性也有最高的发生。结果,生成的特征矩阵有更少的零值。相反,以前的方法可以成功地选择高相关特性但可能需要罕见的特性。罕见的特性没有出现在训练集的另一个电影评论文档,不得出现在测试集。因此,生成的特征矩阵由很多零值。大量的文件,没有任何功能很难被分类。gydF4y2Ba

特征选择的目标之一是避免过度拟合。实际上,在这种情况下,常用的机器学习技术可能会导致过度拟合。原因是测试集中的特征矩阵由很多零值超过训练集的特征矩阵。自从特性影响机器学习模型,然后对机器学习很难适应模型的特征矩阵测试集。gydF4y2Ba

图gydF4y2Ba 3gydF4y2Ba总结了支持向量机的性能、安和搞笑分类器。不幸的是,支持向量机和安遭受过度拟合问题。他们的测试精度未达到70%的准确率。不同于安和SVM, IGC相当稳定在任何条件。IGC成功避免过度拟合问题。它可以得出结论,IGC比当前分类器提出了分类器性能更好。gydF4y2Ba

情感分类器的性能比较。gydF4y2Ba

信息增益值告诉如何混合特性类。搞笑值达到最大值(0.5)在这种情况下,当功能只属于一个类。这意味着当特征出现我们确保标签必须是积极的还是消极的。在这种情况下,选择特性的搞笑价值平均达到最大值(0.5),它可用于自动分类。提出分类方案的专业是数学模型的独立。自提出分类方法成功地避免过度拟合,我们可以说,我们的方法是比以前更好的工作。gydF4y2Ba

6。结论和未来的工作gydF4y2Ba

为了提供更好的情绪分析系统,改善提出了基于信息增益的特征选择和分类。提出了特征选择选择功能,具有较高的信息增益和高发生。因此,它成功地提供功能,也最有可能出现在测试。提出了分类器使用积极的和消极的特性从搞笑计算获得。然后,它花费更少的时间比之前的分级机(SVM、安等)。gydF4y2Ba

结合信息增益和文档频率在这项研究中提出的特征选择;IGDFFS选择subfeatures满足这些标准:gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 输出类和高相关性gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 在数据集的发生率较高。因此,构造subfeatures分类,达到更好的性能。gydF4y2Ba

当前分类器相比,信息增益分类器(IGC)克服了最近的高精度属于EWGA(只有88.05%)。它成功地避免过度拟合问题在任何条件。IGC的性能很稳定的训练和测试。gydF4y2Ba

我们正在考虑组单词根据其相关性正面和负面评论。注意,目前使用的有171476个单词和47156年过时的词在英语领域(基于牛津英语词典)。至少一个有限数量的组会少于总数的单词。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突有关的出版。gydF4y2Ba

阿加瓦尔gydF4y2Ba B。gydF4y2Ba 米塔尔gydF4y2Ba N。gydF4y2Ba 突出情感分析的特征提取gydF4y2Ba 2015年gydF4y2Ba 施普林格gydF4y2Ba BattitigydF4y2Ba R。gydF4y2Ba 使用互信息选择监督神经网络学习特性gydF4y2Ba IEEE神经网络和学习系统gydF4y2Ba 1994年gydF4y2Ba 5gydF4y2Ba 4gydF4y2Ba 537年gydF4y2Ba 550年gydF4y2Ba 10.1109/72.298224gydF4y2Ba 2 - s2.0 - 0028468293gydF4y2Ba 威尔士gydF4y2Ba E。gydF4y2Ba 情感计算和情感分析gydF4y2Ba IEEE智能系统gydF4y2Ba 2016年gydF4y2Ba 31日gydF4y2Ba 2gydF4y2Ba 102年gydF4y2Ba 107年gydF4y2Ba 10.1109 / MIS.2016.31gydF4y2Ba 2 - s2.0 - 84963783209gydF4y2Ba ChaovalitgydF4y2Ba P。gydF4y2Ba 周gydF4y2Ba lgydF4y2Ba 电影评论挖掘:监督和非监督分类方法之间的比较gydF4y2Ba 学报》第38届夏威夷国际会议系统科学(HICSS 05)gydF4y2Ba 2005年gydF4y2Ba IEEEgydF4y2Ba 112 cgydF4y2Ba 10.1109 / HICSS.2005.445gydF4y2Ba 庞gydF4y2Ba B。gydF4y2Ba 李gydF4y2Ba lgydF4y2Ba VaithyanathangydF4y2Ba 年代。gydF4y2Ba 大拇指?:情绪分类使用机器学习技术gydF4y2Ba 诉讼ACL-02会议在自然语言处理的经验方法gydF4y2Ba 2002年7月gydF4y2Ba 斯特劳斯堡,宾夕法尼亚州,美国gydF4y2Ba 计算语言学协会gydF4y2Ba 79年gydF4y2Ba 86年gydF4y2Ba 10.3115/1118693.1118704gydF4y2Ba 多斯桑托斯gydF4y2Ba c . N。gydF4y2Ba •加蒂gydF4y2Ba M。gydF4y2Ba 深卷积神经网络短的文本的情感分析gydF4y2Ba 25日计算语言学国际会议的程序(科尔的14)gydF4y2Ba 2014年gydF4y2Ba 69年gydF4y2Ba 78年gydF4y2Ba 2 - s2.0 - 84932166511gydF4y2Ba 盖恩gydF4y2Ba 我。gydF4y2Ba 耿氏gydF4y2Ba 年代。gydF4y2Ba 动力学gydF4y2Ba M。gydF4y2Ba 枝gydF4y2Ba l。gydF4y2Ba 特征提取:基础和应用程序gydF4y2Ba 2008年gydF4y2Ba 207年gydF4y2Ba 施普林格gydF4y2Ba 尼科尔斯gydF4y2Ba C。gydF4y2Ba 首歌gydF4y2Ba F。gydF4y2Ba 情绪特征选择方法的比较分析gydF4y2Ba 加拿大会议上人工智能学报》上gydF4y2Ba 2010年gydF4y2Ba 施普林格gydF4y2Ba 286年gydF4y2Ba 289年gydF4y2Ba ManurunggydF4y2Ba R。gydF4y2Ba 基于机器学习的情绪分析印尼自动翻译英文影评gydF4y2Ba 美国先进的计算智能及其应用国际会议(ICACIA)gydF4y2Ba 2008年gydF4y2Ba 印尼Depok市gydF4y2Ba OKeefegydF4y2Ba T。gydF4y2Ba KoprinskagydF4y2Ba 我。gydF4y2Ba 在情感分析中特征选择和加权方法gydF4y2Ba 14日,澳大拉西亚的文档的程序计算研讨会gydF4y2Ba 2009年gydF4y2Ba 澳大利亚悉尼gydF4y2Ba CiteseergydF4y2Ba 67年gydF4y2Ba 74年gydF4y2Ba 阿加瓦尔gydF4y2Ba B。gydF4y2Ba 米塔尔gydF4y2Ba N。gydF4y2Ba 使用机器学习的文本分类方法:调查gydF4y2Ba 236年gydF4y2Ba 第二国际会议上软计算的程序解决问题(SocProS 2012)gydF4y2Ba 2012年12月gydF4y2Ba 印度gydF4y2Ba 施普林格gydF4y2Ba 701年gydF4y2Ba 709年gydF4y2Ba 先进的智能系统和计算gydF4y2Ba 10.1007 / 978 - 81 - 322 - 1602 - 5 - _75gydF4y2Ba IkonomakisgydF4y2Ba M。gydF4y2Ba KotsiantisgydF4y2Ba 年代。gydF4y2Ba TampakasgydF4y2Ba V。gydF4y2Ba 使用机器学习的文本分类技术gydF4y2Ba 圆柱事务在电脑上gydF4y2Ba 2005年gydF4y2Ba 4gydF4y2Ba 8gydF4y2Ba 966年gydF4y2Ba 974年gydF4y2Ba 2 - s2.0 - 23444448953gydF4y2Ba AbbasigydF4y2Ba 一个。gydF4y2Ba 陈gydF4y2Ba H。gydF4y2Ba 萨勒姆gydF4y2Ba 一个。gydF4y2Ba 情绪分析在多种语言:特征选择在网络论坛意见分类gydF4y2Ba ACM交易信息和系统安全gydF4y2Ba 2008年gydF4y2Ba 26gydF4y2Ba 3、第十二条gydF4y2Ba 10.1145/1361684.1361685gydF4y2Ba 2 - s2.0 - 46249095180gydF4y2Ba 庞gydF4y2Ba B。gydF4y2Ba 李gydF4y2Ba lgydF4y2Ba 情感教育:情绪分析使用主观性总结基于最小削减gydF4y2Ba 《第42计算语言学协会年度会议gydF4y2Ba 2004年7月gydF4y2Ba 西班牙巴塞罗那gydF4y2Ba 计算语言学协会gydF4y2Ba 271年gydF4y2Ba 10.3115/1218955.1218990gydF4y2Ba 灰色的gydF4y2Ba r·M。gydF4y2Ba 熵和信息理论gydF4y2Ba 2011年gydF4y2Ba 施普林格科学与商业媒体gydF4y2Ba 阿米里gydF4y2Ba F。gydF4y2Ba YousefigydF4y2Ba m·m·R。gydF4y2Ba 卢卡斯gydF4y2Ba C。gydF4y2Ba 共同对入侵检测系统的信息化特征选择gydF4y2Ba 网络与计算机应用》杂志上gydF4y2Ba 2011年gydF4y2Ba 34gydF4y2Ba 4gydF4y2Ba 1184年gydF4y2Ba 1199年gydF4y2Ba 10.1016 / j.jnca.2011.01.002gydF4y2Ba 2 - s2.0 - 79956097533gydF4y2Ba