文摘
如今,在线产品评论的核心产品评估过程对一个公司和它的客户。他们给公司反馈改进产品质量,规划和监控其业务计划以增加销售和获得更多的利润。他们也帮助客户选择合适的产品在更少的时间和精力。大多数公司制造垃圾邮件的评论的产品为了增加产品销售和获得更多的利润。检测垃圾邮件产品评论是一个具有挑战性的问题在NLP(自然语言处理)。许多机器学习方法试图检测和产品评论为垃圾邮件或nonspam进行分类。然而,为了提高分类精度,本研究引入了一个机器学习模型,结合预测从多层感知器(MLP),再邻居(资讯)和随机森林(RF)和预测的结果评估为垃圾邮件或真实(nonspam),根据多数投票的贡献模型。为了实现垃圾评论的任务分类,提出的整体和其他基准提高25统计特征提取方法是测试移动应用的评论Yelp数据集。然后,选择三种不同的技术是利用减少特征空间和过滤掉十大最佳特性。的有效性提出了整体,个人模型,和其他基准提高方法再次评估10最优特性的分类精度。 Experimental outcomes illustrate that the proposed ensemble model outperformed the individual classifiers (MLP, KNN, and RF) and state-of-the-art boosting approaches like Generalized Boost Regression Model (GBM), Extreme Gradient Boost (XGBoost), and AdaBoost Regression Model in terms of classification accuracy.
1。介绍
产品评论指个人的感情或观点对某些特定公司产品/服务的交付给公司。在现代技术发达的世界上,在线产品评论产品评估过程中占据中心位置的公司和它的客户。这些评论作为公司提高产品质量反馈,计划,并监控其经营,导致增加生产力和利润。这也帮助客户正确的选择产品用更少的时间和精力。有时公司制造垃圾评论的产品来提高他们的销售。检测这些评论在NLP是一项具有挑战性的任务。因此需要自动的方法来检测垃圾邮件评论产品和将允许用户快速查看垃圾邮件和nonspam产品评论。
意见像在线产品评论为消费者提供关键的信息来源来引导他们购买产品的兴趣。客户发布评论这样的反馈通过提及他们服务的产品,好的和坏的经历(1]。这些经验也有很大的影响,企业在不久的将来。正如所料,这些也提供客户的方法和手段来修改决策发布误导性和虚假的评论。这种不道德的做法称为意见发送垃圾邮件,垃圾邮件发送者放下虚假评论/意见来吸引更多的顾客或损害企业的声誉或商品1]。
虚假的评论/意见可以分为三组:第一,虚假评论的目的是虚假的和不可信的产品损害或细节丰富它的声誉;第二,专注于产品的评论没有提及任何与其他产品的经验;第三,nonreviews和广告组成的文本和间接相关产品(1]。第一组是非常技术和识别问题,而另外两个需要更少的努力。这些评论/意见的作者是一个垃圾邮件发送者,工作对一个企业或一个集群的垃圾邮件发送者发挥合作努力得到的成果。
谷歌也在一份官方报告指出涉及的虚假评论,显然导演创新者和用户不购买和接收付款公司提供虚假的评论(2]。在某些国家,当局发起行动公司使用虚假评论夸大他们的产品。例如,加拿大电信公司处罚125万美元发布假鼓励其产品评论。此外,CNN应用程序的声誉严重受损,许多不良虚假评论,拒绝其评级和地位在苹果应用商店2]。在过去,许多努力试图检测垃圾邮件的看法。研究人员在3)应用机器学习方法通过使用逻辑回归发现垃圾邮件的看法。作者在4- - - - - -6)采用了监督机器学习的方法来发现垃圾邮件。其他方法(7,8)提出了一种混合方法结合监督和semisupervised学习识别垃圾邮件的意见。尽管有这些努力,无数的缺陷被发现在机器学习方法。例如,大量的使用功能是计算昂贵,提供灵活性差、不准确的结果。
本研究尝试使用整体机器学习方法相结合三种分类器的预测,即随机森林(RF),多层感知(MLP)和再邻居(资讯),提高垃圾邮件产品评论的分类精度。三种分类器的选择是基于实证分析。拟议的合奏机器学习模型功能在以下方式:首先,我们从移动应用程序提取25特性的评论Yelp数据集和代表产品评论作为特征向量。太多的特性影响的性能模型,并不是所有的功能都有相同的贡献在预测模型中,所以nonvaluable特性需要过滤掉。因此,我们使用三种不同的特征选择方法:卡方,单变量,和信息增益,选择十个最好的特性。最后,对于垃圾邮件检查的任务分类,提出的整体模型用于分类的评论垃圾邮件或真实(nonspam)。整体模型的有效性与提高的方法(XGBoost、GBM演算法和GBM高斯)基准的技术研究。本研究的贡献如下:(1)提出一个学习模式分类的垃圾产品评论(2)与所有功能评估系综分类模型从垃圾中提取产品评论的分类精度(3)评估系综分类模型的有效性和使用三个特征选择技术获得的最佳特性
论文计划如下:详细的文献中给出了部分2。建议合奏模式中突出显示部分3。大量的实验结果和一个完整的讨论给出了部分4。最后,结论和未来的发展方向提出了部分5。
2。相关工作
产品评论对用户反馈和用户对特定的产品大多是被客户满意度来评估一个特定的产品或服务。这些检查可以帮助消费者购买产品的决策过程。他们也成为了企业评估他们的未来客户的指导。顾客评论相关的移动应用程序(应用程序)在谷歌玩商店使用星评级表明应用到其他消费者的质量。此外,他们作为一个工具制造商或制造商这样的应用程序升级他们的产品/服务吸引更多的顾客9]。事实上,产品评论有优势为消费者和生产者;他们的角色仍在减少垃圾评论。这样的存在不道德的评论是一个绊脚石的网上贸易,非法扩大他们的业务利润或摧毁他们的产品声誉。垃圾评论的识别和分类的需要维护客户的信任。各种研究[9,10)提出了一些技术来识别垃圾邮件的评论。
技术进步使网络公司通过playstores出售移动应用程序。移动用户不仅购买产品/应用程序从这些playstores也有安排这些产品发表评论,表达自己的观点。其中一些产品评论/意见由假用户发布垃圾邮件的既得利益。作者在11)集中在虚构的意见众包数据集通过使用假的审查n-gram-based分类器来识别垃圾邮件的评论。这项研究在12)也关注检测虚构的观点和将垃圾评论的行为特征与factual-life Yelp通过支持向量机(SVM)的数据集。比较简单的n-gram-based方法,方法的结果依赖于行为特征提高了垃圾分类的准确率。这两种方法是测试生成的数据集,无力描绘虚构的意见,找到在现实生活中的产品评论垃圾邮件。作者在13)排名方法中用来描述真实的产品评论,发现评论burstiness发现垃圾邮件发送者的看法。为了挑出垃圾邮件发送者和合法用户,他们利用马尔可夫随机场(MRF)和愚蠢的信念传播(LBP)技术来研究数据。
作者在14]提供了一个良好的垃圾评论检测方法通过使用评级审查的偏差,评论家的活泼,采用时间序列和基于内容的信息。这种方法的主要缺点是高计算处理时间和更少的能力在翻译的语义意义上和信息包含在文本的评论。这项研究在15称为欺诈鹰)提出了一个模型,确定了网络和图关联的假产品评论使用[15迭代propagation-based分类方法。有人指出欺诈鹰框架辉煌发现假冒产品评论在线评论网站。的研究工作16]介绍了SPEAGLE框架,适用于从审查元数据收集的信息像时间戳,评级,短信和网络评论信息来识别垃圾邮件产品评论。
为了检测垃圾评论中文评论网站,点评网,研究在17尝试两种方法:资讯和通用的基于图的方法。这些方法的结果表明,评论家也有助于检测垃圾邮件的行为的评论。检测假和未知的评论在同一研究领域,研究引入了另一个方法名为Positive-Unlabeled (PU)来识别虚假的意见通过使用监督学习方法。未知的评论可能是假的或真正的,但假的评论总是假装。将这些研究中,研究人员在7)提出另一种方法称为混合人口和个人财产的方法通过使用一种新型semisupervised模型功能的聚氨酯学习(MPIPUL)方法。指出,PU学好操作在平衡的数据集,但没有证实在不平衡数据集。这些方法产生的主要问题是,评论都是特定于语言的,也就是说,在中国语言。
当前的方法来检测垃圾邮件产品评论/意见进行不平衡数据集;这就是为什么结果可能不是完全可信的。因此,作者在14)提出另一个垃圾邮件评审检测方法通过使用评级审查的偏差,评论家的活泼,通过时间序列和基于内容的信息。这是一个好方法(14)垃圾邮件检测但患有高计算处理时间和贫穷在解释的语义值和信息包含在文本的评论。因此,研究[6)提出了一种神经网络方法相结合的递归神经网络和卷积神经网络了解完整的文档级别描述的评论。离散模型相比,这项工作的结果表明它有优良的泛化能力。
垃圾邮件检测的过程包括识别用户的账户从垃圾邮件活动执行恶意目标。各种检测方法n蟋蟀、和语言和基于模式无法检测装备精良的垃圾邮件发送者写评论的方式似乎是真实的。因此,研究[18]介绍了一种方法基于异构图捕捉和副连接现有的评论家和评论。这种方法是免除使用任何文本内容的评论和可以增加机会识别意见垃圾邮件发送者在一个更好的方法。的研究工作19)集中在网络足迹和提出了一个两步的方法来检测垃圾邮件制造者的产品和组。这种方法包括两个主要模块,网络足迹得分(NFS)和GroupStrainer。结果表明,这种方法超越了那些方法研究了iTunes和亚马逊在垃圾邮件检测准确率高的数据集。
作者在20.)使用朴素贝叶斯最大熵,支持向量模型(支持向量机)和射频技术为iPhone手机从Kaggle审查收集的数据集。词性(POS)标记,利用矢量特性来检测垃圾评论。最好的精度是由射频。作者在9)使用情绪分析作为电影评论数据集的特性来检测垃圾邮件的评论。朴素贝叶斯比其他机器学习分类器提供了改进的性能。作者在21)使用朴素贝叶斯(NB)、支持向量机、资讯、决策树(DT)分类的电影产品评论通过情绪分析停止词或不停止词作为特征向量空间或特征向量。作者在22]使用计数Vectorizer和TF-IDF特性使用支持向量机分类器对MTurk和Yelp亚马逊数据集不同的产品评论。这项研究在23使用逻辑回归,朴素贝叶斯,射频,支持向量机,神经网络分类器的数据集上亚马逊产品评论使用TF-IDF特性,发现深层神经网络比其他机器学习分类器性能更好。作者在24)开发了一个自动系统来识别谣言在网上业务评审通过分类谣言和nonrumors使用几个机器学习分类器。
在最近的研究中,研究人员还利用监督的能力提高方法基于统计特性来实现良好的检测假产品评论和注重结果的准确性。做出更好的揭示舆论垃圾邮件在playstores手机应用程序中,作者在25)提出了一种基于统计特性建模方法通过监督促进技术GBM和XGBoost和评价两个多语言数据集英语和马来语的语言。本研究的评价强调XGBoost最大适合发现垃圾邮件的意见在英语语言数据集;另一方面,马来的GBM高斯是合适的数据集,以及与其他方法相比,statistical-based特性有获得更好的正确性率这两个数据集。我们提出一个监督机器学习方法的分类垃圾邮件产品评论。这种方法的详细框架/结构如下所示。
3所示。提出的方法
本节提出了建议整体模型的方法对垃圾邮件产品评论分类,如图1。的方法包括三个阶段,预处理,特征提取,特征选择,以及对垃圾邮件分类模型产品评论。
3.1。预处理
在计算语言学中,数据预处理是一个至关重要的步骤,清理不必要的数据,以便清理数据可以有效地使用过任何进一步处理或提供它作为系统的输入。就是这个阶段包括句子分割、停止词删除,和遏制,下面讨论。
3.1.1。句子分割
它是用来检测文本边界和文本分割成句子。通常,感叹(!),审讯(?),句号(.)作为指标迹象段文本。
例如,我们有以下文本:“我购买这种产品。这是最好的产品在这个市场。”We will get the two following sentences after segmentation:输入产品评论文本:“我购买这种产品。这是最好的产品在这个市场。”输出:段1:“我购买了这种产品。”段2:“这是最好的产品在这个市场。”
3.1.2。标记
在这一步中,句子分为不同的词除以在空白标签,空格,标点符号,即点(.),逗号(,),分号(;),冒号(:),等等。这些都是将文本划分为令牌的主要适应症。
3.1.3。停止词删除
反复出现在一个句子的词汇叫做停止的话。这些由介词(,,,等等),连词(同时,因此,等等),文章(一个,,),等等。这些话毫无意义的文本文档,并把他们从文本将有助于提高系统的性能。
3.1.4。词所
阻止在预处理中起着至关重要的作用。为了捕捉相关的概念,这一步改变了派生的词汇基础或茎。著名的抑制算法,波特的阻止(波特,1980),采用删除后缀ing,——,人从文本中单词。例如,单词“上升”和“上升”将改为阻止后的基本形式“崛起”。
3.2。特征提取
特征在文本分类问题上发挥重要作用。这一步的目的是我的特点从产品评论回顾数据集分类问题。在这项研究中,我们从移动应用的评论Yelp 25提取特征数据集。几乎所有这些功能是统计计算,可以直接从文本。拟议的合奏和其他基准提高方法测试所有25个功能,为垃圾评论的任务分类,如表所示1。所有这些特性的描述提出了表2。
3.3。特征选择
通常不是一个好主意使用所有25个特性(在我们的例子中)对产品评论进行分类为垃圾邮件或nonspam,因为所有功能没有相同的相关性在构建一个可靠和准确的预测模型。一些功能非常有价值和贡献更多的模型预测,而另一些则更有价值和有一个严重的影响了模型的有效性。此外,相关的和有价值的特性避免过度拟合,提高精度,减少预测模型的训练时间。为了解决这个问题,我们利用三个特性过滤技术,也就是说,卡方,信息增益,和单变量,减少特征空间大小,以获得最佳的特性在3.5节讨论。使用这些特征选择技术,选择十重要的和相关的统计特性的25从移动应用的评论Yelp数据集。
摆脱nonvaluable和额外的功能,三个特征选择技术(卡方、单变量和信息增益)。表3表明,卡方技术选择Yelp数据集的十个最重要的特征。单变量选择方法选择了十佳特性相同的数据集,如表中所示4。最后,表5描述了十佳使用信息增益特征选择。在下一节中强调了这样一个事实,即所有分类器选择最优特征表现相比,所有功能。更具体地说,考虑到减少最优特性,提出了整体模型优于所有分类器,在部分讨论4.2。
3.4。垃圾邮件分类模型对产品的评论
这个阶段的重点是对产品评论进行分类为垃圾邮件或真实(nonspam),使用整体学习模型。整体学习有助于提高机器学习的结果(结果)通过集成众多模型。这种方法允许创建一种改进的预测模型比单一模型。
在这项研究中,简单多数投票合奏或投票分类器被用来将来自多个机器学习算法的预测(中长期规划、随机森林和资讯为了得到一种改进的组合结果。一旦投票分类器训练,它可以用来预测新实例的标签基于多数投票的贡献模型。为了评估个体的有效性模型和整体模型,最初,我们训练和测试产品评论数据集上的单个模型使用10倍交叉验证。然后,我们提出了系综分类器训练在同一评估数据集使用10倍交叉验证。
延时,射频,然而,最先进的算法和已被证明是非常有效的解决文本分类问题。射频通常是用作基线在文本分类问题研究人员。它是一个集成学习方法的分类工作,操作通过创建一个数量的决策树训练时间和预计最常见的类贡献决定的决策树。然而,算法通过计算的距离(给出方程(1)- (3中所有例子))之间的查询和数据,选择指定数量的例子(K最近的查询()9]。
然而,距离公式是
在分类问题中,不同K价值观在资讯算法将产生不同的分类结果;然而,一个良好的价值K是由与不同的值进行多次实验的K然后选择一个好的分类结果。
射频的作品发展的决策树训练时间和预测最常见的类贡献决定的决策树。射频使用基尼指数和熵用于分类,给出的两个方程:
延时,通俗,通常被称为神经网络被称为“香草”,尤其是当只有一个隐层(10]。正如前面所提到的在这一节中,本研究提出了一个学习模式相结合的有效的ML算法,即射频,资讯,和中长期规划,利用统计特性(从产品评论中提取)的任务分类产品评论为垃圾邮件或nonspam。
4所示。实验设置
4.1。数据集进行评估
提出了整体模型评估在Yelp数据集(14),这是一个公开的数据集,其中包含英语评论/意见几个酒店和餐馆。这个数据集是广泛使用的垃圾评论检测问题。数据集包含一个2526 /评论来自Yelp的酒店评论意见。它包括389 2136垃圾邮件和正常的意见。
对于垃圾评论分类的任务,我们也评估拟议的合奏与基准模型分类器(11)的性能指标,分类精度。使用的基准模型提高技术,如XGBoost,“绿带运动”演算法,和GBM高斯分类器提出了整体模型结合机器学习分类器的预测资讯等射频和延时。
4.2。评价结果与讨论
首先,在给定的数据集预处理方法应用于把审查文本分割成句子,句子标记成单词,并删除停止的话。字阻止然后进行剩下的单词。起初,我们提取所有25个来自Yelp统计特性为垃圾评论的任务分类数据集。我们评估的有效性提出整体方法,单个分类器(延时、射频和资讯,和其他基准提高垃圾邮件的方法评估分类的任务。我们知道,所有功能没有相同的意义构建一个可靠和准确的预测模型。一些功能非常有价值和贡献更多的模型预测,而另一些则更有价值和影响模型的性能。为了摆脱nonvaluable和额外的功能,三个特征选择技术(卡方、单变量和信息增益)采用数据集从评论中提取的十大特性。为了调查减少最优特征集对分类精度的影响,提出了整体学习模型,单个的模型,和提高方法再次进行测试使用获得的十大最佳特性使用特征选择技术。
实现垃圾评论分类工作,射频,资讯,MLP分类器采用分类垃圾邮件或者nonspam的评论。训练和测试的所有分类器包括射频、资讯,和中长期规划,提出的整体模型,提高方法(GBM高斯、XGBoost GBM演算法)执行使用分层10倍交叉验证(SCV)。在分层10倍交叉验证(SCV),折叠选在这样一种方式,每个折叠包含大约相同数量的类标签。
所有分类器的分类结果采用这项工作,与所有的特性和功能选择通过3选择技术,提出了在这一节中。模型如射频、资讯和中长期规划,整体模型(射频、资讯和MLP),“绿带运动”高斯,XGBoost,“绿带运动”演算法被用于这项研究。在第一阶段,各个模型的表现如射频、资讯,和中长期规划,整体模型,提高模型对所有25 Yelp数据集的特点进行了比较。结果在表1表明,该乐团模型精度最高的88.13%相比其他分类器。
在第二阶段,特征空间是减少使用卡方特征选择方法和Yelp选择十大最佳特性数据表中给出3。鉴于十佳特性,所有的分类都应用于Yelp垃圾评论的数据集分类的任务。
分类结果表6,证明提出的整体模型实现的准确性89.26%,表现优于单个模型和其他刺激方法十佳特性选择使用卡方特性选择技术。
表中给出的结果6,提出了整体模型达到了最高89.26%的准确性,射频获得第二个最高85.72%的准确性,GBM演算法的准确性为85.59%,XGBoost精度为85.03%,和GBM高斯的最低精度84.74%。个体模型中,射频实现最高精度,甚至比提高的方法。然而,MLP获得最低的84.50%的准确性。
在第三阶段,单变量特征选择方法是利用过滤特征空间来选择Yelp的十大最佳特性数据如表所示4。对于垃圾邮件评审分类任务,鉴于十佳特性,所有的数据集分类器应用于Yelp。
分类结果表7显示,提出的整体模型精度达到88.70%,表现优于单个模型和其他刺激方法十佳特性选择使用单变量选择技术。
同样,在第四阶段,信息增益是用来选择10个最佳特征Yelp数据集的所有特性,如表所示5。
对于垃圾邮件评审分类任务,鉴于十佳特性,分类器应用于Yelp数据集。任务的分类结果,垃圾邮件评审分类使用十佳特性,给出了表7揭示,提出了整体模型实现精度为88.13%,表现优于单个模型和其他促进方法。
图2描绘了提出了整体模型的分类精度和其他基准分类器使用卡方获得的所有特性和十大特性,单变量和信息增益选择技术。
从图中所示的结果2,我们观察到分类器精度提高,仍然不受影响,或稍微下调了最好的选择特性相比,分类器获得使用所有功能的准确性。同样值得注意的是:提出了整体模型(射频、资讯和MLP)超过所有的基准分类器十大最佳特性获得使用上述选择技术。从实证结果给出了表1和6- - - - - -8,我们总结以下:(1)的准确性提出了整体模型改进的最佳特性获得使用卡方检验和单变量选择技术,而它与IG保持不变(2)“绿带运动”的准确性高斯在所有特征选择技术保持不变(3)XGBoost的准确性和GBM演算法最佳特性保持不变或略有下调(4)射频的准确性和资讯分类器改进或稍微下调了最好的特性,而延时精度最佳特性改善或保持不变(5)总的来说,提出了整体模型的分类精度优于所有单个模型以及其他促进方法
5。结论和未来的工作
tSpam产品评论分类是一项艰巨的任务领域的意见挖掘。众多研究工作一直试图解决这个问题。然而,在这项研究中,我们提出一个模型,该模型结合了中长期规划的预测,然而,射频对产品评论进行分类为垃圾邮件或nonspam。垃圾邮件评审任务的分类,我们研究所有25个统计特性的影响提出了整体模型,单独的模型,和其他促进方法。我们发现从实证结果提出了整体模型优于所有分类器的分类精度。在下一步中,我们使用特征选择技术(卡方、单变量和信息增益)提取的十大特性评论数据集。提出整体模型的性能和其他分类器评价使用十佳特性获得使用三个选择技术;从实验结果我们发现,整体模型超越了所有任务的分类器的精度的垃圾评论分类实现在Yelp数据集。因此,它从验证结果,该套方法是优于其他算法,如提高方法等极端的梯度提升(XGBoost),广义回归模型(GBM),和演算法的回归模型。在未来,我们想要探索深度学习方法与加权TF-IDF嵌入和最长的短期记忆的任务分类垃圾邮件审查。
数据可用性
在公开的数据https://www.yelp.com/dataset。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究受到了塔伊夫大学的研究人员支持项目数量(TURSP-2020/231),塔伊夫大学,塔伊夫,沙特阿拉伯。