文摘
信息是通过口碑数据突出当消费者评估产品的评论。然而,严重的后勤问题是由于互联网的水军(即。,literally people who are hired by individuals or organizations to compose false reviews), that flood the internet e-commerce websites. An array of internet e-commerce sites is flooded with inauthentic information, and false reviews are used to maliciously induce consumers to purchase specific products, that often contain some defects. Notwithstanding the fact that the internet Water Army first manifested in China, it can also exist in other countries. The rationale lies in the high profitability possible, in the minds of numerous organized underground paid poster groups, and in writing fake reviews to misinform consumers. It has become an increasingly daunting task to precisely spot the Water Army members, who often alter their writing style and posted content. In this paper, the authors devise a comprehensive set of features to characterize all users and compare the paid posters against the normal users on different dimensions; furthermore, an ensemble detection model equipped with seven disparate algorithms is put into place. Our model reached a score of 0.730 in the AUC measure, 0.691 in theF1测量JD数据集,AUC测量0.926,和0.871的F1测量在亚马逊的数据集上,这时你现有的措施研究。这项工作的意义和贡献在推进建设性的解决方案和建议对于这个整个电子商务行业的主要问题。
1。介绍
一份官方报告由中国互联网络信息中心(CNNIC)说,目前在中国约有7.31亿互联网用户,这是大约53%的总人口(1]。由于大量的互联网用户,中国电子商务行业势头在过去的几年里。电子商务创造了前所未有的发展不仅利润,名声,和税收收入也促进了地下经济活动,消极地影响这个行业的增长。消费者网上购物的评论发布在产品详细信息页面购买说服权力发挥重要的作用,特别是对于那些犹豫中无数的选择。研究[2- - - - - -4)都强调,在线评论对消费者至关重要的影响。支付海报分析eBay的反馈系统,并演示了有意义的反馈的重要性。审核页面,作为一个有说服力的信息提供给潜在客户的主要来源,一直显示支撑小说幕后产业,即支付海报。这句话,互联网水军,最近也得到普及在这种情况下(5]。水军主要提供了以下两种服务客户:(我)促进一个特定的产品,公司的人,或消息(2)污蔑和诽谤的同行操作相同类型的产品或服务
图1说明了水军的典型业务流程。另一个相关概念是电子垃圾邮件,使用电子通讯系统发送未经请求的消息(6]。上述业务流程导致的结论是,电子垃圾邮件比付费的海报是一个不同的概念。
垃圾邮件发送者已经分配的目标在短时间内大量的垃圾短信;此外,他们的重点不在内容质量;相反,它在报道的数量。相比之下,优先支付海报在于客户的增加。因此,把强调的内容和文章的数量是一个要求。一个水军关注评论的内容和质量。他们冒充普通用户或作严格的评价。
提供在线支付的海报位置是一个理想的就业选择对许多网民;其中,绝大多数是由大学生和失业。这类用户的庞大组织军队“洪水”互联网有目的的评论和文章。在线支付海报放在一些公共关系的工资(PR)公司和被要求在各种在线社区和网站上发布评论和文章。感兴趣的公司总是有效的策略来吸引公众的注意他们的产品;此外,这已经演变成一种垃圾消息在中国电子商务行业。在一个典型的情况下提供5),一个线程与空白内容可以接收多达300621回复和超过700万点击只有两天。这种程度的倾向水军在中国被广泛认为,但在其他国家很少见。付费的海报很好组织就像一个军队;因此,他们被称为“水军。近年来,一些水军在中国甚至成立的公司(例如,https://shuijun.co)来宣传自己。他们已经形成了一个完美的产业链,同时包含供应方(海报支付公司)和需求(公关公司)。有相当多的迹象表明,水军行业已经相当繁荣。此外,大流行的水军还可以看到其他国家(7]。
然而,水军的崛起是不利于快速增长的电子商务行业。网上购物消费者严重依赖评论选择从众多的产品质量差别很大。如果产品细节页面充斥着不真实的评论,可以误导消费者购买劣质产品。从长期的角度来看,这是经济效率低下的以下两个原因。首先,消费者的健康可能会由于低产品质量恶化。第二,这种不完全信息情况可能导致市场失灵,在更有效的公司获得更少的市场份额。
尽管水军的存在是一个严重的问题,有限的注意力一直在给其相关的研究。一些学者探讨战略挑战垃圾邮件发送者;然而,战术失败直接面对和斗争水军,鉴于其区别垃圾邮件发送者。以下两个问题有待解决:(1)如何支付海报用户被?(2)我们如何采取行动,继续严格控制了海报吗?
在这个研究面临的最大的挑战是水军将会修改自己的评论风格和故意模仿别人的写作风格。文献提出了这一问题的解决方案通过使用文本相似性分析(8),用户组分析(9),或时间特性10]。他们未能实现完整性。检测框架的现有研究在单一因素,同时肯定了海报出现常见的但外星人在另一个方面。将多个方面盾牌之间海报从被忽视的可能性,这将撤销其效用。
本研究有助于实践和理论研究在以下几个方面11]:(1)我们设计出一套更广泛的特性来描述整个组用户和测量水军的普通用户。(2)我们使用每一个审查的文本和元信息和相关产品的信息,这是在现有研究忽视。(3)七种分类算法结合建立一个分类模型。(4)以往的研究主要关注的是我们的数据集。的普遍性和剧烈的海报问题在中国,两个国家的两个数据集收集作为样本来调查我们的模型的有效性。选择的两个平台包括JD.com和Amazon。(5)参照这两个数据集的分析效果,显示了模型具有区分能力和超越现有的研究。
本文的组织结构如下:(1)部分2给出了一个理论和实践的调查研究这一主题,总结为什么水军危害电子商务行业,如何检测海报。(2)部分3提出了一种综合付费海报检测模型。(3)部分4评估模型在JD数据集和亚马逊的数据集。本节提供了分析对模型的精度和性能。(4)部分5总结了研究内容,并建议未来的研究方向。
2。相关工作
提出了各种检测方法的开创性工作以来8]。大多数研究使用监督学习算法,在这些过程和某些行为特征制定,包括时序模式和文本特征。的研究(8)调查的可靠性在线意见范围内的产品评论和得出结论,虚假评论大大不同于传统电子邮件垃圾邮件。然而,这些研究大多停留在此刻双评论,不存在由于严格的网页规定。的研究(12]探索缺乏期待评论和先进的私人领域技术的方法来确定今天的社会职业水军。的研究(10)关注评论的炎症性质定位垃圾信息散布者。则出现审查事件可能来自两个来源,消费者的即时支持以及垃圾邮件攻击。的研究(13]研究了检测错误的评论在网络论坛上通过文字和情感分析方法。
其他的研究都集中在文本的设计和行为特征。的研究14,15)提供了一些见解的方式来描述每个人的写作风格。的研究(16)探讨了垃圾邮件过滤中使用语义通过引入预处理词义消歧的步骤,可以探测到的内部语义垃圾短信。的研究(17)发现,审查的可读性比长度更容易打动消费者的评论。的研究(18]表明,语义特征比其他更有影响力的特点影响多少帮助投票评论接收和评审与极端的观点获得了更多的支持相比,那些有矛盾或公正的意见。
高度先进的文本挖掘和语义分析技术已经用于这一领域,如情绪分析和意见萃取(19,20.]。通过情绪分析通道,每一个审查被认为是注意标有一个情绪(积极的,消极的,中性的);之后,我们面临的挑战是通过现有的分类算法的应用。的研究(21)使用文本挖掘模型和语义语言模型来解决垃圾信息散布者检测问题。Semisupervised方法也被征收需要大量的训练数据(22]。重点点评网,中国全面审查托管和评级应用的研究23就业后)设计了一个不可分割的分类算法模型,收集有利的和未标记样本。的研究(24)关注如何使用特征之间的关系的人在社交网络来检测网络虚假消息的发送者。
这些研究的主要缺点是不完备的检测框架。他们的方法仅仅是发现了意想不到的行为通过意想不到的规则从一个特定的方面,而不是使用全局和综合规则细分出可疑用户。预计支付海报的一些行动在一个方面,当他们不寻常的在其他方面。他们可以检测过程中被忽视。对于那些使用文本相似性的研究作为一个关键特性,因为水军可能改变自己的写作风格很容易,很简单的付费海报来避免被检测到。这些类型的框架可能会失败后不久海报知道确切的支付功能。一些不变量特征的带薪海报需要被发现。
3所示。检测框架
本节提供了一个精确的描述框架,涉及一种常见的电子商务业务的程序,它的功能系统,数据和分类算法。根据当前研究的差距,作者推荐的方案包括以下三个主要方面:语言。这些因素处理的语法和情感特质每个消费者的评论。行为。这些因素主要是利用评论的元数据,例如,《华盛顿邮报》评论的时间在制作一个订单,一起帐户概要文件。产品。这些因素考虑到产品信息。毫不费力地表达风格可能会改变,而品牌是不会改变的。产品信息之间的分歧和审查的内容允许分化能力的启示。
3.1。电子商务的一般业务流程
对于普通消费者来说,一个典型的在线购物体验过程如图2。
通过分析真正的用户配置文件数据和评估数据,更多的信息可以被识别并应用于构建检测模型。例如,用户应该在网站上注册一个账户,用于连续接触的网站,用户名会被记录在编写的评论。挑选所需的产品后,用户登录订单来完成一个有效的订单,因为注册和登录是强制性的。有一个交货期,和消费者本身也需要一些时间交货和评估产品质量。然而,对于支付海报,他们的行为会不同于普通用户。坦率地说,他们可能在一批注册几个账户或写评论前不久接受产品,这将暴露自己的真实身份。
3.2。功能选择
在本节中使用的关键符号是列在表中1。
3.2.1之上。内部文本相似度(其)
海报非常愿意支付减少所需的时间组成的评论。这就解释了为什么同样的内容可能存在各种各样的商品。计算文本相似度的平均值水平的背景下的所有评论一个个人不得作为特性针对这一现象,及其定义如下。 代表两个消费者之间的余弦相似性的评论。特性措施文本相似度在一个用户的评论,这一特性称为内部。
3.2.2。评论延迟(CL)
产品交付的时间,回顾总是发生几天后购买;持续时间是一个关键的性能指标在电子商务行业供应链管理和被称为点击(简称C2D)。此外,需要一个过程,确保货物由买方投入实际使用。通过这种方式,产品的质量就可以进行测试。因此,一个合理的账单推迟时期存在于审查之间的间隔周期和付款收据。相比之下,水军可以现在直接评论或快速评论在缺乏一个真正的交付经验。这就解释了为什么我们雇佣审查延迟特性及其测量参考以下方程:
3.2.3。评论时间间隔(CTI)
这最终被证明是一个合理预期,在线消费者缺乏动机频繁和常规的方式撰写评论。相比之下,那些支付并不缺乏激励,导致他们频繁的广泛差异从普通用户查看发布行为。功能针对这种现象定义如下: 在哪里 是按 。
3.2.4。情感词和产品特性
可靠的评价有助于准确评估产品的特点,因为实际的第一手资料和经验可以产生信息和有效的判断,而锻造评估绝非易事。关于虚假评论,很多乐观的表情可能存在为了奉承一些产品。用户选择单词如何反映他/她自己的特点。鉴于研究样本的手机、一个专业在这个领域是咨询提供特定领域的单词列表。因此,以下三个功能:POS。平均数量的消费者评论情感积极的话负的。消极情绪词的平均数量在消费者的评论功能。平均数量的产品功能词中提到消费者的评论
3.2.5。品牌集中度(BC)
垃圾邮件发送者可以是一个黑暗的公司的雇主雇佣他们的人赞扬或损害某一品牌;因此,只有一个特定类型或一小部分商品与评论指出。因此,一个功能提出这种行为的象征,ηk评论的比例是在品牌k。这个特性是赫芬代尔的总和指数(25]。 是每个品牌的市场份额平方给消费者。如果n品牌有一个平等的审查,公元前 。提供整个占据的份额是一个品牌的产品,公元前1。更高的BC特性表明更集中的用户,和该用户可能会持有会员水军。
3.2.6。文本长度(TL)
水贴趋向于产生一个伟大的努力影响消费者的行为,模仿正常评论。然而,常见的评论者拥有不良动机提供一个漫长而详细的审查。这就是为什么评论家行之有效的平均评论长度确定海报在所有的评论家,在哪里文本的长度吗 。
3.2.7。外部文本相似度(ETS)
水军的评论内容重复或相似的特点和模式。奇怪的是找到两个人用户发布相同的文本,因此,审查员应当引用特性之间的相似度。
3.3。数据集
以下两个数据集用于这项研究获得全面和客观的绩效评估:JD。京东(JD.com纳斯达克:JD)是中国最大的B2C在线零售商的身体;它有1500种不同的产品类别和超过2000万种产品。这个数据集收集了自己。是注意预处理和数据清洗过程。亚马逊。这个数据集被赋予这研究[8)和可见的各种各样的商品和占地590万在线产品评论,224万用户,680万种不同的产品。
作者标记潜在水军通过扫描自己的评论,连同其他元数据(其中大部分是不提供信息的或不一致的)。我们用“潜在的”这个词的原因是为了避免纠纷这一有争议的事实。任何认证或肯定的判断不能成立,除非评论家或他的老板公开,既不倾向于发生。讨论一个明显的区分真实和假用户延伸超出了技术领域。样本大小如表所示2。
每个评论的购买时间出现在亚马逊地区无法访问数据库,这就是为什么亚马逊的CL功能未能计算数据集。虽然每个商品的品牌显示在亚马逊的数据集,大量缺失值仍和BC特性证明可在亚马逊的数据集。
3.3.1。的分布特征
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(一)
(b)
(c)
(d)
(e)
(f)
(g)
这两个数据集上的分布特性显示了类似的结果。普通用户倾向于写不同的真实评论不同的产品,这意味着大多数普通用户将显示低的特性。CTI有实质性区别力量。还有大幅增加,这意味着支付海报往往更频繁地做出评论。功能也有区分能力如图所示的密度曲线的高峰。普通用户更多关注产品的具体特性。然而,支付不关心产品的海报。他们写评论为了利润。
3.4。特性的影响分析
数据3和4给一个直观的描述每个特性的区分能力但没有提供更详细的解释。需要更多的实证研究来检验是否每个功能都有重大影响的检测假的评论。从计量经济学的观点,它是一个离散选择模型,因此逻辑回归是最合适的回归模型。结果如表所示3。
可以得出以下几个结论从回归结果:(1)水军有明显高于趋势写评论类似于先前的评论和评论其他用户(2)支付海报往往比正常更频繁地写评论的用户(3)海报通常使用支付更少的消极情绪词和更多的产品比普通用户功能词
3.5。分类方法
小说作者建立一个平台通过整体建模和收集七分类算法来区分的水军普通客户;包括算法神经网络、决策树、逻辑回归、支持向量机,随机森林,随机梯度下降,再,如图5。上述力学是为集体选举制度。首先,整体学习旨在升级某些模型或减少意外的前景选择低效的分类器。组合分类器的性能后,实施有助于选择决策,虽然它不是最好的系综分类器的性能。
4所示。评价
本节给出了一个彻底的评估过程的描述。我们评估框架的性能由不同的指标;ROC曲线等工具探讨了权力的区别。
4.1。评价指标
一组指标应用于评估模型的性能,他们列出如下:精度。的比例每个积极的预测,都是完美的。回忆。比例的每个真实积极的观察,都是完美的。F1度量。精度和回忆之间的调和平均数。ROC曲线和AUC性能度量分类问题在不同的阈值设置。而利用归一化单位,曲线下的面积(通常是显然认为AUC)与分类器的可能性将速度任意选择积极的实例高于任意选择消极的实例。
所有七个算法,以及整体模型,评估了5倍交叉验证对整个数据集。均值的轮交叉验证过程考虑作为最终计数。分类结果如表所示4和5。结果的基础上,随机森林优于添加分类算法更高F1,AUC的分数。朴素贝叶斯和支持向量机良好性能的精确测量在召回但分数不佳。重复一遍,许多被忽略的水军还面临着两个算法。考虑到自动标记过程特性,一个中等大小的样本数据是可访问的。因此,无论是算法程序需要大样本数据库训练神经网络函数在他们最好的在这种情况下。这样的投票机制未能产生可见的整体增长的方法。随机森林是最终的分类器。AUC衡量我们的检测框架达到0.730,0.691F1测量JD数据集,AUC测量0.926,和0.871的F1测量在亚马逊的数据集。来验证我们的算法是否能适用于大规模数据集,我们还测试了算法的运行效率。在JD.com和亚马逊电子商务数据集,我们的整体算法模型的运行效率为62.3秒和126.8秒,分别。因为亚马逊的数据集包含了更多的商品数据,这个数据集上运行时间增加。
4.2。混淆矩阵
根据实验结果,我们采取随机森林作为最终分类器的研究和20%的数据作为测试数据集。实验的混淆矩阵图所示6。
(一)
(b)
对于广大的消费者,通过激活这两个检测系统正常运行单位。关于水军,其精度指标减少,部分由于注释的波动过程。没有所谓的地面可以找到真理,或使用作为基准来衡量注释工作。不同的人可能有不同的值发送垃圾邮件的行为。什么似乎是一个可靠的评估一个人可能是一个错误。不一致并削弱我们的区分能力。
4.3。ROC曲线
从中华民国曲线,发现分类器也有很强的识别能力。最大距离似乎对对角线和曲线的心脏附近存在。这就是为什么以0.5为预测阈值是一个良好的选择,如图7。
(一)
(b)
4.4。与以前的工作相比较
本文结合的结果与现有的研究,因为它们共享利用亚马逊基准面。在[8),他们的AUC测量范围从63%到78%,使用不同的功能。在[26),他们的AUC测量基于十倍交叉验证基于78%的王et al。最近的一项研究数据在他们的论文中,精度下降的前N样本容量增长和超过300。他们获得95.8%的精度在前100年,排名前200的89.6%,排名前300的81.8%。这个检测框架超过(27]随着观测数量的扩大。
5。结论和未来的工作
本文作者调查识别的水军,推进一组广泛的特性使著名的行为支付海报。
4评级措施两个数据库,这个检测框架的功能和操作是彻底的考虑。AUC和F1我们的模型达到0.726和0.683,分别在JD数据集,数据集和亚马逊,AUC和F1我们的模型达到0.926和0.871,分别。我们的研究已经产生了务实和建设性的解决了海报问题从技术的角度来看。
5.1。贡献
我们的研究做出了有力的贡献从理论和实践的视角。
首先,我们的研究的研究电子商务行为之间起着桥梁的作用和研究假的评论。由于稀缺的假审查数据集,先前的学者主要集中在监督和非监督学习的效率和准确性11,27- - - - - -29日]。然而,学者忽略了一个事实,游戏假评论者之间的关系,普通的评论家,和电子商务平台可能会导致不同的行为策略。9我们的研究提取用户行为特征与假的评论,这将为后续的研究提供一些灵感电子商务假的评论。
第二,先前的研究都是基于单用户的行为特征,这项研究有一个相对全面和新颖的视角。我们有效地创建9行为特征的虚假的评论家。这些特性的结果,准确地描述错误的评论者的行为特征。此外,考虑到国内外电子商务平台之间的差异,我们使用从美国亚马逊电子商务平台的数据来验证该模型的鲁棒性。的结果,很明显,本研究的模型具有良好的结果在中国电子商务平台上的数据集和数据集在美国电子商务平台。
第三,与先前的研究相比,学者们通常使用一个特定的分类算法来验证结果。我们的研究创新是整合这些验证算法。传统的机器学习算法的目标(如决策树、人工神经网络、支持向量机,和朴素贝叶斯)是找到一个最优分类器单独训练数据尽可能多。集成学习算法的基本思想是将多个分类器实现一个分类器有更好的预测效果。结果表明,我们的整体算法取得了良好的结果在两个数据集。这提供了一个新颖的研究思路和方法假的评论和研究这个方向的研究做出贡献。
5.2。实际意义
根据3.3和3.4的结果部分,我们提供了一些实际意义,可以应用于电子商务网站的日常运营和产品设计过程。
更多的努力来限制注册是一个明智的决定。水军习惯频繁注册账户斗篷掩盖自己。
对于一般用户来说,手机实名制应遵循;与此同时,细胞数量和位置应该用于提货的保留产品。而付费的海报,他们可能会与供应商协作,降低交付成本通过编造一个故事关于货物毫不妥协的实名制可以实现和产生效果自通用在线客户倾向于接受和遵守相关规则。此外,水军的前景将面临一个巨大的经济打击。
因为物流技术的进步,每一步都会留下足迹,记录在交付过程通过电子商务的网站。可以结合物流信息审查制度来阻止了评论。买家谁的帖子评论确认交货后,参照物流物流通知后必须写评论。
本研究的数据的数据使我们得出这样的结论:水军倾向于发布重复的评论。禁止复制的书面评论可能会促使用户施加更多的努力诚实和有意义的评论。
更友好的服务积累更多暗示评论,而不是大量的无效或不提供信息的垃圾反馈。
5.3。局限性和进一步的研究
(1)我们检测框架监督学习算法,需要仔细标记数据作为输入。注释过程是劳动密集型的。从今以后,我们研究的重点在于降低劳动成本,增加了非监督学习算法通道。(2)我们将继续框架更准确的检测系统,然后估计速度的比例支付海报在所有中国的购物网站。因此,我们可以提供全面的见解的行为支付海报,以及提供额外的分析损害支付多少海报做的行业。(3)考虑到虚假评论的进步研究孤立从数据标签,我们后续研究将介绍一些创新semisupervised学习方法能够解决最具挑战性和常见问题semisupervised学习,即标签的不平衡分布数据类(30.,31日]。数据可用性
的数据支持本研究的发现可以从相应的作者在合理。
的利益冲突
作者宣称没有利益冲突。