基于模糊方面意见分类系统挖掘旅游评论

文摘

由于大量的意见在网站,游客往往不知所措的信息,发现它很难使用可用的信息来做出决定关于旅游参观的地方。提出了很多意见挖掘方法在过去的识别和分类意见积极或消极的。最近,引入了基于方面的意见挖掘的目标出现在各个方面意见的文本。基于现有的数量方面的意见分类方法在文献中是可行的,但是非常有限的研究工作目标的自动识别和提取方面隐式的,罕见的,指称相同的方面。方面的基础分类遭受的存在无关紧要的句子在一个典型的用户评论。这样的句子使数据噪声,降低机器学习算法的分类精度。本文提出一种基于模糊方面意见分类系统,有效地从用户意见和执行提取方面接近准确的分类。我们进行了真实世界的数据集实验来评估我们的提议系统的有效性。实验结果证明该系统不仅是提取有效的方面也提高了分类精度。

1。介绍

旅游是一个动态发展的产业,许多地区和国家重要的关键产业(1]。每年成千上万的游客参观旅游的地方,分享他们的观点在各种网站TripAdvisor和舆论表等。这些观点给出一个整体的观点持有者有关旅游的地方(2]。然而,有大量的意见是可以在一个特定的地方,这是一个普通用户很难评论/读取所有可用这些意见和决定是否去一个地方。大量的意见挖掘方法(3- - - - - -13)提出了处理大量的意见和这些方法有助于分类意见为积极的和消极的。然而,这些先前提出的方法不处理出现在各个方面的意见。相反,这些方法只是指出整个表达式(正面或负面)的意见(14]。因此,新的基于方面的意见挖掘方法(15- - - - - -35提出了。这些方法允许用户从意见和分类提取不同方面各个方面的意见为积极的和消极的。例如在一个给定的句子,“食物是美味但服务是缓慢的。““食物”和“服务”指方面和“美味”食品方面的积极意见和“慢”是服务方面的负面看法。

在这种背景下,基于这些方面的意见挖掘方法由两个连续的任务:方面提取和分类为基础的方面。提取和分类方面的提取方面是一个困难和具有挑战性的任务报告(8,36,37]。

提取的方面,首先识别隐性方面是一个问题。隐式不直接出现在任何方面意见但它表明一个重要方面。例如,在一个给定的句子”昨晚我和我的妻子去加速餐厅,味道是很棒的,“旅游在这个句子并没有提及任何重要方面。但是这个句子的迹象暗示是“食物”方面。

其次,确定指称相同的方面是一个困难。这是很常见的,人们使用不同的单词和词组来描述相同的方面。例如,在餐厅的意见,气氛和氛围是指相同的方面,这些都是彼此互参的。

第三,识别罕见的方面也非常麻烦。由于大量的显性方面可用方面提取方法放弃了罕见的方面。然而,一些罕见的方面可能是频繁的指称相同的方面,也可能是重要的对于一个旅游的地方;例如,空调和床上更频繁的方面,但这些方面对酒店很重要。

基于分类的方面,无关紧要的句子是另一个问题。Irrelvent句子包括self-introductory行观点持有者。以前历史的访问增加了噪音,会显著影响准确的分类和预测。

需要一个高效的方面为旅游域提取和基于方面的分类系统中提取有用的信息的不同方面为游客旅游的地方。在本文中,我们报告一个新的基于模糊方面意见分类系统。在这个系统中,我们提出一种基于模糊规则的提取方法方面,可以提取显式、隐式的,和罕见的方面,也可以组织指称相同的方面。

基于方面的分类我们提出一个基于三级模糊方面的分类方法使用模糊逻辑算法。在第一阶段,认为句子之间意见单词和过滤使用斯坦福基本依赖方法方面提出的(38]。

在第二阶段,特点是由过滤观点的句子字格和词性标签。在最后阶段,模糊逻辑算法应用于构建功能使用10倍交叉验证和评估已经完成。10倍交叉验证是有用的限制等问题过度拟合(39]。提出系统的目的是提取各方面意见和分类成积极的和消极的基于使用模糊逻辑表达的意见的话它。模糊逻辑在现实生活中很方便的情况决定是采取的基础上相互联系的多个标准(40]。同样的情况存在基于方面的意见分类过程算法决定类/标签的意见的基础上,多个方面和意见的话。例如,在一个餐馆评论,评论家称赞餐厅的装饰,但不赞成提供的服务人员。因此,关于意见的决定标签,无论是积极的还是消极的,依赖于舆论评论家所使用的单词或短语的每个方面。

实验在现实世界酒店和餐馆评论来自TripAdvisor和OpenTable网站。评估性能和模糊的有效性方面意见分类系统的基础上,我们对数据集大小的影响,时间,特征尺寸、功能类型和特征加权方法对我们提出了系统的性能。

在本文中,我们认为,基于模糊分类方法是非常有用的分类和基于有效方面的意见。五个主要基于模糊算法,即模糊无序规则归纳算法(FURIA) [41最近的邻居),模糊(42最近的邻居),模糊粗糙(42),最近的邻居(模糊量化42,模糊格推理(FLR) [43),已与其他类似的监督学习方法相比(17,18,20.- - - - - -22]。比较结果表明基于显著改善方面分类。提出系统有效地执行方面意见分类为基础,实现90.12%的准确性与FURIA餐馆数据集和86.02%与FLR酒店数据集。

剩下的纸是组织如下。部分2概述基于之前的研究有关方面意见挖掘。节3,我们提出我们的提取和分类模型提出了基于模糊的方面。这是紧随其后的部分4在现实世界中数据集上的实验结果。部分5介绍了基于模糊分类的比较评价与传统的监督学习方法。部分6总结了本文的贡献。

在本节中,相关工作方面的意见分类基于旅游领域。这个相关工作的目的是研究,分析和识别这一领域的限制。相关主题的概述主要关注两个任务方面的意见分类:方面提取和分类为基础的方面。

2.1。提取方面

提取方面是一个主要基于任务方面的意见分类。在过去的几年里绝大多数方面提取方法已经提出了旅游领域。这些方法使用不同的方式和机制,从旅游中提取重要方面的评论。这些方法我们可以分类分为四大类:基于规则的方法、基于种子的方法、序列模型建立方法,和基于主题模型的方法(14]。

2.1.1。基于规则的方法

基于规则的方法提取频繁方面使用基于频率提取规则,从评论的重要性,外观,和领域依赖性。频繁的提取方面的基础上,提取规则是简单和有效的。之中,或者15)提出了一种基于规则的方法,提取方面从酒店评论使用方面出现在每个审查。他们应用TermExtractor在评论和分裂成术语然后形成这些术语词典。然后他们手动提取最为明显六个方面(单个名词和多字名词)从术语词典。

同样Muangon et al。16应用一个LexToPus预处理酒店的评论,这些评论分割成特性。这些特性包含这两个方面和极地的单词。使用基于排名的方法提取所有高排名方面。使用相同的排名基于de Albornoz et al。17]也提取高排名名词从酒店评论应用浅预处理包括词类。

Marrese-Taylor et al。18)提出一个方面提取算法提取方面从餐馆的评论。他们把所有评论句子POS标记的句子使用词性尾随者。后来,他们在POS标记的句子提取算法应用方面。该算法提取名词频率超过十个句子。同样Marrese-Taylor et al。19)扩展(18)方法。在扩展工作,作者首先使用的词类和分块提取等方面的名词和名词短语的评论。其次,他们使用方法频繁项目集过滤更频繁和重要方面提取方面。

与[18,19),海et al。20.)提出了一种不同的方法提取方面。在他们的方法,他们两个标准的基础上提取方面,即特定领域,而不是特定领域。首先,他们依赖应用语法规则构建一个候选人方面列表。其次,计算特定领域和特定领域的每一个方面的得分从候选人方面列表,它们称为intrinsic-domain相关性(IDR)评分和外在域相关性(EDR)得分,分别。第三,这些候选人方面修剪从候选人名单已低IDA和高ERD得分。讨论了基于规则的限制方面提取方法是,他们只提取频繁和重要方面。他们修剪或丢弃的频繁和低不重要的方面旅游领域。表1分类这些方法分为四大类:基于规则的方法、基于种子的方法、序列模型建立方法,和基于主题模型的方法(14]。


参考	明确的方面		隐式的方面	互参的方面	无关紧要的方面	方法	方面的选择	结果
参考	频繁的	罕见的	隐式的方面	互参的方面	无关紧要的方面	方法	方面的选择	结果

Marrese-Taylor et al ., 201419]	高	零	零	不处理	处理	基于规则的	频繁的名词	30%
Marrese-Taylor et al ., 201318]	高	零	零	不处理	处理	基于规则的	频繁的名词	没有给
de Albornoz et al ., 201117]	高	零	零	处理	处理	基于规则的	相对重要性	66.8%
Muangon et al ., 201416]	高	零	零	不处理	处理	基于规则的	排名	没有给
之中,或者2008 (15]	高	零	零	不处理	处理	基于规则的	频繁的名词	没有给
海et al ., 201420.]	高	低	零	不处理	不处理	基于规则的	特定领域的名词	65%
Colhon et al ., 201421]	高	低	零	不处理	处理	基于种子	语法关系	没有给
穆克吉和刘,201222]	高	低	零	不处理	处理	基于种子	高阶共存	77%
王et al ., 201023]	高	低	零	不处理	处理	基于种子	最大的词重叠	没有给
朱et al ., 201124]	高	低	零	不处理	处理	种子词	同现频率	69%
吴和酯,201525]	高	媒介	零	不处理	不处理	基于主题模型	连接的主题	没有给
Xianghua et al ., 201326]	高	媒介	零	不处理	不处理	基于主题模型	最小距离与主题	73%
Xueke et al ., 201327]	高	媒介	零	不处理	不处理	基于主题模型	频繁的话题	没有给
该方法	高	媒介	高	处理	处理	基于模糊	FURIA规则	81%

我们代表方面分为三种类型:频繁的明确的方面,不明确的方面,和隐性方面这个表的列2 - 4所示。互参的和无关紧要的方面给列5和列6所示,分别。我们通过空标记这些列,低、中、高,处理,不处理。
“零”=不提取这些类型的方面。
“低”=提取10到40%的这些方面。
“媒介”=提取40 - 70%的这些方面。
“高”=提取70到100%的这些方面。
“处理”=处理这些方面。
“处理”=不处理这些类型的方面。

2.1.2。种子的基础方法

基于种子的方法提取方面一个旅游的地方使用种子单词与语法关系从评论意见的话。Colhon et al。21)选择最讨论五个方面评论和建造五种子集的每一个方面。在这些种子集每个单词是属于一个重要方面。建立种子集之后他们检查条款评论句子的语法关系设置了各个方面的种子,然后组合这些术语在这方面。

在相同的情况下,穆克吉和刘22]分组语义相关条款在同一方面更具体和种子相关单词。王等人。23)提出了一个算法来提取的主要方面审查基于引导方法。在该算法中,首先他们分配方面每个句子的基础上最大的句子单词之间的重叠和方面。其次,检查分配方面的关系和句子话他们计算它们之间的基本依赖关系。第三,这句话有很高的依赖性与分配方面,被认为是一个方面,关键字添加到列表的方面。

同样朱et al。24)提出了引导框架,利用种子信息提取有意义的方面。他们认为两种类型的术语可用于识别方面:POS等名词、形容词、副词、动词和克。他们应用值方法这两种类型的术语来过滤掉重要的和有意义的术语。提取有意义的条款的基础上发生的每一项的频率。在基于规则的方法基于种子词的方法提取频繁的方面,但也部分提取低频繁的方面。因为种子列表词是有限的,由一个人决定,借助这些词多数低频繁方面不能提取。

2.1.3。基于主题模型的方法

主题模型方法广泛应用于提取和实体识别方面,基于假设每一个意见都是混合各种话题,每个话题是一个概率分布在不同的单词。吴和酯25)提出了一个统一的概率模型在用户偏好不同的方面。在这个模型中,他们认为每个意见酒店和餐厅与一个方面比如食物、服务,等等。每个观点描述连接方面的重要性取决于三个因素:全球重要性,评论家阳痿,多少概率将中提到的其他方面的意见。基于这些假设他们使用添加剂生成方法来提取方面。

Xianghua et al。26)提出了一种基于滑动窗口的方法提取方面的评论。在这种方法中,首先,滑动窗口扫描检查从开始到结束。在每个扫描这些话进来滑动窗口分析方面。其次,真实准确地计算过程已经发现执行方面没有明确的第一步。

徐et al。27雅)提出了一个方法采用经典的潜在狄利克雷分配使提取的主题对应可检查的方面,而不是全局属性的实体。他们提取食品等主要方面,服务,和罚款粒度方面人员、秩序等等的酒店和餐馆。基于主题模型的限制方法,他们大多由现象被称为“高阶共存”基于频率cooccur在不同的上下文中。这不幸的结果在许多“非特异性”和“无关紧要”方面和集群。

此外,有上面的局限性方面提取方法;他们不是提取隐含的方面而不是在评论处理互参的方面的问题。隐方面不会直接出现在评论的指示检查到一个特定的方面。例如,“食物”是在一个隐式方面“这餐馆的味道太好了”审查。在互参的方面问题的人使用不同的单词和词组来描述相同的方面。例如,环境和氛围是指相同的方面在餐馆的评论。应该有一个机制,分类或分组相似的方面。

2.2。基于方面的意见分类

方面确定方向的基础观点分类是给定文本的观点在两个或者更多类方面。意见分类等各种类的二进制执行,三元,必要的星星,“竖起大拇指”或“反对”,等等。我们分类提取方面的现有观点分类方法分成两大类:词典和基于机器学习的方法。

2.2.1。基于词典的方法

基于词汇的方法方面的意见分为类使用外部词典资源。这些词汇与正面和负面意见的话分数。Colhon et al。21)执行二进制分类审查使用词典的积极和消极的方面。他们应用term-counting方法是基于积极和消极方面审查,有关方面正在讨论的对象。在这种方法中,审查被认为是积极的,如果它包含正面多于负面和消极如果有负面多于正面。审查是中性的,如果它包含(大约)相同数量的积极和消极的方面。

同样Marrese-Taylor et al。18)和Marrese-Taylor et al。19)执行二进制分类依赖于旅游产品评论的情绪词的字典包含一系列积极和消极词(称为意见的话)。他们应用方面得分方法是基于积极和消极词得分在相关方面的审查。在这种方法中,审查被认为是积极的,如果其积极燕鸥得分大于消极方面得分,并审查被认为是负面的,如果其消极方面得分大于积极方面得分。在相同的上下文中Muangon et al。16)执行必要的分类使用极性词酒店评论。“极地词”一词意味着可以识别等方面的词汇很好,坏,和昂贵的。这种方法从意见的文本中提取他们的是基于句法模式分析和计算分数。之中,或者15)执行五分制的酒店评论的分类使用三种不同的词汇。他们应用的观点基于正面和负面舆论的强度方法的话分数。

基于词汇的方法的局限性domain-dependent意见词和aspect-dependent意见词是用在分类方面的意见。domain-dependent认为单词的许多意见单词有不同意见分数在不同的领域积极和消极的。我们把这两个评论“餐厅服务很便宜”和“酒店的菜很便宜的价格。“在这些评论“便宜”意见词应该正分数在酒店领域,应该负分数域在餐厅。aspects-dependent认为单词的许多意见单词分数在不同方面有不同的意见。我们把这两个评论“餐厅服务很便宜”和“酒店的菜很便宜的价格。“在这些评论“便宜”意见词应该积极得分”价格”方面,应该负分数”食物”方面。

2.2.2。基于机器学习的方法

基于机器学习方法方面的意见分为类使用不同的机器学习算法。

王等人。23)提出了一个新颖的潜在等级回归(远程雷达)方法旨在分类评级意见方面为五分制。提出的方法可以将给定的整体评级审查分解成评级,揭示不同方面的相对权重放在这些方面的评论家。他们实现该方法的支持向量回归模型和执行4倍交叉验证对酒店的评论。结果表明,该方法acheives 78%的准确率在给定的数据集分类正确。在同一上下文徐et al。27)提出意见方面水平分类方法,可以预测意见特定方面(“员工”“食物”和“氛围”)。为了避免歧义,他们只使用句子注释与“积极的”或“消极”的意见。评价模型中,他们使用了两个数据集,分别餐馆评论和酒店评论。餐馆评论已经预处理与句子切分和词性标注。酒店评论,他们用NLP工具包段评论到句子和使用斯坦福POS薄铁片进行词性标注的句子。他们应用了最先进的监督学习方法,支持向量机(SVM)在两个数据集。他们使用了LibSVM训练分类器基于注释信息和所有默认选项。结果表明,83.9%的准确率已经使用7倍cross-validaiton通过使用支持向量机分类器。

同样,Pontiki et al。28,29日)提出系统分类和分类方面的意见方面积极的消极的。他们训练SVM分类器与一个线性内核手动标注酒店和餐厅的数据集。然后他们预测在金色的数据集训练分类器标记的专家在这一领域。在此系统中,首先他们提取unigram特性从各自的句子每个训练数据集。此外,一个整数值特征,表明使用元组的类别。正确的标签训练特征向量提取相应的极性值(例如,积极)。然后,对于每一个元组测试的句子,一个特征向量是建造和使用训练支持向量机分类。系统分数显示在两个域鲁棒性,达到最稳定的性能:79.34%的酒店和餐馆的78.69%。

de Albornoz et al。17)提出了系统总信息提供平均评级审查。他们将审查转化为一个向量的特征强度(VFI)。VFI是一个矢量值,每一个代表不同方面。他们经验提出的系统有两个策略将值分配给VFI位置二进制极性和极性的概率。位置在二进制极性,方面是增加或减少1取决于句子是否被预测为积极或negetive。极性在概率方面的立场是增加或减少的概率分配给这个句子的极性的极性分类器。VFI用作输入到机器学习算法(逻辑回归、支持向量机和功能树),将评审分为不同的等级类别。他们用手工标注酒店评论评价方法。结果表明,71.7%的准确率已经通过使用逻辑回归,以10倍交叉验证。

机器学习方法的限制是,他们需要带安全标签的数据来训练分类器。上述方法使用两种标记数据。首先是手动标记数据标签的一些专家的知识领域和他们指定的类实例。第二个是自动分配等第三方网站的爬行类数据(TripAdvisor和Booking.com)。这些数据类指定的审查的主人。手动标记数据是昂贵的,因为他们需要一些专家为每个实例分配类。自动抓取数据有很多无用的句子像自我介绍,以前的历史等等,稀释的意见分类方面。表2总结了基于词典和机器学习方法的局限性。


参考	数据集 (酒店、餐馆)	两点规模	五点量表	方法	类型	预测	结果

Colhon et al ., 201421]	评论:2521	是的		意见条款计算方法	基于词典的	相比之下,用户评论的结果	87%
Marrese-Taylor et al ., 201419]	评论:200	是的		方面得分方法	基于词典的	而旅游专家的结果	90%
之中,或者2008 (15]	评论:268		是的	意见上强度的方法	基于词典的	相比之下,法官的结果	78%
Marrese-Taylor et al ., 201318]	评论:1435	是的		方面得分方法	基于词典的	而旅游专家的结果	83%
Muangon et al ., 201416]	评论:2180	是的		方面得分方法	基于词典的	相比之下,网上的结果	84%
Xianghua et al ., 201326]	评论:300	是的		方面得分方法	基于词典的	而旅游专家的结果	75.89%
王et al ., 201023]	评论:235793		是的	支持向量回归	基于机器学习的	5倍交叉验证	78%
塞其et al ., 200911]	评论:1200	是的		朴素贝叶斯、支持向量机	基于机器学习的	三倍交叉验证	85%
Xueke et al ., 201327]	评论:3214	是的		支持向量机	基于机器学习的	7倍交叉验证	83.9%
de Albornoz et al ., 201117]	评论:1500	是的		物流	基于机器学习的	三倍交叉验证	71.7%
Pontiki et al ., 201428]	评论:300	是的		支持向量机	基于机器学习的	三倍交叉验证	80.15%
Pontiki et al ., 201529日]	评论:320	是的		最大熵	基于机器学习的	三倍交叉验证	78.69%
该方法	评论:2000(餐厅)	是的		FURIA	基于机器学习的	10倍交叉验证	90.12%
该方法	评论:4000(酒店)	是的		FLR	基于机器学习的	10倍交叉验证	86.02%

3所示。提出了系统

在本节中,我们描述了基于模糊方面意见使用机器学习分类系统。我们的建议的主要目标是提取重要方面从游客意见和各个方面的意见归类为积极的和消极的。我们采用基于模糊逻辑算法来提取和方面方面分类。基于模糊逻辑算法方便等方面意见分类数据非常嘈杂,决策是基于多个方面。我们利用五个人基地,主要基于模糊逻辑算法FURIA,模糊神经网络,FRNN VQNN, FLR确定有效的算法。图1描述了我们的主要阶段提出了基于方面的意见分类系统。在第一阶段评审收集来构建数据集不同的旅游地方旅游网站。在第二阶段,预处理已收集的数据集上执行评审转换成句子和意见消除数据冗余和歧义词。在第三阶段,使用FURIA构建算法来提取模糊规则和分配方面预处理数据集的每个句子。在最后阶段,我们进行了分类方面分配句子使用模糊逻辑算法为积极的和消极的。

3.1。数据收集

我们收集了两个数据集大小不同的餐馆和酒店领域。餐厅数据集包含2000条评论,其中1000是积极的,1000人评论,和旅馆审查由4000条评论,其中2000是积极的,2000人评论,我们通过履带从TripAdvisor网站收集。我们选择评论的前五名餐厅和五大伦敦城市的酒店从TripAdvisor网站。

3.2。数据预处理

收集评论的数据预处理包括三个步骤:第一步,我们删除了数据冗余,因为运营商的酒店和餐馆与背景信息发布审查自己的酒店和餐馆。如果这些信息包括,意见将某些偏差引入到数据集。所以这些评论发布的酒店和餐馆经营者必须从收集的数据中删除。在第二步中,我们从收集到的评论生成句子,根据句子结束字符作为分隔符(即。期间,感叹,问号)。在最后一步,我们正确的模棱两可的单词因为模棱两可的单词不能识别的分类器。一些模棱两可的词是“goooood、美味和梦幻”,这不是标准的英语单词。这些话有模糊的含义可能影响方面的意见。所以我们固定这些话到标准英语单词像“好,美味,和梦想。“预处理数据后,餐馆数据集包含3787句和旅馆数据集包括7802个句子。

3.3。提取方面

方面提取的目的是提取方面从评论相关的旅游地方。我们提出了一种基于模糊规则的方法提取显式和隐式方面的评论。显示了该方法的算法算法1。

输入:收集的句子
输出:分配给各个方面的句子
()初始化方面
()对所有句子做
()stanford_tagger =检测()/申请斯坦福词性薄铁片在每个句子/
()如果神经网络在stanford_tagger然后
()方面神经网络
()如果
()结束了
()初始化aspects_groups
()对所有方面做
()WordNet_sets =白鼻综合症()/应用WordNet同义词组在每个方面/
()如果如此WordNet_sets然后
()aspects_groups
()如果
()结束了
()frequent_aspects = frequency_measure (group_aspets方面,10)/过滤频繁的方面/
()fuzzy_rules = FURIA(句子,frequent_aspects) /建立模糊规则/
()初始化aspect_assigned_sentences
()对所有句子做
()aspect_identification = FURIA ()/应用模糊规则在每个句子/
()如果如此aspect_identification然后
()aspect_assigned_sentencesaspect_identification
()如果
()结束了
()返回aspect_assigned_sentences

拟议的相位提取算法的基本流程如下:将所有复习句子作为输入然后算法分配方面每个句子。首先,我们从给定的句子提取明确方面使用斯坦福词性薄铁片(38线所示)来的算法1。在这个过程中,我们建立词性标记通过应用薄铁片在每个句子行所示和。然后,过滤出名词和名词短语作为明确的方面行所示来。其次,我们小组互参的所有方面,具有相同的含义或指示相同的方面运用WordNet同义词集(44),并选择高频繁的一个领袖组行所示来。在这个过程我们匹配的同义词关系方面运用WordNet各个方面行所示和。如果关系存在,那么集团这两个方面,使高频繁作为领导者的行所示来。第三,提取后明确的方面和分组互参的方面,我们选择的频繁方面基础频率每个明确的方面,结合每个互参的方面组的频率。我们十频率每个频繁方面的句子选择线所示。第四,我们使用FURIA构建模糊规则算法的基础上选定的频繁的方面。我们生成规则涉及单词句子的每一项法律意见的条件和频繁的方面作为结果,意见词和频繁的方面cooccur经常在句子行所示。第五,我们生成的模糊规则适用于所有的句子来识别方面从句子和识别方面分配给每个句子行所示来。在这个过程中,我们与建立模糊规则匹配句子的每个单词行所示。如果匹配句子然后分配方面存在行所示来。如果不存在匹配,然后从数据集丢弃这句话。最后,我们返回所有的句子与分配方面行所示的算法1。

3.4。基于方面的意见分类

在基于方面的分类阶段,我们分类到正面或负面的意见。为此我们提出的基于模糊方面的分类方法,可以分类到正面和负面的意见使用模糊逻辑算法。该方法包括三个阶段:过滤观点的句子,特性提高身价:和分类器。

3.4.1。过滤器观点的句子

当我们从第三部分爬评论网站(TripAdvisor)有无关紧要的句子。在这些无关紧要的句子,评论家并没有讨论任何方面很难把这些句子从评论。有两种类型的无关紧要的句子。一种无关紧要的句子存在的审查。评论家使用这些句子介绍关于这些旅行或谈论他们为什么访问的地方,例如,“去过那儿几次午餐与朋友和工作,但这是我第一次来这里吃饭”;在这个句子审稿人没有讨论任何方面。我们应该消除这种冗余的句子,只有使噪音的评论。在第二种无关紧要的句子评论家刚刚提到的方面,但没有提供任何关于这些方面的意见。例如,“我的父亲和我点鱼,鸡肉和沙漠的帮助下我的叔叔”;在这个句子里没有食品方面的意见。 So they should be removed too or else they are just noise.

删除无礼,少方面的句子,我们应用斯坦福基本依赖(6)检查意见词之间的依赖关系(形容词)和方面(名词)。如果一个方面没有任何依赖的意见的话就将被删除评论句子。

3.4.2。特色建筑

评论句子数据集被用来提取功能,将用于训练分类器。我们建立了克和POS标签数据集的特征。获得的过程克和POS标签从回顾如下:在第一步的过程中,我们通过分割标记化的审查,空格和标点符号的基础上,形成一个袋。然而,我们确保简写形式,如“不”“我”,和“她”将被视为一个字。POS标签我们只提取动词,副词,形容词从数据集。在第二步中,我们被阻止的话(“,”“,”和“的”)的包的话。在最后一步,我们处理否定;否定(如“不”和“不”)是连接到一个词前或后。例如,一个句子“我不喜欢鱼”将形成三元:“我不做+,”“+不一样,”“不+喜欢鱼。“这最后一步可以提高分类的准确性,因为否定扮演着特殊的角色在一个意见表达。

3.4.3。分类器

模糊逻辑算法在现实生活中方便的情况下采取的决定是基于多个标准和复杂的连接。它非常适用于意见分类过程的算法必须能够理解所表达的意见在回顾旅游各方面意见的基础上的旅游的地方。例如,在餐馆评论,一些评论者可能赞美餐厅的装饰和一些人指责和员工服务。决定正面或负面的意见取决于舆论评论家所使用的单词或短语的每个方面。当方面的数量更重要的是,决策的复杂性会增加,因此决策变得困难。在这种情况下,模糊逻辑可以有效地使用。我们使用五个人基于模糊逻辑算法基础,FURIA,模糊神经网络,FRNN VQNN, FLR确定这些算法的有效意见方面在旅游地方的评论。

(1)FURIA。模糊无序规则归纳分类器使用贪婪的方法学习规则实施分离和征服战略(41]。类用于使学习规则,从最短的规则。之后,所涉及的所有规则实例学习从训练数据删除。这个过程持续到所有目标类实例被[41]。一阶感应学习者的命题版本(箔)算法用于实现规则不断增长的过程。空一起被分配到规则发起和特性/选择器添加到不再负实例覆盖规则。潜在的选择特性,使其最大化箔的信息增益准则();这是衡量的规定相比,改进目标类的默认规则。这种方法是由在哪里和代表数量的积极的和消极的情况下参与规则在成长阶段,分别。同样的,和代表数量的积极和消极参与默认规则实例,分别。更换时间间隔与梯形隶属函数模糊区间命名为模糊集模糊规则。

(2)模糊最近的邻居(模糊神经网络)。这种技术的分类是基于相似最近的邻居和这些邻居的类成员(42]。考虑一组对象。一个测试对象在被认为是分类对象。所有剩余的对象的集合被认为是培训对象(42]。根据算法,测量所有培训对象的模糊相似度的测试对象一个接一个(模糊相似性基本上是加权距离培训对象和一个分类对象)(42]。选择培训对象相似度最高。所有的这些选择对象有特定会员现有的类。简单的词语,每一个选择对象在一定程度上属于一个特定的类。现在的测试对象是由使用机密信息类的成员最近的邻居。

的程度非保密的对象属于一个类计算如下: 在哪里最近的邻居价值的相似和。

(3)模糊粗糙最近的邻居(FRNN)。该算法结合了模糊神经网络算法和模糊粗糙近似的方法(42]。从最近的邻居和模糊神经网络方法得到模糊粗糙近似得到模糊决策类的上下近似。例如,考虑一组对象(42]。被认为是测试对象的对象之一剩下的是培训对象。建立模糊关系的测试对象和每个培训对象。计算相似度的值从0到1的每一对情侣。选择最高价值的培训对象相似性作为最近的邻居。确定每个类的上、下近似的最近的相邻对象。预测测试对象的类成员,利用上、下近似(42]。输出决策类和由此产生的最好的综合模糊上下近似会员。让=组决定类,=训练数据=测试对象分类输出类: ; ; ; ; ; 。有两种算法实例FRNN FRNN-FRS和FRNN-VQRS命名。都有不同的近似。FRNN-FRS使用传统的近似和至少一个;另一方面FRNN-VQRS使用VQRS近似的和一些。考虑一个类,所以高价值上近似反映了相邻对象的全部或大部分属于类;同样的高价值较低的近似反映了,至少有一个或一些邻近对象属于类分别为FRS和VQRS近似。

(4)模糊量化最近的邻居(VQNN)。这个算法是一个变种的FRNN(模糊粗糙的最近邻)算法(42]。根据测试对象分类算法使用VQRS量化模糊粗糙集近似。与传统方法相比,VQRS方法使用“最”和“一些”量词的上、下近似,而不是“所有”和“至少一个”。VQRS近似是最喜欢相比传统近似因为反对传统的近似这些近似不带来任何重大改变的上、下近似的改变一个对象(42]。所以噪音会减少对VQRS近似的影响相比,传统的近似。例如,考虑一组对象包含一个测试对象被分类和培训对象。培训对象的一个子集被认为是最近的相邻对象。测试对象类进行分类的基础上上下近似在这些最近邻类的对象。如果我们考虑一个类高价值的上近似反映了最邻近对象属于类的;同样高价值较低的近似反映,一些邻近对象属于类。在该算法中,被替换为和被替换为。

(5)模糊格推理(FLR)。该算法由一组模糊规则点阵。这些规则是诱导训练数据。测试数据的分类的基础上执行诱导规则分类器(43]。考虑到是一组数据对象包括所有类型的数据存在于宇宙,但在这种情况下,重点是晶格。一个模糊的晶格被指定为。这是两个格子和它的估值函数。它是由其组成元素。每个元素与一个类(43]。考虑一组类,将分配给这些格子元素。现在模糊规则是诱导晶格。每个模糊格规则对象及其相应的类,也就是说,实现功能。这些都是训练集的夫妻。宇宙中一个新对象时那么存在规则竞争未来它分类这个新对象类别。认为一个新对象进来。计算它的包含测量参数。现在这提出了迭代每个规则的分类器。竞争规则进行分类。最终分类的类属于哪一个包容的基础上测量参数。

4所示。系统评价

在这一部分中,我们将基于模糊方面的意见分类系统的评估实验,确定系统的性能在餐馆评论数据集,我们爬评论网站TripAdvisor和OpenTable等形式。我们提出了两个任务:方面提取和方面基于分类的实验结果。

4.1。提取方面

提取方面,进行实验来确定正确的比例提取方面。餐厅数据集提取方面取得了更好的性能79%和88%酒店数据集。结果表明,明确的方面包括频繁的和罕见的是最常见的方面。提取的比例明确的餐馆和酒店方面的数据集是55%和61%,我公司。此外,罕见的比例方面的明确的方面是21%和23%,我公司。其次,隐式方面,第二个重要的类型,从餐馆和酒店正确确定数据集与各自的比例为17%和15%。第三,指称相同的方面,包括三个或四个明确的方面,代表7%的餐厅在酒店数据集数据集和10%。

4.2。基于方面的分类

方面的分类为基础,进行实验来检查每个算法的性能在不同大小的数据集,不同的特征加权方法,基于分类和不同的功能类型方面。我们还检查每个分类器的时间在不同大小的数据集。方面获得的结果为基础的分类任务使用餐馆数据集提出了表3和数字2- - - - - -9。表3介绍了每个算法的性能在餐馆和酒店的数据集。我们在绩效评估记录精度高90.12%,与FLR FURIA餐馆数据集和86.34%酒店数据集。


分类器	餐厅的数据集				酒店集
分类器	精度	精度	回忆	测量	精度	精度	回忆	测量

FURIA	90.12%	0.89	0.9	0.87	79.84%	0.78	0.80	0.75
FLR	87.87%	0.87	0.88	0.87	86.02%	0.85	0.86	0.85
模糊神经网络	89.32%	0.89	0.89	0.89	75.9%	0.79	0.76	0.67
FRNN	86%	0.87	0.86	0.85	77.91%	0.82	0.77	0.78
VQNN	85.41%	0.87	0.85	0.84	75.82%	0.81	0.74	0.65

数据2和3现在每个算法预测精度根据其时间标签。在基于时间的实验记录,花费更少的时间在餐馆数据集和模糊神经网络FLR花费更少的时间在酒店数据由于不同大小的数据集。FLR时间标签预测和模糊神经网络相比很低。所以我们可以说FLR速度比模糊神经网络或任何其他模糊算法对大数据集。

数据4和5目前功能类型如Unigrams的影响,三元,三元模型,POS基于性能的方面分类。我们运行每个算法对每个特性类型这个实验结束时;我们记录,Unigrams和POS提供更好的准确性与FURIA餐馆数据集和FLR酒店数据集。

数据6和7现在等特征加权方法的存在的影响,TF, TF-IDF基于性能的方面分类。与前面的影响特性类型实验我们使用相同的方法在这个实验中;我们在每个算法运行每个特性加权方法。我们记录存在权重方法提供了更好的准确性与FURIA餐馆数据集和FLR酒店数据集。

数据8和9目前,数据集的大小对性能的影响。我们两个数据集分割成四个部分餐馆如500年,1000年,1500年和2000年酒店如1000,2000,3000,4000。正如上面提到的,我们运行每个算法在每个数据集,分别。在这个实验中,我们记录1000条评论的餐馆数据集提供了更好的准确性与FURIA和4000条评论的酒店数据集提供更好地与FLR准确性。

所以整个数据集的实验结果表明,在餐馆FURIA在酒店提供了更好的准确性和数据集FLR提供了更好的精度。在较小的数据集(餐馆评论)之间的互连看来单词和方面是不如FLR FURIA构建更有效的规则。然而,在大型数据集FURIA规则不是非常有效,由于复杂的互连之间意见的话。FLR,另一方面,处理这样的大型数据集更比FURIA effectivily互连。

5。比较

在本节中,我们将我们的系统与其他方面提取和基于方面的分类系统在旅游领域。表4和5相比其他系统的结果和我们建议的系统。结果通过计算获得的结果最好的系统在旅游领域的数据集。这些结果显示有所改善,高于其他方面的提取和基于方面的分类在旅游领域。


纸	明确的方面		隐式的方面	互参的方面	无关紧要的方面	方法	结果
纸	频繁的	罕见的	隐式的方面	互参的方面	无关紧要的方面	方法	结果

de Albornoz et al ., 201117]	高	零	零	处理	处理	基于规则的	66.8%
穆克吉和刘,201222]	高	低	零	不处理	处理	基于种子	77%
Xianghua et al ., 201326]	高	媒介	零	不处理	不处理	LDA的基础	73%
该方法数据集(餐厅)	高	媒介	高	处理	处理	基于模糊	79%
提出的方法(酒店数据集)	高	媒介	高	处理	处理	基于模糊	81%


纸	数据集	方法	结果

塞其et al ., 200911]	评论:1200	朴素贝叶斯、支持向量机	85%
Xueke et al ., 201327]	评论:3214	支持向量机	83.9%
de Albornoz et al ., 201117]	评论:1500	物流	71.7%
Pontiki et al ., 201529日]	评论:320	最大熵	78.69%
该方法数据集(餐厅)	评论:2000	FURIA	90.12%
提出的方法(酒店数据集)	评论:4000	FLR	86.02%

6。结论

在本文中,我们提出了一个基于方面的意见分类系统,可以从评论中提取方面提取和分类这些评论为积极的和消极的方面。首先在此系统中,我们提出了基于模糊规则的方法,建立规则使用FURIA从频繁的名词和名词短语识别算法和用于方面。其次,我们提出了一个基于三级模糊方面意见分类方法分类方面提取到正面和负面的意见。最后,评价实验设计运行在真实世界数据集来自餐馆和酒店的评论。该系统实现改善结果相比已经在文献中报道的结果。FURIA算法实现更好的结果比其他模糊分类器的精度90.12%餐馆数据集和FLR算法实现最好的结果86.02%的准确率上酒店的数据集。合成,游客们可以很容易地获取任何旅游地点的有意义的信息,将有助于采取任何旅游地点的决定行程。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

本文的作者感谢金融支持与代码myrg2015 - 00024提供的赠款,称为“通过在线社区”建设可持续发展的知识网络,通过RDAO,澳门大学。

引用

k·拉维诉拉维,“调查意见挖掘和情感分析:任务、方法和应用,“以知识为基础的系统卷。89年,14-46,2015页。视图:出版商的网站|谷歌学术搜索
b . Liu“意见挖掘和情感分析,”Web数据挖掘施普林格,页459 - 526年,纽约,纽约,美国,2011年。视图:谷歌学术搜索
诉帕蒂·c·黄宗泽,a . Bolioli”为情绪分析开发全集:讽刺和senti-TUT的情况下,“IEEE智能系统,28卷,不。2,55 - 63、2013页。视图:出版商的网站|谷歌学术搜索
j·h·曹美国Kim Lee和js。李,“数据驱动的集成多种情绪词典lexicon-based情绪分类的产品评论,“以知识为基础的系统卷,71年,第71 - 61页,2014年。视图:出版商的网站|谷歌学术搜索
h·康、s . j . Yoo和d·汉”Senti-lexicon和改进朴素贝叶斯算法餐馆评论的情感分析,“专家系统与应用程序,39卷,不。5,6000 - 6010年,2012页。视图:出版商的网站|谷歌学术搜索
李n和d·d·吴”,使用文本挖掘和情感分析的在线论坛热点检测和预测,“决策支持系统,48卷,不。2、354 - 368年,2010页。视图:出版商的网站|谷歌学术搜索
林,y, r·艾弗森和s·鲁格,“弱监督联合sentiment-topic检测从文本,”IEEE工程知识和数据,24卷,不。6,1134 - 1145年,2012页。视图:出版商的网站|谷歌学术搜索
M.-T。Martin-Valdivia,大肠Martinez-Camara,人类。Perea-Ortega,洛杉矶Urena-Lopez”情绪极性检测用西班牙语评论结合监督和非监督方法,”专家系统与应用程序,40卷,不。10日,3934 - 3942年,2013页。视图:出版商的网站|谷歌学术搜索
r·莫拉j . f . Valiati, w . p . Gaviao否决权,“文档级情绪分类:实证比较SVM和安,”专家系统与应用程序,40卷,不。2、621 - 633年,2013页。视图:出版商的网站|谷歌学术搜索
a . Moreo m·罗梅罗j·l·卡斯特罗和j·m·国家“Lexicon-based comments-oriented新闻人气分析仪系统,”专家系统与应用程序,39卷,不。10日,9166 - 9180年,2012页。视图:出版商的网站|谷歌学术搜索
y塞其:庙宇,和m . Aono“多语言使用作者观点持有者身份和权威观点,“信息处理与管理,45卷,不。2、189 - 199年,2009页。视图:出版商的网站|谷歌学术搜索
j·g . Wang, j . Ma k .徐和j .顾“情绪分类:整体学习的贡献”,决策支持系统卷,57号1,第93 - 77页,2014。视图:出版商的网站|谷歌学术搜索
棕褐色,x, y,和h,“朴素贝叶斯适应域适应情绪分析,”学报》31日欧洲信息检索(IR研究进展会议ECIR ' 09)施普林格,页337 - 349年,图卢兹,法国,2009年。视图:谷歌学术搜索
l .张和b .刘“矿业方面和实体提取意见,”数据挖掘和知识发现大数据第1 - 40页,施普林格,纽约,纽约,美国,2014年。视图:谷歌学术搜索
诉之中和s . Ou”发现的主观评价酒店评论的产品特性”假期营销杂志》,14卷,不。2、145 - 155年,2008页。视图:出版商的网站|谷歌学术搜索
A . Muangon s Thammaboosadee, c . Haruechaiyasak”编辑的辞典框架基于功能的意见挖掘的旅游业,”诉讼的第四届国际会议上数字信息和通信技术和它的应用程序(DICTAP 14)IEEE,页169 - 173年,曼谷,泰国,2014年5月。视图:出版商的网站|谷歌学术搜索
l . j . c . de Albornoz广场,p . Gervas和A·迪亚兹”特性的联合模型采矿和产品评估评级,情绪分析”先进的信息检索施普林格,页55 - 66年,柏林,德国,2011年。视图:谷歌学术搜索
e . Marrese-Taylor j·d·维拉斯,f . Bravo-Marquez”舆论放大:模块化工具网络,探索旅游意见”学报2013年IEEE /每各月ACM国际联合会议网络情报(WI)和智能代理技术(IAT的13),3卷,IEEE计算机协会,亚特兰大,乔治亚州,美国,2013年。视图:出版商的网站|谷歌学术搜索
e . Marrese-Taylor j·d·维拉斯,f . Bravo-Marquez”小说确定性方法对向意见挖掘旅游产品评论,“专家系统与应用程序第41卷。。17日,第7775 - 7764页,2014年。视图:出版商的网站|谷歌学术搜索
z海,k . Chang j j。金姆,c . c .杨“识别功能意见挖掘中通过内在和外在域相关性,”IEEE工程知识和数据,26卷,不。3、623 - 634年,2014页。视图:出版商的网站|谷歌学术搜索
m . Colhon c Bădică,a .Şendre”相关观点持有者和旅游评论,评论情感分析的准确性”知识科学、工程和管理施普林格,页246 - 257年,柏林,德国,2014年。视图:谷歌学术搜索
a·穆克吉和b .刘”,通过semi-supervised建模提取方面,”学报50计算语言学协会的年会:长Papers-Volume 1 (ACL的12),页339 - 348,计算语言学协会,2012。视图:谷歌学术搜索
陆y . h . Wang, c .翟”评级审查文本数据分析潜在的方面:评级回归方法,”第16届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 10)ACM,页783 - 792年,2010年7月。视图:出版商的网站|谷歌学术搜索
m . j .朱h . Wang, b·k·祖文萃和m .妈,“基于民意调查从顾客评论,”IEEE情感计算,卷2,不。1,37-49,2011页。视图:出版商的网站|谷歌学术搜索
吴y和m .酯”火焰:基于概率模型结合方面的意见挖掘和协作过滤,”学报》第八届ACM国际会议网络搜索和数据挖掘(WSDM 15),ACM,上海,中国,2015。视图:谷歌学术搜索
f . Xianghua l .郭g . Yanyan w .志强,“多元观点分析中国网络社会评论基于主题建模和知网词典,“以知识为基础的系统37卷,第195 - 186页,2013年。视图:出版商的网站|谷歌学术搜索
x Xueke, x, y . Liu s . Tan和h .沈,“Aspect-level意见挖掘的在线客户评论,”中国通信,10卷,不。3,25-41,2013页。视图:出版商的网站|谷歌学术搜索
m . Pontiki d . Galanis j . Pavlopoulos h . Papageorgiou Androutsopoulos,和s . Manandhar”semeval - 2014任务4:基于方面的情绪分析,”学报》第八届国际研讨会语义评价(SemEval 14)页,27-35爱尔兰都柏林,2014。视图:谷歌学术搜索
m . Pontiki d . Galanis h . Papageorgiou s Manandhar i Androutsopoulos,“semeval - 2015任务12:基于方面的情绪分析,”学报》第九届国际研讨会语义评价(SemEval 15)、计算语言学协会、丹佛科罗拉多州,美国,2015年。视图:谷歌学术搜索
问:苏,x,郭h . et al .,“隐藏情绪协会在中国网络舆论矿业”学报》第17届国际会议上万维网(WWW ' 08)ACM,页959 - 968年,北京,中国,2008年4月。视图:出版商的网站|谷歌学术搜索
z海、k . Chang和j j。金”,通过同现关联规则挖掘隐含的特征识别,”计算语言学和智能文本处理施普林格,页393 - 404年,柏林,德国,2011年。视图:谷歌学术搜索
m·g·范,b . Liu Hsu) m·卡斯特罗和r·戈什“形容词im-plied基于字典的方法来识别方面的意见挖掘,”《24日计算语言学国际会议,309年,页2012。视图:谷歌学术搜索
m·h·阿拉姆W.-J。Ryu,李,“联合杂粮主题情绪:建模语义方面的在线评论,“信息科学卷,339年,第223 - 206页,2016年。视图:出版商的网站|谷歌学术搜索
x x, z . Lin Wang K.-J。林,m .歌曲,“将评估表达式模式纳入主题和情绪词识别建模方面,“以知识为基础的系统卷。61年,29-47,2014页。视图:出版商的网站|谷歌学术搜索
c·c·李和c·胡”,分析酒店客户E-complaints从互联网投诉论坛”,旅游业市场营销杂志》上,17卷,不。2 - 3、167 - 181年,2004页。视图:出版商的网站|谷歌学术搜索
夏e·威尔士舒乐问,y, c . Havasi”意见挖掘和情感分析,新途径”IEEE智能系统,28卷,不。2、15至21,2013页。视图:出版商的网站|谷歌学术搜索
a . Mudinas d·张,m·列文”结合词典和基于学习的方法概念级别情绪分析,”学报第一人气的国际研讨会上问题发现和观点挖掘智慧(12),ACM,北京,中国,2012。视图:谷歌学术搜索
k . Toutanova d·克莱因c·d·曼宁和y歌手,“与循环依赖网络,功能丰富的词性标注”会议的程序北美协会的章的计算语言学对人类语言Technology-Volume 1 (NAACL ' 03),页173 - 180,计算语言学协会,埃德蒙顿,加拿大,2003年5月。视图:出版商的网站|谷歌学术搜索
a . y . Ng“防止交叉验证数据的“过度拟合”,”学报》第14届国际会议上机器学习(ICML ' 97),第253 - 245页,1997年。视图:谷歌学术搜索
g . j . Klir和b .元,模糊集和模糊逻辑普伦蒂斯霍尔,卷。4日,鞍上游,新泽西,美国,1995年。视图:MathSciNet
j . Huhn和大肠Hullermeier FURIA:模糊规则归纳算法无序,“数据挖掘和知识发现,19卷,不。3、293 - 319年,2009页。视图:出版商的网站|谷歌学术搜索
r·詹森和c . Cornelis“模糊粗糙近邻分类,”在粗糙集十三事务施普林格,页56 - 72年,柏林,德国,2011年。视图:谷歌学术搜索
i n . Athanasiadis v . g . Kaburlasos p . a . Mitkas诉Petridis,“应用机器学习技术在空气质量数据实时决策支持”学报第一国际NAISO研讨会信息技术在环境工程(ITEE ' 03),格但斯克,波兰,2003年。视图:谷歌学术搜索
g·a·米勒,“WordNet:英语词汇数据库,”ACM的通信,38卷,不。11日,39-41,1995页。视图:出版商的网站|谷歌学术搜索

模糊系统的进步