Semisupervised学习意见汇总和分类为基础的在线产品评论

文摘

电子商务的增长导致了几个网站,市场和销售产品的发明以及允许用户发布评论。是典型的一个在线买家参考这些评论在做出购买决定之前。因此,自动汇总用户的评论有很大的商业意义。然而,由于产品评论在一个非结构化,非专家写的自然语言文本,总结他们的任务是具有挑战性的。摘要semisupervised采矿方法在线用户评论来生成比较基于统计总结,可以指导用户在网上购买。它包括不同阶段预处理和特征提取和修剪之后,基于功能的意见总结和整体舆论情绪分类。实证研究表明,本文中使用的方法可以识别固执己见的句子从博客评论的平均精度高91%,可以评论的极性分类平均精度为86%。

1。介绍

互联网提供了一个有效的,全球的电子商务平台,交流和分享意见。它有几个博客投入不同的主题,如金融,政治,旅游,教育,体育,娱乐,新闻,历史,环境,等等。人们经常用自然语言表达他们的意见。数据挖掘通过这些字节的用户评论是一项具有挑战性的知识工程的任务。然而,自动意见挖掘有几个有用的应用程序。因此,近年来研究人员已经提出了采矿方法从几个领域比如影评用户所说的观点1,政治辩论2),餐厅食物评论(3),和产品评论4- - - - - -11]等等生成用户查询具体的总结也是一个有趣的观点挖掘的应用(12,13]。本文重点是有效的特征提取,情绪极性分类、总结和比较功能在线产品评论的一代。

如今,有几种网站各种产品宣传和销售。前购买一个在线购物者通常浏览几个不同品牌的同类产品前达成最终决定。这看似简单的信息检索的任务实际上涉及到很多feature-wise比较和决策,尤其是所有制造商宣传类似的大多数产品的特性和具有竞争力的价格。然而,大多数网上购物网站还允许用户发布评论的产品购买。也有专门的网站,发布产品评论专家以及最终用户。这些用户评论如果适当分类和总结可以发挥辅助作用,影响买家的决定。

这些在线用户的评论分析的主要困难是,他们以自然语言的形式。而自然语言处理本质上是困难的,分析在线非结构化文本的评论更加困难。处理非结构化文本的一些主要问题是处理拼写错误,不正确的标点符号,使用nondictionary单词或俚语术语,未定义的缩写。通常的观点是表达的部分短语而不是完整的语法正确的句子。总结嘈杂的任务,非结构化的在线评论要求广泛的预处理(14]。

在本文中,我们应用一个多步方法自动意见挖掘的问题,由各个阶段如预处理、语义特性提取其次是意见汇总和分类。多字(15- - - - - -18)为基础的方法用于本文的特征提取提供了显著的优势,超过其他当代方法如基于先验的方法(4,6,8,10,11,19)和seed-set扩张的方法(1,14]。我们的方法可以显著减少修剪的开销Apriori-based方法相比,不需要先验领域知识选择的初始seed-set seed-set扩张等功能的方法。我们有经验证明本文中提出的方法可以识别固执己见的句子从博客评论91%的平均精度高,优于其他两个特征提取策略。多步方法还可以评论的极性分类,平均精度为86%。

剩下的纸是组织如下。部分2探讨了矿业领域的相关工作意见,部分3描述了使用的策略意见挖掘和部分4评估的效率策略基于我们的实验和结果。最后,我们的结论和讨论未来在这一领域的研究工作的范围。

在线博客评论的分类和总结是非常重要的发展电子商务和社交网络应用程序。早期工作在自动文本摘要主要集中在提取更重要的句子相比其他文档语料库[20.- - - - - -23]。主要的方法用于生成采掘总结组合等启发式的提示词,关键词、标题文字或位置(20.- - - - - -23[](2)词汇链24),和(3)修辞解析理论(25]。

然而,重要的是要注意,总结在线产品评论的任务是非常不同的从传统的文本摘要,因为它不涉及从源文本中提取重要的句子。相反,总结用户评论时,目标是首先确定产品的语义特征和生成一个旁边的比较总结产品基于feature-wise情绪分类的评论,将引导用户做出购买决策。在[26],作者证明了传统非监督文本分类技术如朴素贝叶斯、最大熵和支持向量机对情绪或舆论表现不佳的分类,指出面向功能分类的必要性。因此,最近的意见挖掘中研究工作都集中在基于特征的提取和总结5- - - - - -8,10,11,14,19]。

从用户的评论意见挖掘——包括两个主要的任务鉴定意见的特性集和(2)情绪分析用户的意见的基础上,确定了功能。

已经观察到的名词和名词短语(N、NP)经常发生在评论功能是有用的意见,而形容词和副词分类描述他们是有用的在情绪(4,5,9,14,27,28]。

为了提取名词、名词短语、形容词从审查文本、词类(POS)标签1,4,8,14,19,28执行)。然而,并不是所有的名词和名词短语用于采矿和不能直接列入特性集,所以功能设置随后提取使用方法包括频率分析和/或使用领域知识下讨论。

一个受欢迎的方法挖掘产品功能的评论已经被一些研究人员应用先验的算法(4,6,8,10,11,19]。现在,主应用程序的先天Agrawal和Srikant提出的算法29日)是市场购物篮分析,找出哪些产品经常一起购买并生成关联规则的基础。应用这一方法的优点对矿业产品特性(常出现N和NP)是最初的设置可以自动挖掘频繁的特性。然而,缺点是它将单词视为事务性项目和没有考虑它们发生的顺序;因此,语义意义上的丢失,它需要广泛的修剪(4,6,8,10,11,19删除多余的或不正确的功能。另一种方法是指定一个种子的特性列表,随后扩展到生成一个更广泛的特性。例如,在1),作者产生一组本体特性为电影通过选择一组种子的特性和扩大其使用规则结合[1,30.]。seed-set扩张的方法也被用于特征提取从产品评论14]。然而,这种方法需要一些先验领域知识,以指定的初始seed-set特性。

各种方法在文献中存在关联特性与相应的描述符。胡锦涛和刘提出nearby-adjective启发式(4,19]。虽然这种方法既简单又快捷,但它可能会导致错误。所以,监督方法确定协会提出了近年来如句法依赖解析(7)和句法树模板(31日]。

一旦完成功能设置,情感分析可以进行用户的评论。的方向形容词描述的元素提取特性集执行情绪分析是有用的。早些时候尝试确定形容词的语义取向依赖的使用监督学习涉及频率分析以及集群大手动标记语料库[27]。在[28),作者使用PMI数据(点态互信息),预测的方向形容词基于其同现“优秀”或“可怜的。”然而,由于这个形容词描述符用于不同的产品差别很大,不可能使用这种技术实现统一的准确性。另一种方法来确定意见词的极性涉及使用形容词与已知方向的初始列表(4,19),随后扩大通过查找它的同义词和反义词使用词汇资源WordNet [7,32]。最近,研究人员使用意见挖掘工具SentiWordNet [1,5,33)协助确定情绪取向的意见挖掘的任务。在本文中,我们还用SentiWordNet工具(1,5,33]分类用户评论的总体取向,与令人满意的结果。

3所示。提出意见史书和分类器

在本节中,我们将解释意见史书及分类器的系统设计实现的。

我们生成一个数据库的意见审查爬一些流行网站,明确产品评论的实际用户。如图1,我们的产品的意见史书有三个主要阶段。这些阶段预处理阶段,(2)特征提取阶段,和(3)意见汇总和分类阶段。这些阶段简要描述。

3.1。预处理阶段

经常在线,用户发布的博客评论包含拼写错误和不正确的标点符号。我们的下一个阶段,特征提取阶段词类标记可以在句子层面。因此,它成为重要的句子检测结束。所以,在这个阶段我们进行基本的清洁任务像句子边界检测和spell-error修正。句子通常以标点符号结束时期(.),问号(?),或感叹号(!)。有时博客过度使用”?“和”!”symbols for emphasis. For example, a blogger may post a review that says

“这是令人惊讶的,电子书阅读器没有触摸屏! ! ! !”

在这种情况下我们合并重复的单个事件(如标点符号。”! ! ! !”is replaced by a single “!”).

在预处理阶段,会产生几个其他的考虑。点(.)需要消除了歧义的,因为它可能意味着一个句号或小数点或缩写(例如,“博士。”、“有限公司”)。有时一句话跨越多行作为用户按下不必要的返回键。在这种情况下我们应用句子合并规则提出的总督和Haque14]。句子边界检测后,我们使用文字处理器执行spell-error校正。

3.2。特征提取阶段

在这个阶段我们提取意见特性从先前获得的评论文本预处理阶段。我们治疗常出现名词(N)和名词短语(NP)尽可能的意见特性和相关的形容词描述他们作为舆论导向的指标。

我们对审查执行词类(POS)标记的句子使用链接语法解析器(34]。语法解析器是一个著名的和有效的联系英语语法解析器(http://www.abisource.com/projects/link-grammar/)。首先,我们提取所有名词(N)和名词短语(NP)标记的语法解析器和识别的联系频繁发生N和NP舆论功能。频繁发生N和NP我们指的是那些发生的Ns和NP至少五次用户的评论。我们不评论句子从数据库提取频繁项集使用基于先验的方法(4,6,8,10,11,19),因为这种方法矿山频繁特性使用弓(bag-of-words)的方法,不考虑顺序的单词短语发生。此外,矿业以这种方式需要订购除了密实度和修剪冗余(4,8,19]。我们也不使用seed-set扩张的方法,因为它需要先验领域知识来指定一组种子(1,14]。相反,我们使用多字的方法生成一个频繁的特性集(15- - - - - -18]。

多字是一个有序序列的词汇语义意义高于单个单词组成。例如,“面对时间相机,”“视网膜显示屏,”“无线连接,”和“四核图形”的多字从平板电脑的用户评论中提取。经常发生单个词也添加到功能集时没有现有多字的子集。阻止执行表达复数名词特征将它们转换为单数表达为了提高匹配的机会(8]。作为阻止功能词的一个例子“处理器”是遏制“处理器。”

随着每个功能我们也存储的形容词来描述他们,任何意见修改器列表如果存在(如“不”)前复习句子的标识符。例如,考虑下面的解析复习句子关于产品(平板电脑):

“处理器。[n]。[v]明显更快。[],文本。[n]。v] [a]。”

在前面的句子,“新”表明名词,“.v”表示动词,“。”表示形容词。在这个句子中,名词”处理器”和“文本“看来特性而”快”和“清晰的分别是形容词来描述他们。

虽然提取多字看来特性,可能有些多字是另一个的子字符串。例如,假设多字“Nexus 7前置摄像头”和“前置摄像头”从我们的评论数据库与频繁的特征提取的平板电脑。在这种情况下,我们采用分解策略(16],它支持相比,一个长一个短的特性。因此,分解策略倾向于更通用的修剪方法“前置摄像头”作为舆论特点和丢弃多字的时间越长。这是由于两个原因。第一个原因是,我们希望我们的意见尽可能通用特性产品范围。第二个原因是基于我们观察到博客文章评论在线不是专家,他们更喜欢用短多字来描述产品特性在更长时间的。

因为所有的频繁N和NP提取使用上面描述的策略并不是实际的语义特征,这样频繁的特性集挖掘是受到人类专家和non-features修剪。然而,(注意修剪开销相比要少得多Apriori-based方法实证部分所示4)。此外,语义相似的特征需要手动联合在一起以提高基于特征总结的准确性。例如,如表所示1,的功能“屏幕/显示/触摸屏”虽然分别提取实际上暗指相同的特性。因此,我们的最终使用半监督方法生成特性。


功能	描述符与正极性	描述符与负极性

屏幕/显示/触摸屏	好,敏感,不错,明亮	脆弱的,糟糕的
价格/成本	负担得起的、低,很好,便宜	高,贵,负担不起
处理器	快速、高效	慢,不兼容
前置摄像头/脸时间相机	很棒,很棒,高分辨率	低,低分辨率
电池寿命	好,长,足够了	坏的,有限的,贫穷,短
无线连接/ wi - fi	好,快速,简单,自由,3 g, 4 g,无缝的、可靠的	穷,缓慢的,麻烦

为了让大语言词汇的博客,我们也加强我们最后的特性集通过查找和添加同义词的提取特性使用网络词汇资源WordNet 3.1 (http://wordnet.princeton.edu/)。

3.3。意见汇总和分类阶段

在前一阶段我们提取意见特性,形容词来描述他们,任何修饰符如果存在。每个产品我们也生成一个统计feature-wise总结使比较不同品牌销售类似的产品。为了确定情感极性的形容词描述一个意见的特性,我们利用SentiWordNet [1,5,33)这是一个词汇资源观点挖掘。SentiWordNet分配三个规范化情绪得分:积极、客观,和消极的同义词集WordNet [7,32]。让我们重新复习句子:

“处理器。[n]。[v]明显更快。[],文本。[n]。v] [a]。”

在这个例子中,SentiWordNet分数分配给适当的形容词的用法清晰的表示为(P: 0.625;O: 0.375;护士:0)。因为正极性的价值是最高的,形容词“明确”可以分配一个积极的极性。这样,我们生成一个feature-orientation表(FO表),记录意见特性和相应的描述符的正面和负面的极性。表1显示了FO表条目的一些特性的产品“平板电脑。”FO表,从而生成,使我们能够产生feature-wise总结产品或不同品牌的同类产品的比较总结。例如,图2比较两个不同型号的平板电脑生成基于feature-wise总结从几个在线用户评论。

直觉是可取的,如果一个用户的意见包含更多数量的特性与正极性比负极性的功能应该归类为正数。同样更多数量的负极性特性导致用户的意见应该归类为负。为了实现这一目标,我们只是计算了规范化正偏压(Pos_Bias)解释说。注意,用户意见包含一个或多个句子仍在一个或多个特性。让是功能明确提及的总数在用户的意见。让使用FO特性标记阳性的数量表,和让功能标记的数量为负数。现在,我们计算术语Pos_Bias这表明规范化正偏压的表示如下:

Pos_Bias的价值下跌(−1,1)范围。如果Pos_Bias的价值是正的,分为积极的意见。如果它的值是负的,被列为负面意见,如果它的值为零的观点是归类为中性。虽然我们进行了简单的分类在此阶段,Pos_Bias变量的范围自然有助于分类使用不同粒度和可用于模糊分类。

4所示。实证评估和结果

我们收集了超过1400的在线评论4平板电脑和三个电子书阅读器(大约200每个产品评论)的领先品牌使用网络爬虫从几个受欢迎的评论网站。产品显示在表的列表2。我们应用预处理步骤像句子边界检测、spell-error修正,和重复的标点符号合并审查数据集在预处理阶段如前所述。


产品类别	产品名称

平板电脑	苹果iPad(小)
	苹果iPad(第四代)
	谷歌Nexus 7
	华硕Transformer垫无穷(700特遣部队)

电子书阅读器	亚马逊Kindle Paperwhite
	Kobo如果
	巴诺(Nook简单的触摸)

对于每个产品类别,我们复习句子的70%用于训练和测试为30%。我们获得的特性集解释在特征提取阶段,确定了极性(+ /−)认为单词使用SentiWordNet 3.0 (http://sentiwordnet.isti.cnr.it/),生成的功能取向表。FO表条目被用来识别固执己见的句子从用户评论,最后将他们的极性正负如前所述。

我们评估的有效性提出了部分意见挖掘策略3在两个任务:基于提取的特征和自动识别固执己见的句子(2)的极性分类用户的意见。

为了展示我们的基于多字的特征提取方法的有效性,我们将它与其他两种常见方法:基于先验的方法(4,6,8,10,11,19)首次特性集提取和(2)seed-set扩张方法(1,14]。自从seed-set扩张方法需要一个初始的功能列表,我们使用了一个手动输入10个选择和验证功能的产品类别,然后使用这个词扩展它扩张算法如(14]。

图3比较了三种方法的基础上,特征提取的初始数量与实际数量的可用的语义特征验证了人类专家。在图3检索策略1表明最初的特性集使用基于先验的方法(修剪之前),而策略2表示seed-set扩张的方法。策略3表明我们所使用的特性提取方法在特征提取阶段,部分解释3(即。,frequent single words + multiwords with decomposition pruning).

很明显从图3策略3执行比战略1和2以来最初的特性更接近于理想的特性集。

策略1 (Apriori-based方法)的主要缺点是,它把令牌后的每个单词bag-of-words方法中出现的顺序,不考虑他们在挖掘频繁项集。所以,它包含一些冗余特性,需要广泛的修剪。策略2 (seed-set扩张方法)的问题在于它没能从评论中提取足够的特性集,尽管被给予一个初始种子的相关特性。相比之下,策略3(基于多字)考虑单词的顺序从一开始就具有更高的语义意义和较小的冗余。这种方法也不需要任何先验领域知识。因此它优于之前的策略。这也证明了实证结果见表3。


产品	策略1			策略2			策略3
	特征选择使用先验的密实度和修剪冗余			特征选择使用seed-set扩张的方法			特征选择与分解策略使用频繁的多词
	精度	回忆	测量	精度	回忆	测量	精度	回忆	测量

平板电脑1	0.8951	0.7183	0.7970	0.9174	0.6712	0.7752	0.9183	0.7894	0.8490
平板电脑2	0.7996	0.7477	0.7728	0.8593	0.7046	0.7743	0.8965	0.7647	0.8254
平板电脑3	0.8739	0.6994	0.7770	0.9453	0.6241	0.7518	0.9259	0.7462	0.8264
平板电脑4	0.8642	0.8190	0.8410	0.9287	0.5034	0.6529	0.9090	0.8163	0.8602
电子书阅读器1	0.8752	0.7842	0.8272	0.9011	0.6957	0.7852	0.9016	0.7857	0.8397
电子书阅读器2	0.9334	0.6905	0.7938	0.8945	0.6712	0.7669	0.9375	0.7627	0.8411
电子书阅读器3	0.9076	0.8013	0.8511	0.8291	0.7311	0.7770	0.9230	0.8135	0.8648

平均:	0.8784	0.7515	0.8100	0.8965	0.6573	0.7585	0.9160	0.7826	0.8441

表3比较三种特征提取技术的准确性,当用于自动识别的任务固执己见的句子从用户评论的测试集。为了执行测试,固执己见的句子在测试手动设置首次提取和相应的舆论特征的极性标记由人类专家。然后,相同的测试集受到自动意见挖掘使用特性集导出使用前面所讨论的三种策略。固执己见的句子的比较准确识别被记录在精度方面,回忆和F测量如表所示3。

结果表3表明我们的策略优于其他两个策略。虽然基于seed-set的方法实现精度高(89%)、召回值是很差(65%)。主要原因是seed-set方法未能识别几个正确的特性从先验的方法评估数据集。(使用紧性和冗余特性集修剪修剪(8,19)取得了良好的精度87%,回忆的价值75%。然而,基于多字的技术表现最好回忆精度为91%和78%。召回率低的原因主要是由于这样的事实,含蓄地表达了意见不能自动识别通过查找FO表。

例如,考虑以下句子指的平板电脑:

“自从我买了它,我没有使用我的电脑在周。”

人类专家将标记上述评论句子作为一个积极的意见,但是他并没有提到任何具体的特性或形容词描述符的句子,所以它不能自动识别为一个积极审查使用FO表。因此,降低召回主要是由于假阴性的舆论特征识别阶段。

意见的准确性极性分类任务由意见的准确性直接影响轴承句子识别,因为只有确认为固执己见的句子可以用于分类的目的。然而,我们实现了86%的平均精度高的极性分类的意见在测试集如表所示4。因此,实证结果的意见挖掘技术是令人鼓舞的。


产品	总体好评		整体负面评论		平均极性分类的准确性
产品	正确分类	分类错误的	正确分类	分类错误的	平均极性分类的准确性

平板电脑1	109年	13	70年	9	0.8905
平板电脑2	82年	11	101年	15	0.8756
平板电脑3	99年	12	79年	17	0.8599
平板电脑4	103年	14	99年	18	0.8632
电子书阅读器1	110年	16	66年	13	0.8585
电子书阅读器2	120年	21	50	10	0.8458
电子书阅读器3	85年	12	95年	20.	0.8491

平均:					0.8632

目前我们只有分类的观点是积极的还是消极的基于Pos_Bias任期在前一节中解释。然而,在未来我们希望考虑加速器和减速器14)加强形容词决定舆论导向的作用,用它来模糊极性分类。例如,考虑下面的评论。(1)“无线连接非常好。”(2)“无线连接是好的。”

在前面的例子,多字“无线连接”是一个功能,而“好”是形容词描述它。虽然这两个句子有一个积极的方向,这个词“非常”在第一个句子作为加速器传达积极的感觉更强烈。将这种语言对冲的影响(35,36)可以改善意见挖掘的结果。

5。结论和未来的工作

分类和总结意见的博客有一些有趣的和商业上重要的应用程序。然而,这项任务的难度远远超过常规的文本分类,需要强化预处理。意见挖掘任务的成功主要依赖于效率和复杂的预处理和特征提取步骤。我们经验证明该方法对产品特性集提取、使用频繁,多字分解策略优于其他当代方法Apriori-based方法和seed-set扩张的方法。

实证结果表明,本文使用多步基于功能的semisupervised意见挖掘方法能够成功识别固执己见的句子从非结构化的用户评论和分类他们的取向与可接受的精度。这使得可靠的审查意见汇总,有几个商业上重要的应用。

在未来,我们想要执行的意见挖掘更大、更多样的博客数据集。我们也想我们的工作扩展到模糊意见分类与用户支持模糊查询。我们打算通过学习各种形容词描述符的力量以及相应的语言树篱和feature-orientation表中包括他们在开采过程中生成的。分类技术在本文提出可以自然地扩展以支持模糊分类。

引用

l .赵c·李,“基于本体论的观点挖掘电影评论,”诉讼第三届国际会议上知识的科学,工程和管理,第214 - 204页,2009年。视图:谷歌学术搜索
a . Balahur z Kozareva, a . Montoyo”确定极性和源政治辩论的观点”学报第十届国际会议上智能文本处理和计算语言学卷,5449在计算机科学的课堂讲稿施普林格,页468 - 480年,2009年。视图:谷歌学术搜索
黄懿慧Gu s . j .柳,“矿业从网络评论,受欢迎的餐馆菜单项”国际会议程序对Web信息系统和矿业(WISM 11)卷,6988在计算机科学的课堂讲稿施普林格,页242 - 250年,2011年。视图:谷歌学术搜索
m .胡锦涛和b . Liu“采矿和总结顾客评论,”第十届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 04)2004年8月,页168 - 177。视图:谷歌学术搜索
m·a·Jahiruddin m . n . Doja, t·艾哈迈德”特性和意见挖掘客户回顾总结,”诉讼第三国际模式识别与机器智能会议(PReMI ' 09)卷,5909在计算机科学的课堂讲稿,第224 - 219页,2009年。视图:谷歌学术搜索
美国史和y王”,一个产品功能基于关联规则挖掘方法和属性的程度同现,”《计算机科学和网络技术国际会议(ICCSNT 11)2011年12月,页1190 - 1194。视图:出版商的网站|谷歌学术搜索
彭黄,x, x, z妞妞,“细粒度的产品特性在评论意见挖掘、提取和分类”学报》第12届IEEE国际会议数据挖掘研讨会(ICDMW 12),第686 - 680页,2012年。视图:谷歌学术搜索
C.-P。魏,Y.-M。陈,c。杨和c·c·杨,“理解关心消费者:语义产品特征提取方法从消费者评论,”信息系统和电子商务管理,8卷,不。2、149 - 167年,2010页。视图:出版商的网站|谷歌学术搜索
a m。Popescu和o . Etzioni”,从评论中提取产品特性和意见”《人类语言技术会议和会议经验方法在自然语言处理(停止/ EMNLP 05)2005年10月,页339 - 346。视图:谷歌学术搜索
m·h·张,z . Yu徐,y,“特性对中国产品评论的情感分析,”IEEE学报》3日计算机研究和开发国际会议(ICCRD 11),2卷,第140 - 135页,2011年3月。视图:出版商的网站|谷歌学术搜索
j . k . i . w . y . Kim Kim s Ryu和美国m . Kim”产品评论意见挖掘的方法使用关联规则,”第二届国际会议上交互科学:信息技术、文化和人类(艾多酷' 09)2009年11月,页270 - 274。视图:出版商的网站|谷歌学术搜索
o . Feiguina和g . Lapalme”基于查询的汇总顾客评论,”20会议程序加拿大社会计算研究的智能人工智能的发展卷,4509在人工智能课堂讲稿施普林格,页452 - 463年,2007年。视图:谷歌学术搜索
f·金,黄m x朱,“query-specific意见总结系统”学报》第八届IEEE国际会议对认知信息(ICCI ' 09)2009年6月,页428 - 433。视图:出版商的网站|谷歌学术搜索
l·戴伊和s·m·Haque意见挖掘从嘈杂的文本数据,”国际期刊文档分析和识别,12卷,不。3、205 - 226年,2009页。视图:出版商的网站|谷歌学术搜索
教会和p·k·w·汉克斯,”字协会规范、互信息和词典编纂,”计算语言学,16卷,不。1月22,1990页。视图:谷歌学术搜索
w·张,t .吉田,x,“使用多词特征的文本分类,”《IEEE国际会议系统,人,控制论(SMC ' 07)2007年10月,页3519 - 3524。视图:出版商的网站|谷歌学术搜索
m . k .中间人和m . a . Zaveri“体育博客数据,自动文本分类”程序的计算、通信和应用会议(ComComAp 12)2012年1月,页219 - 222。视图:出版商的网站|谷歌学术搜索
w·张,t .吉田,x,“TFIDF、大规模集成电路和多词在信息检索和文本分类,”《IEEE国际会议系统,人与控制论(SMC ' 08)2008年10月,页108 - 113。视图:出版商的网站|谷歌学术搜索
m .胡锦涛和b . Liu“矿业顾客评论意见特性”19国家会议上人工智能(AAAI ' 04)圣何塞,页755 - 760年,加州,美国,2004年7月。视图:谷歌学术搜索
惠普Luhn”,文学的自动创建抽象。”IBM杂志》上的研究和发展,2卷,第165 - 159页,1958年。视图:谷歌学术搜索
惠普Edmundson”,在自动提取新方法,”ACM的杂志》16卷,第285 - 264页,1969年。视图:谷歌学术搜索
c . y .林和e·h·Hovy“手动和自动评价总结,”《ACL-02研讨会自动汇总4卷,45-51,2002页。视图:谷歌学术搜索
c . y .林和e·h·Hovy”位置,识别主题”学报》第五届会议上应用自然语言处理,第290 - 283页,1997年。视图:谷歌学术搜索
r .,22和m . Elhadad“使用文本摘要词汇链,”学报ACL研讨会智能可伸缩的文本摘要,- 17,1997页。视图:谷歌学术搜索
d . Marcu“通过修辞分析调优,提高总结”学报第六届研讨会上非常大的全集,第215 - 206页,1998年。视图:谷歌学术搜索
庞,l·李和美国Vaithyanathan大拇指?在情绪分类使用机器学习技术。学报》国际会议经验方法在自然语言处理(EMNLP ' 02),第86 - 79页,2002年。视图:谷歌学术搜索
诉Hatzivassiloglou和k .部”,预测形容词的语义取向”学报35协会的年度会议上对计算语言学和第八次会议的欧洲章计算语言学协会(ACL的98),第181 - 174页,1998年。视图:谷歌学术搜索
p·d·特尼,”投赞成或反对票?:semantic orientation applied to unsupervised classification of reviews,” in美国40对计算语言学协会年度会议,第424 - 417页,2002年。视图:谷歌学术搜索
r . Agrawal和r . Srikant快速挖掘关联规则的算法,”20国际会议的程序非常大的数据基础,第499 - 487页,1994年。视图:谷歌学术搜索
h . Kanayama和t . Nasukawa全自动词汇扩展面向领域的情感分析,”学报11日会议上实证方法在自然语言Proceessing (EMNLP 06年)2006年7月,页355 - 363。视图:谷歌学术搜索
y l . Wu, f, f . Tan和j·李,“基于功能的观点挖掘,生成语法树模板”学报》第七届国际会议上先进的数据挖掘和应用程序(ADMA的11)卷,7121在人工智能课堂讲稿施普林格,页1 - 12,2011。视图:谷歌学术搜索
g·a·米勒,“WordNet:英语词汇数据库,”ACM的通信,38卷,不。11日,39-41,1995页。视图:谷歌学术搜索
s . Baccianella a . Esuli f·塞巴斯蒂亚尼,“SentiWordNet 3。0:一个增强的词汇情感分析和意见挖掘资源,”第七届国际会议的程序语言资源和评价(LREC 10),第2204 - 2200页,2010年。视图:谷歌学术搜索
d s神和d·坦”和链接解析英语语法”第三届国际研讨会上解析技术学报》上,1993年,页1 - 14。视图:谷歌学术搜索
v . n .黄齐t . b . Ho和y Nakamori”参数表示的语言树篱陈守煜,模糊逻辑的”国际期刊的近似推理,30卷,不。3、203 - 223年,2002页。视图:出版商的网站|谷歌学术搜索
t . Zamali m . a . Lazim m·t·a·奥斯曼,“使用模糊语言树篱,灵敏度分析”IEEE学报》研讨会上人文、科学和工程研究,第672 - 669页,2012年。视图:谷歌学术搜索