文摘
挑战在Twitter因为微博事件文本分类有大量的时态数据的噪声和各种各样的主题。在本文中,我们提出一个方法来分类来自Twitter的事件。我们首先找到推文之间的区分条件事件和测量他们的相似之处与学习语言模型如ConceptNet和潜在狄利克雷分配方法选择的偏好(LDA-SP),已被广泛研究基于文本大型语料库在计算语言学的关系。术语词汇的关系推检查时被发现,他们在每个模型。然后,我们提出一个方法来计算相似性tweet基于微博的功能,包括常见的单词和他们的区别词词之间的关系。这将是明确的和方便申请再分类的技术。我们小心地应用在爱丁堡Twitter语料库进行的实验表明我们的方法达到竞争的结果分类的事件。
1。介绍
推特(https://twitter.com/)是一个社交网络应用程序,它允许人们微博广泛的话题。用户的Twitter发布简短的文字,称为“tweet”(约140字),各种主题的新闻事件和流行文化,平凡的日常活动和垃圾邮件。最近,Twitter已经超过2亿活跃用户每天生产超过2亿条推讯。Twitter是一个流行的微博和社交网络服务,给研究带来了许多机会在自然语言处理(NLP)和机器学习1- - - - - -6]。洛克和马丁(5和刘et al。4)训练分类器识别实体基于注释的Twitter数据命名实体识别(尼珥)。一些研究探讨了词性(PoS)标签3),地理差异在语言上发现推特(2),建模非正式谈话(1),并应用NLP技巧来帮助危机工人与洪水自然灾害后的信息(6]。本森et al。7]应用遥远监督训练器的关系认识的艺术家和场馆内提到的tweet的用户列表的位置。
事件分类Twitter是一个艰巨的任务,专注于各种类型的事件的自动识别和分类在微博短信。在Twitter,事件主题往往吸引公众的注意,例如,足球比赛或自然灾害。提出了几种方法对事件进行分类检测如波分析(8,9),主题模型方法基于潜在狄利克雷分配(10),分层狄利克雷过程(11),和文本分类和聚类12]。Kireyev et al。8]探索使用主题模型的分析与灾害有关Twitter数据。淡比et al。12地震等)调查事件的实时交互在Twitter和提出了一个算法来监视微博和检测目标的事件。然而,现有方法遇到的失败从潜在的话题检测或分析的关系。因为主题模型技术(13- - - - - -15)只关注如何设置相关的单词列表到一组(称为主题)是错过了在分析主题之间的关系。考虑微博已经讨论了两个事件表所示1,我们很容易被意识到和讨论了事件1和和讨论了事件2。然而,如果使用主题模型系统组,,甚至在同一事件类别不属于关系词的事件,因为设置<”去世了”、“死”、“死" >在这些推文是在同一个话题模型。同样的,将事件分为2和在一起即使不属于这个事件因为套关系词<”飞机”、“崩溃”、“直升机“>,<”俄罗斯”、“KHL团队”、“火车头”、“曲棍球“>,和<”杀死”、“死" >在这些推文在同一个话题模型,分别。由于使用主题模型的局限性,因此,我们提出的方法利用语言模型在关系引用不仅分析主题,而且分析亲缘的事件在微博来克服这些问题。
在本文中,我们调查的使用生成和歧视模型识别对象的关系在tweet描述一个或多个指定的事件类型的实例。我们适应的语言建模方法捕获事件实例的描述文本可能会生成。我们的方法将会发现推文之间的区别词的话,用一系列的关系,研究提取等语言模型ConceptNet [16]和LDA-SP [17]。这些语言模型已经广泛研究基于文本大型语料库在计算语言学的关系。因此推文之间的区分条款和常见术语之间的关系变得清晰来衡量他们的相似性通过检查他们在每个模型。测量推文之间的相似性是明确的和方便的应用在分类器算法、支持向量机等,再k神经网络),对推特事件进行分类。
本文的其余部分的结构如下。部分2提出了相关的研究工作,是指事件检测。节3,我们将讨论利用语言模型。此外,我们提出一个方法来计算相似性微博事件分类。在接下来的部分后,实验应用于爱丁堡Twitter语料库事件分类介绍和讨论。部分5结尾的结论和未来的工作。
2。相关工作
多个应用程序发现事件在网络申请博客(18- - - - - -20.,新闻报道21,22],或科学期刊集合[23]。一眼et al。19]介绍了数据挖掘的应用,信息提取,NLP的事件检测算法在大约100000个博客的一个子集。他们实现了一个趋势搜索系统,该系统提供了一种方法来估计口碑对于给定的相对热门的话题。Nallapati et al。22]试图捕捉事件的丰富结构及其依赖一个新闻话题通过事件模型识别事件及其依赖事件线程。除了标准的基于词特征,他们的方法考虑了新颖的特性,比如事件识别的时间局部性的故事。除此之外,一些研究(24- - - - - -27]分析了社交网络搜索或者在互联网上发现紧急事件。戴et al。25)提供了一个周期的模型来描述互联网传播过程的紧急事件,应用托比特书模型通过分析社会心理的影响。胡锦涛et al。(27]分析了历史属性然后结合知网极性和情绪词在微博社交网络信息传播的紧急事件。,然后提供了重要指导亲缘分析的微博信息传播与社会紧急事件在互联网上。与此同时,戴et al。24)提出了一个方法来搜索通过IBF紧急事件的最短路径算法通过分析社交网络。
一些研究集中在总结检测事件的推文(28- - - - - -31日]。Harabagiu和Hickl28)关注微博帖子涉及复杂的世界事件的总结。总而言之,他们抓住从微博事件结构信息和用户行为信息与主题相关。Takamura et al。31日]总结日本推文在足球比赛时人们提供评论和意见表达游戏的进展的时间表。他们代表用户操作转发、回复,并引用tweet。特别是·沙里夫et al。30.)检测到事件总结热门话题在Twitter上使用收集的大量文章主题。他们创造了以各种方式总结和评估那些使用指标自动总结评估。
最近,从微博提出了几种方法来检测事件使用主题模型方法(8,10,12]。Kireyev et al。8]探索使用主题模型的分析与灾害有关Twitter数据。贝克尔et al。32)和Popescu et al。33)调查发现集群相关的词或推对应事件的进展。淡比et al。12)调查了Twitter的实时交互的事件如地震和提出一种算法来监视微博和探测到目标的事件。刁et al。10]试图找到在微博话题与丛发性模式;他们提出了一个话题模型,同时捕获两个观测等文章发表大约在同一时间和同一用户发表的帖子。然而,现有的方法还会见了失败的潜在主题检测或分析的关系而言,由于tweet消息通常包含常见词的主题非常有限。因此,在本文中,我们提出一个方法来发现推特利用语言模型中的对象之间的关系比较间接的每个片段用于分类的事件Twitter。
3所示。利用语言模型对事件进行分类
在本文中,我们调查的使用生成和歧视模型识别在微博描述对象之间的关系的一个或多个实例指定的事件类型。我们适应的语言建模方法捕获事件实例的描述文本可能会生成。我们使用语言模型选择合理的术语词汇之间的关系的关系等微博“面向对象”或“Object-relation-Object”,旨在检测事件的关联性tweet。我们假定语言的数据收集模型包含合适的知识术语词汇之间的关系发现的元素之间的关系推统计分析对事件进行分类。我们探索两种类型的语言模型,获得高度的相关性与人类判断ConceptNet和LDA-SP等。这些模型用于计算相似性检测事件的成对的tweet。歧视术语之间的关系推的话会发现双下检查他们的亲缘关系。此外,推文之间的相似度计算是基于共同的术语词汇和他们的区别词词之间的关系。它是直观和方便的应用分类器算法对Twitter的事件进行分类。该方法一般包括四个阶段数据收集、标记阶段,数据建模,机器学习图所示1。阶段1和2将节中讨论4.1;第三阶段将部分中讨论3;和国家4将讨论部分3.3和4.2。
3.1。ConceptNet模型
在推模型的“面向对象”的关系,我们认为ConceptNet [16)模型。它是一种大语义图包含的概念和它们之间的关系。它包括日常基础、文化和科学知识,已自动从互联网提取使用预定义的规则。在这项工作中,我们使用最新版本ConceptNet 5。是开采使用规则,从自由文本数据库已经不受控制的词汇和包含许多虚假/无意义的语句。ConceptNet包含24关系超过1100万双的关系。例如,“美国国家航空航天局位于美国”作为AtLocation(“美国国家航空航天局”、“美国”)在ConceptNet模型。表2(一个)显示的列表24关系,表2(b)显示样品的四个关系MadedOf, AtLocation MotivedbyGoad, RecievesAction。斯皮尔和Havasi16提供更多细节的模型在他们的论文中。我们首先检查所有关系ConceptNet 5数据库(http://conceptnet5.media.mit.edu/)和定义相关关系目标事件通过关键词匹配(实验)中提取的关系。
3.2。LDA-SP模型
模型在微博“Object-relation-Object”关系,我们适应LDA-SP模型(17),用于选择偏好任务为了获得两个对象的条件概率关系。特别是,LDA-SP,使用LinkLDA [34),是一个扩展的潜在狄利克雷分配(LDA) (13),同时为每个主题模型两种分布。生成图形的LDA模型和LDA-SP描绘在图2。在LDA-SP,他们提出了一系列主题模型,属于他们的对象,计算任务的选择偏好。这些模型之间的不同的独立主题我和主题j这是假定。这两组代表了两个参数的关系。每个主题包含一系列关系的话。每一个关系,R,是由在同一分布,使两个不同的主题,主题我和主题j(图,共享相同的关系2 (b))。LDA-SP能够捕获的信息对主题通常cooccur。与LDA-SP模型的关系,我们也按照数据准备(21),由TextRunner[自动提取35从5亿年Web页面)。这导致大约32000个名词短语词汇,一套约240万元组与601年主题泛化语料库。一些样品的主题提取通过LDA-SP表中所示3。
(一)
(b)
3.3。相似性措施推
分类的事件在微博Twitter是一个非常具有挑战性的任务,因为一个非常几句cooccur tweet。直观地说,这个问题可以通过探索解决微博之间的关系;单词之间的内在关系和一本同义词典可能被发现。因此,我们提出一个方法来发现对象之间的内在关系基于统计分析的语言模型,然后得到相应的推文之间的相似性。我们考虑两种类型的关系等微博的“面向对象”和“Object-relation-Object。”
”面向对象”。事件”艾米·怀恩豪斯的死亡“发布tweet,,如图3。传统方法只能发现一个cooccurring术语。”艾米·怀恩豪斯”,删除后的微博停止的话。然而,如果我们分析和比较对<”之间的关联性歌手“-”艾米·怀恩豪斯“>,<”艾米·怀恩豪斯“-”去世了“>和<”艾米·怀恩豪斯“-”死“>,和<”艾米·怀恩豪斯“-”《安息吧" >,更紧密的关系将会暴露:“面向对象”为“主题1主题2“一组术语{”歌手”;”艾米·怀恩豪斯“}主题1和一组术语{”死亡”、“去世了”、“《安息吧“}主题2。
”Object-Relation-Object,“事件”架载有俄罗斯冰球队火车头崩溃”是发布,,如图4。我们可以发现之间的关系等“Object-relation-Object”<”飞机“-”崩溃“-”KHL火车头“>,<”飞机“-”崩溃“-”俄罗斯“>,和<”计划“-”崩溃“-”KHL团队" >。这也展示了更紧密的关系”Object-relation-Object”为“主题3-crash-Topic4“{”这个词飞机“}属于主题3和一组术语{”俄罗斯”、“khl火车头”、“曲棍球”、“khl团队“}属于主题4。
我们的方法从语言提取关系元组模型ConceptNet和LDA-SP等。我们对待所有从Twitter微博同样包含在集合,然后执行匹配的模型从ConceptNet和LDA-SP生成的元组。因此,如果我们可以发现关系元组作为“第三方”对微博和计算两个微博之间的相似性进行比较区分词与这些元组的话,我们可能会发现潜在的真正关系两个tweet。我们假设数据收集语言模型包含足够的知识术语词之间的关系,从中我们可以发现微博之间的基本关系。
计算相似性的tweet,我们推导出一组关系,从语言模型和微博结合Bag-of-Words匹配。考虑两个原创微博,和在数据收集我们检查,,现有的元组在每个tweet配合关系从ConceptNet提取模型。在使用LDA-SP,我们考试不仅关系也,存在于每个tweet,然后匹配关系元组来自LDA-SP。然后替换匹配的tweet来自语言的关系元组中的对象模型。因此,区分的推文之间的关系可以发现通过检查他们的亲缘下对“第三方的关系。“我们认为两个推文之间的相似性计算基于他们的常用术语和他们区分术语之间的关系。计算两个微博事件类别之间的相似性,我们代表向量: 在哪里的重量吗特征向量的tf -定义的df措施如下: 在哪里在收集、文件的总数是文档频率,文档的数量在哪个词发生时,项频率项吗在文档,只是出现的次数项呢在文档。
与两个区别词的词之间的关系的多样性元组分配模型,我们可以计算向量的相似性和所示的余弦方法
许多分类器分类活动的微博,首先需要计算推文之间的相似性。k神经网络是一个最好的方法,相似度的计算和选择适当数量的邻居。因此,它是直观和方便应用推文之间的相似度计算k神经网络分类的事件。如果我们的方法可以计算推文之间的相似性更准确,k神经网络将为一个测试用例选择更合适的邻居和分类的性能k神经网络将高于原始tf -我df,因为的性能k神经网络基于相似性测量方法优于其他方法与tf -我df的措施。我们得出结论,该方法是更有效的计算tweet相似性对事件进行分类。结果将在实验部分将更详细地讨论。
4所示。实验
4.1。实验数据集和评价措施
我们已经进行了爱丁堡Twitter实验语料库[36Twitter),一组事件,事件分类。语料库包含3034条tweet id蔓延至27日事件类别。目前,一些推数据集从Twitter删除或丢失。我们开发了一个工具使用Twitter API (http://twitter4j.org)收集文档包括微博,转发,响应,并引用微博;然后过滤文件,保证每个事件类别包含至少70条推讯。噪声去除后,停止词,每个词是为其根的形式。表4显示剩下的九个重大事件类别与马克为实验检查事件1,事件,事件,事件,事件13、14事件,事件15日、16日和21日事件。
在这项研究中,实验是评价精度的基础上,回忆,和与我们的方法措施。精密,回忆和测量是评价指标通常用于信息检索系统的性能。精度是正确的结果的数量除以总数量的返回响应;回忆是正确的结果的数量除以应该返回的结果数量召回和精密测量是用来平衡如下:
4.2。实验和比较
检查推文之间的相似性在实验之前,我们从实验数据集选择一些样品的tweet如表所示1。我们使用了tf -我df结合相似度函数来比较之前和之后使用语言模型性能。请注意,和讨论了在相同的事件;和还讨论了在相同的事件。分别和两双推,计算相似性与停止词删除。表中所示的结果5显示微博使用ConceptNet和LDA-SP增加提问同一类别的相似。此外,如果推不属于目标事件和,该方法将减少,帮助系统性能的相似性度量方法的分类效率。
对事件进行分类,70%的微博对于每个类别是随机选择的培训,和其他测试。在我们的实验中,我们比较了四个分类器的性能实现如下:基线k神经网络(没有语言模型);基线支持向量机;和k神经网络方法结合我们建议的方法kNN-M1 (k在语言模型ConceptNet)和神经网络kNN-M2 (k神经网络与语言模型LDA-SP)。支持向量机也用tf -构造我df方法重量每个tweet的矢量分量和用作第二我们建议的方法的比较基准。我们选择支持向量机,因为一个强大的和健壮的文本分类方法37- - - - - -39]。评价遵循5倍交叉验证模式。表6显示了性能结果应用于7从Twitter类别的事件。大胆的数据显示最好的测量每个事件的四个方法。例如,系统获得最高测量事件1中85.3%的方法kNN-M2。方法kNN-M1取得更好的测量结果在大多数事件类别:事件,事件,事件,事件14日、15日和16日事件。,方法kNN-M2取得更好的测量结果在三个类别:事件1,13日和21日事件。
图中给出的总体性能比较5。我们可以看到的性能kNN-M1优于kNN-M2、支持向量机和k神经网络。我们提出的方法也高于基线,k神经网络和支持向量机,在大多数的性能指标。整体结果,kNN-M1,kNN-M2、支持向量机和k神经网络获得了一测量的85%、84.7%、78.4%和76.8%,分别。
4.3。讨论
我们相信有效的性能我们提出的方法是以下原因造成的。
首先,噪音和感叹的和重复的文本通常发生在每个事件的微博。以下是这些tweet的例子。”悲伤的一天天空来源现在确认艾米·怀恩豪斯已经死了一个音乐传奇人物去世在我看来太年轻”,”艾米·怀恩豪斯发现死在她的伦敦公寓根据天空新闻”,”omg…嗯…gruuu艾米·怀恩豪斯已经死了不是完全惊讶呵呵“我们可以观察到{。”艾米·怀恩豪斯”;”死“}是重复文本,{”gruuu”;”呵呵噪声文本"},{"嗯”;”omg“}是感叹的文本。重复的文本将导致积极的相似性度量值;然而,噪声和感叹的文本将导致一个负值的相似性度量。为预处理,停止词已经被自动停止词的定义列表。然而,我们有检查和修正噪声文本手动如果他们不属于停止词列表。例如,很多单词“deaddddd”将被修改成“死亡”,或{“撕裂”,“我R P”}将修订为“安息吧”
第二个原因我们认为我们的方法有效的性能,质量普遍使用数据集建立语言模型。在这项研究中,超过五十亿个关系记录提取概念用于构建模型。此外,从LDA-SP模型提取240万元组关系和601的话题。此外,ConceptNet是一个图形化的关系模型,使用预定义的规则。然而,LDA-SP仍有一些错误17在计算词的统计数据。在实验结果中,ConceptNet比LDA-SP更好的性能。
背后的第三个原因认为是我们的方法有效的性能,分析了模型从LDA-SP强烈而ConceptNet关系。然而ConceptNet获得更好的性能结果。文本从微博是不完整的句子,导致语法解析分析失败的关系。我们不包括语法解析分析微博基于LDA-SP模型。因此,ConceptNet展品更好的分类性能比LDA-SP来自Twitter的事件。
5。结论和未来的工作
我们提出了从Twitter对事件进行分类的方法。我们首先找到推文之间的区分条件事件与学习语言模型并计算其相似:LDA-SP ConceptNet。接下来,我们发现区别的推文之间的关系通过检查他们在每个模型。然后,我们两个推文之间的相似性计算基于他们的常用术语和他们之间的关系方面的区别。结果使它方便适用k神经网络技术对Twitter的事件进行分类。因此,我们的方法获得更好的性能结果ConceptNet和LDA-SP比其他方法。
对于未来的工作,研究提出有吸引力的方面改善如下。首先,这种方法可以考虑未来的工作,包括更大的语料库和尝试其他事件类型。第二,我们将继续研究如何运用语法解析微博,这样我们可以分析深深为分类服务事件的关系。最后,这项研究可以应用无监督学习与语义相似性模型逐点的互信息(PMI) (40,41潜在语义分析(LSA)[和]42,43]。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF)由教育部科技(2012 r1a1a2006906)。作者要感谢匿名评论者的建设性的意见和建议在纸上。