与分层开采顺序更新总结文本分析

文摘

人类意想不到的新闻事件的爆发等大型事故或自然灾害带来了一个新的信息访问问题,传统方法失败。大多数情况下,这些事件的消息显示特征,早期的稀疏和冗余。因此,它是非常重要的更新,为个人提供及时和重要信息的这些事件在他们的发展过程中,特别是当被应用在无线和移动物联网(物联网)。在这篇文章中,我们定义的问题顺序更新摘要提取和呈现一个新的分层更新挖掘系统,可以用有用的广播,新的,和及时的句子的长度更新关于事件的发展。新系统提出了一种新颖的方法,包含技术从主题级和字面意思总结。来评估系统的性能,我们把它应用到连续更新的任务总结的总结(TS)跟踪文本检索会议(TREC) 2013计算的四个测量采矿系统更新:预期收益,预计延迟增加,全面性,延迟全面性。实验结果表明,我们提出的方法具有良好的性能。

1。介绍

物联网(物联网)是一种新型的互联网。是网络的物理对象或“事物”与电子、嵌入式软件、传感器、网络连接,使这些对象收集和交换数据1]。许多高科技公司在世界各地已经开始开发物联网产品和服务,促进其早期阶段的物联网产品和服务的市场领域。最明显的挑战,无线和移动技术是实现物联网的基础技术(2,3]。资源受限的设备需要与其他设备通信在无线网络。所需的设备也在移动通信。除了这些需求,各种技术和科学研究方面的考虑也是必需的。的一个关键技术是为物联网开发语义和智能网络(4]。该技术的核心是传统的互联网技术和无线和移动技术。例如,当一个意想不到的新闻事件发生,如自然灾害(如地震)或人工事故(例如,空难),一些事件数据可以收集的物联网设备,和他们提交这些事件数据网络。这些数据在互联网将形成一些实时新闻。基于有效的顺序更新汇总系统,物联网系统可以发送个人有用的,新的,通过移动设备和及时更新。因此,开发有效的顺序更新总结物联网技术是非常重要的。

然而,由于意想不到的新闻事件的特点,它是一个巨大的挑战,建立一个有效的顺序更新汇总系统。大多数情况下,意想不到的新闻事件信息发展迅速(5]。例如,意外事件爆发后,语料库可以人烟稀少的相关新闻。即使,几小时后,相关新闻是可用的,它通常是不准确的或高冗余。这是因为事件的消息被广泛传播通过多级世界各地的新闻频道。然而,根据新闻来源的多样性,细节关于事件的报道是冗余的,动态的,有时是错误的。此外,它变得更加难以收集权威消息,当面对重大事件涉及广泛的生活或基础设施严重受损。这可能导致谣言和未经证实的信息传播6]。与此同时,突发事件对个人也很重要的话题。人们想要得到及时的信息,尤其是对这些人相对于这些突发事件;他们甚至不能等待综合报告来实现(7]。

不幸的是,现有的解决方案不能满足人们的需求中获得有用的,新的,和及时的顺序更新汇总时对这些事件。这是因为连续更新的问题总结提取是指文本摘要技术intercrossed,话题检测与跟踪和基于时间的总结。然而,大多数当前总结系统可以使用静态摘要方法(8- - - - - -13)或使用主题检测与跟踪(TDT)方法(14- - - - - -18]。这些方法只提供具有特定属性的句子提取基于传统技术的自然语言处理(NLP) [19]或只提供主题级摘要。在大多数方面,连续更新总结是一个事件,能模拟“第一个话题检测”问题的语句20.]。总之,不支持只有展示人与小说内容(即。,updates to the user) and updates can suffer from poor coverage and unreliable information.

在本文中,我们定义的顺序更新摘要提取问题意想不到的新闻事件。这个任务可以看作一种变异的话题检测与跟踪和基于时间的文档摘要。因此,问题定义、评估和基于这些技术的使用方法。显著延长上述技术,提出了一种新的层次总结系统,着重于提取顺序更新总结意想不到的新闻事件。有用,新系统会尝试广播,和及时的句子的长度更新发展的事件,通过融合技术的基于时间的主题级和字面意思总结。与应用程序的顺序更新汇总(SUS)的任务时间总结(TS)跟踪21在文本检索会议(TREC) []22),我们评估的有效性的新方法的精度,还记得,及时性,新奇的更新。通过计算预期的收益,预计延迟增加,全面性,和延迟全面性(SUS任务的评价指标)的提取更新10个话题,我们得出结论,该方法具有良好的性能。

本文的贡献有三点:(一)SUS提出了一个通用的定义问题。(b)小说SUS框架,包括基于时间的主题级的技术和字面意思总结介绍。(c)这个框架的应用程序顺序更新摘要任务的总结(TS)实现跟踪。

在本文的其余部分,我们首先回顾一些相关工作的信息检索和文本摘要部分2。然后,我们形式化的问题顺序更新摘要提取部分3。节4这部小说,我们介绍分层更新挖掘系统和介绍部分的评估标准5。我们进行实验来验证该方法的有效性6节和结论7。

顺序更新汇总的问题起源于话题检测与跟踪(23),基于时间的总结技术(14,20.],multidocuments总结(9,24,25]。

2.1。话题检测与跟踪

话题检测与跟踪(TDT)是指文档级任务相关的检测和跟踪新闻事件(23]。这是一个身体的研究和一个评估范式,地址基于事件的广播新闻组织。

作者的20.)建议回顾性选择小说从一连串的新闻文章和相关的句子。然而,TDT比句子主题的基础。在大多数方面,连续更新总结能模拟dt的语句是一个事件,“第一个话题检测”的问题(20.]。

指的是基于时间的时间的任务总结总结,大部分的这些系统关注时间表达式提取从文本规范引用日期、时间和运行时间(14]。该系统在26)与事件相关的有意义的时间总结更新和自动生成注释所确定的事件在一个时间轴。方法提出了(27)检索顺序版本的一个web页面在预定义的时间间隔。摘要(28)提出了一个框架,从集合中提取事件与查询相关的文档,并将这些事件时间表。

2.2。Multidocuments总结

文本摘要技术利用多种信息检索(IR)和自然语言处理(NLP)技术。一些主要侧重于技术,已经开发的红外(25),而大多数试图利用红外光谱方法和NLP的某些方面(19]。作为文本摘要的子问题之一,multidocument总结(MDS)指的任务生成一个文本总结的文档在同一主题,包括两大类方法:采掘摘要和摘要式的总结。采掘总结提取摘要由句子从池中提取文件,而抽象总结提取摘要生成基于文档的池。

的核心技术萃取总结研究总结的文献通过提取句子有特定属性。句子提取技术考虑句子中的词,寻找线索词和短语(11,24),考虑更多的聚焦特性,比如句子长度和案例的单词(29日),或比较的句子之间的关系模式30.- - - - - -32]。大多数这些方法使用统计数据从语料库本身决定句子的重要性,和一些利用现有的训练集的总结学习总结的性质(29日,33]。其他方法计算句子重要性的基于图的特征向量表示句子(34]。

方法调查本文主要是类似于采掘总结。我们建议的方法的目的是提取基于时间的句子,有很高的信心。

3所示。问题定义

顺序更新汇总的问题已在许多文献调查。然而,直到现在,仍然没有清晰的定义。在本节中,我们将给出一个一般定义在连续更新的问题总结如下。

一个意想不到的事件,是一个暂时的急性的话题,一个明确的起始时间,。一个事件查询,的,是表示在活动期间用户表达的事件描述。与事件相关的关键词的设置,,代表了重要的信息应该被包括在更新提供给用户(例如,事件发生的位置,此事件造成的死亡人数)。系统观察暂时命令流文件,。的观察,系统作出决定排放零个或多个更新。候选人的更新由句子组成的最近的文档文档事件时间表。图1演示了一个原理图的顺序更新汇总系统。基于图的示意图1,我们提出一个顺序更新摘要算法的一般框架1。根据算法1,一个有效的顺序更新总结系统应该支持对时间敏感的信息检索技术,准确的关键词挖掘方法、评分算法和有效的更新。

需要:
SequentialUpdateSummarization:
= SUS系统;
=以时间为顺序的语料库;
=关键字查询突然事件;
=突然事件的开始时间;
=突然事件的结束时间;
确保:更新设置
();
():检索()
()为做
()
();
();
()如果然后
()然后
();
()为做
()做
();
()结束了
()如果
()结束了

4所示。层次顺序更新汇总系统

调查意外事件更新挖掘方法,我们构建一个层次顺序更新总结矿业系统在这一节中。系统的框架如图2。该框架包含三个主要模块:预处理和信息检索模块,关键词挖掘模块、和句子评分模块。第一个模块确保event-relevant文档是时间敏感。第二个模块提取基于时间的event-relevant关键词通过使用分层文本分析技术。第三模块关注得分小说能更新语句。

4.1。预处理和信息检索模块

因为原始数据集处理一些特定的技术,如加密、压缩,和序列化(37),系统首先应该做一些可用的数据预处理和提取event-relevant文档在每个时间段。这个模块的整个过程描述如下:(我)解密文件。第一步是使用授权密钥来解密文件的权威。这一步将GPG文件格式转换为SC文件格式。(2)反序列化。我们使用流语料库工具箱来解析这些SC文件TXT文件。TREC的权威提供了流语料库工具箱来解析这些SC文件。流语料库工具箱提供了一个通用的数据交换格式文档处理管道、语言处理工具适用于大型的文本流。(3)建立索引。从大型流文档获得topic-relevant文档,这些大数据应该建立的索引。这一步是建立指数的马达加斯加(38基于查询的信息检索)。马达加斯加是一种主要用于搜索引擎在信息检索领域,与语言建模相结合的推理网络。马达加斯加的查询语言,它是让人想起Inquery查询语言,允许研究人员尝试接近,文档结构文本段落和其他文档功能,而无需编写代码。(iv)信息检索。最后一步是使用花纹作为信息检索的一个工具。给定一个事件查询排名,马达加斯加返回所有相关文件根据他们的响应计算的判据的马达加斯加的信心。这一步可以让用户提交的查询和获取每个时间段最相关的文档。

4.2。关键词挖掘模块

在这个模块中,我们利用层次潜在狄利克雷分配找到潜在的主题并返回最具代表性的单词每个主题的关键词。

潜在狄利克雷分配(LDA) (36)是一种统计模型,特别是主题模型,可用于识别隐藏的主题从一个大文档收集语料。LDA的基本思想是,一个文档可以被认为是一个混合的有限数量的主题和每一个有意义的词在文档中可以关联到这些主题之一。给定一个语料库的文档,LDA试图确定一组主题,与主题关联的一组词,定义一个特定的混合这些主题在语料库为每个文档。全面和完整的描述LDA模型可以发现在36]。的词汇来描述LDA模型如下:(我)词。一个单词是一个基本单元定义为一个项目从一个词汇表的大小。(2)文档。一个文档是一个序列词用,在那里是词序列。(3)语料库。语料库是一个收集的文件用。统计自然语言处理,通常每个文档模型作为多项分布在主题,每个主题,多项分布在单词的集合。为了发现主题的集合的分布和使用这些主题在语料库中每个文档的文档,我们需要获得的估计和。Blei et al。36)表明,现有的技术评估和缓慢的收敛和LDA提出一种新的模型。LDA模型假定之前狄利克雷分布基于,从而允许的估计不需要估计。

LDA假设生成过程创建一个文档(36如下介绍:(我)选择:选择的字数。(2) :选择从狄利克雷分布参数化。(3)为每一个,(一)选择主题;(b)选择一个单词从,一个多项式概率。在这个模型中,不同的分布,即主题的设置,为每个文档的主题分布,和词的概率为每个主题,一般为精确推理(棘手的36]。LDA的概率图形化模型如图3。LDA的联合概率分布

因此,各种各样的近似算法对LDA。这些算法试图最大化模型给出的语料库的可能性。几个LDA算法已经提出了拟合模型的文本语料库等变分贝叶斯(36,39- - - - - -41),期望传播(42),和吉布斯抽样43]。

本文对于每个事件在每一个小时,我们首先检索500年最相关的文件,然后提取关键词LDA在当前的小时。在这个模块中,我们使用GibbsLDA + +工具(44提取关键字。我们首先用LDA工具箱发现两个主题,选择最具代表性的文字为每个主题;其次,我们发现5新的主题通过相同的方法在主题发现在最后一步中,选择最具代表性的每个主题;最后,我们把两层代表的每个主题关键词设置。

4.3。句子评分模块

我们在这个模块:利用三个句子评分方法KLP法、通用方法,KS法(45]。

第一个方法假定一个更新是一个长句子,拍摄很多关键字,应该在一段放在第一位。因此,它认为三个重要因素:关键字多样性,一个句子的长度,和句子的位置,我们叫KLP方法。评分标准如下: 在哪里是事件的关键词吗提取部分4.2和,,多样性是关键字的重量、长度和位置,分别。当计算,文档是指有关文件在当前的小时。如果一个句子放在一个段落的开始,,或。

第二种方法假定一个更新应该与更大的关键字长度短句子多样性,因为句子太长时间通常是一个事件的回顾总结,而不是一个更新。我们命名这个指标通用的评分标准如下: 在哪里关键词的数量包括在吗,关键字的信心吗获得部分4.2,之间的距离是和。

第三个方法是关键字射击方法,该方法只考虑关键词包含在句子的多样性。我们把它命名为KS方法。其评分标准如下: 在哪里关键字向量的事件吗。是事件的相关句子。

获得高信心的句子后,后处理模块会重复删除句子,首次发现相同的句子用不同的句子ID,然后比较了流ID的所有句子和选择的最早时间信息提交的句子。

5。评价方法

文档摘要难以评估,因为所有导致轻微的变化,如重新确立的部分总结,重新排序的句子,和省略未必重要信息,仍然优秀的总结。最流行的总结评价方法是比较句子选择专家和句子之间的协议选择由计算机(9,46),或比较协议在系统生成的句子中47]。然而,由于比较基于一些句子变体是困难的,我们引入金块的概念,定义为原子小说与突发事件相关的信息。例如,SUS的任务,金块文本被认为是相关和小说的编辑维基百科文章。每一个金块通过注释器分配的重要性等级:。因此,我们可以用这些原子金块比较提取更新更准确的方式。

传统红外和文本总结评价关心的是质量和数量的相关资料。摘要连续更新总结系统侧重于以下属性:(我)更新相关句子意想不到的事件。(2)更新应该是小说与至少一个金块必须匹配,可以与几个金块。(3)更新是句子提取早期event-relevant新闻。对事件显然是小说的第一句话;之前的一个事件的第一句话的时候,越低延迟的更新。(iv)更新短句子不应过于冗长。也就是说,我们要测量相关性、延迟、冗长,匹配提取的更新。测量上述属性,TREC的SUS任务定义的四个参数的测量:预期收益,延迟预期收益,全面性,和延迟全面性48]。

引入四个参数的定义之前,我们首先解释一些基本的定义。给定一个更新组和一个金块,它们之间的匹配函数除了匹配函数,定义了两个折扣来评价提取更新的及时性和简洁性:延迟折扣和冗长的折扣。给定一个时间戳的金块,延迟折扣是一个延迟惩罚,这是一个单调递减函数。同样的,冗长的折扣也是罚函数,它被定义为一个字符串长度罚函数,单调减少的数量更新的字符串。基于上述概念,之间的折扣获得更新和一个匹配的金块是折现系数可以延迟折扣的,冗长的折扣,或两个折扣的化合物(例如,)。

因此,总体预期获得类似于精度IR的传统观念。它被定义为在哪里评估事件和集吗系统提交的事件吗,被定义为

评价系统性能的时间事件后,延迟获得被定义为对时间敏感的预期获得第一秒钟

除了良好的预期收益,提供一组全面的更新的性能也是非常重要的。也就是说,掘金提取的更新设置涵盖越多,更好的系统性能。它类似于回忆在信息检索评价的传统观念。给定一组系统更新,IR的全面性类似于回忆,评估覆盖在金块

同样,全面性的延迟是一个对时间敏感的综合性的概念如下:

6。实验结果和讨论

6.1。数据和主题

TS的SUS任务中使用的数据跟踪由组织者提供KBA跟踪(49在TREC),这是由亚马逊公共数据服务。这语料库[50)由一组时间戳文件从各种新闻和社会媒体覆盖时间2011年10月到2013年1月,其时间跨度与11248小时17个月。有超过10亿个文档,每个都有绝对的时间戳的地方流,它主要由新闻、社会(博客、论坛),网络(如arxiv,链接事件)的内容。所有文件包含一组句子,每个国家都有一个惟一的标识符。

有10个事件/话题(表中列出1)[51SUS任务);每种只有一个标题,描述维基百科条目(URL),开始和结束时间,查询关键词。类型是来自、射击、风暴、地震、和他们有一组属性,如位置、死亡、和金融影响。算法2的定义说明了“2012年布宜诺斯艾利斯铁路灾难的事件。“为每一个突然事件查询,我们选择前500名相关文件返回的马达加斯加每个突然事件的相关文件查询在一小时内。


查询主题	标题的主题

(布宜诺斯艾利斯火车相撞	2012年布宜诺斯艾利斯铁路灾难
()巴基斯坦工厂火灾	2012年巴基斯坦服装厂火灾
()科罗拉多枪击案	2012年拍摄极光
()锡克教寺庙枪击案	威斯康星州锡克教寺庙枪击案
()飓风艾萨克	飓风艾萨克(2012)
()飓风桑迪	飓风桑迪
()中西部derecho	2012年6月北美derecho
()台风bopha	台风Bopha
(危地马拉)地震	2012年危地马拉地震
()特拉维夫公共汽车爆炸案	2012年特拉维夫公共汽车爆炸案

<事件>
<标识> 1 < / id >
<开始> 1329910380 < /开始>
<结束> 1330774380 < / >结束
<查询>布宜诺斯艾利斯火车相撞< /查询>
事故<类型> < /类型>
<位置/ >
<死亡/ >
<伤害/ >
< /事件>

6.2。结果

我们应用分层更新挖掘系统对整个十个话题。为每个主题,来评估这些提取的更新,我们选择了60更新的评估数据由于其信心KLP计算,通用,KS的方法。评价过程主要是金块提取和update-nugget匹配。摘要金块被评估者通过阅读提取的所有编辑维基百科文章为每个主题,手动提取文本视为相关和小说编辑。此外,他们一个重要性等级分配给每个文本片段,或金块,指出任何依赖关系信息。update-nugget匹配是指匹配我们提取更新这些金块来评估他们的准确性和覆盖的信息。延迟折扣函数和冗长的折扣函数(48本文使用在哪里(6小时)和延迟一步和的长度(单词)更新吗和金块。通过应用上述功能评价指标中引入部分5,我们四个性能参数计算。

除了我们之前报道的结果(35),表2和3说明一些结果报告的SUS 2013年TREC任务和五这三种方法的结果。四个参数是评价通过比较生成的更新和金块使用预期收益,预计延迟增加,全面性,延迟综合性指标。预期获得类似于精度IR的传统观念。预计延迟获得是一个时间敏感的预期收益。全面性是类似于红外召回,评估金块的报道。延迟的房价是对时间敏感的全面性(48]。用斜体印出结果前3和日中值结果基于相应的参数,这是报告的SUS 2013年任务(48]。


方法	(获得)	(延迟获得)

最好的报道	*0.149(0.101*)	*0.136(0.090*)
ICTNET-run2	0.102(0.045)	0.127(0.075)
ICTNET-run1	0.101(0.045)	0.125(0.075)
中值	0.053(0.041)	0.067(0.057)

KS	0.149 (0.101)	0.136 (0.090)
通用	0.103 (0.084)	0.103 (0.050)
KLP (0.6, 0.2, 0.2)	0.071 (0.039)	0.074 (0.031)
KLP (0.5, 0.2, 0.3)	0.065 (0.034)	0.067 (0.026)
KLP (0.5, 0.3, 0.2)	0.065 (0.034)	0.067 (0.026)


方法	全面的	延迟做伴奏。

最好的报道	*0.445(0.191*)	*0.571(0.358*)
UWaterloo-rg2	0.441(0.198)	0.562(0.349)
UWaterloo-qlec2t25	0.433(0.170)	0.537(0.322)
中值	0.204(0.146)	0.260(0.217)

KLP (0.5, 0.3, 0.2)	0.224 (0.178)	0.292 (0.270)
KLP (0.5, 0.2, 0.3)	0.224 (0.178)	0.288 (0.262)
KLP (0.6, 0.2, 0.2)	0.204 (0.146)	0.260 (0.217)
通用	0.131 (0.138)	0.176 (0.203)
KS	0.099 (0.099)	0.126 (0.164)

表2说明了三大日中值预期获得的结果和预期的延迟获得2013年在TREC SUS任务。ICTNET-run2和ICTNET-run1 [52)提交的结果计算技术研究所、中国科学院。他们首先选择event-relevant句子和决定一个句子作为一个精心挑选的触发字的更新如果它包括单词列表,如杀戮和死亡。从表2,我们可以看到,KS方法最好的预期增加,预计延迟增加,这等于最好的报告结果。这是因为KS的关键词列表方法是生成层次LDA方法,可以生成更准确的关键词列表与人造ICTNET方法的关键字列表。因此,KS方法优于两种ICTNET方法。表2也说明预期的增益和延迟增益KLP和实现都高于日中值结果,这表明KLP,实现方法是有效的方法提取更新意想不到的新闻事件。通过比较三种调查方法的结果在表2,我们可以得出这样的结论:KS方法是最有效的方法在评估预期收益和预期延迟获得的指标;例如,它可以提取准确、及时更新。

表3说明了前三名,日中值结果的全面性和延迟全面性SUS 2013年TREC任务。报道三大结果提交的滑铁卢大学。三个滑铁卢方法试图提取更新在两个方面:句子得分和event-relevant方面的扩张(53]。术语展开法滑铁卢大学的调查是基于引导学习种子的条款。滑铁卢的三个方法的好结果显示术语展开法的有效性,导致最好的全面性和延迟全面性。表3表明三种调查方法上面都是报道日中值的结果,显示了三种方法的有效性。从表3,我们可以看到KLP方法最好的全面性和延迟comp。,和KS方法有最严重的房价和延迟comp。,而性能之间的通用方法是KLP法和KS法。也就是说,与KS和实现方法相比,KLP方法利用一个更一般的度量评分更新可以覆盖更多的掘金。

通过比较不同权重的KLP方法表2和3上,我们可以看到重量句子长度和句子位置有什么影响更新KLP方法提取结果。它表明关键字多样性比句子和句子长度更重要位置KLP方法。

此外,通过结合的结果表2和3,我们可以看到,预期获得互惠和全面性的关系,如信息检索的精度和召回。KLP方法利用一个更全面的度量中考虑更多的因素得分的句子。但这是威胁要选择长句导致最糟糕的增益和延迟增益。KS方法只有关键词多样性评价句子,并期望获得良好的性能和预期延迟收获。

总而言之,我们提出了系统提取的关键词主题使用分层LDA水平。KS的良好效果和实现方法的关键标准是关键字提及在句子层面上,表明SUS提取能模拟的语句是一个事件,第一个话题检测问题。因此,它是由分层提取文本分析时有效。实验结果表明,良好的更新不应太长句子涵盖许多关键词。一般来说,KS方法适合系统要求精度高,而KLP方法更适合系统要求较高的召回。

7所示。结论

本文定义的顺序更新摘要提取问题意想不到的事件。提取相关的及时更新,我们正式的层次顺序更新汇总系统,包含技术从主题级和字面意思总结。分层采矿系统集中关注SUS任务并试图广播和有用的,新的,和及时的句子的长度更新发展中意外事件。来验证我们提出的系统的有效性,我们提供了一个圆形的系统基于TREC的SUS任务2013,包括查询主题,更新提取系统,和评价指标。我们应用分层更新矿业系统提取更新十SUS任务的意外事件。实验结果表明,我们建议的系统具有良好的性能。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作在一定程度上是由中国国家自然科学基金国家自然科学基金委批准号。61402047和61402047,国家自然科学基金委与广东联合基金重点项目。U1201258、科研基础返回学者、中国教育部、瑞典任期起始格兰特医嘱。ib2015 - 5959,欧盟FP7 IRSESMobileCloud之下项目(批准号612212)和山东省自然科学杰出青年基金学者在批准号JQ201316。工作的一部分,提出了已经发表在[35]。

引用

诉Madisetti a . Bahga,“物联网”,2014。视图:谷歌学术搜索
l . Atzori a Iera经纪人莫拉比托g .,”从“智能对象的“社交对象”:互联网的下一个进化步骤,”IEEE通讯杂志,52卷,不。1,第105 - 97页,2014。视图:出版商的网站|谷歌学术搜索
j . a .斯坦科维奇“物联网研究方向,”IEEE物联网,1卷,不。1,3 - 9,2014页。视图:出版商的网站|谷歌学术搜索
C.-W。蔡,张炳扬。赖,M.-C。蒋介石,l·t·杨“物联网数据挖掘:一项调查,“IEEE通信调查和教程,16卷,不。1,第97 - 77页,2014。视图:出版商的网站|谷歌学术搜索
问:郭、f·迪亚兹和e . Yom-Tov“更新用户约时间关键事件,”先进的信息检索施普林格,页483 - 494年,2013年。视图:谷歌学术搜索
m·门多萨和c·卡斯蒂略”的b .波夫莱特Twitter在危机:我们可以信任我们RT吗?“在学报第一车间在社交媒体分析(SOMA的10)ACM,页71 - 79年,华盛顿特区,美国,2010年7月。视图:出版商的网站|谷歌学术搜索
大肠Yom-Tov f·迪亚兹,“看不见的东西,并不是培养出来的思想:社会和身体分离的影响对信息的需求,”美国第34国际市立图书馆会议在信息检索的研究和开发(" 11)ACM,页385 - 394年,北京,中国,2011年7月。视图:出版商的网站|谷歌学术搜索
惠普Luhn”,文学的自动创建抽象。”IBM杂志》上的研究和发展,卷2,不。2、159 - 165年,1958页。视图:出版商的网站|谷歌学术搜索
j·戈尔茨坦,m .•坎特罗威茨诉米塔尔,j . Carbonell”总结文本文档:句子选择和评价指标,”学报22 ACM国际市立图书馆年会在信息检索的研究与发展(99年")加州伯克利,页121 - 128,美国,1999年8月。视图:出版商的网站|谷歌学术搜索
d . Wang s朱、t·李和y锣,“比较文档摘要通过区别的句子选择,”ACM交易数据的知识发现》第六卷,没有。3、第十二条,2012年。视图:出版商的网站|谷歌学术搜索
j·j·波洛克和a .萨莫拉“化学文摘服务,自动提取研究”化学信息和计算机科学杂志》上,15卷,不。4、226 - 232年,1975页。视图:谷歌学术搜索
答:a . a . Esmin r . s . c .初级w·s·桑托斯,c . o . Botaro t·p·诺,“实时总结计划从twitter流足球比赛,”自然语言处理和信息系统、大肠Metais m .罗氏,m·泰塞尔。卷,8455在计算机科学的课堂讲稿施普林格,页220 - 223年,2014年。视图:出版商的网站|谷歌学术搜索
a·帕蒂尔k . Pharande d Nale, r . Agrawal”自动文本摘要,”国际期刊的计算机应用程序,卷109,不。17日,18日至19日,2015页。视图:出版商的网站|谷歌学术搜索
玛尼和g·威尔逊,“健壮的时间处理的消息,”学报》第38届年会在计算语言学协会,页69 - 76,计算语言学协会斯特劳斯堡,宾夕法尼亚州,美国,2000年10月。视图:谷歌学术搜索
r .天鹅和j·艾伦,”自动生成概述时间表,”学报》第23届ACM国际市立图书馆年会在信息检索的研究和开发(" 00),页49-56,雅典,希腊,2000年7月。视图:出版商的网站|谷歌学术搜索
w·丁和c·陈,“动态主题检测与跟踪:比较黄芪丹参滴丸,马勒,和cocitation方法,”信息科学与技术协会的杂志上,卷65,不。10日,2084 - 2097年,2014页。视图:出版商的网站|谷歌学术搜索
r·s·m·奥斯本Moran麦克格雷迪et al .,“实时检测、跟踪和监测自动发现事件在社会媒体,”美国52计算语言学协会的年会:系统演示(ACL的14)计算语言学协会,页37-42,巴尔的摩,马里兰州,美国,2014年6月。视图:谷歌学术搜索
a Guille和c . Favre Mention-anomaly-based事件探测和跟踪twitter”《IEEE / ACM国际会议上社交网络分析和挖掘的进步(ASONAM 13)IEEE,页375 - 382年,北京,中国,2014年8月。视图:出版商的网站|谷歌学术搜索
大肠Hovy彭译葶。林,“自动文本摘要和summarist系统”学项目的程序,页197 - 214,计算语言学协会,巴尔的摩,医学博士,美国,1998年10月。视图:谷歌学术搜索
j·艾伦·r·古普塔和诉口“时间总结的新话题,”《24日ACM国际市立图书馆年会在信息检索的研究和开发(" 01)10 - 18,页,新奥尔良,洛杉矶,美国,2001年9月。视图:出版商的网站|谷歌学术搜索
2013年时间总结,http://www.trec-ts.org/。
Trec, 2013,http://trec.nist.gov/。
j·艾伦,”话题检测与跟踪,简介”话题检测与跟踪施普林格,页1 - 16,2002。视图:出版商的网站|谷歌学术搜索
惠普Edmundson”,在自动提取新方法,”ACM的杂志,16卷,不。2、264 - 285年,1969页。视图:出版商的网站|谷歌学术搜索
j·戈尔茨坦,诉米塔尔,j . Carbonell m•坎特罗威茨,“多文档摘要句子提取,”进行自动汇总(NAACL-ANLP-AutoSum NAACL-ANLP车间的' 00),4卷,页40-48,计算语言学协会2000年4月。视图:出版商的网站|谷歌学术搜索
m . Georgescu d·d·范教授n . Kanhabua s Zerr s Siersdorfer w . Nejdl,“时间与事件相关的更新的总结维基百科,”《22日国际会议上万维网(WWW的13),页281 - 284,国际万维网会议指导委员会,里约热内卢,巴西,2013年5月。视图:谷歌学术搜索
a . Jatowt和m .不能“颞网页摘要,”网络信息检查2004:第五届国际会议上Web信息系统工程,布里斯班,澳大利亚,2004年11月22 - 24。诉讼卷,3306在计算机科学的课堂讲稿施普林格,页303 - 312年,柏林,德国,2004年。视图:出版商的网站|谷歌学术搜索
h·l . Chieu和y . k .李“基于查询事件提取沿着时间轴,”学报》第27届国际市立图书馆会议在信息检索的研究与开发ACM,页425 - 432年,2004年7月。视图:谷歌学术搜索
j . Kupiec j·彼得森和f·陈,“可训练文档史书,”《第十八届国际市立图书馆会议在信息检索的研究与开发ACM,页68 - 73年,1995年7月。视图:谷歌学术搜索
顿,a . Singhal m . Mitra和c·巴克利,“自动文本结构和总结,信息处理与管理,33卷,不。2、193 - 207年,1997页。视图:出版商的网站|谷歌学术搜索
c . Zhang w .徐,z .妈,美国高,李问:和j .郭”建筑语义提取引导模型关系,”以知识为基础的系统卷,83年,第137 - 128页,2015年。视图:出版商的网站|谷歌学术搜索
c, y, w . Xu z妈,y愣,和j .郭“矿业激活力定义依赖关系提取模式,”以知识为基础的系统卷,86年,第287 - 278页,2015年。视图:出版商的网站|谷歌学术搜索
a·l·伯杰和v o·米塔尔”,总结网页,豹猫:系统”学报》第23届国际市立图书馆会议在信息检索的研究和开发(" 00)ACM,页144 - 151年,雅典,希腊,2000年7月。视图:出版商的网站|谷歌学术搜索
Erkan和d·r·Radev“LexRank:基于词汇中心作为文本摘要,突出“人工智能研究杂志》上,22卷,不。1,第479 - 457页,2004。视图:谷歌学术搜索
c·张,z .妈,j . Zhang w . Xu和j .郭”顺序更新汇总,一个多层次的系统”IEEE学报》11日国际会议上异构网络质量、可靠性、安全性和健壮性(QSHINE 15),页144 - 148,台北,台湾,2015年8月。视图:谷歌学术搜索
d·m·布莱a . y . Ng,乔丹,“潜在狄利克雷分配”机器学习的研究》杂志上,3卷,不。4 - 5,993 - 1022年,2003页。视图:谷歌学术搜索
c . Zhang w·许,刘r . et al .,“在trec kba取了,”笔记本的文本检索会议,2013年。视图:谷歌学术搜索
马达加斯加大狐猴,http://www.lemurproject.org/indri.php。
马z和a . Leijon”与变分推理β混合物模型的贝叶斯估计,“IEEE模式分析与机器智能,33卷,不。11日,第2173 - 2160页,2011年。视图:出版商的网站|谷歌学术搜索
z, p . k . Rana j . Taghia m . Flierl和a . Leijon”与变分推理狄利克雷混合物模型的贝叶斯估计,“模式识别卷,47号9日,第3157 - 3143页,2014年。视图:出版商的网站|谷歌学术搜索
z, a . e . Teschendorff a . Leijon y俏,h . Zhang和j .郭”变分贝叶斯矩阵分解为有界的支持数据,”IEEE模式分析与机器智能,37卷,不。4、876 - 889年,2015页。视图:出版商的网站|谷歌学术搜索
t .星和j·拉弗蒂Expectation-propagation模型,生成方面”18会议程序的不确定性人工智能(可用“02)摩根,页352 - 359,考夫曼出版商,阿尔伯塔,加拿大,2002年8月。视图:谷歌学术搜索
t·l·格里菲斯和m . Steyvers”找到科学话题,”美国国家科学院院刊》上的美利坚合众国补充1卷。101年,第5235 - 5228页,2004年。视图:出版商的网站|谷歌学术搜索
“吉布斯lda + +,http://sourceforge.net/projects/gibbslda/。视图:谷歌学术搜索
c·张,z .妈,j . Zhang w . Xu和j .郭”顺序更新汇总,一个多层次的系统”学报》第11届国际会议上异构网络质量、可靠性、安全性和健壮性(QSHINE 15),台北,台湾,2015年8月。视图:谷歌学术搜索
g . j . Rath a . Resnick和t·r·萨维奇”选择的形成抽象的句子。第一部分句子由男性选择和机器。”美国的文档,12卷,不。2、139 - 141年,1961页。视图:出版商的网站|谷歌学术搜索
r . l . Donaway k . w . Drummey, l·A·马瑟”产生的排名比较总结评价措施,”学报NAACL-ANLP 2000车间自动汇总西雅图,页69 - 78年,洗,美国,2000年4月。视图:出版商的网站|谷歌学术搜索
j . Aslam m . Ekstrand-Abueg诉Pavlu f·迪亚兹和t .酒井法子,“Trec 2013时态总结”学报》22日文本检索会议(TREC的13)美国,马里兰州,2013年11月。视图:谷歌学术搜索
“基于知识的加速,”2013年,http://trec-kba.org/。视图:谷歌学术搜索
“Kba数据,2013年,http://s3.amazonaws.com/aws-publicdatasets/trec/kba/index.html。视图:谷歌学术搜索
测试主题,2013,http://trec.nist.gov/data/tempsumm/2013/testTopics.xml。
问:刘,刘y, d .吴x Cheng“ICTNET时间汇总跟踪TREC 2013,”学报》22日文本检索会议(TREC的13),2013年。视图:谷歌学术搜索
g·约纳利,r . Guttikonda a Roegiest, o . Vechtomova“滑铁卢大学在2013年TREC颞总结轨道,”学报》22日文本检索会议(TREC的13)美国,马里兰州,2013年11月。视图:谷歌学术搜索

移动信息系统