话题检测与跟踪技术在Twitter上:系统回顾

文摘

社交网络是实时平台由用户涉及对话和互动。这一现象新信息时代的结果在一个非常大量的数据以不同形式和模式,如文本、图像、视频和声音。这种特色的数据也被称为大数据与5 v属性和在某些情况下也被称为社会大数据。找到有用的信息从这些有价值的数据,许多研究人员试图解决它为不同形式的不同方面。在文本的情况下,NLP人员开展了很多研究和科学作品中提取有价值的信息,如主题。社交媒体的许多启蒙作品在不同的平台上,像Twitter,试图解决的问题发现重要的主题从不同方面,利用它为不同的用例提出解决方案。Twitter在这个范围的重要性在于它的内容和用户的行为。例如,它也被称为第一手新闻报道社会媒体的新闻报道和通知平台甚至政治影响力或灾难性的新闻报道。综述文章中,我们将介绍50多个研究文章从Twitter话题检测的范围。我们也解决基于深度学习的方法。

1。介绍

话题检测与跟踪,也称为TDT),技术和方法用于检测消息或文档主题最佳拟合相关知识相关的材料并跟踪这些事件或发现主题通过专用的媒体。话题检测是一个总结问题,必须满足一定的要求。主题的总结标记集的输入文档不同于一个事件在大多数情况下是一个真实的现象有一定的空间和时间属性(1,2]。这个小主题和事件之间的区别变得更加清楚在谈到社交网络。识别媒体可以表示为正在进行的事件检测同时跟踪这些事件和故事板跟踪。这所谓的媒体可以是一个文档,组的多个文件,甚至是一个Twitter这样的社交媒体。话题检测与跟踪已广泛应用于文档,离线语料库,和新闻专线,包括试点研究从1996年到1997年,由运行(3]。

社会媒体等服务推特,脸谱网,Google +,LinkedIn在信息交换发挥重要的作用。在的情况下推特数据交换指标预测,7454条是每秒发送每天大约644025600条推讯(4]。该指标为2013 Twitter官员据报道超过500000000 /天(5]。这些大量的数据的重要性,有各种各样的主题,用户倾向于谈论涉及到光当研究人员透露,用户最有可能谈论在社交媒体网络比传统的真实事件新闻和写博客媒体。检测这些短信的话题可以描述洞察用户意见命名事件和现实世界的事件。

的一个新研究领域的TDT比赛已经开始,新社交媒体推特已经存在。推特本质上是由用户即时发送短文章微博。这些微博可以日常生活信息的用户,如“我吃了披萨!yaaay !”;重要信息从技术社会像“Ubuntu 16.10发布日期很快!”;甚至政治信息像“维基解密操作:克林顿的竞选邮件来自内部泄漏,不是俄罗斯黑客”。这些消息通常与特定标记词可寻址和fetchable。图1显示标签的一个例子推特。然而,大部分是这个标签没有显示所需的新闻和话题之间的关系,只有一个用户的角度和他/她的关系推特。一个消息可以投票而另一个与喂养鸭子和都标记为# DuckTales。可以解决此问题各种从大数据方面模棱两可从自然语言处理方面。此外,发现一个真实的事件与大体积和速度比找到一个事件的数据需要更多的研究选择和过滤数据集(6]。这个媒体的另一个问题是发布tweet的吵闹。这些tweet,不像新闻和知识文档,不是书面和包含拼写错误,语法错误,甚至是单词或词组像“yaaaaaay“这不是文学。表示这个媒体使负任务更加困难的问题。

数据挖掘和人工智能社区已经见过许多研究工作在这个范围显示承诺相比,利用对方。许多这样的作品是基于简单的袋的话当别人继续搜索模型概率主题模型还有一些寻找突然改变监控属性。常见的部分都是使用自然语言处理技术和方法,而不是人物等级随机n克模型。

这些方法来帮助完成探测和跟踪事件的任务,和主题在社会媒体流线等新兴回答几个问题如下:(我)在一个特定时间每个人都在谈论什么?(2)趋势是什么?(3)地球上的某个地方发生了什么?(iv)此外,动态回答问题的时间和空间属性与公共利益的增加。

为了找到这个范围最相关的文章,我们使用谷歌学术搜索学术搜索引擎。首先我们准备我们的搜索关键词,列出如下:(我)话题检测(2)Twitter话题检测(3)推特事件检测(iv)推特事件提取(v)Twitter话题提取(vi)Twitter话题跟踪(七)推特事件跟踪。(八)微博热门话题。(第九)Twitter热门事件

我们使用引证指标每年得到一个整体指标的每一篇文章的重要性,从一个学术的观点。我们使用一个阈值两个指标和消除每年不到两个引用的文章。的新文章,比如那些发表在过去的两年里,我们没有从列表中删除它们,即使他们每年不到两个引用。为了确保无关的文章从列表中被淘汰,我们阅读每篇文章的标题和摘要,消除那些不相关的评论标题。之后,我们根据他们的新奇的其他文章分类和方法。其余的文章是用来进行这项研究的。

这篇评论文章的组织结构如下:首先,部分2描述了推特作为一个服务。部分3现有的方法和模型进行了分类和阐述。节4预处理一般步骤,解释方法之间很常见。部分5细节和方法基于不同的分类的方法。部分6提供了一个通用的讨论数据和评价问题。最后,部分7总结了纸。

2。推特

Twitter是描述在当前部分及其各自的特点详细。节2.1这微博服务及其数据类型解释道。部分2.2讨论了负任务的细节障碍的Twitter。最后,在节2.3,社会大数据工具和详细解释。

2.1。推特的微博服务

推特作为最大的社会博客服务是世界上十五的网站,在美利坚合众国第九,已经超过6087240个网站联系在一起(从网站Alexa中提取)。其服务包括在推特网上发布短消息平台还允许用户跟踪发布短消息的其他用户后他们。这些短信被称为tweet可能包含一个GIF图像,包含140个字符的简短文本消息或少包括一些emojis或者只是文本,图像,或调查。所有这些部分列出的部分推特:(1)不超过140个字符组成的一个简短的短信,可以包含emojis(2)一个图像(3)GIF描述短的短信,感觉,或其他(4)一个调查问题与答案(只有一个预定义的最后的三个部分推特可以使用)

Twitter允许用户与其他用户交流各自的社交网络,这些tweet。他们可以分享他们的想法、感觉、轮询的问题,图片,和其他没有矛盾的规则。在Twitter上发布的一条微博可以被其他用户默认情况下,除非用户改变他们的隐私设置,使其可读的只有追随者列表或特定的人。

一个提到或回复微博可以通过用户名之前使用“@”符号。这些回复或提到创建更多的社交网络服务,帮助用户进行交互并回复对方。转发也是Twitter的另一个功能,允许用户重新发送或者其他用户的微博转发给各自的追随者。标签也是Twitter的另一个特性,帮助用户分类他们的微博使用“#”符号和单词相关发布微博;这种简单的关键字风格有助于微博检索和分类,也使用Twitter来检测热门事件。

Twitter还提供了一个应用程序编程接口(Twitter API),使开发人员和研究人员访问流媒体微博。这个流可以过滤掉的位置,特定的关键字,作者等。

2.2。Twitter对事件检测和跟踪任务的挑战

Twitter作为一个伟大的信息来源,在前面的部分中描述有巨大的信息检索问题,使事件探测和跟踪任务在其日益增长的社交网络更加困难。Twitter信息流通常包含大量的谣言微博已经由用户或垃圾信息散布者。这些寓言小说,而且在大多数情况下谎言tweet大大影响事件检测器和跟踪系统的性能。另一个问题出现在大多数的tweet都与日常生活相关的用户,也就是说,对自己的个人信息和日常活动。在某些情况下,比如选举,这些日常活动可以用来获取有用的信息,但在一般的事件检测的情况下,与其说他们是有帮助的。好的事件检测器和追踪系统,有必要单独的不规则和污染信息的有用的信息。

Twitter短消息的最大大小140个字符,这引发了另一个问题。这些短信必须分组或预处理时间流的tweet。事件探测和跟踪一般长文档和新闻专线是容易得多的稀疏和无关紧要的文件比短的博客Twitter等服务。大多数Twitter发布包含语法错误和拼写错误,难度比普通新闻专线。Twitter的用户生成的数据来源,主要包含了许多看不见的单词中只看到短信。作为这类单词和缩写的一个例子,我们可以命名这个词“OMG”相当于“哦,我的上帝”;这样的话用户经常使用和生成。用户也添加拼写错误和延长这些单词,导致一个非常不愉快的问题。

所有提到的问题也会添加到大数据大3 v模型各种的速度随着大数据体积生成,需要及时进行监控和跟踪处理。这个3 v模型更广义的5 v模型定义如下:(我)体积表示大量的统计数据流或生成。处理、分组聚类,使有用的信息的大规模数据在信息检索应用中是至关重要的,也在类似twitter的社交网络。(2)速度表明数据生成的速度或转让。流媒体和在线数据来源如Twitter拥有这个属性的实时信息提取应用程序需要适应这种速度。(3)各种称为不同的收集的数据从数据源中各种数据类型生成和收集处理。在Twitter的情况下,这个数据是不同的,因为用户生成的数据类型是不同的主题和事件。(iv)价值描述了从大数据来源信息提取的过程。它也被称为大数据分析,对于Twitter指出大型社交数据分析。(v)真实性指的正确性和准确性的信息从一个数据源中提取。它也被称为数据质量7]。这质量很差一些tweet(用户生成日常生活tweet),而富含Twitter新闻专线的情况下(如新闻频道相关的Twitter账户,只有文章丰富的tweets关于现实世界的事件)。

2.3。社会大数据工具

许多社会大数据分析工具对不同的应用程序,存储、数据库系统、集群计算、网络爬虫,数据集成、并行数据流和复杂事件处理是由不同的公司。这些工具简单对于今天的大数据分析当然Twitter数据分析。一些方法在本文使用这些工具,而其他人不:(1)Lucene是一个免费和开源信息检索java库的移植到其他编程语言如PHP、c#、c++、Python和Ruby。索引、搜索和推荐是这个工具的其他功能。它有自己的mini-query语法容易掌握,和它的性质可以帮助研究人员和信息检索行业使用它作为一个自由和开放源码Apache基金会工具(8,9]。(2)Apache风暴是另一个免费和开源实时计算系统。它能可靠地处理无限流的数据实时应用程序。它是简单的,可以用于任何编程语言(10]。(3)NoSQL数据库MongoDB是用来存储和检索等大尺度的任何数据和大数据属性。社交数据存储和检索需要NoSQL数据库来执行计算任务(11]。

可以使用其他工具和编程语言在这个特定的工作,但社会大数据的主要性能要求的描述工具的相对论。

3所示。分类的方法

现有方法进行事件探测和跟踪任务在Twitter可以基于不同的分类以不同的方式的观点。其中的一个分类,区分方法只检测和方法,检测和跟踪事件。一些现有的方法只有探测而其他人跟踪检测到事件,使故事情节发现主题的基于时间轴的tweet。第一个是也被称为主题探测器而另一个实现跟踪的重要性事件检测器和追踪分别的道明和美国东部时间。

另一个分类时提出不同的方法使用不同的Twitter的数据源。一些使用离线数据集进行检测和/或当别人利用在线Twitter API跟踪。这种区别的训练和测试数据采集部分算法提出了一个错误当比较性能和结果比较现有方法的准确性。

另外两个类别的事件探测和跟踪被称为回顾事件检测和新事件检测。这两个是缩写红色的和内德。红色的主要焦点是发现未知事件从线下数据集和文件虽然NED专注于寻找新的事件在网络数据流。对于负任务,这两个概念是广泛调查,许多研究已发表文章来完成这一任务。从Twitter的观点来看,事件发现算法可以NED或红色。迭代聚类算法等k红色则是一个常见的实践范畴。首先,文档、句子或短推特被选中作为一个实体和其他实体是相对于第一个;如果它是足够近的距离向量空间,然后合并形成更大的集群;如果没有的话,创建一个新的集群和这个对象分配给新的。这一过程持续进行直到所有对象(文件/句子/ tweet)完成。与红色相反,NED没有任何初始查询或集群;因此,它必须提供一些新的或者旧的事件之间的决策规则。TF-IDF指标用于一些实践比较新的流和旧的。在某些情况下一个时间属性也添加到特定的时间传递时关闭集群;例如,三天后,没有进一步的推文被添加到特定的集群。

“新”和“回顾”条款属于document-pivot技术的算法设计调查文本相关对象的属性。这些技术旨在提供一些指标来计算相似对象的基于文本和语言属性。

在矛盾document-pivot方法,feature-pivot方法的目标是在检测流找到快速增长的财产。这个所谓的丛发性活动与上升的频率描述了一种新的事件偶然事件。例如,也许在Twitter标签使用频率大幅上升是由于新的事件发生或最近发生。

一些Twitter事件检测和跟踪方法使用预定义的用户或管理员信息的利益。这些方法被称为指定事件检测器。其他一些技术不需要任何关于事件的信息跟踪和检测并发现真实世界的事件,主题,它们的属性和事件的频率提高选择或相似之处。这两种不同的方法被称为指定的事件和未指明的事件检测和跟踪系统。

如本节所述,许多分类为事件检测器系统;这些分类缺乏的主要方法论部分算法。部分5.1描述了一种新的分类和解释现有的方法在这个分类。表1展示了一个列表的方法研究了通过这个手稿。


参考	检测方法	检测类型		检测任务		数据收集数据集	检测任务
参考	检测方法	事件	主题	红色的	内德	数据收集数据集	检测任务

(12]	朴素贝叶斯分类器		✓		✓	Twitter API,精心挑选的用户	热点新闻检测
(13]	基于BScore弓集群	✓			✓	Twitter API(线下)	灾难和故事检测
(14]	弓距离相似度	✓			✓	Twitter API	女性性功能障碍(第一个故事检测)
(15]	BNgram和TF-IDF		✓	✓		离线数据集	话题检测
(16]	交叉检查通过维基百科	✓			✓	Twitter API,维基百科	热点新闻检测
(17]	形式概念分析		✓		✓	RepLab 2013数据集	话题检测
(18]	FPM(频繁模式挖掘)	✓			✓	Twitter API	事件检测
(19]	FPM		✓	✓		超级星期二/足总杯我们选举	话题检测
(20.]	FPM(层次聚类)		✓		✓	话题从明确系统数据集	话题检测
(21]	FPM (TF-IDF &n3)改善	✓			✓	Twitter API	事件检测
(22]	GPU改善TF-IDF近似		✓	✓		离线数据集	话题检测
(23]	弓相似	✓			✓	离线数据集	话题检测
(24]	字嵌入					SemEval数据集	Twitter情绪分类
(25]	时空的检测	✓		✓		离线数据集	Targeted-domain事件检测
(26]	聚类的时间和空间特性	✓		✓		Twitter API	事件检测
(27]	地理规律估计	✓			✓	Twitter API	地理事件检测
(28]	弓集群	✓			✓	Twitter API	事件检测与分析
(29日]	概率建模	✓			✓	Twitter API	早期灾害检测
(30.]	FPM	✓		✓		离线数据集	事件检测
(31日]	心跳图	✓		✓		超级星期二/足总杯我们选举	主题/事件检测
(32]	增强的心跳图	✓		✓		超级星期二/足总杯我们选举	主题/事件检测
(33]	句子伯特/流图挖掘		✓	✓	✓	超级星期二/足总杯我们选举	主题/事件检测
(34]	万能句子编码器		✓	✓	✓	COVID-19数据集	COVID-19主题
(35]	TF-IDF CCA, BTM		✓	✓		Twitter API	趋势排名
(36]	LDA、使用和SBERT	✓		✓		COVID-19数据集	COVID-19主题
(37]	Autoencoder和模糊c均值		✓	✓		Berita	趋势排名

4所示。预处理

数据预处理在数据挖掘相关的应用程序是一种常见的实践也不可避免的在推特事件检测任务。这个任务包括部分如数据标准化,消除噪声数据,修正案。NLP任务需要语法正确的文本与某些属性。预处理是一种社会大数据分析的主要部分的子任务。像之前描述的那样通过Twitter短消息通信服务需要处理准备进一步的事件检测计算。删除停止词和标点符号是一个至关重要的步骤,预处理的自然语言处理相关数据挖掘任务(38]。识别url和emojis也是必要的。正则表达式可以用来检测短信中的url。

在某些情况下,阻止也申请统一处理单词虽然non-target-language单词也在这一过程中消失了。消除non-target-language单词有助于提高提取主题在目标语言。标记化预处理的另一部分,给每个单词在推特独特的令牌。这部分预处理更重要TF-IDF(术语Frequency-Inverse文档频率)相关模型。

一些方法如EvenTweet(26]使用WordNet [39)检查作为预处理的一部分。这WordNet字典查找提高预处理输出的正确性;因此,没有英语,不正确的单词将被用于事件探测任务。俚语词翻译还用于用户生成单词翻译成正式的意思。NoSlang网站也是一个常见的工具,这个任务(40]。

常见的信息检索过程从Twitter或其他在线网络数据源需要特殊的预处理技术。这些技术之一是消除不必要的和没用的字符集如HTML标签。有时这些没用的字符集似乎有用(编码和关键信息的相关数据)。空格和标点符号,也称为空白需要解决。这些事件的一个例子博士学位。有歧义的句子;另一个例子是5.79美元。

一个干净的主要概念和明文字标记和词的类型。第一个是指屈指可数的单词出现的次数而后者意味着一个独特的词表的条目词汇表列表。文本分词是自然语言处理的任务旨在分文字和给他们独特的数字在句子后将被用于阻止或词性标记等任务。

如到目前为止所讨论的,预处理是一个重要的和不可避免的任何自然语言处理算法的一部分,和Twitter的负的任务也要求。

5。在推特事件探测和跟踪任务

事件检测和跟踪任务,Twitter是一个调查研究的问题。本节提供细节的方法应用于这个问题。

5.1。事件检测在Twitter:方法论的分类

事件检测和跟踪在大多数情况下是由已知的数据挖掘方法,之前已经使用在不同的地区。这样的算法和方法结合NLP技巧来获得更好的结果在测试过程的算法。在本小节,我们试图为这个任务分类现有算法对他们使用自然语言处理和数据挖掘的方法。

5.1.1。袋字方法

包容这一类主要使用的方法指标提取最后一个话题相关的微博,和任何其他一个句子的特点和它的词性标记是忽视。术语Frequency-Inverse文档频率,缩写为 ,是一种常见的度量在大多数主题检测或提取方法和描述为(1)和(2)。分别和在这些方程指词和文档,在后者的情况下可以被假定为一个文档包含超过一条微博,也许两个tweet或者只是一个微博也可以称为一个消息。此外,代表数出现的术语在文档/消息而表示计算文档/至少有一个发生的消息。

用于利用相似性度量比较两个单独的微博(41]。这种相似性度量中描述(3)作为得分函数组新消息;一个消息,不属于任何集团被认为是一个新组。新组织填充的顺序分类的新消息关于得分函数。为了避免无关的消息第一个一分之一组,所有消息比较第一个消息和顶部k消息。

另一种方法描述(12)代表了一种新的架构新闻相关的负任务从Twitter。在此体系结构中,利用余弦相似性度量以及TF-IDF tweet的代表来完成这个任务。推文之间的这种相似性度量计算t和集群c。方程(4)显示了相关的数学表达式。特征向量的和得到了来自模型的消息。高斯衰减器是应用于这种相似性度量将时间维度的影响集群。这个重量确保没有旧的集群和信息被扭曲。这种架构利用手选择用户最有可能发布新闻和采样和跟踪系统。

的BNgram模型中引入[15]随着情绪分类和词性标记形成一个热门话题检测系统。BNgram模型研究相似41有一些小差异,暗示刺激因素。如果这个因子设置为1.5,那么语法模型拥有命名实体;否则,它是一个小的数字,和各自的模型不举行命名实体。基于nTF-IDF蟋蟀,所有微博都是得分,根据这些分数,然后聚集到各自的集群。这得分和聚类过程在时间窗口进行的,在每个时间步,推相关时间窗比较别人早已经发布。该方法已经被训练在一些精心挑选的数据集来自Twitter API的相关运动(2015年板球世界杯),医学猪流感(2015),和账单(土地征用法案)。频繁模式挖掘方法相比,这种方法似乎是一个简单的算法的软件实现良好的结果在某些情况下输出话题,可耻不表示为F-measure,精度,还记得,或任何相关指标。唯一的社会大数据工具,这种方法使用Lucene索引关键字。

“比伯没有更多!”在这些标准是另一篇文章的标题中使用简单的最近邻微博标签找到先前见过的不同事件和新的(16]。第一个故事检测系统利用维基百科的信息来源。维基百科是一个多语言,项目支持的网络,支持百科全书维基媒体基金会公开和基于模型的可编辑的内容。维基百科页面视图有助于找出如果最近发生一个事件或者它只是一个假阳性检测到该系统。简单的使用最近邻多个标签之间的微博和利用维基百科探测系统扩展到多流道的第一部小说。这个系统在相同的方式工作的单一处理流的第一个故事发现唯一的区别是在向量空间模型。推文之间的向量空间模型和维基百科页面检查如下:如果有新的事件发生时,它是作为选择用户反映在维基百科页面浏览量;如果是假阳性,没有选择视图Wikipedia-related页面上发生。

另一个第一个故事检测系统提出了(14]。该系统利用一个改进的版本的位置敏感哈希(激光冲徊化)内检测距离查询点Twitter的第一部小说。时间和空间边界狭窄最近邻查找问题。这个问题是当大量用户微博每天发布,目标是找出如果他们指出一个新的故事/事件或一个以前见过;存储所有的数据,找到最近邻之间几乎是不可能的。边界是指使用一个时间窗口,而不是计算所有数据从所有次空间跳跃点解决这个问题在有限数量的tweet。相似的微博相比之前的显示如果它是新的,和这个任务指南提出系统打开一个新故事或保持它原来的样子。

的另一种方式提取答案4 w问题,谁,什么,当,在哪里,提出了42它使用一种新的数据表示方法叫做命名实体矢量。这个数据表示的向量词向量集成作为一个混合向量获得的结果。

术语Frequency-Inverse文档频率(TF-IDF),结合组件的方法(CCA),和Biterm主题模型(BTM)是主要的方法解决35]。排名趋势的目的是要解决作者通过使用这些模型和特性。

5.1.2中。概率模型和分类器

概率主题模型和分类器在这一节中描述的用于模型和Twitter数据集或流线进行分类。提出了这些方法之一(23)使用一种称为NB-Text朴素贝叶斯分类器来满足这个要求。这个概率统计方法培训超过2600000 2010年人类发布在Twitter信息注释。这个数据集标签是用于培训和测试阶段。首先,叫做RW-Tweet分类器训练区分现实世界和non-real-world事件。Weka工具包(43]随着集群级别的特征提取是用来训练分类模型。这朴素贝叶斯分类器对集群中的所有消息作为一个单独的文档和使用TF-IDF指标作为特征。集群级别事件特性,比如时间、社会、Twitter中央,利用局部特征分类器。

TwitterStand是另一个系统提出的名字(12)集群事件的朴素贝叶斯分类器。这可以处理噪音和碎片。根据作者,噪声是集群不相关的真实世界的事件;因此,可靠的新闻来源种子用来代替普通用户,这会削弱这个系统。这种假设是真的当新闻来源实时发布新闻,但是社交媒体的性质证明,用户才是真正的人碰巧事件或灾难的一部分。另一方面,分裂是指复制集群意味着同一事件。定期检查重复的集群系统上克服了这个问题。事件确定该系统的拍摄地使它更强大和更有用。

5.1.3。形式概念分析

形式概念分析已经被(17一种无监督的方式。RepLab 2013数据集44是用来评估这个系统。正式的概念从文学是一个众所周知的方法寻找数据之间的关系几乎隐藏在它的本质。这个关系可以定义对象之间和它们的属性。程度上:如果我们看到一个为一组对象(项目集),然后它被称为一个程度意图B:如果是一组设定的所有属性,那么它被称为意图

以这种方式正式概念分析是形式化的扩展和意图来找到最相关的物品,拥有分享的重要属性。

在[17),微博被视为对象及其术语属性,这使得这种方法非常相似的描述部分5.1。4FPM方法。该方法试图找到概念格在非结构化数据的tweet,显示良好的可靠性和灵敏度。一组微博提出的这项工作是假定为对象设置在术语(词)的属性。关系表示一个词被用于一个tweet。正式的概念格的概念提取显示主题。这些概念的一些被丢弃有更好的话题。小概念格和条款是可计算的,这种方法虽然大语料库的大小和tweet和大量的术语会导致一个巨大的晶格。在这种情况下,一个术语选择策略需要缩小这个问题。大多数共享属性选择策略下降至少共享属性(条款)。这个版本的算法利用平衡项每个属性的频率。这个词的频率显示一个阈值的选择应该使用哪个词在概念格。在每个迭代中,接受最高选择,对象(tweet)少于两项属性被丢弃。最后一次迭代的输出最高的属性调整策略和对象,拥有他们。实际上这个框架的最后一步是使主题的晶格。然而,前一步降低了潜在的概念格是候选人的最终主题。稳定的概念一直在以前提出(45]表明多少概念意图在程度上取决于对象可用。这种还原与保持稳定,有助于形成话题。

5.1.4。频繁模式挖掘方法

频繁模式挖掘方法已经被应用于在Twitter的负任务。频繁模式挖掘(FPM)表示,它的名字是数据库中寻找频繁项集的概念或任何相关的数据存储。一个简单的例子,这些频繁的重复模式被描述为一组咖啡和甜甜圈,在大多数情况下买在一起(46]。

在[19],FPM算法介绍了Twitter相比离线数据集和其他相关的研究。FP-growth与小修改,利用相似性度量算法应用于形成一组相关的微博,形成一个主题。同现模式项大于两个构成主要贡献的工作。三个阶段的主题提取方法项选择,cooccurrence-vector形成和后处理。第一阶段的可能性表明发生在语料库是主要问题。一个概率等获得在这个阶段,一个新的语料库和语料库这个引用,这可能是与的比率。这个比例是一个度量来展示一个术语频率发生变化。更高的比率意味着更高的频率出现,因此这学期可以出现在最后的主题。下一阶段构造和矩阵,后来用于频繁模式挖掘。矩阵展示了许多方面出现在多个文档中展示了多少次这个词出现在几个文件。余弦相似性这两个矩阵表明一个术语适用于添加最后一个话题。乙状结肠函数是用来限制这种相似性,像一个阈值。最后阶段的这个算法是一个清洁阶段去除重复的主题。

此外,类似的方法,介绍了使用FPM探测来自Twitter的社交活动(21]。在第一步,最相关的当前设置的tweet选择通过出现的可能性最高。这一步后,软版FPM利用乙状结肠作为阈值计算相似度。等社会方面 , ,和介绍了评估系统的性能。这个系统上执行Twitter简化生活。

破裂模式挖掘的概念,介绍了(20.)是用于构造破裂主题用户与其他各种特性图。这些特性是微博数量,转发率,应答率,用户数量,重叠的用户比例,大用户比,破裂的数量,破裂的时间间隔,破裂的时间间隔。宏观和微观破裂模式被定义为波纹管作为这项工作的主要贡献。

宏观破裂模式是找到所有集群在BT转基因是一个破灭的主题集,和完成这个任务之间的距离测量功能的使用。

微破裂模式是找到所有用户图子图这样。

该算法首先发现包含所有频繁的边缘,和使用(深度优先搜索算法),子图延伸算法消除节点不满足支持阈值( )。延长子图算法执行递归扩展频繁子图。

关联规则挖掘支持)是另一个频繁模式挖掘的方法已经用于在关系数据库中(18Twitter)来检测事件。陆军研究实验室有两个部分:前提和结论。前期是一个项目,发现在数据中的一种顺向是一项结合前期(47]。这些可以被称作如果/那么(前期/顺向)模式的标准支持的帮助下确定最强大、最重要的物品在数据之间的关系。在[18),两个主要方程用于匹配规则对他们的相似性;他们采用(48]。新兴的规则作为这项工作的贡献提出了确定突发新闻。我们选举数据集被用来评估拟议的方法显示好的结果F-measure而言,回忆,和精度。

跟踪动态文字的图,或句子转换成图表示,并试图了解里面的峰值,是一个非常有用的方法。心跳图模型,引入了(31日),其增强版(32)都是基于这个事实。他们用图表分析来检测新兴事件从Twitter使用基于图的制定和数据流的峰值检测。这个峰值检测,叫心跳模型是一个数学公式的矩阵分析检测活动期间从Twitter社交媒体。

是5.1.5。信号Transformation-Based方法

基于信号变换的方法,如傅里叶和小波变换,应用光谱分析技术对特征进行分类为不同的事件属性。DFT(离散傅里叶变换)方法被应用在49)将破裂在时域频域。这只显示一个突发的事件,而不是它的时期。因此,识别时间的混合高斯模型应用了这些特性。在傅里叶变换(5),是可逆的,其导致的逆变换函数在(6)。

与这些先决条件已知,占主导地位的时期光谱可以进一步解释;这一时期被认为是在指定的频率达到最大活性,或者换句话说,它是丛发性。这些规范诱惑的作者(49对所有功能分为四个主要类型进行分类,HH, HL、LH和我(第一个字母显示主导功率谱,第二个字母表示占统治地位的时期,H意味着高和L意味着低)。检测脉冲周期特性是通过高斯混合的援助。

文献[30.)提出了一个新的在线事件检测器在新闻来源与利用统计的重要测试n词频蟋蟀在一个时间框架。三个定义的原稿文本数据流,字母,时间框架,分别描述为一个序列的文本样本这是按(时间),英语单词(如“总统”和“咖啡”),和一个时间范围从到最后在形式的。在这个术语,描述一个事件是源文本流的变化是惊人的增长n蟋蟀的频率。计算值n克假设给出一个清晰的了解零假设的正确性,说明“两个人文本数据集从一个源生成的两个时间框架”。由于巨大的各种各样的n克,后缀树也提出了存储n蟋蟀。计算频率存储在这个新的数据结构,算法,另一个运行在树计算和存储值。

集群的离散小波信号生成的单词从Twitter还在使用的另一种方法50]。本地化与傅里叶变换,小波变换在时域和频域,因此能够识别时间和突发事件的持续时间内的信号。小波信号变换变换域信号从时间域到时间和规模。小波家族中定义

小波能量、熵和H-measure也其他离散小波变换部分,关于信号的有用信息。H-measure规范化Shannon小波熵,显示了信号在不同尺度的分布。被提议的EDCoW与聚类算法(事件检测的小波信号)有三个主要组件的信号施工、互相关计算,和modularity-based图分区。

第一步计算DF-IDF (DF不是TF,这意味着文档频率而不是词频率)所示以下方程:

加薪DF-IDF指标也反映的提升小波熵的度量。使用两个不同的信号的互相关组单词/条款发生一起在他们的小波熵增加,这意味着这些术语已经被使用在一个以前见过的话题提高或发生事件的候选人。这种聚类方法适用于信号转换检测。模块化的稀疏矩阵形成的最后阶段聚类加权矩阵来检测事件的工作。这个矩阵被称为和的形式在这是顶点,边,图的重量吗。

一个类似的方法是(51它利用LDA和标签出现。这种方法不同于(50),使用标签来建立小波信号。LDA用于形成最终的主题模型。另一个区别工作和(50]是提取事件的总结,完成了LDA的帮助主题推理和似乎展示出了一些有希望的结果,但切断了微博数据,减少标签。减少伤害的算法,但提高它的速度比后者。

5.1.6。Geoevent检测方法

前面描述的方法试着回答这个问题“发生了什么?“不过,还有一个问题有待回答:“这里发生了什么?“地理位置事件表达见解的一个检测到的事件。在[25),提出了一种时空的事件检测方案;它检测到事件及其发生时间和地理位置。一些定义之前需要知道进一步的描述算法;这些定义是时空的事件和文章。

时空的事件是一个真实的事件发生在位置和时间这是用。域是设置适合的事件分类,比如音乐和民间。

文章可以打开或关闭的目标域。一个封闭的等物品表示一篇文章相关的话题 ,和从这篇文章可以是一个新闻报道。

这个手稿表明两种类型的微博分类以分类tweet有关/无关的事件。一个积极的推相关微博事件,相反负面微博只是一个无关的微博事件。这个设置,我们可以深入的概念标签。推特标签的三倍 ,在哪里表示事件,显示相关微博表达无关的微博。标签生成的任务分类标签/相关的特定主题也与事件无关。这一步完成后,下一步的工作是时空的事件检测。这最后一步的输入给出一组标签在一个特定的主题,从上一步和在线实时Twitter流和输出事件集的目标域发生或发生的位置在时间。

第一步的工作包括特征提取和相关性排名。相关性排名排名推步基础上如何与事件相关的文本和空间相似。这些排名功能由微博分类器,然后使用一个基于svm(支持向量机)分类器。事件位置估计是这个方案的最新举措来估计实际位置机密消息。

泰达是另一个时空的事件检测系统最初提议在28]。这个系统有三个主要阶段:检测新事件,事件排名根据他们的重要性,并生成空间和时间模式的检测和排名最高的事件。利用Java和PHP和MySQL使这个系统还利用Lucene, Twitter API, Google地图输出最终的用户友好的输出。犯罪与灾难相关的微博这个系统。基于查询使用Twitter API的应用获取tweet。查询需要一套规则,所以一些简单的规则用于获取tweet,后来这些规则填充的帮助下获得tweet。Twitter和犯罪或灾难的基础特性帮助下一阶段的这一系统将获得的微博;这种分类器的准确性作者指出。这个计划的最后阶段使用内容,用户和使用相关特性来检测事件的等级,同时前一阶段重点是猜测用户的位置。第一个假设是,用户的位置是在他GPS-tagged tweet是否有;如果不是,他/她的朋友更有可能接近他。最后假设说他/她的位置在他的微博中提到的至少一次。这个位置猜的主要问题之一是,在第二和第三的假设的情况下,提取的信息可能是假的。

社会传感器的概念被用于(29日)提出了在Twitter找到真实的灾难的位置。事件根据作者的定义是一个任意的分类空间/时间区域。作为早期的方法,这个方案还利用支持向量机作为分类器有三种特征类型,B和C,分别被称为统计,关键字和词上下文特征。每条推讯是一个感官价值,和用户的传感器方案。他们推特事件,这意味着他们是传感器和感觉值都发布tweet。本报告有助于检测实际地震等灾害的影响。这种假设的真正的问题是有可能的错误当用户帖子无关的声音似乎相关;这些根据作者的一个例子可以这个推特:“我的老板是与某人握手!“摇晃作为主要关键字用于推但这并不意味着地球是摇晃的。其他功能之前的部分做出错误的可能性较低,但仍有机会。 Two spatial and temporal models are proposed to clarify the assumptions. These models rely on tweet time stamp and GPS stamp. The evaluation and experimental results show that the system shows over 60 percent accuracy on two related queries. This valuable system is used as an earthquake warning system in Japan that in time can save lives of several people.

5.1.7。基于深度学习方法

转移学习专门NLP的深度学习和使用新方法和变压器等方法使研究人员能够使用pretrained模型对各种问题。话题检测与跟踪从Twitter也是这些问题,研究人员试图通过转移来解决学习伯特等建立模型。TopicBERT是这些方法,利用语义相似性结合流图伯特矿业(33]。建议的体系结构由一个深命名实体识别模型(52),一个图形数据库来存储节点,一个语义相似度提取工具(SBERT)。整个系统在组合工作方式不同部位不断尝试更新底层图形数据库,和一个提取系统使用集群的概率和概率的话得到了主题。这个系统比最先进的方法在三个不同的数据集,《变形金刚》的第一个方法,用于从Twitter话题检测与跟踪。

结合语义向量表示的tweet的聚类算法是研究的另一个方法(34]。作者表明,利用良好的语义特征提取器在密集的向量形式可以安静的有用的处理问题,如主题检测。他们利用COVID-19数据集来自Twitter和发现主题相对。另一个类似的方法提出了COVID-19 [36]。作者提出使用句子伯特和万能句子编码器(使用)基于情感分析结合LDA话题检测。

Autoencoder基于模糊c均值算法,37]。Autoencoder用于表示,微博虽然模糊c均值聚类方法的一部分。作者报告他们的研究结果在Berita数据集是一个印尼从Twitter消息数据集。

利用这些方法,这些都是基于深度学习,是NLP的新领域,特别是转移学习基础的使用变压器的语义理解文本。这种语义理解是失踪的其他方法的一部分。各种方法所使用的语义聚类可以用不同的单词分类文本到一个集群是否有意义。语言模型和pretrained变压器基础架构,可以捕获语义相似度如SBERT和使用这些方法的成功例子。这些方法是众所周知的能力理解复杂的句子。在使用的情况下,它甚至可以从不同的语言相互匹配的句子如果他们携带相同的语义。方式相比,基于学习的方法,这些方法提供一种语义的方式在Twitter的负任务。

5.1.8。性能改进

最近建模数据图像和处理图形卡片上构成一个非常有用的视图系至少数据处理和获取实时或接近实时的结果。之前被描述,TF-IDF已经使用广泛用于TEDT任务。紧固方法数据处理提出了(22)使用一个近似方法求出TF-IDF指标。类似于FPM方法(部分5.1。4),它使用一个事算法来发现频繁项目(微博)。描述算法的灵感来源于[53]。

这个算法的第一步是找到最频繁项集。如果我们假设B组包含所有的有序对,下一步是减少这些项目的id或仅仅添加对具有相同id。最后一步是把他们总计算项集,结果将TF。这个算法的整个过程可以并行运行在一个专用的GPU,赋予它更多的计算能力比普通cpu和更适合实时计算dt的任务,因为其他算法在这方面薄弱和大部分适用于离线数据集。

5.1.9。深度学习短句子情感分类:Post-TEDT阶段

算法和机器学习方法的主要区别,本节中描述不探测主题或跟踪Twitter上的事件。相反,他们可以推荐后事件或话题检测阶段的整体人气用户平均在检测到的话题。这个输出可以给伟大的分析信息。算法、机器学习道路和神经网络分类分段post-topic /事件检测步骤关于深入学习。

最近,新兴的深度学习方法在NLP任务,短句子分类和情感分析这些句子的主要变化的方法和应用。深度学习,就像他的名字所暗示的,允许计算模型为数据表示有很多抽象层(54]。提高统一架构的多层神经网络为NLP任务似乎是一个有前途的方法来解决许多尚未解决的问题在这个范围55]虽然字嵌入这样的手套56]和Word2Vec [57]建议新的向量表示的单词还拥有专门的情感属性词和可以应用的矩阵微积分。

情绪分析短句子已经被许多研究者关注的短句等许多方面(CharSCNN) [58]。另一方面,不同的语料的特点从Twitter获得领导的研究人员找到新的情感分析算法在Twitter和句子分类任务主题和事件探测的基础在Twitter上使用这些新的研究结果。

像其他字嵌入算法,CharSCNN在第一层编码输入单词转换成向量代表不同的单词。任何词如W被编译成一个向量在以前层分离的角色,和每个字符编码成另一个向量等。矩阵向量乘法的集合给了为每一个字符,字符嵌入这一层。句子水平表示和应用评分中描述字符和单词的水平。CharSCNN被应用到两个截然不同的短句影评和推文字嵌入的数据集的大小30。

Sentiment-specific字嵌入Twitter情绪分类,提出了(24)使用英国大东电报局的方法(59]。三种不同的神经网络( , ,统一的模型 )在这个手稿提出了不同的策略来克服Twitter情绪分类的任务。

5.2。指定与未指明的

根据可用的信息事件被检测到,事件检测方法可分为指定或不明。未指明的方法主要依靠检测时间Twitter等破裂或趋势的迹象。这些方法没有前一个事件的信息,因此他们需要基于丛发性属性相对事件进行分类和聚类。指定事件检测系统,与以往不同的是,需要一些信息的事件发生时间、类型、描述和场地。这些特性可以利用适应传统的信息检索和提取技术(如过滤、查询生成和扩张,集群、和信息聚合)推文的独特特点。第二部分基于这个术语分类现有的方法。

5.2.1。未指明的事件检测

用户驱动的Twitter短文章有时包含非常重要的信息发布的关于现实世界的事件由用户在新闻媒体网站和电视/广播频道。这些简短而重要的职位是未知事件检测器系统并不是由任何预定义的主管。加薪在Twitter时间和信号模式可以揭示这一事实。例如,突然,意想不到的提高使用关键词或标签可能显示突然吸引这个话题,可能揭示一个真实的事件。发生歧义,由于这个设置,一些关于日常生活中频繁的标签和关键词tweet检测到看不见的和新事件。高效的未指定的事件检测算法必须处理这种模棱两可。

在[60),提出了事件检测系统称为TwitterMonitor。TwitterMonitor识别新兴主题实时Twitter和提供有意义的分析信息,可以进一步用于提取主题检测到的事件。一个StreamListener听Twitter API的数据流和检测热门的关键词;这些关键词分组,连同一个索引传入趋势分析模块。所有描述步骤的后端系统,同时用户界面总结了所有的信息,并且给用户。AllTop)等其他实现Radian6,童子军实验室,Sysomos自己,网站和TwitScoop用户界面代表收集的信息从不同的社会媒体,新闻专线和其他数据流前端用户。

TwitterStand是另一个电子媒介,利用朴素贝叶斯分类器,将新闻从无关的用户生成的微博12]。余弦相似性度量以及TF-IDF重分类清洗事件。突发新闻检测系统也适合这个范围曾经描述(41]。这种方法收集、组织、地位与跟踪突发新闻从Twitter通过抽样tweet和索引使用Apache Lucene。

第一个故事检测(FSD)系统提出了(14)使用基于排名算法的线程分配一个新奇的分数tweet,然后集群tweet基于余弦相似性。每个tweet是分配给一个线程如果接近tweet的线程;否则,一个新线程是由这个新类别。更大的相似性阈值导致薄类大多是相同的脂肪含量虽然较低的阈值结果线程。

5.2.2。指定的事件检测

事件检测术语删除指定问题”正在发生什么?“它只是倾向于找到“”或“”时发生。第一个查询是系统的一部分,而后者部分尚未回答。

研究人员的Yahoo !实验室(61年]试图找到有争议的事件,用户倾向于怀疑或反对意见。有争议的事件检测是检测的过程事件和排名根据他们的争议。作者提出这个任务的三种模式:直接模型,两步管道模型,两步混合模型。直接模型分数事件基于机器学习回归算法为基础,两步管道模型检测事件的快照,然后根据分数的争议,和软模型描述的一个是两步混合模型。基于Twitter消息buzz和新闻和网络争议功能是本系统所使用的主要特征类。这个系统是用户负面意见挖掘而不是一个事件检测系统虽然还检测到事件基于实体的查询。

同一作者的61年)描述另一个系统(62年),也从Twitter中提取描述符的事件。梯度监督机器学习的方式提高了决策树是用来形成两个主要模型,作者描述:EventBasic EventAboutness。

许多其他方法归类为本节前面所描述的,累积的方式在表放在一起1。

5.3。无监督和监督

在监督和非监督机器学习算法训练时装。这意味着可以使用带安全标签的数据和完成训练任务分配的机器学习算法学习的标签标记数据,而在无监督方法,它是通过学习未知的分类数据标签后得分。无监督的机器学习算法在学习方面有困难的工作与未知的标签。本节描述了Twitter的无监督和监督算法TEDT任务;前面几节中描述的其他算法被丢弃。

5.3.1。无监督算法

推特事件检测算法,使用非监督机器学习概念主要依赖于聚类算法。如前所述,内德是一个术语用来识别新的事件检测系统,与红(回顾事件检测),检测和识别新事件,而后者一个检测和识别指定的事件。无监督方法是高度推荐的任务需要集群的未知类别符合NED域。此外,没有先验信息类的数量分类,因为用户活动在社会网络的动态特性。

5.3.2。监督算法

监督分类的聚类算法,需要带安全标签的数据时用户生成真实事件到红色范畴有密切的关系。如前所述,红色的算法倾向于已知的事件而监督分类需要带安全标签的数据时在训练阶段。这个术语有许多缺点在实际应用,如事件检测系统。一个系统,目的是发现和跟踪真实事件不能被训练以监督的方式;这是因为未知的事件,然而,缺乏信息的数量和实体。

6。数据和评价问题

Twitter的性质具有非结构化和无标号数据流,可以在线或离线来源获得。推特网上数据源是Twitter API,离线数据离线Twitter数据来自不同的快照。这些快照拥有更好的性能评估算法或系统之间的差异,旨在发现事件或话题在Twitter上。评价一个在线推特事件提取系统是可行的,如果输入数据记录是相同的输入数据快照。

事件检测和跟踪算法的另一个缺点间接与前面的问题,事件检测时间。假设两个算法或系统等和都有相同的精度和召回寻找事件和跟踪Twitter上的数据快照但有不同的检测时间。检测时间被定义为时间的典型算法来检测和识别事件并跟踪他们。如果这些时间(即与时间复杂度)是相同的,我们可以假设两种算法是相同的,但在不同的时间的情况下,应该使用实时算法和优先。这个指标不报告任何作品的研究手稿,但似乎必不可少的步骤定义一个实时事件检测和跟踪系统。在离线的情况下系统,这个指标并不重要。

前面描述的评价问题严重影响评价的过程。美国国防高级研究计划局(DARPA)竞争的结果发表名为“DARPA推特机器人挑战”(63年]。这次比赛的选手是信息技术产业的大公司(SentiMetrix、IBM、南加州大学、DESPIC b .融合技术)。一个数学评分系统用于得分选手创造的机器人。方程(9)定义了这个评分系统。这次比赛旨在创造机器人可以识别假用户(机器人)在Twitter上发布和创造的影响。然而,这项研究的相关性是很重要的,这是有关事件检测和跟踪系统,因为评分系统用于这种竞争是一种常用的人工智能相关测量系统也指出速度。

一个相关的事件检测系统根据评分系统(9可以提取)。速度完全相同的方式在评价事件检测系统也用于(64年)测量系统的质量。

表里不一的检测到事件或话题也是另一个缺点。Misdetection事件和识别也不足现象也构成一个巨大的问题。这个问题具有更大的线程的原因是一个实时灾害通知系统可以被愚弄和误测灾难甚至不检测。

记住所有这些,一个评估/ TEDT评分系统需要大量的点击率,错过,回忆,精度和速度计算一个特定的数据快照的Twitter。否则,系统不能相互比较。一个典型的评分系统可以被称为10 作为权重。其他成绩和是算法的精度和召回数据集。

7所示。结论

Twitter作为一个最大的社交网络和微博服务允许用户发布和分享他们的想法,日常生活的文章,新闻真实的事件。这些用户的帖子相关事件是真实的事件和一些谣言,意义,和情节的信息。展开这些真实世界的事件和从Twitter中提取他们需要实时系统具有高准确度和精密度。评价系统面临着许多问题,如数据和评价指标问题。在本文中,我们研究了一些TEDT系统旨在发现,发现、提取和跟踪真实事件从Twitter也描述与评估这些系统相关的问题。许多分类提出了分类这些算法和本文提出的方法;此外,另一个分类方法的基础上,本文中的算法提出的依赖。最后,本文讨论了postdetection方法论提出了深度学习短句分类,经过检测的事件是非常有用的。

的利益冲突

作者宣称没有利益冲突。

引用

j·艾伦,介绍主题检测与跟踪施普林格,柏林,德国,2002年。
j·艾伦,话题检测与跟踪:基于事件的信息组织》12卷,施普林格科学与商业媒体,柏林,德国,2012年。
d·j·艾伦·j·g·Carbonell乔治j . Yamron和y杨”话题检测与跟踪试点研究最终报告,”美国DARPA广播新闻转录和理解车间,页194 - 218年,兰斯顿,弗吉尼亚州,美国,1998年2月。视图:谷歌学术搜索
Twitter使用的统计数据,2017年,InternetLiveStats.com。
推特微博每天统计,2013年,https://blog.twitter.com/2013/new-tweets-per-second-record-and如何。
m . James m .崔b .布朗et al。大数据:下一个前沿创新的竞争,和生产力麦肯锡全球研究所,2011年纽约,纽约,美国。
g . Bello-Orgaz j·j·荣格,d·卡马乔“社会大数据:最近的成就和新的挑战,”信息融合卷28日,45-59,2016页。视图:出版商的网站|谷歌学术搜索
a . Białecki r·穆尔。格兰特,“Apache lucene 4日”市立学报2012年研讨会开源信息检索2012年8月,波特兰,或美国。视图:谷歌学术搜索
Apache UIMA Apache软件基金会,2011年,https://java.apache.org。
Apache, Apache风暴,2013。
MongoDB, MongoDB, 2013。
j . Sankaranarayanan领导h·萨梅特b . e . Teitler m·d·利伯曼和j·斯珀林,“Twitterstand:新闻在微博”第17届ACM SIGSPATIAL学报》国际会议上先进的地理信息系统页42-51 ACM,西雅图,佤邦,美国2009年1月。视图:出版商的网站|谷歌学术搜索
Phuvipadawat和t .日本村田公司“突发新闻在twitter的探测和追踪,”学报2010年IEEE /每各月ACM国际会议onWeb智能和智能代理技术(WI-IAT)IEEE,页120 - 123年,多伦多,加拿大,2010年8月。视图:出版商的网站|谷歌学术搜索
s . Petrovićm·奥斯本诉Lavrenko,“twitter流检测与应用程序第一个故事,”人类语言技术学报》:2010年北美协会的年度会议上对计算语言学,页181 - 189,计算语言学协会,洛杉矶,美国,2010年6月。视图:谷歌学术搜索
s d Tembhurnikar和n n·帕蒂尔,”话题检测使用bngram方法和情感分析twitter上的数据集,”学报》2015年第四届国际会议上的可靠性,信息通信技术和优化(ICRITO)(趋势和未来的发展方向),页1 - 6,诺伊达,印度,2015年9月。视图:出版商的网站|谷歌学术搜索
m·奥斯本s .罗维奇·r·麦克格雷迪、c·麦克唐纳和苧,”比伯不再:第一个故事检测使用twitter和维基百科,”市立学报2012年研讨会Time-Aware信息访问2012年8月,波特兰,或美国。视图:谷歌学术搜索
j . Cigarran。卡斯特罗,和A . Garcia-Serrano”话题检测在twitter的一步:FCA-based方法,”专家系统与应用程序卷,57 21-36,2016页。视图:出版商的网站|谷歌学术搜索
m . Adedoyin-Olowe m . m . Gaber c . m . Dancausa f·斯塔尔和j·b·戈梅斯”规则动态事件检测方法在体育和政治twitter的应用程序中,“专家系统与应用程序,55卷,第360 - 351页,2016年。视图:出版商的网站|谷歌学术搜索
g .佩特科维奇帕帕多普洛斯,l . Aiello s . Ryan和y Kompatsiaris,“软频繁模式挖掘的方法对文本主题检测”第四届国际会议上网络情报学报,采矿和语义(WIMS14)ACM, p。25日,塞萨洛尼基,希腊,2014年6月。视图:出版商的网站|谷歌学术搜索
g .董w·杨,f·朱和w·王,“twitter发现破裂的破裂模式的话题。“计算机与电气工程58卷,第559 - 551页,2017年。视图:出版商的网站|谷歌学术搜索
美国Gaglio、g . Lo再保险和m . Morana“实时检测twitter社交活动从用户的角度来看,“通信学报2015年IEEE国际会议(ICC)IEEE,页1207 - 1212年,伦敦,英国,2015年6月。视图:出版商的网站|谷歌学术搜索
国家地震恢复重建局美国,美国Senatore、f . Minnella和g . Caggianese”近似TF-IDF基于主题提取从巨大的消息流使用GPU,”信息科学卷,292年,第161 - 143页,2015年。视图:出版商的网站|谷歌学术搜索
h·贝克尔,m .乃缦,l . Gravano”之外的热门话题:现实世界的事件识别在twitter上”学报》第五届国际会议上博客和社交媒体卷。11日,页。438 - 441年巴塞罗那,西班牙,2011年7月。视图:谷歌学术搜索
d, f·魏:杨,m .周t . Liu和b .秦”学习sentiment-specific嵌入twitter情绪分类,”这个词美国52计算语言学协会的年度会议马里兰州巴尔的摩,页1555 - 1565,美国2014年6月。视图:谷歌学术搜索
h . Ting f . Chen l .赵c . t . Lu和n . Ramakrishnan”自动targeted-domain时空的事件检测在twitter,”GeoInformatica,20卷,不。4、765 - 795年,2016页。视图:谷歌学术搜索
h . Abdelhaq c Sengstock, m·格茨“EvenTweet:在线局部事件检测从twitter,”美国养老》第六卷,没有。12日,第1329 - 1326页,2013年。视图:出版商的网站|谷歌学术搜索
r·李和k . Sumiya”测量地理的人群行为规律twitter geo-social事件检测”第二届ACM SIGSPATIAL国际研讨会在基于位置的社交网络ACM,页1 - 10,2010年11月,美国圣何塞。视图:出版商的网站|谷歌学术搜索
r·k·h·r . Li Lei Khadiwala, k . c . c . Chang,“泰达:基于事件检测和分析系统,”学报2012年IEEE 28日数据工程国际会议(ICDE)IEEE,页1273 - 1276年,阿灵顿,弗吉尼亚州,美国,2012年4月。视图:出版商的网站|谷歌学术搜索
t .淡比m .冈崎,y松尾”地震震动twitter用户:社会传感器,实时事件检测”19国际会议的程序在万维网上ACM,页851 - 860年,罗利,数控,美国,2010年4月。视图:出版商的网站|谷歌学术搜索
t . Snowsill f . Nicart m . Stefani t . De Bie和n Cristianini说:““发现令人惊讶的模式在文本数据流,”学报2010年第二国际研讨会上认知信息处理(CIP)IEEE,页405 - 410年,厄尔巴岛,意大利,2010年6月。视图:出版商的网站|谷歌学术搜索
z赛义德,r . a . Abbasi a . Sadaf Razzak,和g .徐”文本流时序网络动态心跳图检测新兴事件在twitter上”程序的知识发现和数据挖掘的发展亚太会议知识发现和数据挖掘施普林格,页534 - 545年,墨尔本,澳大利亚,2018年6月。视图:出版商的网站|谷歌学术搜索
z赛义德,r . a . Abbasi Razzak, o . Maqbool a . Sadaf和g .徐”增强的心跳图对新兴事件检测在twitter上使用时间序列网络”专家系统与应用程序卷,136年,第132 - 115页,2019年。视图:出版商的网站|谷歌学术搜索
m . Asgari-Chenaghlu m . r . Feizi-Derakhshi l . Farzinvash m·a . Balafar和c . Motamed”Topicbert:变压器传输学习基础memory-graph方法多通道流社会媒体话题检测,”2020年,https://arxiv.org/abs/2008.06877。视图:谷歌学术搜索
m . Asgari-Chenaghlu: Nikzad-Khasmakhi, s . Minaee”Covid-transformer:使用万能句子编码器检测twitter上的热门话题,”2020年,https://arxiv.org/abs/2009.03947。视图:谷歌学术搜索
h·汗,纳西尔,k . Nasim d . Shabbir和a·马哈茂德,“Twitter趋势:一个排名算法实时数据分析,“专家系统与应用程序文章ID 113990卷,164年,2021年。视图:出版商的网站|谷歌学术搜索
k·加西亚和l·伯顿”话题检测和情绪分析推特内容与Covid-19来自巴西和美国,“应用软计算文章ID 107057卷,101年,2021年。视图:谷歌学术搜索
h . Murfi:罗莎琳,n . Hariadi“深autoencoder-based模糊c均值的话题检测,”2021年,https://arxiv.org/abs/2102.02636。视图:谷歌学术搜索
j . Leskovec a·拉贾和j·大卫·厄尔曼矿业的大规模数据集英国剑桥,剑桥大学出版社,2014年。
g·a·米勒,“WordNet”,ACM的通信,38卷,不。11日,39-41,1995页。视图:出版商的网站|谷歌学术搜索
NoSlang.com, 2017。
Phuvipadawat和t .日本村田公司“突发新闻在twitter的探测和追踪,”学报2010年IEEE / WIC / ACM国际会议上Web智能和智能代理Technology-Volume 3 WI-IAT 10,页120 - 123,IEEE计算机协会,华盛顿特区,2010年8月。视图:谷歌学术搜索
g·库玛和j·艾伦,”文本分类和命名实体新事件检测”学报》第27届国际市立图书馆会议在信息检索的研究与开发ACM,页297 - 304年,2004年7月英国谢菲尔德。视图:出版商的网站|谷歌学术搜索
m·霍尔·e·弗兰克,g .福尔摩斯b . Pfahringer p . Reutemann和i . h .威滕“WEKA数据挖掘软件,”ACM SIGKDD探索通讯,11卷,不。1,10 - 18,2009页。视图:出版商的网站|谷歌学术搜索
e .朋友j . c . De Albornoz i Chugur et al .,“2013年replab概述:评估在线声誉监测系统”课堂讲稿的程序计算机科学国际会议的跨语言评价欧洲语言的论坛施普林格,页333 - 352年,瓦伦西亚,西班牙,2013年9月。视图:出版商的网站|谷歌学术搜索
s . o .“库兹涅佐夫”“稳定的正式的概念,”上数学和人工智能卷,49号1 - 4、101 - 115年,2007页。视图:出版商的网站|谷歌学术搜索
c . c . Aggarwal和j·汉频繁模式挖掘施普林格,柏林,德国,2014年。
j . Hipp美国Guntzer, g . Nakhaeizadeh”的关联规则挖掘算法一般调查和比较,”ACM Sigkdd探索通讯,卷2,不。1,58 - 64、2000页。视图:出版商的网站|谷歌学术搜索
施m . j . d . r . Liu, c . j . Liau和c·h·赖“挖掘事件的变化趋势为决策支持环境扫描”专家系统与应用程序,36卷,不。2、972 - 984年,2009页。视图:出版商的网站|谷歌学术搜索
h .气、k . Chang和e . p . Lim“轨迹事件检测分析功能,”美国第30届国际市立图书馆在信息检索研究与发展会议ACM,页207 - 214年,阿姆斯特丹,荷兰,2007年7月。视图:出版商的网站|谷歌学术搜索
j·翁和b . s . Lee,“事件检测在twitter”学报》第五届国际会议上博客和社交媒体卷。11日,页。401 - 408年巴塞罗那,西班牙,2011年7月。视图:谷歌学术搜索
m . Cordeiro“推特事件检测方法:结合小波分析和主题推理总结”博士研讨会信息工程学报》上2012年1月,波尔图,葡萄牙,。视图:谷歌学术搜索
m . Asgari-Chenaghlu m . r . Feizi-Derakhshi l . Farzinvash m·A . Balafar和c . Motamed”命名实体识别的多通道深度学习方法从社交媒体,”2020年,https://arxiv.org/abs/2001.06888。视图:谷歌学术搜索
时期和b . Frola”频繁项挖掘GPU加速利用快速并行排序,“Procedia计算机科学9卷,第95 - 86页,2012年计算机科学国际会议的程序,可以。视图:出版商的网站|谷歌学术搜索
y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
r . Collobert和j·韦斯顿”,自然语言处理的一个统一的体系结构:深层神经网络与多任务学习,”美国25日机器学习国际会议ACM,页160 - 167年,赫尔辛基芬兰,2008年6月。视图:出版商的网站|谷歌学术搜索
j·彭宁顿、r . Socher和c·d·曼宁“手套:全球词向量表示,”学报2014年会议上实证方法在自然语言处理(EMNLP)2014年10月,多哈,卡塔尔,。视图:出版商的网站|谷歌学术搜索
g . t . Mikolov k . Chen拉和j·迪恩,“有效评估词表示的向量空间,”2013年,https://arxiv.org/abs/1301.3781。视图:谷歌学术搜索
c·n·多斯桑托斯和m•加蒂,“深卷积神经网络短的文本的情感分析,”科尔学报》2014年,25日计算语言学国际会议:技术论文,页69 - 78,都柏林,爱尔兰,2014年8月。视图:谷歌学术搜索
r . Collobert j·韦斯顿,l . Bottou m . Karlen k . Kavukcuoglu和p . Kuksa”自然语言处理(几乎)从头开始。”机器学习研究杂志》上》12卷,第2537 - 2493页,2011年。视图:谷歌学术搜索
m . Mathioudakis和n . Koudas Twittermonitor:趋势检测在twitter流”学报2010年ACM SIGMOD国际会议管理的数据ACM,页1155 - 1158年,印第安纳波利斯,在美国,2010年6月。视图:出版商的网站|谷歌学术搜索
a . m . Popescu和m . Pennacchiotti“检测来自twitter的有争议的事件,”19 ACM国际会议的程序信息和知识管理ACM,页1873 - 1876年,多伦多,加拿大,2010年10月。视图:出版商的网站|谷歌学术搜索
a . m . Popescu m . Pennacchiotti, d . Paranjpe,“从twitter获取事件和事件的描述,”20国际会议的程序的同伴在万维网上ACM,页105 - 106年,海得拉巴,印度,2011年3月。视图:出版商的网站|谷歌学术搜索
v . s . Subrahmanian, a .阿扎利亚美国敢et al .,“darpa推特机器人的挑战。”电脑卷,49号6,38-46,2016页。视图:出版商的网站|谷歌学术搜索
a·维勒,m . Grossniklaus和m . h .肖勒”社论:调查和实验分析twitter的事件检测技术”电脑杂志,60卷,不。3、329 - 346年,2016页。视图:出版商的网站|谷歌学术搜索

复杂性

集体行为分析和图挖掘2021年社交网络

文摘