复杂性

PDF
复杂性/2020年/文章
特殊的问题

复杂性问题由先进的计算机仿真技术在智能城市2020人

把这个特殊的问题

研究文章|开放获取

体积 2020年 |文章的ID 9789431 | https://doi.org/10.1155/2020/9789431

刘雅尼Liu东升,陈Yuwei), 对情绪的研究趋势和发展社交网络舆论的智能城市”,复杂性, 卷。2020年, 文章的ID9789431, 13 页面, 2020年 https://doi.org/10.1155/2020/9789431

对情绪的研究趋势和发展社交网络舆论的智能城市

客座编辑:Zhihan Lv
收到了 2020年3月29日
修改后的 2020年4月27日
接受 2020年5月05
发表 04年6月2020年

文摘

随着移动互联网的快速发展,社交网络已经成为一个重要的平台,用户接收、发布和传播信息。为了获得更多有价值的信息和实施有效的舆论监督,有必要研究公众意见、情绪倾向,和热的进化事件在社交网络的智能城市。针对社交网络的特征如短的文本、主题丰富,多样的情绪,和及时性,本文进行文本与词同现基于主题模型的建模。此外,情感计算和时间因素的整合构建动态topic-sentiment混合模型(tst)。然后,四个热事件是随机选择从微博数据集评估体系模型的主题特征提取,情绪分析,和时间变化。结果表明,测试模型比传统的模型在主题萃取和情感分析。与此同时,通过合适的热事件的时间曲线,变化规律的评论《社交网络》中。

1。介绍

随着互联网技术的广泛应用,互联网已经逐渐转化为动态信息共享和互动交流的平台。43的理查德·道金斯统计报告显示,中国有8.54亿互联网用户,其中99.1%的人通过手机访问互联网(1]。社交网络的智能城市已经成为主流的信息交换和意见表达平台。用户不仅是信息的接收者,也是创作者在社交网络发布文字评论。舆论的热点事件参考,个人观点是即将或已经发生的事件发布的在线交流工具和网络平台(2]。公众舆论的传播将雪球,扩大社交网络,和紧急事件可能在一个无法控制的方向发展。连锁事件监督不足导致的社交网络可以带来不良影响,以及频率和危害有近年来显示一个明显的上升趋势3]。

先前的研究已经从定性研究方面,如舆论的进化机制,信息元素的分类,影响判断。然而,上述研究不能满足网络舆论监督的需要,和热事件的监视和管理社交网络的智能城市需要实现定量的判断。公众舆论监测和管理,Steyvers和格里菲思4)提出了一个话题社交网络民意检测模型。叶等。5)提出了一个概念上动态潜在狄利克雷分配为主题内容(CD-LDA)模型检测和跟踪。研究概率主题模型提取热门话题从长文本取得了好的结果6),但这些模型不是适合从简短的文本中提取热门话题,Twitter和Facebook等(7]。金等。8]介绍了情绪得分基于主题通过语法LDA主题建模技术和研究主题报告和情绪动态新闻关于埃博拉病毒。Subeno et al。9)提出了一个倒塌的吉布斯抽样方法基于潜在狄利克雷分配(LDA)模型广泛用于火花。公园等。10]部分倒塌的吉布斯抽样用于潜在狄利克雷分配和提出了一个推理LDA方法,它有效地获得无偏估计下异质文本语料库的灵活建模部分倒塌和狄利克雷混合处理。

然而,仍然有一些问题在公众舆论对事件的检测在社交网络的智能城市。首先,检测和分析社交网络热点事件的舆论大多停留在定性分析和实证研究,缺乏定量研究。其次,缺乏民意分析方法结合的特点,微博在社交网络。第三,公众舆论事件的情绪分析,大多数研究采用两阶段方法。是检测事件首先然后进行情感分析和判断,这可能会导致事件和情绪之间的分离。第四,公共意见的热事件的传播时间敏感,因此有必要涉及评论文本分析的时间因素。因此,本文提出一种混合模型与动态topic-sentiment (tst)短的文本《社交网络》中,全面整合了主题,情绪,和时间因素的事件检测的公众舆论。通过定量分析的实验数据,该模型不仅可以显示公众舆论的量化发展趋势,但也提供突发事件的传播规律。

本文的主要贡献体现在两个方面。首先,结核菌素模型提出了通过扩展这个话题模型,不仅可以提取主题和情感极性词,而且还把时间因素,实现动态分析的文本。其次,本文研究了检测和演化分析网络舆论的动态topic-sentiment模型。使用真实的数据集进行实验分析,该模型可以反映公众舆论扩散的演化趋势。

2.1。在相关问题上的研究模型

传统观点挖掘分析情绪取向是基于文档和句子的水平。传统的主题模型主要是用来比较的文章之间的相似性比较的重复的单词在不同的文章的数量。Blei et al。11)提出了潜在狄利克雷分配(LDA)主题挖掘文本的隐藏的语义模型。LDA是一个三层贝叶斯模型包括文档、话题,词。的文档组成的混合分布的话题,每个话题是一个多项式分布。,介绍了狄利克雷分布多项式分布的先验信息。LDA主题模型的示意图如图1

2.1.1。研究主题的简短文本模式

对于大多数主题模型,文档中的主题是出现这个词,有一些连接。在先前的研究中,短的文本的主题模型被引入扩展相关背景或作者信息,削弱了主题和无意义的词产生的贡献。类似地,如果同现词语扩展到整个语料库在这项实验中,每个单词的出现频率将会大大增加,和单词之间的连接将接近。然后,建模文件会更容易。基于上述假设,程et al。12)提出了biterm主题模型(BTM),这是另一种方式来解释单词之间的关系,和文本文档建模可以进行基于整个语料库的词同现模式。拉希德et al。13)提出了模糊主题建模(英尺分)简称文本从模糊的角度解决稀疏问题。基于BTM,陆et al。14]介绍了RIBS-Bigrams模型通过学习使用关系,显示主题两个字母组。朱et al。15)提出了一种基于潜在狄利克雷分配联合模型(LDA)和BTM,这不仅减轻BTM的稀疏算法在处理短的文本,但还保留了主题信息通过扩展LDA的文档。

2.1.2。混合模型集成研究主题的情绪

评估文件的情绪倾向,联合情绪主题(JST)模型添加人气层基于LDA模型,形成一个基础课贝叶斯网络(16]。在这种结构中,情绪极性标签相关的文档,和这个词代也受主题和情绪的影响。在传统LDA模型,文档和词的生成是由这个话题。但在JST模型,文档的单词是由主题和情绪。Amplayo et al。17]提出了和情绪方面统一模型(ASUM)情绪水平。JST ASUM是词语之间的区别在一个句子来自JST模型中不同的主题,尽管所有的句子属于ASUM模型中的一个主题。

2.1.3。研究主题与时间因素模型

姚明et al。(18]揭示词汇的语义变化过程关联文本时间因素与维基百科知识。的进化事件,提出了关联主题模式(ATM) (19),识别集群作为集群的词分布与相应的事件。此外,主题随时间(合计)提出了将时间因素集成到LDA模型(20.]。TOT模式,词同现会影响主题的发现,和时间信息也会影响主题的提取单词。与其他模型,每个主题的连续分布的时间,而不是依靠马尔科夫模型离散化时间合计模型。对于每个文档生成,主题是由词同现的混合分布和时间戳21),它允许TOT模式保持独立在时间维度和可以预测的时间文档没有任何时间信息。

2.2。吉布斯抽样

本文实验模型的推导过程是一个马尔可夫链的变体形式,因此,马尔可夫链蒙特卡罗(密度)方法用于抽样的实验。吉布斯抽样,获得的模型方法,已广泛应用于先前的研究。吉布斯抽样用于获得一组近似指定多维概率分布的观测,如两个随机变量的概率分布。

吉布斯抽样方法用于潜在狄利克雷分配(LDA)模型可以显著提高真实文本语料库的速度(22]。Papanikolaou et al。23]估计潜在狄利克雷从吉布斯抽样分配(LDA)参数通过使用所有条件分布的潜在变量作业有效平均多个样本。周et al。24)提出了两种类型的吉布斯抽样推断方法,如稀疏BTM和ESparse BTM,实现BTM考虑空间和时间。Bhuyan [25]提出了基于潜在变量的相关性随机效应模型和算法来估算基于吉布斯抽样的相关参数。

3所示。模型构建

3.1。Topic-Sentiment混合模型与时间因素(tst)

基于之前的研究,本文主要提高了主题模型从三个方面。首先,简短的文字造成的稀疏矩阵在社交网络解决。其次,同一个词的主题和情绪分布控制。第三,文本同质性问题的解决将时间因素纳入模型的主题。因此,结核菌素模型提出了用于限制对这个词在同一文档,这大大减少了时间和空间的复杂性并弥补短文字在某种程度上的稀疏矩阵。此外,情绪层集成到测试通过扩展ASUM的假设和约束约束生成的词对句子遵循相同的topic-sentiment分布。最后,结核菌素模型将时间因素不依赖于马尔可夫模型离散化的时间,和每个主题持续时间分布。对于每个文档生成,主题的混合分布是由词汇同现和时间戳。结核菌素模型如图2

结核菌素模型模拟生成过程的在线评论。一般来说,网上评论的用户可以被视为一个文档,简短的、简练的和高度情绪化的。这个词同现从BTM简短文本主题模型是最有效的解决方案。此外,测试模型与时间层可以连续样本用户的热事件的评价,以及用户的动态变化的情绪。因此,提出了试井模型的假设如下:(我)时间因素的概率分布的联合分布不直接等于主题和情绪(2)每个文档的topic-sentiment分布是独立的26](3)类似的主题不同的情绪极性不自动分类27]

结合贝叶斯网络的概率图,试井模型提出论文中有四个特点。首先,一双词是用于替换一个词进行抽样模型。第二,每个时间戳是相关的主题和情绪。第三,主题特征的提取和情绪词是整个语料库。第四,在试井模型的推导过程,没有必要主题功能和情感极性词之间的对应。这是因为每个主题和情感有相应的多项式词对分布。此外,文本测试模型的建模过程也遵循假设有一个主题特征的情感极性词之间的联系,也与时间因素变化。因此,文档用于训练模型必须有一个特定的时间戳,比如微博的发布时间。

3.2。代的一个文本在试井模型

结核菌素模型中,我们假设由几个文本语料库。例如,微博是一个文本包含两个维度的主题和情绪。考虑到微博的舆论和相关参数的有效性文本,词分布是由话题,情绪,和时间。测试是一个无监督topic-sentiment混合模型。文档的生成过程如下:(1)提取一个多项式分布 在一个主题之前从狄利克雷分布 ,也就是说, (2)提取一个多项式分布 在某一时刻之前从狄利克雷分布 ,也就是说, (3)提取一个多项式分布 在情绪之前从狄利克雷分布 ,也就是说, (4)为每个文档d对于每一对单词在文章中 ,(一)选择一个主题 (b)选择一个情感上的标签 (c)选择一双的话 (d)选择一个时间戳

如图2词对文档中可能属于不同的时间戳在文本中结核菌素主题模型的生成过程。理论上,一篇文章的所有内容,如词汇和话题应该属于同一时间戳。同时,引入时间因素到主题模型会影响文章的话题同质性。然而,默认主题模型中的试井模型的时间因素不会影响文本的同质性。所以,假设时间因素在报纸上没有重量。基于合计和主题(GT)模型,superparameter 引入体系平衡互动的时间和单词在文档生成。测试模型的参数的解释如表所示1


D 的文档数
词汇量的大小
T 许多话题
年代 的情绪极性
H 数量的时间戳
数量的词对
B 组词对
B 词对,
W
T 时间
Z 主题
l 情绪极性标签
:多项式分布的话题
矩阵,词对的分布
分布矩阵,情绪
矩阵,时间分布
狄利克雷之前的参数
狄利克雷之前的参数
不对称的狄利克雷先前的参数
狄利克雷之前的参数
词对文档的数量d
单词的数量对主题j在文档d
单词的数量对主题j
单词的数量对指定为主题j和情感极性k
词对的数量 分配给这个话题吗j和情感极性k
词对的数量 分配给这个话题吗j和情感极性k当时间戳h
单词的数量对除了在当前文档p位置

3.3。模型推导

根据贝叶斯网络结构图的测试模型、多项式分布 话题的分布 情绪与主题的相关性分布 词对的< >话题,情绪,和分布的相关性 >和<话题,情绪可以根据superparameters计算 然后,吉布斯抽样完成,可以确保测试模型的收敛下足够的迭代次数。分配,每个单词在文档的主题和情绪最适合事实。

根据贝叶斯独立的原则,联合概率的一对,主题,情感极性,并给出时间戳如下: 等参数是独立的词对吗 和参数 ,时间戳 和参数 ,情绪极性 和参数 ,和主题句 和参数 因此,联合分布的方程可以计算得到的方程的右边四个部分。

鉴于特定主题的情感极性的标签功能,的分布 可以被看作是一个多项式分布。基于主题的前提 是由N倍的概率 在每一个时间。鉴于这个词对是相互独立的,我们可以获得

Superparameters的表征参数框架在机器学习模型(28),如聚类方法的类的数量或主题的主题的数量模型。在贝叶斯网络的分布和密度函数θ被表示为 ,分别。他们被视为先验分布函数和密度函数之前,分别,统称为先验分布。如果的分布θ获得抽样后,它被称为后验分布。基于狄利克雷∼多项的共轭性质,当总体分布中的参数符合多项式的分布规律 ,共轭先验分布符合以下分配:

一般的文本模型,离散狄利克雷分布和跨国分布如下: 在哪里 表示词对的迭代时间,主题,情绪,分别在建模过程和时间戳。自的分布 狄利克雷分布,介绍了 它可以通过积分获得 :

评估后的参数 在这个公式,我们可以结合贝叶斯公式和共轭狄利克雷∼多项式的性质。后验分布的参数可以得到如下:

鉴于狄利克雷分布的期望 ,所以计算参数已知的后验分布参数估计的期望。估计结果显示在方程(7)。同样的,对 , 介绍了。通过集成 ,它可以获得如下:

, 介绍了。通过集成 ,它可以获得如下:

, 介绍了。通过集成 ,它可以获得如下:

测试模型可以估计后验分布估计的值 已经获得的采样计算。然后,计算方程(2)- (6)带入方程(1)。结合伽马函数的性质,在吉布斯抽样条件分布概率可以获得:

为了简化方程(6),superparameter 介绍了。当superparameters , ,这个词的集合B,相应的主题z,情绪标签l可以用来推断的参数 , 基于贝叶斯规则和狄利克雷共轭特性:

4所示。实验分析

4.1。数据收集

为了验证测试模型在本文提出的四个热点事件是随机选择2019年从新浪微博的热门搜索。,四个事件的评论被视为实验数据集。四个数据集选择“国庆阅兵”,“袭击医生”,“香港的事件,”和“垃圾分类在上海。“新浪的评论是提取的社交网络平台。在原始数据集,有一些无意义的词在微博上的文本,如停止的话,感叹词的语气,标点符号和数值表达式。文本建模之前,分词包在Python中用于过程实验初始数据集。此外,考虑到评价,社交网络是相对较新的,时尚的表达式在社交网络收集并添加到自定义词典。所以,这些新兴词汇可以确定尽可能,取而代之的是正常的表情。此外,还有一些无用的单词在文本中,URL链接和数量等,可以通过正则表达式过滤。最后,共有14288个实验数据在四个事件。四个数据集的描述如表所示2


数据集(注释)的数量 每个微博的单词数 词汇量的大小
最初的 预处理 最初的 预处理

数据集1 (3562) 134年 102年 9789年 6319年
数据集2 (3527) 127年 94年 9736年 6242年
数据集3 (3617) 131年 One hundred. 9780年 6301年
数据集4 (3582) 128年 96年 9742年 6254年
平均 130年 98年 9762年 6279年

4.2。情绪词典

情绪词典中的词或短语有明显的情绪倾向,可以分为积极的和消极的词语。摘要情绪词典有两个主要的角色。一方面,我们可以识别情绪极性词和区分主题功能和情绪词。另一方面,结合之前情绪信息,使模型更准确判断文本的情感极性。考虑到情绪极性词可以反映用户的情绪倾向,具有重要意义,分析文本的情感取向。

目前,有两个主要中国情绪词典:南大和知网。前者字典包含了2812个8276年积极词汇和消极词汇。后者包含大约5000 5000年积极词汇和消极词汇。基于知网和情感极性的分类(29日,30.),构成了情绪词典试井模型的评价实验,如表所示3


情绪标签 快乐 惊喜 悲伤的 愤怒的

词汇量的大小 2467年 276年 3025年 1897年

4.3。参数设置

摘要吉布斯算法用于样品测试模型和估计四后参数。根据传统的主题模型中的参数设置,superparameters设置如下。首先,superparameter 是设置为 ,K是主题提取的数量。第二, 设置为0.01。第三, 是设置为 AVE代表文章的平均时间,即词的平均数量在这个实验中,微博年代代表极性标记的总数。最后, 是设置为

4.4。评价指标

对于主题特征的提取,困惑是作为评价指标来衡量未知数据的预测能力的过程中模型的建模。同时,较低的困惑意味着更好的效率。困惑的计算公式如下: 在哪里 代表了一个未知的数据集的时间戳t 在哪里 对文本表示的向量组词d, 表示词对的数量 , 代表直接训练语料库的可能性,计算公式如下:

情绪分割,情绪判断的文档作为评价指标,基于sentim ent极性词典标签的情绪。文件在这个实验中,文档的积极和消极情绪可以判断。本文采用一致性测试方法标志着情绪标签(31日]。

5。结果

5.1。提取的话题

试井模型的主要任务是提取主题特性。topic-sentiment混合模型的一个扩展,评估是判断是否合理和准确提取的主题特征。从文本中提取主题特征建模之前,有必要确定主题中提取的数量和吉布斯抽样的迭代次数。为主题的有效评估发现,困惑的程度作为测量指标。较低的困惑是,模型的拟合效果越好。以数据集1为例,仿真结果如图所示3

基于实验结果如图3,主题的数量是20在随后的实验。此外,我们可以计算三个模型的困惑与迭代的变化。通过比较测试的实验结果和LDA,它可以发现结核菌素的效果总是比LDA,随的增加而减小的程度的困惑,迭代。表明这个话题发现结核菌素的能力逐渐提高,主要是因为结核菌素模型包含这个词对缓解LDA的稀疏矩阵短的文本。通过比较实验结果的测试和BTM,它可以发现结核菌素比BTM当迭代的数量增加。然而,随着迭代次数的增加,两种模型的差距变得更小。这是因为这个词对BTM用于整个语料库。当迭代的数量很小,噪声码的比例相对较大,导致质量差的话题的单词。此外,情绪层集成到测试,估计误差产生的情绪会影响到下一次迭代。尽管结核菌素比BTM当有更多的迭代,结核菌素的影响与BTM仍然可以平衡。 Therefore, during the extraction of topic features, the number of topics and iterations can be set as 20 and 600.

5.2。情绪极性

提供了情绪极性相关信息按照极性词的主题和情绪。情绪的主题分布从结核菌素中提取模型如图4。此外,JST和ASUM介绍的比较来衡量测试模型的情绪识别的影响。每个文档都有一个二进制情绪标签,如积极或消极的情绪。数据集2”袭击医生”作为一个例子,结果如图4。主题设置为5的数量开始实验。与粒度的细化,增加测试的性能模型。JST和ASUM相比,测试模型的曲线变化很大程度上考虑到文档的主题和情绪词对之间的关系。JST模型的变化曲线显示了稳定的上升趋势,识别ASUM效率低。这是因为ASUM有严格的假设,以及主题的数量的增加将导致权力下放的主题和情绪,有一个伟大的对模型的整体性能产生负面影响。测试模型的整体效果略优于JST ASUM,但是效果略有下降后主题的数量增加到20。这是因为在数据收集的数据是有限的,和主题的数量被设置为离散化这个词分布。因此,情感极性的判断的影响。情绪标签分类的文档比较在不同的主题,和测试的结果模型比JST ASUM。

增加的主题,主题模型的识别性能有一些波动。但是,总是比JST, ASUM试井模型。当获得主题和迭代的数量设置为20到600年,在话题检测结核菌素是最好的模型。当主题的四个数据集的数量设置为20,情绪极性判断的准确性表所示4


ASUM JST 结核菌素

数据集1 0.4763 0.5427 0.6348
数据集2 0.4617 0.5398 0.6599
数据集3 0.4832 0.5461 0.6475
数据集4 0.4841 0.5294 0.6522

从表4,结核菌素模型比JST ASUM判断文档的情感极性。这是因为情绪极性取决于主题发现在前一个阶段的性能。在这个实验中,JST ASUM是完全相反的效果。的差异是由原始文档的长度,也间接验证了测试模型的有效性。

从图5,可以看出积极情绪的比例明显高于其他情绪数据集“国庆阅兵”,集“上海垃圾分类”,这是符合用户的情绪倾向的社交网络。第二集“袭击医生,”主题的两种负面情绪极性# 1和# 2比较话题。话题# 1更可能是悲伤的情绪,而话题# 2更容易愤怒的情绪。话题# 1反映了事件的声明,和主题# 2代表事件的后续讨论。

5.3。主题和情感进化

主题特征的曲线提取四个数据集通过试井模型图所示6。以数据集2为例,话题曲线符合社会的演化规律和突然的事件。两条曲线代表功能词的趋势随着时间的推移,在话题# 1和# 2话题。话题# 1是声明有关此案的本身。从一开始的事件,讨论社交网络上的事件急剧上升,然后逐渐下降。# 2是一个讨论话题的发展情况下,造成第二热再次讨论。时的时间是不一致的两条曲线达到高峰。话题# 2曲线的峰值低于话题# 1,反映了同一事件的讨论将会随着时间流逝而逐渐消失。即使有一个新的话题,讨论一个新的主题远远低于事件的开始。与此同时,类似的结果可以验证在其他三个数据集。

四个数据集的情感极性的比例如图7。由于情绪极性比例来衡量,这四个情绪极性平衡分布的事件的发生。事件发生后,积极和消极情绪的极性开始改变走向两个极端。在四个数据集,积极的情绪高于负面情绪在第一集“国庆阅兵事件”和第四集“上海垃圾分类活动”,这也符合社会情绪的事件。此外,它可以发现,四个情绪标签之间的差别很大在最初的阶段,和情绪的分配标签在后期变得稳定。事实证明,社会事件的第二份报告没有给热火第一次。但是,情绪倾向判断在社交网络不会大幅下跌的减少讨论,可以证明在第二集”的话题# 2攻击一名医生。“鉴于主题特征的背景来自一个语料库和含有大量的噪声的话,四个曲线的相对位置更接近的情绪极性进化。然而,政府的感觉仍有差距,这不同于情感极性的平均分布在事件的开始。

6。讨论

本文从理论意义的角度来看,在一定程度上扩展了LDA模型。首先,针对短造成的稀疏矩阵,介绍了词对取代根据BTM文本生成一个字。基于假设JST、ASUM情绪层介绍了贝叶斯网络结构形式,和这个词对极性分布仅限于相同的情绪。其次,为了实现动态分析和文本同质性、时间戳和相应的介绍了superparameter缓解文本生成的词序问题。第三,本研究结合行为实验,大数据挖掘,数学建模,模仿促进扩张的新情况和新方法的研究。

本文从现实意义的角度来看,是很有价值的跟踪和监测舆论话题在社会网络。热事件的网络舆论可以监控,有助于准确判断社会事件和应急决策为政府或部门。此外,本文分析了进化,响应,公众舆论和治理,有利于了解公众舆论的形成机制和协同进化。与此同时,公众舆论信息的使用可以检测和屏幕信息,防止谣言的传播,科学制定利用机制有效地减少风险损失。

7所示。结论

在移动社交网络的背景下,短的文本的数量增长爆炸。为了迅速从巨大的简短文本中提取信息和监控公共意见,结核菌素模型提出了基于LDA在这项研究中,BTM, JST, ASUM,合计。从实验结果,结核菌素模型达到良好的性能。的主题特征提取,结核菌素的程度的困惑总是低于LDA。此外,尽管困惑的程度略高于BTM随着迭代次数的增加,它可以与BTM保持平衡。情绪分析,结核菌素的效果明显优于JST ASUM。最后,测试模型将时间因素可以确定主题和情绪的变化趋势。

仍有一些缺点。首先,主题特征提取的话说,全球主题层面上可以添加到主题层测试模型的过滤词共同的话题。其次,在情感极性的判断中,情绪标签手动标记基于先验知识。然而,情绪极其丰富多变。在未来的研究中,贝叶斯网络和实体理论可以用来判断情绪偏差。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作的部分支持由国家科技部门的项目(2018 yff0213102),浙江省公共项目(LGF18G010003, LGF19G010002和LGF20G010002)、浙江省科技项目(2020 c01158),浙江和一流的纪律——(浙江Gongshang大学-统计数据)。

引用

  1. 中国互联网络信息中心”,在中国互联网发展统计报告,”中国互联网络信息中心,北京,中国,2019年,http://www.cac.gov.cn/2019-08/30/c_1124938750.htm视图:谷歌学术搜索
  2. m . Ingawale a·杜塔·r·罗伊,p . Seetharaman”网络分析维基百科的用户生成内容质量”网络信息审查,37卷,不。4、602 - 619年,2013页。视图:出版商的网站|谷歌学术搜索
  3. 问:高、y .田和m .你“探索中国用户的感知可信度影响因素的健康和安全信息在微博上,“电脑在人类行为卷,45 21-31,2015页。视图:出版商的网站|谷歌学术搜索
  4. m . Steyvers和t·格里菲思“概率主题模型,”潜在语义分析的手册,卷427,不。7、心理出版社,纽约,纽约,美国,2007年。视图:谷歌学术搜索
  5. 肯尼迪。叶,Y.-S。谭和学术界。李,“话题检测与跟踪会话内容通过使用概念动态潜在狄利克雷分配,”Neurocomputing卷,216年,第318 - 310页,2016年。视图:出版商的网站|谷歌学术搜索
  6. 周x l·陈,“事件”在twitter社交媒体流检测,VLDB日报,23卷,不。3、381 - 400年,2014页。视图:出版商的网站|谷歌学术搜索
  7. y . j . Du y . t .咦,李x和y”提取和跟踪热点话题的微博基于改进潜在狄利克雷分配,”人工智能技术的工程应用卷。87年,1-13,2020页。视图:出版商的网站|谷歌学术搜索
  8. y . k . h . j . Kim Jeong, y金et al .,“基于主题内容和情感分析的埃博拉病毒在twitter和新闻,“信息科学杂志》,42卷,不。6,763 - 781年,2016页。视图:出版商的网站|谷歌学术搜索
  9. b . Subeno r . Kusumaningrum, f . Farikhin”对潜在狄利克雷优化分配:它的主题数和倒塌的吉布斯抽样推理过程,”国际电气和计算机工程杂志》(IJECE),8卷,不。5,3204 - 3213年,2018页。视图:出版商的网站|谷歌学术搜索
  10. t·h·公园公园,Y.-S。李,“部分倒塌为潜在狄利克雷吉布斯抽样分配、”专家系统与应用程序卷,131年,第218 - 208页,2019年。视图:出版商的网站|谷歌学术搜索
  11. d·m·布莱a . y . Ng,乔丹,“潜在狄利克雷分配”机器学习研究杂志》上,3卷,第1022 - 993页,2003年。视图:谷歌学术搜索
  12. x, x, y局域网,j .郭”BTM:主题建模在简短的短信,“IEEE工程知识和数据,26卷,不。12日,第2941 - 2928页,2014年。视图:出版商的网站|谷歌学术搜索
  13. j·拉希德,s·m·a·沙和a . Irtaza”模糊主题建模方法对短的文本,文本挖掘”信息处理与管理卷,56号6 - 2019页。视图:出版商的网站|谷歌学术搜索
  14. H.-Y。陆:Kang y . Li徐瑞秋詹,J.-Y。谢,C.-J。王”,利用递归神经网络话题发现在短场景中,“智能数据分析,23卷,不。2、259 - 277年,2019页。视图:出版商的网站|谷歌学术搜索
  15. l .朱h·徐,徐y . et al .,“联合模型扩展LDA和IBTM流在中国的简短文字,“智能数据分析,23卷,不。3、681 - 699年,2019页。视图:出版商的网站|谷歌学术搜索
  16. j . m . Tang, y刘et al .,“整合主题,情绪和语法建模在线产品评论:一个主题模型的方法,”工程计算和信息科学杂志》上,19卷,不。1、1 - 12,2019页。视图:出版商的网站|谷歌学术搜索
  17. r·k·Amplayo s . Lee, m .歌曲“把产品描述为改善情绪的话题模型以面向方面为基础的情绪分析,“信息科学卷,454 - 455,200 - 215年,2018页。视图:出版商的网站|谷歌学术搜索
  18. l .姚明,y, b .魏et al .,”随着时间的推移概念:概率主题模型的组合与维基百科知识,”专家系统与应用程序,60卷,27-38,2016页。视图:出版商的网站|谷歌学术搜索
  19. 美国公园,w·李,I.-C。月亮,“模型与数值时间序列关联的话题。“信息处理与管理,51卷,不。5,737 - 755年,2015页。视图:出版商的网站|谷歌学术搜索
  20. p . Lorenz-Spreen f .狼,j·布劳恩et al .,“跟踪在线主题随时间:理解动态标签社区,”计算社交网络,5卷,不。1队,2018页。视图:出版商的网站|谷歌学术搜索
  21. y, c .林高w . et al .,“动态联合sentiment-topic模型”,ACM智能交易系统和技术,5卷,不。1、21、2013页。视图:出版商的网站|谷歌学术搜索
  22. l .郭和t . y .杨”,一种改进的狄利克雷过程混合模型倒塌的吉布斯采样器,”计算统计和数据分析,50卷,不。3、659 - 674年,2006页。视图:出版商的网站|谷歌学术搜索
  23. y Papanikolaou, j . r .福尔兹t·n·鲁宾et al .,“从稀疏采样密度分布:改善了LDA的吉布斯抽样参数估计,“统计数据,18卷,不。62年,1-58,2015页。视图:谷歌学术搜索
  24. 李和x, x, j·欧阳,“吉布斯抽样推理算法两个高效率biterm话题模型,”应用智能,48卷,不。3、730 - 754年,2018页。视图:出版商的网站|谷歌学术搜索
  25. p . Bhuyan”,纵向数据和非可忽略的随机模型估计missingness使用吉布斯抽样,”计算统计数据,34卷,不。4、1963 - 1710年,2019页。视图:出版商的网站|谷歌学术搜索
  26. 林,y, r·艾弗森和s·鲁格,“弱监督联合sentiment-topic检测从文本,”IEEE工程知识和数据,24卷,不。6,1134 - 1145年,2012页。视图:出版商的网站|谷歌学术搜索
  27. 达乌德和f·穆罕默德,“组织主题为学术知识发现、建模”应用智能,36卷,不。4、870 - 886年,2012页。视图:出版商的网站|谷歌学术搜索
  28. 黄z . j . Tang g .山j .倪y . Chen和c·王,”一个高效passenger-hunting推荐框架与多任务学习,”IEEE物联网》第六卷,没有。5,7713 - 7721年,2019页。视图:出版商的网站|谷歌学术搜索
  29. s·m·默罕默德、美国Kiritchenko和x朱,“NRC-Canada:构建先进的微博情感分析,”学报》第七届国际研讨会语义评价练习(semeval - 2013)施普林格,页1 - 5,亚特兰大,乔治亚州,美国,2013年6月。视图:谷歌学术搜索
  30. t·陈,李问:j .杨g .琮、g·李,“公众舆论极化过程的建模与个体异质性和动态一致性的考虑,“数学,7卷,不。10,917年,页2019。视图:出版商的网站|谷歌学术搜索
  31. s . a . Curiskis b·德雷克t·r·奥斯本和p . j .肯尼迪,“一个评估文档聚类和主题模型在两个在线社交网络:twitter和Reddit,”信息处理和管理卷,57号2、21、2019页。视图:出版商的网站|谷歌学术搜索

版权©2020雅尼刘et al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点431年
下载543年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读