工程数学问题

PDF
工程数学问题/2020/文章

研究文章|开放获取

体积 2020 |物品ID 4365602 | https://doi.org/10.1155/2020/4365602

王晓茹,李月丽,于志宏,李福,张恒,蔡亚丽,李立宪, "DIM:基于可变形兴趣模型自适应组合不同阶段挖掘的用户兴趣",工程数学问题, 卷。2020, 物品ID4365602, 13 页面, 2020 https://doi.org/10.1155/2020/4365602

DIM:基于可变形兴趣模型自适应组合不同阶段挖掘的用户兴趣

学术编辑器:Ioannis Kostavelis
收到了 2020年1月13日
修改后的 2020年4月12日
认可的 2020年5月11日
发表 2020年5月30日

摘要

用户兴趣挖掘广泛应用于个性化搜索和个性化推荐领域。传统的方法忽略了用户兴趣的形成,这是一个随时间而变化的过程。这导致无法准确描述用户兴趣的分布。本文提出了兴趣跟踪模型(ITM)。在时间上,ITM采用Dirichlet分布和多项分布来描述兴趣主题和频繁模式的演化过程,很好地适应了隐藏在短文本中的用户兴趣在不同时间片之间的演化。此外,众所周知,用户兴趣由长期兴趣和情境兴趣组成,其中包括短期兴趣和社会热点话题。目前最先进的方法简单地将用户的长期利益作为用户的最终利益,这使得那些不能完全描述用户兴趣分布的方法。为了解决这一问题,我们提出了可变形兴趣模型(DIM),该模型设计了一个目标函数,将用户的长期兴趣和情境兴趣结合起来,更全面、准确地挖掘用户兴趣。此外,我们提出了度量子兴趣对最终兴趣影响程度的变形程度,并在DIM中提出了影响实时更新机制。该机制通过线性迭代自适应更新变形程度,降低了兴趣模型对训练集的依赖程度。 We present results via a dataset consisting of Flickr users and their uploaded information in three months, a dataset consisting of Twitter users and their tweets in three months, and a dataset consisting of Instagram users and their uploaded information in three months, showing that the perplexity is reduced to 0.378, the average accuracy is increased to 94%, and the average NMI is increased to 0.20, which prove better interest prediction.

1.导言

用户兴趣挖掘是指通过分析大量的用户行为数据,建立用户兴趣模型。通过高质量的用户模型,能够描述用户的真实兴趣,为用户实现个性化服务提供了可能。近年来,用户兴趣挖掘在个性化搜索和个性化推荐领域得到了广泛的应用。

描述用户兴趣的分布是用户兴趣挖掘的核心,心理学家认为用户兴趣的形成是一个随着时间的推移而演化的过程[1.]因此,跟踪和描述用户兴趣的演变是描述用户兴趣分布的最大挑战。在以前的研究工作中,静态主题模型通常用于描述用户兴趣的分布,如Blei等人在2003年提出的潜在Dirichlet分配(LDA)模型[2.].然而在现实生活中,人们的主观意图往往会随着时间而变化,用户的兴趣也会随着时间而不断演变。静态主题模型很难满足这一需求。因此,一些文献研究[3.10尝试引入时间维度来跟踪用户兴趣的动态变化。当前动态主题模型所描述的用户兴趣分布是以超参数为中心的高斯分布 无法适应用户在不同时间片之间突然变化的兴趣[4.].

此外,心理学家将用户兴趣分为长期兴趣和情境兴趣[1113].长期利益是指随着时间的推移而形成的一种相对稳定和持久的个人倾向。情境兴趣是指在特定环境条件下引发的一种相对被动、短暂的情绪状态,包括用户的短期兴趣和社会热点话题。传统的用户兴趣挖掘方法简单地将用户的长期兴趣视为用户的最终兴趣,这使得传统方法无法完全描述用户兴趣的分布情况。

在此基础上,还应考虑到长期兴趣、短期兴趣和热点话题对用户兴趣的影响是实时更新的,这种可变性要求新算法必须具有自适应机制,三种兴趣的稳定影响不仅忽略了用户产生新兴趣的可能性兴趣也是兴趣挖掘的效果,它强烈依赖于训练集。一旦训练集发生变化,就需要重新训练模型以更新三种兴趣的影响,这无疑是非常耗时的。

为了解决上述问题,本文提出了一种基于可变形兴趣模型的用户挖掘方法,自适应地将用户的长期兴趣和情景兴趣结合起来。本文的贡献主要包括以下几个方面:(我)为了跟踪和描述用户兴趣的演化,引入了时间维度,提出了兴趣跟踪模型(ITM)。将标注的单词映射到频繁模式空间,利用Dirichlet分布和多项分布分别描述用户兴趣和频繁模式在不同时间段之间的演化过程。(2)为了解决用户兴趣的完整性问题,本文提出了可变形兴趣模型(deformation interest model, DIM),该模型将用户的长期兴趣和情境兴趣结合起来,更全面、准确地挖掘用户兴趣。(iii)针对长期兴趣和情境兴趣对用户兴趣的影响需要实时更新的问题,提出了可变形兴趣模型(deformable interest model, DIM),该模型利用实时更新机制自适应更新长期兴趣、短期兴趣、以及用户感兴趣的热门话题。实时更新机制不仅考虑了兴趣变化的可能性,而且降低了兴趣模型对训练集的依赖性。

建立主题模型是挖掘用户兴趣的主要手段。主题模型是一种语言模型,使用贝叶斯统计和机器学习方法来发现非标签文档的潜在语义内容,并使用这些潜在语义来预测文档集的未来特征。

早期用于兴趣挖掘的主题模型是静态的主题模型,其建立不依赖于时间。David等人在2003年提出了一个概率主题模型LDA (latent Dirichlet allocation) [2.].LDA由于其良好的数学基础和灵活的可扩展性,自问世以来就得到了广泛的关注和应用于各个研究领域。然而,由于语义上的差距,LDA在稀疏短文本上的应用使得词语的语义一致性难以确定。因此,一些方法将短文本聚合成长文本以减少不准确。其他方法通过外部知识基础丰富原始数据。这些方法并不总是有效的,因为聚合后的伪长文本与原始短文本之间可能存在语义不一致的问题。最近的另一项研究发现嵌入主题模型[14]它将传统的主题模型和单词嵌入相结合,能够很好地分析包含大量长尾词和低频词的大型文本集的语义内涵。但是,使用单词嵌入来表示文档会使特征层次过低,通常难以获得令人满意的结果。此外,LDA将ord作为一个单位,这无疑降低了语义的准确性[15]提出了以双格为单位的双格LDA模型。在此基础上,Wang等人[16]建议局部N-克(TNG)。Jhnichen等人[17]提出了可扩展的广义动态主题模型,该模型利用随机过程引入更强的相关性。这些方法可以在一定程度上突破词袋模型的局限性,找到文本中常见的短语和潜在的主题,但模型比较复杂。此外,关联规则挖掘技术也是一种有效的数据挖掘技术,如将关联规则挖掘应用于流数据[18,19]和应用于动态数据库的关联规则挖掘[20.,21].与其他关联规则挖掘技术相比,频繁模式挖掘模型具有最简单的结构。这启发我们在静态主题建模中引入频繁的模式挖掘,从而将基于词袋的主题建模转换为基于模式集的主题建模。然而,用户兴趣是随时间动态形成的,静态主题模型不能满足这一需求。

为了解决静态主题模型不能随时间改变主题内容的问题,动态主题模型也得到了广泛的研究。其中包括DTM [3.], cDTM [6.], TTM [4.],及D-ETM[22].这些方法解决了静态主题模型不能及时响应用户相关信息变化的问题,但都适用于长文本环境。此外,在DTM中[3.]及cDTM [6.],用户兴趣分布来自以超参数为中心的高斯分布 同时,高斯分布和多项式分布没有共轭,模型不具有解释性和实用性。最近的一些工作[23,24找到随时间变化的嵌入表示。因此,D-ETM是在ETM的基础上产生的。然而,如何在密集向量空间的基础上处理更高层次的特征是提高算法效果的关键。此外,Liang等人提出了一种针对短文本的动态主题模型,称为UCIT-L [25].UCIT-L基于用户在多个时间段的信息及其关注者的信息推断用户的兴趣。缺点是计算量过大,用户兴趣和关注者兴趣的重合程度不确定。

为了缓解潜在高斯变量及其后续对模型计数值的非线性变换所造成的不共轭的关键问题,Linderman等人在2015年提出了Polya-gamma增广[5.].这种方法有助于缓解DTM的问题[3.]及cDTM [6.,但这并不一定能提高性能。本文提出的兴趣跟踪模型(ITM)从本质上解决了高斯分布和多重分布造成的不共轭问题,能够准确地跟踪和描述用户兴趣随时间的演变。

上述利息采矿方法用于描述用户兴趣的动态过程,只是认为用户的长期兴趣用户的最终利益,无视用户的情境兴趣组成的短期利益和社会热点话题,不能完整地描述用户兴趣的分布(1.,1113]本文提出的可变兴趣模型是一种充分考虑用户真实兴趣的模型,它自适应地将长期兴趣、短期兴趣和当前热点话题相结合,描述了真实兴趣的形成过程。

3.基于可变兴趣模型的用户兴趣挖掘

在本文中,我们认为用户兴趣由长期兴趣和情境兴趣组成,其中包括短期兴趣和当前社会热点。因此,我们提出了一种基于可变形兴趣模型(DIM)的用户兴趣挖掘方法,旨在融合上述三种兴趣。长期利益由兴趣跟踪模型(ITM)挖掘,短期利益由LDA-FP挖掘[2.,26],通过知识库获取当前社会热点话题[27,28].利用DIM,自适应组合三个兴趣,获得用户兴趣。

3.1.问题定义

社交网络有一组用户 ;用户 上传一组图片 ,在哪里 意味着A.th用户。同时,当上传图片时,用户添加了一组注释文字 ,-照自己的兴趣,在哪里 意味着A.的注释词th的画面。用户标注的不同图片的注释文字 在时间片T被表示为 众所周知,用户的兴趣随着时间的推移而变化,用户的兴趣很容易被情境兴趣所改变,情境兴趣包括用户的短期兴趣和当前的社会热点话题。

DIM的任务如下:(1)给出用户在最后一个时间片中的短期兴趣分布,用户的长期兴趣随时间变化的分布,以及当前热点话题的分布;(2)结合用户的长期兴趣和情景兴趣,包括短期兴趣和当前社会热点话题;(3)自适应更新变形程度,衡量子兴趣对最终兴趣的影响程度。

首先,我们将不同类别的注释词处理到语料库中;然后对语料库进行预处理;最后,利用FP-growth算法从语料库中挖掘频繁模式[26],并建立一个经常使用的模式库。该模式库定义为 , ,在哪里 T-单词和 是频繁模式中的单词数 LDA[2.]通过将文本映射到词袋来表示文本,但这种方法不适用于存在稀疏性问题的短文本,因此我们通过将单词映射到频繁模式库来表示用户标注的单词。我们将用户的注释词表示为 我们考虑 作为ITM的输入,以获取用户的长期利益 , 同时,我们考虑 作为LDA-FP的输入,以获取用户的短期利益 , ,并基于知识库获取当前的热点话题 , 中的每个元素 , , 由权重系数表示( )以及相应的标记词( ).最后,我们考虑 作为DIM的输入,自适应地将长期利益、短期利益和当前热点问题结合起来。

3.2.基于兴趣跟踪模型挖掘用户长期兴趣

已知用户兴趣随时间变化,但这种变化不会突然发生;它在时间段之间具有某种连续性。ITM定义了具有一阶马尔可夫特性的“用户兴趣”向量,并考虑用户在当前时间片中的兴趣分布 基本上是在上一个时间片中 因此,我们定义了“用户兴趣”分布 当前时间片的 在哪里 为利息的数目, 是当前时间片中“用户兴趣”分布的超参数,并且 表示用户的兴趣,即用户对兴趣感兴趣的概率 在时间 ,在哪里 ,

相应地,当前时间片中每个兴趣点的潜在语义也会发生变化。通过寻找“兴趣频繁模式”分布来确定兴趣的潜在语义。同样,我们定义了“利益频繁模式”分布 在当前时间片中作为 在哪里 “兴趣-频繁模式”分布的超参数在当前时间片和 代表一个兴趣的趋势,也就是频繁模式的概率 是从兴趣中选择的 在时间 ,在哪里 ,

基于(1.)及(2.),模型中每个频繁模式的生成过程描述如下:对于每个频繁模式,“用户兴趣”分布 在当前时间片中由先验知识决定 在当前时间片和用户兴趣分布中 在上一个时间段中一起切片。接下来,从 ,然后推导出“利率频繁模式”分布 的先验知识 在当前的时间切片和“利益频繁模式”的分布 在之前的时间片中。最后,提取一个频繁模式 与利息相对应

从上面可以看出,ITM将注释词映射到一个频繁模式集,以表示每个用户的注释词集合,该集合被视为短文本。每个频繁模式包含一组同时频繁出现的注释词。此外,ITM使用 修正当前时间片中的Dirichlet参数,以达到跟踪用户兴趣演化的目的。同时,它保持了狄利克雷多项式的共轭分布。该设计反映了用户兴趣演化的数学本质,使模型具有可解释性。该模型的概率模型图如图所示1.

如何根据每个用户标签词的已知频繁模式来反转用户兴趣是构建兴趣跟踪模型的目的。在本文中,我们基于随机EM算法估计ITM中的参数[29],其中潜在主题的Gibbs抽样和参数的最大联合似然估计交替迭代。

构建ITM的最终目标是得到后验概率:

因此,解决后验概率的问题 转化为解决用户兴趣和模式的联合分布问题。由狄利克雷分布和多项正态分布的定义[2.],我们作出以下推论: 在哪里 分配给兴趣的图案数量是多少 在时间T, 是该模式的次数 已分配给利息 在时间 , 是伽马函数。

用Gibbs抽样和极大似然估计求解该联合分布中的参数[29的结果如下:

当推断当前的利益 和趋势 ,ITM只使用当前数据。因此,与传统模型相比,它在不增加潜在变量的情况下,不仅描述了用户长期兴趣的演化过程,而且减少了计算量,提高了计算速度。

3.3.基于可变形兴趣模型的用户子兴趣自适应融合

用户兴趣不是由长期兴趣、短期兴趣和当前热门话题即时形成的,而是逐渐演变为最终状态的。为了描述这种变化过程,我们把用户兴趣看作是由三个突发兴趣变量(热点话题)组成的可变形的兴趣模型。,短期利息和长期利息。在可变形利息模型(DIM)中,每个兴趣的变形程度控制着整个系统的变形。每个兴趣的变形程度由各自兴趣的交互作用及其与用户兴趣的相似性决定,从而确保重要兴趣具有重大影响。可变形兴趣模型的实质是弹簧模型。弹簧模型的结构图如图所示2.[30.].

可变形兴趣模型可以定义为四元数 ,在哪里 表示兴趣跟踪模型, 表示LDA-FP[2.,26], 表示当前热门话题的知识库[27,28),而 表示偏差值。每个子模块由多组表示 , ,其中元素的数量由子模型的兴趣集的数量决定, T次利益模式 , 为对应的权重系数。

目标假设得分等于长期兴趣与实际兴趣、短期兴趣与实际兴趣、热点话题与实际兴趣的相似度减去短期兴趣与长期兴趣、热点话题与长期兴趣的差值之和: 在哪里 属于 , 是用户的兴趣。 也是由多组表示的 元素的数量由图案的总数决定。权重系数是由图案出现的频率决定的,也就是说 , ,在哪里 该模式中出现次数最少的单词的次数是多少 , 为用户的总字数, 是用户的数量,还是 是包含模式的用户数 受余弦相似度启发[31,相似度计算如算法所示1.

数据:
结果:
相似性
过程:
对于 :
如果项目在 :
其他:
,

可变形利益模型的变形程度为

用线性迭代法求极值 ,得到用户兴趣分布:

利用DIM获得的用户兴趣在描述可变形兴趣之间的相互作用时不仅更加全面,而且更具有可解释性。

4.实验

为了验证基于可变形兴趣模型的用户兴趣挖掘算法的有效性,本节将进行以下三个实验:(1)基于兴趣跟踪模型的用户长期兴趣挖掘算法性能评价实验(2)基于可变形兴趣模型的用户长期兴趣与情境兴趣相结合算法效果评价实验(3)基于可变形兴趣模型的自适应调整子兴趣影响算法有效性评估实验

4.1.数据和指标
4.1.1.数据集

本节的实验使用三个真实数据集测试用户兴趣挖掘的性能。我们对原始数据的处理步骤如下:(1)将字母转换为小写;(2)删除停止词;(3)删除文档频率小于5次的词。

(1) Flickr.[32]。数据集基于Flickr网站(http://www.Flickr.com)包含2012年10月至12月上传的354531条个人信息和2222379条图像注释。这些用户来自20个兴趣类别。

(2) 推特.基于Twitter (https://twitter.com),我们选取30个话题标签作为兴趣类别,并在2009年7月至9月连续三个月在这些话题标签下抽样253,159条推文。经过预处理,我们得到了16753个单词。

(3) Instagram.该数据集以Instagram网站(http://www.instagram.com)为基础,包含了2016年10月至12月上传的163479条个人信息和1048575条图片注释。这些用户来自20个兴趣类别。

三个数据集分为两部分进行训练和测试,其中每个用户在第三个月的注释词的10%作为测试数据,其余作为训练数据。表1.提供数据集的摘要。


数据集 用户数 数量的标签

Flickr 354531年 2222379年
推特 253,159 16,753
Instagram 163479年 1048575年

4.1.2。指标

我们使用以下指标来评估模型:

(1)困惑.[2.]。为了定量比较具有不同假设和推理机制的多个模型,计算测试数据集中每个单词所属模式的困惑度,定义为 在哪里 表示测试数据集的用户, 表示测试数据集上的用户数, 表示用户的一组模式 , 表示用户模式的生成概率 基于所提出的模型 表示用户模式的总数 困惑越小,似然估计越高,模型的性能越好。

(2)分类精度.[29].用户兴趣建模的目的之一是获取每个文档的主题比例,从而提供用户兴趣的潜在语义表示。该指标旨在确定用户兴趣的潜在语义表示的准确性和可辨别性。分类精度定义如下: 在哪里 是测试数据集的用户, 表示测试数据集上的用户数, 文档是否由一些用户注释的单词组成, 是一个指示函数, 用户的实际兴趣类别,和 为预测的用户类别。准确度值越大,模型生成的用户兴趣的潜在语义表示越准确,模型的性能越好。

(3)规范化互信息.[33].困惑度是用户兴趣模型的常用度量,但它不能直接度量学习用户兴趣的语义一致性。因此,为了进一步评估模型生成的用户兴趣的质量,我们使用了另一个评估度量,归一化互信息(NMI),用于评估预测利息与实际利息的匹配程度。NMI的定义如下: 在哪里 为实际用户兴趣集, 为预测的用户兴趣集, 是随机变量的熵,I(C,P)是它们之间的互信息 NMI的值介于0和1之间。越接近1,预测利息和实际利息越一致,相反,预测利息和实际利息越独立。

4.2.基于兴趣跟踪模型的结果与分析

第一个实验探索了用户对三个数据集的长期兴趣。比较模型如下:(1)LDA[2.:基于词袋表示的标准静态主题模型。(2)LDA-U[15:基于unigram表示的标准静态主题模型。(3)数字地面模型[3.:一种概率时间序列模型,用于分析大型文档集中主题的时间演化。DTM是目前常用的一种动态主题模型。基于LDA为每个时间片主题查找超参数之间的连接。(4)TTM [4.]:根据文档内容和之前估计的分布,在时间片上动态分配长文本的主题 他被捕了。(5)PGMult [5.:改进的动态主题模型,关注具有一定依赖性的离散数据。PGMult利用联合高斯似然潜在变量重构多重分布,利用logistic木棍断裂表示和Polya-gamma增广。(6)UCIT-L [25]:改进的动态话题模型,不仅根据用户最近一段时间的话题分布,还根据用户过去其他多个时间段的话题分布,跟踪用户的动态兴趣。参数设置如下:(1)频繁模式挖掘的参数设置: ,表示最小支持度。我们设置最小支持 [26],然后通过交叉验证选择最佳性能。(2)兴趣模型参数设置:基于不同的数据集,对于LDA和LDA- u,在DTM、TTM、PGMult、UCIT-L和ITM中,我们将每个用户三个月的注释词作为文档,设置时间切片为 这表示相同的用户在三个月内根据自己的兴趣在上传的图片上添加了注释。以上五个模型都将利息的数量设定在5到185之间。同时,1000次迭代的吉布斯样本运行10次,并计算其平均值。将用户兴趣分布的Dirichlet先验参数设为 ,在哪里 为利益数,“利益频繁模式”分布的Dirichlet先验参数设为 数字3.显示了Flickr、TWEETS和Instagram对不同主题编号的困惑。可以看出,ITM的困惑度始终低于LDA、LDA-U、DTM、TTM、PGMult和UCIT-L模型。此外,由于短文本中的主题分布非常稀疏,困惑度不会随着每个mo的兴趣数量增加而增加这不仅证明了将短文本映射到频繁模式空间是有效的,而且还证明了时间序列模型在较长时间内描述用户兴趣方面优于静态主题模型。

然后,我们利用分类精度来评估不同模型描述用户长期兴趣的有效性。从表中可以看出2.在不同的数据集上,ITM的分类精度始终高于LDA、LDA- u、DTM、TTM、PGMult和UCIT-L。特别是对于Flickr和Instagram来说,由于每个文档都是由包含多个主题的注释词组成的,而这些注释词在很长一段时间内都包含了多个主题,因此用频繁模式表示每个文档的ITM可以很好地适合分类器。LDA不能解决稀疏性和兴趣进化问题。DTM和TTM不能解决稀疏性问题。与用频繁模式表示每个文档来缓解ITM中的稀疏性问题相比,基于用户及其追随者的多个时间段的短文本流进行用户聚类来解决UCIT-L中的稀疏性问题是不有效的。PGMult不能解决利益演化问题。因此,它们在描述用户的长期兴趣方面不如ITM。


精度 敝中断
Flickr 推特 Instagram Flickr 推特 Instagram

乔治。 0.58 0.71 0.58 0.03 0.05 0.03
LDA-U 0.65 0.79 0.69 0.07 0.08 0.08
PGMult 0.70 0.76 0.75 0.10 0.06 0.10
DTM 0.68 0.81 0.70 0.08 0.09 0.09
TTM 0.70 0.85 0.73 0.10 0.11 0.10
UCIT-L 0.72 0.86 0.75 0.10 0.13 0.10
ITM 0.78 0.90 0.81 0.13 0.15 0.13

我们还使用NMI评估不同模型生成的用户兴趣与用户实际兴趣之间的语义一致性。从桌子上2.,我们可以看到NMI通常较低。但是,ITM再次明显优于其他模型。同时,推文上LDA、DTM、TTM和LDA-U的NMI非常低,表明这三种模型无法为短文本推文建立良好的主题表示。从Flickr和Instagram上每个模型的NMI来看,PGMult没有UCIT-L在三个数据集上的NMI低于我们的NMI,这表明如果用户的兴趣与追随者的兴趣不密切相关,UCIT-L在基于短文本挖掘长期兴趣方面的性能是有限的。

4.3.基于变形兴趣模型的融合性能分析及结果

第二个实验将基于形变兴趣模型的用户长期兴趣和情景兴趣结合在三个数据集上,并与LDA、LDA- u、DTM、TTM、PGMult、UCIT-L的结果进行比较。频繁模式挖掘、LDA、LDA- u、DTM、PGMult、UCIT-L的实验参数设置与第一次实验相同。DIM的实验参数设置如下:(1)DIM:对于DIM,我们设置初始变形系数 , 以及初始偏差 利息的数量设置为与其他四个模型相同。数字4.显示了Flickr、TWEETS和Instagram对于不同主题数字的困惑。可以看出,DIM的困惑度始终低于LDA、LDA- u、DTM、TTM、PGMult和UCIT-L。从表中可以看出3.在不同的数据集上,DIM的分类精度始终高于LDA、LDA- u、DTM、TTM、PGMult和UCIT-L。从表中可以看出3.从NMI的角度来看,DIM的性能也明显优于其他模型。用户兴趣包括用户长期兴趣和情境兴趣。情境性兴趣被认为是由环境中的某些条件或刺激触发的。它是一种相对被动、短暂的情绪状态,因此情境兴趣不仅是用户的短期兴趣,还包括当前的热点话题。LDA、LDA- u、DTM、TTM、PGMult、UCIT-L等型号默认用户兴趣不受环境影响,将用户的长期兴趣视为用户兴趣。DIM结合了用户的长期兴趣、短期兴趣和当前热点话题。社交网络吸引用户的特点之一是信息的共享和交换。这一特性决定了环境对用户兴趣进化的影响很大。从表2.3.,在TWEETS上,DIM的分类精度较ITM有很大的提高,而在其他两个数据集上,DIM的分类精度与ITM相比几乎没有变化。这是因为TWEETS的内容更容易受到情境利益的影响[34],尤其是社会热点话题,Flickr和Instagram聚集了更多的摄影师,他们的兴趣相对稳定4.结果表明,在不同的数据集上,ITM、LDA-FP、KB和DIM的描述精度较高。可以看出,在TWEETS上,用户发送的TWEETS关注的是社会热点话题。因此,DIM是描述用户兴趣的通用模型,使用DIM挖掘用户兴趣更符合真实的用户兴趣。


精度 敝中断
Flickr 推特 Instagram Flickr 推特 Instagram

乔治。 0.58 0.71 0.58 0.03 0.05 0.03
LDA-U 0.65 0.79 0.69 0.07 0.08 0.08
PGMult 0.70 0.76 0.75 0.10 0.06 0.10
DTM 0.68 0.81 0.70 0.08 0.09 0.09
TTM 0.70 0.85 0.73 0.10 0.11 0.10
UCIT-L 0.72 0.86 0.75 0.10 0.13 0.10
暗淡的 0.79 0.94 0.81 0.15 0.20 0.13


Flickr 推特 Instagram

LDA-FP 0.70 0.81 0.73
KB 0.21 0.95 0.30
ITM 0.78 0.90 0.81
暗淡的 0.79 0.94 0.81

从数据4.5.,可以看出,DIM虽然带来了稍高的时间成本,但明显降低了perplexity。模型表现最佳时( ),在DIM上花费的时间也不超过3分钟。随着工业技术的发展,计算机的计算能力迅速提高,这是可以接受的。

4.4.基于可变形兴趣模型的自适应更新性能的结果和分析

在第三个实验中,基于可变形兴趣模型在三个数据集上自适应调整子兴趣的变形程度,并将实验结果与静态DIM的结果进行比较。两个模型的子兴趣以相同的方式生成。DIM实验参数设置与t第二个实验。剩余的实验参数设置如下:(1)Static-DIM:模型固定利率权重,将长期利率权重设为 ,短期利率权重为 ,和热门话题权重一样 根据经验

数字6.显示了Flickr、TWEETS和Instagram对不同主题编号的困惑。可以看出,DIM的困惑度始终低于静态DIM。可以从表中观察到5.在不同的数据集上,DIM的分类精度始终高于static-DIM。从表中可以看出5.从NMI的角度来看,DIM的性能也明显优于static-DIM。我们可以得出这样的结论:这三个子利益的地位是平等的,这意味着它们的影响不是静态的。不难发现,用户会为社会热点话题拍照,甚至产生新的兴趣。固定兴趣不仅能够正确描述子兴趣与真实兴趣、子兴趣与子兴趣之间的关系,而且表明用户兴趣只能发生轻微的变化,不可能更新,这显然是不现实的。总的来说,我们的实验结果表明,该模型的perplexity降低到0.378,平均准确率提高到94%,平均NMI提高到0.20,证明了该模型可以有效地挖掘用户兴趣,特别是对于具有离散语义的短文本流。


精度 敝中断
Flickr 推特 Instagram Flickr 推特 Instagram

Static-DIM 0.73 0.71 0.75 0.10 0.06 0.09
暗淡的 0.79 0.94 0.81 0.15 0.20 0.13

5.结论

在本文中,我们提出了一种新的基于可变形兴趣模型(DIM)的方法来模拟动态社交网络中用户兴趣的演化。我们引入了时间因素并利用复杂的兴趣跟踪模型(ITM)它基于两层贝叶斯模型来描述动态用户长期偏好,与传统模型相比,它不仅在不增加潜在变量数量的情况下描述了用户长期兴趣的演化过程,而且将注释词映射到频繁模式空间来解决稀疏性问题然后通过DIM获得结合长期兴趣和情境兴趣的用户兴趣。与传统模型相比,DIM提出了一个目标函数,该函数不仅充分考虑了用户真实兴趣的构成,而且自适应地更新了长期兴趣、短期兴趣和情境兴趣的影响关于用户兴趣的热点话题。我们从困惑度、准确性和NMI方面评估了所提出模型的性能,并与最新的模型进行了比较。实验结果证明了所引入模型的有效性。这启发我们,该模型可以应用于图像检索或电子商务领域o用户可以快速找到符合其兴趣的图片或商品。它还可以用于社交网络,向用户提供符合其兴趣的信息流。

在未来的工作中,我们打算使用可变形兴趣模型(DIM)来标注用户感兴趣的图像区域。与以前的大多数工作一样,如何计算图像和文本之间的跨模式相似度也是一个挑战。因此,我们未来的工作是通过扩展本文提出的模型来研究这个问题。

数据可用性

用于支持这项研究结果的数据包括在文章中。

利益冲突

作者声明他们没有利益冲突。

致谢

本研究得到中国国家自然科学基金(61672108)的资助。

工具书类

  1. A.Krapp,“兴趣发展的结构和动态方面:从个体发育角度的理论考虑,”学习与指导,第12卷,第4期,第383-4092002页。浏览:出版商的网站|谷歌学术搜索
  2. D.M.Blei,A.Y.Ng和M.I.Jordanet,“潜在狄里克莱分配,”机器学习研究杂志,第3卷,第993-1022页,2003。浏览:谷歌学术搜索
  3. D. M. Blei和J. D. Lafferty,“动态主题模型”,刊于第23届机器学习国际会议记录,第113-120页,美国宾夕法尼亚州匹兹堡,2006年。浏览:谷歌学术搜索
  4. T.Iwata,S.Wanatab,T.Yamada等人,“分析消费者购买行为的主题跟踪模型”,年第18届国际人工智能联合会议论文集,第1427-1432页,美国纽约州纽约市,2009年。浏览:谷歌学术搜索
  5. S.W.Linderman,M.J.Johnson和R.P.AdamsC.Cortes,“使依赖多项式模型变得容易:通过polya伽马增强打破棍棒”,第3456-3464页,NIPS,加拿大温哥华,2015年。浏览:谷歌学术搜索
  6. C. Wang, D. Blei, D. Heckerman,“连续时间动态主题模型”,2012。浏览:谷歌学术搜索
  7. Song、Li Q.D.和Bao H.Y.“检测推特主题之间的动态关联”,在第21届国际万维网会议论文集,第605-606页,美国纽约州纽约市,2012年。浏览:谷歌学术搜索
  8. G. P. Nicholas, G. S. James,和W. Jesse,“使用Polya-gamma潜变量的逻辑模型的贝叶斯推理”,美国统计协会杂志,第108卷,第108号504, pp. 1339-1349, 2013。浏览:谷歌学术搜索
  9. A. Acharya, J. Ghosh,和M. Y. Zhou,“动态环境的双马尔科夫链主题模型”,发表于第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集,第1099-1108页,美国纽约州纽约市,2018年。浏览:谷歌学术搜索
  10. 桂克强,张建民,张晓明等,“时态话题模型方法及应用研究综述,”计算机科学,第44卷,第5期。2, pp. 46-55, 2017。浏览:谷歌学术搜索
  11. S.Tobias,“兴趣、先前知识和学习,”教育研究述评号,第64卷。1, 1994年第37-54页。浏览:出版商的网站|谷歌学术搜索
  12. A. Chen, P. W. Darst,和R. P. Pangrazi,《情境兴趣及其来源的检验》,英国教育心理学杂志,第71卷,第71期3,页383 - 400,2001。浏览:出版商的网站|谷歌学术搜索
  13. S. Hidi,“兴趣及其作为学习精神资源的贡献”,教育研究述评,第60卷,第4期,第549-571页,1990年。浏览:出版商的网站|谷歌学术搜索
  14. A. B. Dieng, F. J. Ruiz,和D. M. Blei,“嵌入空间中的主题建模”,2019,https://arxiv.org/abs/1907.04907浏览:谷歌学术搜索
  15. H.M.Wallach,“主题建模:超越文字袋”,摘自第23届机器学习国际会议记录,第977-984页,中国北京,2006年。浏览:谷歌学术搜索
  16. Wang,A.McCallum和Wei,“主题n图:短语和主题发现,及其在信息检索中的应用”,年第七届IEEE数据挖掘国际会议论文集,页697-702,中国,北京,2007。浏览:谷歌学术搜索
  17. P.Jhnichen,F.Wenzel,M.Kloft和S.Mandt,“可伸缩的广义动态主题模型”,年国际人工智能和统计会议论文集,第1427-1435页,加那利群岛,西班牙,2018年。浏览:谷歌学术搜索
  18. U. Yun, D. Kim, E. Yoon和H. Fujita,“数据流上基于阻尼窗的高平均效用模式挖掘”,以知识为基础的系统,第144卷,第188-205页,2018。浏览:出版商的网站|谷歌学术搜索
  19. D. Kim和U. Yun,《基于时间衰减模型挖掘高效用道具集》,智能数据分析,第20卷,第5期,第1157-1180页,2016年。浏览:出版商的网站|谷歌学术搜索
  20. G. Lee和U. Yun,“在动态增量数据库上使用列表数据结构的单次有效可擦除模式挖掘”,新一代计算机系统,第80卷,第12-28页,2018年。浏览:出版商的网站|谷歌学术搜索
  21. U. Yun和G. Lee,“动态数据库中加权最大频繁项集的增量挖掘”,专家系统与应用, 2016, vol. 54, pp. 304-327。浏览:出版商的网站|谷歌学术搜索
  22. A. B. Dieng, F. J. R. Ruiz, D. M. Blei,“动态嵌入式主题模型”,2019。浏览:谷歌学术搜索
  23. R.Bamler和S.Mandt,“动态单词嵌入”,在第34届国际机器学习会议记录,第380-389页,澳大利亚悉尼,2017。浏览:谷歌学术搜索
  24. M. Rudolph和D. M. Blei,“语言进化的动态嵌入”,收录于2018年万维网大会论文集,第1003-1011页,瑞士日内瓦,2018年。浏览:谷歌学术搜索
  25. S. Liang, E. Yilmaz和E. Kanoulas,“协作跟踪用户在短文本流中的聚类兴趣”,IEEE知识与数据工程汇刊第31卷第1期2, pp. 257-272, 2019。浏览:出版商的网站|谷歌学术搜索
  26. J.Han,J.Pei,Y.Yin和R.Mao,“挖掘频繁模式而无需候选生成:一种频繁模式树方法,”数据挖掘和知识发现,第8卷,第1期,第53-87页,2004年。浏览:出版商的网站|谷歌学术搜索
  27. 张国强,王国强,郝建新等,“中国智能旅游地图研究:基于CiteSpace的语义和社会网络分析”,年第十三届国际服务系统和服务管理会议论文集,中国昆明,2016年。浏览:谷歌学术搜索
  28. 杨建军,程程,沈思生等,“复杂网络分析软件的比较:citespace SCI2和Gephi的比较”,发表于IEEE大数据分析国际会议(ICBDA)议程,页169-172,北京,中国,2017。浏览:谷歌学术搜索
  29. h·李,统计学习方法,清华大学出版社,北京,2012。
  30. P. F. Felzenszwalb, R. B. Girshick, D. McAllester,和D. Ramanan,“基于区分训练的部件模型的目标检测”,模式分析与机器智能学报,第32卷,第9期,第1627-1645页,2010年。浏览:出版商的网站|谷歌学术搜索
  31. 刘强,“基于hownet的词语相似度计算”,IJCLCLP,第7卷,第2期,2002年。浏览:谷歌学术搜索
  32. B.Thomee,D.A.Shamma,G.Friedland等人,“YFCC100,”ACM的通信,第59卷,第2期,第64-73页,2016年。浏览:出版商的网站|谷歌学术搜索
  33. C. D.曼宁,P. Raghavan和H. Schutze,信息检索概论,剑桥大学出版社,英国剑桥,2008年。
  34. L.Hong和B.D.Davison,“推特主题建模的实证研究”,年第一届社交媒体分析研讨会论文集,第80-88页,华盛顿特区,美国,2010。浏览:谷歌学术搜索

版权所有©2020王晓茹等人。这是一篇发布在知识共享署名许可协议,允许在任何媒介中不受限制地使用、分发和复制,前提是原作被正确引用。


更多相关文章

PDF 下载引文 引用
下载其他格式更多
订购印刷品顺序
的观点113
下载148
引证

相关文章