文摘
用户微博用户推荐的影响是一个非常重要的因素在移动社交网络。然而,大多数现有用户影响力分析工作忽略用户的时间特性和无法过滤营销用户影响力较低,这限制了性能的推荐方法。本文基于张量分解用户提出了集群(TFUC)模型。我们首先确定潜在影响力的用户通过神经网络聚类。然后,我们构造一个特征张量根据潜在影响力的用户的意见,活动,和网络中心信息。此外,用户影响预测的潜在因素造成颞克制CP分解。最后,我们建议微博用户考虑用户的影响力和内容相似。我们的实验结果表明,该模型显著提高推荐性能。与此同时,意味着平均精度TFUC优于基线至少为3.4%。
1。介绍
微博服务,如Twitter或微博,已经成为最受欢迎的个人信息交换平台的发布消息或评论多达140个字符。移动设备的快速增长,微博已经创建移动应用程序提供用户即时和实时访问来自任何地方他们可以访问互联网。为例,截至2017年9月,新浪微博平台的每月活跃用户数量超过3.76亿人,约92%的用户通过手机认证和/或平板电脑。微博中存在大量的有价值的内容生成的数据。然而,由于在微博平台上的迅速增长的人口,大多数用户面临信息过载的严重的问题1]。它很难找到理想的信息使用移动设备。在这种情况下,推荐相关用户减轻洪水的信息似乎是非常重要的用户(2]。
用户可以对她的偏好提供有价值的线索,从而影响是必不可少的对于推荐微博用户在移动社交网络3]。因此,将用户对推荐系统的影响证明了提高推荐性能和接收大量的关注。李等人。2考虑社会影响和间接的结构关系,提出了主题级社会Influence-based mircoblog建议让用户预测模型。江et al。4]证明了用户的决策信息采用可以影响个人偏好和人际关系影响,然后综合这两个因素来构建一个可扩展的算法在线行为的预测。陈等人。5)利用微博内容,用户的社会关系和明确的特点,然后提出了一个协同排名模型推推荐任务。燕et al。6)提出了一个用方法秩tweet和它们的作者同时利用几个网络,即。、用户网络微博网络,网络关系两方面结合在一起。因此,它是重要的来分析用户在移动社交网络的影响力并将其集成到推荐框架。
存在一些先锋研究在移动微博平台用户的影响分析。Velissarios et al。7)提出了四种不同的指标为强调Twitter内容特点和每个用户的追随者的行为,然后识别出有影响力的用户通过综合指标考虑用户的关系和她的利率。毛等。8]介绍了学习型方法分析和测量用户的社会影响通过预测用户的传播信息的能力。从社会网络结构提取的信息和用户行为因素相结合的方法来获得更好的性能。夏et al。9]解释扩散的传播机制的影响用户的情感。大卫et al。10]分析了概率的一个用户激活另一个用户。然后,他们把该用户的其他特性获得影响得分。Cai et al。11)提出了一个OOLAM模型来衡量用户的意见影响,他们分离用户交互图分为两部分,正面图和负面的图。他们排名用户网页级别类似的算法。上面这些方法综述探索用户从用户的角度来看,影响了低精度在特定主题。
最近,各种研究级别的用户参与调查主题的影响。这些研究显示,大多数信息被创造和扩散方面的话题。用户影响力可以测量更精心的话题。因此,主题层次用户影响力分析受到研究者越来越多的关注。翁et al。12]提出了TwitterRank计算用户影响力得分根据图结构和主题相似。崔et al。13]介绍了使用概率混合系数矩阵分解项目水平的影响。陈等人。14]MIRC算法提出了一种可以区分用户在不同的组。他们的实验结果表明,不同的影响角色可能有更强的影响水平在他们自己的角色。王等人。15计算用户影响有四个特性,即。,Expert, Leader, Social, and Similar, and then applied user influence to group recommendations. Wei et al. [16)把用户的意见和主题相关性考虑在内,然后预测用户根据产生的潜在因素影响张量分解。
然而,大多数主题层面上研究用户影响力分析只考虑用户的显式特性,可以获得用户的概要文件直接(14,15]。特别是,这些现有的工作忽略了时态特征可以从交互获得(17]。此外,张量分解算法的用户影响力分析往往给低传播能力用户高排名得分,因为它减少了关键因素维度通过保留。本文基于用户集群(TFUC)的张量分解模型(18)提出了建议用户根据一个特定的主题。TFUC模型首先集群有影响力的用户到某一组根据他们的时间特征。然后,我们测量用户的时间影响成绩的克制CP分解的有影响力的集群。最后,用户的影响力和内容相似度综合推荐用户对于一个给定的话题。新浪微博数据集的实验结果表明,用户影响力排名TFUC精度比现有的模型,如TwitterRank OOLAM, HF_CP_ALS。此外,我们建议TFUC模型可以显著跑赢基准方法根据推荐精度。
这是我们以前的工作的延伸(18),我们提出了一种基于张量分解的用户影响分析方法。在本文中,我们解决的问题,建议用户在移动社交网络和声称用户用户推荐的影响是一个非常重要的因素。我们扩大了实验数据集和增加了实验的建议。总而言之,工作的主要贡献如下。
(1)潜在影响用户识别神经网络聚类模型。这个模型可以过滤前营销用户较低影响构造张量,这是证明显著提高推荐的效果。
(2)TFUC提出的模型是将时间特性,从而提高用户推荐精度。特别是我们的方法整合时间特性通过张量模型,预测用户影响使用时间限制CP分解,最后建议用户考虑用户的影响力和内容相似。
(3)我们使用真实世界的腾讯微博的数据集进行大量的实验来验证我们提出的建议的方法的有效性。实验结果表明,该方法可以大大提高推荐精度和超越基准的方法。
剩下的纸是组织如下。推荐的问题是部分中定义2。该模型为用户提出了部分建议3。实验进行的部分4。我们结束工作部分5。
2。问题公式化
众所周知,人们倾向于相信一个用户在社交网络具有很高的社会影响力。因此,我们用户影响力分析推荐项目申请用户根据不同的主题在社会媒体。在这篇文章中,指的是用户的条目。
我们在微博表示物品 ,在那里是条目的数量。与此同时,用户与这些物品被指示为互动 。推荐系统有两个核心要素:项目特征模型和特征模型的用户。我们描述每一个项目作为 和描述每一个用户作为 。
这项工作的目标是计算项目之间的相似性和用户,为用户推荐最相似的项目。特别是,我们应用影响分数的物品,同时计算相似度来验证是否影响评分用户越高,越有可能他的建议被接受。获得这些影响分数,我们介绍一些必要功能的用户,如粉丝的数量和文章的数量。因此,我们让 代表用户的特点和粉丝 代表用户的特征。每一个互动和包含当它发生的时候,我们现在这个数据 。
指Varun的理论(19),我们几乎不能从单一的方面得到用户的影响得分。因此,我们从四个方面分析用户的影响如下。
(1)用户的传播能力:获得传播能力的用户在社交网络是一个重要的目的。这种能力通常是计算时间的积累的文档集合 。我们表示这个能力作为 。
(2)用户的舆论力量(20.:一个人的舆论力量捕捉他的整个趋势和社会网络的有效性。通过计算所有用户的意见与极地 ,我们可以得到一个意见的 。我们提出这一点 可以从文档集合进行分析 。
(3)用户的粉丝活动(21]:用户提供更高水平的活动可能造成更大的影响到其他用户在微博社交网络。在我们的工作中,我们把文章所发布的数量作为他的活动。我们可以获得的全球球迷活动通过积累曾经与任何互动的活动 。在形式上,我们定义 作为的全球球迷活动,是集用户的发布功能。
(4)用户的网络中心:根据(9,22),用户有较高的影响可能有更多数量的球迷。如果用户有更多的球迷,这意味着该用户发布的信息可能更广泛的传播。这种扩散效应被称为网络中心和表示 。
总的来说,我们形式化的用户影响力分析如下:给定一个主题 ,我们的目标是找到一个映射 。用户影响力得分计算通过聚合四个用户的功能 。在计算所有基本用户的影响成绩,我们可以获得一个用户影响排名按影响分数。
3所示。推荐与用户的影响分析
在本节中,我们提出一个用户影响力分析模型(18),然后将其集成到推荐信。高影响力的用户可以在短时间内获得大量的评论。用户更喜欢接受有影响力的用户(指项目)当他接收通过推荐系统推荐用户。因此,推荐系统的性能将得到改善,涉及项目的影响。由于在低等级用户基于分解的方法执行不佳,我们设计一个两个步骤的方法进行影响分析。在第一步中,分数低影响集群识别神经网络聚类方法。在第一步中,用户影响预测的张量分解方法。
3.1。神经网络聚类模型
用户的全球影响力由多个独立的影响特性,即。、传播能力、舆论力量,球迷活动,和网络中心。影响力排名会有更多高的用户评论和强大的舆论力量,更中心的网络。在此基础上,我们第一次数据分割成集群和过滤用户影响力较低 。我们首先描述我们如何获得这四个用户的功能。
(1)让表示用户的数量与之交互 。在一个时间窗口 ,我们可以得到之间的延迟时间的第一个交互发生在和时间的与之交互根据(23)如下:假定延迟 指数分布形式像吗 ,在那里是传输速度参数。传输速率参数捕获能力,有多宽网络中用户可以达到,因此计算过程 在哪里基本的用户和吗是用户与之交互”,指标函数 是1,如果 是真的和0。方程(2)导致的总次数有相互作用和(3)捕获时间的积累这些交互。后计算 ,我们可以推断出时间的积累按照聚合函数:
(2)每个用户将显示一个意见两极之间的交互的交互行为,可以推断出他和基本的用户。因此,我们可以得到全球舆论的力量通过积累所有的意见极相互作用。我们利用(5)获得舆论的力量 : 指标函数是1,如果曾经表示消极的交互行为和1如果曾经表达了非负交互行为。
(3)正如我们前面定义,的球迷活动相关的文章总数是指由他所有的粉丝。根据这个定义,我们可以获得的球迷活动如下:
(4)记得,粉丝的用户的数量可以直接从 ;我们计算用户网络中心的如下:
我们现在讨论如何分区的用户根据这四个影响到集群功能。输入样本的方法 。每个样本包括四个特性,我们获得之前。我们表示每个样本 ,在那里是 ,分别。让表示多个聚类中心。每个中心有四个元素,即 。的聚类问题,损失函数 在哪里的聚类中心吗和是输入和夹层之间的重量。
我们更新每个使用随机梯度下降法。 在哪里 把(10)(9),我们有
我们为每个批处理更新聚类中心 在哪里聚类中心是一个指标函数吗结果是1属于集群和0。分母(12)是一个计数函数返回的样本数量集群 。
3.2。结构张量用户的影响模型
影响我们每个集群分配给一个特定的类别。具体来说,任务的潜在影响力的用户选择结构张量模型。用户在这个集群表示 ,在哪里 。我们的用户影响模型由3-order张量表示 ,在那里用户的数量在吗 , 评论用户的数量在吗 ,和是影响的数量特征。张量分解通常是用来预测的分布数据和数据的潜在功能。张量是广泛应用于许多研究领域,如天气预报、事件预测(24)、信息推荐(25),和图像处理26- - - - - -28]。最后,我们把这些特征影响到每个张片。
(1)用户的意见片:这片显示每个用户的交互意见在详细地;也就是说, 在哪里是一个指标函数一样的函数(5), 。
(2)球迷活动的用户:在这片,用户与之交互将有一个活动的影响 。因此在这片可以表示为每一个元素
(3)中心的用户:如前所述3,我们现在用户的网络中心的扩散能力,可以由他的邻居的总数;也就是说,
3.3。张量的用户影响模型的分解
张量的 的损失函数rank-R CP分解(29日,30.)是
相应的随机优化问题的目标函数
然而,时间影响功能忽略了这个问题。因此,时间约束添加到用户的矩阵。所以影响评分的用户传播能力强会增加用户的评分postfrequently接收一些评论。新的损失函数写成 在哪里是时间约束矩阵可获得(4)。对角线,主对角线元素是什么 在哪里用户在 。
目标函数是
根据提出的理论Acar et al。31日),我们可以得到 在哪里模式1展开, ,Khatri-Rao积吗和 。同样的,我们可以 , , , 。
我们可以获得更新的规则用(21)随机梯度下降法如下: 在哪里步长。的更新规则类似于 。我们给的更新规则由于空间限制。
3.4。测量用户的影响
我们现在讨论如何计算用户的影响力得分利用张量分解的结果。用户的影响可以从三个不同的计算影响分数。(1)分用户的意见的力量: (2)分用户的粉丝活动: (3)网络中心:分
在哪里的期望是 。我们统一每个影响分数使用min-max规范化方法,分别。然后,我们使用最终影响得分结合这三个标准化成绩如下:
我们添加一个用户主题相似性度量结合函数来增加用户的影响主题相似性较高的分数。这一主题相似性度量都将在后面的部分解释。
3.5。推荐模型与用户的社会影响力
在本节中,我们为用户推荐项目通过使用基于内容的推荐算法在腾讯微博的数据集。这个数据集的物品的人,组织,或组在现实世界中。起初,我们获得用户的偏好和利益谁应该接受建议。用户的偏好和利益分析的文章和评论。之后,我们建立了用户特征模型基于这些偏好和利益。其他基本流程是建立项目特征模型。为了适应数据集,我们使用的偏好和利益项目的特点。基于这两个模型,我们计算用户之间的相似性和物品。此外,我们结合项目的排名指标相似,称之为influence-similarity。最后,我们根据influence-similarity为用户推荐项目。
有两个核心部分上述基于内容的推荐流程:用户特征模型和项目特征模型。由于用户和个人用户的项目都是腾讯微博的数据集,我们代表每个用户一个特征向量通过TF-IDF方法。在形式上,我们表示用户向量 ,在那里是一个词,从文章中提取和评论哪些用户曾经发布了,这个词的对应的重量吗在文本集合。重量计算TF-IDF方法如下: 在哪里是单词的次数出现在文本 , 文本的单词的总数吗包含,的文本数据集的总数,然后呢文本包含词的数量吗 。
下一步是计算用户之间的余弦相似性和物品。例如,在计算用户之间的相似性和项目 ,我们有
然而,当(33)采用计算用户之间的相似性和项目 ,它不采取项目的影响要考虑进去。因此,我们添加的影响排名的指标项到原始的余弦相似性。因此,高等影响评分的项目可以被推荐的概率更高。项目的影响的余弦相似性是计算如下: 在哪里是影响排名的指标项在它的领域。
4所示。实验
4.1。数据集
在本节中,广泛的实验是进行两种流行的微博平台在中国,即。,新浪微博和腾讯微博。
新浪微博的数据集,我们第一次爬2015个基本的用户在不同的主题,包括法律、篮球、经济和健康。我们爬这些用户的信息和所有的这些用户张贴文章10月31日,2016年12月1日,2016年。新浪微博的基本统计数据集显示在表1。我们手动标注用户的影响力排名根据(16]。在这个数据集,两个用户之间的交互存在发表评论。如果评论在的文章,在他们之间产生互动。存在之间的延迟时间发布文章和时间对本文发表评论。因此,我们可以获得颞特点在此基础上延迟。此外,主题相似性度量(29日)获得一样的16]。
腾讯微博的数据集,我们获得它从KDD Cup 2012,跟踪1。这个数据集包含大约6095高影响用户在不同的主题。这些用户在这个数据集被称为“项目”。大约有73209277推荐日志数据集。建议发送到每个用户对应一个用户配置文件,比如他的性别,他文章的数量,和关键词提取他所有的文章。我们可以推断出用户的粉丝数量从关系网络在这个数据集。在这个数据集,两个用户之间的交互是目前推荐。这种交互包含两个重要信息,即。、可接受性和时间戳。因此,我们可以获得的舆论力量和时间特性根据(5)和(3),分别。为了方便实验,我们选择高影响用户在四个主题和时间窗口从10月12日,2011年,2011年10月13日。表2显示该数据集的基本统计数据。在这个数据集,主题相似性度量(29日)是根据Jaccard获得相似的特征集。
4.2。基线
我们比较TFUC以下基准:(我)TwitterRank [12),计算用户根据用户的交互影响在一定的话题。(2)TwitterRank_C,我们应用TwitterRank计算用户影响集群基于潜在影响力的用户通过我们的集群模型。(3)OOLAM [11),这是一个交互的网页级别类似的方法分为积极的和消极的部分,这样用户的意见影响都是积极的和消极的部分计算,分别。(iv)OOLAM_c,我们使用潜在影响力用户构建积极的和消极的图,分别。(v)OOLAM_SM,用户的主题相似度是OOLAM考虑。(vi)OOLAM_SM_C,集群模型在OOLAM_SM补充道。(七)HF_CP_ALS [16),这是一个张量模型,用户的意见和主题相关性的考虑。(八)HF_CP_ALS_C,集群模型在HF_CP_ALS补充道。(第九)CP_SGD,低影响用户不过滤当我们构建用户的张量。
此外,我们需要验证是否推荐系统的性能与影响比推荐系统没有一个更好的性能;我们选择一个简单的推荐算法,即。内容(BC)算法的基准。
4.3。评估
评估包括3精度评估和排名2推荐精度评估。 在哪里是真正顶级的集合-用户和是最高的预测集-用户。 在哪里表示th等级和表示用户的数量。 在哪里是一个特定的主题和表示数量的话题。
两个推荐精度评估如下: 在哪里是一个特定的主题,主题的数量,代表用户的数量需要推荐。是一个公认的指数,它的值是1,如果th用户曾经接受时向其他用户推荐和0。
方程(38)是单个主题的平均精度;它反映了模型的性能在一个单一的主题。方程(39)反映了主题模型的整体性能。越高高等影响分数,用户更有可能被其他用户所接受。
4.4。精度用户影响排名的结果
的新浪微博数据集的不同的方法如表所示3。的我们的方法是最佳的除外在法律上的话题。详细分析实验结果,我们分别与每个基线比较我们的方法。从表可以看出3,我们的方法优于TwitterRank,验证一个用户与强大的舆论力量,许多活动的粉丝,和高传播能力会有影响力。我们的方法的精度高于OOLAM至少10%,这表明用户与传播能力和主题相似性高的分数有很大影响。在OOLAM_SM颞特性是被忽视的,所以它比我们的方法执行。HF_CP_ALS也没有考虑时间的特性,所以用户传播能力无法得到高分数高的影响。CPSGD比较,我们的方法的精度提高了至少10%,这意味着过滤一些低影响力的用户可以提高性能。
此外,我们还计算了和为每个方法。图1显示的精度不同 。的当高曲线下的面积更大。细节和每个方法中可以看到表4。我们的方法比其他基线除了OOLAM篮球的话题,我们的方法是最好的在所有的地图的方法。我们可以得出结论,我们的方法比其他基线性能更好。
4.5。用户在推荐的影响
在前一节中,我们证明了TFUC优于其他基线。在本节中,我们应用TFUC检索用户的影响力得分在腾讯微博的数据集。之后,我们用户根据这些分数排名。对于每一个基本用户在这个数据集,我们通过计算所有获得推荐结果推荐日志。如果他的建议曾被其他用户接受成功,他的推荐结果可能存在1和0。通过计算之间的相关系数影响排名,结果列表,我们可以告诉影响分析方法用于推荐更接近实际情况。
在推荐任务中,我们也第一次认识到潜在的有影响力的用户通过TFUC模型。现在我们讨论如何获得用户功能来生成聚类模型。
(1)数据集所描述,给出了两个用户之间的交互,建议在腾讯微博的数据集,这种交互包含时间信息。因此,我们可以获得基本的用户的传播能力从这个时间信息(3)。
(2)由于缺乏直接的意见信息在腾讯微博的数据集,我们现在接受建议用户基本用户的意见。在这种情况下,我们可以获得基本用户的舆论力量根据(5)。
在得到这四个用户的特性,TFUC模型分区用户到不同的集群和结构张量模型基于用户的潜在影响力的用户群。将张量分解模型后,所有用户的影响力分数可以预测根据(29日)。
计算精度的建议,我们需要获得成功接受列表。在腾讯微博的数据集,如果一个接受了推荐的实体 ,推荐系统将这种交互记录到日志。通过计算用户成功接受其他用户在日志文件中,我们可以得到一个验收清单。
最后,我们可以得到一个精确的建议比较影响列表和验收根据列表(39)。图2和表5显示结果。
从图可以看出2和表5结合用户的推荐结果影响排名从我们的方法有类似的性能获得OOLAM方法在每一个主题。然而,我们的方法显示了更好的整体性能在四个主题。此结果表明当影响成绩的添加时间特征和主题相似性应用推荐系统,项目具有更高的影响力更容易接受。的值的方法比OOLAM_SM提升2%到8%。上述结果反映出,当时间特征被认为是,项目影响排名更好的适应实际的推荐结果。我们的方法的推荐精度高于HF_CP_ALS方法也证实了上述结论。与CP_SGD方法相比,我们的方法改善了在每一个主题的价值。这是由于这样的事实,我们过滤的影响低影响但高活动营销项目的建议有低概率被接受。
基于上面的分析,我们可以得出结论,高影响物品从我们的方法获得更大范围的概率被用户接受。因此,我们将推荐系统与项目从我们的方法获得的影响。首先,我们计算结果列表建议rec_log_train数据集的主题“1.6.2.1”、“1.1.2.1”、“1.2.2.1”,“1.12.4.5”。我们下一个计算用户之间的influence-similarity结果列表和项目建议。然后,我们选择100强最相似的结果作为我们的建议为用户和计算平均在每个主题推荐精度。最后,我们获得通过融合平均每个主题的推荐精度。的14.5基于内容的推荐方法。的当TFUC综合提高到15.5。这表明可以提高推荐系统的性能的影响。
5。结论
本文的推荐任务分析是参与微博用户的影响力。我们介绍了两步方法进行影响分析。首先,将用户划分为若干个有影响力的部分和你部分。然后,我们预计CP与随机梯度下降法分解,加速分解。此外,时间约束矩阵也是参与用户因素矩阵分解。最后,我们应用TFUC模型为用户推荐项目根据项目的影响。实验结果表明,TFUC优于其他基线至少为3.4%。在腾讯微博的大量实验数据表明,推荐系统的精度提高,当我们将推荐系统与项目的影响。
有许多潜在的这个工作未来的发展方向。首先,用户或项目摘要的时态特征是粗略的估计。原因在于,我们假设交互的延迟满足指数分布。我们不进行深入研究的其他时间积累模型。在微博这种歧义可以进一步加剧。此外,我们的工作仍然是原始的推荐算法的挑战包括如何设计一个更现实的推荐算法和用户影响力方面结合起来。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
本研究项目是由中国国家自然科学基金(没有。61772135也没有。U1605251),重点实验室开放项目的网络数据科技中国科学院(没有。CASNDST201606也没有。CASNDST201708),董事可信赖的分布式计算重点实验室基金项目和服务(BUPT)教育部(没有。2017 kf01)。作者感谢林Gui和黄Kam-Fai TFUC合作模式。