衡量用户亲密矿业最大信息传输路径

文摘

互联网已经成为一个重要的信息载体。其数据包含丰富的热事件信息,用户关系和态度,等等。许多企业使用高影响力的互联网用户推销产品,所以它是非常重要的,了解的信息传输机制。挖掘社交网络数据可以帮助人们分析复杂和不断变化的用户之间的关系。这样的传统方法是分析等信息的共同利益和共同的朋友,但是这些数据不能真正描述用户之间的亲密程度。真正连接不同的用户在互联网上的信息。该算法提出了考虑信息传输的动态特性,发现最大的传输路径信息传输的结果,最后计算用户之间的亲密度根据所有最大信息传输路径在一定时期。

1。介绍

社交网络数据包含了大量的关于事件的信息,人际关系,和态度。的基础上,充分理解和分析数据,一系列的技术,如文本挖掘、统计理论,关联分析,和可视化技术,实现情感取向分析,采用信息提取,用户影响力分析,等等。目前很多方法计算用户的亲密关系可以应用于静态网络。然而,用户可能取消关注某些朋友和他们的利益可能会转移到新的和不同的主题。换句话说,不同用户之间的领带优势随时间变化的。本文提出的算法考虑了数据的动态特性,提高社交网络的信息传播分析。之后,信息传输的最大传输路径识别的结果,然后计算节点之间的亲密度可以根据多个组的最大传输路径。

本文的其余部分组织如下:部分2介绍了本文的相关工作。部分3提出了信息传输矩阵的概念。部分4介绍了计算系力量的过程。部分5实验结果。部分6介绍了结论。

许多企业利用有影响力的用户推广新产品,但如何通过网络信息传播的机制仍需进一步研究。是非常重要的理解信息的通信机制,可以应用在许多领域,如病毒式营销、社会行为预测,社会推荐,和社区检测。这些问题吸引了来自不同领域的研究者的注意,如流行病学,计算机科学,社会学,谁提出不同的信息扩散模型来描述和模拟信息传输的过程中,如独立级联模型,线性阈值模型、传染病模型。这些模型主要应用于影响评估、影响最大化,检测和信息来源。大多数模型认识到信息传播从一组源节点和其他节点只能获取信息从源节点的邻居节点集合。

社交网络服务提供商,如Twitter和Facebook,近年来发展迅速,越来越多的用户与他们的朋友共享信息。在Facebook上有超过200万活跃用户每个月都来自世界各地,每天大约50亿个新微博Twitter上。社会网络分析可以分为以下几个方面1,2]:(a)研究网络结构和趋势(3),(b)复杂网络的在线学习4),(c)比较不同模型和(d)预测节点状态(1,5]。社会影响研究的重点是调查邻居和关联预测一个动作的发生和影响的影响(2,6]。

研究人员检查了传输信息,包括人际关系的分析7),社会行动跟踪(1转移[],和其他类型的关系8]。本文构造一个矩阵的算法基于用户之间的信息传递来描述复杂的相关关系。通过使某些矩阵的变化,信息传输路径可以被识别和领带可以计算节点之间的优势。由于小计算困难参与构建一个矩阵,本文提出的算法比其它算法更有效地执行。

3所示。信息传输矩阵

的信息非常有价值,但在那之后它可能一文不值。从信息传播的角度,可以计算用户之间交互的程度。通过分析信息传播路径,可以生成一个信息传输树来描述信息传输规则和被用来分析用户之间的相关性的动态变化。

定义1。让G有一个图表n节点和e边缘。如果然后n×e矩阵元素组成的一个_ij(1≤我≤n1≤j≤e)是构造。米= (一个_ij)_n×e完整的关联矩阵图吗G,即信息传输矩阵。
在这篇文章中,用于构建和更新信息传输数据米。的施工过程米下面给出。
图1描述了节点之间的信息传递关系。如果节点之间有一条边,这意味着它们之间信息已成功传递。否则,没有传递信息。我们构造矩阵米根据图1,它描述了节点和边之间的映射关系。如果有关联N_x和e_y,然后一个_xy= 1。否则,一个_xy= 0。
因为有大量的非活动节点,大部分节点的行为在互联网上浏览信息而行动,如评论和转发是罕见的。因此,矩阵米是一个稀疏矩阵。减少大量的无意义的零的负面影响在随后的矩阵计算,进一步的分析米需要删除冗余节点。节3所示。1,我们将描述一个快速和有效的方法去除冗余节点。

3.1。孤立节点

定义2。如果的行列式n阶矩阵米不为零,即|米|≠0,那么米被称为一个满秩矩阵或满秩矩阵。否则,米被称为奇异矩阵或reduced-rank矩阵。

定义3。节点图G当且仅当连接完整的关联矩阵的秩是什么n−1。订单最小的矩阵{p,问}称为大的子矩阵p×问矩阵。
通过计算是否|米| = 0,我们可以判断节点G连接。降低矩阵D可以通过删除冗余节点米。D是一个满秩矩阵,即|D|≠0。在这个时候,D是最大的完整的关联矩阵。也就是说,新图表中的所有节点G所形成的D可获得的,没有孤立的节点的信息传输。
把矩阵米在图2作为一个例子来说明去除孤立节点的过程。的秩米通过计算得到的最大线性无关的交叉数(即最大非零子矩阵的顺序): 根据上述计算结果,R(米)= 6。这表明孤立节点的存在米。可以看出,行N₇和N₈是 ,所以N₇和N₈是冗余的,孤立的节点。因为原始数据N₆和N₇是相同的,N₇决心成为一个单独的节点被删除,N₆也是一个单独的节点。总之,N₆,N₇,N₈是孤立节点。后删除冗余节点,需要确定是否有冗余边矩阵。因为列e₆是冗余节点被删除后,e₆是一个多余的边缘,需要删除。
矩阵D删除冗余节点后获得吗米。接下来,是否节点D连接必须计算如下: 结果是R(D)= 5。也就是说,|D|≠0,所以D是一个满秩矩阵。的结论是所有节点D是相关的。换句话说,没有孤立节点的信息传输。
发现所有信息传输路径米,有必要进一步确定哪些节点可以初步认为是多余的。删除冗余节点复制到一个新的矩阵米重复上述操作,获得一个矩阵D。最后,多个矩阵D年代。

3.2。信息传输路径

研究信息传输机制,有必要确定所有的信息传输路径信息矩阵。因此,进一步处理的集合D年代是必需的。

定义4。余子式一个通过从完整的关联矩阵删除一行吗D。为一个非奇异的,对应的列的边缘一个必须形成一个生成树的G。
定义4提供一种方法来计算所有生成树的连通图g .通过删除一行从矩阵D然后计算最大化新生成的矩阵的子矩阵非奇异的判定D的边缘对应的列满秩子矩阵形式的生成树G。
矩阵D在前一节中获得的过程作为一个例子来说明识别信息传输路径根据定义4。删除一行D(此处删除行5)矩阵一个: 通过计算的秩一个,我们可以得到R(一个)= 4。这个值表示节点一个是相关的。尽管所有节点与其他节点,可能有多余的边缘。例如,节点N₁,N₂,N₃在图1有三条边,三个节点可以完全互相连接的两个边缘。删除多余的边缘,我们下面的规则应用于矩阵:规则1:我th行矩阵可以加减的jth行规则2:重复的操作规则1,直到没有可操作的项目规则3:矩阵的行向量不可以互换规则4:矩阵的列向量不可以互换通过矩阵的变换,1的矩阵的数量减少,最终获得最简洁的矩阵。此时,矩阵中的节点连接的最小数量的边缘。把矩阵米在图2作为一个例子来说明删除冗余边的过程。矩阵D通过删除孤立节点在吗米,矩阵一个4行5列删除一行从后获得D。矩阵一个是一个满秩矩阵。删除冗余信息传输路径,需要删除一列一个形成多套不同的列组合。不同的列组合{(e₁,e₂,e₃,e₄);(e₁,e₂,e₃,e₅);(e₁,e₂,e₄,e₅);(e₁,e₃,e₄,e₅);和(e₂,e₃,e₄,e₅)}。然后,执行上述矩阵的行变换在每个根据规则。
前两个表中的行1描述的情况下构建矩阵不满足产生最大信息传输路径的判断条件。在第一个组合,边缘(e₁,e₂,e₃,e₄)选择。它是发现的矩阵都是0,所以这条路不包含N₅。也就是说,它不是一个最大信息传输路径,所以的组合(e₁,e₂,e₃,e₄)被删除并停止计算。同样,在第二个组合, ,是0,所以计算结果通过这个结构不包括N₄,也就是说,它不是一个最大信息传输路径。的第三、第四和第五矩阵都是4,所以它们是满秩矩阵满足的条件生成最大信息传输路径。第四列行3、4和5表1显示行转换过程。1号是最低的转换矩阵,这个矩阵没有多余的边缘。列5显示了图结构的矩阵后得到消除多余的边缘。从图表可以看出,本文提出的方法可以用来识别所有最大信息传输路径。


	矩阵	结果	原因未能符合标准/矩阵转换过程相对应的结构计算的结果

1	(e₁,e₂,e₃,e₄)	不满意	原因:在米是0;因此,N₅排除在外,这不是一个最大信息传输路径

2	(e₁,e₂,e₃,e₅)	不满意	原因:在米是0;因此,N₄排除在外,这不是一个最大信息传输路径

3	(e₁,e₂,e₄,e₅)	R= 4; 满秩矩阵

4	(e₁,e₃,e₄,e₅)	R= 4; 满秩矩阵

5	(e₂,e₃,e₄,e₅)	R= 4; 满秩矩阵

4所示。系强度节点之间

根据信息传输的特点,它是合理的假设必须有相同的传输路径中的节点之间的联系。在这里,人们常常认为,如果信息传播在两个节点之间,那么这两个节点之间的亲密程度高。经过一段时间的数据积累,数据最大信息传输路径添加到关联强度矩阵(表示T)。因为建设T根据信息传输流,执行矩阵T也在不断变化与信息传播的变化状态。在矩阵T,T_我,我代表发生数量的节点我在信息传输的过程中T_我,j表示节点之间的信息传输时间我和j。

下面的公式计算节点的重量我:

下面的公式计算节点之间的关系一个和b:

根据公式(5)和(6),计算不同用户之间的亲密程度。中所示的特定算法的算法1。

	输入:矩阵米
	输出:亲密关系图
(1)	生成矩阵D根据矩阵米
(2)	构造矩阵一个从D
(3)	FOREACH满秩矩阵X在矩阵一个
(4)	更新矩阵T根据X
(5)	ENDFOREACH
(6)	计算权重和关系在T
(7)	建立一个图表描述节点之间的亲密程度

5。实验

五个数据集用于本文。数据集的详细信息,请参阅我们的论文(2早些时候发表的。(1)合著者(https://www.aminer.cn/data):一个动态从ArnetMiner合著网络(http://www.aminer.cn/)。我们收集了从2010年到2016年发表的出版物100000作者。(2)DBLP (http://www.vldb.org/dblp/):数据来源于一个快照书目的10年,其中每个顶点代表一个科学家和两个顶点连接如果他们一起工作在一篇文章中写道。(3)推特(https://twitter.com):我们爬以下联系19000,00从Twitter用户在10个不同的时间戳从10月到2017年12月。(4)微博(http://code.google.com/p/weibo4j/):中国最受欢迎的微博网站。在抓取数据从2014年3月8日,当MH370的事故发生在4月8日,2014年。(5)海豚的协会(http://www-personal.umich.edu/∼mejn / netdata /):这个数据集是一个无向社交网络的62只海豚之间的联系频繁,62个节点和159个边缘。

基线的方法选择的三组实验:(1)PTPMF [9:这种方法使用社区重叠近似领带力量和扩展个性化排名(BPR)流行的贝叶斯模型将强和弱关系的区别(2)TrustMF [10):这是一种基于模型的方法,该方法采用矩阵分解技术,将用户映射到低维的特征空间的信任关系,旨在更准确地反映用户的相互影响形成自己的观点和学习更好的优惠模式的用户高质量的建议。(3)SBPR:这种方法提出了一种通用的优化准则BPR-Opt个性化的排名,也就是说,来自一个贝叶斯最大后验估计问题的分析

图3显示了信息传输图像数据处理。它包含38501个节点和20354个边缘。如果合作者中的所有节点数据集被显示在图3图片,然后将黑色和结构将不可见。因此,只有一些合作者中的节点数据集的这个图所示。我们可以看到在图3,它是非常困难的来处理网络数据。

合著者数据集,大多数信息传输路径的长度是2或3。图4显示的路径与合著者数据集的最大长度。

通过构造一个矩阵根据结构在图4和执行算法提出了这个矩阵,它可以发现最大的几组和nonsegmented信息传输路径可以找到,如图5。从图可以看出5,所有的路径都是循环自由和实现所有节点的最大覆盖。因此,图5验证算法的准确性从可视化的角度。

图6描述了所有节点的程度最大的信息传播路径。发现大多数节点的度是1,几个节点的程度大于或等于2,和最高的程度值是13。图6说明该算法实现的最大冗余去除边缘。

不同节点之间的领带系数计算根据信息传输路径。图7显示了领带系数节点。,黑暗的边缘代表节点之间的相关优势和自我节点。较暗的颜色,相关性越强,反之亦然。边缘中的数字代表两个连接节点之间的联系强度,也就是最终结果通过融合多组最大信息传输路径。

为了分析实验结果,我们使用以下测量参数(10]:精密计算P=tp/ (tp+《外交政策》),回忆R=tp/ (tp+fn),F1-score由F=P×R×2 / (P+R)。tp是正确的数量确定的例子,tn是正确的数量确定nonrelated例子,fn是不正确的数量确定了相关的例子,然后呢《外交政策》是不正确的数量确定nonrelated例子。表2显示了一个比较不同的聚类算法的性能在不同的数据集。它显示的性能比较SBPR、TrustMF PTPMF, TieCP使用不同的数据集。根据表2,我们可以得出结论,TieCP最稳定的执行效果和最好的结果F分数。


数据集	SBPR			TrustMF			PTPMF			TieCP
数据集	R	P	F	R	P	F	R	P	F	R	P	F

DBLP	0.73	0.91	0.81	0.84	0.84	0.84	0.88	0.94	0.91	0.89	0.90	0.89
推特	0.63	0.98	0.77	0.76	0.87	0.81	0.80	0.94	0.86	0.83	0.92	0.87
微博	0.84	0.80	0.82	0.76	0.86	0.81	0.81	0.86	0.83	0.87	0.89	0.88
合著者	0.65	0.77	0.70	0.74	0.75	0.74	0.78	0.86	0.79	0.86	0.89	0.87

6。结论

本文提出的算法计算用户之间的亲密度根据信息传输矩阵。一些主流方法相比,我们的方法很简单,能够识别所有的最大信息传输路径。除此之外我们的算法是相对更稳定在处理不同类型的数据。由于小构造一个矩阵的计算困难,本文提出的算法比其它算法更有效地执行。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持中国的国家社会科学基金青年项目(项目名称:研究在线消费者的行为模式和大数据下的多维客户洞察方法;批准号19 cgl024)。

引用

c . Tan j . Tang和j .太阳,“社会行动跟踪时变因素图,通过噪声宽容”第16届ACM SIGKDD学报》国际会议对知识发现和数据Mining-KDD 10ACM,页1049 - 1058年,华盛顿特区,美国,2010年7月。视图:出版商的网站|谷歌学术搜索
l .郭和b .张”,矿业结构影响分析社交网络关系,“自然史答:统计力学及其应用卷,523年,第309 - 301页,2019年。视图:出版商的网站|谷歌学术搜索
m·威灵电机和y w·格兰“通过随机梯度朗之万动态贝叶斯学习,”学报》第28届国际会议上机器学习贝尔维尤,页681 - 688年,佤邦,2011年。视图:谷歌学术搜索
t·史和j·朱”,在线学习贝叶斯被动攻击的,”机器学习研究杂志》上,1卷,页1 - 2014。视图:谷歌学术搜索
l .郭w .左,t·彭”推理网络建设和运动预测诱导依赖关系分析的基础上,“专业软件,11卷,不。1、12 - 17,2017页。视图:出版商的网站|谷歌学术搜索
刘y, z, h . Yu”Advisor-advisee识别基于最大熵模型的关系,“《物理学报》,卷62,不。16日,2013年。视图:谷歌学术搜索
g . j . Chen y . Liu Yang, m .邹”推断标签同现关系跨异构社会网络。”应用软计算卷,66年,第524 - 512页,2018年。视图:出版商的网站|谷歌学术搜索
k . Tago问:金,“情感行为的影响分析和用户基于twitter数据的关系,“清华科技,23卷,不。1,第113 - 104页,2018。视图:出版商的网站|谷歌学术搜索
x,荔枝,m .酯j·布鲁里溃疡,和c·陈,“学习个性化偏好强和弱关系对社会的建议,”学报》第26届国际会议在世界广泛Web-WWW 17ACM,里约热内卢,巴西,2017年5月。视图:谷歌学术搜索
e .朋友j·冈萨洛,j .法学和f . Verdejo”比较外在的聚类评价指标根据正式约束,“信息检索,12卷,不。4、461 - 486年,2009页。视图:出版商的网站|谷歌学术搜索

复杂性

应用机器学习方法在复杂经济和金融网络

文摘

1。介绍

3所示。信息传输矩阵

3.1。孤立节点

3.2。信息传输路径

4所示。系强度节点之间

5。实验

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

复杂性

应用机器学习方法在复杂经济和金融网络

衡量用户亲密矿业最大信息传输路径

文摘

1。介绍

2。相关的工作

3所示。信息传输矩阵

3.1。孤立节点

3.2。信息传输路径

4所示。系强度节点之间

5。实验

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章