文摘

为了解决节点信息损失的问题,在现有的用户匹配用户识别方法固定社区在社会网络拓扑关系,基于用户两级用户识别基于用户拓扑动态社区集群(UIUTDC)算法。首先,我们执行社区聚类在不同的社交网络,计算不同的网络社区之间的相似性,并筛选出社区对更大的相似性。其次,双向婚姻匹配进行了用户对社区之间相似度高。然后,动态社区集群是由重置不同社区集群数据。最后,反复迭代,直到没有新的匹配用户对生成,或达到设定的迭代次数。真实社交网络Twitter-Foursquare数据集进行了实验表明,相比之下,全球用户匹配法和隐藏标签节点法,UIUTDC演算法的平均精度提高了33%和26.8%,分别。只有用户的拓扑信息,提出UIUTDC算法在实际应用中有效提高身份识别的准确性。

1。介绍

随着人工智能技术的迅速发展和应用,人工智能技术的应用范围也在扩大。人工智能技术为代表深入学习和广度学习比以前变得更加成熟。其中,数据集成是学习广度的前提和基础。为了实现多源数据集成、用户识别在社交网络已成为一个非常有价值的研究热点。

社交网络用户在互联网上连接,允许用户进行交流和互动,形成一个虚拟的社会行为类似于现实。据统计,42%的用户有多个社交网络账户,和93%的Instagram用户同时使用Facebook (1]。不同的社交网络平台有不同的功能,这些平台是相互独立的。用户信息分散在不同的网络和相同的真实用户信息不能在不同的网络之间共享。每个网络形成了一个“岛”,这使得它不可能网络之间的数据集成。为了打破信息“孤岛”现象,实现多源数据集成,cross-social网络识别是一个必要的前提和基础。Cross-social网络用户识别具有较强的研究价值和实际应用意义在许多领域如用户画像、商业广告、朋友推荐,网上舆论安全的维护。

目前,cross-social网络用户识别方法主要包括基于用户属性信息、用户行为信息,和用户拓扑信息,和三个不同的特征信息的集成方法。在社交网络中,用户拓扑结构,即朋友关系,是真实的和难以建立2]。因此,本文决定对用户标识使用用户拓扑信息。

方法基于用户属性,Zafarani et al。3)首次提出用户名映射的方法来识别用户。Peritio et al。4)提出了一种方法来计算用户之间的相似名称基于用户名的唯一性。刘董et al。5)中提取用户名从多个角度的隐藏特性和集成不同的概率分布特征的统计结果来推断相应的用户名的身份。Vosecky et al。6)首次提出使用向量来表示用户概要信息,然后计算向量之间的相似度。尽管基于用户属性方法的精度非常高,属性信息属于用户的隐私,所以很难获得。此外,由于用户的网络安全意识高,用户可能提供了错误的内容时填写的属性信息。因此,基于用户的属性方法的通用性不高(7]。

基于用户行为信息的方法之一,香港和Zhang et al。8)通过计算用户的相似度匹配用户在不同的网络对时间、空间、和文本信息。刘等人。9)提出了一种方法来识别用户通过整合信息,如用户发表的内容内容,写作习惯和行为轨迹。Roedler et al。10)建立用户的独特的社会行为模式通过使用时间信息由社交网络和地理信息记录的设备,作为识别标记。基于用户行为信息的方法面临的问题用户的地理和空间信息在社交网络稀疏的特点,,很难适用于大规模社交网络。

方法基于用户之间的拓扑信息,Narayanan et al。11)首次证明,只有用户关系,依靠少量的初始匹配种子节点和迭代更新,不断寻找新的节点,但该方法的识别精度不高。Nitish et al。12)提出了一个识别算法对多个社交网络节点度和数量的基础上共同的邻居。周et al。13)把种子节点共享的节点的数量作为节点的交叉网络相似性匹配,选择那些更大的相似性匹配。但只是简单地使用用户拓扑信息,当有很多节点,效率和精度不高。

基于多维信息融合方法中,贝利et al。14)用户拓扑和用户属性的提取两个方面,建立了一个27-dimensional特征向量,最后判断用户身份是否通过特征向量的相似度匹配。刘等人。9)使用三维信息训练模型semisupervised学习的方式完成匹配。Zhang et al。15)也使用上述三个维度的信息。首先,网络结构信息作为用户匹配选择潜在的匹配节点的集合,然后用户名和时空轨迹被用来训练分类器,这是一种无监督学习算法。邢et al。16)首先利用熵权重分配给用户名功能,然后分析了用户的利益,加上用户名和用户发表的内容来确定用户在社交网络。这些算法充分考虑多维信息,因此算法的总体性能更好。虽然基于多维信息融合方法是有效的,它是很难获得全面的数据在特定的社会网络。此外,多维信息模型是复杂的,困难模式,效率低下,容易产生“过度拟合”的数据量是不够的。

尽管基于用户拓扑信息的方法不是高效和准确,用户拓扑信息是真实的,难以建立。吴征et al。17)使用的潜在关系信息来提高识别匹配的节点集群社会网络。然而,集群的社区在这个方法是固定的,导致的损失信息的节点在社区外,和效率和精度不高。

基于以上文献分析,本文提出了一个动态社区聚类两级用户识别算法基于用户拓扑关系来解决节点信息损失的问题在固定的社区用户之间的匹配。首先,执行社区聚类在不同的社交网络,计算不同的网络社区之间的相似性,并过滤大社区对相似。其次,匹配用户之间更大的类似社区对在不同的网络上。最后,添加匹配节点对用户对种子节点。重置许多不同的社区集群(减少一定程度),重做动态社区聚类,然后在较大的相似匹配用户社区。重复迭代,直到没有新的匹配用户对生成或达到设定的迭代次数。

3所示。UIUTDC算法

3.1。相关定义

使用用户身份识别基于用户关系拓扑结构识别账户相同的自然人之间的关系在不同的社区平台。这个问题的一个正式的描述如下:

定义1 (cross-social网络用户匹配)。有两个不同的社交网络平台,G_A和G_B G_一个= (U_A E_A) G_B= (U_B E_B)。U_A和U_B代表所有用户在社交网络的集合A和B,分别和E_A E_B代表用户在社交网络拓扑关系的组A和B,分别。cross-social网络用户匹配关系,在那里= {(u, v) | u∈U_A, v∈U_B}。是一对用户属于同一个自然人在a和B网络。

定义2(用户匹配节点对)。已知的用户匹配节点指的是网络用户提前找到匹配节点,通过特定的方法如URL地址信息。本文使用Seed_User表示已知的用户匹配节点对。

3.2。UIUTDC算法原理

因为有很多用户在社交网络和朋友的关系相对复杂,如果相似度计算网络的用户节点上执行一个接一个地相似性计算的成本是非常高的。除了少量的朋友(相比,用户的数量在整个社交网络)的用户在一个社交网络,大多数其他用户很少接触这个用户。根据聚类的东西的原则和群体,用户和他的朋友们可能会在一个集群中(社区)在一个社交网络,而在现实中,一个用户属于集群在一个不同的社交网络(社区),这些集群有很大程度上的相似性。考虑到固定的社区集群和节点信息损失的问题,首先,UIUTDC算法使用多个轮动态集群不同的网络社区的聚类方法。在每一轮设置不同数量的集群社区(根据一定程度减少),集群从不同角度,覆盖整个网络,更全面地匹配用户通过多次迭代。每一轮的社区集群后,计算在不同的社区网络的相似性,如图1(一)和过滤器更大的社区对相似,然后计算用户相似度的节点在社区对较高的相似性,和较高的节点对匹配相似性匹配的用户,如图1 (b)

3.3。TSUIBUTDC算法框架

的具体框架UIUTDC算法如图2

首先,我们初始化的社区集群A和B在社交网络,社交网络上执行社区集群A和B,分别计算和过滤掉大类似社交网络社区对A和B,其次,我们选择任何社区的网络社区对较大的相似,让每个用户与任何用户B的网络社区对较大的相似,并计算和屏幕的用户对A和B之间的相似度高的网络社区。用户对大相似之处是双向匹配和匹配的节点被添加到种子节点对集。循环迭代,直到所有社区在社区和更大的相似性在A和B网络匹配。判断是否迭代结束,也就是说,它是否已经达到最大迭代次数或是否收敛(迭代的最大数量的判断条件是通过实验,以及是否收敛是当没有新的种子节点生成)。如果它到达最大迭代次数或聚合,新生成的种子节点对输出,程序结束。否则,我们重置的数量聚集社区A和B的社交网络(根据一定程度减少),重复上述过程,社区集群,筛选大社区对相似,和匹配用户节点,直到达到最大迭代次数或者没有生成新的种子节点对。

3.3.1。计算和过滤社区对更大的A和B之间的相似性网络

社区相似度的计算是基于共同的先天种子节点在社区的关系。所示的计算公式(1), 代表了在一个社交网络和th社区j分别th社区在B社交网络。 代表的先天种子节点社区在一个社交网络, 之前的种子节点吗j在B的社交网络社区。

为了存储社区对更大的相似性,我们设计Com_pair集。它的元素的数据结构包括社区对序号属性Com和社区对相似属性Sim, Com属性包含Com_A和Com_B。Com_A商店社区社区网络和Com_B店铺数量的序数B网络。Sim属性存储之间的相似性网络社区和网络社区。结构如图3

Com_pair [m]。[(Com_A Com_B)]代表第m个类似社区对Com_pair和Com_pair [m]。Sim代表第m个类似社区对之间的相似性。

社区对与更大的A和B之间的相似性网络计算如下:

伪代码计算社区对更大的A和B之间的相似性网络
输入:初始化一组类似的社区Com_pair,分裂的a和B社交网络社区,社区相似度阈值ε
输出:社区设置Com_pair相似
1:网络中每个ap / /美联社在一个网络社区
2:每bq网络/ / bq a社区网络
3:计算和美联社之间的相似性csim bq根据公式(1)
4:如果csim >ε
5:添加美联社和bq Com_pair社区和相应的用户节点集
6:对7:8:Com_pair返回
3.3.2。与更大的相似性计算和过滤掉用户对社交网络的A和B

在获得高的社区对相似,用户之间的相似性与高相似度计算在不同的网络社区;也就是说,比之前的数量相同的种子节点的邻居节点的两个用户的总数计算两个用户的邻居节点。具体的计算公式所示(2), 代表的邻居节点的集合节点的社区网络,和 代表的邻居节点的集合jB节点的社区网络。NCSU代表共同种子节点对邻居节点的数量。

为了存储大型相似用户对和他们的相似性,User_sim集设计。其元素的数据结构包括用户属性和Sim属性,其中用户属性包含用户[0]和用户(1],[0]存储网络用户节点,用户(1B]商店网络用户节点。Sim商店网络用户节点之间的相似性和B网络用户节点。结构如图4:

User_sim [k]。用户[0]代表了网络用户的k用户对User_sim设置,User_sim [k]。用户(1)代表了网络用户k用户对User_sim设置,User_sim [k]。sim卡代表的相似性kth用户对User_sim集。

计算并过滤出用户对更大的社会网络A和B之间的相似之处:

伪代码计算和过滤用户对更大的社会网络a和B之间的相似之处:
输入:大型相似社区对Com_pair,初始化大型相似用户组设置User_sim、用户相似度阈值θ
输出:User_sim与更大的相似性
1:k= 0长度(Com_pair) 1 / /kCom_pair社区的数量对吗
2:每ACu Com_pair (k)。com_A / / ACu的所有用户网络社区Com_pair (k)
3:得到ACu用户节点的邻居节点集——acu_neighbor
4:每拍Com_pair (k)。com_B / /拍的所有用户B网络社区Com_pair (k)
5:拍用户节点的邻居节点集——BCu_neighbor
6:计算用户之间的相似性usim ACu和拍根据公式(2)
7:如果usim >θ
8:添加[(ACu,拍)、Usim] User_sim
9:如果
10:结束了11:结束12:13:User_sim返回
3.3.3。用户对双向匹配

考虑user-pair匹配的准确性,本文使用user-pair筛选机制(用户双向匹配)。用户B在一个网络和用户网络选择最大的相似性,和B的用户相似性网络和网络也是最大的。用户对相似性最高的选择在两个方向上结果,和其他等匹配。

如图5,它是双向匹配的过程。双向匹配后,生成两个用户匹配对,剩下的两个用户等待下一场比赛。用户匹配主要是根据用户的相似性对。我们类似的用户对User_sim获得的部分3.3。2根据相似性sim由大变小和匹配分类相似的用户。

双向匹配过程如下:

双向匹配过程的伪代码
输入:User_sim与更大的相似性
输出:User_sim后双向匹配
1:排序根据sim User_sim收集从最大到最小
2:长度(User_sim) 2 = 0
3:如果User_sim[我]。sim卡 0
4:j=长度(User_sim) 1 + 1
5:如果User_sim[我]。用户[0]= User_sim [j]。用户[0]或User_sim[我]。用户(1]= User_sim [j]。用户(1)/ /相同的用户有多个匹配与另一个网络用户相似度高
6:User_sim [j]。sim = 0 / /自按从大到小的sim卡匹配,匹配后出现User_sim[我],和user-pair相似性被标记为0,即删除标记
7:如果
8:9:如果结束
10:11:User_sim返回

4所示。实验结果和分析

4.1。实验数据集

摘要Twitter-Foursquare [18选择数据集的实验。首先,在Twitter用户的主页找到根据URL链接在Foursquare用户的主页来确定种子节点。两个处理社交网络,分别根据用户的节点度和用户节点的节点度是小于1的删除。数据如表所示1,它显示了两个真实的社交网络数据集的相关信息,其中两个社交网络之间的锚点链接的数量是1862。在这里,链接锚节点连接的两个网络被视为种子节点。Twitter和Foursquare种子节点的比例是69.6%和61.7%,分别。

4.2。评价标准

自1862年在实验数据,节点对已知匹配,不确定是否有其他匹配的节点,这些节点除外。因此,它只能判断有多少匹配节点对1862节点的发现对之前除了种子节点。是不可能确定的节点对,并不像一对匹配节点的判断是正确的,所以本文只使用准确率(也就是说,有多少种子节点对正确发现1862年的种子节点组)作为评价标准。具体的计算公式所示(3)。Acc代表了准确率,F_seed代表的数量匹配节点对发现在最后的迭代,和苏代表已知的用户匹配节点对,也就是说,1862锚的链接的数量(匹配)节点对在这个实验中,R_seed是前种子节点对的数量从1862年匹配节点对随机选择的。

本文随机选择100年和200年之前种子节点对全球用户匹配方法,并使用(GUMM),隐藏标签节点方法(HLNM)和UIUTDC算法进行实验。比较分析结果如下。

4.2.1。准备比较和分析100年之前种子节点对迭代匹配节点对

如图6,当100年一个先天种子节点随机选择,实验结果可以看出,UIUTDC方法的结果提出了迭代的开始到结束的迭代远远大于隐藏标签节点法和全球节点匹配方法。原因在于UIUTDC使用动态社区划分方法,匹配两个阶段匹配过程更加全面和匹配结果更好。的数量对隐藏标签节点的节点匹配方法在早期阶段小于全球匹配方法。原因是隐藏标签节点的方法是基于节点度(也就是说,朋友的数量用户的社交网络)由大变小。在早期阶段,节点选择以更大程度参与匹配,还有网络中的节点以更大程度减少,从而减少节点参与匹配的早期阶段,结果低于全球匹配方法的结果。直到第五次迭代,更多的节点从隐藏标签节点方法参与匹配的节点数量的匹配过程超过全球的匹配方法。

4.2.2。比较和分析100年之前种子节点对迭代匹配节点对

如图7,当200年种子节点随机选择,实验结果图显示,随着迭代次数的增加,生成的节点数量对UIUTDC算法总是大于生成的节点数量对隐藏标签节点法和全局匹配方法。隐藏标签节点方法生成更少的种子节点前7日比全球匹配迭代方法。原因是隐藏标签节点的方法选择的节点参与匹配根据节点的程度从大到小,从而减少节点参与匹配的早期阶段,结果低于全球匹配方法的结果。直到第七个迭代中,所有的节点hidden-tag节点方法参与,结果优于全球匹配方法。

4.2.3。比较和分析不同方法的准确性

它可以看到从图精度不同的种子节点图8一方面,UIUTDC方法的准确性远远高于全球用户匹配的准确性和隐藏标签节点的准确性。另一方面,可以看出,当很少有种子节点,全局匹配方法的准确性和隐藏标签节点方法不是很高。然而,随着种子节点的增加,UIUTDC的准确性的方法,全球用户匹配方法,和隐藏的标签节点方法都提高,这表明前种子节点对实验结果有一定的影响。点越多,准确率越高,最明显的就是隐藏标签节点。实验结果表明,平均UIUTDC方法的精度是42.33%高于全球的平均精度用户匹配33%和26.8%的平均精度高于隐藏标签节点的方法。

4.2.4。比较和分析不同方法的时间消耗

本文使用相同的计算机验证UIUTDC方法,全球用户匹配方法,和隐藏的标签节点方法真实网络数据集,得到不同种子节点的运行时间比较图表,如图9。从时间对比图可以看出,整体的时间消耗UIUTDC方法远低于全球用户匹配算法和隐藏标签节点的方法。也就是说,其时间复杂度比全球匹配方法和隐藏标签节点的方法。全球用户匹配的方法需要用户在两个社交网络进行一对一的匹配计算(假设网络用户节点n),这是极其复杂的。时间复杂度是 在UIUTDC方法中,集群中的节点的数目远小于整个网络的(假设集群的数量 ,平均在每个集群节点 , ),大大降低整个网络中所有节点的相似性计算成本。成本包括两部分:一是集群相似度计算,K集群相互匹配,计算成本 ,另一种是用户集群中的节点匹配,计算成本 。总成本是 ,这是 ,总成本是 , 它可以当计算n非常大,适当的值k可以使 < ,即UIUTDC方法的计算复杂度小于全球用户匹配。隐藏标签节点方法具有更少的参与节点的早期阶段,所以早期的时间消耗较少,但随着节点数的增加,计算数量的增加,导致长时间消耗在以后的阶段。UIUTDC方法是基于分工的社区和社区相似度高的选择,大大减少了计算的用户匹配在某种程度上。UIUTDC方法优于全球用户匹配法和隐藏标签节点法的时间。

5。结论

提出了一种动态社区聚类两级用户识别算法基于用户拓扑关系。算法使用社交网络的用户拓扑结构信息相匹配,将社交网络划分为社区和选择在不同的网络社区更相似匹配的节点在社区。基于这种方法,我们可以减少匹配算法的时间复杂度,同时提高节点匹配的准确性。为了防止节点信息的损失,当社区划分根据固定数量的社区的节点匹配,动态社区部门采用。社区划分的数量在每个迭代中都是不同的,和网络社区中的节点是完全匹配的从不同的角度,可以改善节点匹配的准确性。将本文算法应用到一个真实的社交网络数据集,结果表明,该算法的效果33%和26.8%高于全球用户匹配算法和隐藏标签节点的算法,分别。在时间方面,本文算法降低了平均637911秒和1,94657秒比全球用户匹配算法和隐藏标签节点的算法。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的重点科研项目的高校人文社会科学安徽省格兰特SK2019A0664数量下,安徽高校省级自然科学研究项目Province-General项目资助数量KJ2019JD24 KJ2019JD17,省级自然科学研究项目下的安徽大学省重点项目资助KJ2019A0783数量,和2019年省级质量工程项目拨款2019号jyxm1146下的安徽。