用户标识的基础上集成多个用户在在线社交网络信息

文摘

用户标识可以帮助我们构建更全面的用户信息。它已经吸引了学术界的重视。大多数现有的作品profile-based用户标识和用户识别特性。由于社交网络用户隐私设置和限制用户数据抓取,用户数据可能丢失或不完整的在真实的社会网络。用户数据包括配置文件、用户生成内容(UGCs),和人际关系。先前的研究可能是稀疏的特征提取。为了减少上述问题对用户身份的影响,我们提出一个多个用户信息的用户识别框架(MUIUI)。首先,我们开发的多进程爬虫获取用户数据从两个流行的社交网站,Twitter和Facebook。其次,我们使用命名实体识别和实体连接获取和整合从概要文件和UGCs地点和组织。我们也从概要文件和UGCs提取url。 We apply the locations jointly with the relationships and develop several algorithms to measure the similarity of the display name, all locations, all organizations, location in profile, all URLs, following organizations, and user ID, respectively. Afterward, we propose a fusion classifier machine learning-based user identification method. The results show that the F1 score of MUIUI reaches 86.46% on the dataset. It proves that MUIUI can reduce the impact of user data that are missing or incomplete.

1。介绍

随着社交网络的发展及其多样性,在社交网络上活跃用户的数量逐年增加。Statista报告称,Facebook活跃用户的数量达到了27亿多2020年7月,Twitter的活跃用户数量达到3.53亿人(2020年7月1]。同时人们可能已经在多个社交网络账户。人们可以使用Twitter跟随他们感兴趣的领域的最新发展,使用Facebook发布生活趋势和生活中与朋友保持联系,使用LinkedIn发布职业信息和与同事保持联系,并使用Foursquare张贴位置(2,3]。如果我们可以匹配的个体在不同的社交网络,我们可以将其更全面的个人信息的集成和画出完整的朋友关系4]。这将促进社交网络的朋友推荐(5),信息扩散6],隐私保护[7,8)、社区检测(9)等。10]。

用户识别在社交网络也被称为匹配用户账户,用户识别、匹配的用户账户,用户匹配或锚点链接(10]。近年来,有许多现有的社交网络的用户标识工作。大多数现有的作品使用配置文件中的属性用户标识(4,11- - - - - -15),如显示名称、档案照片,和位置。由于用户的隐私设置,用户可以填写虚假信息或选择不填写。这些限制使这些方法很脆弱(16]。现有的一些作品特性用户标识(17- - - - - -19]。关系有更高的辨别力,很难假(10]。然而,在社交网络用户隐私设置和限制数据抓取,我们可能只得到部分的关系。这将导致稀疏和不完整的关系。,许多现有的作品也使用UGCs用户标识(4,20.]。这些方法通常是基于发布时间,地点,写作风格,或相似的内容4]。然而,他们可能会忽视其他信息中包含的内容,如组织和url。因为社交网络用户隐私设置和限制数据抓取,UGCs可能不完整。

UGCs,对于大多数用户来说,档案和关系可能会丢失或不完整的在真实的社会网络。先前的研究可能是稀疏的特征提取。如果更有效的特征可以从公共和可用的用户数据,可以减少上述问题的影响。因此,我们的论文使用公共多个用户信息来执行用户识别。MUIUI的主要优点和贡献我们的工作(1)一个完整的用户识别框架:我们提出了一个完整的用户识别框架MUIUI,从数据收集到的用户识别检测。首先,我们爬用户数据从两个受欢迎的社会网络和从用户数据提取多个用户的信息,包括简介、UGCs和关系。然后,我们从多个用户信息提取功能。最后,我们采用融合分类器来解决用户识别问题。(2)进行流行的社交网络:本文着重于两个流行的社交网站,Twitter和Facebook。我们扩大原始数据集,这是那些提出(21- - - - - -252012年11月),爬在(9]。我们屏幕用户原始数据集还活着,把它们看作是积极的样本。我们构造负样本显示名称类似于显示名称的阳性样品的一半。所有负样本和正样本构成本文所使用的数据集。我们开发的多进程爬虫获取用户数据,包括资料显示2019年12月,和UGCs和关系发表在2020年1月之前,直到我们达到的极限社会网络。我们可以公开使用的数据集。MUIUI框架是在这个数据集上进行。(3)提取一组有效的特点:我们使用命名实体识别从配置文件中提取位置和组织和UGCs视他们为所有位置和组织。我们使用实体链接方法关联位置和组织的别名。我们建议的方法来计算相似度的位置,所有组织的相似性,相似性和UGCs的url。我们会同位置概要文件应用下列关系进行用户身份。实验证明本文的特征提取是有效的用户识别。实验还表明,使用多个用户信息,我们可以提高用户识别的性能。

在本文的其余部分,部分2提出了一些相关的工作。部分3介绍了基本的背景和正式声明的问题。节4MUIUI,我们描述了用户识别框架。我们做了三个实验,比较三个现有的部分工作5。最后,部分6总结了纸,使未来的工作前景。

近年来,有很多研究在社交网络用户标识。现有的研究大致可以分为四类:profile-based用户识别、UGC-based用户识别、用户识别特性,基于配置文件和用户识别和用户的关系。

Profile-based用户标识只使用概要文件来识别用户。在线社交网络的属性在一个概要文件包括显示名称、用户ID、介绍,在概要文件位置,教育工作经验,概要文件的照片。大多数研究使用一个或多个属性。它可以证明这些属性是帮助用户识别。一些现有的作品只使用一个用户标识属性,如只使用显示名称(11,13,26- - - - - -28),只使用概要文件(照片29日),和只使用位置(30.- - - - - -33]。这些研究证明一个属性来执行用户识别的可行性。正如我们所知,社交网络不仅包含一个属性。联合应用多个属性可以提高用户标识的性能(10]。李等人。34)使用显示名称和用户id链接用户身份。Motoyama和Varghese使用的各种属性,如显示名称、位置,年龄,和电子邮件,链接用户身份35]。由于用户的隐私设置,用户可以填写虚假信息或选择不填写。profile-based用户识别的准确性将会减少。

UGC-based用户标识只使用UGCs来识别用户。属性在一个用户原创内容包括位置、组织、时间、内容和写作风格。李等人。4]UGCs的相似性计算空间,时间和内容维度。然后,他们提出了一个级联三能级机器学习方法来解决用户标识。Goga et al。36等)使用三个特点提取UGCs UGCs位置,时间戳和写作风格,来识别用户。因为社交网络用户隐私设置和限制数据抓取,UGCs可能不完整。上述识别方法的鲁棒性可能是可怜的。

特性用户标识只使用关系来识别用户。宣et al。17)发现,用户通常保持类似的朋友圈在不同的社交网络。他们使用的关系并提出FRUI。Zhang et al。18COSNET]提出了能量模型考虑到多个网络之间的局部和全局相似性。周et al。19)采样网络节点的网络和学习向量表示。他们通过神经网络和对齐的锚节点链接用户双梯度学习和政策。一些研究者也应用图嵌入到用户识别。人等。37)使用了网络嵌入方法探讨网络结构和识别用户通过交叉网络映射。周et al。38)提出了一个非优先知识方法FRUI-P基于社会关系。刘等人。25)嵌入两个下面的关系和跟随者关系到网络结构来识别用户。有一些现有的基于用户概要文件和工作关系。张和Yu (39)结合用户特征和潜在的多个网络结构连接共享的实体。李等人。10)结合用户显示名称和社交网络信息冗余来识别用户。Zhang et al。40从显示名称中提取特征,在概要文件位置,识别用户的关系。由于社交网络数据抓取限制,难以获得多层次的高度动态的拓扑关系和社交网络(41),将稀疏、不完整和不稳定的关系。

关系可以分为以下关系和追随者的关系(25]。由于社交网络的开放性,任何用户都可以关注其他用户。一个用户可能不知道的人跟着他。因此,我们只关注以下关系。如今,由于社交网络用户隐私设置和限制数据抓取、档案、UGCs,和关系可能缺失或不完整或虚假的社会网络。摘要挖出一套有效的提取特征,从公共和可用的用户数据,可以减少用户数据的影响,缺失或不完整。

3所示。问题公式化

假设有两个社交网络,Twitter和Facebook,代表和。使用定义的社交网络 ,在哪里代表所有用户帐户的集合代表关系的集合。用户数据的用户包括概要、用户生成内容和关系。他的形象包括显示名称 ,位置 ,用户ID ,教育和工作经历。他的用户生成内容包括位置 ,组织 ,和url 。他的关系包括以下关系和追随者的关系。社交网络的定义是一样的。如图1社交网络,我们可以定义用户标识如下。

用户标识:判断用户《社交网络》中和用户《社交网络》中自然人在现实中都是相同的。如果他们属于同一自然人,那么用户和用户被称为锚用户。

如图2,本文主要解决了两个流行的社交网络之间的用户标识,也就是说,从两个社交网络来确定两个用户帐户属于同一自然人。当然,这种方法也可以应用于多个社交网络之间的用户标识。本文中的数据集包含地面真理的一部分,也就是说,锚点链接的用户。我们使用用户定义锚。用户标识也可以定义为判断用户是否和用户锚用户。

4所示。模型和解决方案框架

框架提出了主要用于用户识别概要文件时,UGCs,关系缺失或不完整。首先,我们介绍了框架作为一个整体。然后,我们专门介绍特征提取方法。最后,我们介绍了融合分类器基于机器学习的用户识别方法。

4.1。MUIUI框架

MUIUI框架包括数据抓取和存储模块、特征提取模块和检测模块。MUIUI如图3。

数据抓取和存储模块主要从Twitter和Facebook收集用户数据并将其存储在MySQL数据库中。本文使用多进程爬虫抓取用户来自Twitter和Facebook的数据。用户数据包括配置文件、UGCs和关系。

特征提取模块主要从多个用户信息,提取有效的特征提取的用户数据。我们获得14特性从一个显示名称和使用它们显示名称的相似。命名实体识别方法用于获得所有地点和组织从UGCs和概要文件。我们使用实体链接方法来消除歧义和集成使用实体链接方法。我们从UGCs提取所有url和概要文件。,从工作中提取组织教育经验,结合下面的关系来计算以下组织的相似性。我们提出几个算法来测量显示名称的相似之处,所有的位置,所有的组织,在概要文件位置,所有url,组织后,分别和用户ID。结合上述特性,一个20维特征向量终于获得。

20维特征向量输入检测模块来执行用户标识。事实上,检测模块使用融合分类器。我们使用叠加三个基分类器融合方法具有更好的性能。检测模块的输出结果锚用户或nonanchor用户。

4.2。特征提取

一般来说,用户数据包含多个用户信息。我们可以从中提取出一些有效的特性。在下面,我们利用多个用户的信息网络和。

4.2.1。准备相似的显示名称

向用户显示的名字是密切相关的。它可能不是独一无二的社交网络。目前,一些现有只能使用显示名称作为用户标识的唯一属性(11,13,14]。与其他属性相比,显示名称更容易获得。然而,用户可以更改显示名称。基于显示名称的用户识别的鲁棒性差。李等人。11)提取14显示名称的功能。本文运用他们的方法获得特征向量从两个显示名称和的用户和。我们用它作为显示名称的相似。

4.2.2。相似的地点和相似的组织

在社交网络中,用户可能在概要文件披露他们的位置,工作教育经验,UGCs。教育的工作经验是由用户填写,用户密切相关。教育工作经验包括组织,如用户的公司和学校,用户研究工作。一些社交网络包括教育工作经验直接在配置文件(如LinkedIn和Facebook),和一些社交网络工作教育经验是隐藏在概要文件(如Twitter)。本文主要分析了两个社交网络,Twitter和Facebook。因此,对于Twitter,我们使用他们的介绍作为教育工作的经验。UGCs还包含的内容好信息。例如,位置相关用户、url共享的用户,用户关心的和组织。指定实体识别可以从文本数据识别命名实体。本文使用命名实体识别获得一组位置从UGCs和工作的内容和组织教育经验。 All locations include the location in the profile and the locations involved in the UGCs. Meanwhile, all organizations include the organizations included in the work education experience and the organizations involved in the UGCs.

因为所有地点和组织用户自己是密切相关的,所有地点和组织参与用户公共信息在不同的社交网络将重叠。此外,更多的用户提到的位置和组织,它是更重要的。相同的实体可能有多个别名和命名实体识别也可能是错的。实体关联方法可以解决上述问题。公认的地点和组织都映射到维基百科条目ID,在名称指向相同的实体映射到相同的ID。此外,删除不存在的实体在维基百科的条目来提高精度。本文使用了命名实体识别方法提供的宽大的(https://spacy.io/)图书馆和实体链接方法实体链接开源框架提供的德克斯特(https://dexter.isti.cnr.it/)。德克斯特使用英文维基百科来实现实体链接。

为用户和用户 ,所有位置的相似性和相似的组织可以计算如下:步骤1:为用户 ,一组位置和一组组织得到从UGCs通过命名实体识别的内容。同样的,我们获得一组的位置和一组组织的用户。步骤2:为用户 ,我们获得一组位置和一组通过命名实体识别组织教育工作经验。然后,我们合并他们在步骤1中所获得的两组获得一套新的位置和一套新的组织。同样的,我们获得一个新的位置和一套新的组织的用户。步骤3:使用实体链接映射方法和的用户到位置ID和组织ID的用户。同样,位置ID和组织ID的的用户得到了。步骤4:为每个和 ,我们计算重量位置的ID和重量位置的ID 。为每一个和 ,我们计算重量组织的ID和重量组织的ID 。第五步:计算和由方程(1)和(2), 在哪里的频率是在和的频率是在。的频率是在和的频率是在。

4.2.3。相似的位置概要文件

这个概要文件的位置可能是他/她目前的城市或他/她的家乡。它是更精确的位置信息提取UGCs的内容。因此,相似的位置概要文件作为一个特性。这个概要文件的位置填写相同的用户在不同的社交网络应该密切相关40]。然而,有许多别名为同一位置。本文使用pickpoint提供的API (https://app.pickpoint.io/)将位置名称转化为他们的纬度和经度。位置概要文件的相似度计算是基于位置的经度和纬度,表达的是方程(5): 在哪里在方程(4由方程()可以测量3),和代表用户的配置文件的位置和用户 ,分别和的纬度和 ,分别和的经度和 ,分别为,是一个常数,主要用于规范化的价值的值(是19860)。

4.2.4。相似的所有url

UGCs通常包括一些url。这些url可能UGCs其他社交网络上的链接,或用户感兴趣的链接,或者用户的链接相关的教育工作经验。本文发现,在不同的社交网络用户可以共享相同的url。用户可以在个人资料填写的URL,通常与用户密切相关。它可能是该公司网页的URL,或者个人网页的URL,或者其他社交网络主页URL。基于这些提取的url,可以计算所有url的相似性。

我们使用方法类似于阿加瓦尔的URL提取方法(12)提取url的集合和分别从配置文件和UGCs。的计算方法方程所示(6): 在哪里和代表出现的次数的URL网址的集合和url的设置 ,分别。属于的交集和。

4.2.5。相似的组织

一些社交网络关系划分为关系和跟随者关系后,如Twitter。以下关系指的是其他用户目标用户。同时,追随者的关系指的是其他用户后,目标用户(25]。由于社交网络的开放,任何人都可以成为一个用户的追随者。因此,我们使用以下关系教育和工作经历来计算以下组织的相似性。教育经验介绍了部分的工作4.2。2。教育工作经验包括用户工作或研究的组织,这些组织通常有自己的官方社会账户在社交网络。本文发现,用户通常遵循官方社会账户的工作或学习的组织。

本文主要分析两个社交网络,Twitter和Facebook。我们认为Twitter是一个社交网络和Facebook是一个社交网络。因为不同的社交网络包含不同的用户信息,本文提取组织工作教育经验的Facebook用户,从Twitter用户获得以下关系。首先,我们从下面的用户在Twitter上提取主页url并使用实体识别方法提取组织教育工作经验在Facebook上。其次,我们使用谷歌高级搜索方法获得官方账户的组织在Twitter上的主页url(例如,我们需要获得苹果的官方账户在Twitter上。谷歌搜索方法是苹果+网站:twitter.com)。最后,计算后组织的相似性。为用户和用户 ,以下组织的详细算法的相似性算法所示1。

	输入以下用户:的用户 ,教育工作经历的用户。
	输出: 。
(1)	主页url从以下用户
(2)	;
(3)	组织提取工作教育经验通过命名实体识别
(4)	为每一个做
(5)	的官方账户的主页URL在twitter上使用谷歌高级搜索获得的方法
(6)	;
(7)	结束
(8)

4.2.6。相似的用户ID

用户ID可以唯一地标识一个用户的社交网络。在Twitter和Facebook,用户ID的初始值通常是社交网络的自动生成,和初始用户ID有很强的相关性与用户的显示名称。用户还可以修改它来一个熟悉的字符串,但它必须是唯一的。一些研究[12)发现,用户ID可用于用户识别。因此,本文以用户ID作为分类特征的相似性。用户ID通常是一个短的字符串组成的数字,字母,下划线,可以使用字符串相似性计算方法。本文使用Jaro-Winkler算法,通常用来计算英文名字的相似。该算法增加了初始角色的重量和使字符串相似性更依赖于初始字符串的一部分。为用户和用户 ,的计算方法是在哪里和代表用户的用户ID和用户 ,分别。匹配的字符数和吗是互换的数量。的长度是用户ID和是用户ID的Jaro相似吗和用户ID 。是常见的前缀的长度的字符串最多四个字符,是一个常数比例因子为向上调整多少分数有常见的前缀(的价值在Jaro-Winkler是0.1)。

4.3。融合分类器

同样的数据集,不同的分类器的影响也会有所不同。Zhang et al。40)使用逻辑回归(LR)和多层感知器(MLP)分类器的用户识别。刘等人。42使用支持向量机(SVM)分类器模型。Zafarani和刘43)使用逻辑回归(LR)作为分类器模型。李等人。10)使用梯度增加(GB) GB的用户识别的分类器和调优参数。李等人。11)使用七监督机器学习模型在训练集和测试他们。最后,最好的模型逻辑回归内置交叉验证(LRCV)被选中作为分类器。这些证明基分类器已经可以解决分类问题。李等人。4)执行十交叉验证10基分类器的分类效果,选择三个更好的基分类器构造融合分类器。它也证明了融合分类器通常是比基分类器。

本文主要使用监督机器学习模型来确定锚用户基于上述特性。本文使用13个分类器作为基分类器,包括多项朴素贝叶斯(MNB),高斯朴素贝叶斯(GNB),逻辑回归(LR),逻辑回归内置交叉验证(LRCV)、支持向量机(SVM),高斯过程分类(GPC),再(资讯),随机梯度下降法(SGD),多层感知器(MLP),决策树(DT),随机森林(RF), GraBoosting(抓住),和演算法(AdaB)。然后,我们选择三个基分类器有更好的性能。最后,叠加方法用于分类器获得融合分类器融合三个基地。

5。实验评价

5.1。实验数据集

本文在两个受欢迎的社交网站Twitter和Facebook。我们扩展的原始数据集提出了(21- - - - - -25和爬在2012年11月9]。我们筛选用户原始数据集还活着,把他们看作是积极的样本。我们重新抓取2397对Twitter和Facebook用户原始数据集。因此,1292对Twitter和Facebook用户帐户被发现还活着。为了提高分类器的性能,1292对负样本添加到数据集,和一半的负样本的样本也有类似的显示名称。2584对样品作为实验数据集。

我们开发了多进程爬虫获取数据集的概要文件在2019年12月,获得UGCs和关系的数据集在2020年1月之前,到社交网络的限制。UGCs可分为原始和转发。在本文中,我们考虑的一部分UGCs转发内容,和相同的内容转发多次将只被视为一次。Twitter和Facebook用户数据集都是母语为英语的人。

5.2。评价指标

在实验中,准确性,回忆、精度和F1的分数是用来评估框架。本文正样本表明锚用户,负样本表明nonanchor用户。

混淆矩阵如表所示1。TP是样本的数量的预测和实际值都是积极的。TN是样本的数量的预测和实际值都是负面的。FN的样本数量的预测是-但实际上是积极的。FP是样本的数量的预测是积极但实际上是负面的。


实际值	预测的值
	积极的样品	负样本

积极的样品	TP	FN
负样本	《外交政策》	TN

精度(ACC)是正确的比例在所有样本和预测方程表达的是(9):

回忆(REC)预测和实际的比例正样本在所有实际样品和表达与方程(10):

精度(前)的比值预测和实际都是表达的正样本在所有样本和预测方程(11):

F1的分数是精度和召回的调和平均数和表达方程(12):

曲线下面积(AUC) ROC曲线下的面积。AUC可以评估两种分类器。如果一个分类器有较大的AUC,分类器的准确性会更高。

5.3。实验和分析

MUIUI证明是一个有效的用户识别框架即使用户数据不完整或缺失,本文统计用户数据丢失的和不完整的数据集,如表所示2。表中的数值2用户数量的用户数据缺失或不完整。信息缺失意味着用户没有填写信息或尚未对外公布。不完整的信息意味着用户披露和填写的信息,但只有一部分人可以获得由于社交网络的限制。错误的位置是根据地点名称是否可以转化为经度和纬度。如果可以改变位置,这是真的。除此之外,如果一个用户填写的位置是“地球”或其他无意义的名词,他们也将被视为虚假信息。


社交网络	失踪的显示名称	缺失或错误的位置	缺少用户生成内容	失踪的关系	不完整的关系

推特	0	480年	62年	219年	769年
脸谱网	0	387年	0	518年	3

据统计在表2,用户数据在本文中使用的数据集缺失或不完整,除了显示名称。这个数据集是由多进程爬虫爬从真正的社交网络。也证明了用户数据有不同程度的丢失,虚伪和不完备的社会网络。评估的有效性MUIUI框架,我们比较MUIUI与现有三个方法:李提出的方法(11),OPL方法提出的张(15张,ALLEN-LR方法提出的(40]。实验中使用的数据集介绍部分5.11292双锚用户(正样本)和1292对nonanchor用户(负样本)。数据集包括1881 Twitter用户和1305 Facebook用户。

5.3.1。比较基分类器

用13个基分类器来识别用户基于数据集介绍部分5.1。基分类器包括多项朴素贝叶斯(MNB),高斯朴素贝叶斯(GNB),逻辑回归(LR),逻辑回归内置交叉验证(LRCV)、支持向量机(SVM),高斯过程分类(GPC),再(资讯),随机梯度下降法(SGD),多层感知器(MLP),决策树(DT),随机森林(RF), GraBoosting(抓住),和演算法(AdaB)。这些分类器可以实现通过scikit-learn [44),和所有的参数使用默认值。在实验中,正样本负样本的比例是1:1,和训练集与测试集的比例是2:1。这13个基分类器进行测试与培训过程,和平均结果如图4。

(一)

(b)

(c)

(d)

(e)

根据图的结果4射频,抓住,AdaB有最好的表现。抓住和AdaB强分类器。强分类器是一个分类器更高的准确性,而且它比弱分类器。抓住和AdaB属于强分类器和其他基本分类器属于弱分类器。这就是为什么抓和AdaB明显高于其他分类器。射频,如果树的数量(即功能)的尺寸较大,RF分类性能会更好。本文的特点达到20个维度,也就是说,树木的数量很大。所以,RF效果更好。因此,我们选择射频,抓住,AdaB基分类器和使用叠加方法来构造一个分类器作为最终分类器融合。

5.3.2。正样本负样本的比例

的比例正样本负样本的训练数据集可能会影响用户识别框架。为了选择的比率MUIUI正样本负样本,基于以下实验的比例8:1,6:1,4:1,2:1,1:1,1:2、1:4,1:6和1:8训练MUIUI和比较它与李提出的方法11),OPL方法提出的张(15张,ALLEN-LR方法提出的(40]。结果如图5(一个)- - - - - -5 (d)。

(一)

(b)

(c)

(d)

结果显示在图5(一个),精度下降,然后上升。因为样品的数量是最小的在1:1,精度达到最低在1:1。1:从1到两端,样本数量的增加,精度越来越高。包括正确预测准确性正负样本。实际积极的样本越多,更积极的样品准确的预测,对负样本。样品越多,精度越高。因此,先降低,然后增加准确性。如数据所示5 (b)- - - - - -5 (d)正样本的比例下降时,召回,精密,F1的分数也降低了。如果训练数据集有更积极的样本,阳性样本的分类器将学习更多的功能和更准确地预测积极的样本。导致一些负面样品预计阳性样本。

从图可以看出5ALLEN-LR方法召回高于方法在本文正样本超过负样本。然而,当负样本超过正样本,ALLEN-LR的性能急剧下降。当正样本负样本的比例是1:4,1:6和1:8日召回,精密,F1的分数几乎是零。这表明ALLEN-LR可以判断一些负样本作为正样本。基于这种情况,F1的分数可以更好的评估模型。根据图5 (d),MUIUI稳定,优于其他方法在不同的比率。因为获得阳性样品的成本过高,本文选择的比率1:1构造数据集。

5.3.3。训练集与测试集的比例

为了更充分地说明MUIUI的有效性,以下实验是基于训练集与测试集的比例。不同的比率100年实验进行抽样验证,和100年验证结果的平均值作为最终的结果。根据结果,准确性,回忆,精密,F1分不同的框架。

数据6(一)- - - - - -6 (d)表明,MUIUI指标高于其他三种方法在不同的比率。与此同时,它可以得出的结论是,训练集的比例越大,越好四个方法执行。

(一)

(b)

(c)

(d)

李的(1114]方法只提取特征基于显示名称,并没有失踪显示数据集的名称。这是唯一的方法没有丢失的用户数据。ALLEN-LR方法(40)提取特征的显示名称,地点在用户的概要文件和他/她的朋友,和多层关系。它使用LR分类器来执行用户标识。因为ALLEN-LR方法严重依赖关系,需要在用户的概要文件和他/她的朋友相对完整。然而,在我们的数据集的关系是不完整的,位置概要文件部分缺失。当部分缺失或不完整的数据,ALLEN-LR并不理想的性能。即使训练集的比例增加时,它不会帮助的方法。OPL方法(15]提出完整的显示名称相似的方法,概要图的相似性,相似性的位置概要文件,文本的相似度形象,相似性概要文件的URL,用户的普及,用户使用的语言。这七个功能是用于用户识别。因为有些用户档案和关系缺失或不完整的数据集,OPL的性能也是不理想的。这证明MUIUI可以减少的影响用户数据缺失或不完整。

6。结论和未来的工作

用户标识在学术界引起了广泛关注,它可用于朋友推荐,用户隐私保护,和广告的建议。由于社交网络用户隐私设置和限制数据抓取,用户数据可能丢失和不完整的在真实的社会网络。先前的研究可能是稀疏的特征提取。为了解决这些问题,我们从公共和可用的用户数据中提取有效的特征,从而减少这些问题的影响。首先,我们开发了多进程爬虫获取最新的用户数据的数据集。然后,我们使用了命名实体识别和实体连接获取和整合位置和组织从配置文件和从UGCs UGCs并提取网址。我们开发了一些算法来测量显示名称的相似之处,所有的位置,所有的组织,在概要文件位置,所有url,组织后,分别和用户ID。最后,我们提出了一种融合分类器基于机器学习的用户识别方法。我们在数据集验证MUIUI框架我们爬,结果表明,性能优于现有的代表作。

受欢迎的社交网络LinkedIn和Instagram也包含用户数据。我们的工作将会扩展到这些社交网络的未来。我们将介绍到用户识别方法更有效的功能,如用户热点话题检测、轨迹分析、和面部感知形象的照片。这些方法可以提高用户识别的性能。

数据可用性

之前报道的数据支持本文研究和数据集,已被引用。处理过的数据可从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(U19A2081号、61802270、61802270)。此外,这项工作也部分支持的联合研究基金的中国教育部和中国移动公司(没有。CM20200409),中央大学(没有基础研究基金。2020 scung129)。

引用

Statista,“全球社交网络排名到2020的用户数量,”2020年,https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/。视图:谷歌学术搜索
r, s .江x Chen h . Wang w . Wang和w·王,“层间链接预测在多元社会网络:惩罚算法迭代的学位,”以知识为基础的系统,第194卷,第105598页,2020年。视图:出版商的网站|谷歌学术搜索
p . j . Zhang s . Yu, Z.-H。周,”Meta-path基于多网集体链接预测,”20 ACM SIGKDD国际会议的程序知识发现和数据挖掘,页1286 - 1295,纽约,纽约,美国,2014年。视图:谷歌学术搜索
y, z, y, h .阴,徐问:“基于用户生成内容匹配的用户帐户在社交网络,”未来一代计算机系统卷,83年,第115 - 104页,2018年。视图:出版商的网站|谷歌学术搜索
张黄,j . l . Wang和X.-S。华,“社会朋友推荐基于多个网络相关,”IEEE多媒体,18卷,不。2、287 - 299年,2016页。视图:出版商的网站|谷歌学术搜索
p . j . Zhang s . Yu y Lv,问:詹,“信息扩散在工作场所,”学报》第25届ACM国际会议信息和知识管理,计算机协会,页1673 - 1682,纽约,纽约,美国,2016年。视图:谷歌学术搜索
瞿y, s . Yu l .高,w•周和s .彭”混合在cyber-physical社交网络隐私保护方案,“IEEE计算社会系统,5卷,不。3、773 - 784年,2018页。视图:出版商的网站|谷歌学术搜索
瞿y, s . Yu w .周,y,“Gan-driven个性化时空私人cyber-physical社会系统的数据共享,“IEEE网络科学与工程,7卷,不。4、2576 - 2586年,2020页。视图:出版商的网站|谷歌学术搜索
张问:詹,j . p . Yu, j .谢“新兴社交网络社区检测”万维网,20卷,不。6,1409 - 1441年,2017页。视图:出版商的网站|谷歌学术搜索
y, z苏、杨j .和c高,“利用相似用户友好的网络社交网络用户识别,”信息科学卷,506年,第98 - 78页,2020年。视图:出版商的网站|谷歌学术搜索
y y . Li Peng w, z,问:许,“用户识别基于显示在在线社交网络名称,“IEEE访问5卷,第17353 - 17342页,2017年。视图:出版商的网站|谷歌学术搜索
答:阿加瓦尔和d . Toshniwal Smpft:基于社会媒体的融合技术为数据浓缩,”计算机网络卷,158年,第131 - 123页,2019年。视图:出版商的网站|谷歌学术搜索
f . j . Liu, x的歌,我。歌,彭译葶。林,H.-W。宝贝在一个叫什么名字?一个无监督方法链接用户社区,”学报第六届ACM国际会议网络搜索和数据挖掘,页495 - 504,意大利罗马,2013年。视图:谷歌学术搜索
d .刘问:吴、w·汉和周,“用户标识基于用户名功能跨多个网站,“中国电脑杂志,38卷,第2040 - 2028页,2015年。视图:谷歌学术搜索
h·张,M.-Y。菅直人,刘y和马,“在线社交网络联系,”亚洲信息检索研讨会施普林格,柏林,德国,2014年。视图:谷歌学术搜索
h . Zhang梁x, x, y,“跨平台的识别匿名的相同用户在多个社交媒体网络,”IEEE工程知识和数据,28卷,不。2、411 - 424年,2016页。视图:出版商的网站|谷歌学术搜索
问:宣和t . Wu”复杂网络之间的节点匹配。”物理评论E文章ID 026103卷,80年,2009年。视图:出版商的网站|谷歌学术搜索
y, z阳,j .贝聿铭j . Tang和p . s . Yu”Cosnet:连接异构社会网络与当地和全球一致性”21 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页1485 - 1494年,悉尼,澳大利亚,2015年。视图:谷歌学术搜索
f .周k, l . Liu g . Trajcevski j .吴和t .钟,“Deeplink:深入学习方法对用户身份的联系,”美国第37 IEEE计算机通讯大会上火奴鲁鲁,页1313 - 1321年,嗨,美国,2018年。视图:谷歌学术搜索
s . Sajadmanesh h . r . Rabiee, a . Khodadadi“预测锚异构社会网络之间的联系,”《IEEE / ACM国际会议上社交网络分析和挖掘的进步(ASONAM)印度阿萨姆邦,页158 - 163年,2016年。视图:谷歌学术搜索
x香港、j . Zhang和p . s . Yu”推断锚的链接在多个异构社会网络,”学报22 ACM国际会议信息和知识管理旧金山,页179 - 188年,CA,美国,2013年。视图:谷歌学术搜索
j .张x,和p . s . Yu”转移异构链接在基于位置的社交网络,”第七届ACM国际会议程序网络搜索和数据挖掘、计算机协会,页303 - 312,纽约,纽约,美国,2014年。视图:谷歌学术搜索
j .张和郑胜耀菲利普“综合锚在社会网络和社会链接预测,”《24日国际人工智能联合会议,页2215 - 2132,布宜诺斯艾利斯,阿根廷,2015。视图:谷歌学术搜索
j·张,“社交网络融合和矿业:一项调查,”2018年,https://arxiv.org/abs/1804.09874。视图:谷歌学术搜索
w·k·张,李x l . Liu和l .廖”调整用户使用网络嵌入在社会网络,”美国25日人工智能国际联合大会帕洛阿尔托,页1774 - 1780年,CA,美国,2016年。视图:谷歌学术搜索
r·刘Zafarani和h“连接相应的身份在社区”第三国际AAAI会议程序在博客和社交媒体美国加利福尼亚州圣何塞,2009。视图:谷歌学术搜索
d . Perito指出c . Castelluccia m . a . Kaafar和p . Manils独特和可追踪的是用户名如何?“在学报的第11隐私国际研讨会加强技术研讨会,页1卷,滑铁卢,加拿大,2011。视图:谷歌学术搜索
彭y, y, z, m .吴问:徐,和h .阴”深入了解在社交网络用户的显示名称,“信息科学卷,447年,第204 - 186页,2018年。视图:出版商的网站|谷歌学术搜索
答:阿奎斯蒂、r·格罗斯,f·d·斯塔茨曼”人脸识别和隐私在增强现实的时代,“杂志的隐私和机密性》第六卷,1,2014页。视图:出版商的网站|谷歌学术搜索
c . rieder Chaintreau, n . Korula y . Kim和s . Lattanzi“跨域连接用户位置数据:理论和验证,”学报》第25届国际会议在万维网上加拿大蒙特利尔,页707 - 719,,2016。视图:谷歌学术搜索
h·w . Chen, w . Wang l .赵w·华和x周,“利用时空为用户联系,用户行为”学报2017 ACM会议信息和知识管理,计算机协会,页517 - 526,纽约,纽约,美国,2017年。视图:出版商的网站|谷歌学术搜索
x高,w, y, y邓,w .咚,”与时空意识在社交网络用户标识,”学报》第27届ACM国际会议信息和知识管理,计算机协会,页1831 - 1834,纽约,纽约,美国,2018年。视图:谷歌学术搜索
h·w . Chen, w . Wang l .赵和x周,“有效和高效的基于位置的社交网络的用户帐户链接,”美国第34 IEEE国际会议数据工程,页1085 - 1096年,巴黎,法国,2018年。视图:谷歌学术搜索
y, y, z, h .阴,徐问:“匹配用户帐户在社交网络中基于用户名和显示名称,“万维网,22卷,不。3、1075 - 1097年,2019页。视图:出版商的网站|谷歌学术搜索
m . Motoyama g . Varghese,“我找你:搜索和匹配的个人在社交网络,”11日ACM国际研讨会Web信息和数据管理(WIDM 2009),页67 - 75,香港,中国,2008。视图:谷歌学术搜索
o . Goga h . Lei, s h . k . Parthasarathi g . Friedland r·萨默和r .特谢拉,“关联用户跨站点,利用无害的活动”美国22日国际会议在万维网上,页447 - 458年,巴西里约热内卢。视图:谷歌学术搜索
t .男人,h .沈,s . Liu x, x程,“预测锚的链接通过嵌入在社会网络的方法,”美国25日人工智能国际联合大会》16卷,第1829 - 1823页,帕洛阿尔托,CA,美国,2016年。视图:谷歌学术搜索
杜x, x, x, j .赵“在社交网络结构建立用户标识,”IEEE工程知识和数据,30卷,不。6,1178 - 1191年,2018页。视图:出版商的网站|谷歌学术搜索
张j . p . s . Yu”Pct:部分co-alignment社交网络”学报》第25届国际会议在万维网上,国际万维网会议指导委员会加拿大蒙特利尔,页749 - 759,,2016。视图:出版商的网站|谷歌学术搜索
y, j .傅c·杨和c·肖,”当地的扩张传播算法识别社会联系,“知识和信息系统,60卷,不。1,第568 - 545页,2019。视图:出版商的网站|谷歌学术搜索
y s, g . Wang周et al .,”一个免疫框架基于社交网络通过大数据建模的影响,“IEEE可靠和安全的计算,16卷,不。6,984 - 995年,2019页。视图:出版商的网站|谷歌学术搜索
朱f s, s . Wang, j .张r·克里希,“九头蛇:大规模的社会身份联系通过异构行为建模,”学报2014年ACM SIGMOD国际会议管理的数据雪鸟,51 - 62页。但是,美国,2014年。视图:谷歌学术搜索
r . Zafarani h·刘,“连接用户在社交媒体网站:一个行为建模方法,”19 ACM SIGKDD学报》国际会议上知识发现和数据挖掘美国IL,页41-49,芝加哥,2013年。视图:谷歌学术搜索
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit-learn:机器学习在Python中,”机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。视图:谷歌学术搜索

安全性和通信网络