1。介绍gydF4y2Ba
物联网(物联网)是互联网的最新发展,包括大量的物理设备和应用程序连接(gydF4y2Ba
1gydF4y2Ba]。物联网允许对象集合和数据交换,等等。gydF4y2Ba
2gydF4y2Ba],它可以执行医疗数据管理、医疗信息监测、分析和用户信息。目前,违反医疗数据的隐私等问题和发布虚假医疗广告经常出现在网络,和恶意用户变得越来越复杂和隐蔽,这给网络带来了巨大的安全威胁。准确、快速的识别恶意用户不仅有利于用户的数据和信息的安全,也便于及时应对网络威胁。gydF4y2Ba
当对象连接到互联网的事情继续向网络用户生成信息和报告,一个值得注意的发展,他们也会加入传统社交网络和与“人”的社会网络。社交网络不仅仅是人与人之间的社会,但叫人,person-to-thing, thing-to-thing。因此,恶意用户在社交网络将不可避免地对互联网的安全构成威胁的东西。gydF4y2Ba
来识别恶意用户在社交网络,确保物联网的安全,用户审计模型提出了基于属性和相似的措施。模型测量复杂的用户属性和用户之间的相似性,分析用户的属性信息和行为信息,确定用户的安全指数,并找到自办发行行为在用户间的相似性,可以改善模型的精确度来识别恶意用户。同时,用户安全的概念,提出了衡量物联网用户安全,这是一个重要的指标来识别恶意用户节点。gydF4y2Ba
本文的贡献如下:gydF4y2Ba
构建用户属性测量算法,获得用户属性数据,计算属性权重向量通过层次权重决策模型,并分析属性信息。gydF4y2Ba
构建相似性度量算法,考虑用户的博客文本信息,使用分词技术,提取原始博客内容关键字,并改善Levenshtein距离。通过研究博客的内容,它反映了用户的偏好和特点的自发行为。gydF4y2Ba
建议用户安全度的概念作为一个重要的指标正常用户和恶意用户之间的区别。同时,定义了安全阈值,安全阈值的判断基于用户安全程度识别恶意用户。gydF4y2Ba
分析模型在真实的微博数据集的性能和比较它与其他算法模型。AM-SM-UAM更好的性能在提高精度,稳定,恶意用户节点的模型参数调优。gydF4y2Ba
本文的其余部分组织如下。节gydF4y2Ba
2gydF4y2Ba,我们提供简要介绍现有的相关工作。模型中描述的部分gydF4y2Ba
3gydF4y2Ba。节gydF4y2Ba
4gydF4y2Ba,我们详细介绍模型AM-SM-UAM草案。节gydF4y2Ba
5gydF4y2Ba介绍了该系统的实验结果。最后,我们结束我们的工作gydF4y2Ba
6gydF4y2Ba。gydF4y2Ba
2。相关工作gydF4y2Ba
近年来,基于异常行为检测的恶意用户识别方法已经引起了相当大的关注。Hajmohammadi et al。gydF4y2Ba
3gydF4y2Ba)主动学习自动获得恶意用户使用,计算开销大的问题,信息冗余和信息过载。古普塔等人使用的特征提取方法,例如文本特征(gydF4y2Ba
4gydF4y2Ba,gydF4y2Ba
5gydF4y2Ba和网络结构特性gydF4y2Ba
6gydF4y2Ba- - - - - -gydF4y2Ba
8gydF4y2Ba),从大量的标记中提取特点正常用户和恶意用户培训用户分类模型。由于不同的评估标准提取区分用户的特性在不同应用背景,检测精度低,稳定性差。李等人。gydF4y2Ba
9gydF4y2Ba)通过添加捕获恶意用户积极吸引关注节点获得的网络和恶意用户独立于普通用户的行为特征。检测框架基于捕获系统被用来确定恶意用户的MySpace和Twitter。Zhang et al。gydF4y2Ba
10gydF4y2Ba)和Tahir et al。gydF4y2Ba
11gydF4y2Ba]分析了协作学习对聚类的影响,和恶意用户识别的准确性是最小的。孟和郭gydF4y2Ba
12gydF4y2Ba]纠正异常的误警率基于支持向量机的入侵检测。虽然部分标记训练样本被用来减少系统开销,大多数训练样本被认为是均匀和平均,和实际情况有时难以满足条件,经常过度拟合现象。朱et al。gydF4y2Ba
13gydF4y2Ba)提出了一个社会群体识别社区检测方法基于局部属性。由于大量的相邻节点,计算开销比较大。异常行为检测方法基于用户的关系,比如Ju et al。gydF4y2Ba
14gydF4y2Ba计算模型的基础上,紧密和信贷集中度,判断用户通过用户的影响关系邻接矩阵;李等人。gydF4y2Ba
15gydF4y2Ba)提出了网页排名基于账户异常检测算法,构建一个基于用户关系和社会关系矩阵行列帐户来检测恶意用户通过网页排名值的迭代计算。这种方法没有考虑用户的属性特征,以及用户的排名结果时间延迟的影响,因此,准确率是物联网有不均匀的最小规模。gydF4y2Ba
总之,现有恶意用户识别方法有三个重要的缺点。首先,用户数据样本是需要高,测试结果不稳定,计算效率和准确性等评价指标不能两全其美。第二,特征提取、聚类和其他方法只考虑用户属性特征或只考虑用户关系的信息,而不考虑用户自发的行为,社会用户属性信息的检测,和自发行为的信息。第三,只有数值特征被认为是和文本数据,如用户博客信息不考虑。gydF4y2Ba
在移动互联网的时代,互联网的东西需要存储、计算和分析数据时,通过服务管理层实现信息处理功能。它使用现有的或感知到的信息来创建新的信息。在开发期间,不仅有必要配置设备网络也执行用户系统开发,数据处理,等。在这个时候,物联网硬件也有社会属性。因此,保持安全的物联网和识别网络中恶意用户,针对上述问题,基于属性的用户审计模型测量和相似性度量(AM-SM-UAM)提出了通过微博的社会平台体积庞大的用户作为一个例子。AM-SM-UAM定义了用户安全度的概念和构建一个属性测量算法和相似性度量算法审计用户属性信息和行为信息和识别恶意用户节点的微博。gydF4y2Ba
4所示。模型建设gydF4y2Ba
当AM-SM-UAM审核微博用户的属性信息和行为信息,它综合考虑了用户属性特征和博客内容信息和用户的安全措施程度通过测量用户的属性和计算用户之间的相似性博客有不同的属性值。gydF4y2Ba
属性测量(AM)代表用户的属性信息数值;相似性度量(SM)代表的相似字的原始博客用户和反映了用户的自发行为的特点。用户安全程度(Sec),它反映了用户的安全程度,计算根据用户属性测量是(gydF4y2Ba
ugydF4y2Ba)和出版内容相似性测量SM (gydF4y2Ba
ugydF4y2Ba)。公式如下所示:gydF4y2Ba
(1)gydF4y2Ba
证券交易委员会gydF4y2Ba
ugydF4y2Ba
=gydF4y2Ba
我gydF4y2Ba
ugydF4y2Ba
⋅gydF4y2Ba
SMgydF4y2Ba
ugydF4y2Ba
。gydF4y2Ba
4.1。属性测量gydF4y2Ba
用户属性测量是用户安全程度评估的基础。测量的属性如表所示gydF4y2Ba
1gydF4y2Ba。除了用户的信息完整性、其他属性信息可以读取实验数据集,所以用户的个人信息完整性的定义和计算。gydF4y2Ba
用户属性特征。gydF4y2Ba
| 特性符号gydF4y2Ba |
功能分类gydF4y2Ba |
功能名称gydF4y2Ba |
|
一个gydF4y2Ba
lgydF4y2Ba |
用户属性gydF4y2Ba |
微博等级gydF4y2Ba |
|
一个gydF4y2Ba
VgydF4y2Ba
|
用户属性gydF4y2Ba |
大v认证gydF4y2Ba |
|
一个gydF4y2Ba
pgydF4y2Ba |
用户属性gydF4y2Ba |
个人信息的完整性gydF4y2Ba |
|
一个gydF4y2Ba
fgydF4y2Ba |
用户属性gydF4y2Ba |
数量的追随者gydF4y2Ba |
|
一个gydF4y2Ba
年代gydF4y2Ba |
用户属性gydF4y2Ba |
的粉丝数量gydF4y2Ba |
个人信息完整性(gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba)指的是比例的个人有效的公开信息,用户填写,占所有信息填写。填写所有的信息包括微博等7项ID、真实姓名认证,性别,生日,年龄,地区,和公司。gydF4y2Ba
个人信息完整性计算和构造向量gydF4y2Ba
EgydF4y2Ba被用来表示用户的数据,见以下方程:gydF4y2Ba
(2)gydF4y2Ba
EgydF4y2Ba
=gydF4y2Ba
dgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
dgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
dgydF4y2Ba
3gydF4y2Ba
,gydF4y2Ba
dgydF4y2Ba
4gydF4y2Ba
,gydF4y2Ba
dgydF4y2Ba
5gydF4y2Ba
,gydF4y2Ba
dgydF4y2Ba
6gydF4y2Ba
,gydF4y2Ba
dgydF4y2Ba
7gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
dgydF4y2Ba
kgydF4y2Ba(gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba1、2、…,7)表明是否项目gydF4y2Ba
kgydF4y2Ba填写完全,gydF4y2Ba
dgydF4y2Ba
kgydF4y2Ba= 0表示没有有效信息填写项gydF4y2Ba
kgydF4y2Ba;gydF4y2Ba
dgydF4y2Ba
kgydF4y2Ba= 1表明,有效的信息已经填写项gydF4y2Ba
kgydF4y2Ba。gydF4y2Ba
用户向量模型构建。通过获取用户的数据,没有标记的选择有效的用户标记7数据信息判断,和被标记为有效或无效的信息根据实际填写情况,直到所有用户标签标记。用户的信息完整性取决于计算向量的稀缺性gydF4y2Ba
EgydF4y2Ba,见以下方程:gydF4y2Ba
(3)gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba
ugydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
7gydF4y2Ba
∑gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
7gydF4y2Ba
dgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba(gydF4y2Ba
ugydF4y2Ba)代表用户的完整性gydF4y2Ba
ugydF4y2Ba′年代个人信息;7是总尺寸gydF4y2Ba
EgydF4y2Ba。gydF4y2Ba
根据相对重要性的5个微博级别的用户属性信息gydF4y2Ba
一个gydF4y2Ba
lgydF4y2Ba,大v认证gydF4y2Ba
一个gydF4y2Ba
VgydF4y2Ba
、个人信息完整性gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba、粉丝数gydF4y2Ba
一个gydF4y2Ba
fgydF4y2Ba和粉丝的数量gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba层次决策模型是用来计算权重向量gydF4y2Ba
βgydF4y2Ba,具体值是由实验决定的。gydF4y2Ba
的结构层次决策模型包括目标层、准则层和方案层,如图gydF4y2Ba
2gydF4y2Ba。第一层表示目标层度规的用户;第二个层是准则层五个用户属性特性影响目标的决心,和第三层代表了用户活动的方案层。gydF4y2Ba
层次决策模型。gydF4y2Ba
根据属性向量对应五个微博用户的特征水平gydF4y2Ba
一个gydF4y2Ba
lgydF4y2Ba,大v认证gydF4y2Ba
一个gydF4y2Ba
VgydF4y2Ba
、个人信息完整性gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba、粉丝数gydF4y2Ba
一个gydF4y2Ba
fgydF4y2Ba和粉丝的数量gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba,并结合权重向量gydF4y2Ba
βgydF4y2Ba,用户属性数值代表反映用户的自己的安全程度,如以下方程:gydF4y2Ba
(4)gydF4y2Ba
我gydF4y2Ba
ugydF4y2Ba
=gydF4y2Ba
一个gydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
vgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
fgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba
·gydF4y2Ba
βgydF4y2Ba
TgydF4y2Ba
。gydF4y2Ba
4.2。相似度测量gydF4y2Ba
用户的原始博客反映他们的行为特性。在用户博客内容提取关键词,博客内容在用户间的相似性与不同属性值估计发现用户行为特征和完整的用户相似性度量。博客的相似性可以转化为两个字符串之间的相似的问题,和字符串之间的操作步骤用于计算。gydF4y2Ba
Levenshtein距离指的是最小数量的编辑操作所需的源字符串转换成源字符串和目标之间的目标字符串string [gydF4y2Ba
16gydF4y2Ba),允许编辑操作包括替换、插入和删除。gydF4y2Ba
由于用户博客的形式出现在长时间运行和短句子,和长时间运行和短句子的顺序在一篇博客文章中不影响用户的相似度,有两个缺点间接利用编辑距离计算。首先,实验误差的整个博客作为一个字符串比较大。第二,替换的数量长时间运行和短句子的顺序在一篇博客文章中都会计入操作的数量,增加了编辑距离,并减少相似,错误与实际情况相比。gydF4y2Ba
在这方面,提出了两个改进的编辑距离的方法,构建相似性度量算法。(一)Jieba [gydF4y2Ba
17gydF4y2Ba)是用于处理用户的博客内容,将整个文章分成几个关键词。(b)的关键词序列在实际博客不会影响相似性的判断。为了避免低相似的现象不一致造成的词序,重叠关键词两个字符串中删除,然后进行相似性度量。gydF4y2Ba
相似性度量算法步骤如下:gydF4y2Ba
步骤1:设置两套原始关键词组成的博客内容的关键词,和名称,分别gydF4y2Ba
转接板gydF4y2Ba和gydF4y2Ba
keySetTgydF4y2Ba,关键字的数量定义为一组的大小,命名gydF4y2Ba
keyNumSgydF4y2Ba和gydF4y2Ba
keyNumT。gydF4y2Ba
步骤2:遍历原始关键词关键词集,得到符合关键字gydF4y2Ba
keySamegydF4y2Ba分别,在集删除它们。同时,记录的数量与关键字命名gydF4y2Ba
SameNum。gydF4y2Ba
第三步:记录当前的关键字集合gydF4y2Ba
keySetXgydF4y2Ba和gydF4y2Ba
keySetYgydF4y2Ba删除重合的关键词后,两组转化为一个源字符串gydF4y2Ba
strXgydF4y2Ba和目标字符串gydF4y2Ba
士的宁gydF4y2Ba。集gydF4y2Ba
xgydF4y2Ba1gydF4y2Ba…gydF4y2Ba
xgydF4y2Ba
米gydF4y2Ba和gydF4y2Ba
ygydF4y2Ba1gydF4y2Ba…gydF4y2Ba
ygydF4y2Ba
ngydF4y2Ba分别代表他们gydF4y2Ba
米gydF4y2Ba的长度是gydF4y2Ba
strXgydF4y2Ba和gydF4y2Ba
ngydF4y2Ba的长度是gydF4y2Ba
士的宁。gydF4y2Ba
第四步:定义(gydF4y2Ba
米gydF4y2Ba+ 1)* (gydF4y2Ba
ngydF4y2Ba+ 1)秩序D [gydF4y2Ba
米gydF4y2Ba][gydF4y2Ba
ngydF4y2Ba),并保存转换所需的最低数量的编辑操作gydF4y2Ba
strXgydF4y2Ba来gydF4y2Ba
士的宁gydF4y2Ba,见方程(gydF4y2Ba
5gydF4y2Ba)。gydF4y2Ba
第五步:计算相似性SM的博客文章。所示的公式方程(gydF4y2Ba
6gydF4y2Ba)和(gydF4y2Ba
7gydF4y2Ba)。gydF4y2Ba
(5)gydF4y2Ba
DgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
最小值gydF4y2Ba
DgydF4y2Ba
米gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
ngydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
DgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
DgydF4y2Ba
米gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
ngydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
fgydF4y2Ba
lgydF4y2Ba
一个gydF4y2Ba
ggydF4y2Ba
米gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
米gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
米gydF4y2Ba
>gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
米gydF4y2Ba
>gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
>gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
国旗gydF4y2Ba用于标记数量的有效替换的比较gydF4y2Ba
strXgydF4y2Ba和gydF4y2Ba
士的宁gydF4y2Ba字符,gydF4y2Ba
国旗gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
XgydF4y2Ba
米gydF4y2Ba
=gydF4y2Ba
YgydF4y2Ba
ngydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
XgydF4y2Ba
米gydF4y2Ba
≠gydF4y2Ba
YgydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
在方程(gydF4y2Ba
5gydF4y2Ba),当gydF4y2Ba
米gydF4y2Ba> 0,gydF4y2Ba
ngydF4y2Ba> 0,它对应于三种操作模式的字符串,分别为:(一)删除操作:D (gydF4y2Ba
米gydF4y2Ba−1][gydF4y2Ba
ngydF4y2Ba)+ 1意味着删除最后一个字符gydF4y2Ba
strXgydF4y2Ba和编辑的数量加1;(b)插入操作:DgydF4y2Ba
米gydF4y2Ba][gydF4y2Ba
ngydF4y2Ba−1)+ 1意味着最后的字符gydF4y2Ba
士的宁gydF4y2Ba插入gydF4y2Ba
strXgydF4y2Ba,编辑的数量增加;(c)替换操作:DgydF4y2Ba
米gydF4y2Ba−1][gydF4y2Ba
ngydF4y2Ba−1)+gydF4y2Ba
国旗gydF4y2Ba显示最后一个字符的字符串gydF4y2Ba
YgydF4y2Ba是代替gydF4y2Ba
strXgydF4y2Ba。编辑的数量决定的gydF4y2Ba
国旗gydF4y2Ba马克的数量,用于有效的替换:gydF4y2Ba
(6)gydF4y2Ba
sim卡gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
DgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
马克斯gydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
+gydF4y2Ba
年代gydF4y2Ba
一个gydF4y2Ba
米gydF4y2Ba
egydF4y2Ba
NgydF4y2Ba
ugydF4y2Ba
米gydF4y2Ba
马克斯gydF4y2Ba
kgydF4y2Ba
egydF4y2Ba
ygydF4y2Ba
NgydF4y2Ba
ugydF4y2Ba
米gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
egydF4y2Ba
ygydF4y2Ba
NgydF4y2Ba
ugydF4y2Ba
米gydF4y2Ba
TgydF4y2Ba
,gydF4y2Ba
(7)gydF4y2Ba
SMgydF4y2Ba
=gydF4y2Ba
sim卡gydF4y2Ba
sim卡gydF4y2Ba
马克斯gydF4y2Ba
,gydF4y2Ba
在D [gydF4y2Ba
米gydF4y2Ba][gydF4y2Ba
ngydF4y2Ba)代表Levenshtein距离源字符串gydF4y2Ba
strXgydF4y2Ba和目标字符串gydF4y2Ba
士的宁gydF4y2Ba。gydF4y2Ba
5。实验gydF4y2Ba
5.1。实验环境和数据gydF4y2Ba
实验中使用的环境(R)的核心(TM)是英特尔i5 - 7300总部CPU @2.50 GHz, 8 GB的内存,操作系统是Windows,代码和模型是基于c++实现。gydF4y2Ba
公布的数据集(gydF4y2Ba
18gydF4y2Ba)是用于验证模型的可行性。数据集包含1787443微博用户数据,每个用户数据包括用户的基本信息(如用户ID、性别、数量的追随者,和球迷的数量)和1000年新每个用户发布的微博。其中,有近40亿用户之间共同关心的关系。由于大量数据的数据集,10组数据集的随机选择,每组有10000的用户数据,和每一块用户数据包括用户的基本信息和新发布的博客内容,这是记录为“Data1、”“Data2”“Data3”,“Data4”,“Data5”“Data6”,“Data7”,“Data8”,“Data9,”和“Data10。”gydF4y2Ba
5.2。评价指标gydF4y2Ba
为了解决数据不平衡问题,混淆矩阵分析实验结果建立了(gydF4y2Ba
19gydF4y2Ba]。矩阵,TP代表最初恶意用户的用户数量和判断恶意用户在检测;FN代表最初恶意用户的用户数量,但被认为是普通用户在检测;外交代表的用户数量原本普通用户,但被认为是恶意用户在检测;和TN代表的用户数量是原来正常用户和判定为正常用户在检测,如表所示gydF4y2Ba
2gydF4y2Ba。gydF4y2Ba
符号描述。gydF4y2Ba
| 检测结果gydF4y2Ba |
实际情况gydF4y2Ba |
| 恶意用户gydF4y2Ba |
普通用户gydF4y2Ba |
| 恶意用户gydF4y2Ba |
TPgydF4y2Ba |
《外交政策》gydF4y2Ba |
| 普通用户gydF4y2Ba |
FNgydF4y2Ba |
TNgydF4y2Ba |
评估UAM的性能,三个评价指标,即精确率(前),召回率(Rec)和谐波均值F1_score被选中。其中,精确率和召回率是用来评估实验的准确性,和谐波值被用来评估实验的综合性能,和下面的方程所示的定义是:gydF4y2Ba
(8)gydF4y2Ba
精准医疗gydF4y2Ba
=gydF4y2Ba
TPgydF4y2Ba
TPgydF4y2Ba
+gydF4y2Ba
《外交政策》gydF4y2Ba
,gydF4y2Ba
(9)gydF4y2Ba
矩形gydF4y2Ba
=gydF4y2Ba
TPgydF4y2Ba
TPgydF4y2Ba
+gydF4y2Ba
FNgydF4y2Ba
,gydF4y2Ba
(10)gydF4y2Ba
FgydF4y2Ba
1gydF4y2Ba
_scoregydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
⋅gydF4y2Ba
精准医疗gydF4y2Ba
⋅gydF4y2Ba
矩形gydF4y2Ba
精准医疗gydF4y2Ba
+gydF4y2Ba
矩形gydF4y2Ba
。gydF4y2Ba
5.3。参数设置gydF4y2Ba
参与实验的参数包括安全阈值gydF4y2Ba
φgydF4y2Ba和权向量gydF4y2Ba
βgydF4y2Ba。安全阈值gydF4y2Ba
φgydF4y2Ba通过实验进行优化,其价值指的是由模型的性能评估通过调和平均数F1_score,见下面的分析;权重向量gydF4y2Ba
βgydF4y2Ba是由一个层次决策模型,计算过程如下。gydF4y2Ba
根据层次模型,测量用户属性,gydF4y2Ba
WgydF4y2Ba
1gydF4y2Ba,gydF4y2Ba
WgydF4y2Ba
2gydF4y2Ba,gydF4y2Ba
WgydF4y2Ba
3gydF4y2Ba,gydF4y2Ba
WgydF4y2Ba
4gydF4y2Ba,gydF4y2Ba
WgydF4y2Ba
5gydF4y2Ba代表gydF4y2Ba
一个gydF4y2Ba
lgydF4y2Ba,gydF4y2Ba
一个gydF4y2Ba
VgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba,gydF4y2Ba
一个gydF4y2Ba
fgydF4y2Ba,gydF4y2Ba
一个gydF4y2Ba
hgydF4y2Ba5个用户的属性特征。五个特征的权重设置gydF4y2Ba
WgydF4y2Ba
1gydF4y2Ba= 3,gydF4y2Ba
WgydF4y2Ba
2gydF4y2Ba= 5,gydF4y2Ba
WgydF4y2Ba
3gydF4y2Ba= 7,gydF4y2Ba
WgydF4y2Ba
4gydF4y2Ba= 1,gydF4y2Ba
WgydF4y2Ba
5gydF4y2Ba= 1。九规模比例法(gydF4y2Ba
20.gydF4y2Ba]提出的T.L. Saaty作为比较规模比较准则层中的每个指标的相对重要性。构造判断矩阵如表所示gydF4y2Ba
3gydF4y2Ba。gydF4y2Ba
判断矩阵。gydF4y2Ba
|
WgydF4y2Ba1gydF4y2Ba |
WgydF4y2Ba2gydF4y2Ba |
WgydF4y2Ba3gydF4y2Ba |
WgydF4y2Ba4gydF4y2Ba |
WgydF4y2Ba5gydF4y2Ba |
|
WgydF4y2Ba1gydF4y2Ba |
1gydF4y2Ba |
3/5gydF4y2Ba |
3/7gydF4y2Ba |
3gydF4y2Ba |
3gydF4y2Ba |
|
WgydF4y2Ba2gydF4y2Ba |
5/3gydF4y2Ba |
1gydF4y2Ba |
5/7gydF4y2Ba |
5gydF4y2Ba |
5gydF4y2Ba |
|
WgydF4y2Ba3gydF4y2Ba |
7/3gydF4y2Ba |
7/5gydF4y2Ba |
1gydF4y2Ba |
7gydF4y2Ba |
7gydF4y2Ba |
|
WgydF4y2Ba4gydF4y2Ba |
1/3gydF4y2Ba |
1/5gydF4y2Ba |
1/7gydF4y2Ba |
1gydF4y2Ba |
1gydF4y2Ba |
|
WgydF4y2Ba5gydF4y2Ba |
1/3gydF4y2Ba |
1/5gydF4y2Ba |
1/7gydF4y2Ba |
1gydF4y2Ba |
1gydF4y2Ba |
通过计算权重向量gydF4y2Ba
βgydF4y2Ba通过判断矩阵的每个属性,gydF4y2Ba
总和gydF4y2Ba行和规范化矢量和矩阵,如表所示gydF4y2Ba
4gydF4y2Ba。gydF4y2Ba
治疗矩阵。gydF4y2Ba
|
WgydF4y2Ba1gydF4y2Ba |
WgydF4y2Ba2gydF4y2Ba |
WgydF4y2Ba3gydF4y2Ba |
WgydF4y2Ba4gydF4y2Ba |
WgydF4y2Ba5gydF4y2Ba |
总和gydF4y2Ba |
βgydF4y2Ba |
|
WgydF4y2Ba1gydF4y2Ba |
1gydF4y2Ba |
3/5gydF4y2Ba |
3/7gydF4y2Ba |
3gydF4y2Ba |
3gydF4y2Ba |
8.029gydF4y2Ba |
0.163gydF4y2Ba |
|
WgydF4y2Ba2gydF4y2Ba |
5/3gydF4y2Ba |
1gydF4y2Ba |
5/7gydF4y2Ba |
5gydF4y2Ba |
5gydF4y2Ba |
13.381gydF4y2Ba |
0.242gydF4y2Ba |
|
WgydF4y2Ba3gydF4y2Ba |
7/3gydF4y2Ba |
7/5gydF4y2Ba |
1gydF4y2Ba |
7gydF4y2Ba |
7gydF4y2Ba |
18.733gydF4y2Ba |
0.463gydF4y2Ba |
|
WgydF4y2Ba4gydF4y2Ba |
1/3gydF4y2Ba |
1/5gydF4y2Ba |
1/7gydF4y2Ba |
1gydF4y2Ba |
1gydF4y2Ba |
2.676gydF4y2Ba |
0.066gydF4y2Ba |
|
WgydF4y2Ba5gydF4y2Ba |
1/3gydF4y2Ba |
1/5gydF4y2Ba |
1/7gydF4y2Ba |
1gydF4y2Ba |
1gydF4y2Ba |
2.676gydF4y2Ba |
0.066gydF4y2Ba |
获得了五个属性的相对重要性,权向量gydF4y2Ba
βgydF4y2Ba得到如下:gydF4y2Ba
βgydF4y2Ba= (0.163,0.242,0.463,0.066,0.066)。gydF4y2Ba
5.4。实验分析gydF4y2Ba
比较AM-SM-UAM之间的性能差异和现有的先进模式,成立比较实验。AM-SM-UAM与DBSCAN-based聚类算法相比,PageRank-based异常检测算法。通过这三个算法对应于实验的各种指标,三种算法的准确性来识别恶意用户的微博进行了分析。gydF4y2Ba
基于DBSCAN聚类算法是一种基于密度聚类的异常检测方法,可以发现异常点,而聚类。PageRank-based微博账户异常检测算法构造一个根据用户关系和社会关系矩阵行列的帐户通过迭代计算PageRank值来检测恶意用户。在恶意用户识别两种算法有很好的结果,因此上述两种算法与AM-SM-UAM用于比较实验。使用这三种算法,十组实验的数据集上进行“Data1-Data10”反过来,被记录为“G1-G10”。前,Rec, F1_score被用作实验的评估标准,和实验结果如图gydF4y2Ba
3gydF4y2Ba- - - - - -gydF4y2Ba
5gydF4y2Ba。gydF4y2Ba
精确率。gydF4y2Ba
召回率。gydF4y2Ba
F1_score。gydF4y2Ba
结果表明,当AM-SM-UAM识别恶意用户,10组之间的精确率差异不超过2%,召回率不超过3%,F1_score不超过1%。与此同时,精确率、召回率和F1_score都高。DBSCAN聚类算法和网页排名排名算法精度较低利率时检测恶意用户的微博,和召回率差别很大,这使得F1_score低,不稳定。根据实验结果,用户在微博的审计AM-SM-UAM完成基于用户的属性信息和用户的博客关键词。它不仅考虑了数字信息,如用户的属性和减少时间延迟的影响由于只考虑用户的行为,但也认为文本信息,比如博客内容和不完备造成的计算只能够避免数值属性,从而提高识别恶意用户的准确性。gydF4y2Ba
测试的稳定性AM-SM-UAM审计微博用户,十组实验结果的平均值和方差对应三种算法进行了比较。实验结果如图gydF4y2Ba
6gydF4y2Ba和gydF4y2Ba
7gydF4y2Ba。gydF4y2Ba
平均水平。gydF4y2Ba
方差。gydF4y2Ba
它可以观察到在图gydF4y2Ba
6gydF4y2Ba实验的10集对应的三个算法的精确率相比,召回率和F1_score价值。其中的三个指标的平均值DBSCAN聚类算法中;网页排名排名算法虽然平均值是92%,召回率低,算法的整体性能很差。10个实验中使用AM-SM-UAM,精确率、召回率,和F1_score最高的比其他两种算法;的平均精度达到96%。gydF4y2Ba
从图可以看出gydF4y2Ba
7gydF4y2BaDBSCAN聚类算法的方差和网页排名排名算法的三个实验评价指标很大,表明上述两个算法的实验结果波动大的10组实验,分别和算法的稳定性很差。10组实验的方差对应AM-SM-UAM很小,表明每组实验的结果不太波动,算法的稳定性更好。gydF4y2Ba
根据均值和方差的10组实验结果对应的三个算法,在审计的过程中微博用户的实验中,与其他两种算法相比,AM-SM-UAM算法也有更好的稳定性和适应性的前提下确保识别恶意用户具有较高的精度。gydF4y2Ba
5.5。参数调优gydF4y2Ba
DBSCAN聚类算法、网页排名排名算法和AM-SM-UAM算法都需要实现恶意用户识别参数调整。DBSCAN聚类算法需要设置两个参数,即邻域阈值(Eps)和点阈值(Minpts)。根据参数,该地区具有一定密度分为集群,并且聚类结果敏感参数值。网页排名排名算法计算用户公关价值通过迭代矩阵秩的用户完成检测恶意用户和阻尼因子的设置和迭代终止阈值有决定性影响的用户公关价值计算,和排名结果是敏感的参数值。上述两个算法极大地影响参数,算法的性能差别很大。gydF4y2Ba
安全阈值gydF4y2Ba
φgydF4y2Ba在AM-SM-UAM相关识别恶意用户的准确性。由方程(gydF4y2Ba
1gydF4y2Ba),用户的安全的公式Sec (gydF4y2Ba
ugydF4y2Ba
我gydF4y2Ba)=我(gydF4y2Ba
ugydF4y2Ba
我gydF4y2Ba)·SM (gydF4y2Ba
ugydF4y2Ba
我gydF4y2Ba),我(gydF4y2Ba
ugydF4y2Ba
我gydF4y2Ba)= (gydF4y2Ba
一个gydF4y2Ba
lgydF4y2Ba,gydF4y2Ba
一个gydF4y2Ba
VgydF4y2Ba
,gydF4y2Ba
一个gydF4y2Ba
pgydF4y2Ba,gydF4y2Ba
一个gydF4y2Ba
fgydF4y2Ba,gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba)·(gydF4y2Ba
βgydF4y2Ba)gydF4y2Ba
TgydF4y2Baβ的权向量计算层次决策模型。因此,在权向量的前提上gydF4y2Ba
βgydF4y2Ba已经确定,安全阈值gydF4y2Ba
φgydF4y2Ba应该由F1_score的大小和安全阈值之间的关系gydF4y2Ba
φgydF4y2Ba和F1_score如图gydF4y2Ba
8gydF4y2Ba。gydF4y2Ba
之间的关系gydF4y2Ba
φgydF4y2Ba和F1_score。gydF4y2Ba
可以观察到在图gydF4y2Ba
8gydF4y2Ba,当安全阈值gydF4y2Ba
φgydF4y2Ba0.4,F1_score值是最大的。因此,当安全阈值gydF4y2Ba
φgydF4y2Ba= 0.4,也就是说,用户安全度小于0.4用户定义为恶意用户,AM-SM-UAM具有最好的性能。gydF4y2Ba
验证的安全阈值的合理性0.4,10组实验AM-SM-UAM审计微博用户进行了分析。把用户安全程度的普通用户和恶意用户在微博“G1-G10”计算的十组实验,分别。计算的平均安全程度的普通用户和恶意用户在每组实验中,如图gydF4y2Ba
9gydF4y2Ba。gydF4y2Ba
用户安全程度分布。gydF4y2Ba
结果表明,安全程度的普通用户平均分布在[0.6,0.8],而恶意用户分布在[0.2,0.4]。根据实验结果,普通用户之间的平均安全程度和恶意用户在微博上有一个很大的缺口,所以安全阈值的程度范围可以[0.4,0.6]。根据实验结果,与其他两种算法相比,过程中参数调优,UAM很容易找到最优参数,哪个更有利于识别恶意用户的微博。gydF4y2Ba
6。结论gydF4y2Ba
本文提出一种基于属性的微博用户审计模型测量和相似性度量(AM-SM-UAM),用于检测大量的恶意节点的物联网和识别虚假信息在医疗和社会网络。首先,用户安全度的概念,提出了反映微博用户的安全级别,作为区分的标准恶意用户和普通用户。其次,用户属性测量算法,使用层次决策模型构造判断矩阵来分析用户属性数据。最后,相似性度量算法,用户原创博客的关键词分词技术提取,Levenshtein距离提高,用户博客内容相似性计算和用户行为信息数据进行了分析。通过测量用户属性信息和博客关键词的相似性的计算,获得了用户安全程度,恶意用户决定。实验表明,AM-SM-UAM实现更准确,性能稳定。gydF4y2Ba
在不久的将来,物联网中的恶意用户节点的行为将会具体分析来确定恶意用户之间的相关行为。同时,恶意节点之间的关联行为的概率在医疗物联网是通过增加推理计算,和恶意节点的识别和虚假行为医疗物联网的进一步讨论。gydF4y2Ba