文摘

社会人之间的情感的复杂性和多样性,以及它们之间的关系包括友善和敌意。积极的(“友好”,“喜欢”或“信任”)或负面(“敌意”,“不喜欢”或“不信任”的情绪关系可以建模为签署连接或链接。失踪的关系或个人之间的情感总是值得的猜测。声明上签名链接已经显著应用各种网络设置,如在线推荐系统和用户检测异常。一个新颖的预测方法称为迹象 模型是测量值的两个指标,一个是相似的;另一种是preference-reputation(公关)。一对节点的相似性定义的局部结构的统计特性。相似的定义同意社会平衡的理论,因为现有的连接反映个体之间的新链接出现的趋势。和PR值是衡量边的正面或负面趋势没有信号。实验的大型社交数据证明的可行性和有效性 模型:与一些流行的预测方法, 模式这个问题显示了复杂性低、精度高。实验结果也证明了 模型提供了洞察力和远见的机制推动签署形成链接。

1。介绍

在社交网络上,成员之间的关系不仅表现出友好合作,而且敌意和竞争。积极的和消极的链接被用来描述合作(友好/信任的)分别和竞争(敌意/不信任)的关系。指定链接是一个重要的迹象包括附加信息网络比传统的二进制或加权方法1- - - - - -3]。在签署网络的一个挑战是推断未知关系的迹象,通常被称为信号预测(4],它揭示了底层社会成员之间的关系。因此,它可以广泛应用于许多应用程序如推荐系统和用户异常检测等。5]。

预测问题的迹象推断那些隐藏的符号使用的其余部分提供的信息网络。它类似于链接预测,这是一个研究的问题在传统的无符号社会网络分析(6]。然而,相比之下,链接预测,预测标志仍处于开始阶段由于以下困难。一个手,正面和负面的影响不平衡或笨拙的迹象在签署了社交网络7,8]。社交网络成员之间积极的信号可以传播而负号不能。例如,一个信托B和B信托C, C会信任在某种程度上,而不信任B和B不信任C,很难直接判断A和C之间的关系(9]。因此,在文献[的传播模型10)之间的不信任关系只传播一次信任关系。另一方面,消极的链接的形成机制不同于积极的联系。签署网络领域的研究,更少的负面迹象数据集可用于研究[11因为社交网络的成员很少表达自己的反感别人害怕被报复[12]。所以负号预测成为一个困难的问题领域的预测标志。因此,深入研究和挖掘社交网络的形成机制是提高预测精度的关键。

第一次介绍信号预测调查et al。古哈10),后来开发的矩阵计算,机器学习,协同过滤。古et al。10]权力使用矩阵来计算传播的信任和不信任。由矩阵,在讨论各种技术进行了探讨。健身的主要特征向量函数来调整提出了集群(13]。根据节点之间的相似性对随机游走在研究不信任的不一致在传播14]。减少相邻矩阵的秩大约能最大程度的平衡结构(15]。快速获得最大平衡矩阵,Cai et al。16)提出一个奇异值投影算法,在最高的产品k奇异向量和奇异值大约替换原来的矩阵。Agrawal et al。17和谢长廷等。18)近似原矩阵的矩阵分解方法,原始的 矩阵分解为两个的乘积 矩阵,产品矩阵的元素值作为预测的值。到目前为止,机器学习的方法包括逻辑回归(4,9,19,20.),支持向量机(21),决策树(22],朴素贝叶斯[23)等;用于学习的特性包括节点度(4,9)、类型(23],相似[9,20.,诚信24],偏好[25,26),三角形结构(4[],四边形结构19),用户评论(22,27]等协同过滤关注相似,相似的人更有可能做出类似的行为,这是由协同过滤信号预测的基本思想。查瓦利河和贾利利28)认为,计算节点之间的相似性是影响稀疏的社交网络。因此,他们集群网络和计算集群之间的相似性来取代个体之间的相似性。签署网络中个人行为被认为隐藏在“群体智慧”体现的群落结构(5]。社区结构嵌入在社会网络untractable甚至在完成网络(29日]。

开明的引用和他们的方法,一个新的信号预测方法提出了两个指标,一个是相似的;另一个是preference-reputation (PR)值,调用 模型。局部结构的统计分析探讨签署了社交网络的宪法机制相似的一对节点定义。相似的意思同意社会平衡的理论,因为现有的关系反映了个体之间的新兴趋势的新链接。和公关价值之际,恰逢优先连接机制(2),是测量边的正面或负面趋势没有信号。真实数据的实验证明了模型的可行性和有效性。与流行的预测方法相比, 模式这个问题显示了复杂性低、精度高。实验结果也证明了 模型提供了洞察力和远见的机制推动签署形成链接。

本文的安排如下。节中说明了引入和动机1;节2、相似性和公关价值定义。此后,预测方法,即 模型,提出了基于索引。节3,实验结果和比较在三个真正的社会网络,签署Epinions这样,Slashdot,和维基百科。最后,讨论和结论提出了这项工作的部分4

2。方法和模型

用签名图 ,在哪里 的节点集和链接的吗 分别为, 是一套的重量吗 这样的链接 设置 ,如果节点−1或0 显示了积极的,消极的,对节点或没有态度 无论正面或负面的,情绪是清晰和明显。虽然,没有态度,模棱两可和复位,人想知道确定精确的态度。然后一个自然的问题是预测的符号链接 基于的信息 和他们的标志(4]。信号预测问题也解释为“在多大程度上可以预测网络的发展利用其结构信息”(26]。

在本节中,索引等相似,不同,喜好和声誉,和的符号链接预测模型。

2.1。相似和不同

为了预测信号边缘节点 到节点 , ,有必要做针对性的分析预测任务。考虑下面的局部结构,如图1:在面板(a), 该节点为 ,然后共同属性越高 ,越多的概率 ;在面板(b), 节点的吗 ,然后共同属性越高 ,越多的概率 在预测 之间可以通过常见的属性 和之间的公共属性 图分析1,因为 源节点和吗 目标节点的四边形结构,之间的公共属性 之间的公共属性等于 因此,它可以用一半的努力产生两倍的结果。一般来说,更常见的邻居(极性也一致)两个节点,他们共同的属性将会越高。然后之间的相似性 可以被定义为 在哪里 社区摆脱节点 分别用积极和消极的链接, 社区的节点吗 不论链接的迹象。此外, 精制的节点的迹象吗 和它的邻居。然后 在哪里 的情况下 对方程(1)分别, 社区的节点吗 分别为积极的和消极的链接。 分别被称为积极的相似性和消极的相似性。

2显示所有的情况下 :板(一)——(d)的情况吗 和面板(e) - (h) -相似 ;因此,板(一)——(d)显示积极的相似性 ,而面板(e) - (h)描述了消极的相似性 由方程(1),面板(a)和(b)确认 ,而面板(c)和(d)反对;面板(e)和(f)确认 虽然(g), (h)分别对它。相反属性的相似性,还介绍了不同。

在图2越多,结构(a)和(b),更大的价值 ,和更多的结构(c)和(d),小的价值 的结构(e)和(f),更大的价值 ,和更多的结构(g)和(h),较小的值

相似的节点的定义 ,节点之间的不同 定义

在哪里 的情况下 对方程(3),分别 分别不同是积极的和消极的不同。

由方程(1)- (4),发现以下两个事实如果 ,

否则,当 ,其他两个事实,

通常情况下, 表示节点之间的一致性程度 , 节点之间不一致的程度吗 在真实的社交网络,积极相似的节点往往有积极的人际关系,与他们之间的巨大差异节点时可能有负面的关系。

2.2。偏好和声誉

在社交网络上,个人的偏好和声誉是影响决策形成一个连接(25]。的偏好,称为乐观或偏见在先前的研究26),是边缘生成节点。某些节点可能比其他人更乐观,这意味着他们更有可能成为积极的态度。节点的偏好 被定义为

措施的一般态度节点 对其他节点方程(7积极的边缘的概率),也意味着在所有边缘生成的节点 更大的 是,节点的概率越高 再生另一个积极的边缘。

声誉,也称为威望或值得在先前的研究26),是边缘接收节点。声誉反映了流行的网络中的一个节点。一个节点倾向于具有较高声誉得到更积极的边缘。节点的声誉 被定义为

在方程(8), 其他节点对节点的总体态度 ,也是积极的边缘的概率在所有边缘节点接收到 更大的 是,节点的概率越高 接收另一个积极的边缘。

结合两种 将增强节点的预测影响对吗 因此,我们计算的加权和 作为

的系数之和 在方程(9)是1,这意味着方程不仅需要充分考虑节点的偏好 和节点的声誉 ,但还优先连接机制(2]。

2.3。预测:SPR-Model

本节预计使用similarity-dissimilarity(表示迹象 ) 价值。 是一个当地的环境特性,实际上反映了目标边缘结构的相互作用参与,而 值是节点的特性反映了经验估算根据过去的表现。在这里,预测方法需要两个 的决定性因素 值作为辅助因素。

模型采取如下:

表示 积极的指数和 负折射率。让 是任何积极的实数来衡量之间的区别 , 一个阈值测量的区别 , 反映了节点之间的积极趋势, 是节点之间的负面趋势。当之间的差距 足够大,看起来是明显的趋势。因此,两种情况 分别被假定为积极的和消极的迹象。因此,节点的符号链接 分配的两种情况:

案例1。如果 在这种情况下,标志的倾向 很容易理解,所以的值 - - - - - - 是主管的预测。因此,的符号链接 被分配为 ,的表现趋势 很明显,这样特性 是主管预测任务。然而,

例2。 这种情况下意味着情绪的倾向是模棱两可的。因此,的特点 失去了其预测的有效性。在这种情况下,的值 被认为是预测。表示积极网络中链接的比例 然后的符号链接 被分配为 事实上, 意味着一个概率偏好和声誉的比例大于积极的趋势, 很容易承认。否则, 意味着节点生成的链接 都是积极的;否则,生成的链接节点 收到时都是负面的

2.4。计算SPR-Model的伪代码

计算的伪代码 - - - - - -模型如表所示1

计算复杂度包括时间和空间的复杂性 - - - - - -模型算法在表1进行了分析。第一步计算的节点邻居的遍历所有边缘一旦时间,计算时间复杂度 ,在哪里 边集的大小吗 ;在步骤2中,对于每一个优势 ,与邻居 第2步,分别的时间复杂度 ,在哪里 节点的平均度。在步骤3中,计算每对节点的相似性和不同 在步骤4, 计算 每对节点的价值。最后在步骤5中,它也需要 预测的每条边的迹象。因此,预测的总计算时间复杂度边缘的迹象

在实验分析,输入真实的社会网络数据相邻矩阵 行乘以3列。每一行是一个边缘,第一和第二列是源节点和目标节点,分别,第三列是观察到的信号从源到目标节点。当我们计算 - - - - - -模型中, 维矩阵的定义。如上所述,前三列仍然是网络链接数据。第四列的数量是11日八建起了特殊的每条边分别包含在。12日至15日列存储的值 , , 分别的边缘。16到18列的值 , 分别为每条边。19世纪和20列的值 分别为每条边。21列是每条边的预测价值。因此,空间复杂度 此外,空间复杂性的计算每个节点的邻居集 ,在哪里 是节点集的大小 的网络。总结上述分析,总空间的复杂性

3所示。实验

为了验证的效率和合理性的符号链接预测模型,实验的真实数据。实验包括三个真正的社会网络,签署Epinions这样,Slashdot,维基百科4]。Epinions这样是一个消费者评论网站。用户可以读取或评论各种商品和服务,和他们也可以。用户也可以允许评估评论由其他用户,也就是说,评价其他用户值得信赖或信任对象。Epinions这样数据集包含131828个节点和841372边缘,其中86.0%是积极的边缘。Slashdot博客网站,允许用户说他们喜欢或不喜欢的其他用户的评论。Slashdot数据包含82144个节点和549202边缘,其中77.4%是积极的边缘。维基百科是一个在线网络投票,管理员用户可以投票支持或反对候选人。维基百科数据集包含7118个节点和104359边缘,其中78.4%是积极的边缘。这三种网络的细节如表所示2

3.1。评估指标

实验结果给出了由三个指标:准确性、准确性和平均水平 - - - - - -得分。的准确性(acc)被定义为:

在哪里TP,TN,《外交政策》FN定义如表所示3TPR是真正的积极,TNR是真正的负率,P是积极的边的数目,N是负边的数量。方程(12)表明,负缘预测的作用几乎是忽略,结果是完全由积极的优势 ( )。因此,平均精度( )被定义为:

因此,较高的预测因子 可以预测较高的迹象甚至扭曲数据集无视偏差(30.]。此外,由于信号的预测是一个二进制分类任务, - - - - - -分数是衡量预测精度和召回率计算:

在哪里 显然, - - - - - -分数的调和平均数 以及它们之间可以是一个权衡。

3.2。泛化在数据集

为了测试的性能预测模型,实验是在不同的数据集Epinions这样,Slashdot和维基百科。在表2, Epinions这样, Slashdot和 维基百科的提取进行测试。表4显示了三个sub-datasets的边缘中包含至少一个面板的图2

的性能预测模型中显示数据3(一个)3 (c)和3 (e)表明:(1)当预测仅仅基于 值,精度在三个数据集是85.51%,78.66%和75.34%,分别的时候只基于预测 ,结果是97.57%、95.31%和90.20%,分别提高了12.06%、16.65%和14.86%。(2)当使用 果断和公关值作为辅助预测,精度的三个数据集都有所改善,证明了科学的预测模型。

四边形的数量计算如图2显示,每个数据集都是分为四个sub-datasets根据四边形的数量来测试的性能 ,如数据所示3 (b),3 (d)3 (f)。Epinions这样的预测作用不显著差异四个sub-datasets,此外,预测精度始终很高。这证明 具有较高的鲁棒性。Slashdot和维基百科,当四边形的数量 ,预测精度明显低于当四边形的数量超过 这表明这两个网络较少的数据提取功能,这是这两个数据集下的精度的主要原因不是Epinions这样的数据。因此,结论是三倍。第一,网络Epinions这样比这更成熟的Slashdot和维基百科。其次,Slashdot的预测准确性和维基百科增加增加可用的网络数据;第三是科学预测

3.3。比较的结果

为了进一步测试的预测的性能 模型,与现有方法相比,提出的逻辑回归(LR)等Leskovec et al。4),逻辑回归基于三个属性(LR-3A)提出的元et al。9),监督学习基于高阶周期(HOC)蒋介石等人提出的。19),基于贝叶斯节点属性的逻辑回归(LR-BNP)提出的歌曲等。23],提出的基于排名troll-trust模型吴et al。24),基于声誉的逻辑回归和乐观(LR-RO)提出·沙希瑞遇刺一周年et al。26),不平衡的措施(MOI)和矩阵分解(MF)研究了蒋介石et al。15),协同过滤(CF)引入了查瓦利河和贾利利28)和封闭的三重Khodadadi提出的微观结构(ctm)和贾利利30.]。比较结果如表所示5。为了比较公平的方法,实验数据的表5引用先前的研究。注意,在预测模型

5表明, 值SPR-model Epinions这样,Slashdot和维基百科都大于其他10个方法。这证明的可行性和有效性 计算节点特性的预测机制。通过对比 的10个方法,可以得出以下结论:(1)社会平衡理论不能完全解释签署了社交网络的形成机制,尽管MOI-10措施平衡的周期长度 ,其预测结果还不如其他算法。此外,低 CF也说明边缘信号的预测应该充分考虑其他特性的网络,而不是单纯依赖结构的平衡。(2)局部结构签署比宏观结构。换句话说,节点生成签名的边缘通常基于他们的本地连接,即。,HOC-5学习的特征周期的长度 ,其预测结果还不如其他机器学习算法。机器学习(3)不能有效地捕获关键签署结构特点,当有太多的学习特性,即。,9个标量的三个算法(LR, HOC-5 LR-BNP)有八个标量不如LR-RO。主要原因是LR-RO只学习两个特性(声誉和乐观),而其他三个算法吸取了很多功能。(4)影响的主要因素的优势是它的两个端点的特性,其次是它的地方特色,最后它的全球特性。对于这些11算法,只有Troll-Trust和LR-RO可以媲美 的准确性和鲁棒性。这三种算法的共同点是,他们都是基于两个端点的特性来预测边缘的符号。上述比较分析表明 成功地避免了其他算法的缺点和捕获签名结构特点的关键。

至于实际数据集的偏态特性, 基本上是由积极的边缘。因此, 模型与现有算法相比,表所示6。为了比较公平的方法,实验数据的表6从以前的研究引用。因为一些以往的研究并没有显示这些实验的结果,算法的比较表6不到,在桌子上吗5, - - - - - -模型明显优于比其他的科学性和有效性 的预测机制。5算法相比表6LR-RO仍是最具竞争力的,这与表的结论是一致的5。然而, 其他的算法已经大大减少。这表明大多数预测算法有缺陷的负面边缘。此外, - - - - - -分数也与LR-3A和Troll-Trust算法相比,如表所示7,实验数据证明该预测模型具有较高的预测精度和召回率。通过比较先进的方法,它是完全证明 优于其他预测正面和负面的边缘。

3.4。分析的结果

4显示了实验结果,绘制的函数 与的变化 ,的趋势 - - - - - -分数基本上是同步的,这也说明,这两个评价指标主要是由积极的边缘,此外,当 是非常小的( ),他们可以达到最优。然而,的趋势 是完全不同的。的变化 , 显示了一个明确的趋势先增加,然后下降,和最优价值显然是落后的 - - - - - -得分。这是因为:当 非常小,主要是由边缘的迹象 功能;的增加 ,相当大的一部分由边缘 值,由此看来, 值是优于 在预测消极的边缘。然而,由于需求量的压倒性优势积极的边缘,将减少在所有三个评价指标 太大。

4所示。讨论和结论

摘要 模型提出了预测边缘迹象在大型在线社交网络交互可以是积极的和消极的。模型是容易理解的,因为只有两个指标来衡量节点之间的交互和当地的环境。

显示了节点之间的相似和不同 ,可以提炼成正负similarity-dissimilarity。实验结果在Epinions这样、Slashdot和维基百科的科学性和有效性 在预测边缘的迹象。该指数的主要优势 精确地预测如下边的迹象。第一个优势是指数 测量节点对的共同属性。因此 计算从一个高度对称的四边形。自迹象bi-directed边缘基本上是重合的,强有力的证据支持的表8。的自然猜想中的链接网络的方向应该是对称的。事实上,在Epinions这样双向链接的比例,Slashdot和维基百科 , , ,分别。维基百科的原因可能会有更糟糕的预测作用的双向链接。第二个优势是,的值 保持社会平衡和地位理论等等,或者至少它巧妙地避免它们之间的冲突。例如,在图2(一个),四边形结构平衡的时候 是1, 应该是一样的吗 当节点 也有类似的状况。

第三个可能没有过去的优点是 预测模型是最好的现有数据预测丢失的链接的迹象。以前的方法大多是基于三角形结构,三角形数据在实际数据也越来越少。如表所示2Epinions这样,Slashdot,维基百科有11.5%,39%和5.8%减少三角形数据与数据模型的基础。

显示的趋势 ,和是一个偏好的加权和 的声誉 节点的偏好和声誉来自优先连接机制,可以签署了社交网络中描述为:节点在较大的正/负出度(或入度)生成一个积极/消极的边缘有较大的概率;正/负出度较小的节点(或入度)生成一个积极/消极的边缘有小概率,如图5。实验结果表明,消极的边缘有明显 功能时生成的。因此,它可能是更有效的预测边缘节点对的区分标志的特征。

摘要底层机制,确定链接的迹象在大型社交网络是探索和获得一个结论,边缘信号主要是由自己或当地的特性,而不是全球。通过实验分析,验证预测模型的科学性和有效性。此外,因为测量的特性模型从节点中提取自己的或局部结构,模型对大规模数据集非常有利。

数据可用性

3 . txt文件,Epinions这样。txt, Slashdot。txt和维基百科。三种数据集被用来支持这项研究的结果已经沉积在斯坦福大学网站存储库https://snap.stanford.edu/data/ signnets。数据集在邻接表的形式,包括三个数组:第一个是源节点,第二个是目标节点,第三是边或迹象。Epinions这样的数据是消费者的评论网站,包括131828个节点和841372个链接。用户可以读取或评论各种商品和服务,同时也可以对发表的其他用户,也就是说,评价其他用户值得信赖或信任对象。Slashdot的数据是一个博客网站,允许用户说他们喜欢或不喜欢的其他用户的评论,它包含82144个节点和549202个链接。维基百科是一个在线投票的数据网络,用户投票或反对候选人管理员,还有7118个节点和104359个链接。

的利益冲突

作者宣称没有利益冲突。

确认

我们要感谢匿名评论者的建设性的意见和建议,这无疑提高了本文的演示。我们展示我们伟大的感谢所有作者收集和共享的数据,比如Epinions这样,Slashdot和维基百科基准网络。最后,我们要感谢中国的国家科学基金会支持本研究的(71471106)。