文摘
在大多数情况下,块结构和演化特征总是在动态网络共存。这导致不准确的结果的群落结构与一个两步策略分析。幸运的是,一些方法考虑进化特征建模时间社区结构。但社区的数量不能自动确定。因此,一个模型,进化贝叶斯非负矩阵分解(EvoBNMF),本文提出了。它侧重于建模颞社区结构与演化特征。更具体地说,进化行为,引入EvoBNMF,可以量化的转移强度社区相邻快照建模演化特征。创新,最适当数量的社区可以自主决定减少相应的演化行为。实验结果表明,我们的方法性能优越在颞社区检测的美德自主确定社区的数量。
1。介绍
动态网络分析,复杂网络科学的一个重要分支,近年来引起了广泛的关注(1]。颞群落结构分析是一个重要的研究问题,其中包括两个子问题:颞社区检测(1)和社区进化分析(2]。然而,群落结构分析动态网络首先发现社区结构,然后分析了相应的进化模式,在大多数情况下一个启发式策略。这些作品忽视社区结构的演化特征在颞社区检测。事实上,块结构和演化特征总是在动态网络共存。这将导致不准确的时间社区检测的结果。因此,它是非常必要的,提出一个模型,描述了社区结构与演化特征为提高颞社区检测的准确性。
目前,颞社区检测已被广泛关注,其重点是挖掘有意义的块结构或功能模块隐藏在网络快照的动态网络。一开始,两阶段方法引入时间社区检测,首次检测到社区和静态方法在每个快照,然后匹配不同快照(3]。这些类型的方法检测当前快照忽视历史的社区社会结构从去年快照,它带走颞社区结构的演化特征,通常对噪声敏感。之后,进化聚类,4)方法为基础提出了,它有效地弥补这个缺点通过检测的社区在当前快照不仅目前的拓扑结构,而且前面的社区结构5]。然而,大多数的这些作品忽略确定社区的数量在每个自动快照,需要事先指定。事实上,社区的数量的确定是一个模型选择的问题,这是一个共同的挑战为社区检测。另外,大多数的这些作品只关注识别时间社区准确但忽略分析相应的社会进化。
此外,社区的进化分析暴露行为的进化,而量化社区相邻快照之间的转换关系,并帮助跟踪动态网络的变化趋势。起初,heuristic-based方法(3)提出,通常随时间变化规律的总结分析检测后的进化模式的社区。然后,功能工程学方法(6提出,提取演化特征的基础上,发现颞社区与机器学习算法。前两个类型的进化方法倾向于分析法律后检测社区这进化的结果分析过于依赖社区检测的结果。他们忽视了社区结构和演化特征共存的动态网络。幸运的是之后,生成基于模型的方法(7),模型的社区结构的生成机制和社会同步发展,能够弥补这一缺点。然而,大多数这些现有方法只是描述了进化的行为定性而不是定量。和其中的一些方法可以自动处理模型选择问题。
解决上述问题,我们注意模型社区结构与演化特征促进颞社区检测和自动确定社区的数量在每个快照的动态网络的同步。本文模型称为进化的非负矩阵分解(EvoBNMF),提出了基于贝叶斯概率模型。详细介绍进化行为模型社区结构的演化特征与贝叶斯非负矩阵分解(BNMF) [8在一个进化聚类框架(4]。然后,我们开发一个梯度下降算法优化的参数EvoBNMF通过最大化后验估计。创新,最适当数量的社区可以自主决定减少相应的演化行为。最后但并非最不重要,实验结果从合成网络和现实世界的网络几种先进的方法表明,我们建议的EvoBNMF性能优越颞社区检测的美德自治社区的数量的确定。值得强调几个贡献的工作:(我)模型称为进化的非负矩阵分解(EvoBNMF)提出的建模与演化特征改善社区检测时间社区检测的性能(2)拟议中的EvoBNMF捕获最适当数量的社区自主通过减少相应的每个快照网络的演化行为(3)开发一个有效的算法来优化EvoBNMF的目标函数,可以降解的时间复杂度是线性的(iv)广泛的合成和真实的动态网络实验证明我们提出EvoBNMF性能优越颞社区检测相比,最先进的方法
2。相关的工作
根据相关工作的核心理念,颞社区检测方法可以分为三类:快照matching-based方法(9,10,历史结构基于依赖关系的方法11,12),和社区进化基于模型的方法(13,14]。
快照matching-based方法的基本思想是首先发现每个网络快照独立基于静态社区检测算法,然后与社区之间的快照基于一些相似的策略。例如,Seifikar et al。9)提出了一种新的Louvain-based动态社区检测算法依赖于前面的步骤的衍生知识网络的进化。Mishra et al。10)提出了一种基于树的社区检测算法利用两个重要属性,连通性和影响,寻找社区网络。然而,这种方法更关注发现社区结构在每个网络快照但忽略了平滑的动态网络结构的演化特征,将群落结构的演变成多个快照。
历史结构基于依赖关系的方法的基本思想来源于平滑的假设的进化动态复杂网络结构。相信当前的快照的社区结构进化缓慢从先前的网络快照,所以当前的群落结构的结果取决于群落结构的一个或多个历史网络快照。例如,阴et al。12)提出了一个高效和有效的多目标方法通过修改传统的进化聚类框架和粒子群算法。Rossetti et al。5)提出了一个在线增量聚类动态社区检测算法(瓷砖)基于模块化增量优化。网络的计算子结构是本地和节点的数量和社区参与是有限的,因此加快更新效率。此外,王et al。15)建造了一个小说相似结合结构摄动理论和网络拓扑结构特征和动态社区挖掘算法提出了一个基于进化聚类。所有的这些方法可以避免群落结构之间的匹配快照并整合动态社会进化的平滑。
社区进化基于模型的方法模拟生成规则和属性特征躲在网络的动态复杂网络生成机制。与此同时,一个合理的嵌入式网络演化机制来构造一个参数化动态社区进化生成模型。最后,解决模型参数获得最佳的社区结构和演化模式。例如,Ting et al。13)提出了一个新颖的拟合框架多层随机块模型(座),基于多层模块化最大化。它可以发现一个共同的社区同时分区的快照。此外,Yu et al。16)构建一个矩阵分解模型包含一个边缘演化时间函数对矿业发展模式动态网络的微观结构(边缘),可以应用于结构趋势预测,链接预测,动态网络的异常检测。李等人。14)提出了一个方法来学习图嵌入和动态社区检测通过联合学习和NMF图表示。一般来说,这种方法抛弃了两步策略在快照matching-based方法并继续进化平滑房地产历史结构基于依赖关系的方法。它弥补了缺乏进化机制的历史结构基于依赖关系的方法,逐渐成为最受欢迎的方法动态社区领域的检测。
3所示。方法
3.1。符号
动态网络通常是削减一系列网络快照根据一个固定的时间窗口。它可以表示为 ,在哪里 是实体或节点集,边套在快照吗 ,和是快照的数量。网络快照表示一个 邻接矩阵 ,元素在快照吗是 此外,我们总结的主要符号表1。
作为社区数量是未知的最真实的情况下,从贝叶斯模型的角度来看,我们假设社区隶属度和演化趋势遵循某种概率分布,分别。同时,我们假设的参数概率分布的演化趋势跟随给定的先验分布。然后,我们构建动态社区进化模型的框架下EvoBNMF NMF和变换的优化问题的后验概率最大化最小化的负面对数后验概率。因此,任务的动态社区进化模型EvoBNMF总结如下:(我)输入:邻接矩阵序列的动态复杂网络 ,和hyperparameters和(2)输出:动态社区结构 ,社区演化矩阵序列 ,和社区的数量
3.2。EvoBNMF模型
在这里,我们设计的生成图形化模型EvoBNMF(见图1)与贝叶斯概率模型使用进化聚类的核心理念。对于快照1,由于没有历史的结构信息,可以构造EvoBNMF同样根据静态BNMF。因此,观察到的邻接矩阵是受到网络快照未被注意的期待 ,的元素表示预期的重量之间发生联系和在快照1。期望网络快照可以由一个基础矩阵 和社区成员的矩阵 这 ,在哪里捕获节点的倾向属于社会和是未知数量的社区。类似于(8),我们假设是来自一个泊松分布率 。和和都是来自half-normal分布与规模参数 。此外,我们认为之前的共轭(17half-normal分布的伽马分布。因此,来自伽马分布有两个hyperparameters吗和 。根据图形化模型图1,该模型快照1是一样的8),和相应的后模型的快照1
减少负对数的任务后,相当于最大化的任务后,可以视为快照1的目标函数,及其具体形式如下(8]: 在哪里表示一个常数。
快照的情况 ,同样,观察到的邻接矩阵是受到网络快照未被注意的期待 ,的元素表示预期的重量之间发生联系和在快照 。期望网络快照可以由一个基础矩阵 和社区成员的矩阵 这 ,在哪里捕获节点的倾向属于社会和是未知数量的社区。历史结构信息不同,我们考虑到的当前快照模型根据进化聚类的核心理念。此外,我们引入一个演化矩阵模型的演化行为社区同步。的元素表示节点的社区的倾向的快照转移到社区的快照 。在这里,我们认为,当前的社区成员是进化而来通过建模一些进化行为和力量,引入一个惩罚项 。在细节,我们假设是来自一个泊松分布率 , 和都是来自half-normal分布与规模参数 ,和来自伽马分布有两个hyperparameters吗和(17]。根据图形化模型图1联合分布在快照可以表示如下: 在哪里是一个平衡参数。因此,相应的后
减少负对数的任务后,相当于最大化的任务后,可以被看作是快照的目标函数 ,和它的具体形式如下:
我们假设是来自一个泊松分布率 , 是来自一个泊松分布率 , 和都是来自half-normal分布与规模参数 ,和来自伽马分布 ,和 。然后,可以写成 在哪里是一个常数。
3.3。更新规则
对于快照1,EvoBNMF BNMF减少。所以,目标函数的更新规则是相同的8];在细节,
同样,对于快照 ,我们优化方程(7) , , ,和用梯度下降算法,和更新的规则如下:
我们更新迭代 , , ,和根据上述规则,直到收敛。自动确定最合适的社区每个快照与统计模型选择方法。在细节中,我们设置一个较大的值(例如, )作为初始的社区。参数优化后,我们缩小 , , 来 , ,和通过删除无关的行或列的总和是零或非常接近于零。解决算法的伪代码EvoBNMF提出了算法1。返回的社会标签向量 是社区检测时间的结果。和返回的演化矩阵进化的结果量化的行为。
根据算法1迭代更新的最耗时的。每个迭代的时间复杂度 。在这里,我们设置迭代的平均数量 ,和整个时间复杂度 。正如我们所知,动态网络通常是非常稀疏的情况下。然后,和边的平均数量可以更换吗近似地在每一个快照。此外,可以忽略,因为它通常是低于多少 。自然,优化算法的时间复杂度EvoBNMF可以退化 。
4所示。实验
为了验证原理和EvoBNMF的有效性,我们设计的比较实验合成网络和现实世界的网络。在本节中,我们主要介绍实验设置,讨论实验结果,并分析了参数敏感性和算法收敛。
4.1。设置
以下4.4.1。数据集
我们测试的性能EvoBNMF八动态网络。四个网络生成根据SYN-FIX [18),和其他四个网络从实际KIT-mail (https://i11www.iti.uni-karlsruhe.de/en/projects/spp1307/emaildata)。我们展示他们的统计信息包括数量的快照 ,节点的平均数量 ,边的平均数量 ,和的平均数在表2。细节描述如下:(1)SYN-FIX [19:这种类型的数据集生成一个快照,快照Girvan纽曼基准。在具体的生成过程,网络属性的参数设置如下:快照的数量是10,节点的数量128年,社区的数量4,混合参数3这是用来控制噪音的程度,节点的平均度是16岁和20岁,和社区转移参数数控是用来控制节点的动态水平从当前社会其他社区,这是设定在10%和30%。(2)LFR [20.]:经典的合成网络LFR主要描述的动态网络通过考虑一些社区进化事件,包括出生、死亡、生长、收缩,合并和分裂。在这里,我们选择Mergesplit事件生成的数据集。我们设置不同的概率和在网络一代控制社区合并和分裂的概率。(3)KIT-Email:这是一个信息部门的邮件通信网络在德国卡尔斯鲁厄理工学院(装备)。成员节点和邮件沟通的次数是边缘的重量。不同的研究小组是相应的社区。这里,48岁的网络数据从2006年9月至2010年8月分为不同的动态复杂网络。特别地,我们构建每个快照阴影连续2、3、4和6个月,分别得到四种不同的动态网络。
4.1.2。评价指标
社区检测的性能评估两个广泛使用的索引:归一化互信息(敝中断)和错误率(ER) (7]。在细节, 在哪里表示从算法和社区结构发现表示地面真理。和表示的熵和 ,和 表示之间的互信息和 ,分别为(18]。在这里,熵和互信息的计算方程 ,和 ,分别在哪里节点的数量,分别是社区的数量。敝中断作为熵措施限制通常是用来衡量两个分区之间的一致性。ER通常是用来测量两种不同分区之间的区别,并且越小,其性能越好。普遍,往往会增加网络的规模。
和自动测定的准确性社区的数量评估KA (21];在细节, 在哪里表示大真理的社区和数量表示数量的社区发现方法。
4.1.3。比较的方法
在这项工作中,五个最先进的方法是选择检测社区团体相比如下:(我)BNMF [8):这是一个两步策略,这段快照为离散时间的步骤和社区与静态贝叶斯NMF检测每一个快照,分别。当快照标签 ,EvoBNMF BNMF减少。(2)Dyluvain [3]:它与贪婪启发式优化颞模块化方法。分辨率参数和几个参数设置为1和0.5,这是常用的参数设置的相关工作。(3)双鱼座(22:这是一个暂时的社区基于全球谱聚类的检测模型,这是来自进化聚类和程度的修改。的参数设置为0.1,最大数量默认为社区呢 的节点的数量。(iv)DYNMO [18:它是一种多目标的方法基于进化聚类,这是正式作为一个多目标优化问题是由遗传算法优化。(v)ESPRA [15:这是一个进化聚类算法的基础上,融合结构摄动和网络的拓扑特性,它可以自动确定社区的数量。在这个模型中,平滑度平衡参数设置为0.8,平衡参数摄动和相似性信息设置为0.5。
4.2。实验结果
4.2.1。准备说明性的例子
阐明EvoBNMF的工作原理,我们采取一个说明性的例子的结果。在图12。由于空间限制,我们只是展示的结果快照 。在快照1,了解矩阵和从观察到的分解 。显然,只有四列和四行有很高的价值。的行数是有针对性的社区自适应压缩后的行数与一个较低的值。然后,压缩和观察到的都是在快照模型的输入2。对快照 ,的矩阵和从观察到的分解和矩阵和被分解的同步在一个统一的模型。值得注意的是,我们可以获得演化矩阵自适应压缩后的行 。和演化矩阵对应于社区的演化行为的定量结果。
社区演化矩阵开采的动态网络通过EvoBNMF可以代表其发展模式,反映了社会进化相邻快照之间的关系。因为演化矩阵的规模不同的快照都是不同的,行正常化进行,所以呢 。然后,可以被视为节点从社区转移的倾向社区快照之间和快照 。在图3,相邻社区的进化关系的快照。1,和图中颜色的色调代表了节点之间的转移概率的社区。在每个子图,纵坐标代表社区的标签当前的网络快照,横向坐标代表社区的标签下一个快照,树荫下的颜色代表了跃迁概率,对应的值社区的标签在当前的快照 。总的来说,这些子图的对角线总是显示一个黄色(光)的颜色,这意味着大多数的内部节点的社区可能仍在当前社区。这种现象反映了动态网络的发展是缓慢的。
值得注意的是,子图 , , ,和发生了异常的演化模式。例如,在子图 ,新社区当网络的演化是从快照6 - 7所示。从社区和节点的概率转移社区节点的概率相对较高,保持社区显然是相对较低。因此,可以推测的是社区脱离社会 。此外,子图的 ,它可以发现社区再次消失,当网络快照从7到8。和它的节点有一个高概率转移到社区 。同样,它可以找到社区和出现的子图和然后消失。这一现象表明,群落结构不稳定的进化后快照6。生/死的社区结构是对应动态社区进化事件,这是第一次由Palla et al。23]。在真实的社交网络,如果有大量的类似的社区进化事件,它可以表明,背后有真实事件,这证明EvoBNMF可以应用于事件检测与现实世界的社交网络。
为了更生动地代表一个动态社区的演化过程,相应的动态网络的社区演化网络。在图13,视觉进化的原理图及其过渡随着时间的推移图4。在图4水平轴代表网络快照标签 ,纵轴代表动态社会标签 ,彩色的圆圈代表不同的社区,圆的大小代表了社区的相对大小,和虚线箭头表示节点转移社区之间的关系。社区发展强度图3对应的节点转移关系社区和社区在图的变化情况4。例如,在图3,有一个对角线强度高在许多子图,对应的图4随着时间的推移,和社区的变化在大多数情况下。此外,新社区出现在快照7和9和消失在快照8和10中,分别。这一现象与强烈与图4。一般来说,数据3和4显示一个动态的进化模式进化的社区,给视觉图,可以有效地加深人民了解的进化时间的社区网络。
4.2.2。颞社区检测
为了调查的有效性,我们比较的准确性提出EvoBNMF颞社区检测,有5个最先进的方法包括BNMF [8],Dyluvain [3),双鱼座(22],DYNMO [18],ESPRA [15]。hyperparameters设置为 , ,和 在实验。
起初,结果如表所示3在敝中断,呃,净和KA的五个方法。SYN-FIX。最好的结果,这是粗体,证明Dyluvain和我们提出EvoBNMF性能相当,都比其他人更好。原因是Dyluvain优化颞模块化与贪婪启发式方法和适用于SYN-FIX合成数据。此外,BNMF的结果,即静态版本的EvoBNMF,明显低于EvoBNMF。验证的有效性提出EvoBNMF现象。
此外,我们将展示结果在敝中断,呃,网络和KA的五个方法图中从上到下5,分别。这些结果的平均结果十重复包括相应的方差酒吧。此外,x设在快照标签 ,和y设在敝中断或急诊室或KA值。从所有subfigures DyLouvain EvoBNMF敝中断和ER值更高,和DYNMO EvoBNMF KA更高的值。这是一个强烈的迹象表明该EvoBNMF具有优越的性能不仅颞社区检测还自主确定社区的数量。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(j)
(k)
(左)
同样,subfigures图6显示结果在敝中断、ER和KA的五个网络的方法分别从上到下。从所有subfigures,我们发现,结果在敝中断,呃,和KA EvoBNMF最高精度在大多数情况下,而不是在第一个快照。主要原因是没有历史的结构信息的快照,以及BNMF EvoBNMF退化。此外,还有从快照1到快照2显著提高精度,这充分体现了EvoBNMF的有效性。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(j)
(k)
(左)
4.2.3。参数敏感性和算法收敛
我们测试的敏感性参数的平衡EvoBNMF净。在敝中断等 步长为0.02。如图7(一),EvoBNMF不是敏感的性能参数 ,这是最好的约0.2。
(一)
(b)
此外,我们验证收敛EvoBNMF净。12 。图7 (b)显示的融合在快照净。12。我们发现的价值总是倾向于当次的迭代收敛不超过50,这表明,收敛速度较快。
5。结论
在本文中,我们专注于建模时间群落结构与演化特征促进社区发现和提出EvoBNMF模型可以追溯到相应的进化行为动态网络的同步。此外,梯度下降算法来优化我们的模型。重要的是,社区的数量可以确定每个快照自动缩小EvoBNMF演化行为。最后,实验结果在合成和真实网络演示EvoBNMF的有效性。在未来,我们将做一些预测任务的动态网络(例如,链接或社区结构预测),这是伟大的现实意义和应用价值。
数据可用性
数据集用于支持这项研究的结果可以从相应的作者。
信息披露
这手稿是会议论文的延伸24]。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由浙江越秀大学的主要研究项目(D2020003)和财政科技项目的12日新疆建设兵团分工(SR202103)。