研究文章|开放获取
中易Lei,海鹰王, ”一种新的算法及其应用在检测由两部分构成的复杂网络的社区”,复杂性, 卷。2021年, 文章的ID1376609, 10 页面, 2021年。 https://doi.org/10.1155/2021/1376609
一种新的算法及其应用在检测由两部分构成的复杂网络的社区
文摘
社会分工由两部分构成的网络是复杂网络的一个前沿问题研究。在这项研究中,我们提出一个模型的社区检测由两部分构成的网络,它是基于广义后缀树的算法。首先,从矩阵中提取相邻节点序列的关系和使用获得的相邻节点序列建立广义后缀树;其次,建立了广义后缀树遍历得到双方的小团体;第三,调整双方的派系;最后,处理孤立的边缘,得到社区,并完成部门由两部分构成的网络。这有别于传统的社区挖掘算法,因为它使用边缘作为社区部门中,不需要指定数量的社区的划分在实验之前。此外,我们还可以发现重叠社区通过这种新算法可以降低时间复杂度。
1。介绍
在自然科学和社会领域,许多复杂系统可以表示为节点相连的边组成的网络,如互联网,代谢网络,食物链网络、神经网络、通信和分布式网络,物流和供应链网络,产业集群网络,社会组织网络(1]。其中,由两部分构成的网络是最简单的一个复杂的网络。由两部分构成的网络由两种类型的节点集和他们联系,但没有任何相同类型的节点之间的边。
随着发展,人们发现许多实际网络都有一个重要的特性 ,即整个网络由多个社区,这些社区之外紧密和松散结构特点(2]。扩展到由两部分构成的网络,它可以被认为是不同类型的异构节点在同一个社区紧密相连,而异构节点之间的连接相对稀疏的社区(3]。
是非常重要的研究由两部分构成的网络社区挖掘的理论。与此同时,我们应该有一个更深的理解的复杂的网络结构和网络的隐藏的法律和行为特征通过群落结构的研究,然后合理解释网络操作模式,使网络预测。这是本研究的重要意义。例如,在社会关系网络,真正的社会团体可以显示基于利益,职业,区域,和背景,人物分析,职业建议,圆的建议,朋友推荐,校友发现和准确的广告可以执行。在引文网络社区,你可以搜索和发现文章基于主题方面,作者,内容,和单位。我们可以根据用户搜索条件或提出相关建议分析引文的数量和质量来确定影响因子或重复的检查算法的设计,所有这些都需要网络的支持社区理论。越来越多的实际问题需要依靠双方的网络社区挖掘的实践。这也是我们希望做出的贡献到现实生活在本文中提出的算法。
在这项研究中,我们提出一个由两部分构成的网络社区挖掘模型的基于广义后缀树的算法。首先,我们使用的节点序列提取关系矩阵的建立广义后缀树;第二,我们遍历广义后缀树得到双方的小团体;第三,我们形成了初始社区根据亲密调整后一式两份的小团体;最后,我们处理孤立的边缘获得最终分裂的结果。这个模型使用边缘作为新部门的媒介。相比与传统的社区挖掘模型点,该模型不仅可以找到更多的重叠社区也完成由两部分构成的网络的社区划分更有效率。
2。检测从双方的网络社区基于广义后缀树
2.1。相关定义
使用 表示由两部分构成的网络,在哪里和是两种不同类型的网络中节点集。有节点 , 节点 ,和是边集。由两部分构成的网络的邻接矩阵是什么
由于没有相同类型的节点之间的连接,和都是零矩阵,有不同类型的节点之间的连接,和都非零矩阵。自是一个邻接矩阵,可以用来表示整个由两部分构成的网络的基本特征。我们称之为由两部分构成的网络 。
的整体概念由两部分构成的网络的社区划分通常是把由两部分构成的网络 通过一个算法来获得子图 ,在这有 , , ,和 。良好的社区划分结果表明之间的联系也越来越少在相同的子图子图和更多的连接。
是一个指数来衡量质量的网络社区划分一个数值形式。模块化网络社区的价值越大分工后,社区网络的相关性越强,社区划分的质量越好。在本文中,我们将日本村田公司的模块化4)作为社区的评价标准来衡量质量部门。
让边缘的一组由两部分构成的网络,它的两个不同类型的节点集和 。让和一个社区内不同类型的节点集 和 。表示 是一个元素我th行和jth矩阵的列的关系由两部分构成的网络。我们让 当有联系我th节点和jth节点 ;否则,它是0。
首先,我们定义的比例之间的连接节点集和在所有的连接由两部分构成的网络。让是一个元素lth行和米th列如下:
然后,元素的总和lth行可以获得的
根据上述定义,被定义为通过
在哪里代表社区之间的关系的力量和社区 。显然,更大的价值 ,社区相关性越强的检测由两部分构成的网络和社区部门效果就越好。
2.2。算法设计
后缀树是一个扎根定向树和代表任何字符串的长度与完全叶子编号1 - 。任何内部节点除了后缀树的根已经至少两个孩子,而每个边缘标记的非空的子字符串 。
任何两条边的标签的节点必须开始与不同的字符。对于任何叶在后缀树中,连接的边标签从根到叶子的路径法术的后缀开始的位置 。广义后缀树是一个后缀树相结合的一组的后缀 的字符串(5]。下面描述了特定的一个新算法研究的六个步骤。
步骤1。由两部分构成的网络转换成一个矩阵的关系,然后提取相邻节点序列。
假设
是由两部分构成的网络如图1(一),它有两种类型的节点和
,其中有四个节点
和有五个节点
。通过这种方式,我们可以使用一个矩阵的关系来表达这个由两部分构成的网络。当有联系我th节点和jth节点
,元素的值我th行和jth列是1;否则,它是0,如图1 (b)。
(一)
(b)
定义1(邻节点序列)。后由两部分构成的网络 转换成一个矩阵的关系,相邻节点序列 节点的可以从矩阵中提取 。
矩阵的关系,我们可以得到的如下:
步骤2。创建一个广义后缀树基于相邻节点序列。
是由相邻的节点序列获得在步骤吗1。马克每个分支和一个非空的子串,以反映在每一个元素在每个后缀子序列。广义后缀树的一个分支是一个相邻节点序列,和相同前缀的序列共享相同的分支。然后,储备一组 通过广义后缀树中的一个节点。
步骤3。提取初始双边的派系。
定义2(一式两份的集团)。使用非空的子串在树枝上的广义后缀树和一组存储节点,每个节点都可以表示为一个由两部分构成的集团 与 和 ,在这元素在集合吗由每个节点存储 ,和是一组非空的子字符串的道路上从广义后缀树的根节点到节点 。
可以提取构造广义后缀树。从图2,最初由两部分构成的派系可以获得如下:
, , , , , , , ,和 。
步骤4。调整初始双边的派系。
定义3(可由两部分构成的派系)。让
和
最初的一式两份的派系。如果
,在哪里
,据说
和
可调两偶派系。具体调整操作调整
来
与
和保持
没有变化。
简单来说,这个定义的目的是将两个可调两偶派系
和
到双方的派系
和
后调整。
例如上图, 和 可以调整 和 根据定义3。
调整后的八个最初由两部分构成的派系在步骤获得的3,可以获得以下三个双边的派系 , ,和 。由两部分构成的网络对应这三个双边的派系在图所示3。
第5步。结合双方的派系形成初始社区基于紧张。
根据图3,调整双方的小团体之间只需要边缘连接异构节点,而社区在社区内异构节点之间需要密切联系。因此,最初的社区,调整双方的派系需要进一步处理。在这里,我们选择合并的方法根据紧张把双方的小团体变成最初的社区。
定义4(紧张)。组由两部分构成的派系 , ,和 ,在哪里表示由两部分构成的集团的内部边缘的数量 。写的紧张的和被定义为
在合并的过程中由两部分构成的派系紧张,紧张的中值计算首次作为阈值这个实验。如果两个二分法组之间的亲密感大于阈值 ,他们合并。如果现有的最大密实度两个双边的派系小于阈值 ,合并是停了。我们所说的结果由两部分构成的派系 。
例如,在图上方1(一)由两部分构成的网络,其初始社区获得 , , , ,和 。注意边缘作为媒介划分社区,和边缘的结果在某些属于同一个社区,而不是一些点形成一个社区。反映两偶图划分的结果,不同的社区不同颜色标注在图4。
步骤6。分工孤立的边缘。
分裂后的一步5,可能仍有一些边缘不分为一定的社区,因为紧张不达到阈值。我们称这些边缘 。上面的数据集不涉及这个问题。但有必要把孤立的边缘通过计算边缘的紧张期间如果这种情况存在的社区划分其他数据集。
定义5(孤立的边缘密性)。让是一个孤立的边缘,不是分成任何社区。首先,将孤立的边缘在一个由两部分构成的集团只有一个优势;其次,计算由两部分构成的集团之间的紧张和每个现有初始社区根据公式(6),然后,孤立的边缘最高分为社区的紧张 。这就完成了部门的社区与孤立的边缘。
通过上面的六个步骤,我们可以完成由两部分构成的网络社区检测和初始社区可以获得。这种新算法的伪代码如下(算法1)。
|
3所示。数据实验
为了验证算法的性能和影响双方的网络社区检测的基于广义后缀树,现在的算法用于数据实验在电脑上。实验环境是8 GB内存,英特尔酷睿i7处理器,10 Windows操作系统,使用python编程实现。
3.1。功能测试
3.1.1。网络测试与明显的社会结构
为了测试广义后缀树算法有一个合乎逻辑的社区划分效果,我们设计一个由两部分构成的网络与一个明显的社会结构,如图5。显然,这一式两份的网络可以分为两个社区 和 。提取后的矩阵关系和相邻节点网络的序列,输入程序并运行程序将社区。
结果如图6。不同的社区行不同的颜色是有区别的。这里,一定固定节点分为社区连接度最高的,为了获得清晰的节点划分效果。
结果表明,基于广义后缀树社区挖掘算法将由两部分构成的网络划分为两个预期中的首次社区。
由此,我们可以得出结论,广义后缀树算法可以画一个社区划分结果符合客观实际的结论,当与一个明显的社会分裂由两部分构成的网络结构。
设计一些类似的实验,使用这个算法将一式两份的网络具有更明显的社区结构。这些实验可以得到令人满意的结果,与预期一致。
通过以上实验,我们可以得出结论,社区检测的算法基于广义后缀树有一个逻辑上合理的社区划分效果,可以把双方的与明显的社会网络结构,并获得预期的分割结果。这个结果反映了双方的分裂算法的可靠性与明显的社会网络结构和可以扩展到与不太明显的社会由两部分构成的网络结构。
3.1.2。重叠网络测试
在大多数传统的社区检测模型,社区部门使用节点作为媒介来操作。然而,为了更好地发现重叠社区和避免歧义在社区的连接关系,这个算法使用一些边缘为主体的媒介把社区和实验操作。为了测试这个模型可以更好地发现重叠社区,这个实验是专门设计的。有一个由两部分构成的网络,如图7。网络有一个明显的社区结构。首先,由两部分构成的网络可以分为两个社区 和 。第二,是一个重叠节点属于两个不同的社区。
现在,我们提取的相邻节点序列由两部分构成的网络,输入上面的程序划分社区,结果如图8。该算法将一式两份的网络划分为两个预期社区,和重叠社区,也就是说,是一个重叠节点属于两个不同的社区。
从上面的实验,我们可以得出结论,该算法使用一些边缘社区部门为主要媒介,可以成功地完成社区基于确保分工明确和稳定的群落结构,可以发现重叠社区由两部分构成的网络。
3.2。数据集实验戴维斯南部俱乐部的女性
当然,是否该算法模型具有良好的分割效果不能完全定义的逻辑判断和类比晋升。真正的质量部门应该判断和比较基于的价值 。
这个数据实验使用南方俱乐部女性戴维斯在1930年代收集的数据集。数据集描述了18个女人之间通信和14俱乐部活动在南密西西比女子俱乐部。它可以表示为一个由两部分构成的网络图,哪一个类型的节点代表妇女和其他类型的节点代表事件。如果一个女人参与事件,将会有一条边连接的节点代表这个女人和节点由这个事件。之间没有连接节点之间的节点代表每个女人和由每个事件。如图9不同类型的节点,用不同的颜色表示。在第一行代表节点和18岁的女人在第二行代表14事件节点。
提取的相邻节点序列由两部分构成的网络,进入程序,并使用广义后缀树算法划分社区由两部分构成的网络。分裂的结果如图10。不同社区的边缘有不同的颜色。
接下来,检查模块化。为了尽可能多的重叠社区发现,只要相同的节点连接到边缘从不同的社区,这个节点被定义为一个重叠节点,它属于不同的社区连接在同一时间。后可获得两个社区社区部门使用广义后缀树算法: 和 。本研究将日本村田公司的一式两份的模块化作为最终评价标准来衡量社会部门的质量。模块化是0.1563的实验结果,表明该模型是可实现的。
3.3。疾病基因网络实验
在本节中,我们将引入一个疾病基因网络实验。细胞是人体的基本单位,由细胞膜、细胞质和细胞核。所有细胞的遗传信息记录在细胞核的DNA基因片段。遗传性疾病是由多个DNA片段的突变基因。我们称之为基因遗传疾病相关疾病基因(6]。
“人类疾病网络”的文档在PNAS上抽象现有遗传疾病基因和疾病之间的关系到一个网络结构(7),提供了一个图形理论基础研究平台为研究各种疾病特征和基因之间的关系8- - - - - -10]。如图(11日),遗传疾病和基因节点形成一个共同的复杂网络结构。如果一种疾病基因突变可以直接或间接地引起某种疾病,然后用一条边连接。由于没有相同类型的节点之间的连接关系,普通复杂网络可以转化为双方的网络表示,如图11 (b)。左边的19个节点代表所有已知的遗传疾病,和19个节点代表所有已知的疾病基因,和节点的大小正比于节点的程度。数据遗传疾病、疾病基因,从人类和它们之间的关系都是数据库和文献[7]。根据图中提供的信息11,我们可以研究之间的相互作用和内部连接这些19和19个致病基因遗传疾病。基于这一理论,它可以扩展到研究所有已知的疾病基因和遗传疾病之间的关系,得出结论的普遍意义。
(一)
(b)
现在,我们开始执行数据实验。首先,使用社区检测的算法基于广义后缀树划分上述疾病基因由两部分构成的网络,我们得到结果如图12。从图12,我们可以看到,该算法把边缘的疾病基因由两部分构成的网络为五种类型,不同类型的边缘都有不同的颜色。为了尽可能多的重叠社区发现,这个节点被定义为一个重叠节点只要相同的节点连接到边缘同时从不同的社区。
通过这种方式上面,五个社区可以获得: , , , ,和 。
使用村田的一式两份的模块化作为社区的评价标准来衡量质量部门,模块化实验结果为0.0659,表明该模型是科学可行的,和模型的分割结果可以进一步应用于其它疾病和基因研究。
4所示。结论
在这项研究中,我们提出一种新的检测方法从由两部分构成的复杂网络社区基于广义后缀树。一般由两部分构成的网络由广义后缀树结构表示,然后,一般由两部分构成的网络的社区划分完成遍历后缀树和执行后续操作。最重要的是,该模型不需要指定数量的社区需要提前划分,它可以完成由两部分构成的网络社区挖掘的时间复杂度较低。这个新社区挖掘模型与传统的不同,因为它提出了社区部门使用的观点在网络媒介,实现它,得到令人满意的分割结果。其他应用程序的这些结果值得进一步探索和扩张的后续研究。
数据可用性
“戴维斯南部俱乐部女性”的数据UCINET IV中可用数据集:http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm戴维斯”和“疾病基因数据集分析可以在发表文章:人类疾病网络(http://www.pnas.org/cgi/doi/10.1073/pnas.0701361104)。的疾病,疾病基因,和它们之间的关联是人类公开数据库(https://omim.org/)。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了国家自然科学基金(11701530)和基础研究基金为中央大学(2020003)。
引用
- m·e·j·纽曼,“模块化和社区结构的网络,”美国国家科学院院刊》上的美利坚合众国,卷103,不。23日,第8582 - 8577页,2006年。视图:出版商的网站|谷歌学术搜索
- m . Girvan m·e·j·纽曼,“在社会和生物群落结构的网络,”美国国家科学院院刊》上的美利坚合众国,卷99,不。12日,第7826 - 7821页,2002年。视图:出版商的网站|谷歌学术搜索
- 张平,j . Wang x, z . Di, m . Li和y粉丝,“聚类系数和社区的结构由两部分构成的网络,”自然史答:统计力学及其应用,卷387,不。27日,6869 - 6875年,2008页。视图:出版商的网站|谷歌学术搜索
- 由两部分构成的网络,t村田,“模块化”数据挖掘对于社交网络数据,年报的信息系统,12卷,不。7,施普林格,柏林,德国,2010年。视图:出版商的网站|谷歌学术搜索
- z梁、胡k . y . Ning, d .干“一个有效的XML索引结构基于广义后缀树,”信息系统,32卷,不。2、283 - 294年,2007页。视图:出版商的网站|谷歌学术搜索
- 梁和j·w·陈,j . Lu,”疾病基因网络研究基于双方的网络投影,”复杂系统与复杂性科学》第六卷,没有。1、13 - 19,2009页。视图:谷歌学术搜索
- K.-I。吴作栋,m . e . Cusick d·瓦尔b•蔡尔兹·m·维达尔,A.-L。“人类疾病网络,”巴斯美国国家科学院院刊》上,卷104,不。21日,第8690 - 8685页,2007年。视图:出版商的网站|谷歌学术搜索
- h . Ada a·f·斯科特,乔安娜,c . a . Bocchini和v . a . McKusick”在线孟德尔遗传在人(人类),人类基因和遗传疾病的知识库,”核酸的研究33卷,第517 - 514页,2005年。视图:出版商的网站|谷歌学术搜索
- m·a·Pujana j。j .汉l . m . Starita et al .,“网络建模链接乳腺癌易感性和中心体功能障碍,”自然遗传学,39卷,不。11日,第1349 - 1338页,2007年。视图:出版商的网站|谷歌学术搜索
- p . A . Futreal l .硬币,m .马歇尔et al .,“人类癌症基因的普查,”自然评论癌症,4卷,不。3、177 - 183年,2004页。视图:出版商的网站|谷歌学术搜索
版权
版权©2021中易Lei,海鹰王。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。