文摘

通过结构分析8标签网络从在线知识共享平台,这项研究发现,与标签的规模网络迅速发展,数量的增长趋势表明标签边缘网络遵循致密化法律。聚类系数和网络的平均最短路径表明,网络规模的快速增长并没有带来关于知识网络的划分,和标签网络的度分布显示了截断幂律分布。根据标签网络的结构特点,本研究提出了一种基于BA模型标签网络模型。基于偏好的依恋,三合一的关闭机制是用来构建旧节点之间的边,这只修正BA模型的限制连接新老节点之间的边。结果表明,仿真模型与实际匹配标签网络结构。标记的产生机制为理解网络模型提供了一个参考的知识网络知识共享平台的施工过程在一定程度上。

1。介绍

与众包平台的成功,如维基百科,堆栈溢出,Quora, GitHub,一类人员是理解知识的动力驱动的基于这些平台(1]。在线知识共享系统是一个“所有问”“知识建立”的系统,让用户自发地提问和回答问题,和大部分的平台为用户提供的机会增加知识标签的过程中问的问题。

与传统的由专家知识生产模式相比,用户的施工过程是分布式和自组织的知识多样化,而产生不同的知识领域发展的驱动力。知识网络的动态发展的调查是一项重要的基础工作来理解知识生产和建设的过程中,它将有助于探索的知识领域的发展趋势,知识创新和其他问题(2]。

虽然知识协作构建知识平台是最受欢迎的产品模式,有限的研究已经完成从知识的角度标签网络。组成的一组概念和相互关系,知识可以有效地代表的网络或图表(3]。因此,我们的研究旨在解释在线知识构建过程从网络的角度分析,并提供一个合理的解释机制的知识网络。

探索知识领域的发展机制和研究趋势,众多研究人员构建关键词同现网络使用关键字的文章作为知识元素,然后分析网络的特征和演化。作为重要组成部分文本内容,关键词可以学术文章的核心思想。拓扑特性和演化的关键字的分析同现网络帮助实现深度内容分析(4]。朱et al。5)观察到的关键词网络是基于小世界网络的聚类系数和平均距离可及节点之间的网络,和中间性中心被用来进行初步研究如何检测规程根据关键词网络的研究热点。易和崔6)使用关键字的文章作为替代知识元素和研究关键词网络的结构特点,以便更好地理解科学知识。随着时间的推移,通过观察关键词网络快照Behrouzi et al。7)利用链路预测的方法来预测未来的这些网络结构,这有助于预测未来科学研究的趋势。

标签的知识提供了一个简明的概述的重要内容和关键的一个问题。标签和知识之间的关系相当于关键词和文章之间的问题。几个研究工作集中在标签网络增加了社交媒体平台的数据可用性。冯et al。8)进行了结构分析的知识标签基于主题网络结构和观察到的核心节点标签网络其他节点有很强的吸引力;因此,大量的知识标签分布在很少的外围中心标记。Zhang et al。9]描述的内容特征知识的前沿网络知识共享平台建设和评估基于协作的理论知识前沿的知识在线知识共享平台的包容性。陈和兴10我)提出了一个方法来自动标记技术景观从堆栈溢出问题。结构化的知识技术可以从标签出现实践数以百万计的网民认为在一起。

尽管标签数据的在线平台研究了很长一段时间,数量有限的作品旨在探讨“知识建立”的通过标签网络的演化过程。许多先前的研究标签的网络问答(问答)平台关注标签的建议(10,11),而知识的机制标签网络一代不了。的协作知识构建在线知识共享系统形成了一个在线社区参与多人协作编写环境通过“提问”的形式,这是一个公众交流的重要途径,知识共享和协作。用户可以浏览、讨论、制作内容自由、公开,可以创建新的提问和标签的问题,使系统中知识的快速增长。知识协同构建基于在线知识共享系统是共同进化的过程中个人知识与组织知识(13),实现现代意义上的知识构建。知识的生成标签网络用户知识协作生产的结果。通过添加新知识标记系统和添加标签之间的关联,用户支持的知识网络继续发展。标签的知识网络的变化反映了观众的知识问题的变化和知识演化的动态过程。调查机制的网络可以提供参考的理解知识生产和知识发展趋势预测。

解释knowledge-tag网络生成的机制,度分布是一个重要的参考属性。如果节点度的log-distribution遵循幂律(14),那么图是一个无标度网络(15),可以发现在许多复杂现象在现实世界中。巴巴斯和艾伯特提出了BA模型(16],他们建议度的幂律分布是两个泛型机制的结果:(i)连续添加新的节点和网络扩张的(2)新到达的节点已经倾向于与人脉广泛的节点,称为“优惠附件。“尽管BA模型是其中最经典的和适用的型号17- - - - - -19),还有很多,它仍有一些局限性,不适用与许多现实世界的网络。实际网络往往有一定的non-power-law特征,如指数截断和小变量饱和度(20.]。许多作者随后发表更广泛的基于BA模型的仿真结果。

英航的改进模型可以大致分为两个方向。改进BA模型的一种方法是添加新的信息维度,以符合不同的现实系统。另一种方法是,连接机制边缘略有调整,以符合系统的多样性特征。

首先,仿真规则可以通过引入新的变量或参数调整到模型中。例如,[Bianconi和鲍劳巴希21)提出了一个健身模式,反映了大多数实际系统的基本属性,在节点与其他节点的竞争;因此,一个节点只能获取链接的其他节点。香和赵提议修改BA模型连接的决定新节点的动机是不同的接近性22]。仿真结果表明,度分布仍然遵循权力法律,和外围节点较少依赖核心演员访问外部知识。

第二,BA模型不同,它只添加边来了一位新节点,众多网络新节点被添加在哪里发现在现实世界中,而新连接现有网络内节点之间。虽然在这些网络节点的度分布也呈现出power-law-like形式,其生殖模式更复杂的比BA模型。例如,调整连接规则(23]提出的模型与无向发展和衰减网络链接显示扩展行为。除了新链接连接新网站和旧的,旧的网站之间的链接可能出现或休息24]。这也涉及到延长BA模型允许新添加的链接的数量是随机的,一些温和的假设下的分布规律。修改后的模型可以创建新节点在任何高度迭代,这似乎能够模拟真实的网络更实际的时间行为。

第二个改进后的方法,一个众所周知的连接边缘的变化机制,河中沙洲和金标准的无标度网络模型扩展到包括“三合会形成一步”(25]。他们制定,当一个新的节点 被添加到网络中, 将连接到一个旧的节点,偏好后,附件机制,节点 的概率P连接到邻居的。他们发现,与BA模型和三元关闭机制,该模型具有相同的特征标准无标度网络,幂律度分布和平均测地线长度小,但高聚类在同一时间。

三合一的闭包是一种自然机制新连接,特别是在社交网络(26]。假设两个人有一个共同的朋友在社会网络;他们成为朋友在未来的可能性增加。这种机制被报道为最常见的结构性约束(27]。它可以解释许多实证社会网络的特征,包括许多熟人之间封闭的三角形和厚尾分布程度(28]。这种机制使密集网络边缘连接,可以网络社区结构的原因之一。按主题关键词网络集群,标签网络也有一个突出的群落结构。边缘的连接特性的实用原则标签网络也可能符合三者关闭机制。例如,当标签与标签同时B和C标记,标记B和C也更有可能在语义层面的角度有关。

在这个研究中,我们将首先描述标签网络的基本结构特征,这是由数据从一个在线知识共享平台。我们提出了一个标签网络仿真模型基于BA模型和三元关闭机制。对于复杂的和大规模的网络,探索网络特点和模拟生成机制是重要的。网络分析结果揭示了知识网络的进化特征,帮助我们了解网络知识构建的过程。

3所示。方法

3.1。数据

乎是中国最大的在线问答平台9]。同大多数问答平台,网站允许用户添加多个标签的问题,类似关键字的一篇文章中(见图1)。用户可以添加标签,他们建立了自己或选择旧的标签已经由其他用户。在分析知识网络,多个标签出现在同样的问题可能被认为有共存的关系3]。这项研究使用了74761标签中包含1520254个问题从1月1日,2011年12月31日,2018年,在知乎。标签的数量和同现关系是累计计算每两个月,和线表明,同现关系有明显增加的趋势在过去的几个月里(见图2)。

为了展示网络的动态发展过程,本研究首次将8年的数据分为48时期基于2个月的时间窗口。在每个时间段,标签出现在同样的问题与构建一个无向网络标签。最后,总共48网片了。

3.2。标签网络特征

首先,本研究计算乎标签网络的网络特性。我们计算的节点数,边的数量,聚类系数和平均最大的连接组件为每个网络最短路径(表1)。如数据所示3(一个)3 (b)标签网络规模发展缓慢前10的时间段,并表现出一个重要的节点数量在10到20时期上升趋势。节点的数量是30到40时期相对稳定,其次是40时期急剧增加。回落的节点数量在过去的两个时期。这些趋势是符合商业策略和网站在中国的发展。从数据3 (c)3 (d),标签网络是一个相对密集的网络。虽然网络的节点规模增加,网络不会成为区划结果,和网络的平均最短路径和聚类系数保持在一个相对稳定的水平,无论缓慢下降。

此外,Leskovec et al。29日观察到随着网络的发展,它的直径降低随着时间的推移,这表明网络“收缩”或变得密集,挑战现有的信念,以一个恒定的平均在线社交网络的发展程度和缓慢增长的直径。我们计算每个网片的有效直径。网络直径最大节点距离(30.]。许多真实网络直径小,表明小世界。然而,直径并不总是最好的指标,因为它是很难计算,容易出现离群值的影响(31日]。因此,每个网络的有效直径计算(表1)。一个给定的自然数d代表网络的有效直径的比例对网络中节点之间的最短路径是小于或等于d达到0.9 [29日]。如图4、网络的有效直径片显示缓慢下降的趋势。

在现实世界中,大多数系统经历一个缓慢减少直径由于边的数量迅速增长。节点和边的数量的增长显示了一个幂函数关系( )。Leskovec et al。29日)这种现象称为致密化法律。在这里,我们构建了一个完整的网络与8年的数据和计算网络的节点和边的数量每两个月。图2显示累计数字网络的节点和边。使用累积数目的节点在每个时刻的水平坐标和累积边数为纵坐标,网络的节点和边的数量几乎接近一条直线在双对数坐标(见图5)。散射点的线性回归模型拟合斜率为1.66,拦截−1.92和0.98的拟合优度。

6显示了整个网络的度分布与74761个节点在双对数坐标。水平轴表示程度的价值,纵轴代表程度的频率。度分布的结果表明,作为一个整体,标签网络可能的增长大致符合优先连接机制;新加入的节点,网络有更高的概率连接到很大程度上节点,导致的最终外观“富变富”幂律分布的网络。然而,标签网络的度分布的幂律分布偏离尾端,这反映了在网络的节点规模增长在一定程度上,很大程度上边缘节点的增长已接近饱和,和边缘的增长是有限的。我们计算分布在网络的发展程度在两月一次的基础上,筛选前100节点度等级。总共有232大规模节点筛选48个时间点。接下来,我们筛选了总共28个节点,排名在前100名网络从一开始直到48时间点。如表所示2,这些节点是一些广泛的和抽象的概念,如“生活”“电影”“法律”,“教育”和“心理学”。

我们安装标签网络度分布的幂律的Python包。图7显示网络的度分布符合接近截断幂律分布(红色线)比一个标准的幂律分布(蓝线)。截断幂律分布是一种常见的替代渐近幂律分布自然,因为它捕获——的尺寸效应(32]。几个衡量社交网络不遵循幂律度分布(33),是最好的拟合指数截断的幂律分布。Clauset et al。34]给出了基本截断幂律函数形式f(k)(方程(1))和适当的归一化常数C(方程(2)), 连续的情况。的分布是 在哪里k节点的程度。拟合结果表明,标签网络的度分布符合截断幂律分布α= 2.12,λ= 0.0003。

4所示。模拟

4.1。模型

BA模型是一个典型的模型领域的复杂网络,及其简单的机制可以解释真实网络的幂律现象;许多仿真研究的现实机制是基于BA模型(35,36]。BA模型的两个基本机制如下:(1)新节点不断添加到网络,和(2)新添加的节点更倾向于联系很大程度上节点。然而,对于标签的知识网络,这种机制不同于实际的标签生产过程知识。首先,从知识的角度构建,将不断产生新知识,新联想现有的旧知识概念之间也会产生知识的空间。因此,对于一个标签网络,节点之间的连接时生成一个新节点加入和旧节点之间。关于如何构建连接旧节点之间的边,本研究利用三元关闭的机制。为节点一个,如果节点BC都是邻居的一个BC不连接,连接边缘很可能将生成之间BC在随后的时刻。第二,尽管标签网络中存在一个“优先连接”,也就是说,很大程度上节点(如更常用的概念与更广泛的语义)更容易连接,当网络规模的增加在一定程度上,这种优势将逐渐削弱。的BA模型的缺点和知识构建过程,提出了一种标记基于BA模型和网络模型旨在提供标签的知识网络在线知识共享平台的生成机制。

基于这些特性,模型生成的具体算法如下(见图8):步骤1:一个节点没有边缘存在于最初的网络。步骤2:之间的行动将被选中“添加新节点”和“添加老边缘节点”基于当前概率P。也就是说,有概率P“添加新节点”和概率(1−P)“添加旧边缘节点。”P是一个函数的数字网络的节点和边(P=f(n,e),n节点的数量,e边的数量)。这个函数的详细信息将在稍后解释。步骤3:如果操作选择“添加新节点”,然后一个新的节点 添加,一个节点将从当前选择基于其学位G。节点度越大,就越容易被选中。边缘然后添加到节点 。否则,如果行动”加老边缘节点,该算法也将选择一个节点当前基于其学位G。然后,一个节点将选定的二阶的邻居,这不是与。边缘被添加到节点之后。第四步:重复步骤2和3,直到到达目标数的节点数量N

在这个算法中,概率P判断当前时间步将添加新节点或边缘到网络。P的概率是添加新的节点,1−P的概率是添加现有的节点之间的边。通过观测节点和边的数量的增长在实际的网络中,网络中边的数量的增长主要是受到现有的节点和边的数量在当前网络。的概率P应该与当前网络的密度。因此,我们构建了一个概率Pt+ 1,新节点添加到网络概率t基于节点的数量+ 1nt和边的数量et在网络的时间t,见以下方程:

在这项研究中,参数的值一个b在公式(2拟合得到的实际数据。我们创建一个棉花损失函数来计算边的数量之间的差异在一个模拟的网络参数一个b和边的数量在一个实际的网络的网络规模。牙线公式所示(3),t是每两个月的指数。Et边的实际数量在时间吗t,E”t模拟网络中边的数量在当前时间t,和日志Et用作分母来平衡网络规模增长的影响。损失函数越小,越接近的性能模拟网络是连接的实际网络,所以参数的最优解一个b可以获得。在这里,我们限制的范围一个(1,15)的范围b(−10、10),然后使用二分法找到的最优解b在遍历一个步长为0.001。

此外,程度的增长很大程度上标签网络中的节点并不是无限的。因此,当一个概念的程度已经达到某一阈值模型建设期间,其优势mba优先连接机制需要被削弱。在这里,我们认为,当网络中一个节点的程度达到阈值H节点的概率ph不增加其学位在计算当前选中的概率。

4.2。仿真结果

通过构造模型提出了部分机制4.1,本研究模拟网络生成过程中网络从最初的1个节点增加到74761个节点。在这个模型中,我们固定的参数确定的概率P作为一个= 5.51,b=−0.19。此外,鉴于网络标签的情况,我们应用程度的阈值H= 2000,ph= 0.69。

9显示的增长数字模拟网络的节点和边。水平和垂直坐标节点和边的数量,分别。随着时间的推移步骤,数据的分布节点和边的双对数坐标可以安装由一条直线。拟合斜率为1.68,拦截−2.01,拟合优度R2= 0.96。因此,幂函数关系( )节点和边的数量之间保持在模拟网络和拟合斜率和截距相对接近实际网络的拟合结果。

10显示模拟网络的度分布,这类似于真实网络的度分布图像。在双对数坐标中,模拟网络的度分布是一个截断幂律分布与沉重的尾巴,这是一个普遍现象在实验网络([16),(Zhihai荣 ,Zhi-Xi吴、乡里、培特河中沙洲& Guanrong陈(2019),异构合作领导结构从随机正则图,混乱,vol.29 pp.103103))。当我们安装程度分布图像(见图11),模拟网络的度分布接近截断幂律分布(红色线)。此外,拟合参数α= 2.07,λ= 0.0003非常接近实际的拟合参数标记的网络(见图12)。

5。结论

尽管巨大的大型网络数据和最近的兴趣和有趣的模式识别的范围为静态图的快照,相对较少的工作已经进行的时间演化的特性图(29日]。介绍了知识标签网络在线知识共享平台的特点和模拟生成模型基于经典的BA模型。

首先,结果表明,标签网络展览规模快速增长,但它并不是一个碎片越来越多的节点。相反,网络的有效直径和聚类系数表明一个缓慢下降的趋势。网络的边缘是非常密集的,网络的节点和边的数量显示接近幂函数的关系随着时间的推移,这表明标签网络后致密化法律。

第二,标签网络的度分布遵循截断幂律分布。在标签网络机制的联系也跟着“富变富”偏好依附机制。在标签网络中,节点之间的边暗示这些知识概念语义相关,和很大程度上的节点通常广义和广泛的概念。因此,随着标签的发展网络,利用程度的优势阶段会削弱,这也解释了为什么标签的知识网络的度分布接近截断幂律分布的幂律分布。拟合结果表明,标签网络的度分布符合截断幂律分布α= 2.12,λ= 0.0003。然后,本研究提出了一个网络一代模型适用于标签网络。模型是基于BA模型的边缘老节点之间的联系机制,哪个更符合实际的知识构建的过程,可以使网络生成一个密集的网络结构。截断幂律适应节点的度分布的模拟网络获得α= 2.07,λ= 0.0003,接近真实的网络度分布。因此,在这项研究中提出的仿真模型可以解释的经济增长机制真正的标签网络在一定程度上。

最后,本研究调查了标签网络一代的机制在网络知识平台,这工作将帮助我们加深认识和了解网络知识的构建过程。在这项研究中提出的模型可以提供一个一般适应当前网络知识共享平台,通过调整模型参数。这个模型使用概率P平衡之间的关系网络边缘添加和添加。的参数P来自实际数据的拟合,这意味着函数具有较强的可扩展性,可以根据历史数据模拟不同的平台。此外,的参数P功能模型是由网络的历史数据,,在寻找的过程中参数,算法使用二分查找的想法显著降低了时间复杂度,同时保持结果的准确性。甚至大型网络数据可以计算出在一个相对短暂的时间。这些特征使模型实用工具来适应不同的数据平台。是有用的预测的增长规模标签网络在未来基于网络的信息目前和未来提供一个合理的参考知识平台建设。

在未来,对标记的产生机制的研究应该从二维扩展网络。一是拓宽研究平台和研究对象。另一种是使用模拟网络的基本框架进行研究网络结构和网络效率的生成机制。研究平台,研究对象不应局限于知识标签和关键词。主题和许多其他文本内容也有研究价值。此外,未来的研究可以关注的信息传播效果或其他问题结合网络产生机制,这可能给深入了解网络结构与网络功能之间的关系(37]。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(批准号11875005)和北京师范大学的博士跨学科基础(BNUXKJC2115)。作者想表达自己的真诚感谢吴Tianqi宝贵的指导本研究的数据分析。