上下文异构网络嵌入的关注

文摘

网络嵌入(NE),将节点映射到一个低维潜在的欧几里得空间来表示网络中的每个节点的有效特征,近年来取得了相当大的关注。许多流行的方法,如DeepWalk Node2vec和线,有能力处理均匀网络。然而,节点总是完全伴随着异构信息(例如,文本描述、节点属性和标签)在现实世界的网络,这仍然是一个巨大的挑战,共同项目的拓扑结构和不同类型信息到fixed-dimensional嵌入空间异质性。除此之外,在未加权的网络,如何量化边缘的强度(节点)之间的连接紧密准确也是一个现有方法所面临的困难。的桥梁,在这篇文章中,我们提出CAHNE(上下文异构网络嵌入)的关注,一种新颖的网络嵌入方法,准确地确定学习的结果。具体来说,我们提出的概念节点重要性度量的边缘,可以更好的保存在未加权的网络中一个节点的上下文关系。此外,文本信息是一个广泛的无处不在的特性在实际网络中,例如,在线社交网络和引文网络。的复杂的相互作用的网络结构和文本特征节点,CAHNE学习上下文映射进行节点通过引入上下文节点序列,和注意力机制也集成到我们的模型更好地反映当前节点上下文节点的影响。证实CAHNE的功效,我们运用我们的方法和各种基线方法在一些真实的数据集。实验结果表明,CAHNE实现更高质量的一系列最先进的网络嵌入方法相比在网络重建的任务,链接预测,节点分类和可视化。

1。介绍

如今,信息网络在我们的日常生活中随处可见,例如,社会和通信网络,引文网络,和同现网络。在大多数时候,现实网络的规模是非常大的。因此,分析大规模网络近年来吸引了大量的研究关注。网络嵌入(NE),也被称为网络表示学习,旨在为节点生成的数值表示网络中保护网络结构,进一步减轻稀疏造成的不便。网络嵌入方法被证明是有效的在许多网络分析任务,包括链接预测(1),节点分类(2),和聚类3]。

向这一目标提出了很多方法,比如DeepWalk [4)、线(5],Node2vec [6],PPNE [7]。尤其是网络将旨在项目网络嵌入到一个低维空间,其中每个节点使用相应的嵌入向量来表示,和节点之间的相对论保留。“高相似度”的节点映射到相邻的点(“高相似性”意味着节点有相似的属性以及它们之间更可能有边缘)。嵌入向量包含语义信息的转录网络结构,可以应用于各种网络挖掘应用程序很容易。然而,大多数现有的NE方法将网络结构作为输入学习表示节点不考虑任何其他信息。

在现实中,网络通常具有丰富的异构信息,如文本描述和其他元数据。例如,维基百科(https://www.wikipedia.org/)项相互联系并建立网络百科全书。同时,每个条目作为一个节点拥有大量文本信息,如关键字和介绍,详细描述一个节点和更全面。此外,在现实世界中,Twitter这样的社交网络(https://twitter.com)如图1,用户节点也有自己的文本描述,这可能反映了每个节点的属性。因此,文本信息是典型的和关键的异构语义信息广泛存在于现实世界的网络。然而,大多数NE模型对所有网络同构网络。换句话说,大多数作品学习表示只从网络结构忽视文本信息。由于网络的异构性,我们提出一个主意嵌入网络从网络结构和文本信息。

为此,一个直接的方法,就是学习表示文本信息的独立节点和网络结构,可以称为text-aware嵌入。然而,这种方法忽略了复杂的网络结构和文本信息之间的相互作用,导致无效。甘蔗(8)是一种有效的方法来捕获一个节点的文本特征之间的相关性及其邻居的网络,达到我们之前规定的目的。然而,甘蔗只保留当地的关系网络,同时我们需要考虑全球网络结构而不是独立节点对。例如,在图1,鲍勃可能连接到其他NLP研究者也他的同事和爱丽丝并没有跟着这些研究人员,所以可能会有潜在的这些研究人员和爱丽丝在文本方面之间的关系,因为他们有相似的属性,但是甘蔗不能捕获这些关系。因此,如何满足网络结构之间的兼容性和文本中的信息应该利用网络更好的代表节点。

除上述问题外,典型的东北方法不敏感的力量在未加权的网络节点之间的关系。作为一个直观的例子,我们将展示一些从现实世界的网络关系图1。在Twitter,特朗普是一位名人有很多追随者,和每个追随者链接到他的一个优势。爱丽丝和鲍勃是普通用户,他们相互链接,因为他们是同事。他们也跟着特朗普只是因为他们是美国人。在这种情况下,强度之间的关系Alice和Bob之间应该比爱丽丝和特朗普。如图1,我们用虚线和实线描述的力量(边缘)的关系。强烈的联系意味着两两节点之间相似度高,意味着低相似性和弱连接。未加权的网络中,古典方法一般将节点之间的边的权值作为一个二进制变量而忽视语义丰富的边缘我们之前了。因此,连接的强度是根本的结构性信息时,我们需要考虑学习网络表示在实际网络中,这仍然是一个巨大的挑战。

从上述问题,非均质性和结构复杂性在实际网络学习给网络带来特定的障碍表示。幸运的是,在这篇文章中,我们提出了一个上下文关注异构网络嵌入(CAHNE)方法重点是利用富人和异构网络的内在信息。具体来说,CAHNE重构经典的网络表示为形成了异构网络表示文本。我们可以为每个节点提取上下文节点序列通过广度优先搜索(BFS)重新设计网络,和根节点可以被视为锚节点。通过一系列的特定操作,我们将在后面的小节中详细阐述,结合文本信息序列,我们可以获得一个表示上下文的锚节点的序列,即上下文嵌入的锚节点。因此,CAHNE整合文本信息进入全球网络的结构学习网络中潜在的互文性关联。此外,上下文节点的影响在锚节点可以随不同的锚节点,因此,我们进一步采用注意力机制来提高表现力的影响从上下文节点在特定的锚节点。此外,未加权的网络,CAHNE预计将保持底层结构边缘的强度信息。基于这个想法,我们给的定义节点重要性量化节点之间关系的强度,将其集成到网络嵌入学习为每个节点基于结构的表示方法。最后,我们连接节点的上下文嵌入和基于结构的嵌入的完整表示节点。经验,我们CAHNE适用于四个网络分析的任务,即。,网络reconstruction, link prediction, node classification, and visualization, using seven real-world networks as datasets. Experimental results demonstrate that our method learns better nodes embeddings when compared to a variety of state-of-the-art baselines in the field of NE.

总结了我们的方法的主要贡献如下:(我)我们提出一个新颖的网络嵌入模型,即CAHNE。方法能够综合表征不同类型的现实世界的网络学习,这证实了我们的模型的灵活性和鲁棒性。(2)我们提供了一个关键的见解关于关系的强度未加权的现实世界的网络。我们因此提出节点重要性的定义优化目标,而更紧密地显示网络的实际情况。(3)我们将异构信息集成到网络表示和减轻网络结构之间的不相容和文本信息提取上下文节点序列嵌入伴随着注意力机制学习上下文。

源代码是可用的https://github.com/zhuo931077127/CAHNE。

网络表示学好(海军)已经研究多年,例如,在早期作品如Isomap [9),多维标度(MDS) [10],拉普拉斯算子eigenmap (LE) [11]。这些方法代表了网络作为亲和图使用网络节点的特征向量。对于一个给定的大规模信息网络,例如,社交网络和引文网络,这些方法效率较低,灵活生成节点表示。

近年来,受机器学习的发展和字嵌入方法Word2vec [12),提出了许多海军研究实验室方法对大规模信息网络表示。例如,DeepWalk [4]提出执行随机漫步在图上获得的节点序列。介绍了Skip-Gram模型达到顶点表示。基于DeepWalk Node2vec [6)定义了一个灵活的概念节点的网络邻居和设计偏置随机游走过程探索更有效的网络结构。一些其他方法集中在网络中寻找多元结构特点。例如,线(5)网络嵌入到一个低维的空间近似的一阶距离和二阶距离网络。然而,大多数这些网络嵌入模型只关注均匀网络,没有考虑到异构信息。

不同于同构网络,复杂异构网络由节点和边的属性。几次已经完成异构信息网络(HIN)嵌入和有前途的性能在不同的任务。Hin2Vec [13)学习一欣的嵌入共同进行多个预测培训任务。甘蔗(8)学习网络嵌入的网络结构和文本描述两两节点的相互关系。ANRL [14)提出了一个邻居增强autoencoder将网络结构和节点属性信息原则。Paper2vec [15旨在学习本文从论文引文网络节点嵌入。

总之,现有方法在同构网络嵌入使用亲和矩阵模型或深模型保持网络结构特性在一个低维空间。和现有欣关注不同类型的异构信息嵌入方法。他们在网络分析被证明是有用的,但他们不能维持复杂的网络结构和异构信息之间的相互作用(在本文中,我们考虑文本信息)。此外,我们所知,所有现有的NE模型忽略了重要的关系在未加权的实际网络中节点之间的信息我们之前提出。相比之下,我们的模型CAHNE可以学到比现有方法更全面的信息。

3所示。预赛

在本节中,我们介绍的基本定义和形式化的问题上下文异构网络嵌入的关注。

3.1。上下文节点序列(中枢神经系统)

形成一个上下文节点序列为锚节点在网络可以被视为一种抽样检测的过程节点,最有可能对锚节点的影响。图2显示了获得上下文节点序列的过程。具体,我们首先进行广度优先搜索(BFS)在原始图G从一个节点 ,我们认为作为一个锚节点,这为我们提供了一个石树扎根在。可以被认为是独特的关系树呢。不仅上下文节点的邻居锚节点也更深一层节点。因此,我们控制层数通过设置参数k样本上下文节点。此外,的价值k不确定,取决于给定网络的类型。最后,对于一个给定的节点 ,我们可以获得它的上下文节点序列 ,在哪里米和n上下文节点的数量在第一层和第二层,分别等等。也可以当作吗。值得注意的是,每个节点只能出现一次或0次上下文节点序列和建筑石树并不是所有节点计算昂贵,因为现实世界网络的稀疏。

3.2。问题公式化

现在,我们正式定义CAHNE的问题。相比传统的均匀网络嵌入如DeepWalk Node2vec,只专注于一个单一的网络结构,我们的目标是学习为每个节点表示与融合的异构网络图相关的信息。文本信息是广泛使用在实际网络中,例如,社交网络和引文网络,所以我们将其集成到传统的定义(图 )(16]。我们首先定义一个异构网络文本如下。

定义1(异质文本网络(HTN))。HTN表示为 ,在哪里代表节点的集合,代表的边缘,两个节点之间的关系吗相互联系,有一个关联的重量(在本文中,我们只考虑未加权的网络)。表示节点的文本信息。一个特定的节点的文本信息 ,我们可以代表一个词序列 ,在哪里表示数量的词。
注意之间的区别的定义异构网络文本和传统的网络 ,异构网络文本包含更丰富的信息。经验,体重通常表示两个节点之间的边的力量。在实践中,对于未加权的真实网络数据集,重量只有形成作为二进制变量。例如,如果有一个邻居 ,它们之间的边缘的重量是1;否则,它是0。然而,我们希望测量的强度关系更符合现实世界的在线社交网络的实际情况。因此,我们建议节点重要性的定义如下。

定义2(节点)的重要性。节点重要性来标示 ,这是一个为网络中的每个节点量化表示。它衡量的力量一个给定节点及其邻居之间的边缘。为锚节点 , 节点重要性的价值吗。
在实际网络如引文网络和社交网络,每个节点都有自己的上下文节点序列。我们可以整合CNSs并获得全球所有节点序列G, 。CNSs节点由越多,换句话说,乘以一个节点出现在 ,这个节点的重要性越少其邻国。例如,在推特上,名人有成千上万的追随者,这意味着这个名人包括CNSs丰富。然而,对于普通用户来说,和一个名人的关系的重要性小于与真正的朋友与他们的关系。

定义3(网络嵌入)。给定一个异构网络表示文本 ,网络嵌入旨在潜在网络数据映射到低维空间,其中每个节点可以学习一个低维嵌入根据其图结构和其他信息。请注意,是潜在的嵌入空间的维数。
将网络嵌入到一个低维空间有助于许多分析任务。在这个过程中,网络的结构和性质是保存和编码。文本在异构网络中,基于结构的网络嵌入是不够的,异构的信息与网络结构通常是高度相关的。因此,我们进一步提出的定义上下文嵌入。

定义4(上下文嵌入)。旨在学习向量表示为HTN每个节点的文本信息,上下文嵌入映射函数学习对于一个节点 ,在哪里嵌入的维度是上下文。
值得一提的是,集成多锚节点的文本特征,它还考虑上下文节点序列。例如,嵌入锚节点的上下文是由中枢神经系统和自己的文本描述。在本文中,我们的方法CAHNE介绍了注意力机制,重量为每个锚节点上下文节点,这样我们可以减轻网络拓扑和文本之间的不相容特性来获得更全面、准确的网络表示。

4所示。CAHNE:该方法

在本节中,我们将详细介绍CAHNE方法。

4.1。总体框架

CAHNE,我们需要充分利用网络结构和相关文本信息。我们建议两种类型的嵌入一个节点 ,即。,structure-based embedding和上下文嵌入。基于结构的嵌入可以捕获网络结构信息,包括节点的重要性,而上下文嵌入可以捕获锚节点的文本意义伴随着上下文节点序列的文本信息。我们将两种类型的嵌入和获得整体节点嵌入一个节点如下: 在哪里显示连接操作。在下面几节中,我们将详细介绍这两种类型的嵌入,分别。

4.2。基于结构的嵌入

没有损失的普遍性,我们假设异质文本网络指导。对于无向网络,我们考虑两个定向边缘与相反的方向和权重相等。然后,CAHNE融合节点重要性作为网络中的每个节点的权重。

4.2.1。准备节点的重要性

正如定义2中提到的,在现实的网络中,《纽约时报》一个节点出现在序列 ,邻国的重要性就越少。的重要性的定量表示节点的产品是两个统计数据,节点的频率( )中枢神经系统和逆频率( )。节点的频率是指给定节点的频率出现在一个上下文节点序列,它是一个二进制变量。为了得到节点的频率 ,首先,我们表示是否构成 ,在哪里 :

我们表示在序列的节点总数。然后,我们定义随着节点的频率在 ,可以制定为哪一个。

可以被认为是衡量一个节点,因为它捕获的普遍重要性分布的重要性在实际网络。对于一个给定的节点 ,我们可以表示作为中枢神经系统逆频率如下: 在哪里。后将提到节点频率和逆中枢神经系统频率、节点重要性( )一个给定的节点可以测量

注意,倪是网络中的每个节点的基于上下文的衡量,它TF-IDF思维延伸到网络节点分析。与mba PageRank (17倪),包含了丰富的上下文语义结构而不是两两节点,这使得我们的模型测量中的一个节点的重要性高阶邻域(18]。

对于一个节点在一个未加权的网络,可以作为边的权值从吗。我们也可以考虑网络中节点的受欢迎程度的排名。值越小,节点的患病率越高。后获得的定量表示在一个给定的网络,我们可以获得网络的经验分布,可以定义如下:

4.2.2。基于结构的目的

在形式上,我们的条件概率模型生成的作为

这个方程可以解释为检测边缘的概率来 ,表示重建的分布。

节点之间有重合的经验分布概率和重新分布,保存的节点和网络结构的重要性,一个简单的方法是最小化目标函数如下: 在哪里是两个分布之间的距离。我们选择KL分歧的两个概率分布来测量分布之间的差异。因此,取代KL分歧,我们可以获得以下目的:

用这个公式,我们可以最小化目标方程(8)获得向量表示节点的 - - - - - -基于网络结构的维潜在空间。我们总结了基于结构的嵌入方法的算法1。

	输入:网络G、上下文节点采样参数k,维数 ,和学习速度η
	输出: - - - - - -维嵌入结果H
(1)	初始化节点的关系树通过执行BFS上G从每个节点;
(2)	获得一个上下文节点序列年代通过抽样上下文节点一层一层地根据每个锚节点k;
(3)	为我= 1,做
(4)	计算由方程(4);
(5)	结束了
(6)	而不收敛性做
(7)	更新的价值损失函数方程(8)和节点表示H由亚当和学习速率算法η;
(8)	结束时
(9)	返回H;

4.3。上下文嵌入

CAHNE预计将典型的异构网络中的信息,如文本特征。一个简单的方法是学习表示文本信息的独立节点和网络结构。然而,它忽略了复杂的拓扑结构和异构信息之间的相互作用和关联。弥合这一差距,我们引入上下文嵌入融合信息的上下文节点锚网络,这样我们可以克服不相容的问题。

如图2,我们样品上下文节点锚节点并获得一个上下文节点序列当设置k为2。在中枢神经系统、文本特征不同的上下文节点锚节点上有不同的影响。因此,我们希望给每个上下文节点在中枢神经系统的重量,重量可以反映上下文节点的影响趋势。为此,我们引入了指数加权移动平均(19]。

4.3.1。指数加权移动平均(EWMA)

滑动平均(MA)是一个计算分析顺序数据,反映了序列中的变化趋势。基于MA,指数加权移动平均(EWMA)应用加权因素指数降低。旧的数据连接权重较低,但权重永远不会达到零。的EWMA序列Y可以递归地制定: 在哪里γ是一个参数代表体重降低的程度和吗。是当前数据,表示当前的EWMA价值数据。在树上 ,深层节点需要小重量,因为他们是远离锚节点。因此,我们可以为每个上下文节点附加重量。然而,同一层中的节点需要进行排序。为了一致性,我们根据他们的同一层节点值。然后,可以生成规范化上下文节点序列的锚节点作为 ,在哪里采样的上下文节点吗。后来,我们应用EWMA上下文节点如下:

我们介绍EWMA的相似性,我们请客上下文节点的重量 ,表示为。

4.3.2。文本信息表示

随着深度学习的发展,有许多神经网络模型学习文本表示,例如,卷积神经网络(CNN) (8,20.,21递归神经网络(RNN) [],22),长期短期记忆(LSTM) [23),和封闭的复发性单位(天鹤座)24]。在本文中,我们研究不同Word2vec模型找CNN具有最佳性能的任务,可以获取全面的语义异构网络文本。

在图3,我们将展示的框架生成上下文嵌入的过程。给定一个规范化的上下文节点序列扎根在 ,我们把单词中的每个节点序列作为输入,CNN获得文本嵌入到三层,即。、编码器和查找、卷积和mean-pooling。然后,我们采用加权求和表示向量的锚节点和它的上下文节点获取上下文嵌入为。

(1)编码器和查找。首先,我们在异构的文本网络映射所有词的词序列id。因此,我们可以获得一个ID序列。然后,每个单词查找层转换成一个向量 ,在哪里是字嵌入的维度。最后,我们可以获得一个嵌入序列为。作为显示在图3编码器和查找层后,我们可以得到一个矩阵序列 ,和相当于。

(2)卷积。编码器和查找层后,我们用卷积层提取输入矩阵的特征序列。我们通过一个内核执行卷积操作一行一行地滑( )如下: 在哪里表示的特征向量 ,在这单词的数量吗(文本 ),和b是偏差向量。

(3)Mean-Pooling。我们测试不同池规定。得到全面的功能为一个节点的文本信息,我们执行mean-pooling嵌入的文本。然后,我们选择随着非线性激活函数 ,这是在哪里 ,在这维度的文本嵌入。最后,我们可以得到的文本信息的嵌入作为。

到目前为止,我们已经获得了CNN为每个节点的文本嵌入一个上下文节点序列。这后,我们的体重和上下文节点嵌入 ,这操作sum-pooling图3。的策略生成上下文嵌入如下:

通过所述方法,我们建立锚节点之间的相关性及其上下文节点向量的表示和维护文本相关性。最后,我们可以得到给定节点上下文嵌入 ,和整个的代表被显示为。

嵌入的文本上下文的一部分嵌入框架如图3看起来像甘蔗的卷积方法。所不同的是,我们的模型的输入是中枢神经系统的一个节点,而甘蔗是一对节点的输入。此外,我们根据倪中枢神经系统中的节点每个节点和重量与EWMA值中枢神经系统,如方程所示(13)。

4.3.3。上下文嵌入目标

上下文嵌入目标旨在衡量一个给定的对数似定向边缘作为

因此,生成上下文嵌入的损失函数可以表示为。与以上配方,CAHNE旨在最小化整体损失函数

最后,工作流上下文的嵌入方法总结了算法2。

	输入:网络G上下文节点序列年代,维数 ,学习速率η,EWMA参数γ,值
	输出: - - - - - -维嵌入结果C
(1)	正常化上下文节点序列年代一层一层地与值;
(2)	应用EWMA和参数归一化上下文节点上γ获得每个上下文节点的重量;
(3)	编码节点的文本内容上下文节点序列输入到CNN;
(4)	而不收敛
(5)	更新功能损失的价值和节点表示C由亚当和学习速率算法η;
(6)	结束而
(7)	返回C;

4.4。优化CAHNE

4.1.1。注意上下文节点序列

在方程(注意上下文embedding-generating战略13),锚节点的向量表示分解之间的亲和力吗和它的上下文节点的表示。直觉上,上下文节点与锚节点之间的联系应该是依靠特定的锚节点。例如,和锚节点在实际网络中,但他们有不同的属性;因此,他们有不同的强度关联上下文节点。因此,这是一个必要的将这样的锚节点的角色建模独特的激励效果α。

符合注意力机制(25),一本小说和流行的机器翻译模型,我们定义锚节点和它的上下文节点之间的权重将softmax单位如下:

因此,方程(13)可以新配方

10/24/11。消极的抽样

对方程(8)和方程(14),CAHNE旨在最大化之间的条件概率和 ,这是计算昂贵,因为所有节点将softmax函数。为了解决这个问题,我们采用负采样的方法26)来近似目标函数如下形式: 在哪里代表物流功能和n是随机采样点的数量。我们设置 ,在哪里的学位。最后,我们采用亚当算法(27)优化方程(18)和学习速率为0.001。

5。实验

在本节中,我们根据经验评估拟议的框架CAHNE的性能。

5.1。数据集描述

为了全面评估模型的有效性CAHNE,我们使用七个真实数据集,包括两个社交网络,两个引文网络,一种语言的网络,一个共生网络,和一个通信网络,对于四个应用程序,即。、网络改造、链接预测节点分类和可视化。列出了详细描述如下:(我)乎(28)是一个社会关系网络在中国这是一个在线问答平台。用户互相关注,在知乎问和回答问题。每个用户的文本信息是有关主题,即表示为全文。我们从乎人过滤10000用户信息有关的话题。词汇量的大小是9035,和文本的平均长度是89。我们评估这个数据集的链接预测任务。(2)HEP-TH [8)是一种从arXiv引文网络。过滤后的论文没有文摘,1038篇论文。表示为全文的文本信息。词汇量的大小是2970,和文本的平均长度是54。我们评估这些数据链接预测任务。(3)科拉(https://linqs.soe.ucsc.edu/data)也包含2708机器学习论文的引文网络文本信息分为七类之一。5429年的引文网络由链接。表示为全文的文本信息。词汇量的大小是16426,和文本的平均长度是88。科拉是用来预测任务和节点分类的链接。(iv)BlogCatalog (http://leitang.net/social_dimension.html)是一个大型的社会网络在BlogCatalog网站上市的在线用户。有39个不同类别的标签数据集,和每个标签代表一个用户提供的元数据。因为这个数据集不包含文本信息,它将评估节点分类任务和网络重建CAHNE(没有上下文嵌入)。(v)维基百科(29日)是一个共生网络包含2045个节点,17981边,19个不同的标签。维基百科的数据集的tf-idf矩阵描述数据集的文本信息。有4973列对应于4973个不同的单词。这个数据集将被评估节点分类的任务。(vi)20-NewsGroup (http://qwone.com/∼杰森/ 20个新闻组)是大约20000个新闻组文档的集合,分区(几乎)均匀地在20个不同的新闻组。我们选择新闻文件贴上comp.graphics rec.sport。棒球,talk.politics。牙龈来评估我们的模型的可视化的任务。有1720块的新闻中,表示为全文。词汇量的大小是30127,和文本的平均长度是206。此外,20-NewsGroup加权网络。(七)Email-Enron (https://snap.stanford.edu/data/email-Enron.html)是一个通信网络,涵盖了电子邮件沟通在一个数据集。节点是电子邮件地址,边表示电子邮件之间的相互作用。这个数据集的文本描述完整的电子邮件消息文本。词汇量的大小是29523,和文本的平均长度是149。我们筛选6820个节点和23968个边缘从原始数据集。

总结了详细统计数据表1。


数据集	#节点	#边	#标签

乎	10000年	43894年	- - - - - -
HEP-TH	1038年	1990年	- - - - - -
Email-Enron	6820年	23968年	- - - - - -
科拉	2708年	5429年	7
BlogCatalog	10312年	333983年	39
维基百科	2405年	17981年	19
20-NewsGroup	1720年	完全连接	3

5.2。基线

我们考虑以下六个NE方法证明的有效性和鲁棒性CAHNE:(我)DeepWalk [4:采用截断随机漫步和Skip-Gram模型学习节点表示。(2)线(5]:它保留一阶和二阶网络中节点之间的距离。(3)Node2vec [6]:它提出了一个基于DeepWalk偏置随机漫步学习节点表示。(iv)GraRep [30.]:它集成了全球图的结构信息和使用计算列车模型。(v)天真的组合:我们直接连接的文本功能嵌入学习由CNN和节点表示从线网络表示。我们选择线学习结构嵌入因为它可以利用一阶和二阶网络中的距离,比DeepWalk和Node2vec哪个更全面。(vi)TADW [29日]:它将文本功能集成到网络嵌入采用矩阵分解。(七)烦躁(31日):学习指导下的节点表示的距离矩阵,抓住了网络结构和文本集群成员矩阵来自聚类的文本信息。(八)ASNE [32:它的学习表示节点通过维护结构接近和属性(文本)附近。

5.3。实验设置

公平地说,我们设置了嵌入维度关于HEP-TH的所有方法,科拉,Email-Enron, 20-NewsGroup。乎,BlogCatalog,维基百科,我们集。对于DeepWalk,我们设置窗口大小10,走的长度为80,为每个节点的数量走10。行,我们设置学习速率为0.001和5负样本的数量。对于Node2vec,我们选择hyperparameters和问通过网格搜索来获得最好的性能。GraRep,我们设置了最大矩阵转换步骤为5。烦躁,我们设置的参数文本信息的贡献和参数β为了保证文本的准确性矩阵作为集群成员。

CAHNE为我们的模型,我们负样本的数量设置为5加快培训过程。此外,我们组和所有的数据集。以下,我们使用“CAHNE-a”来验证我们的方法的有效性与注意力机制,和“CAHNE上下文(w / o)”表示CAHNE没有结合上下文嵌入。

5.4。网络重建

重构网络和保留原有的网络结构是网络嵌入方法的基本目标。肯定,我们训练一个NE方法得到的向量表示节点和等级两两节点的内积的相似之处。因为较大的相似性意味着现有两两节点之间边的概率更高,排在前面的两两节点是用来重建网络效率。precision@k [33)作为评价指标,为制定在哪里k评估两两节点的数量和吗ξ是一个二进制变量。表示我th重建两个节点是正确的;否则,它是错误的。

我们使用一个真实的社交网络BlogCatalog和通信网络Email-Enron作为代表。结果precision@k如图4,我们做以下的观察:(我)图4表明我们的方法CAHNE precision@k几乎优于其他方法的提高k,验证CAHNE可以完全保护网络结构。(2)因为没有在BlogCatalog文本信息,图4(一)可以清楚地显示,使用节点重要性权重边缘是有效的。(3)图4 (b)显示我们的方法对Email-Enron有类似的性能。我们可以注意到方法整合文本信息明显优于其他方法,和CAHNE-a可以有一个相对较高的位置。

(一)

(b)

从上面观察,我们认为,我们的方法CAHNE及其扩张CAHNE-a实现效率的一个重要进步网络重建的任务。

5.5。链接预测

链接预测,我们使用AUC [34)来评估性能,这意味着在随机边缘节点的概率高于在随意不存在优势。在这个任务中,如表所示2- - - - - -4,我们随机隐藏一定百分比的边缘,分别从85%到5% HEP-TH,科拉,网站和使用左图火车。我们使用逻辑回归方法来预测一个给定的概率对节点有优势。


%训练边	15%	25%	35%	45%	55%	65%	75%	85%	95%

DeepWalk	0.658	0.757	0.819	0.864	0.891	0.898	0.897	0.919	0.912
行	0.500	0.594	0.717	0.755	0.788	0.806	0.846	0.839	0.923
Node2vec	0.663	0.776	0.845	0.866	0.884	0.899	0.906	0.929	0.915
GraRep	0.628	0.735	0.776	0.841	0.853	0.872	0.885	0.896	0.914
天真的组合	0.766	0.782	0.788	0.802	0.827	0.856	0.883	0.912	0.928
TADW	0.806	0.818	0.857	0.893	0.902	0.918	0.924	0.936	0.948
伤心	0.778	0.807	0.839	0.862	0.899	0.923	0.928	0.938	0.939
ASNE	0.783	0.802	0.833	0.869	0.893	0.905	0.918	0.926	0.938
CAHNE (w / o上下文)	0.730	0.796	0.854	0.894	0.893	0.913	0.916	0.921	0.923
CAHNE	0.786	0.818	0.860	0.896	0.902	0.928	0.935	0.937	0.954
CAHNE-a	0.858	0.854	0.869	0.898	0.910	0.929	0.941	0.945	0.977


%训练边	15%	25%	35%	45%	55%	65%	75%	85%	95%

DeepWalk	0.614	0.708	0.777	0.807	0.853	0.858	0.871	0.877	0.898
行	0.608	0.743	0.807	0.827	0.853	0.865	0.870	0.885	0.894
Node2vec	0.654	0.722	0.768	0.812	0.838	0.861	0.871	0.878	0.908
GraRep	0.589	0.732	0.786	0.826	0.852	0.874	0.897	0.898	0.914
天真的组合	0.668	0.772	0.801	0.826	0.852	0.866	0.904	0.921	0.942
TADW	0.803	0.824	0.834	0.862	0.887	0.888	0.903	0.918	0.945
伤心	0.779	0.818	0.822	0.859	0.879	0.881	0.892	0.913	0.916
ASNE	0.718	0.742	0.809	0.832	0.849	0.870	0.902	0.921	0.933
CAHNE (w / o上下文)	0.654	0.747	0.803	0.843	0.877	0.885	0.901	0.909	0.915
CAHNE	0.793	0.805	0.828	0.863	0.892	0.898	0.908	0.925	0.954
CAHNE-a	0.805	0.830	0.837	0.872	0.892	0.907	0.915	0.926	0.963


%训练边	15%	25%	35%	45%	55%	65%	75%	85%	95%

DeepWalk	0.469	0.472	0.497	0.507	0.533	0.537	0.556	0.574	0.587
行	0.521	0.569	0.618	0.624	0.655	0.636	0.646	0.676	0.698
Node2vec	0.488	0.482	0.507	0.505	0.552	0.546	0.558	0.582	0.590
GraRep	0.583	0.619	0.642	0.659	0.654	0.662	0.663	0.668	0.663
天真的组合	0.524	0.553	0.579	0.618	0.653	0.672	0.689	0.705	0.703
TADW	0.558	0.576	0.593	0.625	0.655	0.697	0.696	0.723	0.729
伤心	0.551	0.549	0.607	0.622	0.660	0.666	0.668	0.692	0.711
ASNE	0.586	0.563	0.608	0.633	0.661	0.682	0.699	0.700	0.728
CAHNE (w / o上下文)	0.595	0.600	0.603	0.604	0.612	0.618	0.639	0.657	0.679
CAHNE	0.623	0.693	0.706	0.709	0.707	0.711	0.713	0.722	0.731
CAHNE-a	0.631	0.707	0.721	0.724	0.723	0.727	0.736	0.748	0.759

从这些表,一些观察可以列出:(我)结果表明,训练边缘越少,忽略节点越多,性能越低的方法。知乎上的结果不如在其他数据集可能是因为现实世界的社交网络往往伴随着更多的复杂的信息结构和属性相比,引文网络。然而,我们的模型CAHNE-a总是达到最好的性能相比,所有其他基线在所有不同的数据集。尤其是当训练边的比例达到95%,科拉HEP-TH, CAHNE-a的AUC值高于95。(2)CAHNE上下文(w / o)执行比其他结构只方法(DeepWalk、线、Node2vec GraRep)。它表明合并节点重要性是有效的,当学习网络表示为新链接形成会导致更好的预测能力。(3)TADW,烦躁,ASNE CAHNE执行比所有其他结构的方法。验证我们的假设不能忽略文本信息异构网络文本。然而,CAHNE不能总是比TADW获得更好的性能,如表所示的15%215%,表3。我们注意到这种现象发生只有当训练比例低于35%,我们认为是由于中枢神经系统不能包含大多数锚节点的上下文节点当训练比例太低。同样,如果中枢神经系统太不完整,它将失去很多信息从上下文。表5显示了CNSs当提取不同比率的平均长度的训练集的边缘三个数据集。的完整性CNSs会影响CAHNE的有效性。


%训练边	15%	35%	55%	75%	95%

HEP-TH	0.8	2.2	5。7	6.9	7.2
科拉	2.6	4.3	7.9	15.2	17.7
乎	2.3	4.1	6.6	9.7	10.3

因此,表中的结果可以作为证据证明CAHNE-a有一个稳定的和最佳的性能在所有训练数据集和不同的比率。它演示了CAHNE的灵活性和鲁棒性,注意机制是重要的学习表现现实世界的网络。

5.6。节点的分类

对于这个任务,我们选择BlogCatalog,科拉和维基百科作为训练数据集,每个节点分配一个标签。给定的节点映射进行了不同方法节点特性,我们训练逻辑回归分类器预测节点标签。我们使用Macro-F1和小类测量来评估性能。我们不同训练集的大小从50%提高到90%,剩下的节点测试集。我们重复10次每个分类实验和报告方面的平均表现Macro-F1和小类分数。结果在BlogCatalog、科拉和维基百科和比较,如图所示5。由于BlogCatalog没有文本信息,我们只考虑CAHNE上下文(w / o)数据集。

(一)

(b)

(c)

从结果,我们得到以下的观察:(我)BlogCatalog的表现比其他的数据集,因为社交网络的复杂性,和BlogCatalog拥有最多的节点可以减少分类任务的能力,但是我们的模型CAHNE上下文(w / o)仍然取得最满意的结果。(2)只有结构方法,CAHNE上下文(w / o)有最好的效果在所有的数据集。它证明了网络表征合并节点重要性可以更好地推广到分类的任务。(3)CAHNE上下文(w / o)执行比CAHNE和CAHNE-a维基百科上以Macro-F1来衡量,这表示这个数据集是文本信息不敏感。我们认为这是因为不同条目之间的文本描述相差很大。

5.7。可视化

另一种直观的方式调查网络嵌入方法可视化的品质,在这个实验中,我们减少每个表示向量的维数为2。有很多方法来可视化高维向量,例如,PCA (35],Isomap [9],t-SNE [36]。在本文中,我们采用t-SNE实现降维,因为t-SNE可以保存数据的局部和全局结构。因此,我们使用基线和方法CAHNE-a 20-NewsGroup网络的学习表现和输入t-SNE。从20-NewsGroup,因为所有类别的图是完整的连接,简化计算过程,提高可视化性能,我们过滤三个类别的新闻和他们的文档,comp.graphics rec.sport。棒球,talk.politics。牙龈,作为我们的训练集。

结果与基线和可视化CAHNE-a见图6,我们有以下的观察:(我)DeepWalk和GraRep,分不同类别的混乱和互相混合。因为网络是加权,DeepWalk不能处理加权网络随机行走时,导致混乱。GraRep集成权重的边表示学习通过使用E-SGNS,这是无力捕获节点之间的非线性关系。(2)行,ASNE、烦躁和天真的组合,我们可以直观地发现集群,但每个类别的边界是不清楚。(3)Node2vec,我们可以区分三种类型显式多线,因为每个集群之间的一个更大的空间。然而,这些集群不是可分割的缺点。(iv)TADW,集群的形状不固定,和蓝色的点不是聚在一起。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

显然,我们的模型的可视化CAHNE-a有一个明确的边界,和集群的形状更经常比其它基线报告。

6。结论

在本文中,我们提出一个新颖的方法来学习节点表示为异构网络,即CAHNE。通过制定每个节点上下文节点序列,在真实的网络和重新定义了传统网络整合文本信息,CAHNE达到节点嵌入和捕获的学习全面的语义信息,同时保持网络结构之间的兼容性和文本信息。未加权的网络,我们分析节点之间的强度关系,提出节点重要性量化的定义节点之间的权重。我们集成节点重要性的学习过程基于结构嵌入探索网络中潜在的结构信息。此外,通过插入一个注意力机制影响的上下文节点,CAHNE获得能力决定上下文节点的影响程度不同的锚节点。大量实验证明CAHNE的竞争力与基线和演示的灵活性,CAHNE的稳定性和鲁棒性。未来的工作包括将更多类型的异构信息节点和边的属性和优化培训流程更大的网络。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家社会科学基金资助下17 cg209和中国国家自然科学基金会拨款61872166。工作的部分也支持由江苏省自然科学基金资助下BK20180600和基础研究基金为中央大学授予JUSRP11852之下。

引用

l . Lu和t .周”,在复杂网络链路预测:一项调查,”自然史答:统计力学及其应用,卷390,不。6,1150 - 1170年,2011页。视图:出版商的网站|谷歌学术搜索
z . c . Li Li张x, y . Yang s . Wang和j .周“Semi-supervised网络嵌入”学报》国际会议数据库系统高级应用程序施普林格,页131 - 147年,苏州,中国,2017年3月。视图:谷歌学术搜索
江y, F.-L。钟,s . Wang z邓,j . Wang和p .钱,“协作从多个加权模糊聚类视图,”IEEE控制论,45卷,不。4、688 - 701年,2015页。视图:出版商的网站|谷歌学术搜索
b . Perozzi r . Al-Rfou, s . Skiena“Deepwalk:在线学习的社会表示,”20 ACM SIGKDD国际会议的程序知识发现和数据挖掘ACM,页701 - 710年,纽约,纽约,美国,2014年8月。视图:谷歌学术搜索
m . m . j . Tang瞿,m . Wang, j .燕问:梅,“行:大规模信息网络嵌入,”《24日国际会议在万维网上,页1067 - 1077,国际万维网会议指导委员会,佛罗伦萨,意大利,2015年5月。视图:谷歌学术搜索
a·格罗弗·j . Leskovec”Node2vec:可伸缩的特性为网络学习,”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘ACM,页855 - 864年,旧金山,美国,2016年8月。视图:谷歌学术搜索
d . c, s . Wang杨et al .,“PPNE:产权保护网络嵌入”进行国际会议数据库系统高级应用程序施普林格,页163 - 179年,苏州,中国,2017年3月。视图:谷歌学术搜索
c, h·刘,刘z和m .太阳“甘蔗:上下文感知网络嵌入关系建模,”学报55计算语言学协会的年度会议,1卷,第1731 - 1722页,2017年8月,加拿大,温哥华。视图:谷歌学术搜索
Balasubramanian m·e·l·施瓦兹,“isomap算法和拓扑稳定。”科学,卷295,不。5552年,p . 7, 2002。视图:出版商的网站|谷歌学术搜索
t·f·考克斯和m·a·a·考克斯多维标度查普曼和大厅/ CRC, 2000年美国佛罗里达州博卡拉顿的。
m·贝尔金和p .他”,拉普拉斯算子eigenmaps和光谱技术嵌入和集群”诉讼进展的神经信息处理系统加拿大温哥华,页585 - 591,2002年12月。视图:谷歌学术搜索
y . Goldberg和o . Levy Word2vec解释说:推导mikolov et al。”年代negative-sampling word-embedding方法,”2014年,http://arxiv.org/abs/1402.3722。视图:谷歌学术搜索
T.-y。傅,观测。李,z Lei“Hin2vec:探索meta-paths表示的异构信息网络学习,”学报2017 ACM会议信息和知识管理新加坡,页1797 - 1806年,2017年11月。视图:谷歌学术搜索
>,h·杨,j·布鲁里溃疡et al .,“由于网络表示通过深层神经网络学习,”人工智能国际联合会议卷。18日,页。3155 - 3161年斯德哥尔摩,瑞典,2018年7月。视图:谷歌学术搜索
美国Ganguly和诉Pudi Paper2vec:结合图和文本信息科学论文表示,”《欧洲会议信息检索施普林格,页383 - 395年,阿伯丁,苏格兰,2017年4月。视图:谷歌学术搜索
f·b·维埃加斯和j . Donath”社会网络可视化:我们能超越图”诉讼的CSCW车间在社交网络上,4卷,页6 - 10,芝加哥,2004年11月,美国。视图:谷歌学术搜索
l .页面,美国布林、r . Motwani和t . Winograd“pagerank引文排序:将以网络,”斯坦福InfoLab斯坦福,CA,美国,1999年,技术报告。视图:谷歌学术搜索
c·杨,m .太阳,z . Liu和c .你“快速网络嵌入增强通过高阶距离近似,”学报》第26届国际联合会议上人工智能澳大利亚墨尔本,页3894 - 3900,,2017年8月。视图:谷歌学术搜索
j·m·卢卡斯和m . s . Saccucci”指数加权移动平均控制方案:属性和增强,”技术计量学,32卷,不。1、1 - 12,1990页。视图:出版商的网站|谷歌学术搜索
y . Kim“卷积神经网络对句子分类,”2014年,http://arxiv.org/abs/1408.5882。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”诉讼进展的神经信息处理系统太浩湖,页1097 - 1105年,NV,美国,2012年12月。视图:谷歌学术搜索
d . p . Mandic和j·a·钱伯斯递归神经网络预测:学习算法、体系结构和稳定性新泽西州霍博肯市约翰·威利& Sons,美国,2001年。
m . Sundermeyer r . Schluter h·奈伊,“LSTM神经网络语言建模”十三学报》国际言语交际协会年会上2012年9月,波特兰,俄勒冈州,美国。视图:谷歌学术搜索
j .钟c . Gulcehre k .赵,y Bengio,“封闭的复发性神经网络的经验评估序列建模,”2014年,http://arxiv.org/abs/1412.3555。视图:谷歌学术搜索
答:Vaswani: Shazeer: Parmar et al .,“注意你所需要的,”诉讼进展的神经信息处理系统长滩,页5998 - 6008年,CA,美国,2017年12月。视图:谷歌学术搜索
t . Mikolov Sutskever, k . Chen g·s·柯拉和j .院长”的分布式表示单词和短语及其组合性”诉讼进展的神经信息处理系统太浩湖,页3111 - 3119年,NV,美国,2013年12月。视图:谷歌学术搜索
d . p . Kingma和j .英航。亚当:"随机优化方法,”2014年,http://arxiv.org/abs/1412.6980。视图:谷歌学术搜索
x太阳,j .郭x叮,t·刘”的总体框架content-enhanced学习网络表示,“2016年,http://arxiv.org/abs/1610.02906。视图:谷歌学术搜索
d . c .杨z Liu赵,m .太阳和大肠,“学习与富文本信息,网络表示”《第二十四国际联合会议上人工智能,页2111 - 2117,布宜诺斯艾利斯,阿根廷,2015年7月。视图:谷歌学术搜索
曹,w . Lu,徐问:“GraRep:学习图形表示与全球结构信息,”《24日ACM国际会议信息和知识管理,页891 - 900,墨尔本,澳大利亚,2015年10月。视图:谷歌学术搜索
杨和杨,“加强网络嵌入与文本信息,”24日国际会议的程序模式识别(ICPR)IEEE,页326 - 331年,北京,中国,2018年8月。视图:谷歌学术搜索
l .廖x, h·张,t·s·艾。蔡”,认为社交网络嵌入,“IEEE工程知识和数据,30卷,不。12日,第2270 - 2257页,2018年。视图:出版商的网站|谷歌学术搜索
崔p·d . Wang, w·朱,“结构深层网络嵌入”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘ACM,页1225 - 1234年,旧金山,美国,2016年8月。视图:谷歌学术搜索
j . m . Lobo a Jimenez-Valverde, r .真正“AUC:一个误导性的预测分布模型的性能,”全球生态和生物地理学,17卷,不。2、145 - 151年,2008页。视图:出版商的网站|谷歌学术搜索
美国荒原,k . Esbensen和p . Geladi“主成分分析”,化学计量学和智能实验室系统,卷2,不。1 - 3,37-52,1987页。视图:出版商的网站|谷歌学术搜索
g l . v . d。Maaten和辛顿,“使用t-SNE可视化数据。”机器学习研究杂志》上9卷,第2605 - 2579页,2008年。视图:谷歌学术搜索