文摘

知识图表(公斤)是使用最广泛的技术之一的知识组织和被广泛使用在许多有关人工智能的应用领域,例如,网页搜索和推荐。实体定位提供了一个有用的工具如何集成多语种自动公斤。然而,大多数现有的研究评价忽视实体属性除了实体关系的丰富的信息。本文着手研究跨语言实体定位,提出了迭代cotraining方法(应该)训练一对独立的模型。这两个模型可以提取多公斤的属性和特性的关系,分别。在每个迭代中,另两个模型预测一组新的潜在的实体对保持一致。除此之外,该方法进一步过滤通过动态阈值来提高两个模型的监督。三真实数据集的实验结果证明了该方法的有效性和优越性。应该注意模型提高了性能与至少一个绝对增加3.9 所有实验数据集。在可用的代码https://github.com/ChenBaiyang/CAREA

1。介绍

知识图表(公斤)拥有的机器可读表示事实性知识正在成为许多应用,如网络搜索的基础(Google和Bing),建议(亚马逊和eBay),和社交网络(Facebook和Linkedin)。多语种公斤(例如,DBpedia [1],YAGO [2],ConceptNet [3)从各种数据源和构造在不同的语言包含了大量的互补的事实。语言的弥合差距和用户体验的改善下游跨语言应用程序受益很多从实体相当于多语种公斤。因此,将实体的多语种公斤最近吸引了越来越多的研究关注和被称为跨语言实体对齐的问题。

大多数现有的实体对齐方法完全依赖图结构,而丰富的属性信息在公斤还有待开发。一个实体的属性由不同的语言常常分享巨大的语义信息,导致一个潜在的有效的实体连接到多语言公斤。然而,重要的是捕捉和利用这些信息对于跨语言实体对齐。首先,属性信息可能非常不同的在不同的公斤。差异的最可能的原因是存在不同的属性问题在开发应用程序的过程中。第二,语义属性不能直接建模协会自关键实体表达语言是不同的。此外,同时使用多语种公斤之间的关系和属性是一个短期的挑战在知识领域的图形。

Cotraining是一个流行的机器学习方法,在两个互补模型利用大量的未标记示例引导对方迭代的性能(4,5]。Cotraining可以方便地应用于多语言任务由于数据在这些任务(即两个或两个以上的观点。功能的一个子集)。也适用于使用cotraining实体对齐的任务在多语种公斤,实体属性和图形结构公斤的信息自然形成两个独立的观点。cotraining框架中,每个模型训练的两种观点,假设观点是足以使一个预测。在每个迭代中,cotraining算法选择高信任度样本在每个模型来形成新的auto-labeled样本数据,然后使用两个带安全标签的数据时和其他额外的auto-labeled数据更新模型。

介绍了一种基于cotraining应该注意学习知识的嵌入的从两个独立的观点(关系和属性)在多语种公斤。应该反复训练双组分模型,被称为属性模型 和基于结构的模型 ,分别。 提取属性特征根据属性发生频率和值的数据类型,也雇佣了一个多层感知器(MLP)两公斤转换成一个统一的向量空间。另一方面, 采用图的注意机制捕捉公斤多重关系的特征。在每个迭代cotraining过程,交替两个模型预测一组新的潜在对齐实体对加强跨语言学习的监督。这样的合作逐步提高每个模型的性能预测。改善实体一致预测的准确性,我们进一步评估预测实体通过一个动态阈值对。三真实数据集的实验结果验证了该方法的有效性和优越性应该注意。

本文的其余部分组织如下。部分2总结了相关的工作。部分3正式定义研究问题。部分4介绍了该方法。部分5给出了实验结果。最后,我们总结这部分工作6

2.1。公斤嵌入

Embedding-based实体分析的方法证明了它们的有效性在建模公斤的语义信息,旨在项目实体为低维嵌入空间。公斤嵌入模型TransE [6]解释关系作为翻译从一个实体到另一个。这样公斤嵌入模型使用翻译显示其可行性,后来被一些后续研究改进,如TransH [7],TransR [8],TransD [9]。

TransH和TransR更新多重映射关系的建模TransE从1到很多。TransD使用一个动态矩阵传输实体和关系,而不是一个固定的。R-GCN [10)是一个类似的模型,其中包括关系类型信息通过设置每个关系的变换矩阵。一些作者认为避免使用公斤嵌入的翻译方法,包括(11- - - - - -15]。最完美的例子所示的研究Nathani et al。15],它延长了图的注意机制(手枪)来获取实体和关系特征的多次反射的邻居一个给定的实体。下面的一些研究利用公斤来提高嵌入性能的额外信息。例如,扭转PTransE(三元组和关系路径相结合16]。介绍了分类属性,如性别和爱好在KR-EAR [17]。此外,一些作品探索类型,公斤嵌入局部结构和全球模式(10,18- - - - - -20.]。

2.2。实体对齐

实体自动对齐旨在确定一个实体在不同的公斤是指相同的实体在现实中。传统的实体对齐方法利用公斤的各种特性,如猫头鹰的语义属性(21),兼容的邻居和实体的属性值22),和结构的关系23]。

许多最近的研究使用嵌入的方法处理公斤。MTransE对齐的问题24]部署三个机制,基于距离轴对齐,翻译向量,线性变换学习多语种公斤嵌入。一种改进的模型IPTransE [25)结合TransE的优点和PTransE嵌入一公斤。然后,迭代和参数共享步骤添加在IPTransE各种公斤嵌入。BootEA [26)提高在开玩笑27)通过引导策略,它提供了一个迭代的数据标记方法。因此,潜在的实体的构造训练数据对齐可以用来学习实体alignment-oriented嵌入。MuGNN [28)学习alignment-oriented公斤嵌入由多通道机制,通过公斤完成修剪和实体编码公斤。NAEA [29日)合并社区subgraph-level实体和信息设计跨语言公斤neighborhood-aware关注表示机制。RDGCN [30.)提出了一种relation-aware对偶图卷积网络利用关系通过细心公斤及其双之间的相互作用关系。MRAEA [31日)学习跨语言实体嵌入通过参加实体的邻居和连接的元语义关系。

一些文学跨语言实体比对了两公斤的角色结构和属性。开玩笑(27)嵌入不同公斤到统一的隐藏空间的结构,并使用属性的相关性公斤实现实体嵌入的细化。然而,属性的组件可以显著降低开玩笑的结构组件的性能当属性是异构或困惑的属性之间的联系。图卷积网络(gcn) [32在这项研究中也采用33)学习嵌入的结构和属性信息的实体跨语言对齐。

3所示。问题定义

公斤,事实主要是存储在两种类型的三元组 实体、属性值 实体,关系,实体 ,分别称为三重属性和关系三倍。这篇论文表示一公斤 ,在哪里 是实体的集合, 是一组关系, 公斤代表属性的集合。每个属性的实体由一组键值对。

定义1。跨语言实体对齐:让 在不同的语言中是两个任意公斤。引用相同的实体对真实世界的对象被称为prealigned实体,表示 跨语言实体对齐的任务是寻找隐藏的实体对保持一致 基于prealigned双L。

4所示。建议的方法

4.1。概述

提出的模型应该注意的细节在本节基于cotraining算法。它的框架如图1

我们建立两个独立的模型:属性模型 和性 cotraining算法的优点是,它强化了两种模型的性能在迭代的过程。两种模型与prealigned实体对重新训练 和预测潜在的新的双对齐的实体在每个迭代。随后,动态阈值被用来进一步过滤预期的结果。剩余的实体合并的方法对 为下一次迭代直至收敛。

4.2。属性模型

在我们的场景中,一个实体的属性由一个键-值对的数量,例如, 名称:迈克尔 ,在“名称”属性键,“迈克尔”属性的值。为简单起见,也称为一个属性键-值对。

4.2.1。准备属性扩展

属性表示的一个关键问题是,一些实际的属性可能不是观测到的,因为他们没有明确建立或被爬虫。因此,我们首先扩展属性使用prealigned实体对两公斤。通常,给定一个对齐的实体,如果一个实体有一个属性在一公斤,另一公斤的相应的实体也有这个属性。基于这样的观察,我们可以添加一个键-值对一个实体在公斤如果其对应另一公斤这个键-值对。形式上,一个实体的属性 是用 ,在哪里 是一个键-值对。对于每个实体 在1公斤,它的属性 可以扩展到 通过

同样,其对应的 2公斤可以扩展

4.2.2。属性特征表示

在多语种公斤,属性在不同的语言中,不能直接比较。然而,我们观察显示如下:(1)发生频率的等效双属性,即属性键,多语种公斤大约相似。例如,一个实体在不同的公斤通常代表一个人有相同的属性,如名称、出生日期、国籍。尽管描述这些属性是多语言的文本,它们的频率在不同的公斤类似于人实体所有公斤实体的比率。(2)一对等价属性的值在不同的公斤有相同的数据类型。例如,英语单词“迈克尔”和中文“梅客”字符串,和“3.14”和“3.14159”都是漂浮的数字。

因此,这项研究代表了一个实体的属性的属性键频率和属性值类型。实体属性的描述功能可以通过一个具体的例子简要说明如图2

首先,每公斤三元组的属性合并为一组键值对,其中键和值被用来表示的频率和类型特征,分别。的频率 的一个属性 是一个浮动的数字从0到1,计算如下: 在哪里 发生数量的属性吗 公斤, 实体的总数在公斤。在这个例子中,实体的频率“迈克尔”年代国籍和生日是0.2162和0.3351,分别。

第二,我们把频率范围(即。,the interval of [0, 1]) into a sequence of small real intervals. Its frequency interval number can represent an attribute. In this paper, a proportional sequence is applied to split the frequency range. The interval for an attribute 可以计算 在哪里 是比例常数,我们解决吗 在这篇文章中。 是至少一个属性的出现频率在一公斤。例如,“民族”和“郭霁”图2都是在间隔2中,虽然他们的频率是不同的。参数设置的时间间隔更健壮的小变化引起的噪声,特别是当不同频率属性合并成一个区间。

一个属性的值类型是它的数据类型。在以前的工作(27),本研究区分四种数据类型,也就是说,整数,双,DateTime,字符串。我们编码值类型由一个炎热的向量维度的数量相同的数据类型。例如,属性值的代码“美国”和“1958-08-29” ,分别。

解释了在上面的两个步骤,很明显,属性特征表示是集成的主要理想的表示频率和一个属性的类型 我们把两个表示成一个稀疏矩阵,如图2。矩阵中的每一行表示的值类型,行索引是频率区间数。最重要的是,我们重塑这个矩阵行特征向量 通过这种方式,属性 为一个实体 可以由每个属性向量的总和 作为

减少噪音,我们使用一个指标函数 将一个实体的属性向量转换成二进制表示如下:

二进制表示是平均的实体的邻居 在哪里 表示的相邻实体 然后,三层延时两公斤的属性向量转换成一个统一的向量空间,使等效实体在不同的公斤接近对方。延时输出被认为是一个实体的嵌入,表示为 我们使用ReLU作为一个激活函数。批量标准化和辍学被添加到提高性能。介绍了目标函数的细节部分4.4

4.3。特性模型

在公斤,有各种类型的关系描述实体关联的角色至关重要调整实体在公斤。许多以前作品代表的关系转换连接实体的关系。然而,这些方法将实体(太近的关系31日]。因此,它将很难捕获多个关系的特性。因此,本文分别代表了实体和关系。他们的组合作为输入图形的关注网络(手枪)[34]。结果,两公斤是嵌入到一个统一的向量空间,这样相当于实体在不同的公斤接近对方。本研究将无向的关系;也就是说, 相当于

的想法都是计算每个实体隐藏的表征在两公斤通过关注他们的实体的邻居。都遵循一个self-attention策略学习过程。首先,嵌入 每个实体的 及其连接关系 是随机初始化。本研究设置实体和关系的嵌入维数相同的 第二,我们平均的实体 与邻国。然后,实体嵌入和实体连接的平均嵌入连接一样得到网络的输入 在哪里 代表 的相邻实体, 代表一组外的关系 ,和符号 代表了连接操作。注意系数可以计算 在哪里 表明加权邻近的重要性 是共享权向量的关注。

不同于原来的手枪,没有权重矩阵 输入特性的方程(8)。在这项研究中,所有相邻实体规范化使用softmax LeakyReLU非线性和负输入函数的斜率 这种规范化使得不同节点之间的系数比较方便,可以用

非线性ReLU应用于组合参与的邻居。每个实体的操作产量输出特性:

培训过程的稳定性是由采用多线程机制。具体地说, 独立的执行的变换方程(注意10)。然后,平均特性产生以下输出: 在哪里 是头的指标吗 代表了系数的注意 - - - - - -头。这项研究还扩展了注意力机制多次反射邻近水平信息通过添加更多的层,从而创造一个更的global-aware表示公斤。让 的输出特性 从六月十(输入特性) - - - - - -层。我们连接在一起以获得最终的输出特性 的实体 作为

4.4。目标函数

就像在前一节中提到的,这两个模型都提供实体两公斤的嵌入不同的观点。本节使用相同的目标函数优化。在以前的工作(33),曼哈顿距离采用相似性度量。的相似性 在联合可以计算向量空间

所有类似的实体 应该使用相同的计算方法来找到实体吗 的同行。最近的一个选择 等效。最重要的是,我们采用以下margin-based损失函数,因为它确保了正负样本之间的平衡,确保积极的得分越低;也就是说, 在哪里 代表 是一个hyperparameter保证金。 是负面的 ,分别。在这部作品中,实体 是随机选为负。亚当(35)采用最小化损失函数。

4.5。Cotraining算法

在这项研究中,属性的cotraining过程模型 和性 进行迭代。两个组件交替轮流来训练和预测新的潜在对齐实体对在每一次迭代,直到不再获得新的配对的两个部分。这样的预测是基于余弦相似度的向量空间的实体。一双新的来自一公斤建议通过搜索最近邻(NN)在另一公斤。值得注意的是,在大多数情况下,得到是不对称的。例如,尽管 是最相似的实体 ,可能会有另一个实体G(2)接近 因此,新预测应该双向实体对最近的邻居。

4.5.1。动态相似性阈值

我们进一步评估预测潜在的一致的实体对通过动态调整阈值在每个迭代中。也就是说,只有实体对的余弦相似性在一定阈值 ,填充到对齐的两组 作为更高的相似性阈值意味着更高的精度,我们设定更高的阈值对早期的迭代。然而,它也可能限制模型的能力提出一个足够数量的实体对保持一致。因此,低阈值为以后的迭代。阈值函数的设计选择。在本文中,我们设计一个线性阈值函数 在哪里 是初始阈值, 是迭代次数, 是每次迭代的系数控制变化的速度。为了控制每个组件模型的精度,我们为不同的模型设置不同的阈值参数实验。应该是在算法的详细cotraining过程1

输入:两公斤是一致的 ,一组 prealigned实体对和参数 阈值函数。
输出:的参数
(1) 初始迭代数 ;
(2) 重复
(3) 重新启动 ;
(4) 火车 基于 ;
(5) ;
(6)
(7) ;
(8)
(9) 火车 基于 ;
(10) ;
(11) ;
(12) ;
(13)
(14)
(15) 直到 ;

5。实验

5.1。数据集

本节适用于一个受欢迎的公共数据集DBP-15K [27为实体定位评估方法应该注意的性能。从DBpedia DBP-15 K包含三个跨语言子集建立: , , 每个三个子集包含两公斤不同的语言,例如, 法语和英语。他们的统计数据显示在表中1

5.2。实验设置

在以前的工作(29日),我们采用两个评价指标:(1) :正确对齐的实体的比例排名在前 (2)意思是倒数排名(MRR):平均排名倒数的结果。更高的 和MRR分数表明更好的定位性能。这两个指标可以计算如下: 在哪里 的位置测试实体对返回的列表中, 测试集的实体对, 在我们的实验中采用。

这项研究与其它基线相比同样的评价指标和数据集的分割方法。实验随机分裂prealigned实体对训练数据的30%,而其余70%的测试。的平均分数排列方向(例如,ZH型 在与在 ZH型)是由考虑最近的关系的不对称公斤。每个实验实例运行独立的5倍。他们的平均表现被认为是最终结果。相同的设置实验模型应用,除非另有说明。隐藏的维度的属性、实体和关系都是相同的: 保证金参数 ,辍学率和亚当的学习速率是3,0.3,和0.005,分别。性模型 ,我们解决的关注 和手枪层的深度 cotraining的过程中,我们应该注意第三迭代的结果作为其最终性能。另一方面,阈值系数模型组件都是一样的 初始阈值 分别根据经验设置为0.95和0.9。

5.3。基线

证明我们的方法的优势,我们将它与以下基准:(我)MtransE [24]:MtransE多语种公斤嵌入,是一种基于结构模型来提供一个简单的和自动化解决方案。模型描述语关系和部署三个不同的技术代表跨语言转换,即轴校准,翻译向量,线性变换。(2)开玩笑(27):开玩笑是一种attribute-preserving嵌入模型,其中包括为实体和属性的关系嵌入的对齐。(3)GCN-Align [33]:GCN-Align雇佣gcn学习嵌入的结构和属性信息的实体跨语言公斤对齐。(iv)BootEA [26]:BootEA采用引导策略,迭代标签潜在实体比对训练数据和利用它学习alignment-oriented嵌入。(v)MuGNN [28]:MuGNN学习alignment-oriented公斤嵌入的强劲编码两公斤通过公斤修剪完成和实体。(vi)NAEA [29日]:NAEA包含社区subgraph-level实体和信息设计多语种公斤neighborhood-aware注意力表示机制。

高于基线的表演来自报纸的报道结果。我们也评估组件模型的有效性的方法,包括以下:(我)属性模型:模型,表示CAREA-a,忽略了结构嵌入组件属性嵌入的影响进行评估。换句话说,属性功能只用于实体没有cotraining策略一致。(2)基于结构模型:我们也估计网络结构嵌入的组件的性能,而忽略了属性特征除了实体结构的调整。模型和CAREA-s同样表示。

5.4。实验结果
5.4.1之前。整体性能

下所有的比较方法可以治疗两组根据功能类别。一是纯粹基于公斤结构,包括MTransE BootEA, MuGNN NAEA, CAREA-s。其他利用这两个实体属性和关系实体定位,包括嘲弄,GCN-Align,应该注意。表2总结了整体方法相比三个数据集的结果。

在基于结构的组织,我们的模型CAREA-s执行比MTransE至少27.3%的 在三个数据集,这也导致了分数大于MuGNN至少8.4%。比较结果证明我们的基于结构的方法的有效性。在其他组的进一步实验表明,应该优于嘲弄和GCN-Align至少28.6%的所有数据集 结果表明我们的方法的优势利用实体属性和公斤结构实体对齐。最后,应该注意排名最好的在所有的竞争方法在所有的数据集。例如,应该更好的性能比NAEA和BootEA至少在3.9%和6.0% ,分别。

另一个提议组件模型CAREA-a排除上面的比较,因为它是唯一一个完全依赖属性信息一致的实体。它实现了较低的分数。例如,当CAREA-a刺激了 ,据报道低分数的22.1%和51.8%。这主要是因为在多语言异质性公斤或公斤可能不是显式地构造或被爬虫。尽管CAREA-a不执行以及基于结构的方法,它为实体提供了另一个视图对齐和改进我们的方法的性能在公斤对齐任务。

5.4.2。Cotraining算法的影响

这部分证实了方法的成就,应该注意cotraining展示每个迭代的过程。结果如图3。趋势显示出类似的逐渐增加的所有评价指标,这是所有三个数据集上验证我们的双组分模型。迭代cotraining算法极大地提高了性能,至少有一个绝对增长10.5% 所有实验数据集。这两个属性 模型和结构模型 从每次迭代得到增强。3到4迭代后,组件模型的性能变得稳定。

5.4.3。参数敏感性分析

这部分调查参数敏感性提出了应该注意的三个主要参数:(1)prealigned实体的比例对,(2)特征维度 ,和(3)保证金参数 的目标函数。敏感数据的比例。我们应该注意培训的比例从10%降至50%与10%的步长。图4说明的变化 关于不同的比例。结果显示所有的数据集变得更好的比例提高后我们的预期。的数据量是一个重要因素,更多的培训数据可以提供更多的扩展信息覆盖跨语言公斤。图4显示,使用时应该注意表现令人鼓舞的是只有10%的实体作为训练数据保持一致。例如, 分别是56.2%和82.4%。因此,应该将能很好地适应注释受限的场景。敏感性特征维度 :5描述了模型的灵敏度性能在不同的特征维度。模型应该注意保持稳定的性能数据维度增加在所有的数据集。这证明是一个高维特征空间有助于保护实体信息,提高实体定位性能。一个更大的尺寸一定要消耗更多的计算资源。因此,我们选择 重效率与有效性。灵敏度的保证金 :通过设置不同的保证金参数产生的模型的性能 (从1到4)目标函数如图6。表演时变得稳定 最多2.5%的范围从所有的数据集。因此,应该可以保持稳定的时候 变化在一个合理的范围内。

6。结论和未来的工作

本研究的目的是探讨跨语言实体在公斤对齐的问题。本研究构建了基于cotraining应该学习从两个独立的实体嵌入视图的知识(关系和属性)。应该是创新构造成一个双组分模型 ,可以提取的属性和关系信息,分别。在每个迭代中,两种模型的交替轮流train-and-predict过程,逐渐提高了每个模型的性能。三种流行的数据集实验证实的有效性和优越性应该对齐任务的实体。模型建设从这项研究中获得的见解可能的援助复杂的多语言和跨域知识组织和分析。未来的工作寻求应该注意方法扩展到其他应用程序,如链接预测、信息提取和实体分类。

数据可用性

使用的数据来支持本研究的发现是公开的https://github.com/ChenBaiyang/CAREAhttps://github.com/nju-websoft/JAPE

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了四川省社会科学规划项目(没有。SC20TJ020),国家自然科学基金(号。61902324,11426179,61872298),四川省科技计划(号。2020 jdrc0067 2016 jy0244 2017 jq0059 2019 gfw131, 2020客户至上,和2020 gfw),研究生创新基金,西华大学(nos. ycjj2019021和ycjj2020023 20170410143123),成都科技基金项目局(没有。2017 - rk00 - 00026 zf),四川省教育科学研究基金委员会(zb0134 15号和17 za0360),网络安全重点实验室的基础四川高等教育机构(没有。sjzz2016 - 73),四川青年科技创新研究团队(没有。2021 x),西华大学的开放基金项目(没有。20170410143123)。他李与作者欣然承认他的讨论。