表示学习知识图的嵌入子空间

文摘

大部分的现有知识图嵌入模型是监督方法和主要依靠取得的标记的训练数据的质量和数量。获得高质量的三元组的成本高,面临的数据源是一个严重的问题的数据稀疏,这可能会导致训练不足的长尾的实体。然而,非结构化文本编码实体和关系可以在获得大量的知识。实体名称的词向量估计的未标记的原始文本使用自然语言模型编码的语法和语义属性的实体。然而由于这些特征向量估计通过无监督实体名称减少预测误差,他们对知识图可能不是最好的。我们提出一个两阶段的方法适应无监督实体名称嵌入知识图子空间,共同学习自适应矩阵和知识表示。Freebase实验表明,我们的方法可以减少对标签数据的依赖和优于标签时的基线数据相对较少。特别是,它适用于zero-shot场景。

1。介绍

有各种各样的知识图构造以极大的努力,比如毒品(1]和WordNet [2),这已经成为许多聪明的基础技术应用,如网络搜索和问答3]。然而,知识图的有效性和完整性不能总是得到保证。例如,毒品(1]目前包含实体超过8000万,成千上万的关系以及对这些实体获得数十亿美元的事实。然而,很明显,这些仍只有一小部分人类所有的知识。事实上,知识问答系统引擎基于图表的能力是有限的,如果不能推断并填写失踪的事实从获得知识。因此,知识推理方法预测新的事实只有基于现有知识图所需的知识。这是一个关键的赔偿从纯文本中提取的关系。

知识表示是知识推理的基础。例如,使用基于知识表示、计算或推断出语义实体之间的关系需要设计特定的图论算法。知识图形实体节点和关系表示为不同类型的边缘的三倍(头实体、关系、尾巴实体)4]。基于知识表示正面临许多挑战,例如,计算效率和数据稀疏。近年来,取得了很大的进步在学习知识表示方法基于嵌入技术(5]。嵌入学习是知识的实体和关系图表示为密度低维向量和实际价值将知识图嵌入到一个连续向量空间,同时保持知识的结构特征图(6]。通常,在这个低维稠密的真正价值向量空间,两个向量的距离越近,语义的相似度就越高。由于实体和关系的语义关系可以计算在低维空间中以高效的方式,可以大大解决数据稀疏的问题,知识提取的性能,融合和推理是大大提高了。

大多数现有的嵌入学习方法是监督方法和一般使用获得的结构化知识培训模型(7,8]。监督系统的成功很大程度上取决于获得训练数据的数量和质量;有时甚至比特定的学习算法的选择更重要。获得高质量结构化知识的成本高,获得的知识图数据稀疏的正面临一个严重的问题。长尾实体不能有效地训练。另一方面,非结构化文本数据涉及相关实体和关系可以很容易地获得大量的信息。实体名称的词向量表示可以通过大量的词汇同现模式的未标记的文本语料库。这个词从原始文本向量估计通过自然语言模型是密度低维向量包含语法和语义属性的单词(9]。因此,由于这些向量是通过最小化预测错误常见的无监督任务,他们对知识图可能不是最好的。

本文提出一种非监督的学习知识表示方法词向量是适应知识图与少量的标签数据子空间。我们的方法是以下背后的直觉。为一个特定的任务,只有部分潜在的方面被这个词向量将是有用的。因此,而不是直接与可用的标签数据更新这个词向量,我们估计这些向量的投影到一个低维子空间。这个简单的方法有两个关键的优势。一个是我们得到低维向量,适合复杂的知识表示学习任务。另一个原因是,我们可以学习新的向量所有实体,即使他们失踪的标签数据。

2.1。基于结构的知识嵌入

基于结构嵌入学习模型学习向量表示的实体和关系通过知识图的结构信息位于三元组。大多数现有的嵌入方法属于这一类。

大多数的这种方法设计的框架内关系学习从潜在的功能操作上潜在的实体和关系的表征,如模型基于集体矩阵分解(10,11)或者张量分解7,12,13]。很多方法都集中在提高表达能力和能源框架模型的一般性学习嵌入低维空间的实体(14- - - - - -16]。更善于表达这些模型是以牺牲大量增加模型的复杂性和较高的计算成本。

早期的嵌入模型相比,TransE [8更简单,更有效。TransE作为知识的关系图某些翻译向量。三倍(h,r,t),h代表一个实体,和r连接的关系h尾巴实体t。TransE使用向量的关系r头实体矢量之间的翻译h尾巴单位向量t。因此,TransE也称为翻译模型。该模型的基本思想是将关系r相关实体之间的翻译r。如果关系(h,r,t)建立了,h+r≈t在向量空间t应该是最接近向量的h+r。否则,h+r应该远离t。

后来知识嵌入学习模型大多是基于TransE扩展,比如TransH [17],TransR [18],TransD [19],TransA [20.]。PTransE [21)提出了一种基于多级的关系路径表示学习模型。TranSparse [22处理异质性和知识的不平衡与自适应稀疏矩阵图。最近提出的按工程(23)实现这个分支的最先进的性能和相对较少的模型参数。

罗等。24)提出一个两阶段嵌入方案来提高性能的基于结构嵌入模型,如TransE、中小企业和SE。它首先使用一个字嵌入模型学习初始实体和关系的嵌入关系路径,查看与假词实体和关系的路径。RDF2Vec [25],metapath2vec [26)和侯赛因et al。27)将图形数据转换为序列的实体和使用无监督学习的语言模型实体表示考虑序列作为句子的实体。然而,这些方法只利用结构信息。最近,Dettmers et al。28]介绍多层卷积网络模型、挂链接预测,使用二维卷积在嵌入和多层次的非线性特性模型知识图表。

2.2。知识嵌入与多源信息

小知识嵌入学习模型仅利用知识图的三重结构信息和大量的其他相关信息还没有有效地使用,如实体和关系的描述和分类。

有一些研究利用上述信息学习知识表示。请厂家(7)代表一个实体的平均字嵌入的实体的名称。王等人。29日)对齐实体和单词的嵌入在同一空间利用实体名称和Wikipedea锚。最近,DKRL [30.]扩展TransE考虑文本信息知识库提供的实体描述(即。,knowledge graph), and building entity vector representations with CNN model based on entity descriptions, which can model the word sequence information in text. When a new entity that is not in the knowledge base occurs, DKRL can generate entity vector based on its simple description. SSP model recently proposed by Xiao et al. [31日]学习实体语义向量从实体描述文本利用主题模型,然后预测结构的语义损失空间共同决定由实体和尾巴实体学习向量表示的实体和关系。SSP的学习过程模型是更密切相关的文本信息。

最上面的模型主要是使用实体名称的文本信息和实体的描述。这限制了互联网的使用丰富的非结构化文本信息。

3所示。知识表示学习基于子空间投影

一些工作(7,29日- - - - - -31日)表明,学习知识表示通过融合多源信息可以有效地提高知识的性能表征。丰富的Web文本包含大量非结构化知识相关的实体。字嵌入是一种有用的无监督的技术,它可以提供一个简化的实际价值为每个单词从无标号的自由文本向量表示。我们使用字嵌入技术获取矢量表示的实体名称丰富Web文本,然后适应这些向量的子空间,适用于表示实体的知识通过投影图。因此,知识表示学习可以分为两个阶段:无监督实体名称估计子空间自适应矩阵的向量,共同监督学习和知识表示。

3.1。无人监督的单位向量的估计

我们获得知识图的实体名称的向量表示未标记的Web文本通过无监督词向量学习技术并把它作为初始向量表示的实体。词向量通常训练通过优化一个目标函数与未标记的数据9,32- - - - - -34]。CBOW [34]和skip-gram [9)学习词向量捕获许多语法和词与词之间的语义关系。因此,在本研究中我们使用skip-gram [9)学习这个词向量表示的实体的名称。

给定一个序列的训练的话 ,skip-gram的优化目标是最大化平均对数概率: 在哪里c大小的上下文和培训使用softmax函数定义: 在哪里是向量表示的单词和W词汇是词的数量。

同其他大多数神经网络模型,skip-gram采用基于梯度下降法的训练方法。训练模型,嵌入向量 ,每个单词包含的信息和它周围的环境。因此,可以使用这些向量作为输入的其他学习算法进一步改善性能。

3.2。将知识图嵌入到子空间

正如前面提到的,字嵌入是一种有用的无监督技术获得的初始特征向量实体名称前监督培训。这些初始矢量表示可以接受再培训,获得标签数据。然而,知识图已经严重的数据稀疏问题。数据库中实体的数量大;然而高质量的三重相关数据的数量每个实体,可以获得与高成本相对较小。只有少量的监督数据造成严重过度拟合。此外,很可能只有一个子集的实体出现在训练三元组和向量表示培训实体失踪的三元组将永远不会被更新。我们提出一个简单的解决方案,以避免这个问题。

我们使用表示初始实体矢量矩阵得到skip-gram正如上一节所述。我们定义了嵌入矩阵在子空间分解如下: 在哪里 , 。接下来,我们估计的参数矩阵通过使用三元组(标签数据集)知识图和保持固定的。也就是说,我们找到最好的映射矩阵项目初始向量矩阵为子空间维度年代。

将知识图嵌入到子空间的概念是基于以下两个关键原则:(1)嵌入维数的减少,该模型可以更好地适应知识图的复杂性任务,获得标签数据的数量。(2)通过投影,所有实体向量不仅间接地更新,那些出现在训练三元组的实体。

3.3。子空间自适应矩阵的联合监督学习和知识表示

3.3.1。共同学习模式

在获得初始向量的实体,我们使用监督模型,共同学习子空间的投影矩阵和知识表示基于子空间投影的概念。共同学习模式利用三元组中存在知识图的结构信息。

嵌入子空间的概念可以应用于任何基于结构的知识表示学习模型。目前按利润最佳性能与推理任务参数相对较少,我们使用这个模型一起嵌入子空间的思想作为指导训练模型。这个方法是以下简称sub-ProjE。让 , ,e和年代分别是实体的数量关系,无监督实体向量维数和子空间维数。按工程的参数的数量。sub-ProjE的参数的数量。自 ,sub-ProjE的参数大小远小于按工程。

我们认为推理的关系作为一个整体排名问题,将部分三作为输入,并生成一个排名的候选列表实体作为输出。

定义1。(实体排名问题)。鉴于知识图和一个输入牛肚(h,r排名?),实体问题,试图找到最优命令列表 ,在哪里 , 。
类似地,我们可以很容易地替换(h,r,(?)?r,t)。按工程的主要思想如下:给定两个输入向量,作为预测任务排序问题,保持优化的目标候选人的整体秩序的实体,实体的前面是正确的实体。生成这个有序列表,我们项目每个候选向量定义的目标向量算子和两个输入向量。结合算子定义如下: 在哪里e和r在嵌入空间中实体和关系的表征,年代嵌入空间的维数,D_e和D_r对角矩阵的吗 ,作为全球实体和关系权重,分别是组合的偏见。
这种组合算子,我们可以定义向量项目函数如下: 在哪里f和是激活函数, 是候选实体矩阵,b_p是投影偏差,c候选实体的数量。h(e,r)代表排名得分向量,其中每个元素代表候选人实体之间的相似性和合并后的输入向量。
候选实体矩阵包含吗c行向量矩阵中存在的实体(例如, 在知识图子空间)。所以,不引入任何新变量到模型中。模型可以被看作是一个包含一个实体矢量投影神经网络层,投影结合层和一个输出层。图1解释了该模型的体系结构和输入(通过一个例子吗?伊利诺斯州的城市)。给定一个尾巴实体伊利诺斯州和城市的关系,我们的任务是计算每个头实体的分数。为了弄清楚,我们只展示两个候选实体图1。然而,事实上可能包含任何数量的候选人的实体。
与传统的知识嵌入模型相比,该模型有两个主要区别。首先,输入层映像为两个组件,达到初始矢量表示在无人监督的阶段, ,和投影矩阵。第二,子空间的大小,预计初始向量,远小于最初的嵌入空间典型降低一个数量级以上。与通常的神经网络模型,所有的参数都可以通过反向传播训练与梯度下降方法。

3.3.2。排名方法和损失函数

按工程后,我们构造一个二元标签向量,所有实体的值为0,所有实体有一个值为1,然后最大化排名得分向量之间的可能性h(e,r标签)和二进制向量。损失函数定义如下: 在哪里e和r输入训练样本的向量表示, 是二进制标签向量,在哪里意味着候选人实体我是正的,积极的客观概率的候选人(客观价值)是1除以总数量的积极的候选人。我们认为softmax和双曲正切函数和 ,分别排名得分的我th候选实体如下: 在哪里代表了我候选人的候选人实体矩阵。

3.3.3。算法

因为候选实体的数量(即。,行W^c)很大,我们使用候选人采样减少候选实体的数量在训练阶段。给定一个实体e,一个关系r标签和一个二进制向量y,我们计算预测的积极的候选人。对于消极的候选人,我们只计算预测的样本子集。我们带负候选人样品基于二项式概率分布 ,在这是一个负的概率可能是采样的样品,是一个负的概率抽样的样本。为每一个消极的候选人y,我们样本值是否这个候选人是包含在候选实体矩阵W^c与否。

完整的培训过程中演示了算法1。鉴于培训三元组T,我们首先选择随机替换头实体或尾实体构建真正的训练数据集,然后产生的积极的和消极的样本T根据抽样策略。其次,计算损失和更新参数中的每个minibatch新生成的训练数据集。在这一点,阿达玛产品和×矩阵乘积。

	输入:训练三元组T= {(h,r,t实体)},E初始实体矩阵W^E,关系R,嵌入子空间维度年代辍学概率 ,候选人采样率 ,调整参数α
输出:子空间自适应矩阵W^年代关系嵌入矩阵WR,结合运营商D_嗯,D_rh,D_等,D_rt
算法sub-ProjE (T,E,W^E,R年代, , ,α)
(1)	初始化自适应矩阵W^年代关系矩阵W^R,结合运营商(对角矩阵)D_嗯,D_rh,D_等,D_rt与均匀分布。
(2)	循环/训练迭代/时代/
(3)	, , , ;/ /训练数据
(4)	为做/构造训练数据使用所有三元组训练/
(5)
(6)	如果e= =h然后/尾巴不见了/
(7)
(8)	/所有积极的尾巴T和一些采样-候选人/
(9)	其他的/头不见了/
(10)
(11)	/所有积极的正面T和一些采样-候选人/
(12)	如果
(13)	结束了
(14)	为每一个做/minibatches/
(15)
(16)	为每一个做/训练实例/
(17)
(18)
(19)
(20)	结束了
(21)
(22)	更新所有参数w.r.t
(23)	结束了
(24)	EndLoop

4所示。实验

我们评估模型与实体预测任务,比较性能与本机)按使用实验过程、数据集、指标建立在相关工作。我们也给TransE的结果(8]和TransH [17)实现(18在我们的数据集)。

4.1。实验设置

以下4.4.1。数据集

评估我们的模型,我们使用FB15K和FB15K - 237数据集进行实验。

(发布的FB15K数据集8)是毒品的一个子集(1),其中包含592213三元组,包括14951 1345实体和关系。初始实体矢量与实体名称表示无监督pretrained word2vec [9)和一个大型网络语料库。初始实体矢量的维数是1000。为了确保每个实体都有一个pretrained初始矢量表示,我们删除了1423个实体没有实体名称从FB15K向量,并相应地删除关于这些实体的三元组。最后保留训练集包括364424三元组,验证组包括37905三元组和测试组包括44565三元组,这完全是13528年1345年实体和关系。

fb15k - 237由Toutanova引入和陈35)的一个子集FB15K逆关系在哪里删除。我们没有实体名称删除实体向量,FB15K一样。最后结果fb15k - 237数据集包含211380训练三元组,21981年验证三元组,13528年和25666年测试三元组,这完全是237年实体和关系。

对于zero-shot场景,我们将实体分成两组:培训实体(10000)和测试实体(3528),同时确保训练集和验证集只包含三元组的头实体和尾实体都是在训练中实体集团和三测试集至少有一个实体在测试实体组。最后,FB15K zero-shot场景数据集有201272个训练三元组,20968年验证三元组,分别和3012测试三元组。zero-shot场景的fb15k - 237数据集有117785个训练三元组,12196年验证三元组,分别和1762测试三元组。表1显示了数据集的统计特性。


数据集	关系	实体	训练集	验证设置	测试集

FB15K	1345年	13528年	364424年	37905年	44565年
FB15K-zero-shot	1345年	10000(火车)/ 3528(测试)	201272年	20968年	3012年
fb15k - 237	237年	13528年	211380年	21981年	25666年
fb15k - 237 - 0 -	237年	10000(火车)/ 3528(测试)	117785年	12196年	1762年

4.1.2。参数设置

在监督训练阶段,我们应用默认设置一样按工程:使用亚当[36)的随机优化器使用hyperparameter设置 , , ;l₁正规化在培训期间所有参数和辍学层的组合算子,避免过度拟合。其他参数设置如下:学习速率 ,批量大小 ,正则化参数 ,辍学概率负样本抽样概率。

4.2。实验结果

4.2.1。准备评估协议

实体中的预测任务,我们预测失踪的头实体或尾实体的三元组排名中的所有实体的知识图。给定一个测试三(h,r,t),我们把实体头部或尾部,然后换成每个实体的知识图和计算排名得分,然后在降序排名这些取代实体并记录正确的实体的排名。后(8),我们使用意味着等级,HITS@k、过滤意味着等级和过滤HITS@k我们的评估指标。

4.2.2。结果

表2显示了不同的实体模型的结果预测任务训练FB15K不同训练集大小。我们可以看到从表2sub-ProjE的平均排名是显著优于按,TansH, TransE当训练数据变得更少。sub_ProjE和按比TransE TransH。由于训练数据少,过滤后的平均等级类似于原始的平均排名。当训练集非常大,按工程的表演,TransE,和TransH优于sub-ProjE,验证这一事实sub-ProjE适用于训练数据少的场景。HITs@10 sub-ProjE按优越。这是因为按工程只是部分更新实体向量在训练。因此,部分按工程的准确性高于sub-ProjE,但总的来说,sub-ProjE优越的性能按工程。表3显示了不同的实体模型的结果预测任务训练fb15k - 237不同的训练集大小。结果类似于FB15K的结果。


		意思是排名		HITs@10 (%)
训练集的大小	方法	生	过滤后的	生	过滤后的

火车= 5000	TransE	5042年	5030年	10.4	10.7
	TransH	5125年	5113年	10.2	10.5
	按工程	1340年	1328年	24.3	32.8
	Sub-ProjE	534年	522年	19.2	19.9

火车= 10000	TransE	3372年	3358年	16.0	16.6
	TransH	3388年	3375年	16.2	16.8
	按工程	717年	705年	32.9	42.8
	Sub-ProjE	408年	395年	22.8	23.7

火车=所有	TransE	165年	98年	53.7	70.9
	TransH	166年	One hundred.	58.0	70.3
	按工程	157年	98年	42.5	66.1
	Sub-ProjE	326年	266年	24.8	34.3


		意思是排名		HITs@10 (%)
训练集的大小	方法	生	过滤后的	生	过滤后的

火车= 5000	TransE	4559年	4544年	13.6	14.0
	TransH	4568年	4554年	13.4	13.9
	按工程	1155年	1141年	29.6	41.6
	Sub-ProjE	447年	434年	19.5	20.3

火车= 10000	TransE	2902年	2886年	18.9	19.9
	TransH	2972年	2955年	18.5	19.5
	按工程	614年	599年	38.2	52.2
	Sub-ProjE	377年	362年	23.7	24.9

火车=所有	TransE	297年	219年	42.9	58.3
	TransH	293年	217年	42.5	58.0
	按工程	164年	98年	40.8	64.9
	Sub-ProjE	313年	246年	25.7	35.3

在zero-shot场景中,至少有一个实体的测试三重知识图(即不在。训练集)。原按方法不能处理这种情况,因为它不能生成实体表示这不是在知识图。TransE TransH不能适用于zero-shot场景也出于同样的原因。我们sub-ProjE方法可以处理这种情况,因为它间接地更新失踪的实体表示在训练。表4显示了FB15K和FB15K237 zero-shot场景的实验结果。我们可以看到从表4sub-ProjE可以处理zero-shot场景中的实体预测即使训练数据是有限的。与训练数据的增加,方法的性能进一步提高。


		意思是排名		HITs@10 (%)
训练集的大小	数据集	生	过滤后的	生	过滤后的

火车= 5000	fb15k - 237	767年	769年	12.2	12.2
火车= 5000	FB15K	748年	746年	12.4	12.5
火车= 10000	fb15k - 237	699年	698年	13.0	13.1
火车= 10000	FB15K	669年	667年	14.4	14.4
火车=所有	fb15k - 237	524年	523年	16.3	16.4
火车=所有	FB15K	531年	529年	17.4	17.5

为了进一步分析sub-ProjE模型的稳定性,我们给的平均等级和HITs@10 30迭代的结果在一个常见的场景和FB15K zero-shot场景中,数据2和3秀。我们可以看到从图2训练数据集越大,sub-ProjE模型收敛越快。sub-ProjE模型的性能变得稳定第一几次迭代之后的所有训练数据集时投入训练。当数据较少,sub-ProjE收敛慢,成为稳定后迭代的十倍以上。的收敛速度zero-shot场景是一样的普通场景。我们在fb15k - 237得到类似的结果。这表明sub-ProjE模型适用于zero-shot场景。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

5。结论

本文提出了一种新的知识表示方法利用无监督学习实体名称向量。基本思想是寻求知识表示的无监督实体的子空间投影向量的任务。这种方法允许间接实体向量的更新没有出现在训练的过程中,适用于只有少数标签数据的情况下可以获得。Freebase实验验证了该方法的有效性。结果表明,这个简单的方法的性能超越最好的现有知识表示学习模型的训练数据越少,此外,它可以应用于zero-shot场景。

数据可用性

本文中使用的数据集实验结果公开。FB15k和FB15k - 237可以下载http://openke.thunlp.org。无监督pretrained实体向量可以从下载http://code.google.com/p/word2vec。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持部分由中国国家自然科学基金批准号61876217,苏州科技计划项目批准号SYG201903、基本计算教育协会的基本计算的研究项目在中国大学教育批准号。2018 - afcec - 328和2019 - afcec - 288,苏州工业技术职业学院和研究基金批准号下2019 kyqd001。

引用

k . Bollacker, c·埃文斯,p .介绍,et al .,“毒品:创建一个协作图数据库构建人类知识,”学报2008年ACM SIGMOD国际会议管理的数据加拿大温哥华,页1247 - 1250,2008年6月。视图:谷歌学术搜索
g·a·米勒,“WordNet:英语词汇数据库,”ACM的通信,38卷,不。11日,39-41,1995页。视图:出版商的网站|谷歌学术搜索
c·昂格尔l . Buhmann j·莱曼et al .,“在RDF数据模板的问题回答,”21国际会议的程序在万维网上,页639 - 648,法国里昂,2012年4月。视图:谷歌学术搜索
m .镍、k .墨菲诉Tresp et al .,“回顾关系机器学习对知识图表,“IEEE学报》,卷104,不。1,11-33,2015页。视图:出版商的网站|谷歌学术搜索
y Bengio、a .考维尔和p·文森特,”表示学习:审查和新视角,”IEEE模式分析与机器智能,35卷,不。8,1798 - 1828年,2013页。视图:出版商的网站|谷歌学术搜索
a . Garcia-Duran a誉为:Usunier, y Grandvalet,“结合两个和三方嵌入模型知识库的链接预测,“人工智能研究杂志》上,55卷,第742 - 715页,2016年。视图:出版商的网站|谷歌学术搜索
c·d·r·Socher d . Chen曼宁et al .,“推理与神经张量网络知识库完成”诉讼进展的神经信息处理系统太浩湖,页926 - 934年,NV,美国,2013年12月。视图:谷歌学术搜索
a .誉为n . Usunier a Garcia-Duran et al .,“翻译为建模multi-relational数据嵌入,”诉讼进展的神经信息处理系统太浩湖,页2787 - 2795年,NV,美国,2013年12月。视图:谷歌学术搜索
t . Mikolov Sutskever, k . Chen等人”的分布式表示单词和短语及其组合性”诉讼进展的神经信息处理系统太浩湖,页3111 - 3119年,NV,美国,2013年12月。视图:谷歌学术搜索
a·p·辛格和g·j·戈登,“关系通过集体学习矩阵分解,”第14届ACM SIGKDD学报》国际会议上知识发现和数据挖掘拉斯维加斯,页650 - 658年,NV,美国,2008年8月。视图:谷歌学术搜索
m .镍、诉Tresp和惠普Kriegel,“三方模型multi-relational数据上的集体学习,”ICML11卷,第816 - 809页,2011年。视图:谷歌学术搜索
m .镍、诉Tresp和惠普Kriegel,“分解yago:可扩展的机器学习关联数据,”21国际会议的程序在万维网上,页271 - 280,法国里昂,2012年4月。视图:谷歌学术搜索
r . Jenatton n . l . Roux A誉为et al .,“高度multi-relational数据的潜在因素模型”诉讼进展的神经信息处理系统,页3167 - 3175年,旧金山,美国Decemeber 2012。视图:谷歌学术搜索
a .誉为j·韦斯顿,r . Collobert et al .,“学习结构嵌入的知识库,”美国25日AAAI有关人工智能的会议美国,旧金山,CA, 2011年8月。视图:谷歌学术搜索
A .誉为x Glorot、j·韦斯顿和y Bengio,“语义匹配与multi-relational数据学习的能量函数,“机器学习,卷94,不。2、233 - 259年,2014页。视图:出版商的网站|谷歌学术搜索
d . Chen r . Socher c·d·曼宁et al .,“学习新事实与知识库与神经张量网络和语义词向量,”2013年,http://arxiv.org/abs/1301.3618。视图:谷歌学术搜索
j . z . Wang, j·冯et al .,“知识图嵌入翻译在超平面,”《28日AAAI会议上人工智能2014年7月,魁北克,加拿大,。视图:谷歌学术搜索
林y, z . Liu m .太阳et al。”对知识学习的实体和关系嵌入的图完成,”《AAAI奥斯汀,页2181 - 2187年,TX,美国,2015年1月。视图:谷歌学术搜索
g .霁s .他徐l . et al .,“知识通过动态映射矩阵,图嵌入”协会学报》第53届计算语言学和第七届国际联合会议上自然语言处理,1卷,第696 - 687页,北京,中国,2015年7月。视图:谷歌学术搜索
h . y, y . Wang Lin et al .,“图嵌入局部自适应翻译知识,”《第三十AAAI会议上人工智能美国凤凰城,阿兹,2016年2月。视图:谷歌学术搜索
林y, z . Liu h .烹调的菜肴et al .,“建模关系路径表示学习知识的基地,“2015年,http://arxiv.org/abs/1506.00379。视图:谷歌学术搜索
g .霁k·刘,美国他et al .,“知识与自适应稀疏传递矩阵图完成,”《第三十AAAI会议上人工智能美国凤凰城,阿兹,2016年2月。视图:谷歌学术搜索
施b和t . Weninger)按:完成对知识嵌入投影图”美国31日AAAI会议上人工智能美国,旧金山,CA, 2017年2月。视图:谷歌学术搜索
b . y .罗问:Wang Wang et al .,“图嵌入,上下文相关的知识”学报2015年大会在自然语言处理的经验方法《里斯本条约》,页1656 - 1661年,葡萄牙,2015年9月。视图:谷歌学术搜索
p . Ristoski和h . Paulheim RDF2Vec: RDF图嵌入的数据挖掘,”在计算机科学的课堂讲稿施普林格,柏林,德国,2016年。视图:出版商的网站|谷歌学术搜索
y盾:诉拉,a .阁下et al .,“异构网络Metapath2vec:可伸缩的代表学习,”程序的知识发现和数据挖掘,页135 - 144,济州岛,韩国,2017年5月。视图:出版商的网站|谷歌学术搜索
r·侯赛因·d·杨,p . Cudremauroux et al .,“meta-paths有必要吗?:“在回顾异构图形嵌入会议信息和知识管理的程序都灵,页437 - 446年,意大利,2018年10月。视图:谷歌学术搜索
t . Dettmers p . Minervini p Stenetorp et al .,“回旋的2 d图形嵌入知识,”三十二AAAI学报》关于人工智能的会议2018年2月,新奥尔良,洛杉矶,美国。视图:谷歌学术搜索
j . z . Wang, j·冯et al .,“知识图和文字共同嵌入”学报2014年会议上实证方法在自然语言处理(EMNLP)1601年,页1591 -多哈,卡塔尔,2014年10月。视图:谷歌学术搜索
j·r·谢z . Liu贾et al .,”表示学习知识与实体图形描述,”《AAAI凤凰,页2659 - 2665年,阿兹,美国,2016年2月。视图:谷歌学术搜索
h·肖,m .黄,朱x”SSP:对知识的语义空间投影图嵌入文本描述,”2016年,http://arxiv.org/abs/1604.04835。视图:谷歌学术搜索
y Bengio, r . Ducharme, p .文森特et al .,“神经语言概率模型”,机器学习研究杂志》上,3卷,第1155 - 1137页,2003年。视图:谷歌学术搜索
r . Collobert j·韦斯顿,l . Bottou et al .,“自然语言处理(几乎)从头开始。”机器学习研究杂志》上》12卷,第2537 - 2493页,2011年。视图:谷歌学术搜索
g . s . t . Mikolov k . Chen Corrado et al .,“有效的估计在向量空间表示,”这个词美国学习国际会议上表示美国斯科茨代尔,阿兹,2013年5月。视图:谷歌学术搜索
k Toutanova d·陈,“观察与潜在特性知识库和文本推断,”学报》第三届研讨会上连续向量空间模型和组合性,页57 - 66,北京,中国,2015年7月。视图:谷歌学术搜索
d . p . Kingma和j .英航“亚当:随机优化方法,”美国学习国际会议上表示美国圣地亚哥CA, 2015年5月。视图:谷歌学术搜索

科学的规划

基于机器学习的智能决策支持系统和多准则决策

文摘

1。介绍

2.1。基于结构的知识嵌入

2.2。知识嵌入与多源信息

3所示。知识表示学习基于子空间投影

3.1。无人监督的单位向量的估计

3.2。将知识图嵌入到子空间

3.3。子空间自适应矩阵的联合监督学习和知识表示

3.3.1。共同学习模式

3.3.2。排名方法和损失函数

3.3.3。算法

4所示。实验

4.1。实验设置

以下4.4.1。数据集

4.1.2。参数设置

4.2。实验结果

4.2.1。准备评估协议

4.2.2。结果

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

科学的规划

基于机器学习的智能决策支持系统和多准则决策

表示学习知识图的嵌入子空间

文摘

1。介绍

2。相关工作

2.1。基于结构的知识嵌入

2.2。知识嵌入与多源信息

3所示。知识表示学习基于子空间投影

3.1。无人监督的单位向量的估计

3.2。将知识图嵌入到子空间

3.3。子空间自适应矩阵的联合监督学习和知识表示

3.3.1。共同学习模式

3.3.2。排名方法和损失函数

3.3.3。算法

4所示。实验

4.1。实验设置

以下4.4.1。数据集

4.1.2。参数设置

4.2。实验结果

4.2.1。准备评估协议

4.2.2。结果

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章