最近,许多研究人员已经开始深入学习技术适用于再保险(
22,
23]。Socher et al。
6]提议使用RNNs解决再保险的问题;该方法首先解析一个句子,然后学习语法上的向量表示为每个节点树。通过RNN的方法可以从这个词向量在最低的句法树和迭代合并向量根据句子的句法结构。最后,得到的向量表示句子和用于关系分类(
24- - - - - -
26]。该方法有效地考虑句子的句法结构信息,但与此同时,它不能考虑两个实体的位置和语义信息一个句子中去。曾庆红et al。(
27)使用向量这个词,这个词的位置向量作为输入的CNN和获得句子表示通过卷积层,汇聚层,和非线性层。通过考虑实体的位置矢量和其他相关词汇特性,实体信息的句子可以用于再保险。Bollegala et al。
28)也提出了一种新的CNN重新使用新的损失函数,可有效提高辨别力不同类别之间的关系。罗等。
29日]提出一种结构新颖,深度学习模型,另外注意机制是为了利用分配权重网络结构的关键问题。林等。
12]提出一种基于神经网络模型能注意语句的机制。的方法可以将权重分配给每个句子一个实体对根据特定的关系。通过不断学习,有效的句子给出更高的权重,而嘈杂的句子给出较低的权重。目前,神经网络的再保险主要用于预设关系集。然而,开放的面向领域的关系仍然是一个相对传统方法提取基于模板。因此,在我们的方法中,我们试图引入一个知识库为关系提取作为背景知识,允许自动发现新的关系和实体。
3所示。方法3.1。以知识为基础的注意模型
镍等。
30.]介绍了术语知识库的表示,这是使用RDF(资源描述框架)三元组来表示形式(
主题,关系,和
对象);例如,考虑知识库片段和实体的表达在图中所示的文本
1表示实体和关系,节点显示为直接标记边缘。为简便起见,我们表示三元组
e
r
,
r
,
e
o,在这
e
r和
e
o分别表示主体和对象实体。
知识库片段和文本中的实体的表达。
这句话”
比尔盖茨是微软的创始人,“我们只能获得一双实体”
比尔盖茨”和“
微软“关系”
创始人“他们之间的,但我们不能获得信息之间的关系”
微软”和“
美国”。然而,在知识库中,这些实体之间的关系是简单和清楚地表达。因此,我们的目标是包括知识库中实体关系的表示模型中输入。找到实体提到在文本中,我们首先使用斯坦福命名实体识别器(尼珥)[
31日]。每个文档可以被分割成句子,每个令牌由尼珥薄铁片可以分为四类。我们连续治疗的令牌,共享相同的类别作为单个实体提到,然后,我们将在文本中提到的实体与知识库。结合文本信息,我们也使用斯坦福依赖解析器来表示文本,如图
2,在这
n
年代
u
b
j表示的名义,
p
r
e
p是介词修饰符,
p
o
b
j是一个介词的对象。
知识的关注旨在识别和我关系的句子或文本;在我们的模型中,我们嵌入句和关系表示。如图
1founder_of,“作为一个令牌,与此同时,嵌入这个词的“创始人”和“的”关系词的序列。在本文中,我们定义的
r
=
r
1
,
r
n作为候选人的关系链,
n
≤
2是候选人的数量关系关系链。因此,我们结合嵌入和这个词作为输入的关系表示。同样,“company_of”和“微软”之间的关系表示为“美国”字嵌入的“公司”和“的”和“company_of,”关系来自于知识库,我们希望提供更多的信息为当前关系识别通过这些实体与当前的关系。更侧重于关系表示全球信息的上下文。然而,关系表示往往受制于数据稀疏,因为一些关系的负面影响可能很少出现在我们的数据。字嵌入后,将“一个炎热的表示”
d维词向量
V
∈
ℝ
V
×
d和的关系嵌入向量
V
关系
∈
ℝ
V
关系
×
d,在那里
V和
V
关系词汇量的大小和数量的关系知识库,分别。然后,嵌入层的输出发送到CNN的卷积层特征提取。图
3描述了CNN的架构。实际上,有许多知识库中实体与电流的关系,如“father_of”和“place_of_birth。“在这里,我们只使用关系”company_of”作为一个例子。在第一层,每个单词及其位置信息被映射到一个连续使用一个嵌入矩阵表示
V和这个词嵌入式
e转化为向量
v通过使用以下公式:
(1)
v
=
V
e
。
以知识为基础的注意力模型。
在隐藏层,我们得到隐层特性的权重向量
W,一个偏差向量
b,一个激活函数
双曲正切所示,下面的公式:
(2)
h
=
双曲正切
W
−
1
v
−
1
+
W
0
v
0
+
W
1
v
+
1
+
b
,在哪里
v
0表示当前字嵌入向量和
v
1和
v
2这个词表示嵌入向量之前和之后当前词,分别。
假设一个句子的长度
n;
w
我
∈
R
k
1
≤
我
≤
n的向量表示这个词吗
k维度对应
我
量
th词的句子。让
米
我的上下文向量
w
我;
米
我通过多个词向量的加权和,下列公式所示:
(3)
米
我
=
∑
j
=
1
,
j
≠
我
n
一个
我
,
j
w
j
,在哪里
一个
我
,
j是重量通过将softmax函数,如以下公式所示:
(4)
一个
我
,
j
=
经验值
分数
w
我
,
w
j
∑
j
′
=
1
n
经验值
分数
w
我
,
w
j
′
,在哪里
分数函数是用来计算两个词之间的相关系数,衡量单词之间的相关性定义在以下公式:
(5)
分数
w
我
,
w
j
=
v
一个
T
双曲正切
W
一个
w
我
⊕
w
j
,在哪里
v
一个和
W
一个是训练参数。
考虑到两个词之间的关系在一个句子往往会削弱与距离的增加,衰减因子的距离
λ可以介绍公式(
5),公式可以转化为下面的公式:
(6)
分数
w
我
,
w
j
=
1
−
λ
u
⋅
v
一个
T
双曲正切
W
一个
w
我
⊕
w
j
,在哪里
λ
∈
0 1和
u
=
j
−
我
−
1。当
λ趋于0,这两个词之间的关系几乎是不受距离影响因素,当
λ方法1,这两个词之间的关系取决于距离的因素。
通过这个词向量
w
我和上下文向量
米
我,最后一个词向量表示可以获得并用于随后的卷积操作,如以下公式所示:
(7)
w
我
′
=
w
我
⊕
米
我
。
最后,关系标签
y
^句子的
年代
我预计所有关系集
Y通过将softmax分类器:
(10)
p
^
y
∣
年代
我
=
软
马克斯
Y
c
+
b
,
y
^
=
参数
马克斯
y
p
^
y
∣
年代
我
,在哪里
b是偏差向量,
年代
我表示当前句子向量,
p
^
y
∣
年代
我属于关系表示实体的概率对标签
y在当前的句子
年代
我。
3.3。优化策略
我们使用叉成本函数为目标函数,定义如下:
(11)
J
θ
=
∑
我
=
1
T
日志
p
r
我
∣
H
,
θ
,在哪里
θ表示所有的模型和参数
T表示句子集的数量,然后
亚当优化器是用于参数更新。
为了防止模型过度拟合,辍学用于正则化约束在每个向前传播,和一些隐藏层节点特性随机丢弃;即。,we我ght updating does not depend on the interaction of the fixed nodes. In addition, this paper adopts L2 regularization, which is multiplied by a factor
λ小于1在迭代期间减少参数的值
θ。正规化操作减少了数据偏移量对结果的影响,提高模型的抗干扰,并避免过度拟合。
在本节中,我们首先介绍一些实验参数设置,以及参数设置指霁的经验等。
35]。我们选择这个词嵌入的维度
d
w(1到300),和嵌入位置的尺寸
d
p{5、10和20}。在我们的实验中,我们设置
d
w
=
50和
d
p
=
5、批量大小是50、学习速率
η
=
0.001,正规化superparameter
λ
=
0.0001。