2.1。符号
假设训练数据组成<我nl我ne-formula>
n
图像文字对,即。,the original image features<我nl我ne-formula>
V
∈
R
n
×
d
v
和原文功能<我nl我ne-formula>
T
∈
R
n
×
d
t
。除此之外,有一个标签向量与每一对图像文字和标签向量矩阵对所有培训实例构成标签<我nl我ne-formula>
l
∈
R
n
×
d
l
。<我nl我ne-formula>
d
v
和<我nl我ne-formula>
d
t
相应的原始尺寸的图像特征和文本特征,分别和<我nl我ne-formula>
d
l
类类别的总数。如果图像文字对<我nl我ne-formula>
V
我
,
T
我
连接到<我nl我ne-formula>
j
th类别,然后<我nl我ne-formula>
l
我
j
=
1
,否则<我nl我ne-formula>
l
我
j
=
0
。成套的<我nl我ne-formula>
V
问
,
T
p
,
T
n
1
,
T
n
2
表示,<我nl我ne-formula>
V
问
从图像形态是一个查询实例,<我nl我ne-formula>
T
p
,
T
n
1
,
T
n
2
三个检索实例的文本形态,在哪里<我nl我ne-formula>
V
问
和<我nl我ne-formula>
T
p
至少有一个共同的类别,而<我nl我ne-formula>
V
问
和<我nl我ne-formula>
T
n
1
,<我nl我ne-formula>
V
问
和<我nl我ne-formula>
T
n
2
,<我nl我ne-formula>
T
n
1
和<我nl我ne-formula>
T
n
2
三个两两实例和每个成对的两个实例没有共同的标签。
gydF4y2Ba与已知的成套的<我nl我ne-formula>
V
问
,
T
p
,
T
n
1
,
T
n
2
,我们的目标提出QDCMH是学习相应的哈希码<我nl我ne-formula>
B
V
问
,
B
T
p
,
B
T
n
1
,
B
T
n
2
,在那里<我nl我ne-formula>
B
V
问
,
B
T
p
,
B
T
n
1
,
B
T
n
2
实例的哈希码吗<我nl我ne-formula>
V
问
,
T
p
,
T
n
1
,
T
n
2
,分别。学习上面的哈希码,我们首先学习散列表示<我nl我ne-formula>
F
V
问
,
G
T
p
,
G
T
n
1
,
G
T
n
2
从四胞胎之一<我nl我ne-formula>
V
问
,
T
p
,
T
n
1
,
T
n
2
深层神经网络,<我nl我ne-formula>
F
V
问
=
f
V
问
,
θ
V
和<我nl我ne-formula>
G
T
p
=
g
T
p
,
θ
T
散列表示的实例吗<我nl我ne-formula>
V
问
和<我nl我ne-formula>
T
p
,分别。<我nl我ne-formula>
f
。
,
θ
V
和<我nl我ne-formula>
g
。
,
θ
T
散列表示学习函数图像形态和文本形态,分别。<我nl我ne-formula>
θ
V
和<我nl我ne-formula>
θ
T
是深层神经网络的参数提取图像形态特征和文本形态,分别。其次,我们可以利用以下符号函数大约散列表示映射到相应的哈希码,即,<我nl我ne-formula>
B
V
问
=
标志
F
V
问
和<我nl我ne-formula>
B
T
p
=
标志
G
T
p
。同样,我们可以学到成套的哈希码<我nl我ne-formula>
T
问
,
V
p
,
V
n
1
,
V
n
2
。为了方便起见,我们表示所有训练图像文字对的哈希码,所有训练图像的散列表示实例,和散列表示的训练文本实例<我nl我ne-formula>
B
∈
−
1,- 1
n
×
k
,<我nl我ne-formula>
F
∈
R
n
×
k
,<我nl我ne-formula>
G
∈
R
n
×
k
分别在哪里<我nl我ne-formula>
k
哈希码的长度是:
(1)
y
=
1
,
如果
x
>
=
0
,
x
∈
R
,
−
1
,
如果
x
<
0
,
x
∈
R
。