文摘
大多数跨通道检索方法基于子空间的投影矩阵学习只关注学习不同的模式映射到一个常见的子空间和更少的关注检索任务特异性和类信息。解决两个限制和充分利用未标记的数据,我们提出一个新颖的semi-supervised跨通道检索方法命名modal-related检索基于歧视届时系统(MRRDC)。投影矩阵给出了将多通道数据映射到一个共同的子空间为不同的任务。投影矩阵的过程中学习,介绍了线性判别约束保持原来的类信息在不同模态空间。迭代优化算法基于标签传播提出了解决提议联合学习配方。几个数据集上实验结果证明我们的方法与先进的子空间方法相比的优越性。
1。介绍
在真实的应用程序中,数据通常以不同的方式或来自不同域表示。因此,具有相同语义的数据可能存在于不同的形式或展览异构特性。多通道数据的快速增长,迫切需要有效地分析获得的数据来自不同形式(1- - - - - -5]。虽然有相当多的关注多通道分析,最常见的方法是整体多通道数据来提高性能(6- - - - - -9]。跨通道检索是一种有效的方法来实现数据从不同的模态数据。典型的例子就是把图像作为一个查询来检索相关文献(I2T)或搜索图像利用文本描述(T2I)。图1显示了I2T和T2I任务的详细过程。跨通道检索得到的结果更加全面与传统single-modality的结果。
一般来说,语义鸿沟跨通道检索和相关措施阻碍发展。虽然有很多方法来解决这个问题,这些方法的性能仍不能达到令人满意的水平。因此,方法(10- - - - - -16)提出了学习常见的子空间通过最小化成对差异做出不同的模式类似。然而,任务特异性和类信息经常被忽视,从而导致低层次的检索性能。
上面提到的解决这些问题,本文提出了一种新型semi-supervised联合学习框架跨通道检索通过整合共同的子空间学习,学习任务相关,和阶级歧视学习。首先,受典型相关分析(CCA) [7)和线性最小二乘法,投影矩阵被耦合线性回归了原始多通道数据映射到常见的子空间。同时,线性判别分析(LDA)和任务相关的学习(TRL)是用来防止不同形式的数据结构和语义关系的投影空间。此外,我的未标记的数据的类别信息,半监督的策略是利用传播从标签数据未标记的数据语义信息。三公共数据集的实验结果表明,该方法优于之前的最先进的子空间方法。
本文的主要贡献可以概括如下:(1)提出联合制定无缝结合semi-supervised学习,学习任务相关,线性判别分析在一个统一的框架,用于跨通道检索(2)标签数据的类信息是传播到未标记的数据,介绍了线性区别的约束和保护组间和组内不同模式之间的相似性
本文的其余部分组织如下。节2,我们将简要地概述一下跨通道检索的相关工作问题。的细节提出了方法和迭代优化方法介绍了部分3。部分4实验结果和分析报告。结论最后的部分5。
2。相关工作
因为跨通道检索中扮演一个重要的角色在各种应用程序中,许多subspace-based方法提出了通过建立联运内部相关性。Rasiwasia et al。7)调查的各种组合图像的检索性能特性和文本表示,覆盖所有可能的两个指导假设。后来,偏最小二乘(PLS) (17)也被用于跨通道的匹配问题。沙玛,雅各布斯(18)请使用线性图像从不同的视图映射到一个共同的线性子空间,图像具有较高的相关性。陈等人。19)解决跨通道的问题通过使用请将文档检索图像特征在文本空间,和方法容易实现两个模式之间的相似性度量方法。在[20.,21),双线性模型和广义多视图(GMA)已经提出和分析领域的表现良好跨通道检索。
除了CCA,请和GMA,马哈et al。22]提出了一种基于流形学习算法,可以同时降低数据的维数不同的模式。毛等。23]介绍了跨媒体检索方法命名为平行对齐检索领域,集成了一个流形对齐框架从向量场的角度。林和唐24)提出了一个常见的判别特征提取(CDFE)方法学习之间的差异在每个散射矩阵和散射矩阵。Sharma et al。21)改善Fisher LDA和边际分析(MFA)广义多视图LDA (GMLDA)和广义多视图从single-modality MFA (GMMFA)通过扩展到多峰性。灵感来自于语义信息,龚et al。25)提出了三个视图CCA特性之间的相关性进行深入研究以不同的形式和相应的语义。
此外,其他方法,如字典学习,提出了基于学习、多视图嵌入,跨通道问题[26- - - - - -29日]。壮族et al。30.]提出SliM2通过添加一组稀疏表示的成对关系学习项目不同形式到一个共同的空间。徐et al。31日)建议字典学习和功能学习应该学习相结合的自适应投影矩阵。邓et al。32)提出了一种区别的字典学习方法与常见的标签对齐的系数通过学习不同的模式。魏et al。33)提出了一个modal-related方法叫MDCR解决模态语义问题。吴et al。34)利用谱回归图模型,共同学习最小误差回归和潜在的空间。王等人。35)提出了一个敌对的学习框架,它可以学习modality-invariant和歧视表示不同的模式。在这个框架中,形态分类器和功能投影仪互相竞争获得一双更好的特性表征。曹et al。36)嵌入获得潜在的多视图表示用于视觉物体识别和跨通道检索。Zhang et al。37)利用图模型学习常见空间跨通道通过添加组内和组内的投影的关系的过程。
这些方法的主要目的是为了解决相关距离的测量,但类信息和任务特异性不好解决。因此,如何解决这两个问题在同一时间不同的任务尤为重要。基于这个想法,我们学习两对夫妇的预测不同的检索任务和线性区别的约束应用于投影矩阵。为了实现这一目标,我们将学习任务相关与线性判别分析通过semi-supervised标签传播。图2展示了我们的方法的流程图。三开放跨通道数据集实验结果证明我们的跨通道检索方法优于最新的方法。
3所示。方法
提高检索性能,介绍了歧视届时系统和更多关注不同的检索任务和类信息保存。在这里,我们专注于检索I2T I2T,和很容易扩大我们的其他形式的检索方法。
3.1。目标函数
图像数据定义为 和文本数据 另外,在哪里 和 表示标记的图像和它的文本维度, 和 代表未标记的图像和它的文本维度。让 是对图像和文本文件, 和 分别表示标记和未标记的文档。 是语义矩阵,在哪里类别数量,是标签的标签数据与一个炎热的编码,然后呢的pseudo-label未标记的数据。我们的方法的目的是学习两对夫妇不同形式的投影矩阵,项目数据到一个共同的空间不同的任务。然后,跨通道检索可以执行的公共空间。
我们提出一个新的modal-related投影策略基于semi-supervised学习任务特异性。这里,成对亲密的多通道数据和语义投影结合成一个统一的公式。I2T和T2I最小化形式得到如下: 在哪里和代表形式的投影矩阵和分开。
线性判别约束方程(1)和(2)介绍保护类信息子空间的投影。我们表示的标签样本的均值th类和的意思是所有的标签样本。组内散射矩阵可以被定义为 ,和总散射矩阵可以表示为 。目标函数表示如下: 在哪里 投影矩阵和吗是基本向量的维数。
根据方程(3),可以转化为线性判别约束 ,在哪里是 。组内分散的被表示为 ,和组内的散射是 。多通道条件下,我们利用LDA方法预测维护每个模态的类信息。相应的公式如下: 在哪里和表示和分开。
我们把方程(4)到方程(1)和(2),分别,然后得到目标函数的I2T T2I在以下: 在哪里是一个权衡系数平衡成对信息和语义信息和和正则化参数平衡图像的结构信息和文本。根据方程(1)和(2),结构的投影和是一样的语义投射。因此,我们的方法可以消除功能和语义空间。这可以减少投影的损失和提高跨通道检索的性能。
我们介绍semi-supervised学习策略。传播信息的标签标记数据,我们利用径向基函数(RBF)内核评价成对相似性投影后的未标记的数据,然后被视为标签的相似性信息更新的优化过程,直到结果收敛。对于任何数据和 ,内核函数定义如下: 在哪里是内核参数。
3.2。算法的优化
的目标函数方程(5)和(6)是凸的,所以迭代法用于当其他变体是固定的或者更新每个变体。
对于任何一个矩阵 ,的偏微分方程(5)表示如下:
同样,偏导数的方程(6)给出如下:
根据方程(8)- (11),我们的方法可以通过梯度下降法来解决。算法1描述了跨通道的优化学习。投影矩阵后I2T T2I任务获得,和可以映射到公共空间,跨通道检索。
|
4所示。实验
评价该方法的性能(MRRDC),我们用其他方法做对比试验三个公共数据集。
4.1。数据集
以下4.4.1。维基百科的数据集
这个数据集包含2866的图像文字对标签的语义类。在这个数据集,选择2173双的数据作为训练集,剩下的测试设置。在我们的实验中,我们使用公共数据集(7]Rasiwasia et al . (wiki-R),所提供的图像是由128维筛选描述柱状图(38),和文本的表示10维来源于一个LDA模型(39]。与此同时,我们也使用提供的数据集魏et al。(wiki-W) [40),4096 -维CNN特性(41)用于显示图像和100 -维LDA特性是用来表示文本。
4.1.2。帕斯卡句子数据集(40]
这个数据集由1000个图像文字对20个类别。我们随机选择30对每个类别的训练样本,其余作为测试样本。4096 -维CNN图像特性特性,和文本功能是100 -维LDA的特性。
4.1.3。INRIA-Websearch [42]
这个数据集包含71478对图像和文本注释从353类。我们去除一些对这些标记为不相关的和选择对属于任何100年最大的类别之一。然后,我们得到14698对进行评估的一个子集。我们随机选择70%的对每个类别作为训练集(10332对),和其他被视为测试集(4366对)。同样,图像是用4096 -维表示CNN特性,和文本标签表示100 -维LDA的特性。
4.2。评价指标
评价该方法的性能,进行了两个典型的跨通道检索任务:I2T T2I。在测试阶段,投影矩阵用于多通道数据映射到常见的子空间。然后,不同形式的数据可以被检索。在所有的实验中,采用余弦距离测量功能的相似之处。给定一个查询,每个跨通道任务的目的是找到最高k最近的邻居从检索结果。
算法的性能评估是指平均精度(地图),这是一个标准的信息检索度量。获取地图,平均精度(美联社)计算 在哪里在测试数据集是关联数据的数量,是最高的精度检索数据,如果 ,顶部检索相关数据;否则, 。然后,地图的价值可以得到平均美联社所有查询。更大的地图,检索性能就越好。除了地图,precision-recall曲线和地图表现为每一个类被用来评估不同的方法的有效性。
4.3。比较的方法
来验证我们的方法具有良好的性能,我们比较我们的方法和七个最先进的方法,如请[18],CCA [7],SM [7],SCM [7],GMLDA [21],GMMFA [21],MDCR [33],JLSLR [34],ACMR [35],SGRCR [37]。
请,CCA, SM和SCM是典型的方法,利用成对学习常见的潜在信息子空间,可以通过测量不同的多通道之间的相似性度量方法。这些方法使成对数据在多通道数据集更学会了共同的子空间。GMLDA、GMMFA MDCR通过监督学习是基于语义类别的信息。由于使用标签信息,这些方法可以很容易地学习更有识别力的子空间。
4.4。实验装置
在算法的参数提出MRRDC1I2T和T2I检索任务的设置如下: , , , , , , , ,和 维基百科提供的Rasiwasia INRIA-Websearch。维基百科提供的魏和帕斯卡, ,和其他与上述相同。在我们的实验中,学习速率设置 。
4.5。结果和分析
表1地图显示了所有的分数通过请,CCA, SM, SCM, GMMFA, GMLDA, MDCR,和我们的方法wiki-R, wiki-W,帕斯卡的句子,INRIA-Websearch。我们注意到,我们的方法优于同行。这可能是因为投影矩阵保存通过semi-supervised学习更有识别力的类的信息。常见的子空间的方法是更多的不平等和有效的进一步利用类同时intramodality和通道间的语义相似度。从表1外,我们还发现,在大多数情况下,GMMFA, GMLDA, MDCR,比请和MRRDC总是表现得更好,CCA, SM, SCM,图像与CNN特性有优势较浅的特性。第一个结果,这是因为请,CCA, SM,和SCM只使用成对的信息,但其他方法类信息添加到他们的目标函数,它提供了更好的分离不同类别之间的潜在的常见的子空间。对于第二个结果,这是由于强大的语义表示CNN。
wiki-R precision-recall曲线,wiki-W,帕斯卡的句子,和INRIA-Websearch是绘制在图3。图4显示地图的比较方法和我们的方法,和最右边的酒吧每个图中显示的平均分数地图。对于大多数类别,我们的方法优于地图的比较方法。从这些实验结果,我们可以得出以下结论:(1)与目前最先进的方法相比,我们的方法大大提高了平均图。我们的方法始终优于方法相比,这是由于因素MRRDC学习任务相关投影矩阵和线性歧视的方式为不同的形式,不同的方法可以保留语义和原始类的信息。此外,标记数据和未标记的数据的所有不同形式的探索。标签信息可以传播到未标记的数据在训练过程中。(2)在大多数情况下,GMLDA GMMFA胜过自GMLDA CCA和GMMFA类别信息添加到他们的配方,使常见的子空间投影更适合跨通道检索。(3)较浅的特点,CNN I2T任务特征有很大的优势,这是因为CNN功能可以很容易地直接获取原始图像的语义信息。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
进一步验证我们提出MRRDC的有效性,我们还提供的混淆矩阵single-modal I2T和T2I检索和查询示例数据5和6分开。直观地说,从图5,我们的方法可以实现高精度在每个类别,这证明了投影空间是歧视。我们也观察从图6在许多类别,我们建议的方法总是成功地获得最好的检索结果查询样本。
(一)
(b)
4.6。收敛
制定我们的目标是通过迭代优化算法来解决。在实际应用中,检索速度快是必要的。在图7,我们绘制的收敛曲线优化算法的目标函数值方程(5)和(6)在每个迭代wiki-W帕斯卡句子单独数据集。在这个图中,在每个迭代中,曲线是单调和算法对这些数据集通常在大约20个迭代收敛。速度快可以确保我们的方法的效率高。
(一)
(b)
(c)
(d)
5。结论
在本文中,我们提出一个有效的semi-supervised跨通道检索方法基于歧视届时系统。我们的方法使用不同的夫妻有识别力的投影矩阵不同的模式映射到公共空间,不同模式之间的相关性可以最大不同的检索任务。特别是,我们使用标签样本类别信息传播到未标记的样本,并保留了原始类信息通过使用线性判别分析。因此,该方法不仅使用不同的检索任务的关系,也使不同形式的结构信息。我在不久的将来,我们将不同模式之间的相关性和专注于无监督跨通道未标记的数据检索方法。
数据可用性
数据支持本文的研究和报道数据集引用引用。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这部分工作是由中国国家自然科学基金(没有。61702310),山东、中国的重大基础研究项目(没有。ZR2019ZD03),山东的泰山学者项目,中国(没有。ts20190924)。