文摘

对象检索在视频监控中发挥着越来越重要的作用,数字营销,电子商务,等等。这是面临的挑战,如大规模数据集,不平衡数据,观点,集群背景和细粒度的详细信息(属性)。本文提出了一个模型来整合对象本体,当地多任务深神经网络(本地MDNN),和一个不平衡数据解算器深入学习网络模型的优点和克服缺点,提高大型对象检索系统的性能从粗粒度级别(类别)细粒度级别(属性)。我们建议而且对象检索(CFOR)系统可以健壮和抵抗上面列出的挑战。我们所知,新CFOR系统的主要点是相互支持的对象本体的力量,当地MDNN和不均衡数据解算器在一个统一的系统。对象本体支持开发群相关性来提高系统性能的类别分类、属性分类,并进行培训和检索流流向节省计算成本的培训阶段和检索阶段大规模数据集,分别。当地MDNN支持对象本体与原始数据,和一个不平衡数据解算器基于马修斯的相关系数(MCC)地址,数据的不平衡会造成有效增加对象本体实现的质量没有调整网络结构和数据增大。为了评估CFOR系统的性能,我们在DeepFashion实验数据集。本文表明,我们当地MDNN框架基于pretrained NASNet建筑取得了更好的性能(在召回率高14.2%)相比于单一任务学习(STL)属性学习任务;它也表明,我们的模型与不均衡数据解算器取得了更好的性能(高5.14%的召回率更少的数据属性)相比,模型不考虑这个。此外,(电子邮件保护)徘徊在0.815检索平均35不平衡时装属性。

1。介绍

如今,对象检索面临一些挑战和有一些优势。

查询格式中起着非常重要的作用在大型对象检索系统。因此,查询格式应该是友好的,在实践中满足用户需求。

两个查询格式是受欢迎的这些天:基于图像的格式和基于文本的格式。基于文本的查询格式被广泛应用于许多搜索系统。然而,在许多情况下,很难使用查询文本来表达人类想检索词的内容有一些限制表达的视觉信息。相反,价值超过几千单词查询图像;它允许客户搜索对象没有打字,最重要的是,它可以基于内容检索的结果。然而,查询图像在表达语义信息的局限性可以减少检索的整体性能。因此,查询图像和检索图像与有用的相关信息(区域、类别、细粒度属性等)将会是有趣的观点,我们必须专注于改善而且对象检索系统的性能。

对象检索系统应该满足检索的需求从大规模数据集不仅在粗级别还在详细级别(或属性)。例如,在面对检索系统,面部属性检索通常是必需的。在时尚界检索系统、时尚属性检索是不可或缺的要求。亲自reidentification系统,在reidentification阶段,除了使用全球整个人体的特征,属性向量的脸和衣服也被有效地利用。在人群属性识别系统,有用的属性设置包括位置、参与者,和活动。

对象通常有多个属性,有方法来检索对象在属性级别从大规模数据集没有人工注释。在属性识别中,传统的方法往往浪费大量的时间在选择手工特征为每个属性组在试错的过程,但并不总是达到期望的结果。近年来,深卷积神经网络(DCNN)表明高性能在许多任务等计算机视觉检测、分类、识别和检索。无一例外,DCNN学习,也可以用于属性只有一个网络体系结构,和DCNN模型可以学习认识到许多属性。

DCNN-based属性学习模型的性能不会实现高速率如果组属性扮演相同的角色在网络体系结构的输出电平和不平衡数据仍未解决。利用群的相关性在粗粒度组件组或细粒度组,DCNN往往是深多任务神经网络修正。分类的性能将得到改善,如果细粒度的元素类别组或细粒度属性组可以分享相似的学习特性,所以他们的斜率误差表面将变得更加均匀和深多任务学习算法可以很容易地进入全球最佳有效。

对象本体中发挥着重要作用类别分类、属性分类,并进行培训和检索流流向节省计算成本的培训阶段和检索阶段大规模数据集,分别。因此,基于我们的经验研究对象相关的属性,如脸(1,布2)、人(reidentification)人群(监控)3,4),在大规模和快速过滤器对象检索(5),我们想介绍一个对象本体作为分层语义树有三个层次:地区、类别和属性级别。属性级别包括视觉的概念和具体的概念。视觉概念支持链接常见的任意对象的视觉属性。

我们介绍一个对象本体基于大规模流行的标准数据集在科学界,所以我们希望我们的本体可以满足标准”在社会广泛认可。为标准”和“实现”,我们提出了当地MDNN对象本体与原始数据的支持。但是,如果对象本体不能与高质量,它不能有效的功能。,我们提出了基于MCC的不平衡数据解算器有效地解决数据不平衡,造成增加链接对象本体的质量原始数据没有调整网络结构和数据增大。

我们回顾一些典型作品基于对象本体,深度处理神经网络,不平衡数据,解决突出的贡献。

大多数只能呈现组属性项目列表或项目组织的形式(1,3,5- - - - - -10]。一些作品使用的术语“本体”[11),但我们所知,没有作品呈现对象本体在完整意义上的地区,类别和属性。

在[8),FashionNet处理变形和遮挡的挑战明确预测服装地标和池特性估计地标,导致更多的歧视布表示。作者不使用术语“本体”,但DeepFashion数据集是基于分层树组织;只有部署根据时尚,它包括两级树:第一级由50个类别和第二层次包括5属性组(质地、面料、形状、部分和风格)(它没有颜色属性)。粗粒度组(在类级别)或细粒度组(在属性级别)在深层神经网络具有相同的作用,和不平衡数据解算器尚未考虑。

在[6),作者提出了一种多任务网络识别面部属性,但他们没有考虑检索问题。他们提出了一个模型同时学习多个属性标签通过一个单一的DCNN支持域适应多任务。在这种情况下,任务属性预测,他们找到一个方法来同时最大化所有属性的预测精度。然而,作者并没有明确利用面部的群相关性属性,所以在多任务网络属性具有相同的作用。作者安排面部没有使用本体属性到一个分层语义树。不平衡数据解决了基于损失函数与每个属性有关,所以他们的系统不能利用转移学习。

在[11],作者提出了集成深多层次学习和概念本体大规模视觉识别,但是他们没有考虑大型对象检索。对象本体包括两个层次:粗粒度组和细粒度组。利用群的相关性属性和不平衡数据解算器还没有被认为是。

我们的想法是提高深层神经网络的性能解决基于对象本体和不平衡数据从哥德尔不完备理论与灵感。这一理论显示任何一致的正式系统的限制以及限制特定的方法解决问题。当深层网络配置方法不能够创造如此巨大的影响在早期发生,有必要解决对象本体和不平衡数据集成到更深的学习。根据输入和输出适当的干预,我们介绍一种新的方法,可以帮助改善对象检索系统的性能。

本文的主要贡献如下。

我们提出了统一的对象模型包括本体,当地MDNN和不均衡数据解算器提高大型对象检索系统的性能从粗粒度级别(类别)细粒度级别(属性)。

我们建议的对象本体是一个分层语义树组成的三个主要级别:地区、类别和属性级别。它可以支持最优学习策略和语义鸿沟的影响最小化。提高分类的性能是很有用的分类、属性分类,并进行培训和检索流流向节省计算成本的培训阶段和检索阶段大规模数据集,分别。

我们建议当地MDNN是受神经网络多任务。它是基于NASNet, ResNet利用当地的多任务的神经网络结构,提高分类的性能分类和属性分类和灵活的系统更新。当地MDNN支持对象本体与原始数据,利用群的类别和属性的相关性。如果群相关性(或群际关系)是利用,分类的性能将得到改善,因为细粒度的元素类别或细粒度属性组相似的学习特性,他们错误的斜率变得更加均匀,表面和深当地多任务学习算法可以很容易地进入全球最佳有效。

数据不平衡经常发生大规模数据集。数据增强几乎是不可能的,因为每一个对象可以有多个属性。解决方案基于损失函数,如(6),有可能,但不能利用转移学习。我们建议的不平衡数据解算器继承了MCC (12)没有调整网络结构和数据增大。是融入当地MDNN提高分类的性能分类和属性分类,但它仍然可以利用转移学习降低计算成本在训练阶段大规模的数据集。

我们提出查询格式是基于对象本体与语义信息如地区、类别和属性从查询图像自动提取。因此,我们可以表达图像的语义信息检索过程,传统的方法还没有实现。

我们尝试DeepFashion数据集(8]。实验结果表明,体系结构适用于一个特定的学习问题从粗粒度级别到细粒度的水平。他们已经表明,pretrained NASNet架构,我们当地的多任务学习(本地MTL)框架实现更好的性能(在召回率高14.2%)相比,单一任务学习学习(STL)的属性。他们还表明,我们的模型考虑不平衡数据实现更好的性能(高5.14%的召回率更少的数据属性)相比,模型不考虑这个。

本文的其余部分组织如下:相关工作进行了综述2。CFOR介绍部分3。对象本体提出了部分4。深的地方多任务学习框架和不平衡数据解算器提出了部分5。检索和索引方法CFOR系统介绍了部分6。实验和分析中描述的部分7。我们结束我们的论文8

我们的目标是提出一个而且对象检索系统和DeepFashion数据集上测试其性能。因此,我们简要回顾一下最近的文献如下。

2.1。对象检索系统

细粒度对象检索应该寻找类似的图像,包括特定的对象属性。它声明一个过渡模型从图像检索对象属性检索(13,14]。具体地说,与传统的图像检索系统查询和结果往往是粗糙的(例如,文本或图像),细粒度图像检索的目的是获取语义类别和属性等信息。在时尚领域,以语义信息的优点,一个对象检索方法的基础上,结合全球特性介绍了细粒度属性信息(8]。灵感来自之前的作品,我们将提出一个而且对象检索系统不仅利用全球的结合特性与细粒度属性信息也优化学习策略基于本体和解决问题通过干扰的不平衡数据输出。

除了满足语义检索结果,对象检索系统必须处理大规模问题在实时运行。在[15),作者制定问题转化为数学模型,推导出封闭的解linearithmic时间和线性空间的复杂性。在[16),提出快速索引与深卷积神经网络和当地几何约束模型,由于locality-sensitive散列的帮助。然而,这些解决方案没有利用gpu的并行处理的力量可以显著降低特征匹配和检索时间。利用gpu的支持,我们继承了搜索算法引入Johnson et al。(billion-scale相似性搜索与gpu (17)这是一个nonexhaustive相似性搜索。搜索方法完全适合该CFOR系统进一步减少搜索时间通过创建基于内置对象本体多索引文件。

澄清我们的贡献CFOR系统,我们比较它与我们的主要参考DeepFashion [8在离线阶段(见表1(见表)和在线阶段2)。

2.2。数据组织
2.2.1。对象本体

在细粒度级别,视觉场景的语义解释在很大程度上取决于观众的先验知识和经验。愿景是一个密集的知识的过程。许多知识提出了视觉系统在过去(愿景18],σ[19],PROGAL [20.],MESSIE [21),等等)。这些知识视觉系统的分析使我们能够得出一些结论:主要有三个层次的语义概念低级视觉概念,中层语义概念,高层语义概念(22]。这些语义概念定义和使用在许多数据集的标签。在图像理解是最重要的挑战强大的语义鸿沟对系统性能的影响。表示的语义差距”的数字表示图像的固有区别和解释用户协会”(22]。很难教计算机直接理解底层概念在一个图像基于原始数据,但中层语义概念可能缩小语义鸿沟。原始数据之间的差距缩小到高层概念在大规模数据,对象本体,提出了通过引入中层语义概念及其关系。根据这些特征的对象本体,它适用于适用于细粒度对象检索任务。足球衫等。23]表明本体应用于检索任务时的优势。

2.2.2。属性学习

CFOR属性学习是一个支柱,它有强烈的细粒度对象检索对性能的影响。因此,属性学习被认为是学习策略的重要部分之一。

(1)属性学习。该方法用于对象识别系统在细粒度级别。与学习方法用于高级概念,属性学习支持中层语义概念的一个解决方案或视觉概念,已知(或多或少)的相关性。主要有两种不同的学习方法:单任务操作学习和多任务学习。单一任务属性学习:在这类、属性都有自己的学习模式。因此,它会导致模型的数量等于属性的数量。此外,每个属性分别对待,群的相关性尚未开发。许多作品在时尚领域如工程(9,10,24使用单一任务学习时装属性。当时,有许多挑战在多任务学习。由于这项工作(25),定义了一个共享的CNN铺平了道路的多任务的最终格式multilabel预测。因此,多任务学习成为可能。多任务属性学习:将此技术应用于属性,将收集的样本合并数据集到一个二进制向量与一个炎热的示范。像单一任务学习,输入图像。尽管单一任务的输出学习这是一个价值描述一个属性的存在(或不)在一个图像,输出的多任务学习将是一个炎热的二进制向量描述的存在(或没有)的一组属性。陆克文et al。6)表明,联合优化所有属性优于培训一个独立网络为每个属性相同的体系结构,特征空间的优化以及分类器在针对每个属性的基础上,无论是从准确性和存储、处理效率。这个结果表明,多任务的方法是更有效地利用潜在的相关性比独立学习分类器使用。虽然多任务学习可以产生更好的性能比单一任务的学习,其关键模型的缺点是,不能有任何属性改变时被重用。再培训或额外的模型将应用时,添加一个新属性。缺乏重用的原因多任务学习方法不灵活的属性变化频繁。为应对这些挑战,我们建议当地多任务属性学习被认为是一个基于对象的分组方法本体,以改善其重用。

(2)多任务学习的方法。多年来,有很多属性学习方法受到多任务学习(见图1- - - - - -3概述的方法)。据我们所知,学习方法:主要有三个属性特征和支持向量机分类器,自适应属性域独立深层神经网络和端到端深与自适应神经网络作为一个共享块损失函数。

除了学习方法,学习转移也是一个重要的方法,应专注于提高性能以及减少训练时间。然而,根据数据集的分布和大小,转移学习可以应用在不同的任务和情况。属性学习模型与支持向量机分类器基于深度特性:这些方法继承了训练特征对于分类问题然后美联储作为独立SVM预测输入。例如,最初的方法由Kumar et al。1)演算法用于为每个属性选择一个单独的功能空间和独立的支持向量机进行分类。钟等。26)提出了现成的CNN特性FaceNet和VGG-16架构下学习然后应用分类的支持向量机分类器/属性。然而,这些方法只适用间接通过全球多任务学习的特性,只是从一个完全连接层(或其他层也有很高的泛化)ImageNet数据集分类模型的训练。没有任何特定的数据集训练除了ImageNet数据集,所以学习是利用前馈网络转移。因此,属性相关性(包括群际和群相关性)还没有充分利用。属性基于自适应学习模型属性域独立DCNNs:这些方法解决的问题分别训练DCNNs(自适应属性域独立DCNNs)后面跟着一群深层(称为共享块)。与之前的模型,每个样本有多个标签,所以输出将是一个维属性向量(=属性)的数量。每个元素的属性向量代表属性的存在。通过共享块得到相关信息后,网与相应的损失函数是为了学习属性。因此,每个网络预测其相应的属性。每个的反向传播网络应用相同的机制作为一个简单的分类。在这些方法中,转移学习只能应用在每一个个人净减少培训时间;然而,整个培训模式。因此,如果数据集很小,不同于pretrained,那么它可能会考虑转移学而不减少整体性能。对于大数据集和高多样性需要微调事先通过整个网络,这些方法不是一个好的选择利用转移学习。在这些方法中,每个模型对应一个属性,群的相关性并不是一个优势。然而,正如在2),这些方法可以很好的提取群际之间的相关性属性。这项工作(7]表明,联合多任务属性学习可以取得更好的性能相比,深度学习基于特征属性。虽然提高了最先进的属性识别的准确性,它消耗大量的计算机资源和培训时间取决于数量的属性。这项工作成功地面对属性识别;这是一个最初的方法应用于这种多任务学习方法。他们使用了AlexNet修改网络共享块和VGG-16为每个单独的属性。在时尚领域,在2),属性被分成更小的组,pretrained CNN模型(基于ImageNet)为每个组和共享之间潜在的矩阵CNN模型。面对属性,研究[7]共享功能在早期学习用于随后的所有属性范畴特定功能学习异质属性类别。虽然这些方法在不同的字段,它们有相同的主要idea-attributes分成更小的组或小类别可以利用组间相关性和群之间的相关性属性。虽然这些方法优于属性基于深度的学习方法特性,它们消耗计算机资源的扩张参数的数量根据属性的数量的扩张。属性学习模型基于端到端深神经网络作为一个共享的块自适应损失函数:这种方法使用一个端到端的架构之间的共享块属性。适应,目标函数reweighs每一部分的损失与每个属性相关联。这种方法可以提取群属性之间的相关性,并可以很容易地配置架构或输入数据学习团体之间的相关性。这项工作,混合目标优化网络(月球)体系结构域的自适应多任务的损失提出的DCNN陆克文et al。6),是这组方法的一个例子。月亮学会平衡其多任务输出预测和减少训练和存储成本,同时独立训练DCNNs相比生产更好的精度。混合目标动态自适应损失函数在解决数据不平衡问题中起着重要的作用。在[6),联合优化对所有属性实现的性能优于第一种方法(特征与支持向量机分类器)。尽管这些方法提供一个更好的解决方案培训资源以及不平衡数据问题,转移学习很难适应,因为架构和损失函数被修改来支持多任务,multioutput和不平衡数据的问题。表3展示了主要的贡献差异三个引入多任务学习方法以及我们提出的深当地多任务学习,这将在下面的部分中提到的,在不同的标准。

(3)不平衡数据的问题。不平衡数据的机器学习问题类的类之间的分布是不均匀的。通常,他们是由两种类型的类:大多数类(正面)和少数类(负)。机器学习中最近的研究表明,使用中不均匀分布类的例子学习导致学习算法具有误导性的性能(偏见)。这意味着大多数分类器精度高,但它给贫穷的少数类中的准确性。在属性的情况下学习,出现不平衡如果实例的数量在某些属性在数量比其他属性的差异很大。为了应对这种情况,一般来说,调整类的分布是一个许多流行的方法来处理不平衡数据的本质问题。数据抽样:sampling-based upsampling等方法,将采样或数据增加被认为是一个不平衡数据问题的解决方案。除了使数据更加平衡,他们可以帮助减少训练时间(将采样)或使学习过程更有效率(upsampling)。我们知道最好的方法是打(27)可以解决这种情况,自动生成额外的数据(upsampling)基于原始数据集。然而,这些方法增加时过度拟合训练(upsampling)或丢失(downsampling)数据。增加数据证明是健壮的训练数据在处理不平衡(28]。然而,这种方法占用大量的培训资源,很难找到一个合适的增强足够大的训练数据集。它是非常困难的(或不可能),以增加数据平衡数据集的属性,因为每个对象通常有许多属性。体系结构、损失函数和标准配置:其他方法利用网络架构,损失函数,或量度训练时解决不平衡数据的问题。方法(在算法级)提高现有分类器通过调整算法来识别较小的类。内部技术提供总体解决方案不平衡数据问题,因为这些都不是特定于特定的问题。这项工作(6)就是一个例子来处理属性的数据不平衡问题学习通过创建一个混合目标动态自适应损失函数和内部解决问题。这些方法表现出更好的性能相比,数据采样;然而,他们往往很难实现,以及配置在未来。因此,他们并不总是最好的选择在动态检索系统的属性有很大的不同。阈值和产出型配置:而不是产生更多的数据或修改模型,基于这些方法找到最佳阈值输出。这些方法的本质是使用分数显示测试样本的概率来表示一个类的成员生产几个类成员的学习者通过改变阈值。这些方法特别有效的解决数据不平衡问题在不改变模型中的配置。此外,他们也不减少数据或增加过度拟合。支持向量机,提出了寻找这些阈值(12]。然而,Boughorbel et al。12马修斯]提出的相关系数(MCC) [29日)处理不平衡数据分类。虽然SVM显示出更好的性能,MCC相比,消耗更少的资源和处理时间(12]。灵感来自研究[6,29日)和许多其他研究者的方法的基础上,我们发现多任务学习解决方案,适用于检索系统使用培训和MCC的端到端DCNN估计阈值获得最终的输出。

(4)深CNN架构。他们展示他们的手工的性能特性(筛选30.,猪31日)或颜色直方图,枸杞多糖(32在大规模的数据集)等)。因此,流行的部署(33,34]随着使用ImageNet pretrained CNN模型的数据集(33)更容易微调各种DCNN架构(35,36)为多个视觉数据集。细粒度对象识别系统需要处理大量图像的大规模数据集。由于转移学习,我们可以减少培训时间。然而,转移学习应用在一些可用的架构不是被设计来解决数据不平衡的问题。因此,整体性能会降低时遇到这个问题。

Pretrained VGG AlexNet多属性中使用学习系统,可以发现在FaceNet [26和汉族等的研究7分别为面部属性)学习。在时尚领域,Abdulnabi et al。2)使用ImageNet pretrained CNN模型解决多任务属性的学习。然而,有许多高性能架构(如ResNet [35)能够处理好与偏见,梯度消失或NASNet [36)可以自动建立一个模型基于数据),通过在ImageNet分类超出了人类的能力,但还没有被应用。在我们的方法中,这些架构将投入使用。

3所示。材料与方法:CFOR系统

CFOR系统非常复杂但是很容易理解。我们关注的要点CFOR系统。

CFOR是一个对象由对象本体检索系统集成,当地MDNN (NASNet和ResNet),和一个不平衡数据解算器(MCC)提高大型对象检索系统的性能从粗粒度级别(类别)细粒度级别(属性)(见图4)。(1)查询图像。传统的基于内容的图像检索系统,查询图像,一个是能够在视觉相似性检索图片排名查询图像。它是非常困难的(或不可能)为用户提供基于查询图像语义信息系统。但有趣的是,在我们CFOR系统,这个挑战已经解决了。查询的语义信息自动提取图像的类别和属性分类系统,用户可以使用提取的语义信息检索过程。一个例子就是用户可以查询“亚洲脸”只有一个查询图像;这里,“亚洲比赛”是语义信息。传统的检索方法不能满足这个要求,因为语义鸿沟的诅咒。和CFOR系统可以识别“亚洲比赛”,用它来检索。另一个例子“时尚”对象基于我们CFOR系统图中描述5。从查询图像,基于时尚本体,探测器快速识别区域(顶部和底部;参见图5)。之后,用户选择该地区(上;参见图5);CFOR系统快速识别相关的类别最高地区(类别:上衣)。之后,具体的概念和视觉概念提取的外套,和用户可以选择其中一些(或全部)来检索。仅供用户友好交互,提取区域,显示类别和属性。其他信息,比如全球深特性,属性向量,本体,或一组属性用作搜索输入的系统不会显示出来。在这样一种方式,用户可以订购CFOR系统在语义层面上,它们可以实现结果相匹配的内容和语义查询的形象。

CFOR系统主要分为两个阶段:离线阶段和在线阶段。(1)离线阶段。这个阶段的目的是生成对象本体,数据库、索引文件和区域检测模型、类别分类模型,和属性分类模型。对象本体设计手动基于社区的专业经验和公共数据集。它被组织成一个层次语义树与三个主要级别:地区水平,类别级别,和属性级别。生成数据库来存储preextracted特性、地区、类别和属性数据集的所有图片。它支持减少联机检索时间和为每个图像检索提供了必要的语义信息。创建索引文件来支持快速映射的在线阶段CFOR检索系统的关键是在运行时执行检索任务。地区、类别和属性是基于当地MDNN自动学习。检测模型和分类模型创建提取或预测查询图像的语义信息和数据集等地区,类别和属性。(2)在线阶段。这个阶段CFOR系统的设计运行检索过程包括对象检测、语义信息提取和查询扩展和检索。在目标检测阶段,我们使用的训练对象检测器来检测对象查询的形象。在语义信息提取阶段,内置对象本体和分类模型用于提取必要的每个确定对象的语义信息。提取的语义信息和深度全球每个检测到的对象的特性通过搜索系统以及索引文件快速计算之间的分数查询对象和数据库中的样本。检索应用于等级和出口最相似的图像查询对象及其相关信息。查询扩展是可选的,用于提高检索性能的权衡了检索时间。相互支持的对象本体的力量,当地MDNN CFOR系统和不平衡数据解算器:人物4显示的操作CFOR系统三个主要模块的交互对象本体,当地MDNN和不均衡数据解算器来优化学习策略,提高整体大规模数据集的检索性能。对象本体支持开展培训流(与当地MDNN)和检索流(从粗粒度级别到细粒度级别)以节省计算成本培训阶段和检索阶段大规模的数据集。培训流程也为应用转移的方式学习,可以提高深层网络的收敛速度。对象本体可以改变数据到本地的全球失衡失衡基于细粒度的数据组使数据不平衡的问题更容易处理。深多任务NN支持链接对象本体的原始数据有效的类别和属性级别利用群相关性和组间的相关性。对象本体支持更新系统在地方层面,基于当地MDNN并行处理。因此,CFOR更新以灵活的方式在大型数据集有很多变化。和拟议中的不平衡数据解算器基于不平衡了MCC的地址数据有效地增加对象本体实现的质量没有调整网络结构和数据增大。算法和示范的CFOR系统:在线和离线阶段阶段(数字67CFOR)是用于分析任务系统。这些阶段在本节将进行详细介绍。检索算法CFOR系统在离线阶段(参见算法描述1和部分3所示。1)和在线阶段(参见算法2和部分3所示。2)。此外,CFOR系统可以作为检索的一般解决方案投入使用。来评估系统的性能、时尚的对象与属性中选择实验。

过程:OFFLINE_CFOR
目标:
建立时尚本体通过通用本体和谓词从数据中提取。
训练区域,多任务分类类别分类模型和属性模型
建立反向索引文件检索
建立数据库,其中包含所有对象的所有特性和提取信息所有图像数据
输入:
dta (obj) / /图像对象数据库,即。,fashion object detected by the inherited object detector for all images in data.
之前(字段)/ /结构化信息(谓词),包含语义概念,属性,及其相关的特定字段(在这里,我们有时尚场);例如,夹克是一个类别。
输出:
在(前、dta) / /建立了基于先验知识的本体,即。、通用本体结构
classifyModel(状态、到dta) / /训练分类模型在一个特定的状态将被用于在线阶段(检索阶段)。通过实验结果,ResNet架构是合适的应用。
/ /包括概念各州(地区或类别)和属性(颜色、形状、部分、风格等)。
multitaskModel(状态、到dta) / /多任务训练分类模型为一个特定的状态属于属性状态。通过实验结果,NasNet架构是合适的应用。
indexFiles / /反向索引文件,即。为加快检索时间
数据库/ /数据库包含所有对象的所有特性和提取信息所有图像数据。
开始
/ /本体建立
谓词⟵extract_predicates (dta) / /提取概念、属性和其相关性在时尚界数据生成谓词
到⟵build_ontology(谓词,之前)/ /谓词融入本体的一般形式建立一个时尚本体
/ /培训阶段
州⟵extract_state(上)/ /提取的本体包括概念(地区和类别)和属性(颜色、部分、形状、风格、质地、和织物)
group_state_dta⟵零/ /不平衡数据的存储所有属性状态数据问题解决者
州州:/ /建立分类模型为每个本体状态(叶在本体除外)
开始
如果国家的概念:
开始
/ /提取必要的数据训练模型的当前状态本体而不是使用所有数据进行训练
state_dta⟵extract_nes_dta (dta、州)
/ /训练分类模型架构的当前状态选择从NASNet / ResNet用本体表示
classifyModel(建筑、state_dta)
结束
如果状态属性:
开始
/ /提取属性数据进行训练并存储在一组不平衡数据问题解决者
state_dta⟵extract_nes_dta (dta、州)
group_state_dta。追加(state_dta到)
/ /火车属性与马修斯多任务分类模型的相关系数不平衡数据问题解决者
multitaskModel (group_state_dta、建筑、Matthrew_coef = True)
结束
结束
/ /索引
indexFiles⟵NULL / /存储所有索引文件基于本体的操作
/ /使反向索引文件
的状态:
开始
state_dt⟵extracted_nes_dta (dta、州)
cur_indexFile⟵索引(state_sta)
indexFiles.append (cur_indexFile)
结束
/ /建立一个存储结构语义信息并提取特征
状态存储⟵build_storage(上)
/ /提取输入对象的语义信息
infor_dta⟵infor_extract(州、dta、到classifyModels, multitaskModel)
/ /全局和本地对象特征提取
feat_dta⟵feat_extract (dta、到、classificationModels multitaskModel)
/ /构造存储数据库中提取信息
数据库⟵结构(存储、feat_dta info_dta indexFiles)
结束
过程:ONLINE_CFOR
目标:
当有一个输入图像检测对象
提取信息的输入对象,如地区、类别和属性
返回检索结果
输入:
/ /建立本体上时尚的数据
数据库/ /构造数据提取的信息和功能
classficationModels(国家)/ /训练分类模型对所有可能的概念。
multitaskModel / /属性多任务训练分类模型对所有可能的状态。
状态:列表出现在本体的所有国家。
imgQuery / /输入查询的形象
输出:
retrived_info / /语义信息的检索结果。
imgList / /图像检索结果
开始
obj_list⟵探测器(imgQuery)/ /提取对象出现在输入查询的形象
在obj_list obj:
开始
/ /输入对象的提取信息。对象通过本体来提取该地区,然后最后类别和属性。
有限公司⟵infor_extract (obj,到,classifyModels multitaskModel)
/ /输入对象的提取特征
壮举⟵feat_extract (obj,到,classifyModels multitaskModel)
结束
如果扩展是正确的:
开始
/ /扩展基于提取的属性信息的查询和可选的查询
壮举有限公司,专长⟵query_expansion(有限公司)
/ /计算输入和数据库之间的相似性得分。在这个函数中,分数计算相似性的基础上输入功能和数据库通过本体时图像特征将被改变。然后加上分数匹配属性得分计算匹配输入属性与数据库。索引数据库,nonexhaustive搜索将使用GPU加速应用索引。
score_list⟵compute_sim_score(数据库、家里的壮举)
索引,socre_list⟵排名(score_list、数据库、top_kGPU_search = True)/ /利用GPU nonexhaustive top-k排名搜索
retrieved_info, imgList⟵检索(索引、score_list数据库、GPU_search = True)/ /检索任务
结束
结束
3.1。离线阶段

这一阶段包括三个子阶段:对象本体建立阶段。这一阶段定义时尚本体控制培训流以及联机检索流之间充当桥梁高层概念和类别(对象),中层概念(属性)和原始数据。学习阶段。这个阶段利用深层网络转移学习在处理具体任务包括对象学习一部分,类别学习,学习和属性。存储和索引阶段。这一阶段定义了一个存储数据的方式,以及使索引列表减少检索或搜索时间。

从离线阶段,在这一节中,继承了以前的最先进的方法,我们将提到对象部分提取、转移学习,它的作用在检索系统以及数据存储。这些模块是高度推广到任何对象。其他问题包括本体、属性学习,网络体系结构,和索引策略将下面几节详细讨论。此外,离线阶段CFOR系统还引入了技术上的算法1根据图6

3.1.1。损失函数

这个函数继承了当前最先进的ResNet分类,和交叉熵损失函数适用于多类分类的类别分类模型和属性分类模型。

对于多任务属性分类模型,损失函数描述如下: 在哪里 是一个样本的预测, 是相应的地面真理,N代表样本的数量,代表的数量属性。

3.1.2。技术细节

在算法1、对象本体部分详细描述4手动,设计基于社区的专业经验和公共数据集。它被组织成层次语义树与三个主要级别:地区水平,类别级别,和属性级别。地区、类别和属性是基于当地MDNN自动学习。DeepFashion数据集(37)人工注释,时尚本体和贡献。此外,澄清算法1,使用的功能描述如下:(我)extract_predicates (dta): rich-annotated数据集,例如,DeepFashion [8),一个示例图像可以由许多注释标签在不同的细粒度的水平。对于每个细粒度级别,函数是用来提取独特的标签样本,然后将这些标签存储到相应的数组。例如,在DeepFashion数据集(8),顶部,底部,和身体是独一无二的标签属于一个细粒度的水平,因此,它们存储在一个数组中。同样,织物、形状、部分,风格,和纹理标签属于一个细粒度的水平和存储到一个数组中。(2)build_ontology(谓词,之前):这个匹配提取的水平及其标签从数组每个谓词到相应阶段的通用本体,即。,之前。例如,顶部,底部,和身体属于一个水平与该地区本体的阶段。匹配完成后,所有其他未使用的阶段被淘汰的通用本体生成适应本体,如时尚本体。(3)extract_state(上):从构建本体,所有阶段及其标签搜索和存储在数组将用来重建数据。例如,地区阶段数组中包含了三个类,分类阶段数组包含50类。(iv)extract_nes_dta (dta、州到):基于阶段,从“extract_state”中提取的类函数,整个DeepFashion数据集将分裂。只有有标签样本属于舞台被存储为阶段的训练集本体。例如,与该地区分类模型,只有样品标签,身体,或底部用于培训。(v)classifyModel(建筑、state_dta):在DeepFashion数据集8),基于本体,有四种分类模型:地区分类模型和类别分类模型顶部区域,身体,和底部区域。这些模型从ImageNet重新训练数据集(33)使用resnet - 101 (35]。(vi)multitaskModel (group_state_dta、建筑、Matthrew_coef = True):每组状态的细粒度属性水平,构建一个多任务分类模型,例如,面料属性组分类模型和样式属性组分类模型。这些模型从ImageNet重新训练数据集(33)使用NASNet v3 (35]。此外,提到的属性学习和MCC的使用不均衡数据解算器和节中描述清楚5(七)创建索引(state_sta):索引文件将用于运行时检索。该方法是基于nonexhaustive压缩域搜索与GPU,节中描述清楚6(八)州build_storage(上):存储结构自动创建基于内置对象本体和提取。节清楚地描述的存储结构3.1。5(第九)infor_extract(州、dta、到、classifyModels multitaskModel):对于每一个样本数据库中,所有属性学习模型训练“multitaskModel”功能,然后运行所有可能的属性高于阈值提取。更多细节,请参阅部分5、算法4,算法5对如何确定阈值。(x)feat_extract (dta、到classificationModels multitaskModel):对于每一个样本数据库中,pre-softmax层的特性在四个模型训练“classifyModel”功能。(十一)结构(存储、feat_dta info_dta indexFiles):自动建立基于数据库中提取特征,提取信息,索引和存储结构。节中描述的存储结构是清晰的3.1。5

3.1.3。对象提取一部分

由于上述原因,前景对象应该有效地、准确地从背景中提取区域进入检索前一步。的目标对象提取过滤所需的特定主题。这也提高了以下模块的效率以及提高了系统整体性能。有许多成功的目标检测方法(31日,38,39]。其中,YOLO[意思39)显示了最先进的的结果。在我们的系统中,我们继承了成功的软件YOLO(版本3.0)确定意思的时尚物品。

3.1.4。转移学习

转移学习是最好的方法来减少训练时间,尤其是在复杂的架构ResNet或NASNet等。关键的问题是初始参数。在培训过程的第一步,我们必须生成这些参数与一些非监督学习方法。然而,最初的一个远离最优。在转移学习,我们将重用参数对一个庞大而多样化的训练数据集(如ImageNet数据集(8])。通过这种方式,我们的训练过程更容易满足收敛。因此,它减少了训练时间。

以不同的方式转移学习可以应用基于数据集的大小和数据相似。总共有四个场景。首先,如果数据量很小而数据相似性很高,我们使用pretrained模型作为特征提取器。第二,如果数据量小和数据相似度很低,我们冻结层和火车的其余层pretrained模型。第三(理想状态),如果数据量大,数据相似性很高,我们可以通过使用重新训练模型的权值初始化pretrained。第四(最坏的情况),如果数据量大,数据相似性较低,转移学习不能应用,我们必须从头开始训练我们的模型。在我们的时装示例实验,而DeepFashion [8)是一个大型的数据集和ImageNet(数据集用于传输学习)是一个高的多样性,我们可以使用所有的重量从pretrained模型初始化。

根据我们的方法,转移学习将应用于地区、类别分类以及属性学习ResNet和NASNet架构,分别。它也可以用于全球深特征提取,提高检索性能。

3.1.5。数据存储

特征提取类别分类学习任务和属性将存储在基于对象本体层次语义树。所有功能属于一个对象本体和叶将存储在一个文件中。在大规模数据的扩张的情况下,所提到的文件可以被索引,与相应的映射每个图像的关键。基于对象的文件夹将组织每个名称对应于每个概念的本体。澄清一下,数据存储提出了本体定义如下(见图8数据存储为例):(我)所有文件都存储在一个文件夹命名为“数据库”,是表示“对象”节点。(2)基于本体,“对象”节点包含3节点在“地区”的语义层面。因此,我们有3个小文件夹:“,”“身体”和“底”。(3)在本体的下一个阶段,我们有“类别”语义级别。因此,我们有50文件夹代表所有节点的“类别”。(iv)最后,我们有“属性“语义水平站在叶子节点状态的本体。在这个状态下,所有功能属于同一“地区”和“类别”和存储在一个文件中。

3.2。在线阶段

算法2显示了在线阶段的CFOR系统相应的演示图7

3.2.1之上。技术细节

澄清算法2,使用的功能描述如下:(我)探测器(imgQuery):一个对象在一个图像自动检测通过使用一个训练有素的探测器。在这个函数中,我们继承了成功的软件YOLO(版本3.0)确定意思的时尚物品。此外,项目的确定也改进的区域识别模型,由“classifyModel”功能训练算法1(2)infor_extract (obj,到,classifyModels multitaskModel):对于每一个查询对象,所有属性学习模型训练函数“multitaskModel”和粗分类模型函数“classifyModel”算法1运行。我们提取区域⟶类别⟶本体的属性和必要的每个阶段的特点。(3)query_expansion(公司,专长):查询扩展基于均值向量用于reranking检索结果。看算法3查询扩展的细节。(iv)compute_sim_score(数据库、有限公司专长):每一对的特性,不对称距离是用来测量不同数据库中的查询和样品之间的距离(见部分6更多的细节)。并行计算是通过使用索引文件从算法获得1对于所有数据库中的样本。(v)排名(score_list、数据库、top_k,GPU_search = True):基于之间的分数查询和数据库中的所有样本获得函数应用“compute_sim_score”排名;较小的更好。(vi)检索(索引、score_list数据库、GPU_search = True):检索过程包含3步骤包括特征检索,细粒度的检索和查询扩展。全球全球检索功能查询的对象从函数“infor_extract”和数据库中的样本的特征传递给函数“排名”1检索结果。细粒度检索属性特征(见部分5更多细节)查询的对象从函数获得“infor_extract”和样本的特点1检索结果传递给函数“排名”2ndk检索结果。查询扩展,计算平均向量的2ndk检索结果,每个特性的2ndk检索结果传递给函数最终最高——“排名”k检索结果,即。,query expansion-based reranking.

过程:QUERY_EXPANSION
输入:
inputImgFeat:查询图像特征
startRetrievedImgFeatList:检索图像特性列表
k:检索图像的数量
numOfExpansion:查询扩展应用时间的数量。即使检索性能更好,它会有一个权衡与检索时间。推荐值:3。
输出:
finalRetrievedImgFeatList:检索图像特性列表后在查询扩展
目标:
提高检索结果
开始
finalRetrievedImgFeatList = startRetrievedImgFeatList #任务检索特性列表
#做查询扩展
= 0 numOfExpansion做:
开始
meanImgFeat =意味着(finalRetrievedImgFeatList inputImgFeat)#计算平均向量的检索功能列表;这个向量包含所有检索结果之间的最一般的特性,可以用来计算距离所有输入功能。帮助识别异常值的距离和downrank他们使用一个合适的阈值。
finalRetrievedImgFeatList=检索(meanImgFeat,k)#计算平均向量之间的距离和特征的图像检索;reranking应用基于计算距离。最后,先k相似的图像作为检索结果
结束
结束

图中描述7在线阶段CFOR系统包含三个阶段将投入使用。他们有如下。

3.2.2。预测阶段

这个阶段将利用从离线阶段获得对象本体和分类模型,然后让每个查询预测从粗到细的图片: 在哪里 是查询图像, 对象标识(证明是一个对象边界框), 是对象地区, 是对象与区域信息, 分别是对象类和对象属性。

细粒度的信息的区域、类别和属性为客户提供更多的选择给一个完整的语义查询。对象将从粗到细的预测。反过来,该地区、类别和属性将预测基于对象本体和一个本地MDNN。语义信息提取的对象检索系统使用详细的类别和属性搜索。

3.2.3。不同测量阶段

这个阶段将利用数据库以及索引文件的离线阶段和不同测量分数和排名,rerank和发布为每个查询图像检索结果。这个阶段是基于查询的不同属性之间的测量向量图像和数据库图片:

基于组合K最近的邻居搜索的L2距离和非对称距离计算(ADC将部分中提到6),我们通过做利用GPU的并行处理方法(17)计算的距离查询数据库中必要的一个形象。的距离也称为数据库中的每个图像的分数然后排序等级不同。图像的分数越小,越相似查询。根据所需的检索图像数量或阈值,我们将有一个合适的截止在分数以及检索图像的数量。这种测量是用来计算深度特征向量和属性向量的距离。

3.2.4。查询扩张阶段

查询扩展技术可以帮助收集更多的相关信息从输入来提高检索性能。信息相关的图片、附加功能、描述等基于查询扩展算法和数据。在这个阶段,我们希望利用前面的检索查询结果,然后扩大利用均值向量重新排列,得到reranked检索结果来提高检索性能。

查询扩展基于均值向量选择在许多方法中提到(40- - - - - -42),因为在速度和性能的权衡,也适用于大规模数据集。当提取特征表示图像经过CFOR系统查询,检索结果可以包含异常值的限制相似性之间的映射输入特性和数据库中的样本。通过应用算法3均值向量计算特征的检索结果和输入的特点有助于减少偏见之间不同的特性。因此,CFOR系统可以消除不相关的功能;检索功能,有很高的差距离均值向量的特性,帮助减少离群值和精度的分数上升。

执行查询扩展基于计算平均向量非常快,它可以利用做相似性搜索方法(17]。查询扩展可以消除异常值,由于统计平均向量的本质。

4所示。在时尚界时尚本体:CFOR系统测试

在本节中,我们将提到本体论,时尚本体及其相关信息和当前对象本体CFOR系统的贡献。

4.1。本体定义CFOR系统

如前所述,Guarino (43),本体被定义为一个“正式的、共享的概念化的明确的规范。“大多数本体被描述为一组概念之后,他们的相对结构,它可以帮助描述为一个域和支持信息。完成本体应该有一组概念(C),一组对应的关系(R),最后是公理。同时,在[22),本体提供了一些主要优势:(我)的形式描述领域知识语义概念层次树包括节点可以由单词或短语(2)支持缩小语义鸿沟在许多任务在计算机视觉和其他学科(3)实现在软件工程中重要的改进:灵活性、可靠性、规范和可重用性(iv)有可能支持解决多任务的问题

提出了本体应该满足以下两个基本要求:(我)广泛认可的社区(2)能力被形式化的数学表达式(数字化)的能力

在我们的方法中,我们使用本体论之间的沟通和信息共享工程不同的数据抽象级别参与时尚检索图像,检测和标记信息。

对象本体包括两个主要级别:粗粒度和细粒度级别。(我)在粗级别对象本体包括地区,类别,或任何类型的高层概念可以使用全局特征提取的深度网络。这些全球特性可以用于相似检索。然而,深特性视为黑盒,所以没有语义信息可以显示支持客户搜索过程。(2)在细粒度级别对象本体由对象的属性,可以用来详细描述的对象。

“时尚”是描述在我们的实验对象。时尚本体是由先验知识和信息在DeepFashion数据集(8和由Guarino引入本体的定义43)(见图9时尚本体)。

三个最重要的语义水平发达的时尚本体如下:(我)区域(地区,例如,衣服:顶部,底部,和身体)(2)类别(包括与该地区相关的特定对象,例如,身体:礼服,长袍,等等)。(3)属性(描述视觉细粒度的概念,例如:面料:牛仔,皮毛,等等)。

专注于必要的要点,我们只在三个地区调查对象的时尚(最高,身体,和底部),一些主要类别相关的三个区域,和它们的属性。

在CFOR系统中,查询图像将被送入系统从粗水平基于对象本体来确定该地区和类别相应的对象。然后,每个对象与粗信息将通过细粒度的概念本体识别属性。后相应的对象所需的所有信息,它会通过索引的步骤和计算相似性距离一步帮助找到一个类似的图像数据库中排名得分。排名得分是全球特征的相似性得分的总和提取类别分类之间的相似性得分在属性学习任务和查询图像和目标数据库图像(见图10更多的细节)。

4.2。时尚对象本体

在本节中,我们提出了时尚对象本体。在时尚领域,我们把语义时尚概念基于区域(地区)。对于每个区域,我们将有一个更详细的本体论根据类别和属性。支持DeepFashion数据集实验(8),我们扩大时尚本体的“衣服”分支(见图9)。重要的是要注意,提出本体不是应用程序依赖、应该被认为是一个可扩展的基础。

时尚对象本体包括多个层次的概念。每一层是一组之间的关系来描述他们的关系。主要有两种关系:(我)“部分”:用于指定的关系概念是部分的主要概念(2)“有一个”:用于描述的主要概念的关系的细节

在这个研究中,我们只关注衣服分支做出公平与其他方法的比较。衣服分类有50个不同的类别。一块布地区分类定义(见图11),安排所有布类别层次结构,第一级的对应于服装的最一般的地区。定义三个主要区域:(我)(例如,三通和槽)(2)底部(例如,裙子和牛仔裤)(3)身体(例如,礼服,长袍)

4.3。细粒度对象本体

细粒度对象本体是用来描述对象在属性级别。语义信息等属性可以用于客户检索(见图12)。重要的是要注意,提出本体不是应用程序依赖、应该被认为是一个可扩展的基础。

布levels-some上定义不同属性的所有布地区(如颜色)和一些属性保留,只有某些地区或类别。我们已经在两个主要结构本体部分;每个部分将详细介绍该本体的在下一个部分:(我)具体的特定特征的衣服时尚相关概念(织物、部分和风格)。(2)视觉相关概念流行的视觉特征(颜色、形状和纹理);他们不是只保留为时尚。

在[6],陆克文等人已经证明一个多任务在精度上优于模型显示了更好的性能比单一任务的组合上优于面对属性预测模型。这种方法可以应用于时装属性也显示了良好的结果。但是,与面对属性数量的限制,有各种各样的时尚属性。这种方法会导致困难在扩大系统(例如,培训和存储)。基于时尚本体的水平,我们可以申请当地多任务学习属性学习更灵活。在下一节中给出的解释是也。

4.3.1。视觉概念

视觉概念由形状概念,纹理的概念,和颜色的概念。这些视觉概念通常是稳定和有限制数量。因此,它会导致我们可以使用当地的多任务学习解决属性预测问题。此外,模型训练以这种方式可以利用群的相关性来提高性能(见图13视觉概念)。

(1)形状的概念。这部分的本体受到DeepFashion数据集的结果(刘et al。8])。在类别和属性预测基准测试中,总共有180形状属性,和我们使用的形状的概念(详情见附件)。然而,我们实验在较小的版本等形状概念马克西,衬衫,健康,bodycon,迷你,midi,苗条。

(2)结构的概念。这部分的本体受到DeepFashion数据集的结果(刘et al。8])。在类别和属性预测基准测试中,总共有156纹理属性,我们使用所有这些纹理的概念(详情见附件)。然而,我们实验在较小的版本结构概念,如打印印花、条纹、圆点、亚麻、泥灰和豹。

(3)颜色概念。这部分本体来源于ISCC-NBS (Inter-Society颜色Council-National标准局)颜色字典。一个有趣的反映了这本字典的有效性是由米勒和Johnson-Laird在1976年。三种观念包括:色调、亮度和饱和度的概念。有28色调的概念(表4)可结合五种亮度的概念(非常黑暗,黑暗,介质,光,和很轻)和四个饱和度概念(灰色,温和,强壮,和生动的)。特定组合的亮度和饱和度的概念有一个感性的意思。例如,“聪明”的概念是一个协会的光和强大的概念。公理的本体中表达这些关联。提到的颜色概念尤其有利于识别时尚因为HSV颜色模型是接近人类的色彩感知。

在时尚界检索,需要检查是否查询与检索的图像具有相同的颜色。为了解决这个问题,颜色值和颜色设置推荐使用相似性计算分数排名检索结果。给颜色属性的特殊待遇,有两个原因:第一,分类值描述的颜色(红、蓝、黄等)已被提到的颜色概念,但两种颜色之间的不同可以计算出如果名称映射到HSV值。第二,颜色属性可以取几个值相同的物品(例如,衬衫是红色和白色的)。为了比较两个布颜色的项目,需要引入两个概念:两种颜色之间的不同和两个彩色图像之间的不同。

假设颜色 形容在HSV空间吗 , ,两个值的不同距离算法中定义颜色4

过程:DISSIMILARITY_DISTANCE_OF_TWO_COLORS
输入:
:第一个HSV颜色
:第二个HSV颜色
输出:
:颜色不同的距离两个HSV颜色
目标:
计算不同的两种颜色
开始
/ /灰色颜色小V,年代,或身份不明的H
isGrey1 =
isGrey1 =
/ /检查是否都是灰色的颜色
如果(isGrey1 & & isGrey2):
如果(isGrey1 = = 0 & & isGrey2 = = 0): / /都是颜色
其他:#不关心H通道
结束

识别两个彩色图像之间的不同,直方图相交(44)选择评价的区别两个颜色分布的时尚形象。与给定的直方图, 的图片 ,假设每一个包含n垃圾箱;然后,直方图相交 定义如下:

两种颜色之间的不同和两个彩色图像之间的不同,我们可以减少搜索空间来提高检索性能。直方图交叉应用一般检索任务(不使用颜色选项)。

4.3.2。特定的时尚概念

特定的时尚概念包括织物概念,部分概念和风格的概念。这些概念只能出现在衣服,所以我们称他们为特定的概念。因此,我们不能使用基于多任务学习模型,所(37),来解决属性预测问题。因为数量的特定的时尚属性可以扩展迅速,基于多任务学习模型训练与一个更大的数据集,每当一个新属性添加到系统中。当地的多任务学习提出了解决这一问题(部分中提到5)(见图14为特定的时尚概念)。

(1)织物的概念。这部分的本体受到DeepFashion数据集的结果(刘et al。8])。在类别和属性预测基准测试中,总共有218面料属性,和我们使用的面料概念(详情见附件)。然而,我们实验在较小的版本织物概念,如花边针织、牛仔、雪纺,染料,皮毛,和金属。

(2)部分的概念。这部分的本体受到DeepFashion数据集的结果(刘et al。8])。在类别和属性预测基准测试中,总共有216属性的一部分,我们使用所有这些概念部分(详情见附件)。然而,我们实验等部分概念套在较小的版本,无袖,v领,衣领,按钮,邮政,鞠躬。

(3)风格的概念。这部分的本体受到DeepFashion数据集的结果(刘et al。8])。在类别和属性预测基准测试中,总共有230样式属性,我们使用所有这些风格的概念(详情见附件)。然而,我们实验在较小的版本风格概念,如夏季经典,聚会,别致,固体,锻炼,和大学。

5。属性学习

提供细粒度信息CFOR系统、属性学习是最重要的任务应该是优化的时间处理性能和能力处理大规模的不平衡数据集。

5.1。框架

就像前面提到的1,当地的多任务学习被认为是在属性的学习。拟议的框架(如图15包括在线和离线阶段)总共有三个部分。第一部分旨在介绍当地的多任务转移学习模型和损失函数利用属性群的相关性。第二部分展示了一个不平衡数据解算器基于MCC pretrained模型中没有任何修订以及损失函数。第三部分提到的先验知识对当地支持当地MTL属性分组。

学习框架的输入和输出将图片和属性向量,分别。的角色,然而,与当地的分组属性向量的大小将基于属性在每个组的数量。数据集应该合并或分割基于本地分组的作用。

评估拟议的框架的有效性,我们把它应用在时尚领域,数据集分割成五个当地组织:面料、形状、风格,和纹理。因为时尚群体间相关性较小,共享块应该设计优化的有效性群相关性提高整体性能。然而,在人群属性(如活动、位置和参与者),组间相关性应该考虑来提高性能。因此,共享块应该被修改以适应环境。

5.2。深的多任务学习

我们的目标是估计的时尚属性通过一个联合估计模型。然而,随着动态属性,MTL支持创建联合估计模型在训练阶段变得脆弱时由于其nonusability属性数量的增加。因此,当地的分组方法可以帮助解决这种情况。

5.2.1。框架的细节

在实验中,该框架将查询图像,然后输出7属性得分每组5组作为一个自信得分向量然后阈值二进制输出。下面详细描述的架构。

15显示了该方法的整体结构。对于每一组,我们假设一个训练集N时尚图像;每个人都有属性。数据集来标示 ,在哪里 将的一个炎热的向量样本的标签。灵感来自于研究[25),我们使用一个端到端的架构作为一个款共享块学习联合表示所有的任务。损失函数是二进制交叉熵和激活函数使用乙状结肠在输出层,使其简单而容易改变建筑款。

5.2.2。损失函数

损失函数可以计算为一个二进制的和交叉熵的损失所有的标签(方程(5));这是一个有效的方法来处理多任务学习没有配置款模型: 在哪里 是multioutput样品标签, 是一个属性的标签样本, 是multioutput预测样本, 一个样本的预测是一个属性,N代表样本的数量,代表的数量属性。

5.2.3。网络体系结构

(1)NASNet。自动生产网络体系结构,NASNet重构最优模型通过生成架构在一个较小的数据集和扩大到一个更大的一个。通过实验,他们寻找最好的细胞CIFAR-10数据集,然后将它们应用于ImageNet [33]数据集通过叠加在一起更多的副本,每个都有自己的参数(图16)。创建的模型被证明得到1.2%的改善(相比精度最好的人造的架构。正如上面提到的,在之前的架构NASNet显示了其有效性,它还有一个转移学习模式在大型多元化ImageNet数据集(33]。利用NASNet pretrained ImageNet模型,我们应用转移学习DeepFashion [8]数据集来加速收敛性和提高性能。应用NASNet时,我们也添加一个辍学层,以减少过度拟合。这是一个很好的考虑使用NASNet模型生成算法自适应模型DeepFashion数据集。然而,NASNet消耗很多的时间和硬件资源从头开始生成模型和训练。因为我们在硬件的限制,只转移学习应用。

(2)ResNet。ResNet,仔细人造的架构,创建与拟议中的残块。多亏了他们,这个架构有一个最小化的能力退化问题学习的影响越来越深在一个复杂的网络。的核心思想是强迫学习的网络身份映射通过学习一些层的残余的输入和输出(或子网)。

假设输入的子网x和真正的输出H(x)。而不是学习的直接映射xy与一个函数H(x)(几堆非线性层)x表示输入到第一层,他们定义剩余函数(假设输入x和输出H(x)相同的维度)使用35]

当我们找到真正感兴趣,潜在的子网的输出,然后重新安排这个原始函数H(x)=F(x)+x,在那里xF(x),对应于非线性层的堆栈和恒等函数(输入输出)。

这些东西使ResNet之间的差异和原始神经网络(网络)(图17)。原来的神经网络将学习H(x)直接ResNet模型层学习输入和输出的残余子网(非线性层堆栈)。创新,在分类任务ISVRC2015,这个模型有出色赢得了第一名,前五名测试错误率为3.57%。极深表示也有良好的泛化性能在其他识别任务:ImageNet检测、ImageNet本地化,可可检测和可可分割2015年ILSVRC和可可比赛。正如上面提到的,在之前的架构ResNet显示了其有效性,它还有一个转移学习模式在大型多元化ImageNet数据集(33]。也因为这样,ResNet适合我们的要求。

我们将做实验在ResNet [35]和NASNet [36)架构找出哪一个是适合每个特定的任务在我们CFOR系统。以我们的方式检索实验,应用类别分类器任务和区域分类器传输单一任务学习,而时装属性识别应用当地的多任务学习。此外,适应大规模数据集,减少过度拟合的影响,我们建议改变最终的完全连接层全球平均池层以及辍学。这些变化也显示在实验部分7

5.2.4。当地的多任务学习时装属性

我们单独的时尚属性数据集分成5组:面料、样式、形状和纹理。每个小组将应用个体MTL模型。,当添加任何新的属性,只有那组属性属于再次训练,我们可以重用的模型。此外,每组群相关性可以学到内部提高整体性能。

5.2.5。不平衡数据解决问题

阈值后将自信的分数预测来确定每个二进制的二进制值属性。通常,阈值不超过0.5。然而,与不平衡数据,值并不总是最好的一个,而预测输出常常是偏见来更多的数据类。通过应用MCC在配置每个属性阈值,我们希望找到最优解决数据不平衡问题。

5.3。马修斯的相关系数

MCC,二进制变量的皮尔森相关歧视版本之间有一个值1 + 1。+ 1的系数代表了一个完美的预测,平均0随机预测,1逆预测。MCC可以帮助衡量二进制分类的质量。因此,我们可以根据MCC改变阈值适用于每个类的不平衡数据集。

有两个二进制变量xy显示对象的属性的存在与否, , , , 分别是真阳性的数量,真正的底片,假阳性、假阴性,MCC被定义为(2]

在方程(7),如果任何的四个总结分母为零,分母可以任意设置为1,这导致马修斯的相关系数被蒙面为零,可以证明是正确的极限值。

与给定阈值在0和1之间,MCC可以基于预测输出和图像标签给一个分数。分数越高,更好的质量和更优的分类属性的阈值预测。测试数量足够大的阈值后,我们可以找到最好的为每个属性,最大限度地减少不平衡数据的影响。

MCC可以称为φ相关系数的应用程序 ——二进制版本的皮尔森相关系数(PCC)和2二进制变量xy显示一个属性的存在与否的对象。皮尔逊相关系数的相关系数(也称为短)是一种二元关系的两个变量之间的线性相关xy。它有一个−1和+ 1之间的值,+ 1在哪里总正线性相关,0 =没有线性相关性,−1是总负线性相关。

让PCC 在哪里 是两个变量的协方差吗xy, 是变量的标准偏差x, 是变量的标准偏差y, 是观察的总数。两个二进制变量被认为是积极相关如果数据下降沿对角线细胞和被认为是负相关的,如果他们对角。让我们考虑一个2×2为两个二进制变量状态表xy(表5)。

在这里, 都是非负的项数总和的观察 总项数的观察什么时候 ,分别。

xy是二进制变量,

当我们有multilabels,寻找最佳阈值对他们来说,我们应该考虑算法5

过程:FIND_BEST_THRESHOLDS
输入:
trainPred/ /multilabel数组中的每个样本训练集的预测
trainLabels/ /multilabels数组中的所有样本训练集
initThresholds/ /一组候选阈值与值在[0,1]
输出:
bestThresholds/ /每个标签的最佳阈值的数组
目标:
寻找最佳阈值multilabels MCC的不平衡数据问题解决者
开始
= 0numberOfLabel做的事:
开始
(possibleMattVals)⟵(空)
#选择阈值
j= 0长度(initThresholds):
开始
(pred)⟵(空)
(currTrainLabel)⟵(空)
#从目前得到预测阈值
k= 0numberOfSample做的事:
开始
如果trainPred(k][)> =j:
pred⟵1
其他:
pred⟵0
currTrainLabeltrainLabel(k][]
结束
possibleMattVals⟵matthrews_corrcoef (currTrainLabel,pred)#访问方程(7)MCC的全部计算。
结束
bestThresholdsinitThresholds[马克斯的位置(possibleMattVals)# MCC最高的阈值在阈值初始化列表中选择每个属性。
结束
结束

为每个标签与最佳阈值,我们可以使用它们来得到一个预测不平衡数据的二进制值最小的影响问题。算法6可以将模型预测的值转换为二进制值。

过程:BINARY_CONVERTER
输入:
testPred/ /multilabel预测数组中每个样本的测试集
bestThresholds/ /每个标签的最佳阈值的数组
输出:
binaryTestPred/ /数组multilabel每个样本的预测。
目标:
得分向量转换为二进制向量在MCC不平衡数据问题解决者
开始
= 0numberOfSample做的事:
开始
(binaryConverted)⟵(空)
为每个预测#二进制转换器
j= 0numberOfLabel做的事:
开始
如果testPred(][j)> =bestThresholds(j]:
binaryConverted⟵1
其他:
binaryConverted⟵0
结束
binaryTestPredbinaryConverted#显示整体预测
结束
结束
5.4。本地属性分组方法

我们的分组方法是基于特征的一般属性和时尚的。因此,我们单独的属性分成两个大组:一般的和一个时尚。在每一组中,我们定义一些概念;每一个将应用MTL。通用集团,我们建议视觉概念可以出现在任何类型的对象不受时尚,包括颜色、形状和纹理。时尚集团,我们提出的概念,只有出现在时尚对象包括织物、和风格(见表6)。所有实验属性定义的分组方法利用本体(尤其是时尚细粒度的概念本体)的部分4

6。搜索和索引方法CFOR系统

使我们的检索系统适合应用于大规模数据集,创建索引CFOR系统与GPU支持nonexhaustive相似性搜索。为了使这项工作,我们继承了搜索算法引入Johnson et al。(billion-scale相似性搜索与gpu (17])和应用CFOR系统检索任务。在搜索、CFOR系统有助于减少搜索空间的额外信息(地区、类别和属性)使搜索更准确。在索引中,对象本体有助于创建多索引文件,以减少搜索时间。我们关心的是相似性搜索向量集合运用L2距离k选择算法。

据我们所知,搜索可以分为精确搜索(穷举搜索)和压缩(贪婪nonexhaustive搜索)。让我们 ,给定的查询向量的集合 ,相应的图像矢量数据库。

6.1。精确搜索

几乎所有的搜索算法在这种尝试计算完整的两两之间的距离顺序查询和数据库中的每个数据点或使用索引文件。为了达到这个目标,我们计算完整的两两距离矩阵 精确搜索可以帮助减少计算误差之间的距离查询和数据库中的每个元素。然而,它需要长时间才能完成的计算,因为它详尽的搜索能力,不适合大规模的搜索。

6.2。压缩域搜索

几乎所有的搜索算法在这种尝试计算距离查询和数据库中的每个数据点通过应用空间转换、编码、子空间分割,或散列。这些方法可以帮助改善搜索时间通过使用索引文件,但他们有一个权衡搜索精度。

在这种方法中,利用编码和近似计算在搜索的力量来提高检索速度,我们关注的是近似近邻搜索。IVFADC(一个反向索引文件系统与非对称距离计算编码)索引结构提出了(17),编码数据库向量和量化提取定义索引文件。IVFADC距离( )是计算未编码查询和每个编码数据库之间的距离向量转换后的压缩域。当 数据库是一个向量,我们量化它吗 在哪里 是粗量化器和 是一个很好的量化器。集是有限的, 可以通过粗量化器的索引重建和细量化器。因为 编码,计算查询向量之间的距离 和一个向量 在数据库中,我们需要一个近似搜索距离,作为提出的做(17];不对称距离计算(ADC)帮助一个未编码的输入查询和计算距离编码向量数据库中的应用: 在哪里 计算距离和吗 最近的邻居的数量吗

而搜索并不详尽,向量的距离计算然后选择基于一级量化器 我们的搜索方法距离是那么需要适应压缩域和帮助找出每个coarse-level查询和形心之间的距离。下面的方程显示了compressed-domain-transformed距离: 在哪里 在压缩域和转换后的距离是什么 是多探头的参数数量的coarse-level重心。

精确的量化器操作近邻搜索距离。因此,我们需要结合两个提到的可见距离搜索的方法。IVFADC搜索然后建立和计算 (未编码的查询和每个编码数据库之间的距离向量转换后的压缩域):

因此,IVFADC不仅是基于相同的距离估计coarse-fine量化,还可以计算向量的一个子集。

最后,反向索引文件,相应的数据结构,组向量 倒列表 与均匀

为了满足我们的目标在搜索大规模数据的要求,然后应用于压缩域搜索CFOR图像检索系统。

7所示。结果与讨论

评估的有效性CFOR系统,我们的实验上实现一个特定的数据集与许多不同的任务支持检索包括类别分类、属性预测和相似性检索。

在类别分类,我们证明的有效性两个架构:NASNet ResNet,找出适合分类CFOR系统。

在属性预测,我们证明的有效性提出了当地多任务学习框架与我们的建议不平衡数据解算器NASNet和ResNet。我们的实验设置本地MTL框架具有以下属性的任务:当地的多任务,多任务,和单一任务预测有和没有应用MCC。阈值修改输出预测可以减少培训时间利用转移学习,减少参数数量,简化损失函数。与数据增加相比,当地MTL并不增加过度拟合。

我们的实验是在电脑上使用Python进行以下规范:Intel Xeon e5 - 2650 v2推出这种处理器2.6 GHz 8.0 GT 20 MB / s, Ubuntu 16.04 64位操作系统,196 GB的RAM,英伟达1080 ti GPU 12 GB RAM。

7.1。数据

我们的时尚检索系统是建立在DeepFashion大约300000张照片的一个子集。DeepFashion数据集,对象从不同方面被复杂的背景。数据集的输入图像注释与不同的标签是基于输入的电流模型的细节(细粒度的)问题,即。、丰富的注释。中给出的样本数据1819显示更多细节DeepFashion数据集。

在测试中,我们使用基准的一部分数据来调整训练模型。我们确保没有时尚物品之间的重叠微调和测试集。数据集包括∼220000的图像训练集,验证集的40000张图片和40000测试集的图像分割的作者(35]。然而,属性学习,我们有限的数量属性标签用于测试和训练图像的数量为特定属性属性不均衡数据集(IAD-35),以证明我们提出的方法。表78显示的数据不平衡问题IAD-35数据集在本地分组和外地grouping-applied情况下(我们考虑两个属性属于较少的数据属性组或多个数据属性组如果样本之间的比率高于3)。这些表显示出巨大的差异在不平衡数据集相比全球情况(没有分组)和当地的分组情况。

这些表显示的属性数量更多的数据需求量增加应用当地时分组方法。这将有助于减少数据不平衡问题在每个本地组培训模式。如果我们继续训练在整个不平衡数据集,属性之间的不平衡的差距成为高等使培训模型容易有偏见。

7.2。测试和竞争方法

比较结果与其他研究工作更容易,我们使用前k精度为属性类别分类和排名前记得多任务学习。需要澄清的是,我们一般定义这些方法比较:

单一任务分类,让 是一个数据集组成的单标牌的例子 , ,在哪里 是一组可能的类。让 分类器和 是标签的集合预测 相应的例子

获得最高k的准确性,检查目标是否标签是最高的国家之一k预测(k的概率最高的)。最高得分计算作为次预测标签匹配目标标签,除以例子的数量评估:

多任务学习与二元标签,让 是一个数据集组成的 multilabel例子 , ,在哪里 是标签的数量。让 multilabel分类器和 是标签的设置会员资格的预测 对于示例

准确性、为每个实例被定义为预期的比例正确标签总数(预测和实际)标签的实例。总体精度平均在所有实例:

精度是一个比例的预测正确标签的总数实际标签,平均超过所有实例:

回忆是一个比例的预测正确标签的总数预计标签,平均超过所有实例:

意味着平均精度(地图),它提供了一种撇开组成的测量精度和召回,用于评价检索结果的有效性。它评估在多大程度上正确的检索结果在高排名。在评价措施,特别是地图已被证明有良好的歧视和稳定。需要的一个信息,平均精度(美联社)的平均精度值获得最高的集合k现有图像在每个相关图像检索: 在哪里 在这 是一个查询图像的查询设置; 是一组排名查询检索图像吗 ; 的精度k;和 是一个指标函数等于1如果图像等级k是相关的,否则为零。

明确的,我们将实验过程划分为学术和应用程序。

7.3。结果与讨论

CFOR系统、对象本体是有用的在控制培训流影响的性能对象类别分类和属性多任务的分类。为对象类别分类、本体控制通过训练数据量的概念。多任务的属性分类、本体管理本地分组直接影响当地的性能提出了不平衡数据解算器在大型数据集。

在本节中,我们将评估的有效性不同深度网络的支持下本体类别分类和属性CFOR系统多任务分类挑选最好的架构培训系统。我们还将比较我们的结果和FashionNet [8]。

7.3.1。类别分类

我们比较不同深度之间的性能架构包括NASNet ResNet-18, ResNet - 101, FashionNet, NASNet平均池辍学(NASNet adp)提出的(美国),和ResNet平均池辍学(ResNet adp)(我们)提出的。这些实验将由最高评价k准确性(表9和图20.)。我们的目标是找出最好的架构应用的核心网络CFOR系统。这一步可以提到之前的准备步骤CFOR系统申请的方式检索。

类别分类的结果ResNet-18 adp(高于1.23%k= 1)删除节点后,使平均池ResNet-18架构(与原ResNet-18架构)。这个增值0.93% resnet - 101体系结构(与原始resnet - 101体系结构)和0.02% NASNet v3架构(相对于原始NASNet v3架构)。美国resnet - 101体系结构(最好的架构解决)表现FashionNet架构(表现最好的架构在DeepFashion类别分类数据集和WTBI或该死)等,和值是4.6%k= 3和2.58%k= 5(见图21一些例子的结果最好的对象类别分类模型)(45]。

基于上述实验结果,resnet - 101体系结构提供了更好的分类和更高的性能相比其他人(NASNet和ResNet-18)。出于这个原因,我们建议resnet - 101为核心的网络体系结构进行训练分类模型。

7.3.2。属性学习

属性多任务学习是CFOR系统的一个重要组成部分。在本节中,我们评估的性能提出了局部不平衡数据解算器与MCC在处理大规模数据集时尚上的不平衡的属性数据。

精确的比例相关实例中检索实例既考虑在每个属性真阳性和假阳性。然而,真阳性和假阳性的数量是偏见,因为不平衡数据的问题。因此,精度也可以受到不平衡数据的问题。否则,召回,关心真阳性但不是假阳性的标签,标签将被用来评估实验因其优良的反射更少的数据属性:

第一个实验,我们将展示当地MTL的有效性在STL和MTL在时尚属性(表10)。在STL和MTL,我们应用数据集安排如表7,而在当地MTL,我们应用数据集安排如表8,分为5个规模较小的本地组。

当地MTL对STL和MTL在28/35属性召回率54.70%(高于STL(17.06%)和在MTL (28.70%))。在单个任务显示其弱点更少的数据属性和一心多用的同时患有严重的不平衡问题,在时尚界小群体间的相关性数据,当地MTL可以降低负面影响以及扩大群相关性属性学习的积极作用。因此,当地MTL对STL和MTL在较少样本属性(图13/1522)。

第二个实验,我们表明了MCC在解决不平衡数据的有效性问题(表11)。在这个实验中,应用当地MTL的数据集安排如表8,分为5个规模较小的本地组。

基于实验,比较别致,固体和马克西属性之间具有同等精度MTL和没有与MCC MCC表明MTL相比有更高的回忆,没有MCC在20/35剩下的属性。整体性能提高约3%。用更少的数据属性,MTL MCC相比有更高的回忆,没有MCC在9/14属性。这些少的总体性能数据属性增加5.14%(见图23更多的细节)。

此外,在图24,一些示例属性多任务分类模型可视化的结果证明了该方法的有效性。

7.4。在CFOR检索系统

在这个实验中,我们测试的检索能力CFOR系统通过使用图1为每个查询检索结果((电子邮件保护)为每个查询(30)检索结果(电子邮件保护)),以评估有效性。相似性检索实验将检查是否提取的属性检索图像与真实属性查询的形象。检索方法将基于深特性和35岁以上属性。在35个属性属于5组实验后,开始(电子邮件保护)0.531是可以接受的(盘旋)显示了搜索方法的有效性。的(电子邮件保护)徘徊在0.815,持续上涨的趋势,显示信息的一致性和稳定性预测方法CFOR系统(图25)。一个简单的检索过程的可视化CFOR系统如图26

此外,澄清的潜力CFOR系统在真实的应用程序中,表12演示了倍所需训练、测试和更新系统。

8。结论和观点

这项工作提出了而且对象检索系统,学习电子商务在线检索框架,支持应对大规模的不平衡数据集。框架可以影响输入和输出以及重建数据集从粗粒度级别到细粒度级别和被认为是一种有效的方法提高学习检索的性能设计。输入重建、基于本体的框架用于线程培训流程,本地分组学习在多任务属性和层次结构存储和检索。输出优化,我们利用MCC减少不平衡数据集在多任务属性的影响学习。

通过大量的实验中,我们将演示对象本体的适用性改进培训流程,不同深度网络的有效性(ResNet和NASNet)应用于细粒度检索的重要任务,和当地的多任务属性的有效性学习和MCC-based不平衡数据解算器属性多任务学习。CFOR系统设计的灵活性,以便它可以优化容易在未来。

附录

本节旨在充分表达的组织(手动)细粒度属性概念与每组的概念(见表13更多的细节)。注意的概念和组织概念可以添加,编辑,改变,或删除。

数据可用性

DeepFashion数据集用于支持本研究的发现刘已经存入存储库(https://drive.google.com/drive/folders/0B7EVK8r0v71pQ2FuZ0k0QnhBQnc)。这个数据集MMLAB下是正确的,请按照协议和dowload指令覆盖:http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html。以下数据集用于支持本研究的发现,或从本研究目前正在禁运,而研究成果商业化:结构化DeepFashion裁剪图像的数据集,属性不平衡数据集(IAD-35)从DeepFashion过滤数据集,而且时尚对象和提取数据库检索。请求数据将被相应的作者,和数据将发表在一个月后(最多12个月)发表这篇文章。

的利益冲突

代表所有作者Ngoc Ly宣称没有利益冲突有关的出版。

确认

这项研究是由越南国家University-Ho胡志明市(VNUHCM)批准号B2018-18-01。我们应感谢广d Tran先生和AIOZ Pte . ltd .)公司的实习合作的宝贵支持。