文摘
本文深入研究和分析了属性建模和知识获取大量的图像进行了使用图像识别。对协会的复杂性不完整的数据的属性之间的关系,对于一个子网建模方法提出了不完整的数据建立一个神经网络模型与每个缺失的属性作为输出单独和其他属性作为输入,和网络结构可以深入描绘协会每个属性和其他属性之间的关系。解决这一问题的不完整的模型输入由于缺失值的存在,我们建议治疗并描述缺失的值作为系统级变量和实现网络参数和动态的交替更新填补缺失值的子网中通过迭代学习。该方法能够有效地利用所有的信息目前的属性值在不完整的数据,和获得的子网人口模型是适合暗示属性关联关系的当前属性值不完整的数据。现有图像语义建模算法的优缺点进行了分析。减少手动标签数据的工作量,本文提出使用在线学习算法自动通过映像级别的语义标签图像的像素区域,那里的算法不需要依靠外部探测器和数据集的先验知识。然后,一个有效的深层神经网络映射算法设计和实现显微加工这条边处理器的体系结构和软件编程框架,和一个布局方案提出将输入特征图谱在内核DDR和重新排序卷积核矩阵内核存储体内并设计相应的有效的向量化算法的多维卷积矩阵计算,多维池计算,局部线性归一化,等,存在于深卷积神经网络模型。有效矢量映射方案是专为多维卷积矩阵计算,多维池计算,局部线性归一化等在深卷积神经网络模型,利用MAC组件的核心循环可以达到100%。
1。介绍
随着互联网技术的快速发展,信息的载体已从传统的文本记录更丰富的多媒体记录。多媒体运营商,如图像,声音和视频包含各种各样的信息。与文本记录,其中包含许多抽象概念,多媒体信息内容主要是描述为比喻的感官信息。如何使人工智能学会理解多媒体内容,同时关联抽象与直观的多媒体内容文本语义信息已成为一个研究课题近年来越来越浓的兴趣(1]。在本文中,我们重点学习多通道图像和文本之间的相关性,从基本的多通道数据协会,并自动构建大规模数据集的图像文字映射基于图像和文本之间的互补性,为后续研究工作奠定基础2]。首先,从基本的多通道数据协会,依靠图像和文本之间的互补性自动构建一个大规模的图像文字映射数据集,为后续的研究工作奠定了基础。然后,大规模弱监督学习方法基于数据特性的图像文字协会介绍学习图像特征表示和文本特征表示在一个统一的特征空间和模型之间的对应关系。最后,提出了两个关键的应用程序多通道协会学习:交叉图像检索和多通道推论视觉挖苦,和各种不同的解决方案对应于这两个应用程序提供。与基于图像和文本的深度学习技术进步在各自的领域,研究这两种不同的模式之间的相关分析,图像和文本和相应的应用程序变得越来越重要。然而,抽象性质的文本和图形表示的图像是非常不同的,这使得text-image-based相关分析一个复杂的学习任务(3]。
想象,人类大脑处理视觉信号和语音信号感知事物同时,结合这两个构建认知。这种多通道交互是非常重要的在人类大脑的认知和学习的过程。此外,这种多元的思维方式会直接影响人类大脑的推理和判断,例如,应用问题和答案的任务需要合成语音信号的意义和视觉信息建立一个连接,然后原因(4]。如果我们可以解决多通道协会学习任务基于图像和文字,这将提供两个主要的技术领域集成和相互增强的图像和文本。研究产品设计知识的表示和建模产品设计的任务。的造型设计任务的定义是基于知识模型集成的设计任务空间和知识有效空间。图像语义建模技术是时代的要求。面临巨大的视觉数据生成每日在互联网上,有效的数据处理和分析技术是重要的研究课题,可以广泛应用于图像和视频识别、分类和检索(5]。在图像语义模型,它是一个具有挑战性的任务中提取有识别力的特性。将人类视觉机制引入到图像语义模型使计算机图像更符合人类行为的看法。关于这个主题的研究是非常重要的图像处理,可以应用于许多应用程序6]。
语义描述的对象在一个图像是一个有效的方法来解决“语义鸿沟。“属性学习的最重要的方面是如何获得图像的属性标签。获得具有语义信息的对象在一个图像,传统的方法是手动标注的图像数据。然而,人工注释是耗费时间和劳动密集型的大型图像数据库。因此,基于目标探测器或目标的属性注释方法过滤器是诞生了。理想情况下,图像需要使用所有目标探测器扫描获得的反应不同的物体,这样图像的语义属性可以被自动注释。然而,这个过程不是在实践中实现的;一方面,没有足够的研究来构建复杂的目标为大量的通用对象探测器;另一方面,语义层次问题变得严重,目标对象在一个图像数量的增加,而不是所有对象在图像有助于图像的语义模型。图像和文本的进步和发展基于深度学习技术在各自领域,研究两者之间的相关分析不同形式的图像和文本和相应的应用变得越来越重要。 It is pointed out that it is possible to annotate videos using 3000-4000 objects and achieve satisfactory results. In the context of big data, while paying attention to model accuracy should also pay more attention to the operational efficiency and deployment feasibility of algorithmic models in the big data environment, only algorithms with a better trade-off between algorithm performance and implementation efficiency can meet the practical needs. Big data puts higher demands on the software and hardware environment of computers, and deep learning models mostly require huge computing resources and efficient computing power. The existing software and hardware environment has severely restricted the research and application of deep learning-based image understanding technology, especially for the increasing number of edge devices, so that deep learning algorithms can run on edge devices to make them have intelligence as the current and future development trend in the general environment of IoT. This requires researchers to explore more efficient model training devices and endpoint inference platforms and corresponding software development platforms and efficient algorithm libraries.
2。的研究现状
全球基于特征建模算法的优点不变性好,计算简单,等等,它描述一个图像的整体属性,如颜色、纹理和形状特征。一般来说,全球特征表示图像作为任务学习的目的(固定长度的特征向量7]。颜色和shape-based特征融合和欧氏距离的方法提出了图像检索,用于实验和图像数据库包含150彩色图像和250灰度级图像8]。结果表明,综合颜色和shape-based特性表示99%的图像检索在第一两个位置。图像比较使用颜色一致性向量(闭路)提出,可以克服传统颜色直方图算法的缺点,缺乏空间信息。算法将每个像素分类一致的或不连贯的根据每个像素是否在每个色组属于最大相似的颜色区域,相干和非相干的闭路商店数量每个颜色的像素。该算法可以应用于图像检索由于其良好的实时性能(9]。整体表现提出了基于空间包络模型图像场景,那里的空间信封的低维表示图像的场景。提出五个感知维度,包括自然、开放、粗糙、扩张,和固体,能代表图像场景的主要空间结构(10]。
空间包络模型生成一个多维空间场景与共享成员的语义类别预计在一起(11]。生成图像描述模型提出了基于多个注意机制。多个关注模块构建引入人类关注的焦点一定区域的图像在图像观察到图像描述域(12]。第一,一个关注模块基于图像特征编码生成重量为每个特征图的构造通道方向,明确建模特性之间的重要渠道;然后,构造空间关注模块集中在一个特定的区域的图像特征提取模块输出特性映射在解码阶段;然后,重点的文本关注模块构造译码阶段生成话语之间存在的相关性,和三个关注的贡献模块最终模型评估使用消融实验;最后,一个完整的多注意模型基于上面提出的三个关注模块和使用监督学习培训(13]。实验结果在几个经典数据表明,该模型更好的模型中不同对象之间的关系图像和目标和相应的文本之间的相关性,达到良好的实验结果。
不过,在面对更细粒度的视觉内容理解的任务,等几种类型的细粒度的视觉理解任务研究,仍有许多改进的空间在现有的深度学习模型14]。首先,现有的深模型倾向于使用更深的单一模型来提高网络性能,和这些模型结构简单和容易的端到端培训的优势。然而,单一的模型倾向于只关注数量有限的地方特色和无法理解之间的依赖关系深入详细的特性,如时间相关的视频和对象的空间相关性15]。这些详细的功能是至关重要的相关性好视觉理解,所以为了更好地解决好形象理解任务,必须更好地考虑模型特性之间的相关性模型。其次,现有的模型通常是单级,直接模型读取输入信息和输出目标(16]。细粒度的视觉理解任务,单级的输出模型通常是不准确的。例如,当比较两个非常相似的图片,它是一种常见的人类实践最歧视的地区比较的两个图片,如果不能达成任何结论,然后继续下一个详细的地区,这一过程不断重复直到到达一个结论。这个过程看似复杂,但它包含的人类思想解析好增量学习视觉任务。通过分割成多个单级模型增量阶段,该模型可以更好地了解详细信息,逐步输出结果具有更高的信心水平。因此,本文的主要研究思想是使用进步的想法学习提高学习的相关特性问题好视觉理解任务。
3所示。分析大规模图像识别算法的属性建模和知识获取
3.1。属性建模和知识获取图像识别算法的设计
属性学习可以有效地解决这一问题所产生的“语义鸿沟”的底层视觉特征算法。属性学习可以描述图像的语义信息,可以应用于各种图像处理应用程序,包括图像场景分类和图像检索。语义描述的对象在一个图像是一个有效的方法来解决“语义鸿沟。“属性学习的最重要的方面是如何获得图像的属性标签。在第二阶段中,分类器是用于确定对象的类别在这些盒子。两级细粒度识别框架和目标检测框架比单级框架更复杂,但可以取得更好的性能。获取对象的语义信息图像,传统的方法是手动标注的图像数据。然而,人工注释是耗时和劳动密集型面对巨大的图像数据库。因此,基于目标探测器或目标的属性注释方法过滤器是诞生了。理想情况下,图像需要使用所有目标探测器扫描获得的反应不同的物体,这样图像的语义属性可以被自动注释。 However, this process is not achievable in practice; on the one hand, there is not enough research to build mature target detectors for a huge number of generic objects; on the other hand, the semantic hierarchy problem becomes acute as the number of target objects in an image increases, and not all objects in an image contribute to image semantic modelling. There is a huge amount of image data in the real world, and the existing datasets can only collect and label a very small fraction of it. Thus, for image recognition and classification tasks, the amount of data available for learning is far from sufficient. For the lack of training samples of the target classes in the test set, the algorithm cannot learn effective classification/recognition features from the available data. Searching the attributes of each object class to train the classifier is a very tedious task and not easy to implement. Therefore, how to efficiently learn high-level attribute features from existing datasets is a popular topic that attracts researchers. Traditional supervised learning-based classifiers can only identify the learned object classes and cannot be used for the classification of other objects. For example, classifiers learned from dog and cat datasets can only be used for dog and cat image classification, but not for horse and cow classification. Since it makes more sense to identify the concept of high-level attributes of images than object categories, we can use existing datasets to learn object attributes across categories.
地址属性的可变性不同样本之间的关系类别,我们考虑将整个对象划分为几个部分,每个部分分别建立线性模型,最后,平滑这些局部线性模型获得全球模式17]。t - s模糊模型的主要概念是模糊划分输入空间,然后近似全局非线性模型的局部线性模型。因此,t - s模型引入不完全数据建模,建模的类和它的想法是用来应付属性的变化带来的挑战类之间的关系,从而提高回归模型的拟合精度。传统的图像识别数据集建设通常是在一个无监督的方法获得数据基于直接搜索搜索引擎使用类别名称,如小图像数据集。然而,这种方法受到搜索引擎的性能和图像描述信息的通用搜索引擎是基于周围的文本描述图像在网页文档检索,并返回的搜索结果的排序是根据用户的点击行为,导致数据集构建基于这种方法通常有更多的噪音和更严重的偏见(如图1)。
在本文中,我们提出了增量学习的想法来改善通用深学习模式,我们称之为深增量学习,提出了增量学习框架不同于上述框架用下列方法。与普通单级深度学习框架,提出深进步学习框架将任务划分为多个阶段,每个阶段关注的信息在特定对象的详细级别,深化阶段,逐渐积累的详细信息,和模型的理解对象的增加,最终导致对象的深刻理解。这种多级设计分割好的视觉理解任务的难度,避免了通用模型只关注某一个区别的地区,允许模型来更好地我和理解好对象特性。的造型设计任务的定义是基于知识的造型,和设计任务空间和知识空间有效地集成。图像语义建模技术是时代发展的要求。同时,有别于传统的独立的多级计算机视觉框架,之间有一个紧密的联系的多个阶段深进步学习框架。根据任务,可以灵活地定义不同阶段之间的关系。可以有时间关联、空间关联,相互作用关联,模态关联,等等之间的阶段,和这些关联使进步的学习框架形成一个有机的整体。在大多数应用程序场景在随后的章节中,这种多级累进框架并不影响端到端模型的训练。
因此,提出了渐进学习框架的主要优势是它保留通用深度学习框架的特性而更好的挖掘对象的细粒度的详细特性,使模型能够实现更深入、更细粒度的视觉理解。
体重共享意味着重量不改变立场当每个内核执行滑动窗口卷积计算在不同地区,即。,同样的卷积核是用来描述图像的不同区域。本地连接和weight-sharing机制可以大大减少网络的参数,允许更深层次的网络学习与有限的计算资源。具体来说,获得一个输出特性映射的卷积操作,相应的卷积核的卷积的结果与地图每个输入功能是首先计算;结果是线性组合,然后得到一个激活函数。
基于深度图像数据集构建神经网络,将会有许多嘈杂的图像不包括在已知的类别,但这种嘈杂的图像可以很容易地检测到文本信息。作为目标对象在一个图像数量的增加,语义层次的问题变得严重。并不是所有的图像有助于图像语义模型中的对象。同样,只有一个图像数据集构建基于文本信息的网页,很多视觉无关和语义模糊的图像可以很容易地检测到的视觉歧视模型从深层神经网络学习获得。因为视觉上的置信水平无关的噪声图像通常是低,图像场景与文本歧义往往不同于正确的类别同行,可以检测到一个基于视觉信息的神经网络模型。考虑基于文本和视觉信息的互补性,提出了一种自动数据增加的新的解决方案:基于视觉信息的深层神经网络技术有机结合的一个基于互联网的网页文本信息挖掘技术来自动构造图像数据集。
研究的图像分析和理解,数据集发挥重要作用;图像数据集可用于测试图像特征提取和检测模型的性能,通过实验比较不同的方法,因此,发现的优点和缺点不同的模型来帮助进一步的研究改进,此外,创建更丰富,更好,更有挑战性的图像数据库,继续推动计算机视觉技术的发展。图像数据库是一个过程从小型到大型,简单到复杂,从最简单的手写字符字体数据库简单的图像分类数据集自然图像数据集。他们的建立极大地导致了图像理解技术进步在每一个时期的计算机视觉发展(如图2)。
因为只有中央superpixel和之间的距离计算相邻superpixels显微照片的建设期间,显微照片的大小是有限的,导致这一事实的大小和数量superpixels显微照片的建设有很大的影响:小superpixels不能捕捉更大的语义对象,和大superpixels不能捕捉小语义区域(18]。基于目标探测器或目标的属性标签方法过滤器。在理想的情况下,有必要使用所有目标探测器扫描图像获得的反应不同的对象,因此图像的语义属性可以被自动标记。SLIC参数影响注释准确;然而,由于不同的语义区域图像大小和数量不同,设置统一的参数是不可能的。出于这个原因,我们使用三个SLIC参数superpixel分割,100年,150年和200年,也就是。,the same image is repeatedly segmented three times with the number of superpixels of 100, 150, and 200 each time.
然后,我们种子点的数量设置为10,15和20这三个尺寸的图像。在superpixels进一步合并。进一步合并的过程中,我们丢弃的显微图superpixels的数量小于或等于2,因为他们通常不包含任何语义区域和不会导致图像处理任务。然后我们融合这些显微图区域,即。,micrographs acquired for images of either specification are used as candidate regions.
可以生成所需的默认候选人检测帧6输出模型的特征图谱。首先,最小平方目标探测和最大广场目标探测帧生成在当前层与小型和大型的目标在这个位置。拉伸或扩大至匹配的长或宽目标在图像中的位置。生成的过程中的默认目标探测箱功能图如图2。通过遍历每个位置特性图,所有默认检测帧特性生成地图大小,并重复上述过程的六种不同尺寸的检测地图构建模型,最终,模型生成所有默认检测帧。因为它是遍历所有地图的位置特性,不同的目标检测框架生成的每个位置,但并不是每一个位置的图像有一个目标,所以在下一步,默认生成的目标检测帧需要过滤基于真正的目标位置找到最佳匹配的目标检测框架。
3.2。实验设计的图像识别算法
这些模型对通用的任务往往会获得相对较好的结果,但对于更细粒度的任务和更高性能的追求,理解单级模型仍然有性能瓶颈。例如,对于细粒度图像识别任务,目前流行的框架一般分为两个阶段,第一阶段目标前景对象的定位和过滤掉背景干扰,紧随其后的是第二阶段分类的对象。两级目标探测模型也是一个典型的多级框架,第一阶段提取可能的候选人地区盒在图像或特征映射,然后第二阶段使用分类器来确定对象的类在这些盒子。两级的细粒度识别框架和目标检测框架更复杂的单级框架相比,但可以实现更好的性能(19]。灵感来自现有多级模型框架,本文提出了深刻的进步学习框架通常包含多个可配置阶段,可灵活配置根据任务(如图3)。例如,对于视频理解的任务,每个时间节点的计算可分为一个阶段;细粒度的图像识别的任务,我们将框架划分为多个阶段根据对象的不同部分的理解;对于交互行为识别的任务,我们将模型划分为三个阶段根据个人信息,整体信息和交互信息;视频一代的任务,我们将模型分为两个阶段:结构生成和迁移阶段。可配置多级框架结构将整个任务困难,允许个人阶段更好地专注于不同的对象的详细特性,从而使它更适合细粒度的视觉理解任务。
给定的细粒度的视觉理解任务需要首先分析,关注的问题单级模型在处理这样的任务和任务需要分割存在的问题,以减少在每个阶段,任务的难度和分裂后的任务需要满足可配置性。的问题是如何有效地分离细粒度的任务是一个开放式的,还有没有一个确切的答案。在实践中,必须充分考虑细粒度的任务的要求,不断反思现有模型的不足,深入挖掘数据中存在的深层语义关联,将任务分成多个阶段尽可能简单、直观,并确保有一些语义协会之间的阶段。任务分解是深增量学习的第一阶段,和不同的分割方法有直接影响后续的模型设计,所以有必要大胆假设,仔细寻找证据,并选择最可能有效的解决方案的选择。
基于分割的任务,需要设计合适的渐进模式,这不仅需要学习子任务在每个阶段还需要满足整个任务需求,即。,该模型需要满足可伸缩性。因此,模型设计通常包含两个层次,即。子任务的水平和整体工作水平。模型设计一般使用通用的深度学习模型,例如,各个子任务往往有一个学习目标,更适合使用卷积神经网络模型,同时将子任务集成到总体任务是一个信息聚合的过程和工具,如复发性神经网络和长、短期记忆网络可以被认为是。模型设计深度学习进步的核心阶段,它直接影响到最终模型的性能。在设计模型时,需要考虑局部和整体的性质任务,合理的选择和设计的模型结构不同阶段根据子任务之间的相关性和总体任务,并积极思考和创新传统的模型结构,以便设计模型能够更好地满足任务要求。
通过这种方式,基于学习分类模型,我们把每个显微照片分为已知和未知类和集群未知类基于形状相似性和周围的已知的对象。阶级之间的交互模型,我们使用对象图描述符编码未知对象的布局。整个方法不需要图像中的所有对象类知识,允许提取有用的线索从已知对象更好地检测新对象。
根据检测到的未知类别显微照片,我们的模型及其周围的上下文信息。减少困难的任务在每个阶段,任务后必须满足可配置性。如何有效地分好任务是一个开放式的问题,还有没有一个明确的答复。特别地,我们构建一个图形表示对象之间的交互与节点已知对象和边缘连接相邻的对象。我们可以匹配任何两个这样的图,以确定的对象级上下文同意两个候选区域分组。地区具有类似背景将有相似的图形,而地区不同的环境会产生不同的图形。如果图像superpixel分割和显微图的分类精确,然后我们构造的图形是理想化的,我们可以简单地计算已知对象的数量和类型并记录它们的相对布局(如图4)。
然而在实践中,图像分割和分类算法并不完美,导致我们不能总是获得好的分类器。尽管我们无法正确贴已知和未知区域,我们可以引入不确定性对象的上下文描述,可以更进一步的认识区域更健壮(20.]。线性回归建模方法假设不完整的数据属性具有线性关系,描述之间的关系属性的直线,飞机,或超平面并使用最小二乘法求解模型参数。然而,不同样本的属性关系可能不同的实际数据,和属性关系的总体趋势是非线性的,线性模型构造的数据必然会有一些偏离实际的回归关系。
4所示。结果和分析
4.1。属性建模和知识获取图像识别算法的性能
我们比较算法SIFT-Bow、要点和SPM算法,和深基于重置网络的学习算法去噪后图像的语义标签,我们使用一个流学习算法自动通过映像级别标签到像素级。语义标签完成后,提出了显微图和优化。由于显微图是一个多边形与不规则的边缘,我们用最外层框封闭的盒子来近似表示显微图和规模的显微照片 。然后,我们执行深度特征提取根据网络体系结构,和我们训练一个简单的支持向量机(SVM)进行图像分类。实验结果如图所示5。图像噪声处理标签,算法实现VOC2012数据集的分类精度为68.51%,这低于重置网络的分类精度和分类精度的方法,没有嘈杂的标签。因为我们的方法不能充分补充失踪,消除错误的标签,这些嘈杂的标签影响标签交付和显微图的提取,进而影响图像分类精度。
分析在图6显示,这些特征的目标检测性能有很大的影响的模型。锚的面积框架表明,该模型对大多数目标执行更好比小的大对象,目标的大小是更敏感的性能模型。缩微图像的缩放 ,然后,深特征提取是根据网络体系结构来执行的。我们训练一个简单的支持向量机(SVM)进行图像分类。宽高比显示中型对象的模型具有更好的检测性能,即,better detection performance for targets with a bias towards squares, but there are large differences between categories for very high or very wide targets, but overall, the aspect ratio of the target is less sensitive to model’s detection performance than the effect produced by the anchor frame area. Although the above analysis does not directly improve the detection performance of the model, it can help us to reasonably evaluate the advantages and disadvantages of several models and give reference to further improve the model performance.
用户点击行为数据通常显示了严重重尾分布。通常,只有几句话经常出现,而大多数单词很少出现。这也意味着训练过程经常通过许多相似的输出信号卷积神经网络。结果的响应值卷积内核经常发生视觉模板对应的响应值远远大于其他的卷积核,而且大部分的卷积网络中的内核将倾向于应对这些视觉模板输入更频繁地发生。结果,将会有许多类似卷积的内核在神经网络的训练开始,等许多类似卷积的内核浪费大量的神经网络的参数空间,导致神经网络的收敛速度慢。
4.2。实验结果
对于每一个缺失率,五不完整数据集随机生成的每一个完整的数据集,和属性关联模型建立不完整的数据基于子网的迭代法和线性回归法,分别和缺失值填充错误日军两种方法计算,测量精度的配件属性关系的两个模型不完整的数据。图7显示了填充两种方法的结果,比如说+ IL和LR,为每一个失踪的八个实验数据集。
比如说最本质区别+ IL和LR属性回归模型建立的方法比如说+ IL不完整的数据的方法是非线性的,而LR方法建立一个线性模型。非线性是复杂的典型属性之一。相对于线性,非线性通常是更接近客观自然本身,所以属性回归模型建立基于子网迭代法更接近真实的数据属性之间的相关性关系,因此,填补缺失值的准确性较高。此外,LR方法是基于最小二乘方法来解决线性方程的参数,找到全球最低noniterative方式直接推导目标函数;这样,模型参数的确定在某种程度上受到prefilling的质量,这通常是粗。虽然比如说+ IL方法也引入了一个预先填充链接,缺失值作为系统级变量在神经网络训练,参加和填补值实时调整根据模型输出迭代期间,逐渐削弱预先填充模型参数学习的影响。
平均绝对百分比误差日军缺失值填充的值和真实值之间的三种方法计算,和这个错误是作为评价指标的有效性进行评估的三种方法建模不完整的数据属性和缺失值填充。五不完整数据集随机生成的每一个完整的数据集在每个缺失率,和这些five-filling错误地图的平均值作为最终的实验结果。三种方法的实验结果如图五个数据集8。
与网络技术的迅速发展和便携式移动设备,大量的图像数据添加到互联网的每一天,和如何管理这些照片很快已经成为一个紧迫的问题。传统的图像处理任务(例如,图像分类)可以使用无监督或监管执行算法。一般来说,监督学习算法可以取得更好的性能比无监督学习算法;然而,监督学习算法需要大量的对图像进行像素级注释,在大规模图像应用程序是非常不切实际的。这是非常不现实的大规模图像应用程序。图像语义建模的任务是致力于让机器“理解”中包含的有意义的对象形象,如人,动物,和其他对象。图像语义建模的任务是致力于让机器“读”有意义的对象中包含的图像,如人,动物,和其他对象。面对大量的图像数据,图像语义模型能为图像分类等任务提供解决方案,识别和检索。图像特征提取是图像建模的基础。早期的图像建模算法根据图像的底层视觉特征并不反映人类视觉感知的图像。 Later, attribute learning-based algorithms came into being. Attributes can be understood as semantic descriptions of image contents, such as object feature descriptions and object name descriptions. However, attribute learning still requires a lot of manual annotation, and many annotation effects still depend on the performance of many external detectors. Also, the selection of appropriate attributes depends on the experience of the engineer.
5。结论
一个单级多目标检测和识别模型提出了基于深度学习。模型使用一个常用的大规模卷积神经网络具有良好的迁移学习能力为骨干网络,首先生成输出特性的地图在不同阶段的不同尺度的骨干网络,并融合检测信息在不同尺度的特征图,地图的输出特性具有较强的语义信息更高层次的融合与输出特征图底部的水平转置卷积有效学习的层次结构特征图像。然后,灵感来自于人类视觉感知领域,构造模块融合不同的视觉感知领域,融合输出特征图谱与不同的知觉字段信息利用卷积核和零卷积在不同尺度和介绍crosslayer连接缓解梯度消失的问题模型,通过引入两个参数类别从类别不平衡损失函数和类的概率。通过引入两个参数类别损失函数的重量损失函数模型的类别不平衡和类别概率,分别更好改进的目标检测的准确性。几个数据集上实验结果证明该模型的有效性,达到一个更好的检测精度和操作之间的权衡速度比经典目标探测网络两阶段和单级等。然后,地区利益的双线性的焦点池用于生成固定大小的特性为后续输入地图,和目标检测和分类模块,目标分割模块实例,构造和人类造成评估模块;联合多任务深度学习模型是构造基于above-proposed模块,和模型学习是由监督微调。挑战性的图像数据集和广义数据集实验表明,该模型可以实现类似的甚至更好的性能在多个图像理解的任务相对于单一任务模型。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有竞争的经济利益或个人关系可能出现影响工作报告。
确认
这项工作得到了云南省科学技术厅,云南省创新与企业家精神“木工技术创新空间”(没有空间。xctd201801)。