文摘
语义分割的任务是获取强进行像素级图像中每个像素的注释。全面监督语义分割的任务是通过细分模式训练使用进行像素级注释。然而,进行像素级注释非常昂贵和耗时的过程。降低成本,提出了一种语义候选区域训练极端学习机(ELM)方法与映像级别标签实现进行像素级标签映射。在这部作品中,论文将像素映射问题转化为一个候选区域的语义推理的问题。具体来说,superpixels细分每个图像为一组后,superpixels自动组合实现分割的候选地区根据映像级别标签的数量。候选区域的语义推理实现了基于粗糙集和邻居的关系与语义相关的标签。最后,本文列车榆树使用候选区域的推断标签分类测试候选区域。MSRC数据集上的实验验证和2012年帕斯卡VOC,普遍应用于语义分割。实验结果表明,该方法优于几个深层语义分割的最先进的方法。
1。介绍
图像语义分割图像中包含的语义信息的理解。它使用计算机提取语义信息的捕获的场景图像的理解其内容,可以应用于图像识别,分类和分析(1]。语义分割已广泛应用于智能机器人的场景理解、识别,自动驾驶系统景观医学图像检测(2]。然而,语义分割已经成为最具挑战性的计算机视觉任务由于规模、位置、光照和纹理图像中对象的变化(3]。
在大多数情况下,图像语义分类是建立一个完全监督任务。全面监督方法需要使用强进行像素级注释,这是非常有限的,昂贵的,耗时的标记过程中,由于主观的理解不同标签人员(4]。然而,弱监督语义分割只需要图像标签映像级别,这是更便宜和更少的耗时比进行像素级注释。弱监督语义分割可分为三类,包括边界框(5),部分标记(6),和映像级别标签。目前,日益普及的图片分享网站(例如,Flickr)和提供大量的user-labeled图片,很多研究都集中在映像级别标签语义分割弱监督。
因此,弱监督的语义分割图像基于映像级别标签最近逐渐增加。根据语义标签的不同的方法推理,弱监督图像语义分类大致可以分为分类器,油印模型,和基于深度卷积神经网络的方法。其中,第一个候选classifier-based方法使用superpixels或地区由superpixel为基本处理单元来推断语义标签,然后选择学习各种分类器模型推断的标签。的主要想法是,superpixels或候选区域具有相同的语义标签有相似的外观7]。然而,语义标签推理基于superpixel包含更多的冗余信息,它可以干扰的准确性。虽然方法基于候选区域包含更少的冗余信息,很难完全、准确地细分图像对象的数量相当于标签的数量由当前图像分割技术。然后基于多重图模型方法使用图像中的所有像素或superpixels为图模型节点。和图模型建立与像素之间的关系或superpixels。但这种方法计算一维势能函数为每个superpixel和算法复杂度高8]。幸运的是,稀疏表示和图像散列是强大的工具,用于数据表示和这两个工具的组合可伸缩的图像检索。可以将高维特征替换为一个低维汉明空间保留特征之间的相似性,这将减少计算复杂度的能量函数,从而降低算法的复杂性(9- - - - - -14]。此外,深卷积神经网络建立方法使用pretrained分类网络获取对象分割图像,然后好曲调的网络和映像级别标签。很敏感的方法的准确性和数据集pretrained分类网络。和分类网络只能识别小和明显的地区,为大规模的映像级别的语义推理是不够的标签(15]。
虽然弱监督图像语义不断分割提出了基于映像级别标签,其分割精度有很大空间细化而完全监督的图像语义分割。的主要障碍和困难在于如何准确地实现语义标签推理,即准确的从映像级别标签映射到图像像素位置。此外,作为密集进行像素级标签预测任务,并不是所有的功能都是同等重要,歧视学习分类模型(16]。因此,如何构建一个有效的模型来推断语义标签也有意义的改善弱监督图像语义分类的准确性。
弱监督的情况下,提出了一种深刻的语义分割使用CNN和榆树和语义候选区域。该方法使用候选区域而不是superpixel为基本处理单元,和邻域粗糙集结合映像级别标签之间的语义关联关系来推断语义标签。此外,榆树是由候选人训练地区包含语义信息进行分类测试候选区域。算法流程图如图1和本文的主要贡献如下:方法提出了合并superpixel成候选区域。方法指导superpixel合并映像级别标签的数量作为监督信息并生成候选区域精度高,可以解决这个问题,多个实例不相邻的一个映像。和合并过程实际上可以减少后续处理的复杂性。一个推理提出了候选区域的语义标签的方法。方法使用邻域粗糙集生成不同的邻域粒子和语义标签来推断从最高的频率。然后其他候选人地区语义标签是基于最强烈的相关关系,推断出解决问题的语义标签映射困难。提出了一种榆树训练方法。它使用与语义标签训练榆树候选区域,这可以减少引入负样本像素的训练数据,提高分类精度。
2。相关工作
是最简单、最有效的监管薄弱、映像级别标签广泛应用于弱监督图像语义分割。很难对应于图像对象要是映像级别标签数据用于训练,因为映像级别标签不能提供准确的信息来描述对象的边界和地点由于固有的歧义映像级别标签。根据不同的语义标签推理方法,本文将弱监督图像分割算法划分为三类:分类器,油印模型,和基于深度卷积神经网络的方法。
基于分类器的方法使用映像级别标签监管信息,将图像中所有像素或superpixels包含目标标签到正样本和其他负样本没有目标标签。然后直接最好的分类器训练的分类器是通过迭代优化损失函数。例如,魏et al。23]multilabel分类训练网络,图片通过网络进行分类,最后匹配与更高的信心到原始图像分类信息来获取语义标签和地点之间的联系。然而,这种方法直接引入了目标图像块的像素点作为对象区域成许多负样本像素,像素等属于背景。随后,魏et al。19,22)提出了一个简单到复杂框架(STC)在2017年首先列车初始分割网络使用简单的图像,然后预测简单图像的标签使用网络和使用这些标签语义分割网络加强培训。最后,增强网络是用来预测的标签更复杂的图像和训练更好的语义分割网络。然而,这种方法需要收集大量的简单的图片;否则很难培养更高的性能初始化网络和继续改善,和它有很多训练样本,训练时间长。Zhang et al。18)提出了使用空间稀疏重建方法获得一个有效的支持向量机分类器,训练数据训练分类器的噪声,利用子空间重建的方法去噪并找到最优支持向量机分类器通过迭代优化。迭代的方法生成临时分割面具和学习之间临时监督。这些方法受益进行像素级监督;但错误容易积聚在迭代。
基于多重图模型的方法使用图像中的所有像素或superpixels为图模型节点。和图模型建立与像素之间的关系或superpixels。Vezhnevets et al。8)提出了一个多实例学习(MIL)框架弱监督图像分割。该算法作为每个superpixel实例;每个图像表示为一系列的实例集。只有标签的实例是已知的,所以图像分割是标签转换为实例推理。但该算法缺乏superpixel双之间的标签。为了解决这个问题,Vezhnevets et al。17]提出了一种多映像模型(MIM)基于图模型,建立了一个常见的概率图模型对训练集和测试集每个superpixel使用条件随机域。一维的势能函数之间建立一个二进制势能函数superpixel对最后近似的条件随机场参数图的划分方法。然而,这种方法计算一维势能函数为每个superpixel和算法复杂度高。为了丰富superpixel特性的描述,Vezhnevets et al。24)进一步提出了一系列参数化的结构化模型的势能对多通道形成的视觉特性,和体重是由每个通道的最小化来区分不同superpixel标签的训练细分模式。上面的图论算法在弱监督的环境中分割性能有所提高,但这是有限的叙述低一元或二元势能函数。
深卷积神经网络的方法是基于DCNN框架,这是训练来获取对象的位置。Oquab et al。25)应用DCNN框架来生成一个单点来推断物体的位置,但是这种方法不能检测同一个类的多个对象在一个图像。ibsen Pinheiro et al。21)和帕沙克et al。20.)分割约束添加到最终成本函数优化参数的DCNN映像级别标签。然而,这两种方法生成粗预测,因为算法通常不使用低级的线索。
3所示。该方法
提出了弱监督图像语义分割框架基于候选区域和榆树。论文的框架包括两个阶段的学习和测试。其中,在学习阶段有三个基本步骤:使用superpixel候选区域分割;候选人地区使用语义标签语义推理协会;使用榆树候选区域分类。在测试阶段,本文首先对测试执行superpixel分割和合并图像,然后预测每个像素的语义标签的候选区域为基本处理单元。
3.1。使用Superpixels分割的候选区域
与superpixels相比,图像中候选区域的数量比较小,更有利于提高语义标签推断的准确性。因此有必要合并oversegmented superpixels获得候选区域图书馆。此外,一些低级视觉特征提取保存的边界信息superpixel合并过程中尽可能多的。因此本文选择颜色,纹理,代表每个superpixel筛选和浏览功能。具体来说,由于实验室的宽色域,本文选择实验室作为颜色特征。和本文选择伽柏过滤器来表示每个superpixel的纹理特征,因为伽柏过滤器处理空间转换的能力26]。
首先,初始图像分为superpixels基于简单线性迭代聚类算法(SLIC)。和与其他superpixel分割方法相比,SLIC算法具有以下优点(27]:(a)的大小形成superpixels基本上是相同的;(b)的数量superpixels可以通过调整控制参数k;(c)速度快,边界合适的块和目标之间边界高;d)每个块内像素之间的特性差异很小。
然后,196 -维提取视觉特性来描述每个superpixel,包括颜色特性(三维),纹理特征维度(65 -),筛选功能维度(64 -),和冲浪功能维度(64 -)。最后,根据邻接superpixel空间位置,最类似的superpixels合并统计superpixel相似,和superpixels的数量不超过三倍的图像标签,如图2。
假设一个图像包含nsuperpixels ,和任何superpixel有196维视觉特征描述、图像标签吗 ,和l是图像语义标签的数量。然后任何superpixels的相似性和被描述为 在哪里加权因子的调整距离和满足 ; , , , 是欧氏距离来表示颜色,纹理,筛选,和冲浪superpixels的距离和 ; 商店superpixels之间的邻接关系。 superpixel合并算法的具体步骤所示算法1。
|
||||||||||||||||||||||||
3.2。候选人地区使用语义标签语义推理协会
推理从映像级别进行像素级的语义标签的关键是整个弱监督图像语义分割算法。在这个过程中,候选区域直接影响语义标签的分类推理结果;有必要提取丰富的视觉特性。因此本文采用CNN提取特征,以确保有效的分类结果。然而,提取多层视觉特性增加了数据维度;它将随后的标签聚类带来巨大困难。附近的分类器(28)有一个重要的优势,它可以获得重要的功能的一个子集通过属性约简决策;也就是说,它可以获得区别的特性,对语义标签推理很重要。
至于候选区域为基本处理单元,本文认为语义标签推理最相似的邻居粒子提取问题;的独特性程序如下:纸星星推断最多的语义标签的语义标签图片,尽可能确保语义标签的预测的准确性;根据映像级别标签的数量和比例相对应的图像语义标签推断,候选区域的数量是包含在每个语义标签推断;每个标签语义的推理是基于语义标签关联关系,减少噪音的干扰。详细的步骤如下:
首先,可以表示成语义标签 ;k是语义标签类的总数。根据映像级别标签,每个语义标签表示为相应的图像 。根据之间的关系l和N,它可以获得一个语义标签包含最图像数据集。然后候选区域的数量设置对应的语义标签我可以表示为 在哪里是一个比例参数。这取决于多个映像级别标签的数量和训练集图像的复杂性。因此,候选区域的比例设置对应的语义标签在整个地区图书馆可以表示为候选人
因此,本文获得的候选区域的比例范围。和推理的语义标签转化为寻找候选区域的比例相应的语义标签。
第二,给定一组需要相关的语义标签,标签之间的语义关联关系是通过计算语义联系强度。关联关系是保存在一个对角矩阵的关系表示为 在哪里是连接两个标签的力量和在数据集,同时发生的频率标签吗和 ,和任何一个出现频率的标签吗和。语义关联强度如图3。颜色从蓝色到红色表明协会的力量从弱到强的人物。和图像语义self-association最强的程度表示为红色。
我们可以看到从方程(4)和(5),本文鼓励推理的语义标签同时出现在多个图像。然后语义标签最强协会的推断。根据语义标签关联关系及其相应的语义标签,可以获得语义标签的比例。
为了充分提取候选地区每个候选区域的特征库,本文采用CNN提取特征。和CNN网络结构如表所示1。它由五个卷积层(cov1 ~ cov5)和三个完全连接层(fc6 ~ fc8)。本文五卷积层和两个完整的卷积层用于学习。cov2和cov5卷积操作后,麦克斯池操作方法,最后4096 -维特征向量fc7层作为图像的特征向量输出。CNN输入数据准备阶段,示例补丁使用一个图像块27×27像素的大小,和采样中心候选区域中心。CNN输出,特征提取模型选择直接使用fc7层的4096维的特征向量作为候选区域的视觉特征。
根据候选区域的特征向量,我们构建一个信息表 ,候选区域的样本集在哪里 ,由一系列的描述功能。在哪里是候选人的数量地区候选人地区的图书馆,特性集描述 , 是一组属性值,是信息功能。和附近的粒子每个候选区域的构造: 在哪里 ; 粒子称为生成社区信息,确定邻域粒子的大小。是一种常态,被称为相似性度量,是属性矩阵的维度 。根据指标的性质,它可以知道
如果附近粒子的大小是固定的,附近的粒子可以获得最相似的候选区域。和可以确定邻域粒子的大小。然后本文可以得到邻域阈值 并获得最小的阈值 。因此,相对应的候选区域附近粒子最相似的最低阈值确定。
最后,论文获得相对应的候选区域的语义标签推断及其邻近粒子并完成推理的语义标签。之后,推断候选人区域从候选人中删除区域图书馆,迭代,直到所有的推论的语义标签完成。
3.3。使用榆树候选区域分类
在完成所有语义标签的推理,本文选择学习推断候选人地区榆树。主要原因是榆树快速是一种新型的机器学习算法,它是一个监督算法基于单隐层前馈神经网络(29日]。此外,榆树列车参数没有迭代,从而提高算法效率。
首先,榆树训练基于候选人的地区语义标签和榆树分类训练在训练阶段。和候选人地区仍然是作为语义标签的基本处理单元的预测。原因是,候选人地区接近目标的边界,不容易受到噪声。为了获得候选区域对应于测试图像,本文首先执行superpixel分割和superpixel合并生成候选区域在同样的参数设置和实现步骤。4096维特征提取候选区域对应测试图像,以确保测试阶段之间的一致性和训练阶段。
在那之后,给出图像候选区域 在榆树测试阶段,是测试候选人的数量的地区。候选人地区榆树的直接用作输入;然后语义标签预测的榆树。榆树分类算法的具体步骤所示算法2。
|
||||||||||||||||||
4所示。实验
4.1。数据集和评价
我们的算法的性能评估在MSRC [30.]数据集,591张图片,包括自然场景(如树木),结构化场景(如建筑物和道路),和其他结构的场景。数据集提供了语义图像进行像素级注释,所有图像进行像素级注释相应地图是213×320像素大小。和现场包含共有23语义类别的对象。遵循相同的规则中使用的数据集,忽略了马和山形象类型的类。本文使用培训276张图片和256图像进行测试。
此外,我们的方法也是评估2012年帕斯卡VOC分割基准数据集(31日),这是一种最广泛使用的基准数据集语义分割。它包含一个背景类别和20对象类别。它由三部分组成:训练集(1464张照片),验证设置(1449张照片),测试集(1456张照片)。在我们的实验中,我们的工作也是基于训练图像(10582张照片)放大了哈利哈伦et al。32作为训练集,为培训提供映像级别标签。
本文评价指标选择像素精度(PA),平均像素精度(MPA)和平均交叉在联盟(mIoU)。计算公式如下: 在哪里类别包括在真实价值的数量,的像素类别分为类别 ,和是一类像素的总数在地面真理。
4.2。参数设置
CNN模型的参数设置如下。学习速率是设置为0.001,三个CNN视觉特性在图像聚类的性能进行了分析和比较。过去3完全连接提取候选区域的视觉特征,其输出是4096年,4096年和1000年,分别是图像的特征表示。图4显示了三个视觉特性在MSRC数据集的比较。可以看出,视觉特性选择输出fc7层图像聚类,其精度是最高的。
榆树算法的参数设置如下。当设计榆树,交叉验证方法通常是用来确定最佳隐层节点数L预设K值范围内。对MSRC-21数据进行仿真。假设L是增加从1到200,和分类准确性的测试集是顺序如图5。从图可以看出5L值达到64时,测试精度是最高的。然而,L值持续增加,榆树的测量精度通常是减少的。所以当60 L≤≤68,榆树有良好的测试精度。
4.3。实验结果
为了评估的性能提出了弱受监视的影像语义细分法,实验比较与当前弱监督图像语义分割算法MSRC-21数据集和帕斯卡VOC 2012数据集。这些比较算法包括STC (19],AE [22,老18],MIM [17],MIL +独立+ SP-sppxly [21],CCNN [20.),这些弱监督图像语义分割比较算法是基于映像级别标签。
首先,每个图片标签的借据,平均借据(mIoU)的图像标签如表2和3分别对该方法和当前弱监督图像语义分割算法MSRC-21数据集和帕斯卡VOC 2012数据集。每一列代表不同算法的准确性MSRC-21每个语义类和帕斯卡VOC 2012数据集,最后一列是所有类的平均精度。表中的大胆的值代表了最佳的分割性能。
如表所示2和3,该算法获得比较和竞争结果的借据上每图像标签和平均借据(mIoU)的语义标签相比,现有的映像级别标签弱监督图像语义分割算法的方法。尽管一些语义类的借据是低于MSCR算法相比,2012年帕斯卡VOC验证集,该算法在mIoU达到最佳的分割性能。此外,弱监督图像语义分割算法的分割精度MSRC数据集上明显高于帕斯卡VOC的2012数据集。原因是2012年帕斯卡VOC的图像数据集包含更复杂的对象比MSRC数据集上的图像和背景。尽管许多弱监督图像语义分割算法已经提出,每个语义类的分割精度对整个数据集仍然有较大改进的余地。
然后,为了更直观地显示分割算法的性能,一些定性分割MSRC和帕斯卡VOC 2012数据集的例子。具体的细分结果如图6。
如图6弱监督深层语义分割使用CNN和榆树和语义候选区域可以取得更好的分割性能。此外,基于候选区域水平分割结果可以保留图像中物体的边缘信息。然而,该方法依赖于语义标签推理和分类器学习在候选区域层面的对象包含多个地区拥有大量的对比,它可能会被误诊。
5。结论
在这篇文章中,一个弱监督语义分割方法提出了用榆树语义候选区域。通过合并superpixels成候选区域,而不是在一个图像,使用大量superpixels相关联的语义关系和邻域粗糙集有效结合来解决的困难从语义标签映射到图像对象。使用图像语义标签数量信息作为终止条件superpixel合并,这避免了手动设置参数的问题,因此有助于解决不相邻多个实例的问题。候选人地区基于邻域粗糙集进行分类,在候选区域推断通过使用语义关联关系。因此,语义标签可以获得更可靠的候选人地区提高分类精度。未来可以扩展到工作结合卓越的检测(33,34)在数据融合和启发式优化框架(35- - - - - -38]。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者想表达他们的感谢中国国家自然科学基金委的支持(61503271;中国61603267)、山西奖学金委员会(2015 - 045;2016年- 044年),山西人才100人计划,山西省自然科学基金(201801 d121144),和中国山西省自然科学基金(201801 d221190)。