一个Encoder-Decoder网络FCN架构为基础的语义分割

文摘

近年来,卷积神经网络(CNN)语义分割取得了举世瞩目的成就。语义分割的方法有可取的应用前景。如今,这些方法主要是使用一个encoder-decoder架构作为一种生成像素的像素分割预测。编码器是提取特征图和解码器恢复特性映射分辨率。一种改进的语义分割方法的基础上encoder-decoder架构提出了。我们可以得到更好的分割精度在几类和显著降低了计算复杂度。这是可能通过修改骨干和一些精炼技术。最后,经过一些处理,在许多数据集框架取得了良好的性能。与传统建筑相比,我们的架构不需要额外的解码层和进一步重用编码器的重量,从而减少所需的参数完成量进行处理。摘要修改后的焦损失函数也提出,作为一种替代的熵函数来实现更好的治疗训练数据的不平衡问题。 In addition, more context information is added to the decode module as a way of improving the segmentation results. Experiments prove that the presented method can get better segmentation results. As an integral part of a smart city, multimedia information plays an important role. Semantic segmentation is an important basic technology for building a smart city.

1。介绍

卷积神经网络图像识别的重要组成部分,检测和分割。图像语义分割可以提供一个坚实的基础为智能城市的建设和研究近年来已获得了高度的关注。语义分割针对分类图像中的所有像素根据一个特定的类别,这是通常被称为密集的预测。它不同于图像分类,因为我们不要将整个图像划分为一个类,但所有像素。因此,我们拥有一组预定义的类别和我们需要分配一个标签来显示图像的所有像素图像中各种对象的上下文(1]。深层神经网络没有秘密计算机视觉的创新,尤其是图像分类。自2012年以来,它已经超越了其前任。事实上,人工智能在图像分类优于人类。不可避免地,我们采用相同的语义分割技术。因此,我们提出了一个网络结构的基础上encoder-decoder和深黑色的空间金字塔池(2]。同时,结合多个损失函数是用于最终的损失函数。

相对幼稚的方法来构建神经网络体系结构是简单地叠加数曲线玲珑,使用相同的填充保留尺寸保持不变,然后输出一个最终的分割图。通过一系列的功能映射转换,可以学到相应的分割结果的映射直接从输入图像。但是很昂贵的计算整个决议在整个网络。这个体系结构如图1。

在深卷积网络,第一层研究底层概念,和第二层研究高级功能映射。维护的表达能力的方法,特征图谱的数量(渠道)通常是增加同时深化网络。不同的图像分类只需要目标分类,图像分割需要每个像素的位置信息,所以它不能使用池或trided减少的卷积计算安全的分类任务。图像分割需要whole-resolution语义的预测。一个流行的图像分割模型是基于一个encoder-decoder结构。编码器部分,采用抽样,以减少输入空间分辨率,以生成一个低分辨率特性映射(这是计算效率,能有效区分不同类别);译码器的一部分,这些特性表征采样和恢复到全分辨率细分地图。

2.1。完全卷积网络

长等人介绍了利用端到端,pixel-to-pixel图像分割任务的训练,完全卷积网络在2014年底。在本文中,作者提出了利用现有的和研究图像分类网络的编码器模块网络,增加了转置卷积层在解码模块,和升级全分辨率细分映射(粗特征映射理论的3]。完整的卷积网络(FCNs)取得了巨大的成功在密集的像素预测的应用语义分割。所需的算法预测变量对所有输入图像的像素,先进的计算机视觉的基本任务的理解(1,3]。一些最具吸引力的应用程序(包括自动驾驶4),人机交互2,5,6),智能交通系统(7),辅助图片处理(8),和医学成像9]。FCNs的伟大成就来自于强大的特点被cnn。重要的是卷积计算机系统使培训和推理的计算效率很高。

2.2。Encoder-Decoder

encoder-decoder结构是一种常见的体系结构当前的语义分割算法。的结构是由一个编码器和译码器。经典图像语义分割算法,如FCN U-net, DeepLab都采用这种结构。编码器通常是一个网络(VGG, Resnet、Xcepiton等);它由一个反褶积层和上抽样层。抽样的目的是捕获语义或上下文信息,而抽样的目的是恢复空间信息。常见的解码器包括双线性插值、反褶积和密集采样卷积。

2.3。扩张卷积

FCNs,因为连续马克斯池取样操作,分辨率的特点是大大减少。最后,特征映射恢复了抽样失去细节输入图像的灵敏度。在完整的卷积网络扩展的卷积是用来代替标准的卷积,卷积网络可以精确地控制图像的分辨率在计算特征响应(10]。同时,接收滤波器有效地扩大领域没有添加参数的数量和金额的计算。许多实验表明,该算法使用上下文信息获取更密集的特性,从而提高图像的语义分割精度。从图可以看出2扩张,这是一个卷积滤波器与三个不同的膨胀率:每个元素的过滤器(a) 1-expansion卷积和接受域,(b) 2-expansion卷积和感受野和(c) 3-expansion卷积和接受域。相关参数的数量每一层都是一样的。接受域增加指数和线性参数数量的增加11]。

(一)1-dilated

(b) 2-dilated

(c) 3-dilated

在同样大小的卷积核,接收的卷积核领域可以增加通过增加输入条纹,如图3。

FCNs深是一种卷积神经网络,取得了良好的性能在进行像素级识别任务,但它仍然面临着挑战在这个变化和复杂的世界。FCN不是一个完全连接层。最初的方法是使用同样大小的卷积层堆栈,将输入图像映射到输出图像。它产生了强劲业绩,但它是非常昂贵的,因为他们不能利用任何二次抽样或池层,因为这将螺钉的位置。作为一种维持图像的分辨率,他们必须添加许多层的方式学习低级和高级特性。这意味着它是低效的。为解决这个问题,他们提出了一个encoder-decoder架构。编码器是一个典型的pretraining卷积网络而译码器由一个deconvolutional层和上层抽样层。抽样的目的是捕获语义或上下文信息,而抽样的目的是恢复空间信息。由于编码器减少图像分辨率,分割太过明确的边缘,这意味着图像之间的界限并不明确。

在[8),最终的图像预测通常是减少了32倍的几个阶段步卷积和空间池,导致细图像结构信息的损失和不准确的预测,特别是在物体边界。DeepLab [12,14- - - - - -16)使用深黑色的(又名扩张)卷积扩大接受域映射,同时保持了高分辨率特性,或者使用encoder-decoder架构来解决这个问题。它作为骨干网络一个编码器和负责编码的原始输入图像地图作为一个低分辨率的特性。

2.4。深黑色的空间金字塔池(ASPP)

ASPP模块的首次提出是在17和进一步修订12]。在ASPP模块,如图4,不同的深黑色的利率是用来提取多尺度信息。总之,一个卷积块和三个卷积模块有不同的缩率(分别为6、12和18),和一个空白块并行工作。ASPP不同的采样率和多个视图可以捕获对象多尺度。

(一)

(b)

它可以发现接受域已经从3到5,大约翻了一倍;卷积核大小仍然是 ,输入条纹是2,现在被称为扩张率(12,14]。

3所示。我们的方法

在本部分中,我们介绍了网络体系结构,然后详细解释每个模块的形成。我们也提出一个损失函数,进一步提高语义分割的性能。

3.1。网络体系结构

图5显示了网络体系结构包括两个部分:编码器用于提取特征映射和解码器用于恢复的解决渠道。参数的数量ASPP部分和解码器部分也是巨大的。因此,所有普通切除取而代之的是通过卷积分离卷积。同时,渠道在ASPP和译码器的数量也减少了。骨干网和ASPP模块共同构成网络的编码模块。输入任何大小的图像来获取相应的高级特性图。然后,通过双线性抽样和低级特征映射的一层编码模块、解码模块的网络形成。最后,取样是回到原来的地图大小,和相应的分割图是通过将softmax分类层。这是为了分离空间信息和深度信息。发现细节的效果设置1/2的大小特征映射和译码器功能融合,并最终取得了较好的结果。

3.2。骨干网

在过去的几年里,一些骨干的CNN网络取得了很大的进步在视觉任务,展示最先进水平。卷积层堆叠的顺序,池层,激活功能层,和一个完全连接层。CNN可以输出相对应的分类分的图像输入图像。2012年,AlexNet [18)获得ILSVRC的标题(19]。AlexNet地址图像分类的问题并创建一个新形势下的计算机视觉。然后,最主要的竞争对手提出各种CNN架构,GoogLeNet [8],ResNet [20.],DenseNet [21)等(22]。这些网络结构可以提取图像的特征映射,这对语义分割[奠定了坚实的基础23,24]。我们的网络体系结构使用Xception特征提取器。一些常见的网络分类如表所示1(25]。我们在实验中得出一个结论。计算复杂度高、识别精度允许低;允许与许多参数,识别精度很低。一个好的网络结构设计是非常重要的。不同的模型有不同的参数利用效率。


的名字	AlexNet	VGG	GoogLeNet	ResNet	《盗梦空间》	Xception	EfficientNet

一年	2012年	2014年	2014年	2015年	2015年	2016年	2019年
层	8	19	22	152年	/	/	/
Conv	5	16	21	151年	/	/	/
前5名(错误)%	16.4	7.32	6.67	3.57	3.5	5.5	2.9

3.3。叉损失和焦的损失

分类问题的共同损失函数是叉损失。它显示了两个概率分布之间的距离。他们叉越近,越近。熵方法是一种新型的通用方法,组合优化、多极优化和罕见事件模拟。标准的二元分类是叉的损失。

有时候我们会遇到图像分割的任务,那就是背景占很大比重,但对象占一小部分严重不平衡数据集。在这个时候,我们需要小心使用损失函数。最常用的损失函数如下: 在哪里=,=

从上面的公式,我们可以得出结论:当 ,更大的是,是吗 ,更准确的预测是,损失越小。当 ,较小的是,是吗 ,更准确的预测是,损失越小。最后损失的总和和。这种方法有一个明显的缺点。而积极的样本的数量远低于负样本,也就是说,的数量的数量远远大于 ,和它的组件将主导损失函数。严重偏向于背景模型。

我们定义 : 和重写

首先,积极的和消极的样本的比例应该平衡不使用负样本采矿和其他手段。在本文中,我们直接用一个参数CE前的损失,所以我们可以很容易地控制比例的正面和负面的样本。

我们得到了平衡熵损失

在实践中,是[0,1]之间的十进制;这是一个固定值,不参加培训。

尽管上述公式可以控制正负样本的重量,无法控制的重量容易样品和样本。

的这里被称为聚焦参数, 一个调节因素被称为调节因素。在实践中,我们通常会添加一个参数在焦点前损失:

语义分割的过程中,有更多的类别对应的语义分割比目标探测的两分类问题。如果选择的参数和不合适的,这些像素的叉减肥会减少。结合上面的分析,我们建议增加困难样本的重量,保持简单的样品的重量几乎不变。我们发现最好的结果可以通过设置和在我们的实验网络。

焦损失是RetinaNet模型中首次提出26)解决不平衡分类和困难的训练过程。在实际应用中,焦损失和骰子损失通常需要规模相同的数量级。使用日志来扩大骰子损失和使用alpha减少焦损失。

4所示。实验和结果

的证明了框架的有效性,我们评估基准数据集的基础上(2012年帕斯卡VOC)和最新的方法。在本文中,我们报告三个主流的语义分割数据集的实验结果:PASCAL VOC2012 CamVid [27),和城市风光28]。

意味着十字路口联盟(MIoU)语义分割的标准衡量。两个集合的交集和工会比计算。在语义分割,两套基础真值和预测分割。这个比例可以演变为TP(交集)/ TP, FP, FN(联合组)。计算每个类的借据,平均水平。相当于

首先,计算每个类别的十字路口和工会比率,然后得到的平均。TP是积极的有一种正确的样品,TN是一种错误的阳性样本。FP是负样本的错误。TP可以被理解为预测结果和标签的交集,而TP + TN + FP preunion测试结果和标签。越接近十字路口是联盟,更精确的分割。

我们也使用一些广泛使用的数据扩充策略在我们的培训,其中包括50%的概率水平翻转和随机缩放图像,比例因子在0.5和2.0之间在步骤0.25中,填充和随机作物缩放图像。最后,调整学习速率为2 - - - - - -四是在模型中实现的。当我们段一些小目标部分,我们发现细节分割的效果很差。完善细节,1/2的大小特征映射和译码器功能融合,并取得了良好的效果。培训,是一种改进的版本使用的损失函数,焦的损失。结果表明,改进后的焦损失可以提高语义的分数。分割的准确性和样品的非平衡缓解。

4.1。2012年帕斯卡VOC

帕斯卡VOC 2012包括20前景对象类和一个背景类,包括来自私人收藏的照片。有六个室内类、七车,七个生物。数据集包含1464列,1449验证,1456变量大小测试图像。我们使用作物的pretraining体重的学习速率除以8。所有其他superparameters是相同的16)实验。表2显示了我们的算法的性能在2012年VOC,和详细的结果与其他方法进行比较显示在表中3。


方法	MIoU

FCN-8s	62.2
ResSegNet	80.4.7%
RefineNet	84.2%
PSPNet	85.4%
DeepLabv3 +	87.8%
我们的	85.6%


类别	FCN-8s	ResSegNet	RefineNet	PSPNet	DeepLabv3 +	我们的

自行车	34.2	65.2	73.2	72.7	77.1	78.2
椅子	21.4	37.4	43.7	43.1	56.9	57.1
羊	72.4	85.9	92.9	94.4	92.9	94.4
的意思是	62.2	80.4	84.2	85.4	87.8	85.6

根据评估样本的测试集上帕斯卡VOC2012验证数据集,我们可以看到,该方法适用于动物,人,和对象。仔细平等目标的边缘可以分割,提高分类精度的凳子上,动物,自行车,等等。上述分类指数的评价表明,其效果比许多分割方法,如图6。请注意,我们不使用控进行后处理,可平滑输出,但实际上它太慢,特别是大规模的图像。

4.2。城市风光

城市数据集是一个非常大的图像数据集,其重点是街景的语义理解。它包含50个城市的道路驾驶图像在春天,夏天,秋天。有19类数据集,包括良好的天气和温和的天气,很多动态对象,不同的场景布局,和不同的背景。我们已经在5000年fine-labeled图像进行实验,分为2975训练图像,验证图片,500和1525测试图像。所有图片的分辨能力。它包含了5000个高质量的像素级大小的注释 (2975、500和1525年的训练,验证集和测试集,分别)和2975年,500年和1525年(培训、验证和测试集分别)。

如图7最后,方法MIoU精度达到81.79%城市测试集的形象。表4显示了我们的算法的性能在城市2012个测试集。


方法	MIoU (%)

FCN-8s	65.3
Dilation10	67.1
ShuffleNet v2 + DPC	70.3
MobileNetV2Plus	70.7
ML-CRNN	71.2
梯DenseNet	74.3
TuSimple	77.6
DeepLabv3 +	82.1
我们的	81.79%

4.3。CamVid

,进一步证明了该方法的有效性和鲁棒性,我们也评估其CamVid数据集上的性能。Cambridge-driving贴上视频数据库(CamVid)是第一个视频集合对象l类语义标记。地面实况标签提供的数据库相关的每个像素的32个语义类。CamVid数据集包含城市道路驾驶场景的图像。我们使用11类,包括367年训练,101年验证,和233个测试图像。所有图片的分辨率。

我们火车模型的随机初始化和微调ImageNet pretrained参数。在培训过程中,随机剪裁的大小 ,和批处理大小是16。所有其他superparameters同2012年帕斯卡VOC实验。经过30000次迭代训练集,本文中的模型达到77.61% MIoU验证集和测试集MIoU 69.39%。

我们可以看到,本文的模型可以得到非常准确的语义分割结果。是否这是一个小目标,或一些目标遮挡和重叠,本文的方法可以准确地细分。

5。结论

我们引入一个简单但强大的网络提高语义分割任务。结合ASPP和古典encoder-decoder结构,一种改进的损失函数更适合应用程序了。实验结果显示了该方法的优越性。它不仅有效地提高了分割性能也显著提高训练数据的不平衡。作为一种提高学习能力的方法,我们将更加专注于弱监督学习和metalearning。我们认为,语义分割可以为未来的智能城市建设提供一个良好的实践。

数据可用性

研究用于查找的数据可以根据客户要求提供相应的作者。

的利益冲突

作者宣称,他们没有利益冲突。

确认

这项工作得到了湖北省自然科学基金(2015 cfb525),国家自然科学基金(6130329)和湖北省自然科学基金创新研究小组(2017 cfa012)。我们要感谢那些匿名评论家曾帮助促进他们的论文的质量。

引用

d . c . Cirean et al .,“深神经网络神经元膜段在电子显微镜图像,”先进的神经信息处理系统25卷,第2860 - 2852页,2012年。视图:谷歌学术搜索
m . Oberweger p Wohlhart诉Lepetit,手深手姿势估计深度学习冬天,计算机视觉工作室(CVWW), 2015年。
r . Mottaghi x, x刘et al .,”的角色上下文对象检测和语义分割在野外,”2014年IEEE计算机视觉与模式识别会议美国,哥伦布,哦,2013年6月。视图:出版商的网站|谷歌学术搜索
盖革,p .楞次和r . Urtasun自主驾驶,我们准备好了吗?在KITTI视觉基准套件。2012年IEEE计算机视觉与模式识别会议2012年6月美国普罗维登斯,国际扶轮。视图:出版商的网站|谷歌学术搜索
d·b·罗y太阳,g . Li Chen和z居,“分解算法深度图像基于大脑健康的人类健康的姿势,“神经计算和应用,32卷,不。10日,6327 - 6342年,2020页。视图:出版商的网站|谷歌学术搜索
d .江z郑,g . et al .,“基于双目视觉手势识别,”集群计算补充6卷。22日,第13271 - 13261页,2019年。视图:出版商的网站|谷歌学术搜索
s . Segvic k . Brkic z Kalafatic, a . Pinz”利用时间和空间约束的交通标志检测移动的车辆,“机器视觉和应用程序,25卷,不。3、649 - 665年,2014页。视图:出版商的网站|谷歌学术搜索
e . Shelhamer j .长,t·达雷尔“完全卷积网络语义分割,”IEEE模式分析与机器智能,39卷,不。4、640 - 651年,2017页。视图:出版商的网站|谷歌学术搜索
y吴邦国委员长和k .他“集团标准化”计算机视觉——2018年大会施普林格,2018年。视图:出版商的网站|谷歌学术搜索
c, c . c .阿来k .他和x唐,“图像超分辨率使用深卷积网络”IEEE模式分析与机器智能,38卷,不。2、295 - 307年,2016页。视图:出版商的网站|谷歌学术搜索
麻省理工学院Razzak、美国纳兹和a . Zaib深入学习医学图像处理:概述、挑战和未来,2017年。
l . c . Chen等人“语义图像分割与深卷积网和完全连接控,“计算机科学4卷,第361 - 357页,2014年。视图:谷歌学术搜索
f . Yu和诉Koltun多尺度环境下扩张的聚合的隆起,”学习国际会议上表示(ICLR),2016年。视图:谷歌学术搜索
L.-C。陈,g .帕潘德里欧Kokkinos, k .墨菲和a . l . Yuille”Deeplab:语义图像分割与深度卷积网,深黑色的卷积,并完全连接控,“IEEE模式分析与机器智能,40卷,不。4、834 - 848年,2018页。视图:出版商的网站|谷歌学术搜索
L.-C。陈,g·帕潘德里欧、f·斯沃夫和h·亚当,“重新考虑语义图像分割,深黑色的卷积”2017年,https://arxiv.org/abs/1706.05587。视图:谷歌学术搜索
L.-C。陈,朱y, g .帕潘德里欧f·斯沃夫和h·亚当,”与深黑色的分离卷积Encoder-decoder语义图像分割,”计算机视觉的欧洲会议(大会),第818 - 801页,2018年。视图:谷歌学术搜索
z田,t .他沈,y,“解码器为语义分割问题:视解码支持灵活的功能聚合,”2019年IEEE / CVF计算机视觉与模式识别会议(CVPR)美国长滩,CA, 2019年6月。视图:出版商的网站|谷歌学术搜索
马b和a . Entezari”一个交互式的可视化框架天气预报乐团,“IEEE可视化和计算机图形学,25卷,不。1,第1101 - 1091页,2019。视图:出版商的网站|谷歌学术搜索
l, c,和m . Wu”D-Linknet: linknet pretrained卷积编码器和扩张的高分辨率卫星图像道路提取,”2018年IEEE CVF计算机视觉与模式识别会议/研讨会(CVPRW)美国盐湖城,UT, 2018年6月。视图:出版商的网站|谷歌学术搜索
s . Gupta et al。学习丰富的特性,从RGB-D图像目标检测和分割,2014年。
诉Badrinarayanan, a·肯德尔和r . Cipolla”Segnet:深卷积encoder-decoder架构对于图像分割,“IEEE模式分析与机器智能,39卷,不。12日,第2495 - 2481页,2017年。视图:出版商的网站|谷歌学术搜索
贾x沈,a . Hertzmann j . et al .,“自动肖像分割图像因袭,”计算机图形学论坛,35卷,不。2、93 - 102年,2016页。视图:出版商的网站|谷歌学术搜索
比安科,r . Cadene l . Celona p·那波里塔诺,”代表的基准分析深层神经网络架构,”IEEE访问》第六卷,没有。1,第64277 - 64270页,2018。视图:出版商的网站|谷歌学术搜索
马b和a . Entezari体积特征分类和可见性分析传递函数设计,“IEEE可视化和计算机图形学,24卷,不。12日,第3267 - 3253页,2018年。视图:出版商的网站|谷歌学术搜索
b·马·苏特于,a . Entezari“压缩卷的质量评估方法使用等值集群,”计算机与图形学卷。63年,18-27,2017页。视图:出版商的网站|谷歌学术搜索
T.-Y。林,p . Goyal r . Girshick k .他和p .美元,“焦损失密集的对象检测,”IEEE模式分析与机器智能,42卷,不。2、318 - 327年,2020页。视图:出版商的网站|谷歌学术搜索
诉Badrinarayanan、a .翰达岛和r . Cipolla”SegNet:深卷积encoder-decoder架构健壮的语义pixel-wise标签,”Computerence39卷,2015。视图:谷歌学术搜索
m . Cordts m·奥木兰·s·拉莫斯et al .,“城市场景语义理解,城市数据集”2016年IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索

无线通信和移动计算

学习方法对于城市计算和智慧

文摘

1。介绍

2.1。完全卷积网络

2.2。Encoder-Decoder

2.3。扩张卷积

2.4。深黑色的空间金字塔池(ASPP)

3所示。我们的方法

3.1。网络体系结构

3.2。骨干网

3.3。叉损失和焦的损失

4所示。实验和结果

4.1。2012年帕斯卡VOC

4.2。城市风光

4.3。CamVid

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

无线通信和移动计算

学习方法对于城市计算和智慧

一个Encoder-Decoder网络FCN架构为基础的语义分割

文摘

1。介绍

2。相关的工作

2.1。完全卷积网络

2.2。Encoder-Decoder

2.3。扩张卷积

2.4。深黑色的空间金字塔池(ASPP)

3所示。我们的方法

3.1。网络体系结构

3.2。骨干网

3.3。叉损失和焦的损失

4所示。实验和结果

4.1。2012年帕斯卡VOC

4.2。城市风光

4.3。CamVid

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章