近年来,卷积神经网络(CNN)语义分割取得了举世瞩目的成就。语义分割的方法有可取的应用前景。如今,这些方法主要是使用一个encoder-decoder架构作为一种生成像素的像素分割预测。编码器是提取特征图和解码器恢复特性映射分辨率。一种改进的语义分割方法的基础上encoder-decoder架构提出了。我们可以得到更好的分割精度在几类和显著降低了计算复杂度。这是可能通过修改骨干和一些精炼技术。最后,经过一些处理,在许多数据集框架取得了良好的性能。与传统建筑相比,我们的架构不需要额外的解码层和进一步重用编码器的重量,从而减少所需的参数完成量进行处理。摘要修改后的焦损失函数也提出,作为一种替代的熵函数来实现更好的治疗训练数据的不平衡问题。 In addition, more context information is added to the decode module as a way of improving the segmentation results. Experiments prove that the presented method can get better segmentation results. As an integral part of a smart city, multimedia information plays an important role. Semantic segmentation is an important basic technology for building a smart city.
卷积神经网络图像识别的重要组成部分,检测和分割。图像语义分割可以提供一个坚实的基础为智能城市的建设和研究近年来已获得了高度的关注。语义分割针对分类图像中的所有像素根据一个特定的类别,这是通常被称为密集的预测。它不同于图像分类,因为我们不要将整个图像划分为一个类,但所有像素。因此,我们拥有一组预定义的类别和我们需要分配一个标签来显示图像的所有像素图像中各种对象的上下文(
相对幼稚的方法来构建神经网络体系结构是简单地叠加数曲线玲珑,使用相同的填充保留尺寸保持不变,然后输出一个最终的分割图。通过一系列的功能映射转换,可以学到相应的分割结果的映射直接从输入图像。但是很昂贵的计算整个决议在整个网络。这个体系结构如图
一个简单的神经网络结构的构建方法。
在深卷积网络,第一层研究底层概念,和第二层研究高级功能映射。维护的表达能力的方法,特征图谱的数量(渠道)通常是增加同时深化网络。不同的图像分类只需要目标分类,图像分割需要每个像素的位置信息,所以它不能使用池或trided减少的卷积计算安全的分类任务。图像分割需要whole-resolution语义的预测。一个流行的图像分割模型是基于一个encoder-decoder结构。编码器部分,采用抽样,以减少输入空间分辨率,以生成一个低分辨率特性映射(这是计算效率,能有效区分不同类别);译码器的一部分,这些特性表征采样和恢复到全分辨率细分地图。
长等人介绍了利用端到端,pixel-to-pixel图像分割任务的训练,完全卷积网络在2014年底。在本文中,作者提出了利用现有的和研究图像分类网络的编码器模块网络,增加了转置卷积层在解码模块,和升级全分辨率细分映射(粗特征映射理论的
encoder-decoder结构是一种常见的体系结构当前的语义分割算法。的结构是由一个编码器和译码器。经典图像语义分割算法,如FCN U-net, DeepLab都采用这种结构。编码器通常是一个网络(VGG, Resnet、Xcepiton等);它由一个反褶积层和上抽样层。抽样的目的是捕获语义或上下文信息,而抽样的目的是恢复空间信息。常见的解码器包括双线性插值、反褶积和密集采样卷积。
FCNs,因为连续马克斯池取样操作,分辨率的特点是大大减少。最后,特征映射恢复了抽样失去细节输入图像的灵敏度。在完整的卷积网络扩展的卷积是用来代替标准的卷积,卷积网络可以精确地控制图像的分辨率在计算特征响应(
1-dilated
2-dilated
3-dilated
在同样大小的卷积核,接收的卷积核领域可以增加通过增加输入条纹,如图
说明算法的洞。
FCNs深是一种卷积神经网络,取得了良好的性能在进行像素级识别任务,但它仍然面临着挑战在这个变化和复杂的世界。FCN不是一个完全连接层。最初的方法是使用同样大小的卷积层堆栈,将输入图像映射到输出图像。它产生了强劲业绩,但它是非常昂贵的,因为他们不能利用任何二次抽样或池层,因为这将螺钉的位置。作为一种维持图像的分辨率,他们必须添加许多层的方式学习低级和高级特性。这意味着它是低效的。为解决这个问题,他们提出了一个encoder-decoder架构。编码器是一个典型的pretraining卷积网络而译码器由一个deconvolutional层和上层抽样层。抽样的目的是捕获语义或上下文信息,而抽样的目的是恢复空间信息。由于编码器减少图像分辨率,分割太过明确的边缘,这意味着图像之间的界限并不明确。
在[
ASPP模块的首次提出是在
(一)标准的卷积
它可以发现接受域已经从3到5,大约翻了一倍;卷积核大小仍然是
在本部分中,我们介绍了网络体系结构,然后详细解释每个模块的形成。我们也提出一个损失函数,进一步提高语义分割的性能。
图
一个图像分割网络架构基于encoder-decoder结构。
在过去的几年里,一些骨干的CNN网络取得了很大的进步在视觉任务,展示最先进水平。卷积层堆叠的顺序,池层,激活功能层,和一个完全连接层。CNN可以输出相对应的分类分的图像输入图像。2012年,AlexNet [
常见的图像分类网络信息摘要。
| 的名字 | AlexNet | VGG | GoogLeNet | ResNet | 《盗梦空间》 | Xception | EfficientNet |
|---|---|---|---|---|---|---|---|
| 一年 | 2012年 | 2014年 | 2014年 | 2015年 | 2015年 | 2016年 | 2019年 |
| 层 | 8 | 19 | 22 | 152年 | / | / | / |
| Conv | 5 | 16 | 21 | 151年 | / | / | / |
| 前5名(错误)% | 16.4 | 7.32 | 6.67 | 3.57 | 3.5 | 5.5 | 2.9 |
分类问题的共同损失函数是叉损失。它显示了两个概率分布之间的距离。他们叉越近,越近。熵方法是一种新型的通用方法,组合优化、多极优化和罕见事件模拟。标准的二元分类是叉的损失。
有时候我们会遇到图像分割的任务,那就是背景占很大比重,但对象占一小部分严重不平衡数据集。在这个时候,我们需要小心使用损失函数。最常用的损失函数如下:
从上面的公式,我们可以得出结论:当
我们定义
首先,积极的和消极的样本的比例应该平衡不使用负样本采矿和其他手段。在本文中,我们直接用一个参数
我们得到了平衡熵损失
在实践中,
尽管上述公式可以控制正负样本的重量,无法控制的重量容易样品和样本。
的
语义分割的过程中,有更多的类别对应的语义分割比目标探测的两分类问题。如果选择的参数
焦损失是RetinaNet模型中首次提出
的证明了框架的有效性,我们评估基准数据集的基础上(2012年帕斯卡VOC)和最新的方法。在本文中,我们报告三个主流的语义分割数据集的实验结果:PASCAL VOC2012 CamVid [
意味着十字路口联盟(MIoU)语义分割的标准衡量。两个集合的交集和工会比计算。在语义分割,两套基础真值和预测分割。这个比例可以演变为TP(交集)/ TP, FP, FN(联合组)。计算每个类的借据,平均水平。
首先,计算每个类别的十字路口和工会比率,然后得到的平均。TP是积极的有一种正确的样品,TN是一种错误的阳性样本。FP是负样本的错误。TP可以被理解为预测结果和标签的交集,而TP + TN + FP preunion测试结果和标签。越接近十字路口是联盟,更精确的分割。
我们也使用一些广泛使用的数据扩充策略在我们的培训,其中包括50%的概率水平翻转和随机缩放图像,比例因子在0.5和2.0之间在步骤0.25中,填充和随机作物缩放图像
帕斯卡VOC 2012包括20前景对象类和一个背景类,包括来自私人收藏的照片。有六个室内类、七车,七个生物。数据集包含1464列,1449验证,1456变量大小测试图像。我们使用
帕斯卡VOC2012性能测试集。
| 方法 | MIoU |
|---|---|
| FCN-8s | 62.2 |
| ResSegNet | 80.4.7% |
| RefineNet | 84.2% |
| PSPNet | 85.4% |
| DeepLabv3 + | 87.8% |
| 我们的 | 85.6% |
我们的最高得分进入每一列所示斜体。结果在85.6%在2012年帕斯卡VOC的性能测试集。
| 类别 | FCN-8s | ResSegNet | RefineNet | PSPNet | DeepLabv3 + | 我们的 |
|---|---|---|---|---|---|---|
| 自行车 | 34.2 | 65.2 | 73.2 | 72.7 | 77.1 |
|
| 椅子 | 21.4 | 37.4 | 43.7 | 43.1 | 56.9 |
|
| 羊 | 72.4 | 85.9 | 92.9 | 94.4 | 92.9 |
|
| 的意思是 | 62.2 | 80.4 | 84.2 | 85.4 | 87.8 | 85.6 |
根据评估样本的测试集上帕斯卡VOC2012验证数据集,我们可以看到,该方法适用于动物,人,和对象。仔细平等目标的边缘可以分割,提高分类精度的凳子上,动物,自行车,等等。上述分类指数的评价表明,其效果比许多分割方法,如图
可视化结果的帕斯卡VOC2012验证使用我们的方法。
城市数据集是一个非常大的图像数据集,其重点是街景的语义理解。它包含50个城市的道路驾驶图像在春天,夏天,秋天。有19类数据集,包括良好的天气和温和的天气,很多动态对象,不同的场景布局,和不同的背景。我们已经在5000年fine-labeled图像进行实验,分为2975训练图像,验证图片,500和1525测试图像。所有图片的分辨能力
如图
使用我们的城市数据的可视化结果的方法。
分割结果城市测试集(
| 方法 | MIoU (%) |
|---|---|
| FCN-8s | 65.3 |
| Dilation10 | 67.1 |
| ShuffleNet v2 + DPC | 70.3 |
| MobileNetV2Plus | 70.7 |
| ML-CRNN | 71.2 |
| 梯DenseNet | 74.3 |
| TuSimple | 77.6 |
| DeepLabv3 + | 82.1 |
| 我们的 | 81.79% |
,进一步证明了该方法的有效性和鲁棒性,我们也评估其CamVid数据集上的性能。Cambridge-driving贴上视频数据库(CamVid)是第一个视频集合对象l类语义标记。地面实况标签提供的数据库相关的每个像素的32个语义类。CamVid数据集包含城市道路驾驶场景的图像。我们使用11类,包括367年训练,101年验证,和233个测试图像。所有图片的分辨率
我们火车模型的随机初始化和微调ImageNet pretrained参数。在培训过程中,随机剪裁的大小
我们可以看到,本文的模型可以得到非常准确的语义分割结果。是否这是一个小目标,或一些目标遮挡和重叠,本文的方法可以准确地细分。
我们引入一个简单但强大的网络提高语义分割任务。结合ASPP和古典encoder-decoder结构,一种改进的损失函数更适合应用程序了。实验结果显示了该方法的优越性。它不仅有效地提高了分割性能也显著提高训练数据的不平衡。作为一种提高学习能力的方法,我们将更加专注于弱监督学习和metalearning。我们认为,语义分割可以为未来的智能城市建设提供一个良好的实践。
研究用于查找的数据可以根据客户要求提供相应的作者。
作者宣称,他们没有利益冲突。
这项工作得到了湖北省自然科学基金(2015 cfb525),国家自然科学基金(6130329)和湖北省自然科学基金创新研究小组(2017 cfa012)。我们要感谢那些匿名评论家曾帮助促进他们的论文的质量。