文摘

对象骨架检测要求卷积神经网络识别对象及其零部件在杂乱的背景,克服图像退化带来的池层定义,并预测骨架像素的位置在不同的粒度。大多数现有的对象骨架检测方法考虑努力side-output网络的设计融合的多尺度特性。尽管取得了很大的进步,仍有许多问题阻碍物体骨架检测的发展,如劳动密集型手工设计的网络和网络初始化取决于模型pretrained大规模数据集。遗传NAS缓解这些问题,我们提出一个方法来自动搜索一个新设计的架构搜索空间自适应融合的多尺度特性。此外,我们引入一个对称encoder-decoder基于扭转VGG网络搜索空间,解码器可以重用ImageNet pretrained VGG模型。搜索网络改进的性能最先进的方法常用的骨架检测基准,这证明了我们的方法的有效性。

1。介绍

骨架是一种固有的自然对象的视觉描述符,其中包含丰富的语义对象的形状。紧凑的拓扑表示对象,对象骨架提高手势识别的研究(1),人体姿态估计(2)、文本检测(3)等。

在深度学习时代,对象骨架检测方法通常由卷积神经网络(cnn)实现在一个端到端的方式,通常制定pixel-wise二进制分类任务。对象的基本困难骨架检测可以概括为如何同时检测对象骨架与不同尺度自特定的卷积层接受域有限大小和缺乏表达能力。

共识的基础上,从浅层次包含低级细节而从深层拥有丰富的高层语义特征,现有的对象检测工作很努力在设计side-output网络融合的多尺度特性。等等,整体嵌套边缘检测(HED) [4]开创性发现对象骨架使用抽象提取多尺度表示的CNN,融合在一个分层并行结构。融合尺度深side-outputs (fsd) [5]利用尺度地面真理divided-and-conquer的方式监督网络,在深side-output特征与特定的规模也逐渐融合预测每一层的骨架地图。Side-output残余网络(SRN) (6,7)采用side-output剩余单位整合功能相邻阶段从深到浅。高保真(8]介绍了双边功能集成机制不同尺度的融合特征更多的人口。尽管很大的进步由现有的多尺度特征融合工作,一个局限是,现有的架构仍然hand-designed。译码器网络没有pretrained参数。这些缺点阻碍发展的对象骨架检测在一定程度上。

本文受神经结构的非凡成功搜索(NAS)在许多计算机视觉领域,如图像识别、目标检测,和语义分割,我们提出一个新颖的NAS-based对象骨架检测方法,称为遗传特性融合(人造石铺地面)。与以往方法的体系结构不同,人造石铺地面介绍NAS搜索自动自适应特性的网络体系结构融合。HED的跟进4)使用网络中常用的分类,比如VGG [9),但这些网络很难在对象骨架检测有良好的适应性。这种观点的指导下,我们建议扩大side-output现有网络的体系结构和搜索扩大搜索空间,自适应地得到最合适的网络体系结构对象骨架检测。为了充分利用这些现有的pretrained参数网络解码器也从骨干(图逆转1)。我们利用遗传算法来搜索扩大搜索空间和得到一些新颖的网络实现先进的性能。

这项工作的贡献总结如下:(我)我们提出一个新的NAS-based对象骨架检测方法称为遗传特性融合(人造石铺地面),它可以充分利用pretrained现有网络编码器和译码器网络的参数和自适应融合的多尺度特征提取在不同的脑回的层(2)我们介绍的搜索空间扩展现有网络,其目的是桥之间的差距分类网络和对象骨架检测网络(3)我们提高最先进的性能和展示我们的人造石铺地面常用的框架的有效性检测基准

对象骨架检测是计算机视觉领域的重要意义,骨架揭示的内在拓扑属性对象。在本节中,我们首先回顾功能融合架构,然后对象骨架检测方法,最后总结NAS技术。

2.1。对象骨架检测

卷积神经网络(cnn)发挥绝对主导作用image-to-mask任务。然而,CNN本身存在固有矛盾,也就是说,好的结果需要细粒度范围从深度浅的特性和抽象的语义特征。减轻这个问题,研究人员介绍了融合和广泛研究特性,结合多尺度特性产生的结果。对象骨架检测(对称检测)是一个重要的image-to-mask在计算机视觉任务。它有助于理解图像中对象的高级功能,如拓扑性质。

早期的方法通常利用几何造型,如图像形态学操作,检测对象的骨架。图像分割程序必须执行预处理在处理彩色图像。这些方法总是有良好的可解释性但表现不佳。

进入深度学习的时代,对象骨架检测的性能已大大改善提案后HED [4),这是一个先驱工作制定骨架检测问题作为pixel-wise二进制分类任务。HED开发并行多尺度特征融合与卷积神经网络的帮助。大多数方法提出了后续治疗对象骨架检测作为pixel-wise二进制分类任务和改进HED从功能的角度融合。如图2,许多流行的作品集中在特征融合来提高性能。

鉴于地面真理尺度,融合尺度深side-output (fsd) [5)学会了使用多个对象的骨架网络阶段,对应于不同尺度。SRN [6)提出了一个side-output残余网络扩展特征空间以适应之间的错误输出功能和骨骼地面实况。Side-output剩余单位建立短连接和发送深到浅细粒度层粗粒度特性。通过这种方式,不同尺度的特征合并生成更好的骨架地图。RSRN [7)利用密集side-output剩余单位充分利用丰富的多尺度特性。女性性功能障碍、高保真(8)也使用尺度监督建造了一个网络的分层特性之间的集成机制阶段更好的融合功能。LSN [10]增加了不同层的独立特性使用线性网络和线性跨单位下的线性跨度视图。刘等人。11)设计的正交分解网络丰富功能的多样性。PSG [12)使用高斯混合模型为参数分区骨架分支骨架泛化。

2.2。神经结构搜索

最近兴起的自动化机器学习(AutoML)引起了广泛的研究,因为它会自动优化hyperparameters,可以节省昂贵的专业知识。AutoML的一个重要组成部分,神经结构搜索(NAS)致力于自动化网络架构设计和发现的过程比手工设计更好的网络结构。

NAS有三个核心组件:搜索策略,搜索空间,和评价策略。四种常用的搜索策略,包括强化学习、进化算法、贝叶斯优化,和只有一次的方法。早期NAS主要由钢筋和制定基于进化论方法但忍受巨大的计算成本。NASNet[的搜索过程13GPU),基于强化学习,花了1800天,而基于进化论AmoebaNet [14GPU)花了3150天。如此巨大的计算开销的原因是采样网络结构必须独立评估阶段的训练。为了降低计算成本,只有一次的方法,提出了采用重量训练supernet共享的策略,和采样网络承受的重量supernet期间避免pretraining评估。基于重量作为一种特殊的家庭共享、梯度方法用飞镖(15)继续离散搜索空间搜索的目的,实现梯度的更新。因为他们的快速实现搜索,通常在1 GPU,这种方法有很高的期望和被广泛研究,但仍存在困难克服不稳定。

搜索空间是神经网络的集合,它指的是一个空间,其中包含所有的网络架构,可以搜索。为了简化搜索困难,搜索空间通常局限于一个细胞空间,称为细胞空间(15- - - - - -18]。基于单元的空间已被广泛研究,取得了良好的表现,但它已被批评为其低困难。一些作品19,20.)定义了一个基于MobileNet搜索空间(21块(MBConv),通常受益于有效的搜索和更好的候选人操作,实现更好的结果比基于单元的方法。由于强大的MBConv,最近EfficientNet [22),通过引入复合系数,定义了空间的三维网络的长度,宽度,和图像分辨率,取得了令人信服的分类结果通过强化学习。

最近的一些方法NAS不仅分类任务,也适用于下游任务,比如对象检测和语义分割和也实现了先进的表演。以自适应获得多尺度side-output融合结构,NAS-FPN [23)定义了搜索空间,融合可以优化的层次特征。在强化学习,NAS-FPN达到SOTA检测结果。Auto-DeepLab [24大大提高了分割的性能通过搜索一个设计良好的搜索空间,包括最受欢迎的hand-designed网络,例如,U-net [25和沙漏26]。

在本文中,我们提出一个遗传特性融合(人造石铺地面)方法。基于VGG,我们允许每个卷积层接受输入卷积早些时候从多个层,通过这种方式,实现多尺度特征融合,最大化的使用pretrained参数。人造石铺地面的网络结构包括一个网络编码器和译码器网络。每一层的输入编码器只能来自编码器,译码器的输入可以来自编码器和译码器。为了减少复杂性,我们可以使用限制输入的数量。

3所示。遗传特征融合

3.1。重新架构搜索策略

列举所有搜索空间的架构是最简单的策略,寻找最好的网络。不过,它也有应对巨大的计算开销是可以接受的,并成为不可或缺的启发式方法。NAS的主要启发式方法如下:强化学习,泛型算法/进化算法和可微的搜索。所有这三个策略可以达到良好的结果在一个特定的搜索空间,所以研究人员转向启发式搜索策略。的基本框架如图3

3.1.1。强化学习

NASNet [16首先介绍了强化学习NAS社区。基于强化学习的方法治疗体系结构搜索代理学习过程和预测好的架构通过培训代理。每个网络体系结构可以表示为一个字符串,它是由一个RNN控制器。字符串是从头开始独立训练,正确性率是用来训练代理。代理然后指示RNN控制器更新它的参数,以便下次更好的架构可以可能生成的。神经结构搜索可以通过循环执行上述过程。然而,基于强化学习NAS方法需要大量的计算开销。预测良好的网络架构,他们需要培养大量的生成架构。例如,搜索NASNet [16GPU)需要1800天。

3.1.2。遗传算法

遗传算法本质上是受生物进化过程,而保留优秀个人和丢弃劣质个体通过不断迭代包含所有个体的数量。遗传算法作为网络架构作为个人和网络架构搜索优良个体的过程逐渐从种群的进化。交叉、变异和选择是遗传算法的通用操作。两个个体之间的交叉出现,每一个对应于其独特的编码基因,和两个人交换部分基因与一个预定义的概率。突变是针对一个单一的个体,它变异有一定概率的一些基因对应。首先,所有的个体人口交叉,然后每个突变一次,所有的新个体形成了新的人口。训练后从头人口中的所有个体独立,选择优良个体的某些标准,如准确率,叫做选择操作。早期遗传算法方法仍然需要从头开始独立训练的网络体系结构,所以这些方法也需要较高的计算成本,如搜索AmoebaNet [14GPU)花了3150天。然而,一些最近的用更少的迭代方法实现了先进的性能和计算时间27,28]。

3.1.3。可微的搜索

强化学习和遗传算法方法是缓慢的,因为评估阶段需要大量的计算时间;也就是说,每个采样网络体系结构都是从头开始训练。为了缓解这个问题,人们提出了很多方法,比如使用更少的参数和网络或搜索小代理数据集,但这些尝试只是绕过计算开销为代价的差距很大,但问题依然存在。后来,weight-sharing机制提出了整个搜索空间编码到一个supernetwork [15,17,29日),每个对应一个subarchitecture搜索架构。supernetwork的模块可以通过各种subarchitectures共享搜索过程在很大程度上加速。可微体系结构搜索策略放松weight-sharing supernetwork空间使其连续通过添加重量为每个候选操作。飞镖(15),其中最流行的可微的搜索算法,定义了一个基于单元的搜索空间,初始化一个体重1 /CC候选人每个节点的操作。然后,这些权重可以更新在一个连续的空间梯度优化。程序更新这些候选人操作对应的权重是搜索架构的过程。的搜索,操作保留较高的权重,权重较低的和操作被取消,也就是说,执行一个离散化的过程。

3.2。建筑的空间特性融合

整体网络结构有两个部分:编码器和译码器,这两种VGG网络解码器的网络相当于逆转VGG网络结构,除了解码器池层都被upsampling操作(图所取代4)。包括池层,VGG-16有18层,按顺序标记队。值得注意的是更深的层在编码器,数量越大。例如,第七层后的编码器是第六层,所以更深一层的数量较大,而更深的层在译码器,数字越小。例如,解码器第六层后7日译码器层,也就是说,第六层是越来越接近第一译码器层。

每个卷积的搜索范围是输入层编码器和译码器,也就是说,每一层的输入来自何处。我们限制输入的每个卷积层编码器只能来自编码器,译码器中的每个卷积层可以来自解码器和编码器。为了简化空间,每个卷积的候选人输入层的范围在编码器约束三个,也就是说,每个卷积层只能接受前三层的输出作为输入。例如,第五层的输出只能接受第二,第三,和/或第四层。译码器可以接受输入从编码器和译码器本身,候选人的范围输入的每一层(卷积或池)译码器指定6,译码器层的上层范围是3,和编码器层是3。每个解码器的例子可接受的输入层如下:6层在译码器网络可以接受9日8日和7日译码器层,5日,6日和7日编码器层。

3.3。遗传结构搜索算法

搜索算法类似于AdaLSN [27]。如上所述,每一层的网络编号不同索引的目的。每一层的输入可以表示为一个简单的列表,称为基因,每个元素,称为基因,表明候选人是否被选中作为输入,输入层网络个体在搜索空间可以唯一编码为一组列表,称为基因型。我们指定每一层接受第一个三层作为输入和部队上一层被保留,以确保整个VGG网络保留。所以,除了边缘层,上有两个基因在基因组编码器译码器和五个基因在每个基因组。

我们随机初始化24个人形成了初始种群。每个人是从头开始训练了1000步,这是足以让一个网络训练好,因为大多数的参数被保留。然后,评价过程进行验证集,其中包含50图像与训练集分离。最低的八个人损失选为主导的。

交叉过程发生在八个选择主导个人,成对成双,和候选人投入的每一层,一个基因组,交换概率这8生成新个体。每个基因的每个新个体变异概率 ,导致8新个体形成一个新的人口。图5显示了整个过程。前面的过程是执行了50次,然后最终的架构。

最后的网络结构将后跟一个卷积减少渠道的数量1,作物灰色图像原始图像的大小,然后监督其距离地面真理通过常用的二叉叉。

4所示。实验

4.1。实验设置
以下4.4.1。数据集

我们训练和测试方法3的数据集通常用于对象骨架检测:SK-LARGE [30.],SK506 [5],WH-SYMMAX [31日]。SK-LARGE从MS-COCO采样数据集(32746/745),其中包含图像进行训练和测试,包括16类的对象。SK506,也称为SK-SMALL SK-LARGE的旧版本,其中包含300 206训练图像和测试图像在16个不同的对象。WH-SYMMAX包含有关魏茨曼200/100培训和测试图像所有的马。所有训练图像和地面真理与扩展增强(0.8倍,1.0倍和1.2 x),旋转(0°、90°、180°和270°),和翻转(从右到左,从左到右),以及解决标准化(33]。

4.1.2。实现

搜索过程是NVIDIA泰坦上执行RTX gpu (24 GB的内存)。VGG [9)作为骨干网络进化。交叉率 和变异率 都是0.2,50代。最后一个搜索架构如图6

最后的架构是训练和测试单一NVIDIA GTX 2080 ti (12 GB的内存)。我们使用了亚当优化器(34与1的初始学习速率)e0.0002−7、体重衰变,贝塔(0.9,0.999)。在培训期间,如果批量大小是1,网络参数将被更新使用增加的梯度计算每10迭代转发的传播。学习速率是固定在50000年第一个迭代和减少到原来的十分之一。培训过程将在60000年迭代停止。的参数搜索架构约32.1米,72.6 G的失败当输入一个224×224的形象,和训练过程花了9.5个小时。

设置在35)作为评价指标。

4.2。性能和比较

我们的人造石铺地面优于对象骨架的艺术状态的检测在几个常用的数据集,结果如表所示1。VGG [9pretrained参数是用于我们的方法,对每个数据集,并搜索架构培训。

骨架结果并与其他方法如图所示7。你可以看到我们的人造石铺地面的优越性,它可以提取骨架的地图不同粒度更好的连续性。

在SK-LARGE [30.)的数据集,我们的人造石铺地面达到的性能F得分73.6%,最高的对象骨架检测性能优化方法相比DeepFlux [37),达到73.2%。我们也比高保真(8],它利用额外的尺度地面真理的利润率为1.2%。在另一个令人信服的数据集SK506 [5人造石铺地面,也体现了优越性。人造石铺地面达到F分数的72.3%,高于高保真(8]和DeepFlux [37与利润率分别为4.2%和2.3%)。

4.3。烧蚀研究

我们通过对比实验验证了我们的方法的有效性,进行随机搜索过程。我们为每一层随机储备每个候选人操作和独立执行4 * 4的架构。每个架构重新训练对SK-LARGE相同数量的步骤,结果如表所示2。可以发现这些4架构的结果范围从70.9%到72.7%,低于73.6%通过我们搜索的架构。

8在搜索过程中显示了人造石铺地面的适应能力。图8(一个)显示top1-4损失的变化在不同的一代。损失的价值明显减少,这表明更好的架构出现在人口发展。图8 (b)显示候选人输入连接的数量的变化保留在编码器和解码器在不同的几代人。一般而言,候选人连接的数量正在减少,这表明我们的方法自适应地寻找scale-aware架构。图8 (c)保留显示候选人输入连接的数量在不同的阶段。可以发现网络连接的所有阶段除了第二阶段是减少因为第二阶段的特点是均衡的,细粒度和粗粒度特性,但其他阶段储备越来越少的候选人输入连接,这使得我们的方法的搜索过程。

证明我们的人造石铺地面的优越性,在桌子上3,我们测试VGG达到F分数的48.0%比我们低25.6%。FHN [38),与类似的动机,我们人造石铺地面低于6.1%。

5。结论

对象骨架检测已引起广泛的研究兴趣在计算机视觉领域,帮助理解对象的形状和拓扑结构的属性的自然图像。在本文中,我们提出了遗传特性融合(人造石铺地面),它扩展了现有的分类网络形成一套网络空间。每个网络,包括编码器和译码器,在这个空间可以充分利用pretrained参数。由神经结构搜索(NAS),人造石铺地面自动集成了不同尺度的特性和搜索scale-aware网络骨架检测对象的扩展空间。显著更高的性能常用数据集展示了人造石铺地面的优越性。

数据可用性

我们的论文中使用的数据集可以https://kaizhao.net/sk-largehttps://openaccess.thecvf.com/content_cvpr_2016/html/Shen_Object_Skeleton_Extraction_CVPR_2016_paper.htmlhttps://dl.acm.org/doi/10.1016/j.patcog.2015.10.015

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持部分由中国国家自然科学基金(国家自然科学基金委)(批准号61836012和61836012)和中国科学院的战略重点研究项目(批准号XDA27010303)。