计算智能和神经科学

在这一页上

文摘介绍结果讨论材料和方法确认引用版权相关文章

研究文章|开放获取

体积2016年| 文章的ID6425257| https://doi.org/10.1155/2016/6425257

缓解阻塞对目标识别的影响通过低级图像与深层神经网络完成

本杰明·钱德勒 ¹ 和尼奥•Mingolla²

学术编辑器: 迈克尔Schmuker

收到了 2015年11月26日

接受 2016年4月18日

发表 01 2016年6月

文摘

严重阻挡物体更困难比,从而正确分类算法来识别对象。这种效应是罕见的,因此很难测量与数据集ImageNet和帕斯卡VOC,然而,由于偏见在人为的图像构成的选择。我们引入一个数据集,强调阻塞,增加一个标准的卷积神经网络旨在增加不变性闭塞。未经修改的卷积神经网络训练和测试新数据集快速降解chance-level精度随着阻塞增加。培训与阻挡数据放缓这种下降但仍收益率高阻塞表现不佳。整合新预处理阶段段输入和填补遮挡是一种有效的缓解。卷积网络所以修改几乎是超过81%的像素一样有效阻挡,因为它是无阻塞。这样一个网络,从而也更精确的图像比其他相同的网络,一直训练,从而只有图片。这些结果取决于成功的分割。在我们的数据集是故意遮挡容易段的图和背景。 Achieving similar results on a more challenging dataset would require finding a method to split figure, background, and occluding pixels in the input.

1。介绍

对象,严重阻挡更困难比通畅对象分类算法。我们引入一个新的方法来减轻通过修复通过数据集分类的难度增加,反过来依赖于能力部分对象从背景或遮光板像素像素。自适应滤波器和神经网络(多层感知器)之前已被成功地应用于视频序列在光流算法与闭塞2 d对象跟踪(1]。这种方法已经被扩展到立体视频流(2]。当前工作的重点是在遮挡的影响,在静态图像分类识别精度。

我们的研究是出于人类的视觉之间的重大分歧和机器视觉处理阻挡物体。人类的视觉系统擅长识别对象在我们的环境中部分或明显阻挡通过干预表面。类似计算机视觉尚未证明的性能。参见[3,4)广泛的文学评论的神经科学相关的人类视觉感知的阻挡物体。特别是讨论(3,4)观察(5,6的情况可见遮光板的外观可以提高人类性能比观看相同的片段中描述的对象空间安排在隔离,没有阻碍的轮廓表面被表示。我们的研究是一个一步关闭之间的差距人和机器阻挡物体的识别。

当前备受关注的对象分类标准都不是适合量化带来的困难程度分类变量水平的咬合7,8]。都是由公共照片分享网站,因此对闭塞的图像有一个偏见。Hoiem et al。9)使用2007帕斯卡VOC分类任务的结果来识别最重要的误差源。分类性能急剧下降的百分比阻挡像素增加。帕斯卡的罕见发生阻塞数据,然而,导致作者得出结论,闭塞弹性总帕斯卡性能的影响可忽略不计的算法(9]。

这个主张遵循从源数据。人类捕获的图像在帕斯卡,故意写和捕获的场景倾向于拍照通畅对象的接近中心的框架。这种倾向完全可见对象帕斯卡是观察者偏见的一个例子在数据集建设(10]。数据集的偏见在一般情况下,观察者偏见的一个子类,使得算法来产生那些冠冕堂皇的分类结果通过overrelying信号有点实际的效用。例如,一个特定的数据集可能包含对象只有一个非常受限制的组强烈的姿势或图像背景与目标对象的类(10,11]。这种偏见是很难衡量,很难正确,削弱论证当前大型数据集分类准确反映现实世界(10]。

除了代表一个带有偏见的例子的现实世界中,当前的大规模数据集也失踪的描述性元数据需要准确地量化遮挡的鲁棒性。理想的数据集将包括一个精确的描述作为元数据的类型和水平阻塞与每个样本。Hoiem et al。9]只能考虑四种不同情况下的阻塞:没有,低,中,高。研究低定义为“轻微阻塞,”中“被挡住,重要组成部分”和“许多地方失踪或75%阻挡。“闭塞后的粗定义数据的性质。Everingham et al。8)构建帕斯卡通过聚合和hand-annotating大量图像从Flickr上的网站。Hoiem et al。9)增强帕斯卡注释与额外的细节层次的阻塞。如Everingham et al。8),他们不得不这样做。这是一个标准的非参数分类的数据集的问题。这样的数据集收集到的标记,无约束图像来源。数据因此非常多元,但手,往往需要添加注释信息贫乏是实际结果(7,8]。

NORB数据集是一个对比的例子最近参数数据集(12]。NORB包含五类十对象在每一个图像。为每一个对象,数据集包含为每个36另一对立体图像,9海拔6照明条件。这些参数进行图像数据,允许调查人员直接测量的灵敏度算法属性组内变异或照明。数据1(一)和1 (b)对比参数和非参数类型的分类数据集。

(一)

(b)

(c)

图1

样本图像NORB ImageNet,索伯数据集。NORB (a)是不变的参数数据集用于实验对象分类。它包括五个类别的对象,每十个特定对象。NORB包含一对立体相机海拔,九点十八相机另,五光水平为每个实例(12]。ImageNet (b)是一个非参数数据集,它包含大量的标签的例子从互联网上刮。NORB相比,ImageNet有着更多的数据和更多的类别,但通常只有一个图像为每个对象实例。图像参数未知类别(除外7]。索伯(c)是一种新的扩展了NORB数据的数据集。从NORB但它保留了丰富的参数元数据添加不同水平的酒吧,斑点,随机立体声遮挡。

执行更复杂的分析比Hoiem遮挡的鲁棒性等。9)能够执行需要更好的描述性元数据。介绍了索伯(合成对象识别基准闭塞)数据集来捕获类和闭塞的水平比可能是更好的解决hand-annotating帕斯卡在occlusion-resistant对象分类数据和支持工作。设计比赛NORB尽可能简化与文献中的许多NORB结果进行比较。图1 (c)显示的例子索伯图像不同的类和闭塞。

能够精确测量阻塞对对象分类性能的影响使建设一个occlusion-robust算法。这样的算法必须面对nonrobust算法可以忽略的两个问题:(1)目标对象的视觉信息属于什么?(2)不确定或不属预定目标的信息应如何打折吗?

第一个问题就是其中之一分割。occlusion-robust分类算法必须能够对视觉信息的每个像素进行分类图,地面,或闭塞。图类标识属于目标对象像素。地面像素背后或不重叠的目标。遮挡感兴趣像素的对象是隐藏的,因为它阻碍了一个靠近观察者对象。最后这两个类是不同的,因为遮挡覆盖目标,可以把图信息分割成两个或多个不相邻的地区。地面是背后或不重叠的图,因此不会导致这样的分裂。一旦信息属于每个类的估计算法,然后它必须折扣不确定或不属预定目标的信息。不确定性的出现因为场景的分割是一个潜在的不准确的估计。

分割甚至打折相关任务的分类算法,而不是一个检测算法。在检测问题的算法必须估计目标对象的位置可能包含一个目标对象的给定一个输入图像帧在任意位置。输入图像的一个子集可能不包含目标对象。一个分类更容易解决的问题,它执行角度偏差通过限制输入图像与一个主要对象类接近中心的框架。Hoiem et al。9]研究表明,阻塞甚至对于分类问题是一个重大问题。

分析在Hoiem et al。9)是足够的建立,现有先进的算法在high-occlusion场景中表现不佳。它还建立了帕斯卡VOC基准数据集是错误的使用如果high-occlusion场景是很重要的。帕斯卡VOC包含阻挡物体相对较少,因此总结果相对不敏感的算法如何处理阻塞。的对象是阻挡,使像素的位置是未知的。缺乏真实的分割信息进一步限制的适用性帕斯卡VOC数据occlusion-resistant对象分类算法的发展。索伯包含这些额外的元数据。

介绍了一种新的occlusion-robust对象分类算法,利用丰富的元数据在索伯数据集。这是一种新算法扩展现有的算法,而不是一个完全定制的建设。扩展现有算法进行保护的主要好处在low-occlusion情况下基本分类器的性能。最先进的基分类器将继续按计划执行NORB等标准数据集。新的扩展允许分类器性能退化速度低于将没有遮挡的算法扩展增加。

综上所述,参数闭塞元数据和真实分割信息使探索occlusion-resistant索伯理想数据集对象分类。本文首先着重于复制Hoiem et al。9]研究使用新的数据集索伯。后续实验建立在这些结果来构造一个occlusion-resistant对象分类算法从现有的不抵抗的算法。

现有对象分类数据集。当前对象的大多数数据集分类工作是围绕两个标准挑战:ImageNet大规模视觉识别的挑战(ImageNet)和帕斯卡视觉对象类(PASCAL VOC或PASCAL)的挑战。每个挑战都有一个关联的数据集。尽管这两个挑战使用不同的数据,不同的任务,和不同的精度指标,两者都是大规模的和非参数。

上下文中的对象分类、非参数数据集就是从人口与图像采样未知的图像参数。这个词并不意味着不能由一个参数描述图像空间。它只意味着研究者不能实际列举图像参数。通常这是因为图像来自一个非常大的、弱约束人口与一个非常大的参数空间。ImageNet样品图1 (b)说明这一点。这些图片都是船的照片。没有船出现不止一次,然而,等参数的图像组成和构成矢量目标对象都是未知的。更关键的是,有额外的,不受控制的参数,如一天的时间,风,和背景。简单地描述图像中的所有参数变异的来源是不切实际的参数空间的大小,图像的数量,以及每个形象都需要手动标记。

帕斯卡VOC和ImageNet原则区别对象的数量和结构类别。帕斯卡包含四个宏观类别(人、动物、车辆和室内)共有二十个子类。这相对平坦的类别结构和低类别总数是一致的最前对象分类的数据集。ImageNet不同,它包含成千上万的类别排列在一个深,层次结构。TinyImages数据集从麻省理工学院使用类似的结构,但只包括很小的图片(13]。ImageNet和TinyImages都使用从名词部分WordNet数据库分类标签(14]。WordNet包括上级和下属条款数据库中的每一项。考虑到标签“德国牧羊犬”,例如,上级的标签列表牧羊犬,工作犬,狗,犬,食肉动物,胎盘哺乳动物,脊椎动物,脊索动物,动物}。每一步的树上级的标签是一个是一个关系。算法设计了一个小、平面的层次分类标签往往不会做大,深,层次树的分类标签ImageNet TinyImages数据集,没有修改。这三个数据集(PASCAL, ImageNet TinyImages)仍非参数,然而。

这个大参数空间通常是作为一个论点,图像是客观的现实世界相比。这个逻辑、对象分类算法,适用于ImageNet或PASCAL VOC数据集应该执行任意的图像来自自然世界。然而在实践中,这一观点并不保存的很好。Hoiem et al。9)做了一个关键的观察沿着这些思路:遮挡不经常出现在帕斯卡VOC的数据。这个观察帕斯卡与共同的经验。人类和其他视觉动物非常善于识别阻挡物体和浏览闭塞的环境,因为这种情况是正常的,没有例外。这是一个观察者偏见的例子。其他作者注意到额外的偏见来源,如预测数据从图像背景10,11]。这些上下文信息通常帮助'一个分类器对正确的类的一个对象。当开发一个分类算法,然而,上下文启动作为混杂变量。

纽约大学对象识别基准(NORB)数据集是一个最近的例子参数对象分类的数据集。这个数据集比ImageNet或PASCAL需要更严格的方法。而不是从大量图像人口抽样与未知参数和鲜为人知的偏见,NORB由显式参数空间定义。参数空间中的点完全描述图像,这样的图像可以完全重建参数的知识。这种方法更“自然”的图像严重受限,看起来不像真实世界的场景。这之前设置的参数是远远小于所需设置的参数来描述自然图像。然而,好处是数据集得到的创造者选择包括哪些参数。这意味着每个数据集包括精确的范例,完成,参数元数据设计参数。这样的元数据的必要条件构建实验分析条件分类算法做得好或不好。

NORB旨在解决姿势,lighting-invariant对象分类。这一目标导致的选择设计参数如下:(1)对象类。(2)对象实例。(3)相机视图。(4)相机方位。(5)照明条件。

的对象类是对象所属的类别。NORB包含五类:四条腿的动物,人物,飞机、卡车和汽车。的对象实例中的特定对象的类别。每个类别包含10个独特的情况下,共有五十个对象。的相机的高度和相机方位描述相机的位置相对于目标对象。NORB包含图像捕获从九个海拔和十八方位角》。最后,光级描述了照明度。NORB包含图像在五个不同的光水平。

这五个参数描述所需的尺寸变化NORB图像。对于所有其他可能的图像属性,作者努力仔细控制变化。目标对象被漆成一个统一的颜色和照片在一个统一的背景。相机和灯光都由机器人定位。对象和摄像机位置很仔细,这样的对象出现在画面的中心。在实践中,这意味着所需的五参数变异来源的描述基本上所有变化的图像。

严格控制的变异性和高质量的参数元数据NORB使一组实验与非参数数据集不实际ImageNet和帕斯卡VOC。从这组旋转不变性是一个例子。解决旋转不变性与NORB仅仅需要切成适当的测试和训练集的数据。例如,训练集可能包含收集从一个相机立体像对的一半高度和方位。测试集将包含所有剩余的数据。NORB意味着这样一个切片中包含的丰富的元数据很容易构造,和输出足以调查对象分类性能的函数旋转。

复制这个实验使用ImageNet或PASCAL VOC的数据集将会更昂贵和更困难。Hoiem et al。9)为如何构建实验提供一个模板。选定的数据的子集,它将需要手动为每个图像构成的向量。一旦每个形象都有一个向量,它可能切片数据和运行一个分析。实验控制,然而,仍然是困难的。ImageNet和帕斯卡VOC不包含多个相同的对象。这意味着将包含不重叠的训练集和测试集的对象集。因此不可能建立一个对象如何分类算法执行一个对象在不同程度的偏差。

Hoiem et al。9)研究并没有试图解决旋转不变性。它面临着类似的问题试图诊断性能被遮挡时,然而。作者必须手动为每个标签的闭塞的图像数据集。源数据集(PASCAL VOC)包含许多类型和水平的遮挡,所以作者问人类贴标签机每个对象归为不,低,中,或高阻塞。这种方法就足以建立一个阻塞程度和分类性能之间的关系。它是不够的,然而,测量的影响,不同类型的遮挡或试验策略恢复失去的性能。

索伯数据集。合成对象识别基准与遮挡(索伯)NORB数据集的数据集是一种新的衍生品。像NORB,严格控制,参数数据集。索伯数据集NORB表达的相同的设计原则适用于occlusion-resistant对象分类的问题。要做到这一点,它包括两个图像参数之外NORB中包含:阻塞型和闭塞水平。阻碍物体的遮挡类型表示类在一个给定的图像。索伯包括酒吧、斑点和随机噪声阻塞类。闭塞的水平表明阻挡像素的数量。一个像素不需要包含一个对象被包括在这个数,因此阻挡像素的数量相当于阻挡像素的比例在整个图像。

除了这两个添加,索伯保持尽可能NORB这样NORB文献中结果直接与索伯的结果。在实践中,索伯达到这一目标通过扩展NORB数据。而不是从全新的图像,索伯包含NORB图像人为覆盖遮挡。这是合成索伯。

索伯数据集是为了解决两个问题:(1)对象如何分类算法执行的函数阻塞水平?(2)是策略以减少遮挡对分类性能的影响有效?

第一点是由分析Hoiem et al。9]:现有最先进的对象分类算法更有效遮挡在严重闭塞条件下增加,几乎没用。索伯包括足够的元数据复制这一分析。第二点是独特和索伯可寻址。索伯的真实数据集包括所有图像的分割。这个日渐细分的方法包含一个alpha-matte符合Grady et al。15)和洛特et al。16]。像素值alpha-matte要么是0或1,0是完全的背景和1在哪里完全前景。

修复了遮挡。修补是一种标准技术,恢复受损的绘画和图片。最初一个完全手动的过程由熟练的艺术家来恢复艺术,现代计算使得许多数字等价物。修复的基本目标是最小化的外观损坏部分的绘画在这部分的方式符合其他的图像(17]。图2是一个成功的例子。

(一)

(b)

(c)

图2

在遮挡修补。原始输入()是一个帧的视频蒙面的视网膜血管图像。该算法没有访问像素覆盖的面具。快速解决线性扩散(b)使用原始输入和分割估计填写在闭塞地区。放大不仅输出(c)揭示了这个简单的技巧的弱点。泥土左边的图像包含小边缘信息和修补工作。骑手的边界,然而,严重模糊,一个阻塞。更复杂的修复算法没有这个问题,但一个重要的额外的复杂性和成本计算每帧的时间长得多。

自动修复算法主要在如何定义不同一致的。在图的图像2使用一个算法描述沃伦(18]。该算法模型纹理作为一个单独的颜色值的局部相似性和一致性的颜色。像素被当作已知的很好狄利克雷边界约束条件。狄利克雷像素是一个固定值。这些像素不改变在扩散和源颜色相邻浮动像素。经过多次迭代的颜色扩散,浮动区域填写的信息从周围狄利克雷像素。如图2,这种策略是非常有效的地区填写时相对较小或位于一个社区没有许多边缘。

线性扩散边界约束时往往会产生不良的结果填写大区域或地区应该包含许多边缘。这个弱点主要是由于有限的纹理模型。算法建模结构作为一个单一的颜色值,但一个颜色值不能代表一个优势。这意味着该算法不会传播边跨大区域的信息缺失。更复杂的修复算法使用丰富的表示在这些大地区防止弄脏的。然而,线性扩散更多的资源。更好的算法产生更好的结果。线性扩散产生好的结果,但每个图片需要很少的计算时间。本文毫无要求的相对性能差异修复算法。线性扩散足以证明关键是分类和阻塞性能,然而,这样做大大降低计算代价比更高质量的算法。

2。结果

索伯包含五类的对象。每一个类包含一个大约相同数量的例子。这意味着一个分类算法使得每个测试样本的随机猜测仍应达到大约20%的准确性。如图3在实践中,这个成立。的分类算法忽略了训练数据和生成一个均匀随机类别标签为每一个测试的例子。这会产生大约20%的准确的预测每一个试验,在每一个级别的闭塞,和索伯训练集的每一个变体。

图3

分类结果索伯闭塞水平和训练集的函数算法的机会。分箱外的情节显示异常值。分类算法忽略了训练数据的机会,使一个随机猜测为每个测试样本。索伯包含五类有大约相同数量的例子。预期的性能因此20%的机会。闭塞本百分比表明上界,包容,本。例如,0%的本包含测试样本与零阻挡本包含样本像素和27%大于0%,小于或等于27%阻挡像素。正如所料,大约20%的得分机会算法精度试验,在每一个闭塞水平和索伯训练集的每一个变体。

剩下的分类算法,培训协议对性能有重大的影响。如图4索伯训练集的,合并后的变体产生最可靠的结果。这种变体包括阻挡,从而训练例子。24300,从而训练集只包含原始NORB立体声双。虽然这训练条件与事先测试时只会产生更好的结果,从而测试图像,分类性能降解更快比的训练条件,包括遮挡。结合和闭塞的训练集的变化包括243000例。每个类阻塞出现的概率相等。这意味着锢囚锢囚例子集包含60750比组合集。“机会”线表明20%的分类精度实现随机猜测为每一个测试的例子。

图4

分类结果索伯闭塞水平和训练集的函数与感知器和事先算法。闭塞的垃圾箱分区图中定义的测试样品3。结果与合并后的训练集无法区分或比相应的结果与未遮挡或阻挡的训练集,只有一个例外。从而给事先训练数据优于其他两个训练选项,从而在测试数据。性能降解速度比其他条件测试图像中遮挡的程度增加,然而。

图5将这些结果分类算法而不是训练。只有结合培训结果显示清晰。这块地证实了中央的结果Hoiem et al。9]关于阻塞:先进的分类算法失去性能随着阻塞增加和略微比机会high-occlusion场景。感知器和卷积网络分类器都表现出相同的下降。然而,感知器分类器执行在所有条件明显恶化。也明显更容易训练秩序的影响。方差从运行到运行比与卷积网络大得多。

所有剩余实验排除感知器分类器。图6涵盖了两个没有复苏条件与卷积网络分类器。这些是基本的条件,建设一个occlusion-robust分类器。在两种情况下,增加闭塞导致性能下降。训练和闭塞的数据减少这种影响的大小和增加鲁棒性。然而,性能,从而减少测试图像。

图6

事先分类精度训练与未遮挡或闭塞的数据时,没有复苏。卷积网络都有相同的结构。两种情况下通过输入图像分类器没有尝试折扣闭塞像素。“从而”的情况下,网络训练与24300年NORB-simple训练集图像对。在“结合”的情况下,网络训练与SORBO-combined中包含243000个图像对训练集,大约四分之一的这些图像,从而对。其余对包含各种类和闭塞。训练图像,从而产生更高的精度,从而测试图像。降解性能迅速向机会遮挡在测试图像的水平增加,然而。网络训练相结合的数据较少,从而有效的图像更强劲增加闭塞。

图7构建的组合图6并添加恢复机制。性能的衰减机制没有复苏是不可区分的情况下最多闭塞。在高水平的阻塞,衰减比没有复苏。然而,修复优于无法恢复的情况所有水平的闭塞。这包括未遮挡测试图像,这表明disoccluded训练图像提高泛化。

图7

性能比较的贴现机制阻挡像素。所有三例使用卷积网络相同的架构和SORBO-combined数据集上训练。两种机制打折阻挡像素使用提供的真实分割图像数据。贴现机制用于在训练和测试阶段。“没有”的情况下,训练和测试图像是通过分类器没有尝试折扣遮挡。在“减弱”的情况下,闭塞像素将黑去分类器之前。在“填补”情况下,闭塞像素填充使用数字修复过程。卷积网络分类器,衰减比未修改的数据。然而,修补是各级明显比其他候选人更有效的遮挡。

图8进一步探讨了推广效果。控制和阻挡来自图训练条件6。经济复苏条件图的修复情况7。修复优于闭塞的培训,从而测试数据。从而训练,但是,也优于阻挡培训,从而测试数据。图8显示经济复苏条件执行最好的甚至直接比较的控制。

图8

修补提高了性能,从而阻挡和测试图像。“控制”和“锢囚培训”条件,从而,从图相结合的训练条件6。“复苏”的条件是修补的结果从图7。“复苏”的条件一直随着阻塞增加更好。打折阻挡像素使用修补的意想不到的好处还对图像,从而提高性能。这是一个数据集增强效果。训练集的“复苏”和“锢囚培训”条件是10倍的“控制”的状态。修补允许网络利用这个大没有过度拟合训练集。

所有之前实验真实使用分割面具。所显示的图12自动分割算法没有完美的精度,因此可能会降低分类器的性能。图9量化误差的类型和水平。自动分割算法并没有错误,从而图像。错误的峰值低,但非零的阻塞程度。假警报比思念更常见。错误减少和假警报的平衡转向没有抓住的阻塞程度增加。这些事实表明,该算法有一个偏向表示一个像素作为一个闭塞。

图9

分析分割错误。自动分割算法利用的平面结构遮挡估计闭塞和哪些像素图的像素。每个像素分为四个条件之一。在“打”和“正确否定”情况下,估计是正确的。打击发生在该算法预测一个闭塞和一个闭塞的存在实际上是礼物。正确拒绝时该算法准确地预测缺乏一个阻塞。“小姐”和“假警报”情况下都是错误的。小姐时该算法预测缺乏一个阻塞,而是一个闭塞。假警报发生时该算法预测一个闭塞,但没有阻塞。自动分割过程的准确性取决于阻塞的程度在图像对。 For unoccluded image pairs, the process is entirely accurate. At higher levels of occlusion, overall accuracy drops. False alarms, however, are much more common than misses. This indicates a bias towards marking a given pixel as an occlusion.

图10扩展图8与第二个复苏状态。第二个复苏条件使用自动恢复算法真实而不是分割。性能与新自动分割算法匹配系统真实使用分割在high-occlusion条件。泛化,从而影响被测试图像不再出现,然而。

图10

表现出真实与分割。“控制”,“锢囚训练,”和“恢复数据”条件是一样的人物9。“复苏,汽车”条件是新的和匹配的“恢复数据”条件除了分割面具的来源。真实案例使用的数据分割提供的数据集。自动情况下只使用原始立体图像对和推断细分面具。这两种复苏条件执行平价更高水平的阻塞。使用推断分割擦除数据集增强效应观察图9然而,。性能,从而测试图像上并不比闭塞的训练条件。

3所示。讨论

对象严重堵塞比通畅更难以分类对象。普遍观察者偏见主要对象分类数据集已经掩盖了这种效果,然而,限制最先进的实用的对象分类算法在现实世界中。

介绍了合成对象识别基准与遮挡(索伯)数据集。索伯的导数早些时候纽约对象识别基准(NORB)。像NORB,索伯参数详细分析和优化的分类性能。索伯添加各种类和层次的立体遮挡NORB图像使精确测量分类性能的函数阻塞。数据集与基础设施适合高通量实验计算集群。

结果索伯再现分析Hoiem et al。9]。卷积神经网络展览高性能,从而测试数据但降解迅速增加闭塞。在闭塞的最高水平,高质量的分类器的性能是小比随机的机会。训练的分类器,从而阻挡和图像产生最可靠的好结果。所有培训条件收益率表现不佳高度阻挡测试图像,然而。

增加一个高质量的分类器与一个修补预处理阶段成功性能恢复的损失。修复使用真实或自动提取分割掩模保留大部分的性能一直到最高水平的闭塞。这些结果表明,occlusion-robust分类是可行的,只要把输入图的问题,地面,阻塞是可以解决的。

而自动提取分割面具完全准确,从而图像,恢复真实使用面具表明一个令人惊讶的性能增益。日渐复苏条件优于控制和闭塞的训练条件,从而测试图像。这真实获得建议的修补分割面具减少过度拟合,提高了泛化。

结果显示两个重要的发现。首先,阻碍然后disoccluding修复是一个可行的方法,它通过对数据集的数据集扩充。最先进的分类系统通常包括一个或多个增强技术来增加训练数据集的大小,减少过度拟合,提高泛化。反射,线性变化,弹性变形是三种常见的类增加应用于对象的分类问题。所有三个构建一个不变性的预期转换数据。数字三仍然是一个当几个像素转向左边,例如。索伯结果表明,阻塞是另一个有用的类增加的数据集。

其次,扩展一个标准的分类算法,结合现有预处理阶段的生产系统,执行系统1:1的基地,从而测试图像显著地更健壮的性能随着阻塞增加但展品。实际系统的关键变量是分割的质量面具。分类器与一个高质量的音乐会分割算法也可以执行几乎严重阻挡图像,从而为图像。

4所示。材料和方法

这项工作的原理技术目标是繁殖的结果Hoiem et al。9]在occlusion-resistant作为基线情况下,使实验对象分类算法。这些目标需要一个可伸缩的实验基础设施,支持大型参数研究。

在这种情况下,可伸缩的意味着数据收集基础设施能够有效地分配工作在一个计算节点池。给定一个完全有效分配工作,任务将花费一百个小时来执行在一个计算节点只需要四个小时25计算节点集群上执行。最不能分布式计算的任务有效地在一个庞大的计算节点。所需的开销保持所有的计算节点同步限制性能随着集群规模的增加。然而,在这种情况下,每个试验独立的。计算节点在试验不需要同步。这是一个一个的例子令人尴尬的是平行的工作,理论的可伸缩性是近乎完美的。考虑到大量的工作和高度平行的性质问题,实验操作基础设施设计计算集群是一个合理的投资。

所有索伯实验用两层平行的基础设施。管理由一个层版本控制服务器和一个头节点。计算层包含16个计算节点。版本控制服务器负责存储源代码和二进制小资产,以及变化的历史。基础设施的其他部分只执行代码检查从版本控制服务器,以确保所有模拟都可追踪的和可重复的。头节点负责大型二进制存储资产,协调实验,计算节点分配工作,并归档结果。索伯种子数据是存储在这里,因为它太大了,在版本控制服务器。计算节点负责试验的实际执行。

验证Hoiem et al。9]研究需要三个分类器和三种类型的训练数据。三种分类器机会,感知器,事先。三种类型的训练数据从而,锢囚,结合。

机会训练分类器简单地丢弃数据并生成随机预测的测试数据。感知器分类器是一个线性网络由随机梯度下降训练。事先分类器是一个多层卷积神经网络建模后的分类器勒存et al。12]。部分4.2对这些算法包含额外的细节。

每一个训练数据的条件是一个不同的片索伯数据集。只包含NORB图像,从而训练条件,所以算法训练在这种情况下直接与NORB文献中结果。闭塞条件只包含图像遮挡。混合训练数据条件包含两种类型的数据。部分4.2每个条件包含额外的细节。

4.1。索伯建设

索伯来源于NORB normalized-uniform数据集,也称为“小NORB。“就像NORB,它包含96×96像素的训练集和测试集立体影像拍摄与固定的差距。也喜欢NORB,索伯包含描述性元数据对象类的对象实例,相机高程,相机方位,并为每个图像光水平。索伯NORB添加了两个特性:(1)描述性元数据类和闭塞。(2)一对日渐细分为每一个图像。

额外的元数据包含足够的信息来完整地描述闭塞在每个图像合成。每个图像都包含两个新的元数据字段:和。遮挡类型字段是一个因素变量的值选择设置没有一个,随机,酒吧,斑点}。闭塞的阻挡字段包含一个整数像素计数在左右图像像素求和。计数是接管每个像素领域的观点,而不只是目标对象的像素。这意味着最大的价值是或18432年。这个选择的潜在假设是,所有像素的normalized-uniform NORB数据被认为是图。目标对象的数据标准化的规模和集中在一个统一的背景下,这是一个合理的假设。

额外的元数据字段描述具体每个闭塞类型除了每个图像中的遮挡。对于遮挡类型,有补充和字段。种子是一个整数用来'伪随机数发生器产生随机的闭塞。阈值字段是一个浮点值的范围控制像素被遮挡的部分。

对于遮挡类型,有补充ω,,,字段控制间距、方向和厚度使噪音酒吧。酒吧遮挡由阈值生成一个正弦函数在一个抵消轴。正弦信号的角频率ω。θ角偏移量水平。这个阶段决定了正弦函数上的起点。阈值是一个浮点值的范围。像随机的情况下,它控制像素被遮挡的百分比。

对于遮挡类型,有补充,,字段。像随机的情况下,种子是一个整数用来'一个伪随机数生成器。的字段是一个整数描述图像中气泡的数量。的字段描述气泡的大小是一个整数。

的领域,随着辅助字段,充分描述了遮挡,足以重建他们给一个额外的差距参数。差距参数是一个整数描述眼部立体遮挡的差距以像素。这是一个全球五个参数的值。这个值将遮挡深度接近观察者比目标对象。它是一个整数来简化分割。一个整数值,每个像素的数据包含的信息背景或闭塞,没有混合。没有边界像素包含一些信息从目标对象和遮挡层。自然的照片很少会对象准确地落在像素边界。

除了额外的元数据,索伯真实还包含分割为训练集和测试集。这些真实的分割采用alpha-matte标准用于Grady et al。15)和洛特et al。16]。对于每个立体数据,索伯包含一个额外的一双二进制alpha-matte图像。alpha-matte显示的值为1的像素是一个闭塞。值0表示缺乏闭塞。

像NORB,索伯的图像灰度。紧凑的存储,每个像素NORB描述由一个字节。这意味着256年NORB包含图片和每个像素灰度值有一个值的范围。0是黑人,255是白色的。索伯,易于集成现成的对象分类算法的优先级高于密实度表示。索伯存储为32位浮点值的范围,0是黑色和1是白色的。这个选择简单的密实度是合理的,因为网络是更快和磁盘远远超出可用NORB时创建的。

遮挡在索伯变形与二进制噪声。每个阻挡像素的值为0或1,选择从一个均匀分布。这个材质必须最大限度地混淆对象分类算法和性能恢复算法提供一个信息来源。参见4.4为更多的细节在这个选择。

索伯包含三种不同的训练集和测试集。第一个训练集只包含24300年的原始图像,NORB normalized-uniform训练集,没有遮挡。这训练集是一个基线,允许直接与文献中的许多NORB结果进行比较。

第二个和第三个被称为训练集或结合,或闭塞。立体像对的训练集包含243000。这个尺寸符合NORB数据集的抖动和凌乱的版本。每一对立体通过选择一个随机生成立体(替代)的24300双NORB normalized-uniform训练集,选择一个随机遮挡类型、生成随机选择阻塞类型参数,并生成随机噪声作为阻塞的纹理。立体像对合并后的训练集包含四种闭塞类型,包括。锢囚训练集排除了立体像对闭塞型,因此所有阻挡。所有随机选择用均匀分布在可能的选项。

的阻塞型没有附加的元数据,所以没有额外的随机选择需要和闭塞纹理生成。的阻塞型需要种子和一个阈值。种子空间的生成所有可能的32位整数。阈值是浮点和产生的范围。的阻塞型需要浮点ω,θ,阶段,和阈值参数。ω是产生的范围,θ,相。产生的阈值范围。最后,遮挡类型要求,,参数。种子空间的生成所有可能的32位整数。的产生的参数是一个整数范围。的产生的参数是一个整数范围。

索伯测试集生成使用相同的程序作为训练集相结合,只有两个例外。首先,索伯NORB测试组使用测试而立体像对立体像对的培训。NORB测试和训练集的结构相同。不同之处在于对象实例呈现在每组训练数据包含实例。4,6,7,8,9每个类别。测试数据包含剩余的实例。这意味着测试和训练数据不包含相同的对象,相同的对象类别。第二,索伯测试设置只包含97200立体声双。这个数据集的大小是一致的NORB的抖动和凌乱的版本。

以下4.4.1。索伯施工程序

完整的索伯数据集包含607500个灰度级和同等数量的立体像对alpha-mattes存储为32位浮点值,总共大约83字节的原始数据。共有64位被代表每个像素,包括灰度和alpha-matte。减少单像素数据从64位9位,包括灰度和1 8二进制alpha-matte,会降低原始数据量大约12 g。压缩可以减少这个值由另一个数量级。

然而,原始数据量并不是限制因素的性能。良好的机器学习实践规定应该打乱每次训练数据是用来训练一个分类算法。如果索伯图像数据预先计算的,放在磁盘,每个培训运行需要寻求随机数据文件中的每一对立体声。磁盘非常昂贵。阅读大量的序列数据从硬盘效率大大超过阅读小块的随机数据。

传播工作在一个大集群计算提出了一个附加的实际问题。数据必须是身体上放置在一个或多个磁盘。将其放置在一个磁盘,并允许剩余的节点访问主副本在网络上比较简单,但求每培训时代磁盘的数量线性增加的数量计算节点和网络性能的限制。这是磁盘寻求放大。将数据复制到每个节点上划痕磁盘需要额外的检查,以确保过时版本的数据删除和每个节点总是有一个新的副本。寻求每培训时代磁盘的数量保持不变,然而,吞吐量显著更高。

利用详细的闭塞的元数据,索伯施工过程使用第三种选择。的NORB normalized-uniform测试和训练图像数据生活在单个节点上共享文件系统,以及完整的索伯的元数据。这远远小于图像数据的元数据,只有几十兆字节。的NORB normalized-uniform图像数据远远小于整个图像数据为索伯,大约在3 g时存储在32位浮点格式。

当计算节点需要构造一个重组版本的索伯训练或测试分类算法,它读取从共享文件系统的元数据,打乱只有元数据构建一个本地,打乱索伯图像数据的副本。打乱元数据中的每一行,计算节点获取适当的图像从NORB文件在共享文件系统,添加适当的遮挡,并写一份阻挡数据和alpha-matte到本地磁盘。

从表面上看,这个方案似乎遭受相同的磁盘寻求放大问题的简单方案索伯是预先计算的,存储在一个共享文件系统。然而在实践中,只有大约1.5 gb的数据是“热”在任何给定的时间,阅读的意义计算节点。这是一个足够小的体积,操作系统缓存节点主机共享文件系统可以吸收负载。考虑到互连和节点属性的计算集群,阅读NORB数据从一个节点不影响总体性能。

这种混合动力方案将索伯的建设分为两个阶段。第一阶段是一个预处理阶段准备的元数据和转换NORB normalized-uniform图像设置一个合适的格式。一个计算节点执行这个阶段,因为它只需要进行一次。计算节点的元数据的结果写入到共享文件系统作为一个文本文件以逗号分隔值(CSV)格式。也写NORB图像数据作为两个二进制文件,一个用于培训和一个用于测试;每个包含一个序列在低位优先的32位浮点值的格式。序列主要订单行,假设数组的数据。二进制文件不包含任何头部或分隔符信息。这种格式是有效的,因为它直接对应于内存中的数据的布局。

在第二阶段,工人计算节点负载CSV元数据,适当的NORB图像数据块映射到内存,并建立一个当地,打乱索伯的副本。控制内存使用,加快模拟,这个过程是在每个节点上并行工作进程的池。对象分类算法不能得到整个数据集。相反,他们得到一个minibatches序列,输入数据的每个包含一千行。这消除了需要等待整个数据集完成前处理对象分类算法可以开始工作。因为每个minibatch完成后,通过在对象分类算法。

4.2。基准算法和训练

处理管道包括三个引用对象分类算法。首先是一个机会分类器,忽略了训练数据,使随机测试数据的预测。第二个是一个简单的线性感知器由随机梯度下降训练。第三个是卷积神经网络(事先)。线性分类器和事先的实现都是现成的开源库。

线性分类器来自scikit-learn库(19]。Scikit-learn机器学习是一个开源工具包为Python语言编写的。使用“sklearn.linear_model索伯分类结果。感知器”分类算法使用默认参数。感知器分类器是一个很好的选择,因为该算法简单、高度可伸缩,适合增量训练。感知器只需要一个数据点,以便学习。这意味着处理管道可以流数据过去的整个数据集分类器没有保持在内存中。与单个分类器训练通过训练集。

卷积网络使用开源cuda-convnet包(20.]。这个包提供了一个高度优化的实现卷积网络的NVIDIA图形处理器。特定的网络结构是可由用户配置的。所有索伯实验用一个两层网络。第一层是卷积和使用银行16 5-by-5立体声过滤器与一个双曲正切函数输出。这个非线性双曲正切是紧随其后的是一个绝对的价值。绝对值非线性表现一个整流非线性试点实验。第二层是一个完全连接网络和五个输出。这五个输出对应五个对象类。完全连接层的输出经过softmax函数来生成最终的预测概率。

事先分类器需要60经过完整的训练数据集收敛。第一40通过使用的卷积和完全连接层权重学习速率为0.001和0.002的偏差值。通过每周使用0.0001和0.0002。通过51-60使用0.00001和0.00002。减少学习利率的一种形式早期停止(21]。40后通过训练数据,网络开始overfit学习速率高,训练时变得不那么准确。最后的学习速率下降20通过允许网络调优性能没有过度拟合。

4.3。恢复使用衰减或修补

索伯管道包括两个恢复算法。第一个是一个简单的衰减。该算法生成一个最终通过设置阻塞输入图像像素为黑色。图像素通过没有修改。衰减树叶可见遮挡遮挡,但消除了高频纹理。

第二个恢复算法是一个开源结合现有算法的OpenCV图书馆。该算法将阻挡像素视为损害并试图填补他们在使用信息从邻近的像素。没有可见的结果是一个图像遮挡,但不同的失真由于信息缺失遮挡的位置。图11对比这两个策略。

(一)从索伯样本图像数据集

(b)衰减所忽略的闭塞地区

(c)闭塞地区贴现修补

(一)左/右图片

(b)真实面具

(c)推断掩盖错误

图12

自动立体分割的准确性。NORB和索伯是立体数据集。样本图像索伯(a)包含各种类型和级别的遮挡。索伯真实还包括相应的分割面具(b)。在这些面具,白色标识阻塞像素和黑色标识目标像素。立体估计算法产生一个面具只使用原始输入图像(a)。这些估计往往有较高的假阳性率但是遮挡小姐只在边界(c)。在这些错误的图像,亮绿色对应于一个打击。深绿色拒绝是正确的。蓝色是一个错误的预测阻塞或假阳性。红色是一个错失的预测。

4.4。立体分割

自动分割是一个困难和经常模棱两可的问题。最先进的分割算法如GrabCut仍然需要输入从人类提示算法正确的目标对象和清理结果(16]。

在实践中,音响遮挡在索伯容易段。此前,遮挡的方向相对于观察者。索伯使用平面遮挡放置垂直于相机。这意味着阻塞部分下左边和右边的图像匹配时完全正确的两张图片是一致的。自动分割过程利用这个性质来估计的位置使像素通过关联左边和右边输入图像和寻找对应的顶点。峰值是定义为一个值,两次近邻的大小。确定对应的峰值后,该算法预测类为每个像素。时非常相似的像素左右图像对齐被归类为闭塞。

分割算法实际上是一个简单的立体深度的近似估计。估计从一对立体图像像素的深度需要解决对应左派和右派之间的问题图片。对于一个给定的环境中具有里程碑意义的,对应的问题是定位在左右两个里程碑式的立体图像。这两个像素空间坐标,与摄像机之间的距离当立体,足以解决距离的地标。遮挡的平面,垂直变形性质产生一个非常简单的通信问题。遮挡只是像素在不久的深度平面。

样例输出的算法如图12。

相互竞争的利益

本杰明·钱德勒是一个名叫发明人在一个或多个技术领域的专利申请。

确认

作者感谢Greg斯奈德在纸上许多深刻的讨论和评论。额外的感谢是由于惠普企业提供一个GPU集群。本杰明•钱德勒是惠普公司的一名雇员的企业。尼奥•Mingolla支持部分AFOSR # 000464 - 001。

引用

大肠高潮,d . Ginestar j . l . Hueso j .里埃拉和j·r·Torregrosa”处理遮挡光流算法对象跟踪、”计算机和数学与应用程序卷,56号3、733 - 742年,2008页。
视图: 出版商的网站 | 谷歌学术搜索 | Zentralblatt数学
e .高潮J.-R j·里埃拉。Torregrosa, J.-L。Hueso”处理阻塞在立体视频序列对象跟踪中,“数学和计算机模拟,50卷,不。5 - 6,823 - 830年,2009页。
视图: 出版商的网站 | 谷歌学术搜索 | Zentralblatt数学 | MathSciNet
f·凯利和s . Grossberg“神经动力学三维表面感知:图形-背景分离和轻盈感觉,“知觉和心理物理学,卷62,不。8,1596 - 1618年,2000页。
视图: 出版商的网站 | 谷歌学术搜索
s . Grossberg“皮质动力学响应的图形-背景分离2 d和3 d场景照片:V2如何结合边境所有权,立体线索,和完形分组规则,”心理学领域》第六卷,第8188条,2016年。
视图: 出版商的网站 | 谷歌学术搜索
g . Kanizsa组织愿景:论文格式塔知觉美国,普雷格,加州圣芭芭拉分校,1979年。
a . s .师”,在听觉感知问的什么问题,”知觉组织,页99 - 118,Erlbaum、山谷,新泽西,美国,1981年。
视图: 谷歌学术搜索
j .邓w .咚,r . Socher et al .,“ImageNet:大规模的分层图像数据库”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 09)255年,页248 -迈阿密,佛罗里达州,美国,2009年6月。
视图: 出版商的网站 | 谷歌学术搜索
m . Everingham l . Van干傻事,c·k·威廉姆斯,j·韦恩,和a . Zisserman“帕斯卡的视觉对象类(VOC)的挑战,”国际计算机视觉杂志》上,卷88,不。2、303 - 338年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
d . Hoiem y Chodpathumwan,戴问:“诊断对象探测器,误差”电脑Vision-ECCV 2012a·菲茨吉本s . Lazebnik, p . Perona一起,佐藤y,和c·施密德,Eds。卷,7574在计算机科学的课堂讲稿施普林格,页340 - 353年,柏林,德国,2012年。
视图: 出版商的网站 | 谷歌学术搜索
a . Torralba和a·a·埃“无偏看数据集的偏见,”《IEEE计算机视觉与模式识别会议(CVPR 11)IEEE,页1521 - 1528年,普罗维登斯,RI,美国,2011年6月。
视图: 出版商的网站 | 谷歌学术搜索
n .平托d·d·考克斯和j·j·迪卡洛,“为什么是真实的视觉物体识别困难?”PLoS计算生物学,4卷,不。1,文章e27, 2008。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
y LeCun (f·j·黄和l . Bottou”学习方法的通用对象识别与不变性和照明,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 04),卷2,页2 - 97 - 2 - 104,华盛顿特区,2004年6月美国。
视图: 出版商的网站 | 谷歌学术搜索
a . Torralba r·费格斯和w·t·弗里曼,“8000万小图片:非参数的大数据集对象和场景识别,”IEEE模式分析与机器智能,30卷,不。11日,第1970 - 1958页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
g·a·米勒,“WordNet:英语词汇数据库,”ACM的通信,38卷,不。11日,39-41,1995页。
视图: 出版商的网站 | 谷歌学术搜索
l . Grady t . Schiwietz s Aharon, r··“互动alpha-matting随机漫步,”学报5适国际会议上可视化、成像和图像处理(VIIP 05)Benidorm,页423 - 429年,西班牙,2005年9月。
视图: 谷歌学术搜索
c·洛特,诉柯尔莫哥洛夫,a·布莱克,“GrabCut:互动前景提取使用迭代图削减,”电脑,23卷,第314 - 309页,2004年。
视图: 谷歌学术搜索
m . Bertalmio g . Sapiro诉Caselles, c . Ballester“图像修复,”美国27日年会计算机图形和交互技术(SIGGRAPH ' 00)ACM出版社,页417 - 424年,2000年7月。
视图: 出版商的网站 | 谷歌学术搜索
j .沃伦在GPU(博士解决扩散曲线。论文)都柏林大学三一学院,2010。
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit-learn:机器学习在Python中,”机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。
视图: 谷歌学术搜索
a . Krizhevsky i Sutskever g·辛顿,“ImageNet分类与深卷积神经网络,”先进的神经信息处理系统,2012年,页1 - 9。
视图: 谷歌学术搜索
l . Prechelt“早期停止也什么时候?“在神经网络:做生意的诀窍施普林格,页53 - 67年,柏林,德国,2012年。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

5142年

下载

1614年

引用