文摘

严重阻挡物体更困难比,从而正确分类算法来识别对象。这种效应是罕见的,因此很难测量与数据集ImageNet和帕斯卡VOC,然而,由于偏见在人为的图像构成的选择。我们引入一个数据集,强调阻塞,增加一个标准的卷积神经网络旨在增加不变性闭塞。未经修改的卷积神经网络训练和测试新数据集快速降解chance-level精度随着阻塞增加。培训与阻挡数据放缓这种下降但仍收益率高阻塞表现不佳。整合新预处理阶段段输入和填补遮挡是一种有效的缓解。卷积网络所以修改几乎是超过81%的像素一样有效阻挡,因为它是无阻塞。这样一个网络,从而也更精确的图像比其他相同的网络,一直训练,从而只有图片。这些结果取决于成功的分割。在我们的数据集是故意遮挡容易段的图和背景。 Achieving similar results on a more challenging dataset would require finding a method to split figure, background, and occluding pixels in the input.

1。介绍

对象,严重阻挡更困难比通畅对象分类算法。我们引入一个新的方法来减轻通过修复通过数据集分类的难度增加,反过来依赖于能力部分对象从背景或遮光板像素像素。自适应滤波器和神经网络(多层感知器)之前已被成功地应用于视频序列在光流算法与闭塞2 d对象跟踪(1]。这种方法已经被扩展到立体视频流(2]。当前工作的重点是在遮挡的影响,在静态图像分类识别精度。

我们的研究是出于人类的视觉之间的重大分歧和机器视觉处理阻挡物体。人类的视觉系统擅长识别对象在我们的环境中部分或明显阻挡通过干预表面。类似计算机视觉尚未证明的性能。参见[3,4)广泛的文学评论的神经科学相关的人类视觉感知的阻挡物体。特别是讨论(3,4)观察(5,6的情况可见遮光板的外观可以提高人类性能比观看相同的片段中描述的对象空间安排在隔离,没有阻碍的轮廓表面被表示。我们的研究是一个一步关闭之间的差距人和机器阻挡物体的识别。

当前备受关注的对象分类标准都不是适合量化带来的困难程度分类变量水平的咬合7,8]。都是由公共照片分享网站,因此对闭塞的图像有一个偏见。Hoiem et al。9)使用2007帕斯卡VOC分类任务的结果来识别最重要的误差源。分类性能急剧下降的百分比阻挡像素增加。帕斯卡的罕见发生阻塞数据,然而,导致作者得出结论,闭塞弹性总帕斯卡性能的影响可忽略不计的算法(9]。

这个主张遵循从源数据。人类捕获的图像在帕斯卡,故意写和捕获的场景倾向于拍照通畅对象的接近中心的框架。这种倾向完全可见对象帕斯卡是观察者偏见的一个例子在数据集建设(10]。数据集的偏见在一般情况下,观察者偏见的一个子类,使得算法来产生那些冠冕堂皇的分类结果通过overrelying信号有点实际的效用。例如,一个特定的数据集可能包含对象只有一个非常受限制的组强烈的姿势或图像背景与目标对象的类(10,11]。这种偏见是很难衡量,很难正确,削弱论证当前大型数据集分类准确反映现实世界(10]。

除了代表一个带有偏见的例子的现实世界中,当前的大规模数据集也失踪的描述性元数据需要准确地量化遮挡的鲁棒性。理想的数据集将包括一个精确的描述作为元数据的类型和水平阻塞与每个样本。Hoiem et al。9]只能考虑四种不同情况下的阻塞:没有,低,中,高。研究低定义为“轻微阻塞,”中“被挡住,重要组成部分”和“许多地方失踪或75%阻挡。“闭塞后的粗定义数据的性质。Everingham et al。8)构建帕斯卡通过聚合和hand-annotating大量图像从Flickr上的网站。Hoiem et al。9)增强帕斯卡注释与额外的细节层次的阻塞。如Everingham et al。8),他们不得不这样做。这是一个标准的非参数分类的数据集的问题。这样的数据集收集到的标记,无约束图像来源。数据因此非常多元,但手,往往需要添加注释信息贫乏是实际结果(7,8]。

NORB数据集是一个对比的例子最近参数数据集(12]。NORB包含五类十对象在每一个图像。为每一个对象,数据集包含为每个36另一对立体图像,9海拔6照明条件。这些参数进行图像数据,允许调查人员直接测量的灵敏度算法属性组内变异或照明。数据1(一)1 (b)对比参数和非参数类型的分类数据集。

执行更复杂的分析比Hoiem遮挡的鲁棒性等。9)能够执行需要更好的描述性元数据。介绍了索伯(合成对象识别基准闭塞)数据集来捕获类和闭塞的水平比可能是更好的解决hand-annotating帕斯卡在occlusion-resistant对象分类数据和支持工作。设计比赛NORB尽可能简化与文献中的许多NORB结果进行比较。图1 (c)显示的例子索伯图像不同的类和闭塞。

能够精确测量阻塞对对象分类性能的影响使建设一个occlusion-robust算法。这样的算法必须面对nonrobust算法可以忽略的两个问题:(1)目标对象的视觉信息属于什么?(2)不确定或不属预定目标的信息应如何打折吗?

第一个问题就是其中之一分割。occlusion-robust分类算法必须能够对视觉信息的每个像素进行分类,地面,或闭塞。图类标识属于目标对象像素。地面像素背后或不重叠的目标。遮挡感兴趣像素的对象是隐藏的,因为它阻碍了一个靠近观察者对象。最后这两个类是不同的,因为遮挡覆盖目标,可以把图信息分割成两个或多个不相邻的地区。地面是背后或不重叠的图,因此不会导致这样的分裂。一旦信息属于每个类的估计算法,然后它必须折扣不确定或不属预定目标的信息。不确定性的出现因为场景的分割是一个潜在的不准确的估计。

分割甚至打折相关任务的分类算法,而不是一个检测算法。在检测问题的算法必须估计目标对象的位置可能包含一个目标对象的给定一个输入图像帧在任意位置。输入图像的一个子集可能不包含目标对象。一个分类更容易解决的问题,它执行角度偏差通过限制输入图像与一个主要对象类接近中心的框架。Hoiem et al。9]研究表明,阻塞甚至对于分类问题是一个重大问题。

分析在Hoiem et al。9)是足够的建立,现有先进的算法在high-occlusion场景中表现不佳。它还建立了帕斯卡VOC基准数据集是错误的使用如果high-occlusion场景是很重要的。帕斯卡VOC包含阻挡物体相对较少,因此总结果相对不敏感的算法如何处理阻塞。的对象阻挡,使像素的位置是未知的。缺乏真实的分割信息进一步限制的适用性帕斯卡VOC数据occlusion-resistant对象分类算法的发展。索伯包含这些额外的元数据。

介绍了一种新的occlusion-robust对象分类算法,利用丰富的元数据在索伯数据集。这是一种新算法扩展现有的算法,而不是一个完全定制的建设。扩展现有算法进行保护的主要好处在low-occlusion情况下基本分类器的性能。最先进的基分类器将继续按计划执行NORB等标准数据集。新的扩展允许分类器性能退化速度低于将没有遮挡的算法扩展增加。

综上所述,参数闭塞元数据和真实分割信息使探索occlusion-resistant索伯理想数据集对象分类。本文首先着重于复制Hoiem et al。9]研究使用新的数据集索伯。后续实验建立在这些结果来构造一个occlusion-resistant对象分类算法从现有的不抵抗的算法。

现有对象分类数据集。当前对象的大多数数据集分类工作是围绕两个标准挑战:ImageNet大规模视觉识别的挑战(ImageNet)和帕斯卡视觉对象类(PASCAL VOC或PASCAL)的挑战。每个挑战都有一个关联的数据集。尽管这两个挑战使用不同的数据,不同的任务,和不同的精度指标,两者都是大规模的非参数

上下文中的对象分类、非参数数据集就是从人口与图像采样未知的图像参数。这个词并不意味着不能由一个参数描述图像空间。它只意味着研究者不能实际列举图像参数。通常这是因为图像来自一个非常大的、弱约束人口与一个非常大的参数空间。ImageNet样品图1 (b)说明这一点。这些图片都是船的照片。没有船出现不止一次,然而,等参数的图像组成和构成矢量目标对象都是未知的。更关键的是,有额外的,不受控制的参数,如一天的时间,风,和背景。简单地描述图像中的所有参数变异的来源是不切实际的参数空间的大小,图像的数量,以及每个形象都需要手动标记。

帕斯卡VOC和ImageNet原则区别对象的数量和结构类别。帕斯卡包含四个宏观类别(人、动物、车辆和室内)共有二十个子类。这相对平坦的类别结构和低类别总数是一致的最前对象分类的数据集。ImageNet不同,它包含成千上万的类别排列在一个深,层次结构。TinyImages数据集从麻省理工学院使用类似的结构,但只包括很小的图片(13]。ImageNet和TinyImages都使用从名词部分WordNet数据库分类标签(14]。WordNet包括上级和下属条款数据库中的每一项。考虑到标签“德国牧羊犬”,例如,上级的标签列表 牧羊犬,工作犬,狗,犬,食肉动物,胎盘哺乳动物,脊椎动物,脊索动物,动物}。每一步的树上级的标签是一个是一个关系。算法设计了一个小、平面的层次分类标签往往不会做大,深,层次树的分类标签ImageNet TinyImages数据集,没有修改。这三个数据集(PASCAL, ImageNet TinyImages)仍非参数,然而。

这个大参数空间通常是作为一个论点,图像是客观的现实世界相比。这个逻辑、对象分类算法,适用于ImageNet或PASCAL VOC数据集应该执行任意的图像来自自然世界。然而在实践中,这一观点并不保存的很好。Hoiem et al。9)做了一个关键的观察沿着这些思路:遮挡不经常出现在帕斯卡VOC的数据。这个观察帕斯卡与共同的经验。人类和其他视觉动物非常善于识别阻挡物体和浏览闭塞的环境,因为这种情况是正常的,没有例外。这是一个观察者偏见的例子。其他作者注意到额外的偏见来源,如预测数据从图像背景10,11]。这些上下文信息通常帮助'一个分类器对正确的类的一个对象。当开发一个分类算法,然而,上下文启动作为混杂变量。

纽约大学对象识别基准(NORB)数据集是一个最近的例子参数对象分类的数据集。这个数据集比ImageNet或PASCAL需要更严格的方法。而不是从大量图像人口抽样与未知参数和鲜为人知的偏见,NORB由显式参数空间定义。参数空间中的点完全描述图像,这样的图像可以完全重建参数的知识。这种方法更“自然”的图像严重受限,看起来不像真实世界的场景。这之前设置的参数是远远小于所需设置的参数来描述自然图像。然而,好处是数据集得到的创造者选择包括哪些参数。这意味着每个数据集包括精确的范例,完成,参数元数据设计参数。这样的元数据的必要条件构建实验分析条件分类算法做得好或不好。

NORB旨在解决姿势,lighting-invariant对象分类。这一目标导致的选择设计参数如下:(1)对象类。(2)对象实例。(3)相机视图。(4)相机方位。(5)照明条件。

对象类是对象所属的类别。NORB包含五类:四条腿的动物,人物,飞机、卡车和汽车。的对象实例中的特定对象的类别。每个类别包含10个独特的情况下,共有五十个对象。的相机的高度相机方位描述相机的位置相对于目标对象。NORB包含图像捕获从九个海拔和十八方位角》。最后,光级描述了照明度。NORB包含图像在五个不同的光水平。

这五个参数描述所需的尺寸变化NORB图像。对于所有其他可能的图像属性,作者努力仔细控制变化。目标对象被漆成一个统一的颜色和照片在一个统一的背景。相机和灯光都由机器人定位。对象和摄像机位置很仔细,这样的对象出现在画面的中心。在实践中,这意味着所需的五参数变异来源的描述基本上所有变化的图像。

严格控制的变异性和高质量的参数元数据NORB使一组实验与非参数数据集不实际ImageNet和帕斯卡VOC。从这组旋转不变性是一个例子。解决旋转不变性与NORB仅仅需要切成适当的测试和训练集的数据。例如,训练集可能包含收集从一个相机立体像对的一半高度和方位。测试集将包含所有剩余的数据。NORB意味着这样一个切片中包含的丰富的元数据很容易构造,和输出足以调查对象分类性能的函数旋转。

复制这个实验使用ImageNet或PASCAL VOC的数据集将会更昂贵和更困难。Hoiem et al。9)为如何构建实验提供一个模板。选定的数据的子集,它将需要手动为每个图像构成的向量。一旦每个形象都有一个向量,它可能切片数据和运行一个分析。实验控制,然而,仍然是困难的。ImageNet和帕斯卡VOC不包含多个相同的对象。这意味着将包含不重叠的训练集和测试集的对象集。因此不可能建立一个对象如何分类算法执行一个对象在不同程度的偏差。

Hoiem et al。9)研究并没有试图解决旋转不变性。它面临着类似的问题试图诊断性能被遮挡时,然而。作者必须手动为每个标签的闭塞的图像数据集。源数据集(PASCAL VOC)包含许多类型和水平的遮挡,所以作者问人类贴标签机每个对象归为不,低,中,或高阻塞。这种方法就足以建立一个阻塞程度和分类性能之间的关系。它是不够的,然而,测量的影响,不同类型的遮挡或试验策略恢复失去的性能。

索伯数据集。合成对象识别基准与遮挡(索伯)NORB数据集的数据集是一种新的衍生品。像NORB,严格控制,参数数据集。索伯数据集NORB表达的相同的设计原则适用于occlusion-resistant对象分类的问题。要做到这一点,它包括两个图像参数之外NORB中包含:阻塞型闭塞水平。阻碍物体的遮挡类型表示类在一个给定的图像。索伯包括酒吧、斑点和随机噪声阻塞类。闭塞的水平表明阻挡像素的数量。一个像素不需要包含一个对象被包括在这个数,因此阻挡像素的数量相当于阻挡像素的比例在整个图像。

除了这两个添加,索伯保持尽可能NORB这样NORB文献中结果直接与索伯的结果。在实践中,索伯达到这一目标通过扩展NORB数据。而不是从全新的图像,索伯包含NORB图像人为覆盖遮挡。这是合成索伯。

索伯数据集是为了解决两个问题:(1)对象如何分类算法执行的函数阻塞水平?(2)是策略以减少遮挡对分类性能的影响有效?

第一点是由分析Hoiem et al。9]:现有最先进的对象分类算法更有效遮挡在严重闭塞条件下增加,几乎没用。索伯包括足够的元数据复制这一分析。第二点是独特和索伯可寻址。索伯的真实数据集包括所有图像的分割。这个日渐细分的方法包含一个alpha-matte符合Grady et al。15)和洛特et al。16]。像素值alpha-matte要么是0或1,0是完全的背景和1在哪里完全前景。

修复了遮挡修补是一种标准技术,恢复受损的绘画和图片。最初一个完全手动的过程由熟练的艺术家来恢复艺术,现代计算使得许多数字等价物。修复的基本目标是最小化的外观损坏部分的绘画在这部分的方式符合其他的图像(17]。图2是一个成功的例子。

自动修复算法主要在如何定义不同一致的。在图的图像2使用一个算法描述沃伦(18]。该算法模型纹理作为一个单独的颜色值的局部相似性和一致性的颜色。像素被当作已知的很好狄利克雷边界约束条件。狄利克雷像素是一个固定值。这些像素不改变在扩散和源颜色相邻浮动像素。经过多次迭代的颜色扩散,浮动区域填写的信息从周围狄利克雷像素。如图2,这种策略是非常有效的地区填写时相对较小或位于一个社区没有许多边缘。

线性扩散边界约束时往往会产生不良的结果填写大区域或地区应该包含许多边缘。这个弱点主要是由于有限的纹理模型。算法建模结构作为一个单一的颜色值,但一个颜色值不能代表一个优势。这意味着该算法不会传播边跨大区域的信息缺失。更复杂的修复算法使用丰富的表示在这些大地区防止弄脏的。然而,线性扩散更多的资源。更好的算法产生更好的结果。线性扩散产生好的结果,但每个图片需要很少的计算时间。本文毫无要求的相对性能差异修复算法。线性扩散足以证明关键是分类和阻塞性能,然而,这样做大大降低计算代价比更高质量的算法。

2。结果

索伯包含五类的对象。每一个类包含一个大约相同数量的例子。这意味着一个分类算法使得每个测试样本的随机猜测仍应达到大约20%的准确性。如图3在实践中,这个成立。的 分类算法忽略了训练数据和生成一个均匀随机类别标签为每一个测试的例子。这会产生大约20%的准确的预测每一个试验,在每一个级别的闭塞,和索伯训练集的每一个变体。

剩下的分类算法,培训协议对性能有重大的影响。如图4索伯训练集的,合并后的变体产生最可靠的结果。这种变体包括阻挡,从而训练例子。24300,从而训练集只包含原始NORB立体声双。虽然这训练条件与事先测试时只会产生更好的结果,从而测试图像,分类性能降解更快比的训练条件,包括遮挡。结合和闭塞的训练集的变化包括243000例。每个类阻塞出现的概率相等。这意味着锢囚锢囚例子集包含60750比组合集。“机会”线表明20%的分类精度实现随机猜测为每一个测试的例子。

5将这些结果分类算法而不是训练。只有结合培训结果显示清晰。这块地证实了中央的结果Hoiem et al。9]关于阻塞:先进的分类算法失去性能随着阻塞增加和略微比机会high-occlusion场景。感知器和卷积网络分类器都表现出相同的下降。然而,感知器分类器执行在所有条件明显恶化。也明显更容易训练秩序的影响。方差从运行到运行比与卷积网络大得多。

所有剩余实验排除感知器分类器。图6涵盖了两个没有复苏条件与卷积网络分类器。这些是基本的条件,建设一个occlusion-robust分类器。在两种情况下,增加闭塞导致性能下降。训练和闭塞的数据减少这种影响的大小和增加鲁棒性。然而,性能,从而减少测试图像。

7构建的组合图6并添加恢复机制。性能的衰减机制没有复苏是不可区分的情况下最多闭塞。在高水平的阻塞,衰减比没有复苏。然而,修复优于无法恢复的情况所有水平的闭塞。这包括未遮挡测试图像,这表明disoccluded训练图像提高泛化。

8进一步探讨了推广效果。控制和阻挡来自图训练条件6。经济复苏条件图的修复情况7。修复优于闭塞的培训,从而测试数据。从而训练,但是,也优于阻挡培训,从而测试数据。图8显示经济复苏条件执行最好的甚至直接比较的控制。

所有之前实验真实使用分割面具。所显示的图12自动分割算法没有完美的精度,因此可能会降低分类器的性能。图9量化误差的类型和水平。自动分割算法并没有错误,从而图像。错误的峰值低,但非零的阻塞程度。假警报比思念更常见。错误减少和假警报的平衡转向没有抓住的阻塞程度增加。这些事实表明,该算法有一个偏向表示一个像素作为一个闭塞。

10扩展图8与第二个复苏状态。第二个复苏条件使用自动恢复算法真实而不是分割。性能与新自动分割算法匹配系统真实使用分割在high-occlusion条件。泛化,从而影响被测试图像不再出现,然而。

3所示。讨论

对象严重堵塞比通畅更难以分类对象。普遍观察者偏见主要对象分类数据集已经掩盖了这种效果,然而,限制最先进的实用的对象分类算法在现实世界中。

介绍了合成对象识别基准与遮挡(索伯)数据集。索伯的导数早些时候纽约对象识别基准(NORB)。像NORB,索伯参数详细分析和优化的分类性能。索伯添加各种类和层次的立体遮挡NORB图像使精确测量分类性能的函数阻塞。数据集与基础设施适合高通量实验计算集群。

结果索伯再现分析Hoiem et al。9]。卷积神经网络展览高性能,从而测试数据但降解迅速增加闭塞。在闭塞的最高水平,高质量的分类器的性能是小比随机的机会。训练的分类器,从而阻挡和图像产生最可靠的好结果。所有培训条件收益率表现不佳高度阻挡测试图像,然而。

增加一个高质量的分类器与一个修补预处理阶段成功性能恢复的损失。修复使用真实或自动提取分割掩模保留大部分的性能一直到最高水平的闭塞。这些结果表明,occlusion-robust分类是可行的,只要把输入图的问题,地面,阻塞是可以解决的。

而自动提取分割面具完全准确,从而图像,恢复真实使用面具表明一个令人惊讶的性能增益。日渐复苏条件优于控制和闭塞的训练条件,从而测试图像。这真实获得建议的修补分割面具减少过度拟合,提高了泛化。

结果显示两个重要的发现。首先,阻碍然后disoccluding修复是一个可行的方法,它通过对数据集的数据集扩充。最先进的分类系统通常包括一个或多个增强技术来增加训练数据集的大小,减少过度拟合,提高泛化。反射,线性变化,弹性变形是三种常见的类增加应用于对象的分类问题。所有三个构建一个不变性的预期转换数据。数字三仍然是一个当几个像素转向左边,例如。索伯结果表明,阻塞是另一个有用的类增加的数据集。

其次,扩展一个标准的分类算法,结合现有预处理阶段的生产系统,执行系统1:1的基地,从而测试图像显著地更健壮的性能随着阻塞增加但展品。实际系统的关键变量是分割的质量面具。分类器与一个高质量的音乐会分割算法也可以执行几乎严重阻挡图像,从而为图像。

4所示。材料和方法

这项工作的原理技术目标是繁殖的结果Hoiem et al。9]在occlusion-resistant作为基线情况下,使实验对象分类算法。这些目标需要一个可伸缩的实验基础设施,支持大型参数研究。

在这种情况下,可伸缩的意味着数据收集基础设施能够有效地分配工作在一个计算节点池。给定一个完全有效分配工作,任务将花费一百个小时来执行在一个计算节点只需要四个小时25计算节点集群上执行。最不能分布式计算的任务有效地在一个庞大的计算节点。所需的开销保持所有的计算节点同步限制性能随着集群规模的增加。然而,在这种情况下,每个试验独立的。计算节点在试验不需要同步。这是一个一个的例子令人尴尬的是平行的工作,理论的可伸缩性是近乎完美的。考虑到大量的工作和高度平行的性质问题,实验操作基础设施设计计算集群是一个合理的投资。

所有索伯实验用两层平行的基础设施。管理由一个层版本控制服务器和一个头节点。计算层包含16个计算节点。版本控制服务器负责存储源代码和二进制小资产,以及变化的历史。基础设施的其他部分只执行代码检查从版本控制服务器,以确保所有模拟都可追踪的和可重复的。头节点负责大型二进制存储资产,协调实验,计算节点分配工作,并归档结果。索伯种子数据是存储在这里,因为它太大了,在版本控制服务器。计算节点负责试验的实际执行。

验证Hoiem et al。9]研究需要三个分类器和三种类型的训练数据。三种分类器机会,感知器,事先。三种类型的训练数据从而,锢囚,结合

机会训练分类器简单地丢弃数据并生成随机预测的测试数据。感知器分类器是一个线性网络由随机梯度下降训练。事先分类器是一个多层卷积神经网络建模后的分类器勒存et al。12]。部分4.2对这些算法包含额外的细节。

每一个训练数据的条件是一个不同的片索伯数据集。只包含NORB图像,从而训练条件,所以算法训练在这种情况下直接与NORB文献中结果。闭塞条件只包含图像遮挡。混合训练数据条件包含两种类型的数据。部分4.2每个条件包含额外的细节。

4.1。索伯建设

索伯来源于NORB normalized-uniform数据集,也称为“小NORB。“就像NORB,它包含96×96像素的训练集和测试集立体影像拍摄与固定的差距。也喜欢NORB,索伯包含描述性元数据对象类的对象实例,相机高程,相机方位,并为每个图像光水平。索伯NORB添加了两个特性:(1)描述性元数据类和闭塞。(2)一对日渐细分为每一个图像。

额外的元数据包含足够的信息来完整地描述闭塞在每个图像合成。每个图像都包含两个新的元数据字段: 。遮挡类型字段是一个因素变量的值选择设置 没有一个,随机,酒吧,斑点}。闭塞的阻挡字段包含一个整数像素计数在左右图像像素求和。计数是接管每个像素领域的观点,而不只是目标对象的像素。这意味着最大的价值 或18432年。这个选择的潜在假设是,所有像素的normalized-uniform NORB数据被认为是图。目标对象的数据标准化的规模和集中在一个统一的背景下,这是一个合理的假设。

额外的元数据字段描述具体每个闭塞类型除了每个图像中的遮挡 。对于遮挡类型 ,有补充 字段。种子是一个整数用来'伪随机数发生器产生随机的闭塞。阈值字段是一个浮点值的范围 控制像素被遮挡的部分。

对于遮挡类型 ,有补充ω, , , 字段控制间距、方向和厚度使噪音酒吧。酒吧遮挡由阈值生成一个正弦函数在一个抵消轴。正弦信号的角频率ω。θ角偏移量水平。这个阶段决定了正弦函数上的起点。阈值是一个浮点值的范围 。像随机的情况下,它控制像素被遮挡的百分比。

对于遮挡类型 ,有补充 , , 字段。像随机的情况下,种子是一个整数用来'一个伪随机数生成器。的 字段是一个整数描述图像中气泡的数量。的 字段描述气泡的大小是一个整数。

领域,随着辅助字段,充分描述了遮挡,足以重建他们给一个额外的差距参数。差距参数是一个整数描述眼部立体遮挡的差距以像素。这是一个全球五个参数的值。这个值将遮挡深度接近观察者比目标对象。它是一个整数来简化分割。一个整数值,每个像素的数据包含的信息背景或闭塞,没有混合。没有边界像素包含一些信息从目标对象和遮挡层。自然的照片很少会对象准确地落在像素边界。

除了额外的元数据,索伯真实还包含分割为训练集和测试集。这些真实的分割采用alpha-matte标准用于Grady et al。15)和洛特et al。16]。对于每个立体数据,索伯包含一个额外的一双 二进制alpha-matte图像。alpha-matte显示的值为1的像素是一个闭塞。值0表示缺乏闭塞。

像NORB,索伯的图像灰度。紧凑的存储,每个像素NORB描述由一个字节。这意味着256年NORB包含图片和每个像素灰度值有一个值的范围 。0是黑人,255是白色的。索伯,易于集成现成的对象分类算法的优先级高于密实度表示。索伯存储为32位浮点值的范围 ,0是黑色和1是白色的。这个选择简单的密实度是合理的,因为网络是更快和磁盘远远超出可用NORB时创建的。

遮挡在索伯变形与二进制噪声。每个阻挡像素的值为0或1,选择从一个均匀分布。这个材质必须最大限度地混淆对象分类算法和性能恢复算法提供一个信息来源。参见4.4为更多的细节在这个选择。

索伯包含三种不同的训练集和测试集。第一个训练集 只包含24300年的原始图像,NORB normalized-uniform训练集,没有遮挡。这训练集是一个基线,允许直接与文献中的许多NORB结果进行比较。

第二个和第三个被称为训练集 或结合, 或闭塞。立体像对的训练集包含243000。这个尺寸符合NORB数据集的抖动和凌乱的版本。每一对立体通过选择一个随机生成立体(替代)的24300双NORB normalized-uniform训练集,选择一个随机遮挡类型、生成随机选择阻塞类型参数,并生成随机噪声作为阻塞的纹理。立体像对合并后的训练集包含四种闭塞类型,包括 。锢囚训练集排除了 立体像对闭塞型,因此所有阻挡。所有随机选择用均匀分布在可能的选项。

阻塞型没有附加的元数据,所以没有额外的随机选择需要和闭塞纹理生成。的 阻塞型需要种子和一个阈值。种子空间的生成所有可能的32位整数。阈值是浮点和产生的范围 。的 阻塞型需要浮点ω,θ,阶段,和阈值参数。ω是产生的范围 ,相 。产生的阈值范围 。最后, 遮挡类型要求 , , 参数。种子空间的生成所有可能的32位整数。的 产生的参数是一个整数范围 。的 产生的参数是一个整数范围

索伯测试集生成使用相同的程序作为训练集相结合,只有两个例外。首先,索伯NORB测试组使用测试而立体像对立体像对的培训。NORB测试和训练集的结构相同。不同之处在于对象实例呈现在每组训练数据包含实例。4,6,7,8,9每个类别。测试数据包含剩余的实例。这意味着测试和训练数据不包含相同的对象,相同的对象类别。第二,索伯测试设置只包含97200立体声双。这个数据集的大小是一致的NORB的抖动和凌乱的版本。

以下4.4.1。索伯施工程序

完整的索伯数据集包含607500个灰度级和同等数量的立体像对alpha-mattes存储为32位浮点值,总共大约83字节的原始数据。共有64位被代表每个像素,包括灰度和alpha-matte。减少单像素数据从64位9位,包括灰度和1 8二进制alpha-matte,会降低原始数据量大约12 g。压缩可以减少这个值由另一个数量级。

然而,原始数据量并不是限制因素的性能。良好的机器学习实践规定应该打乱每次训练数据是用来训练一个分类算法。如果索伯图像数据预先计算的,放在磁盘,每个培训运行需要寻求随机数据文件中的每一对立体声。磁盘非常昂贵。阅读大量的序列数据从硬盘效率大大超过阅读小块的随机数据。

传播工作在一个大集群计算提出了一个附加的实际问题。数据必须是身体上放置在一个或多个磁盘。将其放置在一个磁盘,并允许剩余的节点访问主副本在网络上比较简单,但求每培训时代磁盘的数量线性增加的数量计算节点和网络性能的限制。这是磁盘寻求放大。将数据复制到每个节点上划痕磁盘需要额外的检查,以确保过时版本的数据删除和每个节点总是有一个新的副本。寻求每培训时代磁盘的数量保持不变,然而,吞吐量显著更高。

利用详细的闭塞的元数据,索伯施工过程使用第三种选择。的NORB normalized-uniform测试和训练图像数据生活在单个节点上共享文件系统,以及完整的索伯的元数据。这远远小于图像数据的元数据,只有几十兆字节。的NORB normalized-uniform图像数据远远小于整个图像数据为索伯,大约在3 g时存储在32位浮点格式。

当计算节点需要构造一个重组版本的索伯训练或测试分类算法,它读取从共享文件系统的元数据,打乱只有元数据构建一个本地,打乱索伯图像数据的副本。打乱元数据中的每一行,计算节点获取适当的图像从NORB文件在共享文件系统,添加适当的遮挡,并写一份阻挡数据和alpha-matte到本地磁盘。

从表面上看,这个方案似乎遭受相同的磁盘寻求放大问题的简单方案索伯是预先计算的,存储在一个共享文件系统。然而在实践中,只有大约1.5 gb的数据是“热”在任何给定的时间,阅读的意义计算节点。这是一个足够小的体积,操作系统缓存节点主机共享文件系统可以吸收负载。考虑到互连和节点属性的计算集群,阅读NORB数据从一个节点不影响总体性能。

这种混合动力方案将索伯的建设分为两个阶段。第一阶段是一个预处理阶段准备的元数据和转换NORB normalized-uniform图像设置一个合适的格式。一个计算节点执行这个阶段,因为它只需要进行一次。计算节点的元数据的结果写入到共享文件系统作为一个文本文件以逗号分隔值(CSV)格式。也写NORB图像数据作为两个二进制文件,一个用于培训和一个用于测试;每个包含一个序列在低位优先的32位浮点值的格式。序列主要订单行,假设 数组的数据。二进制文件不包含任何头部或分隔符信息。这种格式是有效的,因为它直接对应于内存中的数据的布局。

在第二阶段,工人计算节点负载CSV元数据,适当的NORB图像数据块映射到内存,并建立一个当地,打乱索伯的副本。控制内存使用,加快模拟,这个过程是在每个节点上并行工作进程的池。对象分类算法不能得到整个数据集。相反,他们得到一个minibatches序列,输入数据的每个包含一千行。这消除了需要等待整个数据集完成前处理对象分类算法可以开始工作。因为每个minibatch完成后,通过在对象分类算法。

4.2。基准算法和训练

处理管道包括三个引用对象分类算法。首先是一个机会分类器,忽略了训练数据,使随机测试数据的预测。第二个是一个简单的线性感知器由随机梯度下降训练。第三个是卷积神经网络(事先)。线性分类器和事先的实现都是现成的开源库。

线性分类器来自scikit-learn库(19]。Scikit-learn机器学习是一个开源工具包为Python语言编写的。使用“sklearn.linear_model索伯分类结果。感知器”分类算法使用默认参数。感知器分类器是一个很好的选择,因为该算法简单、高度可伸缩,适合增量训练。感知器只需要一个数据点,以便学习。这意味着处理管道可以流数据过去的整个数据集分类器没有保持在内存中。与单个分类器训练通过训练集。

卷积网络使用开源cuda-convnet包(20.]。这个包提供了一个高度优化的实现卷积网络的NVIDIA图形处理器。特定的网络结构是可由用户配置的。所有索伯实验用一个两层网络。第一层是卷积和使用银行16 5-by-5立体声过滤器与一个双曲正切函数输出。这个非线性双曲正切是紧随其后的是一个绝对的价值。绝对值非线性表现一个整流非线性试点实验。第二层是一个完全连接网络和五个输出。这五个输出对应五个对象类。完全连接层的输出经过softmax函数来生成最终的预测概率。

事先分类器需要60经过完整的训练数据集收敛。第一40通过使用的卷积和完全连接层权重学习速率为0.001和0.002的偏差值。通过每周使用0.0001和0.0002。通过51-60使用0.00001和0.00002。减少学习利率的一种形式早期停止(21]。40后通过训练数据,网络开始overfit学习速率高,训练时变得不那么准确。最后的学习速率下降20通过允许网络调优性能没有过度拟合。

4.3。恢复使用衰减或修补

索伯管道包括两个恢复算法。第一个是一个简单的衰减。该算法生成一个最终通过设置阻塞输入图像像素为黑色。图像素通过没有修改。衰减树叶可见遮挡遮挡,但消除了高频纹理。

第二个恢复算法是一个开源结合现有算法的OpenCV图书馆。该算法将阻挡像素视为损害并试图填补他们在使用信息从邻近的像素。没有可见的结果是一个图像遮挡,但不同的失真由于信息缺失遮挡的位置。图11对比这两个策略。

4.4。立体分割

自动分割是一个困难和经常模棱两可的问题。最先进的分割算法如GrabCut仍然需要输入从人类提示算法正确的目标对象和清理结果(16]。

在实践中,音响遮挡在索伯容易段。此前,遮挡的方向相对于观察者。索伯使用平面遮挡放置垂直于相机。这意味着阻塞部分下左边和右边的图像匹配时完全正确的两张图片是一致的。自动分割过程利用这个性质来估计的位置使像素通过关联左边和右边输入图像和寻找对应的顶点。峰值是定义为一个值,两次近邻的大小。确定对应的峰值后,该算法预测类为每个像素。时非常相似的像素左右图像对齐被归类为闭塞。

分割算法实际上是一个简单的立体深度的近似估计。估计从一对立体图像像素的深度需要解决对应左派和右派之间的问题图片。对于一个给定的环境中具有里程碑意义的,对应的问题是定位在左右两个里程碑式的立体图像。这两个像素空间坐标,与摄像机之间的距离当立体,足以解决距离的地标。遮挡的平面,垂直变形性质产生一个非常简单的通信问题。遮挡只是像素在不久的深度平面。

样例输出的算法如图12

相互竞争的利益

本杰明·钱德勒是一个名叫发明人在一个或多个技术领域的专利申请。

确认

作者感谢Greg斯奈德在纸上许多深刻的讨论和评论。额外的感谢是由于惠普企业提供一个GPU集群。本杰明•钱德勒是惠普公司的一名雇员的企业。尼奥•Mingolla支持部分AFOSR # 000464 - 001。