多尺度卷积神经网络检测你的手

文摘

无约束的手在静态图像检测在许多hand-related视力问题起着重要的作用,例如,手跟踪、手势分析人类行为识别和人机交互,手语识别。虽然手检测已经广泛研究了几十年,这仍然是一个挑战性的任务有许多问题要解决。这种复杂性的因素包括遮挡、低分辨率,不同光照条件下,不同的手势,手和对象之间的复杂的相互作用或其他的手。在本文中,我们提出一种多尺度深度学习模型无约束的手在静态图像检测。深度学习模型,特别是深卷积神经网络(cnn),取得了最先进的性能在许多视觉标准。开发提出的CNN (R-CNN)模型,我们提出一种检测方案基于候选区域由一个通用的区域建议算法,其次是多尺度信息融合的流行VGG16模型。两个基准数据集应用来验证该方法,即牛津手检测数据集和手检测万岁的挑战。我们取得的成果在牛津一方面检测数据集,有令人满意的表现手检测万岁的挑战。

1。介绍

健壮的手检测不受约束的环境中最重要的一个挑战性的问题在计算机视觉。与各种hand-related任务密切相关,例如,手势识别、手动作分析、人机交互、手语识别。手检测往往是动作识别的任务的第一步也是最困难的一个部分,因为手的形状或者手势可以有很大的变化。例如,一只手握住物体,手可能出现在不同的尺度和关闭或打开手掌,手指的手可能有不同的发音,和手还可以拥有其他的手。此外,照明方差和对象阻塞也添加额外的困难的任务。

手检测一直强烈的研究在过去的十年。的成功所鼓舞中提琴和琼斯的人脸检测方案1)相结合矩形Haar-like特性和演算法分类算法来训练一个检测器,类似的方法研究了手工检测(2]。虽然在人脸检测、高效Haar-like特性并不足以代表复杂和高度表达对象就像人类的手。适当的梯度直方图特征描述符的梯度直方图等(猪)3对象检测)都进行了广泛的调查,同样的努力也取得了手检测(4]。尽管实现改进,性能仍远不能令人满意,因为大的变化在无约束的外观设置。

旨在解决瓶颈的特征表现在目标检测中,一个有前途的发展,利用家族的通道特性,取得了创纪录的表现行人检测(5]。注册通道特性计算原始图像梯度和直方图的地图的梯度,然后提取特征在这些扩展渠道。信道特性,的一种变体,称为总通道特性,采用手检测(6]一个两阶段方案设计检测手和他们的方向。三个互补的探测器应用提出手边界框和第二阶段分类器学习计算的最后信心得分建议使用这些特性。基于特征的表示图像的发展,开发了各种检测方案。其中,部分原因模型,提出的可变形模型(DPM)一部分Felzenszwalb et al。7),已在2014年之前在目标检测。图像,这种方法特别应用猪的特性与潜在的部分对象形成一个可变形物体的图形化模型,并取得不错的效果。旨在解决这一问题的发现,作者的8)也用空闲的手型探测器检测在无约束的图像。

然而,上述对象检测策略一般来说,尤其是手检测,利用手工特性表征的能力往往是有限的。最近,卷积神经网络(cnn) [12)都已经被广泛地研究过了图像识别和其他相关的任务,通常与最先进的性能(13]。Girshick et al。14介绍基于区域)提出了卷积网络(R-CNNs)框架,高容量的卷积网络应用于自下而上的地区建议为了定位和细分对象。更全面的评估R-CNN家庭最近发表的具有不同的基准13,15,16]。一个适当设计的CNN模型可以学习图像不变特征的多个阶段和一个基于CNN的对象检测通常是一个端到端的系统联合优化的特征表示和分类。

然而,R-CNN也有缺点,如昂贵的多级培训和慢速目标检测中描述(17]。最近,许多研究曾试图改善R-CNN框架。空间金字塔池网络(SPPnets) (18)提出了加快R-CNN通过共享计算但没有改善多级培训管道R-CNN中实现。因此,Girshick [17)提出了快速R-CNN多任务学习和单级培训。

在多尺度如何忠实地描述一个对象是一个成功的核心对象检测系统,这是尤其如此,当对象是规模变化没有限制。这是手工检测的准确情况。R-CNNs通常应用于通用对象检测,在固定滤波器从最后一层CNN无法接受字段匹配变量大小的对象就像手中。最近的一些研究试图找到解决方案。在[19),提出了一种多尺度CNN,它由两个子网建立互补多个探测器。

而不是设计复杂的结构,如(19),以适应对象的规模变化,我们提出一种多尺度检测系统手对象通过探索规模提供了一个丰富的表示CNN。Zeiler所指出的,费格斯(20.),不同层次的信息聚集在CNN模型有不同的抽象特性和尺度。最后一层通常应用在许多识别方案(12,17)不足以代表多尺度对象(如手在我们的系统。

而收集信息从多层CNN的好处已经被发现图像分类(21],我们的贡献在于从中间不同功能的集成层占多尺度的手,以前没有被调查。

更具体地说,我们的主要贡献可以概括如下:(1)为了实现手对象的多尺度表示,我们提出一个战略整合从CNN的多层模型的特性。(2)我们通过大量的实验验证了该方案的有效性,显著提高了检测性能。(3)我们取得的成果在牛津一方面检测数据集(8]手检测万岁的挑战和竞争结果(6]。

图1显示了一个不受约束的环境中检测方法的例子。

本文的其余部分组织如下。节2,我们简要介绍了先前的研究检测。这是我们建议的方法部分中解释紧随其后3。部分4我们的实验过程和细节提出了两个数据集的结果用于检测。结论提出了部分5。

2.1。手检测

灵感来自于进步的对象检测在计算机视觉领域,许多方法已经提出了检测在过去十年里。最简单的方法(2)是基于肤色的检测,这不仅涉及的手,脸,和武器,但也有问题,因为光照变化的敏感性。

Haar-like特性和演算法分类器(22- - - - - -24)被广泛应用于许多不同的对象检测应用程序未成功,毛et al。23]提出手检测通过改善Haar-like特性不对称手模式的限制。然而,他们的实验结果证明了改进可能边缘复杂的背景。Chouvatut et al。24)应用SAMME算法的使用(25),而不是一个决策树,作为一个估计量的程度的取向角的手,主要从的角度避免过度拟合的问题。尽管成就,人们普遍认为Haar-like功能不够强大来表示复杂的对象,比如说手由于大型外表的变化。

中间人和组织3)应用猪对人类检测。猪和随后的变体被广泛应用在各种视力问题作为一个有效的特征表示。Felzenszwalb et al。7)提出了可变形模型(DPM),一部分应用猪特性图像表示和利用潜在的对象检测部件。DPM赢得了视觉对象类(VOC)对象检测从2007年到2009年的挑战。最近,米塔尔et al。8]提出手检测基于三种类型的探测器,即DPM-based形状探测器,基于颜色的皮肤探测器,探测器与上下文线索(上下文探测器)。虽然精度是令人满意的性能,检测非常缓慢,防止它成为一个可行的实时方法。

2.2。提出美国有线电视新闻网

所有上面提到的方法应用手工特性分类。近年来,已经有很大进步在cnn针对功能学习对象检测和其他视觉任务。一个典型的CNN模型可以说明图2包括两个卷积层,两个二次抽样层和两层完全连接。提出的模型是勒存等。26识别笔迹,最近才流行从深度学习的兴趣27]。cnn的最引人注目的成功是在大型对象识别12在ImageNet大规模视觉识别的挑战(ILSVRC)。

Szegedy et al。28单独的cnn申请对象检测,也就是说,边框回归和分类预测是否框包含对象的验证。Girshick et al。29日]提出R-CNN,一些oversegmentation算法生成的区域选择性等搜索(30.],CNN与这些地区的调整建议。训练CNN模型与图像特征提取,目标识别的系统进一步训练支持向量机(SVM)。第一代提出CNN, R-CNN成为目标检测的一个里程碑,也激发了其他一些优越的方法(17,18,31日,32]。其中,快速R-CNN [17)功能的联合训练框架特征提取器,训练分类器,回归量在一个统一的框架。由于这些优势,快速R-CNN利用我们的方法的主要构建块。

在许多实际应用中,有些微妙的不同的对象是歧视包括细粒度的细节。子类之间的差异很小,理想特性表示应该考虑到多尺度图像补丁从不同的CNN层。然而,无论是R-CNN还是快R-CNN认为信息粒度的问题对细粒度的认可。这也是许多其他CNN模型的一个主要的局限性,只有目标粗粒度的识别问题。如何将多尺度特性完全卷积神经网络实现改进的性能已经成为计算机视觉研究的一个有趣的研究问题。

贝尔et al。33]提出占的多尺度信息内外网(离子)相结合的特性,在多个尺度上的抽象级别而借助跳过池和空间递归神经网络。最近,Zagoruyko et al。34)进一步发展的想法跳过连接来提取特征在多个网络层,提出了多路径网络进一步提高标准快速R-CNN对象探测器。

我们的工作类似的策略收集特性从多层跳过池手动检测。

3所示。我们的方法

拟议的手检测网络如下图所示3。尽管我们的改善CNN架构并不受到模型的类型,我们的设计是基于VGG16模型(35),广泛应用深CNN模型。VGG16网络模型由五个卷积模块:Conv1 Conv5。Conv1和Conv2块都包含两个卷积层虽然在Conv3卷积有三层,Conv4, Conv5。而不是池感兴趣的区域(RoI)特性只有在最后卷积层,我们增加RoI Conv3池层后,Conv4, Conv5。

快R-CNN [17)的整体形象,并设置边框作为输入并产生一个特征映射的卷积和最大池层。每个边界框将最初将特征映射,紧随其后的是池操作在一个池层,RoI池,池层空间金字塔的一个特例SPPnet [18),采用。快速R-CNN最重要的组成部分,RoI池层允许接受不同的图像大小的地区建议,从而提高R-CNN方法。RoI马克斯池首先划分每个RoI特征映射到一个固定数量的好子窗口,然后应用最大池在每个窗口中。因此,不同大小的输入可以汇集成固定长度的特性表征。

作为卷积神经网络的不同层次代表不同的抽象特性,我们实现了从多层功能池33,34]。正如前面解释的,模式被公认为一个重要的改进前CNN CNN模型只有最后一层是利用特性表征(17]。信息从最后一层时只有合适的任务是生成类标签图像或地区因为最后一层是最敏感的语义信息(36]。当一个任务涉及细粒度的信息,这是我们的工作的情况下检测,输出从最后一层本身并不足以代表图像的特性。相同的语句可以适用于许多其他任务,比如图像分割,造成估计,或细粒度对象识别。作为一种有效的解决方案,从浅层和深层应该融合在一起来捕获图像多尺度信息的手。

同时,小手对象将很难确定仅基于最后卷积层。以VGG16模型为例,最后卷积16层的整体步伐。如果一只手16×16像素,图像相应的功能映射这一层只有1像素,这意味着相应的接受域太大捕捉手对象的基本信息。然而,如果从多个层聚合功能,从浅层次将图像表示的小手上还保留着包含更多详细的信息对象和相应的促进多尺度检测。

正如前面解释的,RoI池生成固定长度的特性。池的特性的一个潜在的问题是广泛的属性值在不同的层在大小相差很大。深层往往较小值较浅层次的卷积操作。这种缺乏功能正常化当训练CNN模型将导致收敛性问题。表现不佳也会随着模型将偏差较大的特征值。作为一个简单的解决方案,我们利用L2正常化RoI池后,建议在33规范化的特性。

L2正常化后实现RoI池。L2正常化进行所有像素的特征图,和所有的特征图谱被独立;也就是说, 在哪里代表了归一化特性和代表原始的特性。在(1),特点是L2规范化。在(2),代表每个条目的维度的特性。

功能正常化步骤提出了(33)还包括重新调节操作是一个重要的概念源于(37]。比例因子可以是一个固定值。我们从实验经验设置比例因子。具体来说,功能集中的规模意味着最后卷积层(Conv5)训练集规模测量并设置为目标。然后从每个特性的平均规模卷积计算层和比例因子可以因此得到简单的部门。

匹配的原始形状RoI池特性(),我们减少了连接使用一个特征维度卷积。因此,输出从我们的网络体系结构是一样的与原始VGG16模型。随后,两个完全连接层应用在多任务策略,即功能分类和边界框回归。

4所示。实验

在本节中,我们目前的结果我们两个基准数据集上的方法:牛津手检测数据集(8和手检测万岁的挑战6]。所有的实验使用Ubuntu 14.04操作系统。咖啡上的CNN模型训练平台(38),一个c++深度学习的图书馆。培训和学习速率的最大迭代设置为40000和0.001,分别。牛津的手检测数据集,我们应用帕斯卡VOC评估工具评估;手检测挑战万岁,我们提交我们的结果评价的官方服务器。所有数据的其他参与者的方法获得了组委会。

4.1。牛津的手检测数据集

米塔尔et al。8)收集这个数据集的手,其定位检测。这是一个综合数据集收集到的许多不同的公众形象资源。在[解释8),没有限制强加于人们的姿势、可见性,和没有约束的环境。

数据集分为训练(1844张照片),验证(406张照片),和测试集(436张照片)。数据集的详细信息可以在[8]。然而,训练数据集的原始注释而不是轴对齐放置根据手的方向的手腕。在我们的实验中,我们重新分配训练集的边界框注释使它与水平轴一致促进深度学习的培训模式。这些注释是新的在我们的研究中,符合最初的边界框的位置和尺度。测试设置应用的原始形式,以便与其他方法进行比较。

所有图片和手实例验证和测试数据集,我们进行了比较实验与基线的方法和模型。与以前公布的方法比较,我们还做了实验使用的原始评价协议[8),以评估的检测性能大手实例(8]。

图4提出了图像数据集的例子和相应的注释。从图可以看出,有大变化在光照条件下,尺度,观点,和手的姿势。同时,小手对象的数据集包含了许多检测任务增加额外的困难。

实验过程可以进一步解释如下。

作为第一步,候选人是由Edgeboxes生成一组区域(39在训练集]。我们候选人的最大数量为3000。Edgeboxes算法会产生边界框根据信心值。前3000名候选人都包含对象的概率更高。然后我们真实训练提出了CNN模型使用注释和生成的候选区域。在培训期间,积极的样本收集与一个固定的重叠率。如果一个候选人地区重叠超过0.5注释边界框,它被认为是积极的。否则,该地区被视为一个背景。正样本和负样本的百分比的所有候选区域分别为25%和75%,分别。

应用CNN的常见做法后,模型第一次pretrained ImageNet然后调整采样候选人地区之前解释道。流行的随机梯度下降法(SGD)算法是CNN应用培训,每个SGD minibatch大小选为128。Girshick[所指出的17),没有必要调整所有的层。在我们的实验中,我们保持Conv1和Conv2参数不变,调整其他层的最大迭代40000。培训期间,我们遇到的underfitting问题模型的训练。为了弥补这个缺陷,我们删除了所有模型的漏失层(33),观察改进的结果。

培训后,方法分别进行了测试验证和测试集。我们首先绘制召回和十字路口在联盟(借据)曲线在牛津的验证集和测试集,如图5。召回和借据曲线应用为主要评价指标对该地区提出算法在40]。这个数字表明,对于某些重叠比率(借据)检测盒和真实之间的区域,可以获取多少真阳性样本。因此,在这篇文章中,我们还绘制曲线对Edgeboxes算法的性能进行评估。Edgeboxes算法实现81.25%和77.30%的召回率,当借据比率是0.5验证集和测试集,分别。召回率不是很高由于数据集的不受约束的设置和形状的差异大,姿势,双手的规模。

(一)

(b)

然后我们跑CNN模型使用生成的候选区域。为了证明该模型的能力,我们设置了原始VGG16 [35)模型作为基线。保持检测盒的数量有限,我们应用Non-Maximum抑制(NMS)阈值为0.3的实验,消除冗余的边界框。受欢迎的平均精度评估协议后,我们使用PASCAL VOC (15)评估工具来计算平均精度(美联社)。所指出的教务长et al。41),仅仅使用精度的结果可能会误导人。Precision-Recall(公关)曲线通常是用作对象检测评价指标(17]。图6显示了基线的公关曲线方法和我们的方法。公关曲线下方的面积是美联社的值。我们可以看到清晰的改进在美联社的结果图。表1显示AP值验证集和测试集。的验证和测试集,我们的方法优于基准的方法,用AP值验证和测试集上的51.2%和49.6%,分别。


方法	验证设置	测试集

VGG16(基线)	45.9%	47.7%
我们的模型	51.2%	49.6%

(一)

(b)

与先前发表的方法比较,实验也进行了相同的评估协议(8]。在[8),手实例比固定边界框的面积(1500平方。像素)被用于评估。文献[8]也帕斯卡VOC评估协议申请评估。因此,我们的实验是一致的过程8]。图7显示了该模型的公关曲线和基线的方法。从图中,很明显,我们的方法(红色曲线)AP值高于基线方法(蓝色曲线)。表2显示了美联社的结果与其他出版我们的方法和比较的结果。我们的方法实现了先进的美联社58.4%的结果。


方法	美联社

多个提案(8]	48.2%
VGG16(基线)	56.8%
我们的模型	58.4%

图8说明了一些检测的例子在这个数据集。尽管严重的阻塞和小尺寸的手在一些图片,手仍然可以正确地检测到。表2总结了我们的方法的结果和一些以前公布的方法,证实了该方法改进的性能从我们。

探讨该方法不成功的情况下,图9显示了错误检测到图像的一些例子。在大多数的情况下,错误分类一些其他对象手中。例如,脚、胸衣或标志t恤衫出现在图像会被误判为手,如下图所示。这个问题不是微不足道的,解决方案可能不是简单的基于当前的方法。一个可能的方法来解决这个问题是探索一些圆鼓鼓的歧视对象上下文信息和真实的手。

4.2。VIVA手检测数据集

加州大学圣地亚哥分校(6组装一个带注释的数据集手检测在现实的驾驶条件下,与作为一个组件的目的在智能车辆的视觉和应用程序(VIVA)挑战(http://cvrr.ucsd.edu/vivachallenge/index.php/hands/hand-detection/)。

有很多挑战的检测司机的手在实际驾驶条件。解决这些挑战,数据集设计,以反映变化照明,nonhand对象相似的颜色,闭塞,和相机的观点。图10 ()显示不同的观点的例子,图10 (b)说明了最nonhand材质的物体出现在图像的情况下,图10 (c)演示了一个闭塞的例子,和图10 (d)是光照变化的一个例子。VIVA数据集是第一个公共数据集,可以有效地评估性能的手在车辆检测系统环境。

(一)

(b)

(c)

(d)

数据集包含两个部分:训练集和测试集,每个国家都有5500张图片。虽然训练集的注释被释放,我们手动贴上测试为随后的实验。测试集可以进一步分为两个部分:第1层(L1)和2级(L2)。根据数据规范,L1只包括背面视图图像和更大的实例(身高70以上像素)而L2包含图像从所有观点以及实例大于25像素,是更加困难的挑战。结果给出了基于这两个子集。

类似的实验过程部分4.1,经过培训的候选人Edgeboxes产生的区域,在评估期间,我们首先生成一组区域建议使用Edgeboxes算法和评估性能通过绘制召回和借据曲线,结果如图11。在L2数据集,借据0.5回忆值是90.0%,这远小于97.7%的召回价值L1。这是符合事实比L1, L2更加困难。

(一)

(b)

然后,我们与我们的模型进行测试。NMS阈值为0.3也进行了消除冗余的边界框。图12说明了公关曲线对L1和L2的数据集。公关曲线表明,我们的方法(黑色曲线)排名很高的AP值(公关曲线下的面积)。与AP值作为性能指标,更全面的比较与其他结果应用最近发表在表提供了方法3。所有的数据和值从官方评价服务器。的方法相比,我们的方法(多尺度快速R-CNN)显示令人满意的性能。具体来说,我们实现了先进的美联社的L1数据集,以92.8% AP值,L2数据集,它排名第二,84.7% AP值。


方法	L1组	L2集

CNNRegionSampling [9]	66.8%	57.8%
ACF Depth4 [6]	70.1%	60.1%
YOLO[意思10]	76.4%	69.5%
FRCNN [11]	90.7%	86.5%
我们的模型(多尺度快速R-CNN)	92.8%	84.7%

(一)

(b)

所提出的挑战,我们也利用平均召回(AR)评估协议(6];基于“增大化现实”技术的计算从ROC曲线9均匀采样点之间的日志空间10⁻²和10⁰假阳性/形象和适合总结检测性能较低的误判率(6]。图13展示了我们的方法的ROC曲线L1和L2的数据集。从图中,很明显,曲线下的面积的方法(黑色曲线)排名高于其他发表的结果。表4展示了我们的方法的基于“增大化现实”技术的结果和其他参与者的方法。我们的方法实现了基于“增大化现实”技术的价值的82.8%和66.5% L1和L2数据集,分别高于所有其他发表的结果。


方法	L1组	L2集

CNNRegionSampling [9]	48.1%	36.6%
ACF Depth4 [6]	53.8%	40.4%
YOLO[意思10]	46.0%	39.1%
FRCNN [11]	55.9%	53.3%
我们的模型(多尺度快速R-CNN)	82.8%	66.5%

(一)

(b)

图14显示了一些正确检测到的例子。即使有不同类型的变化包括遮挡和重新调节,我们建议的方法在大多数情况下可以正确检测手。一些失败的例子在图所示15。有时候,某些类型的布或一只手臂等身体的一部分或脸可能是错误的手。正如我们讨论的部分4.1,这个艰巨的任务将是我们下一步努力发展中一个高度可靠的手检测系统适用于现实世界。

5。结论

本文提出一种多尺度快速R-CNN方法准确地检测人手在无约束的图像。通过融合多级卷积特性,CNN模型能够达到更好的结果比传统VGG16模型。这个方法特别有效的小手对象通常与传统CNN模型难以探测。我们两个基准数据集上验证方法:牛津手检测数据集和手检测万岁的挑战。在牛津的数据集,我们取得的成果与性能的改善以明显的优势;VIVA手检测的挑战,我们的结果有良好的性能在官方网站中列出。未来的工作包括上下文信息的融合,实现可靠的检测,特别是对汽车内部的环境。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

p .中提琴和m·琼斯,“快速目标检测使用一个简单的特性,提高了级联”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 01),1卷,页我- 511 - 518,2001。视图:谷歌学术搜索
n·h·达和n . d . Georganas”实时手势检测和识别使用bag-of-features和支持向量机技术,”仪表和测量、IEEE交易,60卷,不。11日,第3607 - 3592页,2011年。视图:出版商的网站|谷歌学术搜索
n .中间人和b区格”的梯度直方图的人体检测,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 05),1卷,第893 - 886页,2005年6月。视图:出版商的网站|谷歌学术搜索
x孟、j·林和y叮,”一个扩展的猪模型:schog人手检测,”学报》国际会议系统和信息学(ICSAI 12),页2593 - 2596,中国,2012年5月。视图:出版商的网站|谷歌学术搜索
Appel美元p, r, s Belongie, p . Perona一起“快速特性为目标检测金字塔,”IEEE模式分析与机器智能,36卷,不。8,1532 - 1545年,2014页。视图:出版商的网站|谷歌学术搜索
n Das、大肠Ohn-Bar和m . m . Trivedi”司机手检测算法的性能评估:挑战,数据集,和指标,”诉讼18 IEEE国际会议上的智能交通系统(ITSC 15)西班牙,页2953 - 2958年,2015年9月。视图:出版商的网站|谷歌学术搜索
p . f . Felzenszwalb r . b . Girshick d . McAllester和d . Ramanan”对象检测与区别式模型部分原因,“IEEE模式分析与机器智能,32卷,不。9日,第1645 - 1627页,2010年。视图:出版商的网站|谷歌学术搜索
米塔尔,a Zisserman, p .托,“手检测使用多个提案,”英国机器视觉研讨会论文集(BMVC 11)2011年,页1 - 11,邓迪,英国。视图:出版商的网站|谷歌学术搜索
都赞同大都会博物馆美国班巴奇,s . Lee d·j·克兰德尔和c . Yu”贷款的手:检测手和识别在复杂的以自我为中心的交互活动,”学报》第15届IEEE计算机视觉国际会议上,(ICCV 15)智利,页1949 - 1957年,2015年12月。视图:出版商的网站|谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一的实时检测,”《IEEE计算机视觉与模式识别会议,第788 - 779页,2016年。视图:谷歌学术搜索
周t、p . j .皮拉伊和v . g .雅拉总统”层次环境敏感的手自然驾驶检测算法,”《IEEE 19国际会议上智能交通系统(ITSC 16),页1291 - 1297,里约热内卢,巴西,2016年11月。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”学报》第26届年会在神经信息处理系统(捏12)太浩湖,页1097 - 1105年,内华达州,美国,2012年12月。视图:谷歌学术搜索
o . Russakovsky j .邓·h·苏et al .,“Imagenet大规模视觉识别的挑战。”国际计算机视觉杂志》上,卷115,不。3、211 - 252年,2015页。视图:出版商的网站|谷歌学术搜索|MathSciNet
r . Girshick j·多纳休、t·达雷尔和j·马利克”提出卷积网络精确的目标检测和分割,“IEEE模式分析与机器智能,38卷,不。1,第158 - 142页,2016。视图:出版商的网站|谷歌学术搜索
m . Everingham l . van干傻事,c·k·威廉姆斯,j·韦恩,和a . Zisserman“帕斯卡的视觉对象类(VOC)的挑战,”国际计算机视觉杂志》上,卷88,不。2、303 - 338年,2010页。视图:出版商的网站|谷歌学术搜索
T.-Y。林,m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学),卷8693,不。5,740 - 755年,2014页。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。学报》第15届IEEE计算机视觉国际会议(ICCV 15)2015年12月,页1440 - 1448。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳”空间金字塔池深卷积网络视觉识别,”IEEE模式分析与机器智能,37卷,不。9日,第1916 - 1904页,2015年。视图:出版商的网站|谷歌学术搜索
z Cai,风扇,r . s . Feris和n .塞·伐斯冈萨雷斯,他的“一个统一的多尺度卷积神经网络快速目标检测,”欧洲计算机视觉的诉讼施普林格,页354 - 370年,柏林,德国,2016年。视图:谷歌学术搜索
m . d . Zeiler和r·费格斯“可视化和理解卷积网络”《计算机学报Vision-ECCV 2014: 13日欧洲会议卷,8689在计算机科学的课堂讲稿施普林格,页818 - 833年,苏黎世瑞士,2014年9月6 - 12日。视图:出版商的网站|谷歌学术搜索
杨和d . Ramanan“多尺度识别与DAG-CNNs”15 IEEE计算机视觉国际会议上,ICCV 2015的背影,页1215 - 1223年,2015年12月。视图:出版商的网站|谷歌学术搜索
i f·因斯,m . Socarras-Garzon苏耿赋。杨,“手鼠标:实时手运动检测系统onanalysis blob的手指,“国际期刊的数字内容技术及其应用,4卷,不。2,40-56,2010页。视图:出版商的网站|谷歌学术搜索
G.-Z。毛,杨绍明。关铭吴,M.-K。何珥和彭译葶。唐”,实时检测与跟踪在复杂背景下,手”学报》第五届国际会议上智能信息隐藏和多媒体信号处理(IIH-MSP ' 09)日本,页905 - 908年,2009年9月。视图:出版商的网站|谷歌学术搜索
诉Chouvatut, c . Yotsombat r . Sriwichai, w . Jindaluang“视点手检测应用viola-jones框架使用SAMME演算法,”第七届国际会议的程序知识和智能技术(键糟”15)2015年1月,页- 35、泰国、。视图:出版商的网站|谷歌学术搜索
j .朱h .邹,美国安全,t . Hastie”多层次演算法”,统计及其接口,卷2,不。3、349 - 360年,2009页。视图:出版商的网站|谷歌学术搜索|MathSciNet
y LeCun (b .波沙,j·s·德克et al .,“反向传播应用于手写邮政编码识别,”神经计算,1卷,不。4、541 - 551年,1989页。视图:出版商的网站|谷歌学术搜索
y Bengio、a .考维尔和p·文森特,”表示学习:审查和新视角,”IEEE模式分析与机器智能,35卷,不。8,1798 - 1828年,2013页。视图:出版商的网站|谷歌学术搜索
c . Szegedy a Toshev, d . Erhan“深层神经网络目标检测,”神经信息处理系统的进步26c . j . c . Burges l . Bottou m·威林z Ghahramani,和k·温伯格,Eds。,页2553 - 2561,柯伦Associates Inc,红钩,纽约,美国,2013年。视图:谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”美国27日IEEE计算机视觉与模式识别会议(CVPR 14)IEEE,页580 - 587年,哥伦布,俄亥俄州,美国,2014年6月。视图:出版商的网站|谷歌学术搜索
k·e·a . Van De Sande j·r·r·Uijlings t . Gevers和a . w . m . Smeulders”细分为选择性搜索对象识别,”《IEEE计算机视觉国际会议(ICCV 11)IEEE,页1879 - 1886年,2011年11月。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”先进的神经信息处理系统,第99 - 91页,2015年。视图:谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测、”https://arxiv.org/abs/1506.02640。视图:谷歌学术搜索
美国贝尔,c . l . Zitnick k .巴拉和r . Girshick“内外网:检测对象上下文跳过池和复发性神经网络,”2015年,https://arxiv.org/abs/1512.04143。视图:出版商的网站|谷歌学术搜索
s . Zagoruyko a·莱瑞T.-Y。林et al .,“多路径网络对象检测”https://arxiv.org/abs/1604.02135。视图:谷歌学术搜索
k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。视图:谷歌学术搜索
b . Hariharan p . Arbelaez r . Girshick和j·马利克,“超柱状体对象分割和细粒度的本地化,”《IEEE计算机视觉与模式识别会议(CVPR 15),页447 - 456,波士顿,质量,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
w·刘,a·拉比诺维奇和a·c·伯格“Parsenet:宽看到更好看,”https://arxiv.org/abs/1506.04579。视图:谷歌学术搜索
y, e . Shelhamer j·多纳休et al .,“咖啡:快速卷积架构功能嵌入”ACM国际会议多媒体学报》上ACM,页675 - 678年,奥兰多,佛罗里达州,美国,2014年11月。视图:出版商的网站|谷歌学术搜索
c . l . Zitnick和p .美元”,从边边框:定位对象建议,”《欧洲计算机视觉大会14)施普林格,页391 - 405年,苏黎世瑞士,2014年9月。视图:出版商的网站|谷歌学术搜索
j . Hosang r·纳森p .美元,席勒的影子,“是什么让有效检测的建议?”IEEE模式分析与机器智能,38卷,不。4、814 - 830年,2016页。视图:出版商的网站|谷歌学术搜索
f . j .教务长、t·福塞特和r . Kohavi”案精度估计的比较归纳算法,”机器学习的国际会议(98年ICML”)卷,98年,第453 - 445页,1998年。视图:谷歌学术搜索