对象检测通过修改YOLO神经网络的意思

文摘

对象检测领域,最近,获得巨大的成功,但仍然是一个非常具有挑战性的任务与快速准确检测和识别物体。人类可以在图片或视频检测和识别多个对象轻松不管对象的外观,但对于计算机识别和区分是具有挑战性的事情。本文基于修改YOLOv1神经网络提出了目标检测。新的神经网络模型在以下方面得到了改进。首先,修改了的损失函数YOLOv1网络。改进的模型取代了保证金比例风格风格。相比旧的损失函数,新的更灵活和更合理的优化网络错误。其次,添加一层空间金字塔池;第三,一个初始模型的卷积核11添加,减少重量参数层的数量。广泛的帕斯卡VOC 2007/2012数据集上的实验表明,该方法取得了更好的性能。

1。介绍

人类可以很容易地检测和识别物体周围环境,不考虑他们的情况下,不管他们在什么位置,是否发生了天翻地覆的变化,不同的颜色或纹理,部分闭塞,等。因此,人类让对象检测看起来微不足道。相同的目标检测和识别的计算机需要大量的处理提取一些形状和图像中的对象的信息。

在计算机视觉中,对象检测是指寻找和确定一个对象在一个图像或视频。目标检测的主要步骤包括特征提取(1),功能处理(2- - - - - -4),和对象分类(5]。对象检测与许多传统方法实现出色的性能,可以从以下四个方面:描述底部特征提取,特征编码,功能聚合和分类。特征提取中扮演着重要的角色在目标检测和识别过程6]。将会有更多的冗余信息建模,可以实现更好的性能比先前的兴趣点检测。以前尺度不变特征变换(筛选)7)和面向梯度直方图(猪)8)属于这一类。

对象检测是至关重要的在不同的应用程序,如监测、癌症检测、车辆检测、和水下目标检测。各种技术被用来检测对象准确、有效地对不同的应用程序。然而,这些提议的方法仍然有缺乏准确性和效率问题。解决这些问题对象的检测、机器学习和深层神经网络方法能够更有效地纠正对象检测。

因此,在这项研究中,提出了一种新的网络修改基于YOLOv1 [9网络模型。的性能改良YOLOv1通过以下几点改进:(我)的损失函数YOLOv1网络优化。(2)初始模型结构。(3)一个空间金字塔池层使用。(iv)该模型有效地从图像中提取特征,表现在目标检测中表现得更好。

其余本文组织如下。部分2描述了相关工作。部分3提出了方法,详细描述了网络体系结构。部分4介绍了改进的网络从各方面的分析。节5,实验设置,结果,和比较与其他网络进行了讨论。本文给出了结论和未来的工作6。

检测和识别多个对象在一个图像机器很难识别和分类。然而,值得注意的努力已经在过去的几年中进行的检测对象使用卷积神经网络(cnn)。在目标检测和识别领域,神经网络在使用十年但成为知名由于硬件的改进新技术培训这些网络在大型数据集10,11]。在目标探测和识别中,研究人员利用深度学习的学习特性直接从图像像素,这是更有效的比手动功能(4,12]。最近基于深度学习算法消除手动特征提取方法和直接使用特征提取方法(13)从原始图像。这种方法已经成功地证明了特征金字塔网络(红外系统)14),单发射击检测器(SSD) [15],deconvolutional单发射击检测器(DSSD) [16]。深入学习是机器学习领域的主流方向(17]。在[18,19),研究人员表明,cnn继承深度学习的优点,这使得他们的结果对象领域的检测和识别与传统方法相比大大提高了。研究人员已经做出了许多的努力,使用随机梯度下降法和反向传播训练深度网络对象检测(20.]。这些网络能够学习但太慢实际上是有用的实时应用程序;该技术在12)表明,随机梯度下降法被反向传播有效地培训cnn。cnn成为使用但是时装由于支持向量机(21线性分类器等)和其他简单的方法(22]。最近新技术开发(23,24]显示更高的图像分类精度ImageNet大规模视觉识别(25]。这些技术带来了更容易培养大,更深层次的网络和增强性能。新方法,建立了识别车辆和其他对象使用深从视频和静态图像卷积神经网络(DCNN) [26- - - - - -30.]。例如,更快R-CNN [19]提出候选区域和使用CNN确认候选人作为有效的对象。YOLO使用端到端统一,意思完全卷积网络结构,预测无目的的保证和边界框同时在整个图像。SSD (31日)优于YOLO生产空间的离散化意思边界盒为一组避免盒在不同的比例和尺度特征地图位置。YOLO-2 [32)达到最先进的目标检测性能的提高其早期版本的各个方面。一个完全卷积网络用于目标检测三维(3 d)距离与激光雷达扫描数据。2 d-dbn设计,提出了使用二阶飞机而不是一阶向量作为输入,并使用双线性投影保留歧视信息开发识别率(33]。虽然DCNN基础方法实现最先进的检测和分类的准确性,这些方法往往需要密集计算和大量的训练数据的标签。在过去的几年中,使用经济深层神经网络在实时应用中,做了大量的工作报告这两个问题(34,35]。在这项研究中,一个不同的修改架构对象检测处理,这是能够提供高的精度和速度。

3所示。方法

在本节中,该模型详细描述。首先,提出了基于损失函数的改进。其次,基于初始结构模型的改进。最后,改进基于空间金字塔池层是描绘。表中描述的符号表示1。


符号/符号	描述

	Hyperparameter将确保“公平”贡献的边界框的位置
	Hyperparameter设置边界框评分预测
C	类别
P(C)	检测到的概率类类别
N	训练样本
X	训练的输入
Y	输出标签
t	输入标签

3.1。改善网络设计

以下改善YOLO网络模型是由意思,同时保持原有的模式主导思想。

3.1.1。改进基于损失函数

原文的损失函数YOLOv1网络需要大型和小型对象的同样的错误,这使得相邻对象的模型的预测不令人满意。如果两个对象出现在相同的网格,只能检测到一个对象,将会有一个问题在检测小对象。与旧的损失函数相比,新的损失函数更为灵活和优化。在新的损失函数,最初的区别是比例取代。方程(1)显示原始YOLOv1损失函数;YOLOv1使用一个损失函数边界框和对象的分类。损失函数可以描述在五个部分:第一次和第二次都在关注失去边界框的坐标,而第三和第四个负责的差异在网格物体的信心,和五个部分负责类概率的差异。的和标量体重每一个损失函数,设置为5,设置为0.5 YOLOv1的原作者。

在卷积神经网络,方差函数通常是作为损失函数(36的网络。例如,对于各种各样的问题,类别是C和训练样本的总数是n算法用于multiclassification首先需要找到那些重量和偏见,使神经网络的输出接近(标记类别)为所有培训投入 ;量化如何关闭所有训练输入的输出是 ,损失函数被定义为

在这里,代表输入对象的标签,代表的实际输出值输入对象的网络。选择方差的函数形式是损失函数方便后续优化。另一方面,当前的训练水平可以预测通过观察波动的严重程度的损失价值在实践中。

YOLOv1网络损失函数设计、方差函数作为整个损失函数的一部分,正常化的对比是用来改善它,和改进的模型替换保证金比例风格风格,下面图中对象的大小。具体修改的损失函数所示

在这里,表明,目标对象是在假定为礼物区域的位置。和表示图像的当前位置;和代表图像的宽度和高度。被识别对象的总数,然后呢的概率是对象属于一个特定的类c。在这里,需要注意的是,损失函数引导优化对象所属的类和优化边界框的位置检测的对象。

3.1.2。改进《盗梦空间》的结构模型

第三和第四层的原始网络替换为新的初始模型。初始模型本身有能力深化和扩大网络,提高网络;64×1×1层之间增加了第一和第二层次的原始网络,减少了网络参数。图1显示了部分YOLOv1网络结构后添加初始模型。《盗梦空间》架构是用来找出最优局部稀疏结构卷积神经网络可以逼近和密度由现成的组件。

初始模型可以深化和扩大网络,和不同尺度的卷积核并行连接。因此,可以更有效的多尺度特性,图像中的隐藏信息可以更有效地使用。

3.1.3。SPP结构模型的改进

图2显示新增的空间金字塔池(SPP)层,下面是使用它的优点。(我)它可以为任何大小的输入输出一个固定大小的图像或任何输入图像的比例。(2)它可以在不同的尺度上提取池特性。

一个分类器(支持向量机/ Softmax),以及完全连接层,需要一个固定长度的向量,这可以通过生成Bag-of-Words(鞠躬)35,37,38),空间金字塔将采样提高弓,因为它保留了空间信息池空间垃圾箱。这些空间箱子大小与图像大小成比例,所以箱子的数量是固定的,无论图像的大小,使SPP [39,40]不仅改善网络性能,而且大大减少所需的计算时间,避免反复计算卷积特性。

通过使用SPP层,功能更丰富的图像信息,同时也创造了巨大的改善网络的时间效率。因此,该技术显示了非凡的检测精度。

4所示。分析网络的

以下是我们提出的综合分析网络和改进YOLO模型基于意思实验测试的结果。(我)通过混淆矩阵的分析,我们发现什么样的样品检测性能更好的新网络,什么样的样品检测性能不好,以及如何区分容易混淆类别和理解网络的优点和缺点。(2)我们检查了新的网络模型的网络结构,如网络参数的数量的比较,并评估其性能。

4.1。混淆矩阵

通过混淆矩阵,分析了测试结果。混淆矩阵是一个列表的数据类;在每个类中,实际数据分类,这样我们可以观察到哪些类别的样本修改网络容易混淆。混淆矩阵,行代表的真实类别测试图像。测试图像的列显示类除以实际测试的网络。

在最初的帕斯卡VOC数据集,有20个类别的对象;一些代表性的类别,这很容易导致错误识别,选择。

表2是修改后的网络模型的混淆矩阵数据集2007年帕斯卡VOC。它可以注意到从表2飞机是错误地认为是一只鸟,和原样本属于鸟被认为是飞机。原因是整体形状太相似:飞机有两个翅膀,那么鸟;飞机的体型非常类似于一只鸟;因此,结果表明,22%的飞机误认为是鸟类,和36%的鸟类被错误地认定为飞机。此外,椅子和沙发也相对容易导致错误识别,因为在现实生活中很容易区分的椅子和沙发,但在椅子和沙发图片很容易出现相同的,会导致小姐很容易识别。同样适用于绵羊、马、狗、猫。

从表2,可以看出总体平均作品点出率不是太高,表明网络中提取特征的整体能力和检测图像中目标对象是相对可靠的。

4.2。网络体系结构

这里,提出网络体系结构。在进入细节之前,请注意,第一和第二层次是相同的:都是卷积层+ downsampling层结构;第三和第四层是相同的:都是《盗梦空间》+池结构;第五和第六层都是一样的:都是卷积级联结构;第七层空间金字塔池层;和第八和第九层是完全连接层。

第一层,假设输入是一个图像,r图像的行数,是图像的列数的第一层网络输入,和滑步是年代₁;获得的计算成本特性映射方程所示:

计算面积卷积内核区域的大小,所以的结果(4),然后我们假设第一层特征图,所以第一层的计算

卷积和的大小特征映射后将成为

接下来是最大downsampling层;自从downsampling层不会改变特征图的数量,数量特征图的等于号以前的特征图谱。假设将采样窗口的大小的大小特征映射将采样后得到

计算的总数特征图将变得

以下是卷积第二层,假设的数量特征

计算的上层功能映射为卷积操作将如下。

假设最大将采样的输出层第二层的特点是将采样窗口的大小和步长 ,计算总额的层可以通过相同的方式。

从上面可以看出,输出特性MaxPool2大小。在初始结构、计算步长为1,从左到右。第三层的初始结构模型如图3和数学上所示

因此,《盗梦空间》的整个计算四层可以在上面的方式完成。下一个是卷积的第五层,总计算

自第六层和第五层具有相同的结构,计算是一样的(13)。

第七层是金字塔层,用l,在那里n= 1,2,…,l .金字塔层的计算量

第八层是完全连接。假设输入特征的数量 ,和输出特性的数量。因为前一层的输入层,它将处理后的所有特性收集地图的矢量,所以是

因为完整连接层是源于原始的神经网络,计算方法是一样的神经网络,所以层的计算成本

从上面的描述网络体系结构的分析,可以看出网络的整体计算,输入层图像大小,卷积核大小、和卷积层的数量,显示网络深度和宽度有很大的影响。

5。实验

帕斯卡VOC分为两个数据集:2007年帕斯卡VOC和帕斯卡VOC 2012数据集。两个数据集上的新设计的网络测试(41]。帕斯卡VOC数据集包含20个类别:人,鸟,猫,牛,马,羊,飞机,自行车,自行车,公共汽车,汽车,摩托车,火车,瓶子,椅子,餐桌,盆栽植物,沙发,电视监视器。数据4和5显示了示例图像。

(一)

(b)

(c)

(d)

(e)

(f)

(一)

(b)

(c)

(d)

(e)

(f)

整个实验过程是在NVIDIA GeForce 1060 GTX GPU上进行使用Ubuntu操作系统。迭代的数量是40000。

5.1。结果与讨论

讨论结果和网络性能检查使用t-SNE可视化工具,显示新的网络能够在多大程度上从图像中提取丰富的特性。

接下来,大量的样本特征的可视化在2 d使用t-SNE可视化工具,观察到高维映射到低维数据(42]。

图6显示选定的类别10帕斯卡VOC的数据集(鸟,椅子,沙发,自行车,飞机,马,羊,狗,猫,牛)使用t-SNE可视化工具;在图中,不同的颜色代表不同的类型;如果融合这两种类型,这意味着这些类型很容易感到困惑。

大约有七大类相互不兼容,表明这七种的特征差异相对较大,相对容易识别;除了几种类型的部分集成,几种类型的特点有一定程度的相似,很容易导致错误识别。然而,总的来说,使用新的网络来提取特征非常有效且强劲,但也不够,需要进一步改善。改进后的网络测试于2007年帕斯卡VOC和2012年帕斯卡VOC,分别。结果如表所示3和4。


VOC 2007	修改后的YOLOv1	VOC 2007	修改后的YOLOv1

航空	77.9	表	51.2
自行车	77.6	狗	81.9
鸟	63.7	马	77.5
船	47.6	M-bike	78.7
瓶	44.8	人	68.6
公共汽车	70.7	植物	37.1
车	68.9	羊	71.8
猫	85.3	沙发	58.4
椅子	42.2	火车	71.0
牛	71.9	电视	64.6
平均识别率			65.6


VOC 2012	修改后的YOLOv1	VOC 2012	修改后的YOLOv1

航空	76.1	表	49.1
自行车	67.8	狗	80.3
鸟	58.0	马	72.7
船	39.9	M-bike	71.9
瓶	24.2	人	64.2
公共汽车	68.9	植物	29.0
车	57.6	羊	54.5
猫	82.5	沙发	55.2
椅子	36.3	火车	73.9
牛	61.1	电视	51.7
平均识别率			58.7

表中的数据3和4是用百分比表示。在上面的结果中,比较结果更一致,上述算法中使用的训练数据集火车/ val帕斯卡VOC 2007年和2012年帕斯卡VOC的数据集。中提供的数据表3和4测试结果为每个类20对象。我们的修改网络平均检出率是65.6%和58.7%在2007年和2012年帕斯卡VOC数据集。检查性能,我们比较我们的结果修改网络与R-CNN YOLOv1,表中描述5和62007年和2012年帕斯卡VOC,分别。表5显示了2007年帕斯卡VOC比较测试结果,并在表62012年帕斯卡VOC比较测试结果。


VOC 2007	R-CNN	YOLOv1	修改后的YOLOv1

航空	63.5	78年	77.9
自行车	66年	74.2	77.6
鸟	47.9	61.3	63.7
船	37.7	45.7	47.6
瓶	29.9	42.7	44.8
公共汽车	62.5	68.2	70.7
车	70.2	66.8	68.9
猫	60.2	80.2	85.3
椅子	32	40.6	42.2
牛	57.9	70年	71.9
表	47	49.8	51.2
狗	53.5	79年	81.9
马	60.1	74.5	77.5
M-bike	64.2	77.9	78.7
人	52.2	64年	68.6
植物	31.3	35.3	37.1
羊	55	67.9	71.8
沙发	50	55.7	58.4
火车	57.7	68.7	71年
电视	63年	62.6	64.6
平均识别率	53.1	63.4	65.6


VOC 2012	R-CNN	YOLOv1	修改后的YOLOv1

航空	68.1	77年	76.1
自行车	63.8	64.2	67.8
鸟	46.1	57.7	58
船	29.4	38.3	39.9
瓶	27.9	22.7	24.2
公共汽车	56.6	68.3	68.9
车	57	55.9	57.6
猫	65.9	81.4	82.5
椅子	26.5	36.2	36.3
牛	48.7	60.8	61.1
表	39.5	48.5	49.1
狗	66.2	77.2	80.3
马	57.3	72.3	72.7
M-bike	65.4	71.3	71.9
人	53.2	63.5	64.2
植物	26.2	28.9	29日
羊	54.5	52.2	54.5
沙发	38.1	54.8	55.2
火车	50.6	73.9	73.9
电视	51.6	50.8	51.7
平均识别率	49.6	57.9	58.7

从表可以看出,我们的修改模型改进了识别YOLOv1和R-CNN模型几乎在每一个类型。表7描绘了一个图像的处理时间的三种不同的网络,R-CNN, YOLOv1,和我们改进YOLO,意思为测试相同的形象。R-CNN网络的时间是6.9秒,YOLO网络需要0.14秒,意思和我们的模型需要0.11秒。数据7和8显示测试结果在2007年帕斯卡VOC和帕斯卡VOC 2012数据集图像41]。


设备	R-CNN (s)	YOLOv1 (s)	修改后的YOLOv1 (s)

GPU时间/形象	6.9	0.14	0.11

从测试结果,提高网络的鲁棒性是注意到;它将每个类准确、检测所需的类。

6。结论

在本文中,我们提出了YOLOv1基于神经网络的目标检测通过修改损失函数和空间金字塔池层和《盗梦空间》模块添加卷积核的11。新的网络是一个端到端的方法,训练和挑战帕斯卡VOC的广泛的实验数据集,2007/2012,显示改进的新网络的有效性,分别检测结果是65.6%和58.7%。的结果提出网络已经与R-CNN和YOLOv1相比,从演示了该方法的有效性。

在未来,我们希望进一步扩展我们的工作让自己的基准数据集和混合小对象检测器检测。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关。

确认

这项工作是支持中国国家重点研发项目的一部分在格兰特2018 yfc0831404和中国国家电网公司科技项目“基于知识发现的关键技术研究ICT系统故障分析和辅助决策”。

引用

答:女子,a·库马尔和通用萨拉斯瓦特,“目标识别和图像分类特征提取,”国际工程研究与技术杂志》(IJERT),2卷,第0181 - 2278页,2013年。视图:谷歌学术搜索
l . j .严z Lei温,s . z,“最快的可变形模型对象检测一部分,”《IEEE计算机视觉与模式识别会议,页2497 - 2504,纽约,纽约,美国,2014年。视图:谷歌学术搜索
t·迪恩·m·a . Ruzon m·西格尔j . Shlens s Vijayanarasimhan和j . Yagnik”100000年的快速、准确检测对象类在同一台计算机上,”《IEEE计算机视觉与模式识别会议,页1814 - 1821,纽约,纽约,美国,2013年。视图:谷歌学术搜索
p .中提琴和m·j·琼斯,“健壮的实时人脸检测,”国际计算机视觉杂志》上卷,57号2、137 - 154年,2004页。视图:出版商的网站|谷歌学术搜索
C.-J。杜,周宏儒。他和D.-W。太阳,“对象分类方法”计算机视觉技术在食品质量评估爱思唯尔,页87 - 110年,柏林,德国,2016年。视图:谷歌学术搜索
k·w·埃里克·李Yueping:哲,Y Juntao l . Zuodong和z,”深度融合特性基于高分辨率光学遥感图像目标检测方法,”应用科学,34卷,2019年。视图:谷歌学术搜索
d·g·劳”独特的形象特征尺度不变的要点,国际计算机视觉杂志》上,60卷,不。2、91 - 110年,2004页。视图:出版商的网站|谷歌学术搜索
n .中间人和b区格”的梯度直方图的人体检测,”Proceedigs国际会议计算机视觉与模式识别(CVPR ' 05),页886 - 893年,柏林,德国,2005年。视图:谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”《IEEE计算机视觉与模式识别会议拉斯维加斯素食,页779 - 788年,NV,美国,2016年。视图:谷歌学术搜索
y郑,c .朱k并(c . Bhagavatula, t·h·n·勒和m . Savvides”向深度学习框架,没有约束的人脸检测,”《2016年IEEE BiometricsTheory第八届国际会议上,应用程序和系统(bta)IEEE,页1 - 8,纽约,纽约,美国,2016年。视图:谷歌学术搜索
r . Girshick j·多纳休、t·达雷尔和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《IEEE计算机视觉与模式识别会议,页580 - 587,纽约,纽约,美国,2014年。视图:谷歌学术搜索
在r . Girshick“快速r-cnn。《IEEE计算机视觉国际会议,页1440 - 1448年,柏林,德国,2015年。视图:谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“单镜头multibox探测器,”欧洲计算机视觉卷,45 21-37,2016页。视图:谷歌学术搜索
T。林易,p .美元,r . b . Girshick et al .,“特性为目标检测金字塔网络,”IEEE CVPR,43卷,第944 - 936页,2017年。视图:谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“SSD:单发射击multibox探测器,“电脑Vision-ECCV 2016,43卷,21-37,2016页。视图:出版商的网站|谷歌学术搜索
彭译葶。Ranga傅w·刘,a, a . Tyagi c·亚历山大和c . Berg DSSD: Deconvolutional单探测器,“相关系数,45卷,2017年。视图:谷歌学术搜索
m·林问:陈,美国严,“网络网络,”2013年。视图:谷歌学术搜索
,的j。施密德胡贝尔表示“深度学习神经网络:概述”,神经网络卷,61年,第117 - 85页,2015年。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快r-cnn:对与地区建议网络实时目标检测,”先进的神经信息处理系统卷,61年,第99 - 91页,2015年。视图:谷歌学术搜索
x z曾庆红,j·张,王,“识别的概述视觉的角度来看,“应用科学15卷,2018。视图:谷歌学术搜索
x湾”,跨语言的比较研究情绪分类,”学报2012年IEEE /每各月ACM国际联合会议网络智能和智能代理技术,1卷,页24-31,澳门,中国,2012。视图:谷歌学术搜索
顾j . c .局域网,“联合行人通过语义关系学习和身体部位检测应用,”机器学习研究杂志》上,9卷,2019年。视图:谷歌学术搜索
j·r·r·Uijlings k·e·a . van de Sande t . Gevers和a . w . m . Smeulders“选择性搜索对象识别,”国际计算机视觉杂志》上,卷104,不。2、154 - 171年,2013页。视图:出版商的网站|谷歌学术搜索
a . Humayun f·李,j . m . r . i g·o·r·Rehg“重用推理在削减图表生成对象地区,”程序的计算机视觉和模式识别哥伦布,页336 - 343年,橙汁,美国,2014年6月。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深cnn,”诉讼进展的神经信息处理系统太浩湖,页1097 - 1105年,NV,美国,2012年12月。视图:谷歌学术搜索
b·李,张t, t·夏”车辆检测使用完全卷积网络,从3 d激光雷达”2016。视图:谷歌学术搜索
吴z, y,潘安,y,“车辆类型分类使用semisupervised卷积神经网络”IEEE智能交通系统,16卷,不。4、2247 - 2256年,2015页。视图:出版商的网站|谷歌学术搜索
美国x Chen, C.-L。刘和学术界。锅,“卫星图像的车辆检测混合卷积神经网络,”IEEE地球科学和遥感信,11卷,不。10日,1797 - 1801年,2014页。视图:谷歌学术搜索
陈x”,卫星图像的车辆检测平行深卷积神经网络,”学报》2013年第2 IAPR亚洲会议模式识别(ACPR),45卷,页181 - 185,纽约,纽约,美国,2013年。视图:谷歌学术搜索
Y.-K。公园,j。公园,我。,D.-J。康,“卷积神经网络系统车辆前端检测。”协会杂志》上的控制,机器人技术和系统,21卷,不。11日,第1016 - 1008页,2015年。视图:出版商的网站|谷歌学术搜索
j . Redmon和a·哈蒂”Yolo9000:更好,更快,更强”,2016年。视图:谷歌学术搜索
y . h . Wang Cai, l·陈,“车辆检测算法基于深层信念网络,”科学世界日报,2014卷,2014年。视图:谷歌学术搜索
k金,李,J.-Y。金、m . Kim和周宏儒。柳”,一个可配置的异构多核体系结构与细胞神经网络realtimeobject识别,”IEEE电路和系统视频技术,19卷,不。11日,第1622 - 1612页,2009年。视图:谷歌学术搜索
n . Sudha A·r·莫汉和p·k·默赫,“self-configurable收缩期架构基于主成分神经网络的人脸识别系统,”IEEE电路和系统视频技术,21卷,不。8,1071 - 1084年,2011页。视图:出版商的网站|谷歌学术搜索
他k,“空间金字塔池深卷积网络视觉识别,”IEEE模式分析与机器智能37卷,第1916 - 1904页,2014年。视图:谷歌学术搜索
T。林易,p . Goyal r . b . Girshick k .他和p .美元,“焦损失密集的对象检测,”IEEE ICCV,43卷,第3007 - 2999页,2017年。视图:谷歌学术搜索
J刘,m·沙阿b Kuipers,和s Savarese“Cross-view行动识别通过知识转移,”2011年CVPR学报》上科罗拉多斯普林斯,页3209 - 3216年,有限公司,2011年6月美国。视图:谷歌学术搜索
s . c . l . Wu海下,n . Yu”Semantics-preserving bag-of-words模型和应用程序,”IEEE事务图像处理,19卷,第1920 - 1908页,2010年。视图:谷歌学术搜索
在r . Girshick”Fasr r-cnn。《IEEE计算机视觉国际会议,页1440 - 1448,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
美国Lazebnik、c·施密德和j·庞塞”外袋特征:空间金字塔匹配识别自然场景分类,“CVPR,45卷,2006年。视图:谷歌学术搜索
m . Everingham l . Van干傻事,c·k·威廉姆斯,j·韦恩,和a . Zisserman“帕斯卡的视觉对象类(voc)的挑战,”国际计算机视觉杂志》上,卷88,不。2、303 - 338年,2010页。视图:出版商的网站|谷歌学术搜索
l . Maaten和g .辛顿机器学习研究杂志》上9卷,第2605 - 2579页,2008年。

科学的规划