基于深度学习的鱼类检测

摘要

最近，人类的好奇心已经从陆地扩展到了天空和海洋。除了送人去探索海洋和外太空，机器人还被设计用于一些对生物危险的任务。以海洋探险为例。关于自主水下航行器(AUV)的设计有很多项目或竞赛，引起了人们的广泛关注。本文作者从之前的一个AUV设计项目中了解到平台升级的必要性，并希望分享在鱼类检测领域的一个任务扩展的经验。因为大多数嵌入式系统已经被快速发展的计算和传感技术所改进，这使得它们有可能加入越来越复杂的算法。在水下机器人中，传感器获取周围信息后，如何感知和分析相应的信息以更好地进行判断是水下机器人面临的挑战之一。处理过程可以模仿人类的学习习惯。一个具有更强计算能力的先进系统可以促进深度学习特性，利用许多神经网络算法来模拟人类大脑。提出了一种基于卷积神经网络(CNN)的鱼类检测方法。 The training data set was collected from the Gulf of Mexico by a digital camera. To fit into this unique need, three optimization approaches were applied to the CNN: data augmentation, network simplification, and training process speed up. Data augmentation transformation provided more learning samples; the network was simplified to accommodate the artificial neural network; the training process speed up is introduced to make the training process more time efficient. Experimental results showed that the proposed model is promising, and has the potential to be extended to other underwear objects.

1.介绍

海洋充满了神秘，水下探测一直是一个令人兴奋的话题。如今，机器人技术已经被广泛地应用到我们的日常生活中。AUV是一种机器人，正受到越来越多的关注[1.,2.]它必须配备先进的车载计算机、惯性测量单元（IMU）和其他传感器，以支持预先编程的导航系统[1.]作者对AUV的设计和功能有经验[3.,4.)比赛。AUV，如图所示1.，具有基于i7的工业主板和ARM微控制器。详细介绍了硬件布局和机械平衡方案[3.,4.]．它通过了资格认证，成为2017年IEEE新加坡AUV挑战赛的11个决赛选手之一[5.]．这次比赛是在一个清澈的游泳池里举行的。这些任务不需要一个高分辨率的摄像头，所以主处理器不是高性能的。在这之后，AUV退出了比赛，作者意识到是时候修改系统，以克服现实生活中的任务。截至目前，大多数机器人控制平台正在转向片上系统(SOC) [6.,7.]．为了进一步发展并为AUV增加更多的功能，一个目标是从清澈的游泳池环境切换到真实的海水条件。因此，硬件必须升级到高分辨率的数码相机和强大的机载计算机，如NVIDIA JETSON AGX XAVIER开发板。因此，在对整个系统进行集成视觉升级之前，对计算机视觉模块进行了离线仿真研究。选取多种鱼类作为实验对象，建立训练和测试数据集。海水条件因地而异。在作者居住的墨西哥湾，水不像美国东海岸或西海岸那么清澈。因此，如何从模糊的海水中识别鱼类是本研究中最具挑战性的问题。其中一个解决方案是采用超声波技术[8.,9]．在某种程度上，它被证明是有效的渔业，粗略数量的鱼是足够的。然而，由于分辨率低，在混合鱼类、海龟等的复杂环境中很难区分物体。本研究的目的是研究通过水下机器人内置数码相机在真实海水下的目标检测方案。研究人员已经成功地采用数码相机作为从海洋中捕捉图像的工具，以改善水下机器人的视觉[10]，但该车是遥控操作的（ROV），而不是AUV。

2.文献综述

本研究的主要贡献是引入深度学习方法来完成模糊海水中鱼类的识别。结果表明，该方法通过一个适用的神经网络将计算机视觉引入水下机器人系统。

2．1．计算机视觉

计算机视觉使用带有成像传感器的计算机来模拟人类的视觉功能，这些功能从获得的数据集中提取特征，对其进行分析和分类，以帮助决策。它通常涉及许多领域的知识，如高级计算机编程、图像处理、人工智能（AI）等。例如，制造业使用它来检查缺陷或提高大量产品的质量[11,12]。在机场和其他安检点，人脸检测和情绪观察有成熟的应用[13–15].医生使用特定的诊断软件帮助从医学影像中识别肿瘤和其他异常组织[16]．农业工业采用计算机视觉决策系统预测田间产量[17]．谷歌正在设计自己的自动驾驶汽车，其视觉范围约为328英尺，汽车可以识别交通标志和避开行人[18]．许多先进的例子表明，计算机视觉正在改变我们的日常生活。为了提高性能，除了传统的图像处理技术外，模仿我们大脑的深度学习算法被广泛采用。

2.2.深入学习

用神经网络进行深度学习的概念在几十年前就出现了。它最初是由LeCun等人在1998年开发的[19]他使用卷积神经网络（CNN）设计了一个名为LeNet5的五层分类器.由于计算能力的显著提高和大数据的爆炸性增长，深度学习在过去几年中能够取得巨大的成就。深度学习是基于某个领域收集的大数据。从海量数据中学习资源非常重要。深度意味着神经网络有很多层可供imita使用刺激我们的大脑。随着高性能GPU、ASIC加速器、云存储和强大计算设备的出现，现在可以收集、管理和分析大数据集。因为只有数据集足够大，才能在深度学习中解决过度拟合的问题。而增强的计算能力可以加快tim的速度电子消费培训过程。

基于深度学习的方法越来越多地应用于许多领域，并且在计算机视觉和目标检测方面比传统算法具有显著优势。通过结合深度学习，许多机器人系统的性能得到了提高。以谷歌的AlphaGo为例，它研究了人类的学习行为，并在轮流和著名的围棋选手比赛[20]．

为了能够培养计算机视觉的深度学习，从事先收集的图像中获得足够的示例是至关重要的。ImageNet就是一个很好的例子[21]这项研究的一项贡献包括开发一个海水中鱼类的数据库，以支持训练和测试。然而，学习算法也很重要。传统的计算机视觉和图像处理方法对特征提取的准确性有一定的影响，而深度学习方法可以通过神经网络来提高该技术。

2.3.神经网络

在过去的几年里，神经网络在深度学习中越来越流行。2012年，研究人员Krizhevsky等人采用CNN完成ImageNet大规模视觉识别挑战中的图像分类[22,23，测试准确率明显高于传统算法。由于这一成果，人们对利用神经网络进行深度学习产生了浓厚的兴趣[24]．2014年，Ross等人提出了一种名为Fast R-CNN的算法，旨在将目标识别转化为回归问题[25]．与2012年ImageNet Large Scale Visual Recognition Challenge上53.3%的最佳结果相比，平均精度提高了近30%。每次提取图像中数千个不同大小的提案的特征，计算量非常大。由于Faster R-CNN大大减少了计算量，近年来被广泛应用于计算机视觉领域，包括目标检测、图像分类和目标识别。Facebook提出的YOLO也是相关研究的里程碑[26,27]．

3.材料和方法

本文提出了一种基于图像分割的CNN模型，用于模糊海水中的鱼类检测。专门的数据集被开发来支持这项研究。由于特定环境下的原始图像不足以满足训练目的，采用数据增强变换方案获取更多的学习资源。为了解决过拟合问题，采用了dropout算法。由于我们的目标是将该系统集成到需要实时应用的AUV中，因此讨论了一些权衡以减少处理时间。在这一节中，详细的系统设计与优化的方法是处理。

３．１．CNN架构

CNN模型通常由许多层组成，例如输入层、具有非线性单元的卷积层和完全连接层[28,29]图1显示了CNN的一个示例2.. 第一层是输入层，从外部世界接收图像信息作为学习资源。下面的层是卷积层，负责从图像中提取特征。卷积运算是一种常见的数学运算。方程中给出了两个离散函数的卷积公式(1.）：

该数据集由256级RGB彩色图像组成 × 下面的3个矩阵W0称为内核或过滤器。实际上，卷积运算分别在R、G和B通道上执行，然后将结果相加，以获得特征图中的每个元素，如图所示2.．

为了更准确地提取目标的特征，在每个卷积层中使用了大量的滤波器。例如，为了提取特征，如边缘、纹理等，相应的过滤器可用，如图所示3.．

在进行卷积运算时，需要考虑feature map的大小。有三个主要因素影响它的大小:深度、步幅和填充。数字4.演示了深度为3、步幅为1且填充为零的特征贴图。

对于一个复杂的神经网络，通常在两个相邻的层之间有两种类型的连接。分别为全连接层和局部连接神经层，如图所示5.对于完全连接的神经网络，输入层中的所有像素都与隐藏层中的每个神经元连接，如图所示5(一个)．CNN的最后两层是完全连接的层，这是很常见的。它们分别是softmax和输出层。因为大量的参数会增加计算量，延迟处理。对于局部连接的神经网络，如图所示，只有输入层的一部分像素与隐藏层的以下神经元相连5（b）．这种类型的连接将减少连接的数量，提高系统的运行速度。

（a）

（b）

CNN中的卷积层使用本地连接，如图所示6.．例如，feature map中的值8只与一个3 × 3矩阵相连[0,0,0;0 1 1;从输入图像中提取0,1,2]，与输入图像像素的其余部分无关。

表中列出了此CNN中所有层的完全或局部连接参数1.．


层	输入的大小	过滤器的大小	大步走	输出的大小

会议一		[7 × 7 × 3 × 64]	2.
Maxpool 1		[2 × 2]	2.
会议2		[3 × 3. × 32 × 192]	1.
Maxpool 2		[2 × 2]	2.
会议3		[3 × 3 × 128 × 256]	1.
会议4		[3 × 3 × 128 × 256]	1.
第五次会议		[1 × 1. × 256 × 256]	1.
第六次会议		[3 × 3. × 256 × 512]	1.
Maxpool 3		[2 × 2]	2.
会议7		[1 × 1. × 256 × 256]	1.
第八次会议		[1 × 1. × 256 × 256]	1.
会议9		[1 × 1. × 256 × 256]	1.
第10次会议		[1 × 1. × 256 × 256]	1.
第11次会议		[3 × 3. × 256 × 512]	1.
第12次会议		[3 × 3 × 512 × 512]	1.
第13次会议		[3 × 3 × 512 × 512]	1.
第14次会议		[3 × 3 × 512 × 512]	1.
第15次会议		[1 × 1. × 512 × 512]	1.
第16次会议		[3 × 3. × 512 × 1024]	1.
Maxpool 4		[2 × 2]	2.
第17次会议		[1 × 1. × 512 × 256]	1.
第18次会议		[3 × 3 × 256 × 1024]	1.
第19次会议		[1 × 1 × 1024 × 512]	1.
第20次会议		[3 × 3. × 512 × 1024]	1.
第21次会议		[3 × 3. × 512 × 1024]	1.
第22次会议		[3 × 3. × 1024 × 1024]	1.
第23次会议		[3 × 3. × 1024 × 1024]	2.
第24次会议		[3 × 3. × 1024 × 1024]	1.
完全conn.1		[1024 × 4]	多	(1×4096)
完全连接2	(1×4096)	[4096 × 7 × 7 × 30]	多	[7 × 7. × 30]

该系统可以可视化，并在图中进行简化7.．

３．２．使用ImageNET数据集进行系统验证

在将该系统应用到本研究开发的海洋鱼类数据集之前，作者从著名的ImageNet ILSVRC [21]通过对象分类进行系统验证测试。共有500幅图像，分为20类，从鱼类、珊瑚、海龟、青蛙、轮船等。这里所有的RGB图像都被重新缩放到448 × 448地面真实图像由人工操作LabelImg软件获得。每个图像被划分为7个网格 × 7个细胞。每个单元格将预测由1组成的两个边界框位置信息和类信息 × 1. × 30向量。该向量由对象中心坐标组成 ,宽度 ,身高的边界盒置信度得分和鱼的预测概率，如图所示8.．

为了预测图像的目标位置，目标显示在边界框中。地面真实值和预测值之间始终存在误差。损失函数用于测量由三部分组成的误差：坐标误差、（并集上的交点）IoU误差和类别误差。方程(2.)给出了损失函数的数学形式。

这里，IoU用于测量位置精度，如图所示9．

图像中的每个网格单元将预测包围对象的边界框，用于预测对象的定位和类别。此外，每个边界框都有一个置信度。置信度分数与对象的类别无关。它只是描述预测框实际包围真实对象的确定程度。

其中Pr(object)表示感兴趣对象的概率。如果网格单元格中有一个对象，Pr(对象)为1;否则，它是0。

损失函数通常为误差平方和形式，如下图所示[33]．它由定位误差、置信度误差和概率误差三部分组成。

在哪里 , 为物体中心的地面真坐标; , 为地面真实边界框的宽度和高度; , 为目标中心的预测坐标; , 是预测边界框的宽度和高度。上图10显示一组带有来自不同类的置信度值的输出。

3.3.真实海洋环境的地面实况准备

经过测试，CNN系统与完美的图像无噪声。下一步是建立我们自己的海洋鱼类数据集。因为很难从海龟、珊瑚等其他种类的物体上获得图像。在这部分的研究中，鱼是唯一要检测的对象。对于410张图像的采集，很多图像中有多个鱼，所以检测具有挑战性。同样的方法被选择来创建地面真像。而之前引入的所有参数保持不变，只是类信息由1 × 1 × 18向量组成，而不是1 × 1 × 30，这是因为类进行了reduce。数字11演示一个带有标签的图像示例。很明显，这个数据集与ImageNET的理想图像完全不同。

4.数据扩充

由于深度学习是基于大型训练数据集的，系统需要学习和建立识别知识，因此必须提供足够的数据作为学习资源来提取对象特征[34].缺少数据会带来拟合过度的问题。这些图像是在真实的水下环境中从墨西哥湾采集的，将用于吸引物体的特征。但是，从特定环境中收集的原始图像数量不足以训练系统。因此，数据增强变换以几何方式执行，改变了像素位置，而图像特征保持不变，如图所示12.采用了四种类型的数据增强变换，使原始图像的数量增加了一倍，以使训练数据集足够。(1)旋转：以随机角度旋转图像；(2)缩放:根据设置的缩放因子将图像缩放成不同的尺寸;(3)裁剪：裁剪图像的补丁；(4)镜像对称：水平或垂直翻转原始图像。

4.1.退出算法

深度学习中最常见的问题之一是过拟合，即测试的准确率远远低于训练的准确率。在这种情况下，利用真实世界的训练数据建立具有高性能特征的模型。如果存在过拟合问题，则模型的鲁棒性值得考虑。除了缺乏学习数据，这也会导致过拟合问题，神经网络中大量的参数也会导致过拟合问题。因此，dropout算法[35]被引入系统以简化模型，如图所示5.．

辍学是指在学习过程中，我们根据概率设置暂时从网络中移除一些节点。实际上，某些特征只有在存在某些隐藏关系的情况下才能提取，这降低了深度学习模型的鲁棒性。另一方面，辍学移除了这些节点之间隐藏的固定关系在n个节点上，可以提高抗干扰能力，并在一定程度上解决过拟合问题。L1和L2正则化通过修改代价函数实现，而退出则通过修改神经网络本身来实现，这是训练网络时使用的一种技术。在训练过程的每次迭代中，作者随机删除一些神经元，并为网络的每一层设置消除神经网络中节点的概率。例如，该值设置为0.5，如图所示13在左边。首先丢弃神经元，然后去除节点间的连接，最后得到节点数较少、规模较小的网络。本次训练的网络结构将简化为如图所示13在右边。

4．2．精炼损失函数

YOLO改进的方程损失函数(4.)及(5.), [26]．三个系数按其对损失的贡献比例放置在误差项之前。如公式(5.)，前两个术语与已识别对象的坐标有关和表示对象的位置，而和参考边界框的宽度和高度。为了在前两项中增加权重，被指定为最大的数字，其值为5。因此，定位误差的权重得到增强。在IoU误差计算方面，当对象中心落在该单元中时，应增加IoU误差的权重，以便准确预测位置。的值设置为0.5以细化IoU错误。对于相同的误差值，大目标误差对检测的影响应小于小目标误差对检测的影响。这是因为相同偏差占大对象的比例远小于相同偏差占小对象的比例。因此，由于较大的对象IoU错误，应该增加对损失的贡献。选择宽度和高度的平方根来代替它们原来的形状。对于相同的偏差值，大方框的平方根误差小于小方框的平方根误差。

在本文中，作者对损失函数进行了改进，使其适合于多个fish应用。对建议的损失函数进行正则化，以减少小数据集和过拟合问题，L2正则化是在方程中列出的代价函数之后添加正则化函数(6.)及(7.)．

最后一项是L2正则化项，它是所有参数的平方和 ,除以样本量训练集的。是正则项的系数，它衡量正则项和其他项的比例。还有一个系数1/2，经常会看到1/2，主要是为了方便后者的结果，后者会产生一个2，乘以刚刚四舍五入的1/2。L2减少过度拟合的原理和过程在参考文献[31]．

5.结果和讨论

实验实现基于公开可用的Tensorflow工具箱和Python语言编程。硬件平台是基于4G内存的GeForce GTX 745 GPU。采用上述三种判据进行了实验，分别比较了性能、训练损失和测试损失。

5.1.数据扩充的实验结果

通过采用数据增强转换方法，图像的数量增加了一倍，这意味着这种方法可以帮助机器更准确地学习特征。我们使用测试数据集评估我们的模型。结果表明，通过数据增强，机器可以比结果更准确地识别感兴趣的对象在不增加数据的情况下，实验结果如图所示14．

从数字14，很明显，图像中的鱼被准确地识别出来;三幅样本图像的平均置信度分别为0.568、0.65和0.59。

从数字15，观察到所提出的神经网络模型使用原始数据的最终训练损失为0.35，而使用数据增广的最终训练损失为0.46。这清楚地说明了数据增强变换对于减少训练损耗有很大的帮助。

数字16说明了随着迭代次数的增加，训练的损失。迭代次数设置为0到600。训练损失和测试损失的差值分别从1.6减少到0.46和0.35。在很大程度上解决了过拟合问题。

5.2。Dropout实验结果

在这个测试中，隐藏层中的神经元被随机选取，从这个网络中移除。在此基础上，得到了一个简化的深度神经网络。数字17结果表明，该方法大大提高了每幅样本图像的平均置信度，大大提高了辍学方法的识别效果。

dropout的训练损失如图所示18如我们所见，有辍学的情况下，最终的训练损失为0.28，没有辍学的情况下，最终的训练损失为0.35。辍学算法有助于减少训练损失。在这个特定的应用中，当辍学为0.85时，训练损失始终最小（图2）18)．

进行dropout approach后，我们可以从图中看到19时，训练损失与测试损失的差值从0.03降低到0.004。由于中途退出，训练损失和测试损失之间只有轻微的区别。在很大程度上解决了过拟合问题。因此，我们建立的模型是适用的。

5.3. 损失函数Om算法性能的实验结果

作者使用CNN模型进行图像分割，反向传播细化损失函数的梯度并更新网络中的参数。随着损失函数的细化，预测更加准确，如图所示20．

如图所示21，当迭代次数为575时，收敛。最终训练损失为0.18。然而，对于平方和损失函数，当迭代次数为650时，收敛点为0.27。

5.4。讨论

通过设计和优化选择，设计并仿真了基于深度学习的鱼类检测模块。该方法提高了精度，缩短了处理时间，在水下机器人上实现是很有前景的。Tensorflow工具箱和Python编程接口与当前的高级微控制器平台兼容。

6.结论

本文通过建立神经网络模型来实现鱼类检测。为提供足够的数据集支持训练过程，采用了数据增强方法。采用Dropout算法来解决过拟合问题。并对损失函数进行了优化，更新了网络内部的参数。通过这些方法，大大减少了训练时间和训练损失。总结本文的贡献:(1)建立包含真实模糊海水状况的数据集;(2)修正CNN中的loss function等参数，探索适用于鱼类检测的解决方案;(3)针对AUV设计的嵌入式系统，进行了各种可能的优化。

数据可用性

用于支持本研究结果的程序和图像数据可根据要求从通讯作者处获得。

的利益冲突

作者声明，他们在发表本文方面没有利益冲突。

致谢

这项工作是由美国国家科学基金会（NSF）资助的1332566、1827243和1411260。

工具书类

R. B. Wynn, V. A. I. Huvenne, T. P. Le Bas等人，“自动水下航行器(auv):它们对海洋地球科学进步的过去、现在和未来贡献”，海洋地质，第352卷，第451-468页，2014年。视图:出版商的网站|谷歌学者
M.Dinc和C.Hajiyev，“自动水下航行器导航系统的集成，”海洋工程与技术杂志第14卷第2期1, pp. 32-43, 2015。视图:出版商的网站|谷歌学者
王永强，“自主水下航行器(AUV)控制单元的设计”，自动化学报，vol . 32, no . 3, pp . 369 - 3722015年亚欧海湾西南部年度会议，第25-27页，ASEE海湾南部，圣安东尼奥，德克萨斯州，2015。视图:谷歌学者
萨乌奇，https://sauvc.org/#competition．
a . Cadena, P. Teran, G. Reyes, J. Lino, V. Yaselga, S. Vera，“一种用于benthis监测的混合自主水下航行器的开发”，在2018年第四届控制、自动化和机器人国际会议记录（ICCAR），第20-23页，IEEE，新西兰奥克兰，2018年。视图:出版商的网站|谷歌学者
M.Eichhorn、H.C.Woithe和U.Kremer，“水下机器人概念、机遇和项目的路径规划算法并行——技术实施”，载于2012年海洋-Yeosu，MTS/IEEE，韩国柳州，2012年。视图:出版商的网站|谷歌学者
H. Taka, T. Sasaki，和M. Wada，“利用卷积神经网络的渔业资源管理支持系统”，刊于第20届世界个人多媒体通信国际研讨会（WPMC）， pp. 442-447, IEEE，巴厘岛，印度尼西亚，2017。视图:出版商的网站|谷歌学者
J. Kim, H. Cho, J. Pyo, B Yu S-C Kim，“基于卷积神经网络的前视声纳图像代理车辆检测”，in海洋2016 MTS/IEEE蒙特雷，IEEE，加利福尼亚州，美国，2016年。视图:出版商的网站|谷歌学者
徐福林，丁克星，彭建军等，“水下机器人视觉对海洋小目标的实时检测方法”，年2018年海洋–MTS/IEEE神户技术海洋（OTO）日本神户，2018年。视图:出版商的网站|谷歌学者
钱建福，陈耀杰，韩耀庭等，“晶圆厂节能和制冷机优化的人工智能和大数据分析，以增强智能制造能力”，年2018年电子制造与设计合作研讨会论文集（eMDC），第1-4页，IEEE，台湾新竹，2018年。视图:谷歌学者
贾杰，“工业装配检测的机器视觉应用”2009第二届国际机器视觉会议论文集， pp. 172-176, IEEE，阿联酋迪拜，2009。视图:出版商的网站|谷歌学者
S.Biswas、Y.Wang和S.Cui，“使用对数gabor小波进行手术改变的人脸检测”，年第12届国际小波有源媒体技术与信息处理计算机会议论文集，第154-157页，IEEE，中国成都，2015年。视图:出版商的网站|谷歌学者
S.崔、O.Ekwonah和Y.Wang，“按键动力学中的情绪分析”，年2018信息、电子与通信工程国际会议(IECE2018)，第28-29页，DEStech出版物，中国北京，2018年。视图:谷歌学者
S.Cui，Y.Wang和O.Ekwonah，“用户身份验证上的击键动力学”，在第四届控制论国际会议(CYBCONF)，第5-7页，中国北京，2019年。视图:谷歌学者
Eman Abdel-Maksoud, Mohammed Elmogy和Rashid Al-Awadi，“基于混合聚类技术的脑肿瘤分割”，埃及信息学杂志开罗大学，第16卷，第1期，第71-812015页。视图:出版商的网站|谷歌学者
王玉兰，郑玉兰，“一种基于ugv的激光扫描器系统用于测量树木几何特征”，国立中山大学学报(自然科学版)2013年SPIE光电探测与成像国际研讨会论文集，第8905卷，SPIE，中国北京，2013年。视图:出版商的网站|谷歌学者
B. Marr，“Waymo -谷歌自动驾驶汽车的关键里程碑”，https://www.forbes.com/sites/bernardmarr/2018/09/21/key-milestones-of-waymo-googles-self-driving-cars/#3831b2965369．视图:谷歌学者
Y.LeCun、L.Bottou、Y.Bengio和P.Haffner，“基于梯度的学习应用于文档识别，”IEEE论文集，第86卷，第86期第11页，1998年。视图:谷歌学者
BBC新闻，“人工智能:谷歌的AlphaGo打败了围棋大师李世石”，2016。视图:谷歌学者
关于ImageNet,http://image-net.org/about-overview．
A. Krizhevsky, I. Sutskever，和G. E. Hinton，《基于深度卷积神经网络的图像网络分类》，神经信息处理系统的进展，第25卷，第1106-11142012页。视图:谷歌学者
邓，A.伯格，S.萨蒂什，苏H.苏，A.科斯拉和李F.李，“2012年ImageNet大规模视觉识别竞赛（ILSVRC2012），”http://www.imagenet.org/challenges/LSVRC/2012/．视图:谷歌学者
Z.-Q。赵平，郑s.t。Xu，和X. Wu，“基于深度学习的目标检测:综述，”神经网络与学习系统，第30卷，第11期，第3212-323219页。视图:出版商的网站|谷歌学者
R. Girshick, Fast R-CNN，在2015 IEEE计算机视觉国际会议(ICCV)， pp. 1440-1448, IEEE，圣地亚哥，智利，2015。视图:出版商的网站|谷歌学者
J.Redmon、S.Divvala、R.Girshick和A.Farhadi，“你只看一次：统一的实时目标检测”，在2016 IEEE计算机视觉与模式识别(CVPR)会议论文集，第779-788页，IEEE，美国内华达州拉斯维加斯，2016年。视图:出版商的网站|谷歌学者
彭文华，罗文华，冯国峰等，“基于高斯混合模型和YLO的变电站行人检测”，年2016第八届智能人机系统与控制论国际会议(IHMSC)，第562-565页，IEEE，中国杭州，2016年。视图:出版商的网站|谷歌学者
S. Hassairi, R. Ejbali，和M. Zaied，“一个深度卷积神经小波网络监督阿拉伯字母图像分类”2015年第15届智能系统设计与应用国际会议（ISDA），第207-212页，IEEE，摩洛哥马拉喀什，2015年。视图:出版商的网站|谷歌学者
D. Zhang, G. Kopanas, C. Desai, S. Chai, M. Piacentino，“融合流动和客观的无监督水下鱼类探测”，在2016 IEEE计算机视觉冬季应用研讨会(WACVW)， pp. 1-7, IEEE, Lake Placid, NY, USA, 2016。视图:出版商的网站|谷歌学者
用于识别的卷积神经网络，https://en.wikipedia.org/wiki/Kernel_ (image_processing)．
内核（图像处理），https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/．
深度学习和机器学习，https://ireneli.eu/2016/02/03/deep-learning-05-talk-about-convolutional-neural-network．
胡明明、杨耀荣、沈福荣、张磊、沈浩和李克强，“通过探索多方面和结构知识进行稳健的网络图像标注，”IEEE图像处理汇刊，第26卷，第10期，第4871-4884页，2017年。视图:出版商的网站|谷歌学者
J.Gaya、L.T.Gonçalves、A.Duarte、B.Zanchetta、P.Drews和S.Botelho，“基于视觉的深度学习避障”，年2016第十三届拉丁美洲机器人研讨会和第四届巴西机器人研讨会(LARS/SBR)，第7-12页，IEEE，累西腓，巴西，2016年。视图:出版商的网站|谷歌学者
N. Srivastava, G. Hinton, a . Krizhevsky, I. Sutskever, R. Salakhutdinov，《Dropout:一种防止神经网络过度拟合的简单方法》，机器学习研究杂志，第15卷，1929-1958页，2014年。视图:谷歌学者

应用计算智能与软计算

摘要