文摘
进一步提高健美操动作检测的准确性,健美操动作检测的方法提出了基于改进的多尺度特征。在这种方法中,基于快R-CNN,针对存在的问题在R-CNN更快,功能金字塔网络红外系统)用于提取图像健美操动作特性。因此,底层可以提取图像语义信息,并且它可以转化成高分辨率的深层语义信息。最后,目标探测器是由above-extracted锚点,实现健美操动作的检测。结果表明,损失函数的神经网络是减少到0.2通过使用该方法,以及该方法的准确性可达96.5%,与其他方法相比,这证明了本研究的可行性。
1。相关工作
对象检测、当前研究领域的一个重要组成部分的计算机视觉技术,主要检测对象在图像或视频。它集成了多种技术,如人工智能,和图像识别。因此,广泛应用于国防、军事、和其他领域1- - - - - -5]。传统的目标检测是主要用于简单的动作场面。但幕后在复杂环境中是当前讨论的焦点。目标检测的一种新方法在当前复杂的场景,深层神经网络可以实现功能转换以其强大的特征提取能力。可以看出,对象跟踪是更好的实现。
在先前的研究中,他等人结合深层神经网络检测小布朗对象目标。结果表明,小目标对象可以准确地检测到深层神经网络和精度可以达到98.46%6]。郑等人提出了一种多尺度特征融合方法闭塞等目标检测的问题。在这种方法中,构造特色频道基于方向梯度,和特性获得的上述特性频道作为输入的神经网络来检测目标(3]。燕等人还提出使用神经网络简化和检测小目标对象,但它主要是设计主干网络的深层神经网络(7]。峰等人提出了一种多尺度特征提取方法来跟踪目标在光学遥感图像。结果表明,该方法可以快速检测图像(8]。以上相关研究工作的基础上,本研究以健美操动作检测为研究对象。健美操动作的方法检测提出了基于多尺度特性,并验证该方法。
2。快R-CNN模型
越快R-CNN算法提出的任Shaoqing闻名高效的检测,和其他学者提出了一种改进的算法基于R-CNN算法越快。更快的实现过程如图R-CNN算法1(9,10]。
从图可以看出1首先,卷积神经网络用于提取图像的特性测试。然后,网络(RPN)是由使用候选区域处理功能地图,和多个目标候选人地区也确定了。最后,分类回归网络是用于制造的判断,和候选区域内的特征筛选;因此,判断值的输出。
2.1。ResNet深功能网络
ResNet - 101网络是一个重要的版本的ResNet深功能网络系列。深的层,可以提取更深层次的功能目标,实现有效地表达目标不会引起延迟的影响网络训练,网络测试,和其他进程。有一块残余resnet - 101网络(11)如图2。
在剩余块如图2,1×1卷积层能够调整渠道特性映射的数量,和3×3卷积层能够提取特征信息。深resnet - 101网络可以通过叠加建立更残块。ResNet卷积架构的优点是,它能够大大提高卷积神经网络的层数来提取图像中的深层语义信息,最终准确地表达被探测到的目标。
ReLU ZF-Net函数作为激活函数,取代了传统的s形的函数,进一步加强深度学习神经网络的应用程序的性能12- - - - - -14]。乙状结肠函数能够连续变量值的输入映射到部分0 - 1。然而,如果输入变量值非常小或大,乙状结肠的导数函数往往是0,这使得梯度消失在反向传播,使得网络难以学习。ReLU函数有效地避免上述缺陷,及其数学表达式如下(15]:
2.2。候选人地区一代网络
全面分析了颜色、纹理、边缘在图像和其他信息,并选择候选区域目标进行测试,这一过程实际上是大致检测出目标测试,这样可以减少后续分类网络的压力。
候选人地区一代网络选择和使用的快R-CNN算法是一个卷积神经网络,如下所示。
与的结合图分析3首先,滑动的滑动窗口遍历特性映射,映射路径的特性在每个位置成一个256维的特征向量;然后,每个特征向量是两个完全连接层,输出2×9 = 18分数和4×9 = 36校正参数,分别。每个滑动窗口的位置包含9基准矩形框,用于正确的基准矩形后获得36校正参数,导致9候选区域。此外,18个分数描述候选区域的得分结果,每个对应两个分数,代表包含和不包含目标的概率在候选区域进行测试。
一个基准矩形被使用四个校正参数修正 获得候选区域,被列为校正公式
的公式, 和 代表中心横向协调,协调中心,宽度,高度的候选区域,分别和基准的矩形框。
多任务损失函数引用R-CNN算法的速度越快,所述如下(16]:
损失函数公式,分类如下:
绑定回归损失函数如下:
从公式,更快R-CNN训练的目的是尽量减少损失函数 ,最小化的 。目标面具也将满足应用需求。
的公式, 横坐标代表中心,中心协调,宽度和高度目标标签的盒子。
2.3。池的空间金字塔原则
空间金字塔池(SPP)可以映射地方特色和融合不同的空间维度的优势能力生成固定大小的特征向量和提高卷积神经网络结构的适应性。SPP的工作原理如图4。
分析与图4SPP包含多个尺度池层,可以适用于任何规模的卷积层特性,最后输出固定维特征向量。
3所示。方法的改进
越快R-CNN算法还有待提高在处理多尺度问题,介绍了功能的金字塔网络红外系统)越快R-CNN框架。改进后的算法框架如下所示图5。
结合图分析5,通过使用ResNet原始图像特征提取。考虑到几层在ResNet输出相同大小的特征图,比较分析发现,Conv1占用太多内存的功能图。所以,只有输出的Conv2∼Conv5非线性激活后用作参考特征映射为当前阶段;然后,Conv2-Conv5得到[17]。
锚的正面和负面的标签设置基于当前锚交叉比率(借据)目标的实际位置训练的RPN网络。修改后的RPN网络幻灯片的红外系统网络的网络各级主管确定区域位置可能包含目标进行测试,和改进的RPN网络保持一个高水平的参数共享。
改进的低级特征的红外系统地图特征金字塔有高分辨率的特点,可以提取深层语义信息,并能实现精确检索的多尺度和小目标。
3.1。红外系统多尺度特性
在多尺度目标探测红外系统网络的优势将其引入到R-CNN越快,可以进一步提高对多尺度模型适应性的目标,小目标探测的基础上维护模型检测的效率。红外系统网络能够接受任何尺寸的照片,在CNN卷积神经结构配置它们,并能更有效地提取特征图。根据每个卷积的CNN,层的需求特性图分别对应比例的大小然后输出,因此建立金字塔特征图。所示,红外系统网络能够输出特性不同尺度的地图和地图在不同层集成特性。这个函数的实现过程是红外系统网络第一排序所有层的特征图谱CNN网络,然后放大更深的长度和宽度特征映射到原来的2倍,并添加相应的浅层的特征图谱,从而实现特征图谱之间的融合操作在不同的水平。这个操作之后,浅特性映射包含深层语义信息和高分辨率的比例,从而提高检测精度的多尺度目标。
3.2。CNN的多尺度多人健美操动作的目标检测算法
以上优化处理后,最后建立了多尺度的RPN可以准确地提取多尺度roi以及多尺度人类目标。
3.2.1之上。从多尺度的RPN roi提取
使用红外系统的RPN阶段能够提取多尺度候选区域roi。在红外系统的不同层次,从滑动锚点提取roi,分数和回归确定每个候选区域的位置。虽然改进的RPN阶段包含多层特征图,不需要单独提取roi。相反,池锚层在同一组,获得更高的得分地区被选为roi。在这个过程中损失函数引用是指(18]
的公式,我指的是序列号的锚在小训练一批,是指的总损失函数的RPN阶段,预测的概率是我锚作为目标,是一项预测阶段,是真正的边界框的位置目标,使用区分正面和负面的锚,显示一个小批量的大小的训练,是锚的数量,作为平衡参数是回归损失函数使用哪一个的损失。
考虑到特征图谱在红外系统的每一层都有不同的尺度,本节只使用single-scale锚,这样可以使多尺度目标探测效果的提高。
使用借据作为分类基础上,定位包含两类为积极的和消极的锚。然而,如果只有小规模的目标图像和小规模的目标的数量很小,正面和负面的锚的比例获得基于RPN网络太大,这意味着提取背景语义信息过于丰富,但是影响特征提取前景目标,影响和目标探测器获得的前景目标识别效果并不理想。为了避免这个问题,有必要合理限制比例数量的RPN阶段中产生的积极的和消极的锚,以防止干扰目标探测效果由于太大比例。
本文研究健美操动作对象检测的问题。结合健美操动作的形态特征,设置锚长宽比在1:2、1:2、1:1,2:1和1:3,也可以维护的检测效率和检测效果健美操动作的神经网络的目标。
3.2.2。多尺度健美操动作目标检测器
健美操动作目标探测网络使用红外系统特性金字塔健美操动作的特征提取的目标。实现过程是根据高校的规模输出项,对应相应的金字塔层的特性,然后提取目标特征。深特征图提取红外系统阶段,它只需要提取目标特征图使用固定大小的ROI池,然后将提取的特征输入快速R-CNN目标检测器。目标探测器前面有2个完整的连接层评估目标的信心而执行目标地区的回归分析。这个过程的损失函数是下面列出的方程(19,20.]:
的公式,l2代表第二阶段目标探测的总损失函数,代表了分类损失,代表着顺利l1回归损失函数, 代表等级指标函数,u代表真正的目标类别,p代表的信心水平预测目标,和代表相应的预测边界框u类别和真正的边界框的位置分别为和代表着平衡参数。
先前的研究是进行目标探测器在快速R-CNN阶段共享参数是否在不同的红外系统层,确认不同层之间的差异很小。因此,本文决定分享不同层之间的权重特性金字塔层次结构,这样可以有效地提高目标探测效率。
4所示。实验分析
4.1。实验环境和数据集
这个实验使用Ubuntu 16.04版本的Linux系统,条件Intel@Xeon@和服务器配置(电子邮件保护)GHz, NVIDIA GeForceGTX 1080 Ti, 32 GB的内存。在这个实验中使用的深度学习框架是TensorFlow-GPU 1.10,这是配备cuDNN 6.0, CUDA 8.0和有一个Anaconda3版本的Python库以及Python 3.5。
满足目标探测的需要的健美操运动,健美操动作的实验装备主要通过收集。
4.2。培训结果和分析
这个实验选择更快R-CNN模型和使用各种红外系统的特征映射层探测人类的目标,为了实现多尺度目标探测的效果。为了实现目标,积极和消极的数量比锚的RPN是有限的在这个实验中,以防止干扰人体目标检测效果由于太大的比例。结合人体的形态特征,调整锚长宽比,和一个3:1比例规模增加了,可以更准确地识别人类的目标。这种改善后,配合法国2009年宠物,和加州理工学院,三个标准数据集,健美操动作可以有效地检测出目标。
上面的数据集作为一个例子,TensorBoard工具是用来证明神经网络的训练过程,具体如下:
首先,可视化的结果特征图的每一层红外系统网络图所示6。
(一)
(b)
图7(一)显示特性映射的输出层2 - 5的特征提取网络,与层地图C2-C5从下到上;图7 (b)显示特性映射的输出层获得红外系统的引入后,2 - 5层P2-P5从下到上。相比之下,尽管C5层和P5层中包含语义信息特征图谱基本上是相似的,有一个大C2层中包含的语义信息差距和P2层特征图。
(一)
(b)
(c)
(d)
原始图像被输入到RPN网络,以及RPN网络检测候选区域roi和每个候选人得分区域roi。红外系统金字塔架构的介绍后,four-scale特征地图输出的RPN阶段,相应的四层,roi的数量每一层的输出如图7。
在图7,roi的数量P2∼P5层显示红外系统,分别的低层特征图谱的roi数量明显大于的roi高层特征图。加州理工学院的原因是数据集用于培训包含大量的小规模的目标,而大规模的目标的数量大大减少,它会干扰人体目标检测。
变化趋势的各种损失函数值的改进的RPN阶段如图8。
为分析结合图8,损失函数项的值波动随着训练的迭代的数量增加,但总体趋势仍是减少,全损的RPN值阶段从0.12降低到0.02。因此,看到的是训练有素的roi区域表明网络可以准确地提取人类目标候选区域roi)车型进入到第二阶段快速R-CNN目标检测框架,然后输出two-loss值,即边界框回归和分类损失损失,与趋势如图9。
(一)
(b)
(c)
为分析结合图9训练迭代数量的增加,这三个曲线显示了一些波动,但总体趋势下降,快速R-CNN阶段的总损失价值从0.9降低到0.2。可以看出,目标探测网络的能力来检测人类目标逐步安装在数据集用于培训。
的趋势总体损失函数值的整个神经网络概述了试验数据,如图10。
结合图11迭代训练数量的增加,整个神经网络的总体损失值从1.7降低到0.8,这表明经过训练的神经网络可以更准确地检测健美操运动的目标。
规避过度拟合训练期间,这个实验有限的重量衰减,即保持负相关的更新权值神经网络在训练的训练迭代次数,根据该更新权重的趋势如图11下图:
结合图11训练的迭代次数的增加,更新后的重量减少从0.627到0.581。
4.3。实验结果的比较
基线R-CNN比较快。同时,平均精度作为算法性能(美联社)评价指标,与AP值等于公关曲线的较低的区域。从应用程序的角度效应,通过结合precision-recall日记不同阈值条件下,目标探测精度的综合指数据美联社,可以客观、全面地评估算法的检测精度。基线的平均精度AP值R-CNN更快,CNN, R-CNN,面具R-CNN,本文总结在图的方法12。
根据图12,平均精度基线R-CNN更快的AP值是90.7%,该算法的平均精度AP值是96.5%,91.1%,88.6%。通过比较,本文的方法是基于R-CNN更快。对象特征提取采用红外系统,结合相关优化算法来实现更高的地面检测准确性普遍和显著优于检测基线更快R-CNN模型的准确性。
5。结论
总之,很难适应多尺度的检测需求和小目标应用程序场景在健美操动作的过程中目标探测。因此,本文提出一种多尺度和多目标健美操动作的目标检测算法基于CNN网络架构。引入后的两级目标检测框架更快R-CNN模型,系统地分析过程中使用ResNet深主要网络提取目标特征提取和利用多尺度的过程通过使用红外系统网络。金字塔红外系统的特点是融合的两个阶段分别快R-CNN框架构建一个多尺度的RPN建议网络以及多尺度健美操动作目标检测器集的数量正负锚合理有利于提高健美操动作的探测效率目标的算法。限制锚的垂直和水平比科学和优化整个神经网络可以提高多尺度的检测效果和多人健美操运动。最后,在本文中,基线更快R-CNN方法分别用于比较实验。最后,确认基线R-CNN更快,这个方法在论文中可以获得更好的检测结果。本研究的创新是确定健美操运动从目标探测和识别的角度,以提供更多的参考路径运动的辅助训练。
数据可用性
数据可从相应的作者。
的利益冲突
作者宣称没有利益冲突的这方面的工作。