文摘

解决高分辨率图像的压缩特性造成的损失在规范化阶段,一个自适应剪裁算法基于你只看一次(YOLO)意思对象检测算法的数据预处理和检测阶段。首先,高分辨率的训练数据集与自适应增强剪裁算法。然后,一个新的训练集生成保留对象的详细特性检测网络需要学习。网络检测过程中,通过自适应检测到图像块剪切算法,和检测结果合并的坐标位置的映射。最后,分块检测结果并置与全球检测结果和输出。改进YOLO算法进行实验比较意思这个算法与原算法测试集车辆的检测。实验结果表明,与原YOLO对象意思检测算法相比,算法的精度从79.5%上升到91.9%,召回从44.2%上升到82.5%,(电子邮件保护)从47.9%上升到89.6%。应用自适应车辆检测过程中剪裁算法有效地改善了传统的目标检测算法的性能。

1。介绍

随着社会经济的快速发展和城市化进程的加快,交通问题变得越来越严重(1]。有效的交通监测有助于解决日益严重的交通问题。一旦AI进入议程在国家层面上,智能交通系统将成为发展趋势(2- - - - - -4]。无人飞机运输领域具有广阔的应用前景,以及无人机配备高清摄像机有巨大的发展潜力和优势在停车场管理、智能交通控制,和灾难救援(5- - - - - -9]。使用改进的YOLO算法意思,根据识别速度快的特点,精度高,检测效果好,可以充分发挥辅助决策的优点在各种复杂的交通状况。

通过地面与车辆检测图像相比,天线由无人机略有不同:地面视图主要是由一个固定的相机。鸟瞰图取自顶部视图由移动相机无人机。因此,一些车辆丢失的信息(10]。无人机携带的相机的图像质量远远高于地面的相机(大多数相机4 K,一些高端模型可以输出图像的分辨率8 K),并由图像的信息量是巨大的。因此,图像需要使用正确和合理的。此外,在空中图片,感兴趣的对象通常是小而密集。例如,当一个收激发2 Zenmuse X7使用无人驾驶飞机,输出图像的大小 像素;对于这样一个高分辨率,可能只是工具 像素或更少(11),这是非常具有挑战性的检测这样的小型车辆在大型图像。

领域的深度学习算法,基于卷积神经网络的图像分类网络如AlexNet VGG, ResNet [12- - - - - -15)开发提高ImageNet分类竞争来实现更高的分数。卷积神经网络已经被越来越多地用于目标检测领域(16,17]。Redmon et al。18提出了你只看一次(YOLO)意思对象检测网络;它把对象检测回归问题,使用一个端到端的框架直接预测类别和位置信息。第二年,Redmon和哈蒂19)提出了一种改进的版本命名YOLO9000,添加锚箱方便检测头来预测目标框和添加批量标准化(BN)来减少模型的过度拟合。最新版本的YOLO对象检测算法是YOLOv5意思,大大提高了精度和效率的目标检测算法代替骨干CSP-DarkNet和添加一些数据扩增方法像马赛克。

地面目标探测的基础上深刻的学习方法已经发育良好。然而,目前仍有一些缺点在车辆检测的技术从无人机,比如一套小目标组成的车在停车场。以YOLO对象检测意思网络为例,将采样因子的YOLO是32,意思和网络输出 预测电网。如果两个目标对象之间的距离小于32像素,然后网络错误当目标是有区别的11]。

因此,一些研究人员正在致力于改善网络结构。钟等。20.]利用卷积神经网络从不同层次的特征图谱生成这种地区骨干和池深,浅层次的特点,有助于更有效地检测小物体。杨et al。21)使用跨层连接跳到克服深卷积神经网络的特性造成的损失对于小对象。大梁et al。22)显示,当前的地区建议网络(RPN)没有有效工作对于小型对象,所以RPN网络,包括快速R-CNN改进,用于检测小物体。上述研究人员对网络结构进行了深入研究。然而,由于严格的限制输入的卷积神经网络的大小,上面的算法方面还比较薄弱提高高分辨率图像的车辆检测过程。

由于卷积神经网络的局限性,目前的主流目标探测网络输入图像的大小有严格的要求。不同的对象检测网络有不同的输入图像的分辨率要求。图片不符合相应的决议需要压缩或在被发现之前和调整,以满足需求。R-CNN越快(23)使用 像素图像的常规输入,SSD (24)使用 像素图像作为输入,和最新YOLOv5算法使用 像素图像作为输入。然而,无人机捕捉到图像的分辨率远高于上述对象的图像尺寸可以接受检测模型。图像压缩的过程的损失将严重影响检测小目标的目标探测网络。

为了解决功能丧失的问题在无人机高分辨率图像目标检测的过程中,一个自适应剪裁算法基于无人机图像作为输入的训练和检测提出了。该算法是基于YOLOv5对象检测网络。在这个过程中,高分辨率的图像输入到网络训练后自适应地根据输入大小剪要求。训练后,小目标检测问题转化为一个标准的问题使用滑块的滑动窗口检测通过计算的步长自适应剪裁算法。评估算法通过使用精度,回忆,和地图,通过测试验证了此算法对实际的影响车辆检测图像。

本文的其余部分组织如下:部分2礼物YOLOv5-based自适应剪裁算法的原理和实现,部分3本文描述了实验过程的算法基于修改VisDrone数据集,和部分4提出并分析了算法的操作的结果。最后,在得出结论部分5

2。描述的方法

提出的工作流YOLOv5-based高分辨率无人机图像的车辆检测算法如图1

无人机获得高分辨率的图像或视频,形成一个图像处理库,组织成一个初始使用手工标记的训练数据集,和分成最后一个训练数据集处理后提出自适应剪裁算法,用于训练YOLOv5对象检测算法。相应的模型权重。

检测过程中利用改进的自适应剪切检测算法的测试集上的图像块。在获得当前图像的坐标位置的剪裁检测框架,根据滑动窗口坐标调整步骤由自适应剪裁算法。然后,自适应剪裁检测坐标系与原始图像的坐标系nonmaximum抑制后检测。最后,完成目标检测图像输出。

3所示。提出的自适应剪裁方法

3.1。YOLOv5物体检测算法

提出的自适应剪裁算法适用于训练数据预处理过程和检测过程的目标检测算法。YOLOv5算法,最新版本的YOLO算法,意思是闻名的检测速度和精度高。目前,YOLOv5模型检测速度低至2 ms /在一个NVIDIA Tesla v100形象。该算法要求输入图像中检测到的块,然后合并成一个单一的形象;因此,YOLOv5算法选择的对象检测算法在实时性能保证较高的检测速度。

YOLOv5网络模型包括三个主要结构:骨干,金字塔网络特性,探测头。骨干网负责从不同的图像中提取特征在不同尺度,金字塔网络的功能是负责融合特征从不同的尺度和通过检测网络,和检测网络负责预测对象类别中使用图像特性和生成对象的边界框。YOLOv5网络结构如图2

3.2。自适应剪裁的数据集

在收激发2 Zenmuse X7无人机为例,由相机最大图像大小的输出 像素,和地面车辆的大小只有大约30 - 50像素当无人机飞行50 - 100米的海拔。该算法对输入图像进行压缩 像素在目标检测过程中。在这个时候,地面车辆的长度只有4 - 6像素,和图像的细节特征车辆遭受大量损失。图3显示车辆在同一地区的详细特性之前和之后的原始图像的压缩。

在本文中,我们提出一种自适应图像剪裁算法训练集的无人机捕捉到高分辨率图像。在这个过程中,高分辨率图像是滑和剪重叠根据所需的输出尺寸对象检测网络数据增大后生成一个新的数据集。剪切框架坐标计算如下: 在哪里 表示原始图像水平像素的数量, 表示原始图像垂直像素的数量, 代表对象的输入图像的宽度检测网络, 代表对象的输入图像的高度检测网络, 表示视频帧的数量最后生成在水平方向上,和括号中的计算结果四舍五入,和 代表了最终剪辑框在垂直方向产生的数量。括号中的计算结果四舍五入。 的步长水平滑动的视频帧,然后呢 的步长是垂直滑动夹的框架。

滑动窗口方程的工作流图所示4。首先,我们计算有多少窗户需要覆盖所有当前的像素大小根据公式(1)和(2)。我们允许超过的部分形象的窗口。然后我们分配多余的同样的重叠滑动窗口在公式(3)和(4)。注意,当图像尺寸是滑动窗口整除,我们添加一个额外的窗口,然后把整个窗口同样重叠。

的标签格式规范化YOLOv5算法相对坐标的值。例如, 代表图像的中心点, 代表图像的点右下角。因此,原始的标签需要映射根据规则的自适应剪裁生成标签的新形象,和标签映射的算法流提出了算法所示1

原始对象框 代表对象框的左上角和右下角坐标在原来的地图, 代表当前滑动窗口的左上角和右下角坐标,和 代表对象的左上角和右下角坐标框夹地图对象的输出。 是十字路口的联盟比判别函数,负责计算交叉的比例在两个区域的结合。 是计算

3.3。自适应剪裁检测

YOLOv5对象检测算法的网络结构有严格的要求输入原始图像的分辨率。默认的输入图像大小YOLOv5 ;因此,所有的图片比这个决议将被压缩,和图像细节特征压缩过程中不可避免地丢失。

本文提出了自适应推理过程中剪切的图片使用自适应地剪图像坐标计算使用公式(1)- (4)来解决上述问题。该算法利用输入图像宽度在推理过程中所需的网络 ,如公式(1);输入图像的高度要求的网络 ,如公式(2);和计算块检测框架坐标进行剪裁与原始图像上的重叠和检测分别剪图片。所示的算法流算法2

输入:ObjectBox (x1, y1, x2, y2), SlidingBox (x3, y3、x4、y4)
输出:ClippingBox (x-top y-top、x-bot y-bot)
函数标签映射(x1, y1, x2, y2, x3, y3, x4, y4)
如果借据((x1, y1, x2, y2), (x3, y3、x4、y4)) > 0
x-top = max (x1, x3)
x-bot = max (x2, x4)
y-top = max (y1、y3)
y-bot = max (y2、y4)
如果
返回x-top、y-top x-bot y-bot
输入:形象,DetectSize
输出:PredictionBox
函数检测(img detect_size)
西北,在北半球,西南,Sh = Adaptive_clipping (img。尺寸、detect_size)
h范围内(Nh)
w的范围(西北)
y3 = h 上海做的
y4 = h Sh + detect_size
x3 = w 西南
x4 = w Sw + detect_size
clip_img = img [: y3: y4, x3 x4):
pred_clip =模型(clip_img)
pred_clip [:: 0] + = x3
pred_clip (:: 1) + = y3
pred_all = Concat (pred_clip pred_all)
结束了
pred =模型(img)
pred_all = Concat (pred pred_all)
pred_all = NMS (pred_all)
结束了
返回pred_all

在算法2, 图像输入与原来的分辨率,剪图像大小是物体检测算法的输入图像大小(640摘要)。的输出 函数计算公式(1)- (4)。的 函数是YOLOv5网络培训模式,它返回的预测帧信息输入图像。的 函数组合函数,输出后的张量相结合的多张量。最后, 函数是nonmaximum抑制函数,消除了冗余预测帧通过删除对象框架最大的重叠与价值的信心。

从单一图像不可避免地包含了一些大型对象,以避免检测的不完整造成的错误组合对象特性时一个大对象分为多个片段,该算法输入的整体形象推理推理后的片段。最后,nonmaximum抑制是用于所有推理结果,包括剪图片和整个图像。这部分的原理算法流程如图5

4所示。实验

VisDrone无人机数据集(25)拍摄,由天津大学AISKYEYE团队和基本数据集由260000帧的视频中,有超过10000收集的图片来自14个不同城市的不同型号的无人机。

VisDrone数据集与十个类别标记,即行人,人,车,面包车,公共汽车,卡车,摩托车,自行车,awning-tricycle和三轮车。然而,患有不同的类的数据分布的不平衡。为了克服这个问题,统一变量是用于验证该算法的有效性。我们已经删除了和nonmotorized车辆的分类标签。根据各种车辆的特点,仅保留汽车,货车、公共汽车,卡车分类,统一上述类别的名称到一个名为汽车通过修改标签。促进目标的监测和识别。调整后的训练集共有6471图片,验证组共有548张图片,标记,总共大约175000辆汽车。我们使用一个英特尔i7 - 7700和16 GB的内存和CPU的NVIDIA GPU RTX 2070 (8 GB)实验,和深度学习框架与PyTorch1.8 Python 3.7。

4.1。数据预处理结果

训练集使用该算法,自适应地剪和剪切过程丢弃不包含对象的图像生成的剪裁地图。算法生成35742图像训练集和验证集的2656张图片。剪训练集的标签重新分配使用的算法1根据YOLO-TXT格式。在图所示的格式要求6

每个图像生成一个同名的txt文件,和txt文件中的每一行代表一个人的标签对象。第一列是对象类,编号从0。所有类都合并以来,只有一个类包含在数据集。第二和第三列 对象的坐标框架,协调立场正常化使用原始图像的像素值方面作为分母。第四和第五列是对象的像素值方面,也是规范化使用原始图像的像素值方面作为分母。转换后的标签图像如图所示7

4.2。剪切试验结果

YOLOv5模型修改使用算法2。我们用学习转移到初始化模型参数,和女士可可pretrained模型训练数据集。算法的检测过程如图8。我们一块输入图像根据其大小和模型的hyperparameters。全球检测分支需要原始图像和推断它直接,而分块检测分支使用图像块进行检测。例如,原来的图在图8计算使用推理的算法分为六块。推理后,目标箱两个检测分支结合,和冗余目标框中使用nonmaximum抑制算法。最终结果将上面的图像的过程。

4.3。对比试验

转换VisDrone数据集包含35742张图片2656图像训练集和验证集。网络参数更新使用随机梯度下降法(SGD)。学习速率使用热身方法和余弦退火算法的更新。迭代的数量设置为200,培训和批处理大小设置为16。

验证自适应剪裁算法的泛化性能,我们比较性能RCNN越快(23]和级联RCNN [26)改变了VisDrone数据集。实验组采用自适应剪裁算法训练和检测数据。相比之下,对照组使用原来的算法来训练和直接探测到高分辨率图像。

5。结果和分析

我们使用不同的指标,包括精度,回忆,和平均平均精度(地图),来验证网络的有效性。一个分类问题,样品可分为真阳性(TP),假阳性(FP),真正的底片(TN),假阴性(FN)据地面真理和预测的神经网络。公式的精度和召回所示公式(6)和(7),分别。

地图是所有类别的平均检测精度和计算 在哪里 计算平均精度函数,使用当前类别的电话号码吗 精确率 与召回率 形成了 曲线下的面积。 类别的总数, 是当前类别。

5.1。分析模型训练的结果

损失函数是用来确定模型的训练状态在当前迭代和计算预测和真实值之间的差异在迭代。YOLOv5损失函数计算 在哪里 是丧失信心, 边界框的损失, 是一类损失。由于只有一个类的训练集, 是0。培训过程的损失函数曲线如图9

损失曲线显示,在200发子弹,曲线基本上停止下降,网络训练本质上是完整的。损失函数的值的训练集从最初的0.3187下降到约0.1397,和验证集的损失函数的值从0.5425到0.2487的初始值下降。

精密衡量准确识别对象的模型。召回率是多少一个模型搜索整个对象当识别对象。图10显示的变化模型的精度和召回在培训期间根据时代的数量。最高精度通过模型在训练是0.93087,和最高的召回是0.8169。

地图是一个评价指标,评估网络性能目标检测领域。(电子邮件保护)下的面积吗 曲线的网络设置时检测借据比率阈值为0.5。(电子邮件保护):0.95是下的面积的平均值 曲线的网络设置检测阳性病例交叉和比率阈值从0.5到0.95,0.05单独计算的步长。因此,(电子邮件保护):0.95是难以实现。图11地图显示了曲线在训练。最后一个(电子邮件保护)通过该算法0.894,(电子邮件保护)是0.623。

如表所示1我们比较原始数据集与数据处理的算法,RCNN越快,级联RCNN, YOLOv5。结果表明,使用该算法之前,级联的地图RCNN超过RCNN YOLOv5,越快的精度和推理YOLOv5改善随着时间的推移。自适应剪裁算法后,所有三个对象的参数检测框架改进在某种程度上,我们的算法在所有指标优于其他两种算法。推理时间控制在一个可接受的范围内。

5.2。分析检测结果

为了证明分析的严密性,500张图片的测试集用于测试没有参与培训。检测函数提供的原始YOLOv5算法和改进的自适应剪裁检测函数应用于测试集。检测结果评估基于标签的值计算。检测结果,展示在表1显示,原始模型具有重要的功能损失的输入图像压缩问题对高分辨率图像进行检测时;因此,原始模型的检测结果低于所有指标的模型与算法。

12显示了检测效果的比较该算法与原算法。(a - c)和(胃肠道)是该算法的检测效果,(d-f)和(j-l)是原始算法的检测效果。(f),无人机飞行高度低,是倾斜的,车辆在关闭视图对象的大小大约是100像素,只有30像素或少在遥远的观点。(d-f)表明,原算法具有良好的检测效果附近的车辆,但是对于车辆,大面积不检测。该算法可以检测小物体距离和大对象附近,因为检测的自适应剪裁图像。图片中发现(g-l)在高海拔地区,拍摄的图像和对象大小通常小于50像素。在这一点上,该算法的优势就显现出来了。(g j)表明,原算法检测大型对象只有两辆公共汽车和一辆车。相比之下,裁剪提出自适应检测算法检测所有45辆。第二个人物(h, k)显示大型密集对象的检测效果。 Because the objects are too small and dense, the original algorithm detects only one vehicle, while the proposed algorithm detects 255 objects, accounting for 95.1% of all 268 objects. The vehicle targets in (i, l) are smaller than 30 pixels in size. The original algorithm did not detect any targets, while the algorithm in this paper detected 50 targets, including all 48 objects plus some false positive detections.

6。结论

提出了一种基于高分辨率图像的车辆检测方法被无人机,这地址,传统的目标检测算法受限于图像和对象的大小。高分辨率图像可以限制网络的性能检测小目标的时候。所以,我们以YOLOv5对象检测算法为基准。,我们提出了一个自适应剪裁算法的高分辨率图像数据预处理和检测来检测小对象的车辆。我们引入评价指标如精度、召回、地图来评估算法的性能和设计对比实验来验证算法的有效性。结论提高无人机航拍图像的分辨率。

框架检测速度决定了车辆检测效率和实时性能在无人机行动,所以提高算法的运行速度是未来研究的目标。此外,在后续的研究中,single-scale对象检测过程对象检测网络和网络模型结构可以改善,例如,通过使用模型修剪,主体结构优化和reparameters。因此,无人机可广泛应用于智能交通管理。

数据可用性

数据基础的研究结果中可用的手稿。

的利益冲突

没有潜在的利益冲突在我们的论文,和所有作者的手稿和批准提交你的日记。

确认

这是部分赞助来自中国辽宁省自然科学基金(2019 - zd - 0731),博士科研启动项目(HDBS201802)和辽宁省教育部科研基金项目(LJKZ0731)。