文摘
提供基于图像处理人工智能算法是一个关键的任务,和实现需要仔细检查算法的选择和处理单元。随着技术的发展,研究人员已经开发出许多算法来实现高精度至少处理需求。另一方面,具有成本效益的高端图形处理单元(gpu)现在可以处理复杂的处理任务。然而,最优配置的各种深层学习算法在gpu上实现有待调查。在这个提议,我们测试了卷积神经网络(CNN)基于你只看一次(YOLO)意思变体在NVIDIA杰森Xavier识别GPU和YOLO模型意思之间的兼容性。此外,YOLOv3的性能、YOLOv3-tiny YOLOv4和YOLOv5s模型评估培训期间使用我们戴尔PowerEdge R740服务器。我们已经成功证明YOLOV5s是一个很好的基准对象检测,分类,并使用杰森Xavier GPU委员会交通拥堵。YOLOv5s达到平均精度为95.9%在所有YOLO变异和成功率最高的意思是98.89。
1。介绍
近年来,技术不断被发展和人工智能等技术的传播深度学习。开发了许多机器学习算法来解决在计算机视觉的最大挑战之一,即目标检测和识别(1]。目标检测是识别的问题、本地化和分类的单个或多个对象在一个图像2]。完善,深度学习算法表现出优于常规技术的结果。有两个主要类别对象检测,识别和跟踪。第一个是基于一个单级与卷积神经网络架构(3],网格生成一个固定数量的预测,比如SSD (4有人知道由罗[],5],M2Det [6]。后者是基于两个或两个以上的阶段,利用网络找到感兴趣的区域,包含对象和第二高的概率或更高网络分类评分和空间补偿,如红外系统(7],YOLOv5 [8],和更快的R-CNN [9]。对象检测技术已经成功应用在许多实时应用程序从自主驾驶10]机器人和机器视觉11,视频监控12)交通监控(13),和医学成像14)诊断系统(15]。
尽管难以想象的突破在机器学习和深入学习16),有很大的改进余地。在当下时代,对象检测、识别和跟踪取决于一个高效的算法和嵌入式平台的运行需要大量的计算算法。嵌入式平台的最优选择是至关重要的对于实时应用程序(17]。
在过去的几年里,嵌入式硬件加剧了与平台的图形处理单元(GPU) [18]。嵌入式平台基于gpu提供高性能和低功耗和并行执行功能。此外,英伟达基于gpu的嵌入式系统的兼容性与JetPack SDK (19)和其他开源的计算机视觉库(OpenCV)提供良好的优势,因为他们为深厚的计算机视觉库学习和加速计算。然而,基于GPU的嵌入式系统的性能取决于各种参数如GPU和内存使用,温度、和推理时间(20.]。此外,大多数报道作品使用离线或批处理模式,历史记录的数据集进行了分析。本文讨论的性能NVIDIA杰森Xavier使用深度学习算法在实时环境。所有标准的性能YOLO YOLOv1变体,意思YOLOv2, YOLOv3, YOLOv4, YOLOv5 NVIDIA杰森Xavier实时测试和评估。的主要贡献已经通过这项研究工作如下:(1)YOLO变异与意思的性能改进的CNN算法实时评估(2)英伟达杰森Xavier AGX的性能参数,如记忆、温度、时间和干扰,也是衡量和评价YOLO变体意思的实时实现(3)GPU处理董事会的NVIDIA Jetson Xavier评估分析使用实时交通数据实时道路交通性能
此外,其余论文结构如下。部分2最近的研究进行了文献综述基于CNN-based目标检测算法。部分3介绍了方法的研究论文,然后分析结果提供的部分4。最后,部分5州的结论。
2。文献综述
表1总结了文学在不同深度学习算法应用于gpu在过去的几年里。在[21),布莱尔和罗伯逊利用面向梯度直方图(猪)和混合高斯(MoG)和事件检测场上对象编程门阵列(FPGA),中央处理单元(CPU)和GPU。他们得出的结论是,探测器使用gpu过程更快,消耗更多的电力。然而,对FPGA进行处理的设置相对少功耗与准确性。在[22],Artamonov等人实施YOLO移动图形处理器意思NVIDIA杰森等交通标志识别。Komasilovs等人开发了车辆检测和跟踪系统使用一个室外监控摄像头。pretrained SSD MobileNet V1模型用于细培训车辆检测模型。实时跟踪是通过使用一个CPU(英特尔i5, 16 GB的RAM),取得了平均92%的车辆检测和跟踪精度。他们得出的结论是,深度学习检测模型是可行的只有当GPU-equipped硬件上执行的更好。
周et al。23汽车光探测和测距)使用(激光雷达)传感器和NVIDIA GTX 1080我GPU实现卷积神经网络在YOLOv2飙升为自动汽车实时目标检测。该网络与各种其他框架。他们认为更好的性能比其他典型的平均精度模型在文献中报道。
Khazukov et al。24)使用CPU的YOLOv3配备了GPU来检测车辆和监控交通参数。他们使用YOLOv3神经网络体系结构和简单的在线和实时跟踪(排序)开源追踪。他们几乎达到90%的准确率日夜车辆数的图像。在[25],Avramović等人使用不同的变体YOLO上实现意思GeForce 1080 GTX公司识别实时性能对于汽车应用程序,包括驾驶援助,detecting-road对象,自驾车辆,交通标志自动库存维护。
Barba-Guaman et al。26)使用了杰森纳米和实现各种算法来检测车辆和行人的行李,即单短检测(SSD), PedNet,多足动物,移动网络V1和V2,和SSD-inception V2。他们使用不同的数据集的识别车辆和行人。的最大车辆检测的准确性为84.01% SSD-Mobilenet V1和V2 SSD-inception。在行人检测的情况下,获得的最大精度为90.23%的PedNet框架。他们还发现模型,消耗更少的时间在他们的表现SSD-mobilenet-V2, SSD-mobilenet-V1, SSD inception-V2。
可以见到效果等。27)使用嵌入式硬件平台来检测人类人群使用CNN航拍图像。培训是VisDrone数据集上运行离线28)使用一个英特尔Ci5系统8 GB内存2 GB和NVIDIA GeForce MX110 GPU 10运行Windows操作系统。训练网络部署在两个计算硬件平台,覆盆子π3和NVIDIA Jetson TX2, TX2优于覆盆子π3对检测精度和处理速度实现模型。
金等。29日)使用多级卷积神经网络(MSCNN)和变异YOLOv3改善车辆检测传统英特尔i5处理器。拟议中的MSCNN和YOLOv3适用于三个数据集:KITTI VD [30.],AUTTI [31日人群,AI (32]。算法被训练使用Pytorch包(33在Python和GTX泰坦X GPU。测试是英特尔CPU上执行i5 - 4670没有专用的GPU;然而,实时嵌入式实现的可行性MSCNN YOLOv3并没有讨论。
重要的是要注意,之前的工作是基于离线或批处理模式,在历史或记录集,用于目标检测、识别和跟踪。便宜他们使用计算算法,提供受损精度的检测和跟踪。其他方法在文献中讨论可以经常被认为是昂贵,考虑到实时要求,在嵌入式平台上实现,应用程序的计算范围。
2.1。目标检测算法
有各种各样的目标识别和检测算法,如YOLO[意思34]。然而,YOLO(你只看一次)获得了重要的意思在计算机视觉界由于其重要性实时和准确的对象检测广泛应用(35]。YOLOv2于2017年被释放与几个迭代改进层,包括批处理规范。得分更高版本添加一个对象的边界框YOLOv2于2017年被释放与几个迭代改进的层,包括批处理规范,分辨率更高,充分定义的锚箱。
YOLOv3于2018年被释放,改进应用于这个版本添加对象的分数在边界框预测和改进的骨干网络层。这些预测的三个阶段通过改善粒度较小的性能对象。YOLOv2 YOLOv3有所改善和提高地图;比快R-CNN FPS和SSD,而Girshick RCNN[首次出版36]和更快的R-CNN [37在2014年和2015年。
YOLOv4于2020年被释放从文学和比YOLOv3算法更准确。然而,YOLOv4的准确性与YOLOv5相比,仍然是一个开放性的问题,一些研究人员一直在声称YOLOv4更准确而其他人则声称YOLOv5更准确。Jocher YOLOv5发布等人2020年,几天后释放的YOLOv4算法,与增强的改进。报告结果表明,所有属性有不同的数据集和改善hyperparameters,由于没有相关作品使用NVIDIA的实时直播处理杰森AGX Xavier与不同YOLO变体意思本研究的具体标准。
2.2。移动计算平台
GPU的特点是优秀的内存带宽和计算能力(38]。具有相同的晶体管数量可用,GPU实现更高的运算强度由于图形计算的并行特性。此外,gpu是便宜和容易获得。这些特性让GPU实现深度学习框架。一个很好的选择随着开发人员工具包像NVIDIA杰森开发者工具包,实时便携式应用程序成为可能。表2礼物NVIDIA杰森开发板可以作为计算平台。
3所示。方法
本节提出了检测和计数交通拥堵的车辆监控使用硬件加速。在目前的情况下,不同的硬件加速器可以通过自己的能力解决复杂的问题。本研究包括从杰森的NVIDIA开发工具包家庭(杰森Xavier AGX)用于应用程序由于其高计算性能,如表中所述2使用一个独立的系统,能耗效率。泽维尔AGX硬件加速器的选择取决于数据特征,如大小,数量,和应用程序。这一信息提供帮助在选择正确的组合基于数据属性(40]。
3.1。数据选择
第一步选择和实施深上优于YOLO-variant算法选择的数据。数据过程包括将视频转换成图像,分辨率必须考虑完成高质量图像训练模型和确定输入的大小的算法。观察到的数据量应该因为如果训练集的数据太小,每个类的样本产生负面影响。可可数据集(41表中提到的3,20500张图片已经采取了五类的交通车辆。我们的数据集包含了一个星期的挑战各级交通视频序列,如根据夜间和白天时间的变化,与不同角度分辨率和增广数据集不同的旋转,缩放,和翻转到顶部和底部。第一步是将数据集划分为80%的训练,20%的用于测试。第一步是要考虑颜色样本的联合数据集包含的信息特征提取,使用深度学习模型。
3.2。硬件加速器
DL方法依赖于硬件加速器,特别是那些满足数据需求,必须选择和模型的应用程序,需要评估,以找到最好的硬件处理。深层神经网络的增长提高了计算复杂性的需要,因此,他们的资源消耗,为深层神经网络提供的实现问题。如前所述在表2,英伟达杰森Xavier AGX一直使用,利用能耗效率作为一个独立的系统。然而,原型硬件的其他组件包括一个ethernet-supported Hikvision高清摄像头和电池备份系统的可移植性。相机(模型:DS-2CD4A85-IZH和分辨率超分辨率高清4 K) (46)是与NVIDIA杰森Xavier AGX使用实时流协议(RTSP)实时数据分析,如图1。此外,互联网协议(IP)分配给相机和英伟达媒体处理器相同的IP杆,分别192.168.1.2和192.168.1.3。
(一)数据收集相机的位置
(b)独立的系统
提出的核心部分AI-enabled对象检测交通监控系统正在开发和培训几个YOLO变体意思。图2代表整个过程跟踪。然而,进一步解释关于实现以下部分解释。
3.3。实现YOLO变体意思
你只看一次(YOLO)意思处理对象检测,以图像为例,预测它的边界框的坐标。YOLO算法定位意思每个对象和一个对应的类标签使用边界框,并在速度和性能优势相对于其他深度学习算法。YOLO采用卷积神经网络骨干,意思分为三层:输入、隐藏和输出。然而,表4提到个人的总层YOLO模型。意思YOLO适用于多个对象的意思。每个对象与一个网格单元,这有助于重叠在一个网格单元包含两个不同的物体的中心点称为锚箱。每个锚箱中的边界框包含一定的高度和宽度。图3演示了一个现场试验YOLO检测图像上的多个对象的意思。
3.3.1。损失函数
从方程(1),以下是:
是指网格的数量;
细胞总数的预测盒;
和为每个细胞不同,中心坐标;
和是预测框的维度;
信心的预测;
车辆检测保证;
位置重量损失函数;
分类功能损失重量;
汽车对象th预测帧;对于目标车辆,它的值是1,否则,0;
后续的预测价值= ( )。
一般的损失函数计算的总平方误差的总和位置预测。根据预测的root-square价值框的宽度和高度,第三和第四元素求和利用确定性的损失函数。第五部分增加了方程和利用可能的损失函数类。YOLO计算意思,十字路口在联盟(借据)损失函数错误和损失函数误差分类确定使用多级crossentropy分类。
3.3.2。培训和评估
网络已经被训练使用女士可可(常见的上下文中的对象)数据集。数据集有80类的对象与注释和标签。然而,我们的数据集结合女士可可来提高算法的性能。数据集开发、高清相机被部署在不同的位置(Ziauddin医院北省,Ziauddin博士医院门诊部当北省和Ziauddin工程大学)和视频流转换成帧,然后这些帧保存到文本文件格式的注释使用Img标签工具,演示图4。总5000在这个阶段拍摄的图像。数据集使用扩增器图书馆已经增强。目的是训练算法面临实时数据挑战像噪声,图像亮度变化,和框架倾斜问题。图像被认为是训练的五类网络:卡车,公共汽车,汽车,自行车和摩托车。戴尔R740服务器结合T4 NVIDIA Tesla GPU用于训练模型,如图2。
评估、训练算法YOLOv3 YOLOv3-tiny, YOLOv4, YOLOv5s 20 fps的高清视频直播流测试。研究工作是评估使用YOLO模型,意思和矩阵给出了性能。使用NVIDIA的执行提出工作杰森AGX Xavier控制器。处理评估基于内存利用率、推理的时间,温度,和GPU利用率在不同的分辨率。整个系统培训和测试所需的硬件和软件方案如表所示3。
4所示。结果与讨论
YOLOv3的性能、YOLOv3-tiny YOLOv4,和YOLOv5s模型评估培训期间,和中提到的参数表5。5000 -图像数据集用于评估每个算法。模型YOLOv3-tiny、YOLOv3 YOLOv4非常相似,但YOLOv5s适应学习者和有很高的精度和召回相比其他YOLO模型的意思。在表5的标签,第一列代表培训对象分为五类:汽车,卡车,摩托车,自行车,公共汽车。第二列表示图像的图像大小在训练期间,第三列是批量大小的模型;第四和第五代表查全率和查准率。最后,第六届和第七列是平均精度为该模型的性能。的最新变种YOLO家庭,意思定义为YOLOv5s,精度高,记得,和减轻重量大小,重量最轻的特征与其他模型相比。
在方程(2),真正的积极正确(TP)是用于检测任何对象代表和存在于从视频帧进行。假阳性(FP)代表了无效的/不正确的检测(有时,在帧检测算法检测到错误的对象一个对象)。在方程(3),一个假阴性(FN)代表对象的算法不检测。十字路口在联盟(借据)评估预测框之间的重叠区域和实际项目的地面真理在对象检测边界框。它可分为正确的或错误的通过比较使用借据借据到指定的阈值。方程(4)和(5)用于计算精度(美联社)和平均值平均精度。美联社已经被用于显示精度和召回曲线数值代表的整体精度平均被定义为阈值的数量。美联社是精密在每个阈值的加权和,相应增加的召回。然而,地图计算值在0和1之间,表明多少预期和地面真理边界框重叠。因为每个值的借据阈值产生一个精确的平均精度(美联社)衡量,这个值必须被指定。
趋势图5评估损失YOLOv5s图、YOLOv4 YOLOv3,和YOLOv3-tiny类,对象,盒子。横轴表示图迭代,纵轴代表了损失幅度。然而,这一趋势表明,个人的整体性能模型是相似的,以同样的速率和损失趋势减少每次迭代次数(表6)通过展示展品分类性能YOLOv5s YOLOv4 YOLOv3和YOLOv3-tiny模型训练的结果。表7代表每个对象分类的成功率和错误分类的实例。成功率最高的98.89%已经获得了汽车,而算法正确地确定了公共汽车。获得最低的成功率是89.88%的自行车。总的来说,错误分类是在可容忍的范围内。图3下面说明了物体深度学习模型,检测到的边界框在检测到图像。
的绩效评估模型的内存利用率,推理,GPU利用率和产品上架的温度控制器提出了数字6- - - - - -9,分别。YOLOv3-tiny(在图6),GPU温度保持在较低的方面,而对于YOLOv5s(红色的图6),温度越高对应的图像分辨率更高 和 。YOLOv3和YOLOv4(在图6在所有的决议)也有相当高的温度。在图6,低分辨率YOLOv5s看起来好保持GPU的温度低。然而,温度迅速增加在更高的分辨率,这表明v5利用GPU。推理时间(以秒为单位)是其中一个关键因素在直播任务。然而,它是高度依赖于检测精度。如图7下面,推理时间增加图像的分辨率一般YOLOv3(在图7),获得最高的3.13和推理 决议。然而,YOLOv3-tiny YOLOv4保持较低的推理时间比其他人,价值最低的0.46和0.6秒,分别。另一方面,YOLOv5s 1.37和2.579秒的决议 和 ,分别。
图的直方图8说明了图像分辨率之间的关系和GPU利用率。YOLOv5S(图8)已被证明使用GPU比其他模型对所有图像分辨率,而YOLOv3-tiny(在图8最低的GPU用于所有图像分辨率。因此,YOLOv3微小似乎是最合理的选择来实现该算法杰森Xavier董事会如果最重要的问题是保持GPU的利用率。最后,通过YOLOv5s最低内存利用率,如图9作为一个总体趋势,和内存利用率展览一个提升图像分辨率增加趋势。例如,YOLOv3-tiny和YOLOv5s使用2.8和2.4 GB的RAM,分别在低分辨率的16 GB。然而,YOLOv3使用8.2 GB, YOLOv4使用7.1 GB的RAM的决议 。
5。结论和未来的工作
项目的主要科学贡献是开发一个独立的系统使用杰森Xavier AGX执行交通监测和监控。在本研究论文中,杰森Xavier AGX是一个很好的选择实现复杂CNN-based (YOLOv3, YOLOv3-tiny、YOLOv4 YOLOv5s)模型与特殊性能。此外,提高深度学习库NVIDIA平台上可以导致更好的结果。拟议的系统已经测试,显示成功率为98.895。交通监视和管理的最大挑战之一是第三世界国家,如巴基斯坦。通过实现系统检测和计数的车辆,可以最小化交通问题,如虚假停车检测、使用交通控制、交通管理和交通拥堵检测。最后,工作已经成功地证明了杰森的强大的计算能力Xavier AGX可以利用目标检测在视频直播流。
数据可用性
数据可用,可以访问请求,和联系作者为进一步的援助(电子邮件保护)和(电子邮件保护)。
的利益冲突
没有利益冲突。
确认
作者要感谢整个研究实验室提供的帮助和支持数据采集、处理、和预测分析实验室,在大数据和云计算中心,Ziauddin大学,卡拉奇,巴基斯坦。