文摘

多目标车辆跟踪和运动状态估计是至关重要的控制主机车辆准确,防止碰撞。然而,目前的多目标跟踪方法不便处理multivehicle问题由于动态复杂的驾驶环境。驾驶环境感知系统、智能车辆作为一个不可或缺的组成部分,有可能从图像处理的角度解决这个问题。因此,本研究提出了一种新颖的智能车辆的驾驶环境感知系统通过使用深度学习方法来跟踪多目标车辆和估计其运动状态。首先,全景分割支持端到端训练神经网络设计和实现,这是由语义细分和细分实例。驾驶环境的深度计算模型建立了通过添加一个深度估计分支的特征提取和融合模块全景分割网络。这些深层神经网络训练和测试Mapillary景观数据集和城市数据集,执行和结果表明,这些方法和识别精度高。然后,卡尔曼滤波和匈牙利算法用于多目标车辆跟踪和运动状态估计。的有效性,并通过仿真实验,验证了该方法和结果显示(即相对关系。之间的相对速度和距离)多个车辆可以准确估计。本研究的结果有助于智能车辆的发展,提醒司机可能的危险,帮助司机的决策,提高交通安全。

1。介绍

司机注意力不集中是交通事故的主要原因之一。据报道,大约有80%的车辆碰撞和65%的近距离撞车事故都与事故司机注意力不集中在三秒前事件在美国国家公路交通安全管理局(NHTSA)) (1]。道路交通事故造成的疲劳驾驶,分心驾驶,未能保持车辆之间的安全距离占总事故的56.63%于2019年在中国(2]。为了减少这个关键问题,推动智能车辆环境感知系统已经在越来越多的关注。

驾驶环境感知系统、智能车辆作为一个不可或缺的组成部分,是帮助司机感知的关键任何有潜在危险的情况下避免交通事故(早些时候3- - - - - -5]。车辆检测和跟踪技术建立的桥梁之间的交互智能车辆和驾驶环境。驾驶环境感知系统是用来跟踪多个车辆和估计车辆运动状态,从而为决策提供可靠的数据和规划的智能汽车。应用感知系统是类似于人类视觉感知功能(6- - - - - -9]。智能车辆视觉感知系统的优点是,图像采集不会引起任何车辆间干扰或噪声雷达相比10]。与此同时,计算机视觉可以用作一个工具来获得丰富的信息大范围内的场景。

由于车辆之间复杂的互动以及当前的多目标跟踪方法受限于先验知识(11),探索之间的关系变得更加困难多个车辆依靠传统的方法,如背景差分法,帧差分法,光流法(12),来解决这些问题。实现精确的检测和跟踪的结果,本研究提出了一种multivehicle跟踪和基于视觉感知系统的运动状态估计方法。深度学习的方法之一是在这项研究中,使用称为卷积神经网络,它可以了解更多目标特征同时具有高准确性。此外,多个车辆的相对位置和速度需要估计,这是至关重要的控制主机车辆准确,防止碰撞。

因此,本研究旨在开发一种新型的智能车辆的驾驶环境感知系统跟踪多目标车辆和估计其运动状态,它可以提醒司机可能的危险,帮助司机的决策,提高交通安全。

2。文献综述

本研究试图建立一个智能车辆的视觉感知系统估计multivehicle关系。因此,接下来,我们从两个方面介绍当前的研究:(1)多目标车辆的位置和速度跟踪的方法来评估移动车辆和(2)驾驶环境感知系统,识别车辆的向前推动全景场景分割,通过深度估计计算车辆之间的距离。从交通安全、机器学习方法与环境感知和车辆跟踪可用于协助决策的司机或自主驾驶系统已经被广泛讨论。例如,卷积神经网络用于处理图像收集的相机和预测车道线的概率地图(13),可以用来保持车道的车辆并提供车道偏离警告。目标跟踪算法用于检测车辆的驾驶环境和获得他们的轨迹,它可以帮助为司机提供的早期改变潜在的碰撞或风险驾驶行为(14,15]。

2.1。车辆检测和跟踪

车辆检测和跟踪是用来估计行驶车辆的位置和速度。虽然图像分割技术可以识别场景中的对象,他们只局限于静态信息和不能移动车辆的运动信息。运动状态的估计通常是基于固定相机的方法,并通过计算几何对象的位置和速度关系16]。然而,对于车载设备安装在移动车辆,由于相机的位置不断移动,估计是更复杂的移动对象的状态。为了解决这个问题,提出了几种不同的解决方案。

一些研究结合毫米波雷达和摄像头(17)获得发动对象的位置和速度。与相机相比,毫米波雷达在复杂的安装和操作不方便。此外,由于激光雷达传感器只交付对象的可见部分,物体的形状和大小随时间改变。这导致不准确的移动对象状态估计结果。形状变化的观测位置或闭塞是一个典型的例子。

在一些研究中,只有相机是用来估计运动状态。李等人。18)第一次认识到车辆通过语义分割网络面前,然后确定不同的车辆实例根据分割车辆区域的连通性,最后用单眼测距和卡尔曼滤波确定车辆的位置和速度。然而,这种方法仍然可以从某些方面得到改善。首先,当交通量大,不同车辆的区域连接在这个方法中,导致多个车辆被标识为一个车。另一方面,由于缺乏匹配的对象不同框架之间,只有一个对象的速度可以通过这种方法计算,不能适用于multivehicle条件。

在一些研究中,传统的多目标车辆轨迹跟踪技术(如背景差分法、帧差法、光流法)用于行驶车辆的状态估计19,20.]。这些传统方法容易部署和资源消耗较低,但是,通过先验知识有限,跟踪稳定性差和精度不高。因此,基于单眼相机车辆检测的多目标跟踪算法仍然需要改进。填补这一研究空白,一个新颖的基于图像分割的多目标车辆轨迹跟踪系统提出了神经网络在我们的研究中。

2.2。驾驶环境感知
2.2.1。全景分割

城市道路驾驶环境包括道路环境(如道路、设施和景观)和交通参与者的环境(如车辆、nonmotor车辆和行人)。城市道路驾驶环境的现场识别是指识别驾驶环境和指定的对象类和分布。实现现场驾驶环境的识别主要依赖于图像分割的方法,以及本研究采用全景分割方法在我们的分析。

全景分割是指定期和可数对象的实例分割图像和语义分割的不规则和无数的对象。全景分割结合实例分类和语义分割目前是美好的场景识别的图像分割方法。与语义分割这只考虑类别相比,全景分割全面考虑区域类和实例类场景中,这不仅将所有的像素也决定了不同的实例类的实例对象。处理图像分割具有一定的研究历史,早期作品的研究课题包括场景分析,图像分析,整体形象的理解。你等。21)建立了一个场景分析图表来解释规则和不规则的对象的分割和介绍了贝叶斯方法来表示场景。

最近,随着全景分割的概念,评价指标细化。然而,在许多对象识别挑战比赛,如可可和Mapillary识别的挑战,大多数研究首先完成语义分割和实例独立分割,然后经过融合的过程。虽然这种方法可以获得良好的精度结果融合,端到端训练不能意识到由于冗余计算,未实现共享、计算和乏味的过程。李semisupervised方法提出的et al。22)能够实现端到端全景分割,但这种方法需要额外的输入候选框信息和使用条件随机场在推理过程中,导致的增长模型计算的复杂性。Scharstein和Szeliski23]初步提出了一个统一的网络进行全景分割,但有一个实施效果和基准之间的差距。总体而言,仍有改进的空间全景分割的精度和速度。

2.2.2。深度估计

深度估计是估计观察点之间的距离和场景中的对象。场景深度信息中扮演一个重要的角色在指导车辆速度控制和方向控制,所以它是一个基本的辅助驾驶系统所需的信息。场景的深度信息可以通过Kinect设备或由微软开发的激光设备。然而,这些设备不方便使用的设备价格高,深度信息获取的高成本和低分辨率和广泛深度的问题缺少深度图像中收集的这些硬件设备。考虑到相机更便宜、更易于安装和使用,许多研究已经开始使用图像深度估计的方法。

在早期,基于图像深度估计方法主要是基于几何算法(24),使用双目图像深度估计。算法依赖于计算两个图像之间的同一对象的视差估计深度通过三角关系的光线和阴影。后来,Saxena et al。25)开创了一种监督式学习的方法估计单个图像的深度。随后,大量的方法提取特征和估计单眼图像深度由手工设计运营商出现(26- - - - - -30.]。因为设计的手动操作符只能提取局部特征但不能获得语义信息广泛,一些研究使用马尔可夫条件随机场等概率模型来捕获特性之间的语义关系(31日,32]。

近年来,卷积神经网络提出了基于深度估算方法,在图像分类取得了巨大的成功。特征提取的发展网络如VGG [33],GoogLeNet [34],ResNet [35)进一步提高通过单眼图像深度估计的准确性。然而,由于空间池操作器的特性,特性图的大小变得越来越小,影响后续的深度估计的准确性。为了解决这个问题,特征等。36]引入了多尺度网络结构,应用独立网络逐步完善深度地图从低空间分辨率高的空间分辨率。谢et al。37)融合了浅层高空间分辨率特性映射与深低空间分辨率特性映射到预测的深度。转置卷积是受雇于一些研究[38,39)逐渐增加的空间分辨率特性图。然而,在现有的深度估计使用卷积神经网络研究,由于多个特性提取深度估计,模型过度拟合现象的发生。

2.3。总结

鉴于上述,当前研究车辆检测和跟踪显示如下:(1)车辆位置通过激光雷达传感器的估计可能是不准确的。(2)语义分割车辆识别是只适合一个单车驾驶环境。(3)传统的多目标跟踪方法的适用性还需要进一步改善。要解决这些问题,本研究采用多目标车辆轨迹跟踪基于神经网络分割,采用摄像头获取位置信息之间基于驾驶车辆环境感知系统。当前研究驾驶环境感知系统显示如下:(1)大多数现有的全景细分研究完整的语义和力量独立分割,和仍然有改进的空间分割准确性和分割速度;和(2)现有深度评估研究进行重复的特征提取,这是复杂和计算量。因此,本研究构建了一个轻量级的神经网络模型和分支的基础上增加了深度全景分割实现前面的驾驶环境的实时分析。

3所示。方法

图的方法给出了流程图1。的方法包括两个主要部分:(1)驾驶环境感知系统和(2)multivehicle跟踪和运动估计。驾驶环境感知系统可以实现车辆的识别和分离和其他元素在驾驶环境中通过全景分割,然后计算每辆车的位置深度估计。在获得每个车辆的信息在一个时间点,multivehicle跟踪和状态估计是用于分析多个车辆之间的关系在持续一段时间。multivehicle跟踪和状态估计方法,车辆之间不同的视频帧数据匹配首先根据细分结果的驾驶环境感知系统。然后,车辆之间的相对距离和相对速度估计根据驾驶环境感知系统提供的深度信息。这种自动计算方法之间的关系从相机视频可用于多个汽车高级驾驶员辅助系统监控车辆的运动和改变潜在的碰撞。这两个部分在下面会详细进行介绍。

3.1。驾驶环境感知系统

整体环境感知系统的神经网络结构主要包括图像特征提取,特征融合、语义分割,分割,和深度估计模块,如图2步骤1:特征提取和融合。首先,输入图像经过特征提取模块。特征提取模块的功能是提取图像中对象的特性,如低级特征(如边缘和纹理),以及高级特性(例如,骨骼和对象之间的位置关系)。然后,这些功能是输入特性为融合金字塔,然后这些融合特性作为语义分割和实例的基本输入分割。步骤2:全景分割。语义分割负责确定该地区类驾驶环境的场景,而实例分割用于支持实例类识别的场景。语义分割和实例的输出结果分割是融合获得全景分割的结果。步骤3:深度估计。深度估计分支和全景分割分享ResNet-FPN提取的特性,和他们需要的信息语义,纹理和轮廓。深度估计,通常有相似的像素有相同的语义深度,和每个实例的轮廓的位置深度的变化。功能共享避免一个独立步骤特征提取的深度估计,大大减少计算量。

全景分割和深度估计网络结构的驾驶环境感知系统详细描述如下。

3.1.1。全景分割的驾驶环境

城市道路驾驶环境由道路基础设施、交通标志和标记,交通参与者。从全景的角度细分任务,城市道路的驾驶环境的组件主要包括类和地区类实例。区域类主要包含路面、绿化、车道线,护栏,限制,路边建筑物,等等,而实例类包括标志、交通信号灯和交通参与者。

特征提取模块使用ResNet结构。ResNet可以防止网络退化,与更多的神经网络可以提取功能层。ResNet的整体结构是由不断叠加的瓶颈结构(瓶颈)。通常有4个阶段,渠道数量的增加随着网络深度增加。一般来说,层次越深,越小的大小特征地图和更多的频道。

特征金字塔网络(红外系统)使用一个自上而下的网络结构集成深度语义特征和简单的细节特征,充分利用特征提取的骨干网络。特征金字塔ResNet后网络连接网络和丰富的功能表达整个网络特征提取。红外系统确保下游任务可以获得足够的有效信息来提高模型的准确性。

网络结构的语义分割分支采用ResNet-FPN网络结构。的四个输出分支ResNet-FPN分别通过相应的解码器获得解码结果的1/4大小原始图片和128个频道。译码器由多个卷积核的大小upsampling 3×3和2倍。对卷积和upsampling的数量是根据输入的大小决定功能。融合不同的分支预测采用添加相应元素的方法。求和的结果是卷积得到的语义预测图。最后的预测结果是扩大了4倍,确保原始图像大小相同。

基于目标探测实例完成分割。目标检测的任务是识别图像中的对象,马克对象的位置,并确定其类。分割分支网络的结构包括四个部分:RPN, RoIAlign, R-CNN,面具。项(地区建议网络)是模块负责生成候选帧,它最后为下游提供感兴趣的区域(RoI)的任务。RoIAlign使RoI统一大小相对应的功能。盒子分支预测每个RoI的类和盒子的修正系数相对于实际的盒子。面具分支估计对象的特定形状的盒子。

最后,预测结果的语义分割和力量分割合并获得全景分割结果。全景分割要求每个像素的输出预测结果只能分配一个惟一的类和实例数量。实例对象之间的重叠与高信心被公认为对象。实例的一部分分割和语义分割重叠选择实例分割的结果。

3.1.2。深度估计的驾驶环境

城市道路驾驶环境下深度信息代表了物体之间的距离信息的驾驶环境和观察点。深度估计是估计距离值的大小;即深度估计是指像素的深度。根据RGB图像的信息,对象之间的距离(对应于图像中每个像素),相机估计。假设输入图像图像深度D、深度估算的任务是找到合适的函数图像信息映射到深度信息,如以下公式所示:

深度估计是相似的语义分割,它们都属于像素密度预测任务。因此,深度估计的分支也可以使用完整的卷积网络。深度估计的基本网络结构类似于语义分割分支。深度估计的输入分支也是金字塔的四个分支输出特性的网络。每个特征图的大小是1/32,1/16,1/8,和1/4,分别和渠道的数量是256。每个分支受到多个隆起和upsampling获得一个张量的大小年代和渠道的数量C

卷积和upsampling操作的数量是由超参数年代。如图2,当年代= 1/4,卷积的深度估计是由8倍和7倍upsampling。FPN-P1(即。,the first feature layer extracted by FPN) performs one convolution operation, FPN-P2 performs one pair of convolution and upsampling operations, FPN-P3 performs 2 pairs of convolution and upsampling operations, and FPN-P4 performs 3 pairs of convolution and upsampling operations. After these four output branches are added, a convolution operation and an upsampling operation are performed, and then the depth prediction value is obtained.

3.2。Multivehicle跟踪和运动估计
3.2.1之上。多目标跟踪的车辆

多声道移动车辆的主要目的是获取多个车辆的位置和速度信息。然而,移动车辆的位置和速度的计算困难主要在于两个不同坐标系之间的匹配和追踪的对象。

至于车辆视频数据,两帧图片是完全独立的编码形式。因此,前两帧之间的车辆必须跟踪车辆的状态可以计算。实现多目标车辆轨迹跟踪的关键在于检测的车辆在一个单一的框架和框架之间的匹配的对象。对于单帧车辆检测,检测帧间框架是由卡尔曼滤波优化根据视频数据的连续性。然后,匈牙利匹配算法应用于帧之间的匹配对象。

具体来说,车辆轨迹多目标跟踪的算法流程如下:首先,每一帧的图像是不断地从视频数据中提取并输入全景分割网络。全景分割网络图1用于检测图像中的车辆和输出检测框架。第二,跟踪检查的状态。然后,采用卡尔曼滤波器来估计的最优状态检测框架。此外,匈牙利匹配算法匹配跟踪的车辆。最后,如果成功跟踪匹配检测框架,更新追踪某一状态。跟踪算法的流程图如图3

卡尔曼滤波器是最优估计算法相结合的测量数据与预测模型实现车辆位置的最优估计。自车位置的测量数据是吵闹,测量值不准确地反映汽车的真实位置。此外,噪声的预测过程是不确定的,因此不能完全预测模型用于估算车辆位置。因此,卡尔曼滤波器可以提供更好的评估结果,结合他们降低方差。

如图4卡尔曼滤波器的工作原理解释说,直观地通过使用概率密度函数。附近的车辆位置的预测价值 ,和附近的车辆位置的测量值 方差代表估计的不确定性,车辆的实际位置是不同的测量位置和预计的位置。最好的估计车辆的位置 的组合预测和测量值。最好的估计概率密度函数是通过将两个概率函数相乘,和这个估计的方差小于先前的估计。因此,卡尔曼滤波可以估计车辆的位置在一个优化的方法。

如方程所示(2),卡尔曼增益K指的是模型的预测误差比全景分割检测系统的测量误差估计的最优状态过程中检测框架。 ,它表明,预测误差为0,检测框架的最优状态完全取决于模型的预测值。当 ,它表明,观测误差为0,检测的最优条件帧的检测结果完全取决于全景分割系统。

的原则,利用卡尔曼滤波估计的最优条件检测框架是最优估计误差协方差最小化 在这种情况下,估计值更接近实际值。

匈牙利算法(40)是一种组合优化算法,解决了任务分配问题在多项式时间内。匈牙利算法主要用于解决一些问题两偶图匹配,也是用来解决多目标跟踪中的数据关联问题。

帧之间的匹配的对象本质上是一个两偶图匹配问题,所以本文采用匈牙利算法解决问题的对象框架之间的匹配。假设有三个追踪者在前一帧,卡尔曼滤波器预测,当前帧中有三种车辆。在当前帧,三个车辆检测器检测到的。预测某一款车在框架有可能检测到帧匹配每辆车。匈牙利算法是找到之间的最佳匹配预测和检测到帧,如图5。每个预测帧,每帧检测成本(不可靠),然后预测帧检测帧形成一个成本矩阵。匈牙利算法得到匹配结果两个坐标系之间的变换矩阵和计算成本。

成本的定义矩阵将直接影响匹配结果的质量。从检测帧的位置的角度来看,由于帧之间的时间间隔短,车辆的移动速度是有限的,检测两帧之间的帧相同的对象应该相对较近。从物体的外观的角度来看,这对相同的对象也有类似的特点。因此,成本矩阵的设置将被认为是距离和功能两个方面的差异。

因为匈牙利算法属于最大匹配算法,匹配将在最大的程度上完成。有不断的车辆离开的场景中摄像机的角度;与此同时,新车正在进入相机的视角。提高匹配精度,基于Mahalanobis距离和外观距离筛选进行匹配的结果。当Mahalanobis距离和外观一定匹配两个相应的检测帧之间的距离小于某个阈值,匹配被接受;否则匹配是废弃的。

3.2.2。Multivehicle运动估计

车辆的位置和速度在驾驶环境可分为横向和纵向根据不同的方向,也就是说,横向距离,纵向距离,横向速度和纵向速度。在不同的坐标系统,表达的方式是不同的。如图6(一),有世界坐标系统 ,相机坐标系 位置的摄像机坐标系统的起源在世界坐标系统 ,和速度状态 是相机的速度分量坐标系统的 世界坐标系的方向 是相机的速度分量坐标系统的 世界坐标系的方向。美国的汽车在不同坐标可以相互转换。车辆的状态在世界坐标系统 的矢量和相机在世界坐标系统的状态吗 和车辆的状态在相机坐标系统

距离计算包括横向和纵向距离的距离。估计的纵向距离,可以从深度估计获得深度信息网络在方法部分。计算的横向距离,它可以估计通过其几何与纵向距离的关系。

如图6 (b),车辆在镜头前的坐标在摄像机坐标系中 车辆是摄像头,成像和图像坐标系中的坐标 光形成的两个三角形相似,它可以来源于相似三角形的性质: 在哪里 是相机的焦距。

计算车速时,它首先需要确定横向和纵向距离的变化 对象的两个相邻帧图像记录的相机坐标系。然后,根据位移和速度之间的关系,对象的横向和垂直速度在摄像机坐标系中可以获得。 在哪里 是两个框架之间的时差,每秒的帧数的倒数的摄像头记录下来了。

通过计算相对横向和垂直距离和车辆之间的相对横向和垂直速度,可以估计多个车辆的运动状态,这样可以进一步研究多个车辆之间的相对关系。

总之,使用多目标跟踪算法,优化车辆检测,车辆帧间匹配的问题解决。通过深度信息和坐标转换方法,移动车辆的位置和速度估计,以便多个车辆之间的相对关系。

4所示。模型训练和案例研究

4.1。驾驶环境知觉实验
以下4.4.1。全景分割实验的驾驶环境

使用的数据集训练是Mapillary景观数据集(MVD) [41]。MVD是一本小说,大规模、街道图像数据集包含25000高分辨率图像,平均每个图像的860万像素的数量。培训和验证数据包括18000年和2000年的图像,分别,剩下的5000张图片形式的测试集。

失去整个全景分割网络由两部分组成,即语义分割分割损失损失和实例。全景分割的损失 在哪里 是两个subpartition任务之间的损失调整因素。

语义分割损失 类的语义集预测, 是实际的一类给定图像的像素 , 是图像像素的概率值吗 属于类C。失去一个图像的语义分割计算根据以下方程:

实例分割损失。实例分割的损失由三部分组成:项,盒子,和面具。因此,实例分割的损失

项的损失的计算。损失的判断是否存在一个对象的边界框 ,和边界框的位置 样本对 ±既包含一对阳性样本 和一双负样本 是实际的边界框吗 , 预测边界框吗 的概率是一个对象包含在吗 在项预测。 指的是默认的帧 指的是光滑的损失。

盒子的损失的计算分支。框类预测的损失 ,和边界框的位置 样本对 包含积极的样本对集 和负样本两集 是对应于实际的类边界框吗 , 的概率是预测框属于类

面具的损失的计算分支 二进制掩码对应对象吗c在边界框 , 二进制类的面具吗 预测的面具分支 的概率是 属于类 是面具的边长,28。

整个培训过程的损失图所示7。如图7,损失价值不断降低,趋于稳定与进步的训练,训练结果表明收敛,网络设计合理,训练策略是正确的。

训练模型用来预测的形象MVD验证集和计算模型的精度评价指标(RQ(识别质量),平方(分割质量)和PQ(展示全景的质量); )(42全景的分割,如表所示1。验证集的PQ值达到15.224%。与其他方法的结果相比以前的研究(43),识别效果,本研究是很不错的。

预测结果的可视化图所示8。图8(一个)显示语义分割的结果,准确地划分道路,人行道上,绿化,建筑,和天空。图8(c)显示了检测和分割效果实例的分割分支,它准确地检测并将车辆、行人、交通信号灯和支柱。图8(d)的分割融合语义分割和实例。

4.1.2。深度估计实验的驾驶环境

数据集用于培训的深度估计算法是城市深度数据集44]。城市深度数据集收集双目图像计算了双目摄像机和SGM算法(45]。现场包括5000多个城市的城市道路在不同季节的图片在欧洲,包括2975年的训练集,验证集,和1525年500年在测试集。

损失函数使用berHu [46损失函数,计算公式 在哪里 像素的深度预测价值吗 ; 像素的实际深度值吗 ; 图片像素的总数;

ResNet-FPN权重和全景模型的分割部分保持不变,只有深度估计分支的重量训练和更新。优化模型训练算法采用随机梯度下降算法,在动量参数设置为0.9,重量衰减系数设置为0.0001。基本的学习速率设置为0.001,模型的优化迭代的数量是20000,和批处理大小为每个迭代优化的图像是4。的特征地图大小深度估计分支结构参数年代1/4,特征地图频道号码吗C等于128。

深度估计的损失变化在训练过程如图9。损失迅速下降在2000年第一次轮培训,然后基本上稳定在5000年后轮迭代。

训练模型用来预测的图像验证集城市深度数据集。根据评价指标的深度估计,计算模型的准确性表所示2。深度估计中使用的评价指标包括相对误差( ),均方根误差( ),在对数空间(均方根误差 ),和准确性( )(即在不同的阈值。、准确性阈值 )。可以看出,像素的数量与预测值之间的偏差率和真实价值 , , 分别占63.6%、81.7%和90.5%。与相似的方法在目前的研究中(47),这个方法使用在我们的研究中具有良好的性能。

数据10(b)和10(c)是实际和预测的可视化图深度值,分别。深度预测的总体趋势通常是正确的。从近到远,颜色加深,和深度值逐渐增加。从局部的角度来看,深度预测成功捕获车辆和行人的位置和范围。深度小于周围,有一个突然的变化的深度值的轮廓。

4.2。多车辆的运动估计
4.2.1。准备交通仿真试验设计

评估的准确性的状态估计多目标车辆的行驶车辆需要真正的状态在前比较。前面的车辆的运动状态数据是通过交通仿真实验,使用交通仿真软件SiLab,多人驾驶交通仿真软件。不仅是现场高度可再生的,而且每辆车由司机控制有一定驾驶经验,模拟真实的交通驾驶环境在最大的程度上。SiLab可以记录和输出每个车辆的位置和运动信息。这个实验的记录数据用于后续计算主要是时间戳,X设在和Y设在坐标和速度的车辆。模拟驾驶系统使用罗技G29模拟器控制方案,包括方向盘、踏板、换档器。整个多人驾驶平台配备1主驾驶位置和4普通驾驶位置,5人可以同时驱动,如图11(一)。

模拟驾驶场景设置为单向三车道,如图11(b)。具体实验计划运行三辆车(标记为A、b和C)在多人同时SiLab驾驶平台。驾驶车辆的观点被认为是相机的角度来看,和车辆B和C作为观察对象。

在模拟驾驶实验中,使用了常见的城市道路上车辆的速度,从60公里/小时到80公里/小时。移动速度会影响识别和跟踪多目标跟踪的准确性(48]。当车辆速度慢,维护检测结果的影响是稳定的。当车辆速度快,检测结果可能出现变动。模拟驾驶实验结果表明,该检测多目标跟踪精度约为86.3%时,车辆速度在40 km / h - 60 km / h;检测精度约为75.8%时,车辆速度在60公里/小时到80公里/小时。

4.2.2。移动车辆距离和速度估计

车辆运动状态数据的采样频率设置为60 Hz SiLab,和开车的频率角度记录也等于60赫兹。通过这种方式,每一帧的驾驶角度对应于在SiLab一块数据。车辆的运动状态数据的格式从SiLab输出如表所示3

根据横向和纵向运动之间的距离两个不同时刻,汽车的横向和纵向速度,计算B和C。根据方程(12)和(13B和C),汽车的坐标在摄像机坐标系中以汽车为中心计算。根据方程(14)和(15),横向和纵向的相对速度汽车与汽车B和C作为计算参考系统。

上面的算法是在Python中实现软件。开车的视角的视频处理,和汽车的运动状态估计,见表4

如图12以B汽车为例,汽车作为相机的角度来看,车辆的相对位置和相对速度B是预测并与运动的实际状况。

在这项研究中提出的算法的估计结果的横向相对距离行驶车辆在图所示12(a)算法的估计价值与实际价值是一致的。从定量的角度来看,横向相对平均误差的距离是0.186米,平均相对误差为11.5%。纵向移动的相对距离的估计车辆如图12(b)。该算法具有更好的精度估计在50米的距离,和有一个大的错误估计的距离超过50米。更大的错误的原因是单眼视觉深度估计的相关特征。有更少的信息,在远处误差越大。从定量的角度来看,纵向相对平均误差的距离是1.86米,平均相对误差为7.0%。

移动车辆的横向相对速度的估计图所示12。由于横向相对距离误差小,横向相对速度的估计价值与实际值一致。横向平均误差的相对速度是0.186米/秒,平均相对误差为1.5%。估计结果的纵向相对速度移动车辆在图所示12(d)算法的估计价值。类似于实际价值,有一定的波动。计算后,纵向平均误差的相对速度是0.37米/秒,平均相对误差为5.0%。

一般而言,实验证明,车辆多目标跟踪算法研究中是可行的和具有良好性能的高精度估计的距离和速度。

5。结论

驾驶环境的感知城市道路和车辆跟踪和运动状态估计的实现是辅助驾驶和自动驾驶的不可或缺的部分。本研究提出了一种新颖的多目标车辆跟踪和运动状态估计方法基于一种新的驾驶环境感知系统。多目标车辆跟踪与先前的研究相比,本研究中所开发的驾驶环境感知系统可以获得丰富的驾驶环境之间的信息不受干扰的车辆。驾驶环境感知系统建立了一个轻量级的神经网络和增加了深度估计基于全景分割来估计车辆运动状态之间的关系,探索多种车辆。

首先,训练一个神经网络,支持端到端是设计和实现。网络功能是由ResNet提取。功能集成的功能金字塔作为输入的语义分割分支和实例分割,分割两个分支的输出是合并获得全景分割的结果。训练后MVD和预测,验证的PQ价值将达到15.22。最终的模型已经达到一个高水平的准确性和视觉效果。估计分支旨在实现单眼深度范围的道路场景。通过培训和预测城市深度数据集,验证集的相对误差为0.276,并证明了该模型可以实现良好的单眼视觉的深度估计精度。

其次,基于驾驶环境的识别结果实现全景细分,使用卡尔曼滤波器和匈牙利算法实现多目标跟踪的车辆。结合信息获得的深度估计的距离,估计车辆的相对速度。多目标跟踪算法是用来解决匹配问题的计算。模拟驾驶考试的结果显示如下:(1)外侧的平均误差相对距离是0.19米,1.86米和纵向方向。(2)横向平均误差的相对速度是0.19米/秒,和纵向方向是0.37 m / s。仿真实验证明了算法在多目标追踪执行好。

本研究的结果有助于智能车辆的发展,提醒司机可能的危险,帮助司机的决策,提高交通安全。具体而言,本研究可以用来识别道路和车道标记和车道偏离警告司机。当车辆接近车道标志,司机提醒声音或图像的形式(49]。研究中的multivehicle跟踪和运动估计可以用于一个自适应巡航控制系统。根据前面的车辆相对速度和距离,它自适应地控制自己的刹车和加速器保持一定距离和类似的速度与前面的车辆。在实际驾驶环境中,数字平台可以建立与司机驾驶环境感知系统。通过驾驶记录器获得其他车辆的图片或视频,数字平台实时计算多个车辆的位置信息并显示多个车辆的轨迹随时间的司机。

深层神经网络框架提出了这项研究在计算高度共享,和任务分支可以添加或删除方便地根据实际需要。多目标车辆跟踪仅通过图像分割依赖于容易获得数据,如图像和视频,和设备安装方便,使用简单。然而,由于使用单眼视觉测距的深度估计,有一个问题的有限精度估计车辆的运动状态。在未来,我们将尝试使用双目测距的深度估计获得更准确的为多个汽车运动状态信息。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关提交的手稿。

确认

这个项目是国家重点支持的研究和发展项目中国没有。2017 yfc0803902),中央大学的基础研究基金(没有。22120210431),中国国家自然科学基金(没有。52102416)。