文摘

自主驾驶车道标志检测是一项重要的任务。许多研究人员已经提出了很多模型。但驾驶环境要复杂得多,尤其是对于一些具有挑战性的场景,如车辆阻塞,严重马克退化,沉重的阴影,等等。很难检测出车道标志在有限的地方接受域上面的场景。出于这个原因,我们提出一个基于多线程self-attention车道标志检测网络。它能找到车道标记点之间的空间关系在全球视角和扩大其功能映射的接受域同样。为进一步提取上下文和全局特征,融合全球信息和本地信息预测分类和位置回归。最后,它能促进车道标志检测精度大大特别是在具有挑战性的场景。在TuSimple基准,其准确性是95.76%压倒性的其他方法,及其FPS是170.2,这是第二。在其F1 CULane基准达到75.55%,FPS达到170.5。 Both of them are the highest compared to other methods. Our proposed model establishes a new state-of-the-art among real-time methods.

1。介绍

车道检测(1,2基于视觉传感器)的自驾领域的核心技术之一。目前,它不仅是一个重要的基础车道偏离警告和车道保持功能也是关键技术完成ADAS(先进驾驶辅助系统)3,4]。然而,有很多种类的车道在实现世界。例如,有固体,打破,破折号,合并和分裂车道。莱茵模式是不同的。除此之外,还有一些具有挑战性的驾驶场景,包括那些涉及沉重的阴影,严重的车辆阻塞,马克退化严重的道路。尽管如此,有一些问题,如合并和分裂。在城市环境中,车道易受光照、负载损耗、闭塞等。它是更具挑战性,使更高的算法泛化和鲁棒性。

解决这些存在的问题,许多研究人员提出了一些不同的技术解决方案。在传统的计算机视觉,这很大程度取决于一些假设,如车道和边界是连续和并行(5]。此外,它利用边缘检测算子,直方图,先验知识,识别提取车道候选点。最后,它利用直线拟合或踝关节(6- - - - - -9转换获取车道线参数。最近,CNN的语义分割的发展(10- - - - - -16)或实例分割(17- - - - - -21最关注。它提取像素之间的空间或结构信息或切片的过程中车道检测(22- - - - - -26]。虽然可以解决一些具有挑战性的场景像车辆阻塞,mark退化严重的道路和沉重的阴影,其巨大的计算成本和更慢的速度影响实时应用和性能,如图1。递归神经网络,因此,长期短期记忆,封闭的复发性神经网络,和注意力机制已经牢固确立。他们在处理时间序列信号处理和序列建模。特别是对于车道线闭塞,它可以从连续帧中提取文本或语义信息。

在这项工作中,我们提出一个基于多线程self-attention车道标志检测网络(27]。它是一个轻量级的应用模型和实时应用程序。它的精度比最先进的模型。TuSimple和CULane作为基准来评估我们的实验结果。本文有三个扩展,如下:(我)一个车道标记检测网络基于锚和多线程self-attention:我们提出一个新的网络体系结构行锚结合多线程self-attention。它促进准确的价格相比很多(17,28- - - - - -32]。(2)多线程self-attention机制:我们提出一个多线程self-attention方法提取全球信息,进一步提高了性能。(3)演示实验:两个数据集收集绩效评估。一个是TuSimple数据集,另一个是CULane数据集。这两个标准是用于定量评价对于不同的场景,如城市车道和农村车道,在日夜的条件。它可以促进自主驾驶的研究和开发。

在过去的二十年里,研究者们在车道检测技术做了很多努力。尤其是DCNN LSTM,注意出现,它带来了新的观点的车道检测方法。完全,这些方法分类类别等传统方法,分割网络,anchor-based方法和引起的方法。在本节中,我们简要总结每个类别。

2.1。传统计算机建立车道检测

一般来说,传统的计算机视觉方法主要关注灰色图像,边缘检测算子,和ROI检测车道边缘。一般来说,车道检测分为两个阶段。一个阶段是车道边缘搜索和检测。在车道边缘检测处理,这需要IPM的转换,Sobel算子,高斯滤波器,可操纵的过滤器(33],伽柏过滤器(34内核在不同方向,梯度,颜色和纹理。另一个阶段是车道配件。所以,许多方法是广泛利用适合车道线;输入是一个灰度图像,而不是原始RGB图像。它带来了multipreprocessing方法如模板匹配(35],Hough变换,极地随机HT [36),曲线拟合,Catmull-Rom花键(37],B-snake [38),等等。

2.2。基于分割的车道检测

全球信息、本地信息、文本信息和语义信息是车道检测非常重要,特别是在车辆遮挡的场景。分割网络加剧像素在一个更大的接受域之间的沟通。主要研究方向如下:(1)作者在[Pixel-wise细分:39]提出深黑色的卷积和双线性插值获得更大的接受域为了获得更高的分类精度。它利用深黑色的空间具有不同采样率的金字塔池总多尺度特征图。它还需要完全连接CRF (18)与像素完成车道边缘精确定位和分类。但其巨大的实时应用程序计算很无聊。为了更好的效率,作者在17提出空间CNN(基本),这限制了通信从切片而不是像素到像素。每一层需要前输入应用卷积操作和非线性激活,并将结果发送给下一层顺序。同样,基本把行或列的特征映射到相互通信。因此,它的价格相比大大减少了计算39]。但其计算速度低于10帧每秒。(2)基于锚Row-wise或列分割。车道检测基于pixel-wise分割(40- - - - - -42)需要更多的计算成本,它也不能应付困难的条件下,如严重阻塞和极端的照明条件,因为它有限的接受域。因此,作者在43一点]提出一个行操作网络面向行锚款。它是基于ResNet支柱。车道检测被描述为选择特定的细胞。损失损失,其损失函数包括分类位置,和结构的损失。行锚是预定义的,包括 维度。所以它可以更加关注全球信息和上下文信息。计算成本与锚密切联系号码,锚维度,和车道数量;它与图像像素无关。因此,大大降低了计算成本,促进车道检测精度no-visual-clue条件(44]。在一些研究中,作者提出了一种稀疏自上而下制定有一个很大的接受域相反的逆配方分割网络(28,45- - - - - -47]。原因是传统的分割网络有一些缺点,比如它计算速度慢得多,no-visual-clue问题。解决,混合锚框架提出了包括行anchor-driven和column-anchor-driven表示,前者在哪里更好的自我车道检测,后者是对侧车道检测。应对全球信息,提出了顺序分类损失,包括基础分类损失和数学期望损失。类之间的空间是连续的。

2.3。车道检测基于注意机制

作者在文献[48提出一个attention-guided巷拘留模型。它利用不同的脊椎提取特征,如ResNet-18 ResNet-34, resnet - 101,等等。但提取特征图谱的DCNN网络像ResNet模型容易导致一个狭窄的接受域。所以采用self-attention机制来产生一个权向量为每个局部特征向量。最后,它实现矩阵乘法来获得全球地图功能。通过这样做,它可以预测巷遮挡条件下的存在及其位置。(49]提出expanded-self关注(ESA)模块提取全局上下文信息。它的主要目的是将ESA分为颅脑(水平expanded-self注意)和视频电子设备标准协会(垂直expanded-self关注),分别。每一个的概率预测沿水平和垂直方向的车道。它很容易看到扩大接受域和获得全局上下文信息。所以它可以促进车道检测精度,尤其是在闭塞的场景。

3所示。建议的方法

在本节中,我们提出了一个基于多线程self-attention车道检测网络。与此同时,它结合了一个典型的DCNN ResNet-34等网络有两个预测子网,用于分类和回归。

3.1。系统概述

车道线表示各种不同的形状,类型和颜色。例如,它包括实线,虚线,直线,曲线线曲率不同,新兴线,分裂线。除了这些,有些困难的条件下很难处理,如沉重的阴影,马克退化严重,车辆阻塞。尽管DCNN能够提取特征图谱与隆起和池操作不同的内核大小和进步,但池业务扩大接受域而造成大的位置偏移。所以它需要接受域之间的权衡,分类,和位置精度,尤其是在具有挑战性的环境。

出于这个原因,我们设计一个多线程self-attention机制采取DCNN作为输入的特征图谱。为了获得全球信息,我们利用多线程来匹配锚向量在不同的空间位置。每个代表全球语境和语义信息之间的锚,如图2。所以它可以总结和融合全球信息同样扩大接受域。因此,它也提高了分类和定位精度后向预测全球定位网络。

3.2。网络设计
(1)骨干:其骨干ResNet-34,从torchvision.models进口。ResNet-34四层和一个完全连接层。每一层都有不同的残差,三,四,六,分别和三个。它的卷积核是三个多三个。通道数字64、128、256年和512年分别。ResNet-34特性映射的输出 减少尺寸和计算成本,应用卷积1×1到它并生成channel-wise特征映射 (2)多线程self-attention:我们建议 , 是锚的数量。地图上的点特征 是由锚。每一行锚为代表 坐标系, 是等距的,预先定义的。 抵消,这是预测之间的水平距离和锚线。 预定义的数量在吗 方向。很容易看出一个多线程机制可以项目 维度查询,键和值 包括不同,学习线性投影矩阵 维度查询,键和值,例如 在self-attention机制,修改点积的注意,我们计算它的鳞片点产品 是由 喜欢过程如下: 并行执行的关注功能后,他们将连接如下: 最后,我们将应用线性投影在多线程 如下: 在预测矩阵如下: , , , 每一个 是正面的数量显示为图吗3。我们也注意到 所以, 一样的尺寸吗 (3)分类模型和回归模型:在进入分类和回归模型之前,我们将连接 在一起。此外,它变成了一个增广特征矢量 因此,它将被推到分类模型 和回归模型 最后, 概率预测车道线 概率在一起时 代表了车道线的数量和另一个类是背景或无效的建议。 预测补偿设置 有效的补偿的数量吗 方向。(4)损失函数:在培训的过程中,我们发现,简单的底片可以压倒训练,导致退化模型。为了解决它,我们建议focal_loss [49,50)作为损失函数的分类模型,它遵循:

在我们的论文中,我们设置 回归模型,我们采用平滑L1损失函数。所以,我们的损失函数一起培训结合了这两种损失函数。这是定义如下: 代表的分类和回归预测输出锚 ,分别为, 地面实况锚吗 为平衡因素 ,我们设置

4所示。实验

广泛使用的TuSimple [51)和CULane车道检测数据集被用来评估我们的模型。TuSimple数据集,有6408带注释的图像。我们把它变成一个训练集(3268),一组验证(358),和一个测试集(2782)。最大的车道标记数量是5。在CULane [29日,52]数据集,也分为训练集(88880),一组验证(9675),和一个测试集(34680)。最大的车道标记号码是4。

4.1。实现细节

每一个输入图像分辨率 需要15时代CULane TuSimple和100年时代,其图像数量小于前者。学习速率设置为0.0003,批量大小设置为8,总锚号码 设置为1000,抵消号码吗 设置为72。个人电脑上的所有实验计算11th创国际米兰(R)的核心(TM)(电子邮件保护)GHz, NVIDIA GeForce GTX 1660超级。

4.2。TuSimple数据集
4.2.1。准备数据集介绍

TuSimple数据集包括6408个片段,每个片段由20帧中收集1秒。最后一帧标记与地面车道真理。额头上的所有图像场景在高速公路开车。注释和测试的重点是当前和左/右车道。

4.2.2。评估和测试指标

为了比较性能与其他方法,我们使用默认TuSimple计算精度指标。这是如下: 在哪里 是真正的数量预测当前剪辑和莱恩点 地面实况巷点的总数。弄点是作为一个真正的积极如果它相应的标签弄点的距离小于或等于15像素。而巷与距离大于20点作为底片。他们之间的假阳性和假阴性报告和锚也下降了。多线程车道检测模型的测试结果基于TuSimple数据集在图所示4

4.2.3。结果

来验证我们的模型的准确性,我们与一些先进的模型进行比较。我们选择不同的脊椎,比如ResNet-18 ResNet-34。定性结果如表所示1。我们知道车道标记检测广泛应用于实时条件。所以,它需要很高的实时要求。从表1,我们可以很容易地看到,我们提出的模型的运行时速度可以达到从167.5到170.2。一般来说,相机帧速率大约是30至60左右。所以它可以应付它,它不会导致堵塞。更重要的是,自驾的算法流由感知、预测、计划和控制。从感知到计划,一般来说,不能超过100毫秒。因此,最好不要超过25 ms。我们提出的模型的FPS女士5.875和5.970毫秒之间。只有23.5%到23.88%。因此,它可以满足实时要求。但是因为TuSimple数据集的场景不是相对复杂,我们的建议模型有一个巨大的提升空间。

4.3。CULane数据集
4.3.1。数据集介绍

CULane数据集(52)由55小时的视频组成的城市,高速公路,和农村场景。所有的图像的分辨率 总共有133235帧。他们分成训练集88880帧,9675进行验证和34680进行测试。测试集包括9具有挑战性的驾驶场景,如正常人群,突出,影子,箭头,曲线,十字架,夜晚,没有线。

4.3.2。评估和测试指标

来判断模型是否正确检测到一个车道标记,F1的指标是根据CULane数据集的官方参考。它认为车道标志作为一个与30像素宽度。因此,预测的借据大于0.5被当作真正的优点。多线程车道检测模型的测试结果基于CULane数据集如图所示5。度规 给出如下:

5。结果

我们的模型的结果,以及其他先进的模型,如表所示2。我们知道CULane数据集与TuSimple相比更复杂的数据集。它更有挑战性的场景,比如人群,突出,影子,晚上。所以,我们也看到,我们的建议模型是最好的在具有挑战性的场景中,如人群,突显出,晚上。在最有挑战性的场景中,我们取得更好的结果,除了影子场景。我们也知道,车道标记检测对时间很敏感。从CULane数据集的结果,我们可以看到,FPS我们提出的模型在167.8和170.5之间。也就是说,需要5.865毫秒5.959毫秒获得图像输入输出通道标记点。从之前的分析,我们也可以很容易地看到,它不仅可以满足实时要求的相机帧率还自驾场景。

5.1。烧蚀研究

这个实验评估的影响different-head self-attention机制模型。在表3,我们可以很容易的看到2-head self-attention模型达到最高的精度,这是95.76%。但是每个different-head self-attention模型显示精度没有明显的差异。它长大后只有0.33%的最高和最低之间。在表4,我们也看到,8-head self-attention颠覆了所有其他的建议模型F1同时增加0.12%。的2-head self-attention模型达到最高的回忆而领先0.12%相比其他两个方案模型。在精密8-head self-attention,它优于其他方案模型,增加了约0.47%。分析的结果TuSimple数据集,我们选择8-head self-attention作为我们的车道检测模型。我们的主要目的是F1和精度。但我们也知道不明显的区别。

6。结论

在本文中,我们提出一个基于多线程self-attention车道标记检测网络。它结合了行锚定与多线程self-attention提取全球信息解决具有挑战性的场景像车辆阻塞。它还实现了先进的性能。TuSimple数据集,我们的建议的方法达到第二高的精度,速度远远超过top-F1方法(28]。CULane数据集,我们的建议方法优于其他方法。此外,我们还发现,我们建议的方法可以广泛应用于图像分类问题。在[53),这部分涂片图像使用适当的阈值。提出了一种纹理描述符名为修改制服(MULTP)当地的三元模式。然后,使用一个优化多层前馈神经网络对子宫颈抹片检查图像进行分类。提出了深使用遗传算法优化神经网络的隐藏层和隐藏的节点的数量。在[54),局部二进制模式的一个新版本,叫做完成当地四方模式,提出了提取织物图像局部纹理特征(53,54有足够的关系。尽管我们提出建议的车道标志检测模型,有一定的局限性。例如,如何使每个独立负责人为了集中不同的子空间,如何设置合理的锚定数量和抵消数量都需要进一步的研究。除此之外,它还需要权衡计算效率和计算复杂性的模型。为一个更好的方式在未来,我们将寻找一个新的体系结构综合结合encoder-decoders, RNNs,甘斯。

数据可用性

之前报道TuSimple和CULane数据被用来支持本研究的发现和可用https://github.com/TuSimple/tusimple-benchmarkhttps://xingangpan.github.io/projects/CULane.html。这些先前的研究和数据集是在相关地方引用文本中引用(16,41,47- - - - - -52]。

的利益冲突

作者宣称没有利益冲突。

确认