文摘
使用多通道传感器进行车道线分割已成为一个越来越明显的趋势。为了实现健壮的多通道融合,我们引入了一个新的多通道融合方法和证明其有效性在一种改进的融合网络。特别地,提出了一种多尺度融合模块从数据中提取有效的特征不同的模式,和一个通道关注模块用于自适应计算熔融特性渠道的贡献。我们验证了多通道融合的效果KITTI基准数据集和A2D2数据集,证明了该方法的有效性在增强KITTI数据集。我们的方法实现健壮的车道线分割,高于4.53%的直接融合精度指标,并获得F2得分最高的79.72%。我们相信,我们的方法介绍了一个优化的想法多通道融合的模态数据结构级别。
1。介绍
可靠和健壮的车道线分割是自动驾驶的基本要求之一。毕竟,为了确保无人驾驶车辆的正确和合理的道路上驾驶,车辆必须能够第一次检测车道线。驾驶辅助系统提供决策依据自主驾驶控制模块通过车道线检测的结果1]。在本文中,我们专注于基于多传感器融合的车道线分割。
现有的算法依赖于相机,它提供了丰富的视觉环境的描述(2,3]。摄像机图像的原始高分辨率和高效的数组存储结构。它可以提供长途密集的信息良好的光和阳光明媚的天气条件下,它是有效的存储和计算。然而,当感知周围环境,相机的性能很容易受光强度和急剧变化(4,5]。与相机、激光雷达保留一个精确的三维点云的周围环境和直接提供精确的距离测量。虽然深度信息非常准确,通常激光雷达的测量范围只有10到100米,只能提供稀疏和不规则的点云数据。造成的空体素稀疏的点云将车道线检测的精度要求。挑战来了。
目前,大多数的遥感传感器的车辆在路上独立工作,这意味着他们几乎彼此交换信息。相反,各自传感模块处理数据的单个传感器感知结果,然后立即送到决策模块。这种方法增加了感知模块的数量,将一个很大的负担强加给机载计算资源的计算效率和决策模块(6,7]。从多个传感器信息的融合是一个日益增长的趋势,有效的自主驾驶的关键。多通道融合可以利用不同传感器信息和使用特性的互补融合,促进语义分割,从而提高车道线分割的准确性和效率,保证决策的正确性和及时性。
一些最近的研究探讨了使用相机的图像和激光雷达点云自动驾驶的车道线分割任务。由于成像角度的转换,相机图像不能描述准确的距离信息,并直接的方法使用车道线的二维摄像机图像分割是不可靠的8]。虽然激光雷达点云的深度信息已经存在,到目前为止,主要的成功融合方法是使用多通道数据的优点来补充摄像机图像与激光雷达的精确的深度信息。先前的研究多通道融合在一个二维空间,通常使用一个直接叠加法融合深度信息的点云数据与摄像机图像与一个固定的重量。另一个想法是融合多峰性(9,10];他们把它在三维空间中,充分利用距离的准确表征信息的点云数据,和三维空间中的数据融合。然而,相机图像和激光雷达点云数据的不同形式和有很大的差异11]。直接叠加融合方法忽略了多通道数据的特征,将抑制多通道数据的各自的优势,甚至可能出现的有效融合信息误判为噪声的负面影响。将多通道融合在一个高维空间,算法基于3 d检测往往需要巨大的计算资源,这是难以满足轻量级的和实时的需求自主驾驶(12]。出于这个原因,我们提出一种新颖的多通道融合车道线分割方法基于多尺度卷积和通道的注意机制。我们相信,多通道融合应重点关注融合特征空间,并使用合理的指导多通道融合的方法和权重。
为了充分利用多源数据的合理控制和使用,我们需要探讨一个问题:应该使用什么方法来促进语义分割获得更好的车道线分割的结果。为此,我们首先分析了基准数据集车道线分割。KITTI数据集,该地区被车道线图像中只有1.5%至2%,而类不平衡的问题相当严重。在本文中,我们希望在深入学习网络提取功能,它可以更有效地专注于车道线的特点,从而提高分割结果的质量。出于这个原因,我们使用多尺度卷积特性融合的多通道融合并介绍该频道的关注机制修改融合重量。结果如图所示1,我们相信车道线分割的任务应该找到一种方法来最大化的影响多通道数据的前提下确保数据的质量。
本文的组织结构如下:在部分2,我们分别分析了当前车道线分割算法基于相机图像和点云的现状,介绍了融合方法;节3,我们提出的方法和网络结构进行细节;部分4讨论了数据集的处理,以及应用后获得的实验结果和性能评价方法;节5,烧蚀实验是用来测量每个模块在该方法的贡献;在第6节,提出的方法进行了总结并提出了未来的发展方向。
总之,本文的主要贡献如下:(1)使用多尺度卷积的概念提出了多通道融合车道线分割;(2)ECANet [13)用于通道融合的重量校正功能,这有效地提高了车道线分割模型的准确性;和(3)拟议中的多尺度有效通道的关注(MS-ECA)可以广泛应用于多通道融合的领域,具有良好的流动性。
2。相关工作
2.1。车道线分割
传统的车道线分割使用canny算子检测亮度急剧变化(14],它被定义为一个边缘在一个给定的阈值,然后使用霍夫变换车道线。近年来,机器学习的出现促进了人工智能的发展,以及深度学习的广泛应用使得特性车道线分割算法逐渐成熟(15,16]。中国歌曲等。17)设计了一种自适应交通车道模型在脚腕的空间。模型的最大似然角和动态杆检测区域(ROI)的兴趣。这个模型还可以改善通过地理信息系统或电子地图获得更准确的结果。得到更准确的结果。新港锅等。18]提出空间CNN(基本),扩展传统的分层技术卷积的挤牙膏式卷积特性映射,从而使中像素之间的行和列之间消息传递层。贝他et al。19)设计了一个DVCNN网络优化前视图和视图顶部。前视图的图像是用来消除错误检测,顶部显示图像是用来去除nonclub-shaped结构,如地面箭头和文本,使用大量复杂的约束。条件提高车道线检测的质量。然而,由于相机的感光灵敏度,基于纯视觉的车道线检测仍有很大的挑战在性能和鲁棒性。
一些最近的研究探讨了使用多通道融合的检测和分割任务的自主驾驶(17,20.,21]。Andreas Eitel引入了多级训练方法,有效地编码CNN的深度信息(22),因此,学习不需要大深度数据集,通过强劲的数据增强方案学习的深度图像,它是腐蚀与真正的噪音模式(23]。Hyunggi曹et al。20.)重新设计了传感器配置和安装多个激光雷达对和视觉传感器。基于多传感器的测量模型的结合,他们提出了一种新的运动目标检测和跟踪系统。文献[24]研究行人检测的各个方面融合激光雷达和彩色图像卷积神经网络的上下文。这项工作样本点云成稠密深度图,然后提取三个代表3 d场景的不同方面的特性,并使用激光雷达作为一个额外的图像通道进行训练。然而,目前融合算法更加重视数据质量和网络结构,和多通道数据的特征,融合数据的表示没有注意。所不同的是,我们的方法很自然地选择融合重量和融合通道自适应融合和有效地显示了多通道数据的优势。
2.2。注意机制
注意机制最近被广泛用于学习重量分布(25),神经网络用于专注于输入数据的不同部分或功能地图,以便关注模块设计重量输入数据或功能的地图。建龙傅et al。26)使用一个分类网络和网络产生注意力的建议在每个目标的规模问题,定义了一个排名损失训练注意力的建议,并迫使最后规模获得一个分类的结果比以前的,所以建议关注提取目标部分更有利于细分类(27]。在分类网络,一个关注模块由两个分支添加(28):一个是传统的卷积操作,另一种是两个downsampling +两个upsampling操作;目的是为了获得更大的接受域作为注意力地图。高级信息更重要的是在分类问题;他们使用一个注意力地图来改善低级特征和突出的感受野特性更有利于分类。陈Liang-Chieh et al。29日)构建多尺度缩放输入图的规模。传统的方法是使用平均池或max池不同尺度的融合特性,他们建造一个注意力模型由两个卷积层自动学习权重不同尺度的融合。我们有经验发现,由于小比例的图像中车道线,整体空间注意的注意机制可能会干扰分割。因此,我们的工作更关注频道注意力机制在多通道融合的效果。
3所示。方法
在本部分中,我们介绍我们的网络的基本结构和介绍提出的多尺度卷积融合模块,以及相关的实验完成基于这个网络的一部分。
3.1。基线Multimodel融合
车道线分割是一个典型的进行像素级分割任务。我们建立了一个基于Unet基线融合模型30.]。如图2,其输入是两个模态数据,目前大多数是一样的融合方法。多通道数据后一起concat-fused卷积。基线模型是由一个编码器和译码器,训练有素的端到端和卷积核的卷积块的大小是33所示。基于Unet跳过连接,我们每个块编码器的输出与相应大小的一块译码器和使用不同级别的功能通过连接图的语义信息。
3.2。多尺度卷积融合
一般来说,对于一个给定的任务模型,确定卷积核的大小,大小一致的和卷积内核可以很容易地计算。然而,研究表明,对于给定的输入,如果网络能自适应地调整接受域的大小根据输入的多尺度信息,提取多尺度接受域下的特性,最后,用“选择”机制融合多尺度特性,模型的性能可以有效地改善。对于摄像机图像和激光雷达点云数据,尽管它们不是相同的输入数据,它们是一致的描述相同的场景。我们创造性地使用多尺度卷积来提取特征这两个模式。获得多通道特性在不同尺寸的接受字段,最后他们获得多尺度多通道融合的特征。
基于SKNet [31日)动态选择策略,我们也选择33和55大小卷积核多尺度卷积核。一般来说,一个相机图像将数以百万计的像素。相比之下,激光雷达的性能同样的场景常常只是成千上万的有效点。即使在点云完成处理之后,它仍然看起来稀疏而相机图像。因此,如图35,我们使用5大小卷积内核并使用3点云的分支3相机图像的卷积核分支,将更有利于原始有效信息的提取。为了进一步提高效率,传统的卷积的55卷积内核被替换为一个33卷积内核和2的卷积和扩大规模。
我们自然地使用保险丝在SKNet计算并选择业务融合的多尺度特性。我们嵌入全球信息通过使用全球平均池产生通道级统计。具体来说,c-th元素的年代通过减少空间维度计算HW: 然后,一个简单的完全连接层是用来实现准确的指导和自适应选择,提高效率和减少维度: 在哪里ReLU函数吗批处理规范化, 。最后,我们自适应地选择不同的空间尺度上获得横跨海峡的注意体重。具体地说,将softmax算子应用于channel-wise位数;在(3),紧凑的特征描述符, , 表示软注意向量:
在这个过程中,大小不一的卷积内核提供的接受域多尺度数据的两种模式,和大型卷积内核可以提取更有效的稀疏的点云数据的特点,对多尺度融合非常有帮助。此外,在使用的过程中通道级统计信息嵌入全球信息网络的非线性学习增加,减轻负面影响的粗糙的多通道数据转换成相同的功能空间在一定程度上,并提高了网络的学习能力。加权后的特征权重的多通道分支通道级别,每个模态分支的车道线特征的表达可以增加更好,这样可以更有效地提取车道线特征融合。
3.3。当地渠道互动融合的特征
在车道线的任务分割,图像中车道线区域的比例很小,这是一个严重的挑战,有效地从大量的提取车道线特征背景或噪音。在这种不平衡的数据,为了使网络结构自适应注意车道线的特性,我们使用一个有效的注意机制。从图可以看出,从网络中提取特征的过程中,由于不同的过滤器,特征提取的焦点从不同渠道特性是不同的。在这个过程中,一些功能渠道可以提取丰富的特性。信息和一些特色频道含有大量的噪声信息。通道在神经网络中,这些特性将堆放在行动序列分割任务。自然,如何加强这部分的有效特征通道成为一个问题。
同时,考虑到车道线分割的任务是无人驾驶的先决条件决定规划和实时要求高,我们使用的轻量级通道注意机制模型ECANet融合多通道融合后的特性。请注意,我们只讨论多尺度轻量级注意力的影响机制和多通道融合。通过引导注意力机制,我们计算每个特性的重要性通道融合功能的网络,让网络自适应学习每个特性的贡献通道车道线分割任务,和渠道特点做出的积极贡献细分将自适应增强;否则,他们将被抑制。
如图4ECANet的想法,每个特性的重要性频道将由建模、和邻近频道相关,和重量将计算每个特征通道周边邻居频道,以便它可以避免维损失而捕捉当地横跨海峡的交互信息。我们ECANet融入多通道融合车道线分割的任务,获得模型较低的模型复杂性和规模较小的网络参数。ECANet如图的网络结构5。
附近没有降维,ECANet计算k每个特性的渠道渠道集中在本身和使用相邻通道之间的相关性与本地信息进行交互。在这个频道重量计算,表现良好的车道功能渠道的有效特征线将得到更大的关注,这将导致积极的积极贡献特征通道附近。当通道尺寸,的价值k可以自适应地根据以下公式确定: 在哪里表示最近的奇数 。ECANet一样,我们组和2和1。在实验中,计算的结果k是一个奇数不超过9。
我们嵌入频道关注模块融合模块执行通道级体重校正后在多通道融合的融合特性。融合特性通过融合图像分支和点云之间的分支被用作输入通道的关注模块,和渠道关注模块的输出作为输入的下一层网络结构在最初的基线。网络结构如图5多通道融合的,整个模块和通道模块叫做MS-ECA(表关注1)。
4所示。实验
4.1。数据集的准备
目前的多通道车道线分割数据集相对缺乏。为了验证该方法,我们进行了广泛的基准数据集KITTI-Road实验(32]和A2D2 [33]。如图6,KITTI-Road A2D2相机图像和激光雷达点云数据集包括同步校准参数和地面真值。我们过滤掉复杂横条线或向前行数据集和使用剩余的数据来验证我们提出的方法和模型。
在数据集的处理,我们也过滤掉令人困惑的车道线,如在人行道上的标记和标志外车道线,以更好地满足车道线分割的任务要求。与TuSimple数据集相比,为了更准确地提取车道线功能,我们只使用可见车道线像素在图像背后的车道线的一部分而忽略障碍或其他无形的车道线,以确保网络学习完全车道线的特点。最后,注释数据集被重新进行像素级车道线标签。在培训中,我们使用相同的相机图像的特征提取模块提取特征点云。作为网络输入,原始的相机图像的初始大小和相应的点云是1242375年,为了减少计算开销,在数据预处理,我们重塑他们的大小以同样的方式(256、512),然后输入到网络。
KITTI和A2D2数据样本有限。为了更好的进行实验,我们需要进行合理的数据提高。在收购A2D2数据集,只有一个8-line和两个16-line激光雷达是用来收集点云数据。点云是非常稀疏,包含一些信息。相比之下,KITTI使用64线激光雷达完成点云收集,以及由此产生的点云的整个空间更丰富的描述。因此,我们使用KITTI数据集作为主要验证数据集。此外,我们执行策略如裁剪、亮度转换,并添加噪音KITTI数据和数据集获得了12次原始KITTI数据,这是由KITTI-AUG表示。所有实验都使用60%的数据作为训练集,30%的测试模型和剩余的数据验证的培训。我们使用的数据集的信息如表所示1。
4.2。培训过程
为了确保公平,所有实验上实现一个标准的培训平台,只有不同的神经网络方法。我们的硬件平台具有以下:8 GB的内存,三芯E5系列CPU、和NVIDIA泰坦XP GPU 12 g内存,操作系统是Ubuntu 16.04。所有的代码都是基于PyTorch框架。我们实现了端到端网络培训。为了加快收敛,我们用亚当优化算法,亚当的参数默认值。为了防止寻找最优解的难度训练期间,我们也使用一个学习周期衰变率LR: 我们用亚当优化算法(34)来训练网络的端到端,使用一个周期衰变学习速率LR: 在哪里 是最初的学习速率。所有实验的训练轮和批量大小设置为200,4,分别。在培训过程中,我们使用使用验证的策略设置来验证当前模型,而训练。具体来说,我们将使用当前的模型参数进行性能评估验证组每5时代的训练。如果当前的模型参数实现了性能升级,相应的重量文件和相关的验证结果将自动保存。
在语义分割任务,召回和准确性都是重要的指标来衡量模型的性能。对于车道线分割,召回率反映了车道线像素的比例在所有积极的样品正确预测的模型,和准确率反映真正的车道线像素的比例模型预测的结果。公式如下:
此外,为了更清晰的比较,我们也使用F-measure(包括F1和F2)和计算总体预测为“acc的准确性。”最后,为了验证该方法的实时性能,我们计算了FPS的车道线分割测试实验模型。
4.3。实验结果
实验表2比较性能的单模和多通道融合的车道线分割KITTI和A2D2的两个数据集。可以看出,在车道线分割的任务,只使用相机的数据有一个轻微的优势只使用激光雷达数据,和多通道融合single-modal数据具有明显的优势。车道线分割是一个像素分类的问题。相机像素好的数据连续性更适合车道线分割。激光雷达点云的数据结构是离散的点,和准确的描述边缘的车道线不如相机图像。这对我们也是一个重要因素,项目平面与摄像机之间的点云数据多通道融合。从实验结果的比较KITTI A2D2,可以看出KITTI数据的车道线检测效果更好,检测结果反映了数据质量和现场的困难。我们可以看到KITTI数据更为普遍,因此,在后续的实验中,我们将主要使用KITTI数据集和data-enhenced KITTI-aug。在实验中,我们将主要使用KITTI数据集和data-enhanced KITTI-aug。
我们进行了广泛的实验和KITTI-aug KITTI数据集。如表所示3single-modal之间,我们进行了实验比较,多通道直接融合和该方法。数据增强后,整体测试的直接融合效果单一模态和多峰性显著提高。其中,F2分数直接融合的多峰性KITTI-aug KITTI上高出5.9%,这表明,使用数据增强可以提高模型的鲁棒性。在使用该MS-ECA融合方法,模型的整体性能得到进一步改善,和F2 KITTI得分和KITTI-aug已经提高了6.46%和1.45%,分别。可以看出,精度指标的性能提高的主要因素已经显著提高,表明,提出的多通道融合方法MS-ECA可以有效降低模型的错误检测率的车道线。该融合方法是大有好处实际车道线的检测。
我们比较我们的模型与当前先进的模型基本(18],LaneNet [3],ENet-SAD [35]。所有模型都是从头开始训练,除了基本和LaneNet负载pretrained VGG-16 [36)权重来加速学习。公平地说,我们训练基本和LaneNet 60 000次迭代(相当于175时代)。3000年之后他们停止优化迭代。ENet-SAD,我们添加了悲伤在40 000次迭代策略。我们的模型训练200时代,他们几乎聚合后150时代。实验结果如表所示4。可以看出,我们的模型的特点是重量轻,轻的ENet-SAD相同的数量级。与目前最先进的模型,我们的模型有明显的总体性能优势,同时具有极高的FPS,达到59.5帧每秒。
4.4。烧蚀研究
为了验证每个结构的贡献提出了方法的性能模型,我们进行了广泛的烧蚀实验在不同的骨干,并使用ResNet34损失曲线如图7。如表所示5,我们进行了多尺度融合的性能实验模块和ECA模块方法,命名,F-MS F-ECA,分别和可视化结果如图8。可以看出,多尺度的影响模块和ECA模块的方法主要是提高精度指标。多尺度模块稍有优势获得的精度。ResNet50作为骨干时,获得的多尺度精度达到3.27%。可以看出从FPS,所有模型的帧速率保持高于50,和所需的计算多尺度融合模块更大,从而导致一个更显著增加推理模型的时间。我们的方法保证了高帧速率,而模型的整体性能很好。可以看出,随着网络的深化,所有模型的准确性是逐步改善。当ResNet50作为支柱,我们的方法相比提高了精度指标4.53%直接融合。值得注意的是,实际的车载自主驾驶平台需要携带多个深度学习模型。更深层次的网络参数、网络参数的数量就越大。 Although when ResNet50 is used as the backbone, our model still has at least 50 FPS on the current test platform. In order to ensure sufficient accuracy and lightness, we still recommend using ResNet18 or ResNet34 as the backbone for actual use.
为了验证的作用在车道线点云数据分割任务,我们分裂点云中的信息,融合了深度、高度、紧张度相机图像的实验。注意,这个实验使用ResNet34 pretraining参数,结果如表所示6。可以看出,三种类型的信息贡献不同的融合。其中,精度0.72增加了使用高度信息时,和回忆略有减少当使用紧张度和深度信息,但精度大大提高了1.42和1.37,分别。这表明紧张度和深度信息融合比身高更重要。值得注意的是,紧张有更好的效果在车道线分割的任务;然而,在其他融合任务,我们建议多注意点云的深度信息,它可以弥补缺乏深度信息的二维图像。
5。结论
本文提出优化多通道融合的多尺度融合和ECA模块对车道线分割的任务。通过提取不同尺度的特征从相机图像和激光雷达点云,和使用渠道关注机制计算融合特征的权重,我们取得了良好的结果在一个多通道融合网络。在KITTI-aug数据集上的测试,我们得到了最好的性能模型在使用ResNet50为骨干,F2得分最高的79.72%。与此同时,我们的方法可以保持优秀的测试速度在实际测试。模式之间的结构差异的一个主要问题,使当前的多通道融合困难。在未来,我们将探索不同形式在高维空间的融合和分析之间的差异和差异的形式的数据结构,实现更健壮的融合。
数据可用性
期间产生的所有数据或分析本研究包含在本文中。
的利益冲突
作者宣称没有利益冲突有关这篇文章的出版。
确认
这项研究是由山西省自然科学基金批准号201901 d111467之下。