一种新的基于视频的碰撞检测方法:使用特征融合深度学习框架平衡速度和准确性

摘要

快速准确的碰撞检测对于挽救生命和改善交通事故管理具有重要意义。本文针对基于视频的城市交通碰撞检测任务，开发了一种基于特征融合的深度学习框架，旨在在有限的计算资源下实现检测速度和准确率的平衡。在该框架下，提出了结合注意模块的残差神经网络(ResNet)从城市交通视频中提取与碰撞相关的外观特征(即碰撞外观特征提取器)，并将其输入到卷积长短期记忆(Convolutional Long - Short-Term Memory, Convolutional Long - Short-Term Memory)的时空特征融合模型中。同时捕捉外观(静态)和运动(动态)崩溃特征。该模型通过一组包含330起坠机事件和342起非坠机事件的视频片段进行训练。总体而言，该模型在测试数据集上取得了87.78%的准确率和可接受的检测速度(GTX 1060的FPS > 30)。由于引入了注意力模块，所提出的模型能够比传统卷积神经网络更好地捕捉碰撞的局部外观特征(如车辆损坏和行人脱落)。convl -LSTM模块在捕捉车祸的运动特征方面优于传统LSTM，如车祸后的道路拥堵和行人聚集等。与传统的基于运动的碰撞检测模型相比，该模型具有更高的检测精度。此外，它可以比其他基于特征融合的模型(如C3D)更快地检测崩溃。 The results show that the proposed model is a promising video-based urban traffic crash detection algorithm that could be used in practice in the future.

1.介绍

交通事故会造成财产损失、伤害、死亡和非经常性的交通堵塞。准确、快速的碰撞检测有助于提高事故管理的响应速度，从而减少事故造成的伤害/死亡和拥塞。因此，发展碰撞检测方法对交通事故管理是必要的和重要的。

传统的碰撞/事件检测方法主要依赖于交通流建模技术[1- - - - - -7］．交通流建模的基本思想是基于环路检测器、微波和探头的数据来识别非周期性拥堵。然而，如果没有足够可靠的历史数据，很难区分非复发性拥塞和复发性拥塞。因此，交通流建模方法的性能很大程度上取决于交通检测器获得的数据质量。此外，当交通环境过于复杂时(如城市地区的多式联运)，它往往会失败。因此，这种方法有时不能保证检测的准确性。另一种新兴方法是根据众包数据识别事件[8］．但是，如果现场没有目击者，也会出现漏报问题。如今，随着智能交通系统(ITS)的发展，摄像机已经广泛安装在许多城市和公路上。由于其广泛的覆盖面，基于视觉的碰撞检测技术近年来得到了越来越多的研究关注[9］．他们的基本概念是通过计算机视觉技术，根据交通图像/视频的特征自动识别车祸现场。这种技术作为一种很有前途的智能碰撞检测方法，有望显著减少人工劳动，并达到较高的检测精度[10- - - - - -12］．

为了保证检测的准确性，基于视频的碰撞检测方法需要能够从交通图像/视频中提取出重要的碰撞特征。一般来说，兴趣特征主要有两种类型:运动(时间)特征和外观(空间)特征。外观特征包括明显的车辆损坏，车辆侧翻，行人掉落。运动特征需要不断识别，包括车辆轨迹的交叉和行人的聚集。从这个角度来看，目前的碰撞检测方法可以分为两类:基于运动特征的方法和基于特征融合的方法。

许多研究工作都是基于运动特征，如车辆轨迹的交叉、边界盒探测器的重叠、车辆的速度变化等。有的采用背景减法提取车辆的运动特征(加速度、方向和速度)，在此基础上应用一定的规则和阈值来识别碰撞[9，13- - - - - -15］．Maalou等人[16基于光流方法跟踪车辆运动，并采用启发式方法寻找碰撞识别阈值。Sadeky等人[17]采用流动梯度直方图(HFG)作为运动特征，基于logistic回归方法区分碰撞和非碰撞。Chen等[18[]开发了一种用于碰撞识别的极限学习机(ELM)，该机器基于尺度不变特征变换(SIFT)和光流表示的运动特征。近年来，随着深度学习方法的发展(如Faster R-CNN (Faster Region-based CNN)) [19]和YOLO (You Only Look Once) [20.- - - - - -22)，车辆检测和跟踪的性能得到了显著提高。Vicente和Elian [23]采用YOLO模型检测运动特征，并采用支持向量机(SVM)进行碰撞识别。李和申[24]使用Faster R-CNN进行车辆检测，使用Simple Online and Real-Time tracking (SORT)进行车辆跟踪。基于这些运动特征，对隧道中的事故/碰撞进行检测。保罗(25]应用Mask R-CNN (Mask Region-based CNN)进行运动特征提取，使用规则进行崩溃检测。基于运动特征的模型只依赖于车辆的运动。这就要求目标检测和跟踪的精度较高。当交通环境复杂时，车辆检测跟踪性能会降低，碰撞检测性能较低。此外，一些事故可能无法仅根据运动检测到，如车辆侧翻和行人摔倒。

近年来，基于特征融合(即外观和运动)的碰撞检测方法越来越受欢迎。有两种类型。一种是基于无监督学习方法。例如，辛格和莫汉[26]和姚[27]开发了一个基于自动编码器方法的崩溃检测模型。另一种类型是基于监督学习框架，通常是将用于空间特征提取的模块(如卷积神经网络)和用于时间特征提取的模块(如循环神经网络)组合在一起。Batanina等人[28]使用卷积3D (C3D)模型从模拟视频崩溃中捕获空间和时间崩溃特征。然后，将域自适应迁移学习方法应用到实际环境中。准确度提高了10%。Huang et al. [29]采用双流网络分别提取外观特征和运动特征，再将两者结合检测崩溃。根据以往的文献，特征融合方法可以提高碰撞检测的性能。

虽然基于特征融合的方法比基于运动特征的方法取得了更好的性能，但仍然可以做一些改进。为了同时捕捉运动和外观特征，这类模型往往具有复杂的结构和大量的参数。因此，这些模型需要大量的计算资源和较长的计算时间，这使得它们无法用于实时交通环境中。因此，目前基于融合的模型需要在检测精度和速度之间找到更好的平衡。

为了填补这一空白，我们提出了一种新的基于特征融合的城市交通碰撞检测框架，旨在实现检测精度和速度之间的良好平衡。首先，在残差神经网络中引入注意模块，提高局部外观特征的检测性能。同时，我们将ResNet与convl - lstm模型相结合，同时捕捉碰撞的外观和运动特征。该模型在碰撞检测中具有较高的精度和较快的检测速度。论文的其余部分组织如下2介绍本研究使用的方法。部分3.讨论了数据准备。部分4介绍建模结果并讨论研究结果。部分5提出了研究结论和未来的研究方向。

2.方法

在本节中，我们将详细介绍我们提出的模型。数字1显示了我们模型的整体框架。首先，将注意力模块与ResNet结合，捕捉崩溃图像的外观特征。ResNet可以提高传统卷积神经网络的速度，而attention模块可以使模型聚焦于局部的外观特征而不是其他无关信息，进一步提升模型。然后，通过a对输出特征图进行降维卷积层，然后按时间顺序输入到convl - lstm网络中，进一步提取碰撞的运动特征。与传统的递归神经网络(如LSTM)相比，convl -LSTM在重量轻和保留空间信息方面具有优势。最后，使用全局池层和完全连接层来检测崩溃(或非崩溃)。下面对框架中的残差网络ResNet、attention模块、convl - lstm模块进行了详细的描述。

2．1．崩溃外观特性模块(ResNet + Attention)

2．1．1．剩余神经网络(ResNet)

残差神经网络(即ResNet)于2015年提出[30.]，并被广泛应用于各种基于深度学习的计算机视觉任务中提取图像特征。ResNet的目的是解决深度卷积神经网络中梯度爆炸或消失引起的训练困难问题。与其他传统神经网络(如VGG (Visual Geometry Group Network))通过不断叠加卷积层来获得更高的图像表达能力相比，ResNet通过叠加灵活的残差模块来获得更强的表达能力。

残余模主要有两种类型。第一种类型(图2(一个))常出现在浅残差网络(ResNet 18/34)中。每个残差模块包括两个卷积，其输出是输入(即最后一个残差模块的输出)及其卷积的和。利用ReLU激活函数得到当前剩余模块的输出，如下式所示: 在哪里是卷积操作和我为层指数。

(一)

(b)

第二种类型(图2 (b))通常出现在更深层次的残差网络(ResNet50/101/152)。每个残差模块包括三个卷积层( ，，和 )，它的输出是输入(即最后一个残差模块的输出)及其卷积的和。在哪里是卷积操作。

由于这种残差网络结构可以补偿深层结构造成的训练不稳定[30.，它可以处理比VGG更深的网络层。三种典型的resnet是50层(ResNet-50)、101层(ResNet-101)和152层(ResNet-152)。它们在结构上相似。ResNet的选择取决于计算能力和训练数据量。如果有足够的训练数据，更深层的网络会更强大。

2．1．2．视觉注意力模块

本文通过集成视觉注意模块对ResNet进行了进一步的扩展。视觉注意模块挤压-兴奋(SE) Block最早由Hu等人提出[31］．该模块相对简单，能够提高许多卷积网络模型的效率，因此得到了广泛的应用。SE Block属于通道注意机制，它对特征图中的不同通道赋予不同的权重。众所周知，在卷积神经网络中，不同的通道对应不同的特征提取。不同的分类任务应侧重于不同的特征选择。这个概念类似于人类识别物体的方式。例如，人们在判断猫和狗的时候可能会更多地关注形状特征，而在判断美洲虎和豹(属于Felidae)的时候可能会更多地关注纹理特征。因此，SE Block提高了卷积神经网络的特征选择能力。

如图所示3.， SE Block转换输入X，，你, ，通过一个全局平均池操作，式中:

为，，在输入张量和，，产出的张量，下面的等式成立。

在全局平均池化之后，输出U通过一个权值为的全连接层，，也就是说,在图3.，其结果V如式(5),“是指矩阵乘法。

上面是激活函数和结果V也叫注意力重量。最后，增加注意力的分量V和输入X通过信道权重来调整输入不同信道的重要性(式(6）).这里的“指元素乘法(即阿达玛乘积):

在SE上改进的视觉注意模块称为卷积块注意模块(convolutional block attention module, CBAM)，最早由Gupta提出[32］．CBAM在基本通道视觉注意模块(即SE)的基础上，创新性地引入了空间视觉注意模块，如图所示4．与基础模块不同，空间视觉注意模块最初进行最大池化和平均池化操作在输入，然后通过a将双层特征图转换为单层特征图权值为W的卷积层，如在图4．最后，利用softmax将原始分布转换为概率分布，并根据输入的不同空间位置调整模型的重要性．这个过程可以用以下三个方程表示:

CBAM模块可以嵌入到残差模块中，提高残差模块的特征选择性能。数字5演示了这两个模块是如何集成的。

2．2.特征融合模块(convert - lstm)

convl - lstm模块首次用于降水临近预报[33，其结构如图所示6．传统的LSTM输入需要数据扁平化，这往往会导致空间信息丢失。convl -LSTM模块继承了传统LSTM所采用的门控结构，同时采用卷积神经元作为基本单元来保留空间特征。数据建模过程如下。

首先,输入和是否沿通道维度堆叠生成；然后是一维卷积对进行卷积运算：

然后,获得利用上的激活函数，式中:

最后,输出和的时间步长t通过浇注操作得到，如下两个方程所示:

3.数据准备

据我们所知，目前还没有用于崩溃检测任务的公共数据库。因此，在本研究中，所有的数据都来自于中国的地方警察。我们准备了两个数据集。第一个数据集是城市城市交通图像数据集，其中包含5061幅交通事故图像和5573幅非交通事故图像。碰撞图像包括多种类型，如单车、多车和非驾驶员相关的碰撞。数字7显示了一些示例。另一个数据集是城市监控视频数据集，其中包含420个撞车视频片段和432个非撞车视频片段。每个视频片段的持续时间约为20秒，每秒24/25帧。

第一个图像数据集用于训练ResNet + attention模块，而视频数据集用于训练整个网络。通过传递预先训练好的ResNet模块，可以提高整个网络的收敛速度。需要注意的是，图像/视频剪辑被手工标记为崩溃或非崩溃。因此，经过训练的模型有望在正常的交通场景中识别碰撞。

4.结果与讨论

本研究的所有实验都是在一台装有Nvidia GTX 1060 GPU的笔记本电脑上进行的。笔记本电脑的部分详细参数如下:(1)I7-7700HQ CPU @2.80 GHZ; (2) GTX 1060 (6G) GPU，核心频率:1506-1709MH，浮点运算:4.4 TFLOPs。

首先，比较一套深度学习模型来区分碰撞图像(正面)和非碰撞图像(负面)，寻找最佳碰撞外观特征模块，并进一步与convl - lstm相关联。VGG-16和ResNet-50作为基线模型。将SE和CBAM模块整合到VGG和ResNet中，开发了四个扩展模型。训练数据集包括3861幅碰撞图像和4373幅非碰撞图像，而测试数据集包括每个类别的1200幅图像。表格1显示测试数据集中那些模型(即崩溃外观特征提取模型)的性能。与VGG-16和ResNet-50相比，带有注意模块的扩展模型普遍具有更高的检测精度。其中，ResNet-50 + CBAM模型的准确率最高，为90.17%。数字8显示了对那些碰撞外观提取模型的每个训练阶段的测试准确性。


模型名称	真阳性(TP)	假阴性(FN)	假阳性(FP)	真阴性(TN)	精度(%)

VGG-16	1056	144	273	927	82.63
ResNet-50	1087	113	233	967	85.58
VGG-16 + SE	1075	125	251	949	84.33
VGG-16-CBAM	1103	97	231	969	86.33
ResNet-50 + SE	1132	68	214	986	88.25
ResNet-50——+ CBAM	1135	65	171	1029	90.17

我们还发现，所有模型的假阳性(FP)病例比假阴性(FN)病例多。这表明，这些模型倾向于将非碰撞交通场景确定为碰撞。某些交通情况(如车辆停止行驶、行人与车辆交叠，严重拥堵)的外观特征可能与撞车场景非常相似。因此，仅仅基于外观特征的模型不能很好地识别这些条件。

基于梯度加权类激活映射(grade - cam)技术，我们进一步可视化了这些模型[34，如图所示9．ResNet似乎比VGG更注重崩溃的外观特征。例如，VGG未能识别出坠机的外观特征D，而ResNet则正确地识别了它们。当增加注意模块时，扩展模型(ResNet 50 + SE/CBAM)可以更好地关注外观特征。例如，CBAM改进了ResNet在C事故中识别坠落人员位置的性能。

然后，使用ResNet50 + CBAM作为预训练模型，对整个模型进一步训练了330个碰撞视频片段和342个非碰撞视频片段。测试数据集包括90个崩溃视频和90个非崩溃视频。为了检验所提出模型的性能，我们对六个模型进行了比较。模型1根据Faster R-CNN + SORT所提取的速度变化量或异常轨迹来确定碰撞。模型2根据视频剪辑中检测到的崩溃帧的数量识别崩溃。模型3-6使用Resnet-50 + CBAM/SE提取外观特征，使用LSTM/ convl -LSTM模型提取视频中的运动特征。表格2显示了六个候选模型的性能。


不。	模型	真阳性(TP)	假阴性(FN)	假阳性(FP)	真阴性(TN)	精度(%)	帧/秒

1	更快的R-CNN + SORT +规则[24］	58	32	18	72	72.22	0．73
2	ResNet-50 + CBAM +规则	69	21	12	78	81.67	50
3.	renet -50 + cam + LSTM	70	20.	12	78	82.22	27
4	renet -50 + SE + convl - lstm	74	16	12	78	84.44	35
5	renet -50 + cam + convl - lstm	78	12	11	79	87.22	33
6	renet -50 + CBAM + bi - convl - lstm	79	11	11	79	87.78	30.

结果表明，与其他模型相比，模型1的检测精度和速度最低。总体而言，该模型在多车碰撞检测中具有良好的性能。然而，它在很大程度上未能检测出车辆-行人碰撞和单车碰撞。原因可能是这些模型只能识别碰撞运动(例如，车辆轨迹的交叉，非驾驶人的异常行为[35，36)而不是碰撞的外观(例如，人摔倒、车辆翻车、车辆损坏等)。数字10显示了模型1错误检测到的一些碰撞场景。

与模型1相比，基于特征融合的模型在检测精度上有更好的表现。fusion-based模型之间的特性,基于规则的模型(模型2)和LSTM模型(例如,模型3和6)检测精度较低比Conv-LSTM模型(模型4和5)。基于规则模型的基本思想是确定事故数量的基础上检测到碰撞帧的视频剪辑。实验表明，将阈值设为10(即10帧)时，准确率最高。由于这种方法不需要序列信息，它可能不能很好地识别碰撞运动特征(FN率很高)。LSTM模型要求外观特征图的平面布局，这可能会丢失空间信息。convl - lstm可以同时检测运动特征和外观特征，同时保留它们的原始信息(FN比基于规则的模型减少)。

在检测速度方面，该模型框架明显优于基于运动的深度学习模型。为了获得较高的运动目标检测精度，基于运动的模型往往需要强大的深度学习模型来进行车辆检测和跟踪。总的来说，convl - lstm在可接受的检测速度下取得了最高的检测精度(FPS > 30)。

并将典型的基于特征融合的模型(即C3D模型)与我们的最佳模型(即模型6)进行比较，如表所示3.时，C3D模型出现过拟合问题，训练精度为99.89%，测试精度为67.22%。原因是C3D模型的参数比我们提出的模型多得多(超过10倍)。由于数据集有限，模型很容易过拟合。在计算负荷和检测速度方面，该模型在浮点运算(flopoint operations)和FPS方面也优于C3D模型。


模型	训练精度(%)	测试精度(%)	参数(MB)	失败/ /视频(B)	帧/秒

C3D [30.］	99.89	67.22	249.99	574.36	14
模型6	96.58	87.78	24.22	265.26	30.

值得注意的是，最好的convl - lstm(即模型6)模型仍然有一些假阳性病例。一些非碰撞场景(拥挤)不能被模型很好地识别，如图所示11．这可能是由于样本量有限。另一个原因可能是，所提出的模型倾向于关注部分图像(由于attention模块)，而忽略了对整个交通场景的理解。

关于漏检(即FN)，本文讨论了一些典型案例(图)12)．第一次是两辆车相撞并导致爆炸。当它发生时，大火迅速覆盖了整个交通现场。这种情况在我们目前的数据集中非常少见，所以训练后的模型不能很好地识别外观特征。第二至第五起事故均发生在拥堵或复杂的交通环境中。在这种环境下，崩溃特征被屏蔽或难以识别，特别是在原始图像质量不高的情况下。

5.结论

及时、准确地检测交通事故是交通事故管理的重要内容。以往基于视频的碰撞检测模型存在检测精度低(如某些基于运动的模型)或计算成本高(如大型特征融合模型)的问题。为了填补这一空白，本文提出了一种新的基于特征融合的深度学习模型框架，旨在实现城市交通碰撞检测的准确性和速度之间的平衡。为此，开发了带有注意模块的ResNet来捕捉崩溃图像的外观特征。ResNet的速度比传统的卷积神经网络更快，而注意力模块使ResNet能够专注于局部的外观特征而不是无关的信息，进一步提高模型的速度。引入convl - lstm与ResNet连接，同时捕捉外观和运动特征。与传统的递归神经网络(如LSTM)相比，convl -LSTM可以在参数相对较少的情况下保留大部分空间信息。

基于建模结果，引入注意模块的ResNet可以提高检测局部崩溃外观特征的性能。与简单规则和LSTM相比，convl -LSTM能更好地捕捉碰撞的运动特征。该模型在检测速度较快(FPS > 30)的情况下，总体准确率达到87.78%，优于传统的基于运动的模型和现有的基于特征融合的模型。因此，该方法是一种很有前途的碰撞检测方法，实现了速度和精度的良好平衡。

诚然，拟议的模式也有一些局限性。首先，该模型错误地将一些拥堵的交通场景检测为碰撞。可能需要考虑对整个交通场景的了解。在未来的研究中，我们将尝试完善模型框架。其次，在交通环境/碰撞场景复杂、罕见、模糊的情况下，仍存在一定的漏检。因此，模型还需要更多的数据和其他补充方法(如多角度摄像机或少镜头学习)来进一步提高其鲁棒性。第三，该模型需要进一步改进，以识别不同类型/严重程度的碰撞。作者建议未来的研究应该集中在这些主题上。

数据可用性

使用的数据来自中国当地交警。由于这些数据来自视频监控(许多与坠机有关)，只有获得当地政府的许可才能访问这些数据。

的利益冲突

作者声明他们没有利益冲突。

致谢

本研究由国家自然科学基金(批准号:)资助。国家重点研发计划项目(批准号:71971061);江苏省交通科学研究项目(批准号:2018YFE0102700);2019 z02)。

参考文献

张飞，“基于卡尔曼滤波的城市高速公路交通流预测与事件检测”，北京交通大学，北京，2012，博士学位论文。视图:谷歌学者
医生。“利用GPS、GPRS和GSM技术的事故检测和报告系统”2012国际信息学、电子学与视觉会议论文集，孟加拉国达卡，2012年5月。视图:谷歌学者
A. Kandari, A. Abdullah Mohammad，和I. F. Alshaikhli，《事故检测系统和事故检测方法》，美国专利8903636 b1, 2013年。视图:谷歌学者
D. Cogswell，“事故报警系统使用GSM, GPS和加速计，”计算机与通信工程创新研究国际期刊，第3卷，第2期。4、2015。视图:谷歌学者
王超，徐超，夏军，钱志明，“基于微交通模拟和极值方法的交通安全评价”，交通研究C部分:新兴技术，第90卷，第281-291页，2018。视图:出版商的网站|谷歌学者
R. Fahmida, X. Zhang, and C. Mei，“评估拥塞性能度量的探针速度数据质量”，刊于运输研究委员会(TRB)第99届年会论文集，美国华盛顿特区，2019年1月。视图:谷歌学者
李敏，李志强，徐超，刘涛，“基于经验车辆轨迹振动的车道变化对安全运营影响的短期预测”，事故分析与预防，第135卷，第105345条，2020年。视图:出版商的网站|谷歌学者
Xu Zhang，“使用文本挖掘技术识别二次崩溃，”交通安全与保障学报，第12卷，第2期10，第1-21页，2019。视图:出版商的网站|谷歌学者
顾晓，M. abdelo - aty，向强，蔡强，袁建平，“利用无人机视频数据深入分析立交合流区域驾驶员碰撞风险”，事故分析与预防，第123卷，第159-169页，2019。视图:出版商的网站|谷歌学者
S. Kamijo, Y. Matsushita, K. Ikeuchi, M. Sakauchi，《十字路口的交通监控和事故检测》，IEEE智能交通系统汇刊， vol. 1, no. 12，页108 - 118,2000。视图:出版商的网站|谷歌学者
白平，“基于视频的交通事故检测方法”济南大学学报(自然科学版)，第3卷，第2期。26，页282-286,2012。视图:谷歌学者
“基于双变量极值理论和基于视频的车辆轨迹数据的碰撞预测方法”，事故分析与预防，第123卷，第365-373页，2018。视图:谷歌学者
Y.-K。Yong-Kul D.-Y。李，“十字路口交通事故记录和报告模型，”IEEE智能交通系统汇刊，第8卷，第2期2，页188-194,2007。视图:出版商的网站|谷歌学者
Ki Y. K.，“使用图像处理和MDR的事故检测系统”，国际计算机科学与网络安全杂志，第7卷，第5期3，第35-39页，2007。视图:谷歌学者
S. S. Thomas, S. Gupta和V. K. Subramanian，“使用感知视频摘要的道路事件检测”，IEEE智能交通系统汇刊第19卷第2期9、pp. 2944-2954, 2018。视图:出版商的网站|谷歌学者
B. Maaloul，“高速公路事故检测的自适应视频算法”2017第十二届IEEE工业嵌入式系统国际研讨会论文集2017年6月，法国图卢兹。视图:谷歌学者
S. Sadeky，“使用HFG的实时自动交通事故识别”2010年第20届国际模式识别会议论文集2010年8月，土耳其伊斯坦布尔。视图:谷歌学者
陈勇，“基于视觉的交通事故检测方法的极限学习机”2016年先进机器人与机电一体化国际会议论文集，中国澳门，2016年8月。视图:谷歌学者
Ren S.， K. He, R. Girshick, and J. Sun，“Faster R-CNN:基于区域提议网络的实时目标检测”，模式分析与机器智能学报第39卷第3期6，页1137-1149,2017。视图:出版商的网站|谷歌学者
何振宇(J. He)在《你只看一次:统一的、实时的物体检测》(You only look once: unified, real-time object detection)一书中写道2016 IEEE计算机视觉与模式识别大会论文集2016年6月，美国内华达州拉斯维加斯。视图:谷歌学者
J.雷德蒙和F.阿里的《YOLO9000:更好，更快，更强》2017 IEEE计算机视觉与模式识别(CVPR)会议论文集2017年7月，夏威夷火奴鲁鲁。视图:谷歌学者
J. Redmon和F. Ali，《YOLOv3:渐进式改进》，2018，https://arxiv.org/abs/1804.02767．视图:谷歌学者
E. M. A. Vicente和L. R. Elian，《视频中的快速车祸检测》2018 XLIV拉丁美洲计算机会议(CLEI)论文集2018年1月，巴西圣保罗。视图:谷歌学者
K.B. Lee和H.S. Shin，“深度学习算法在隧道中糟糕的闭路电视监控条件下的意外事故自动检测的应用”2019年深度学习与机器学习在新兴应用(Deep- ml)国际会议论文集，土耳其伊斯坦布尔，2019年8月。视图:谷歌学者
E.保罗，“交通监控中基于计算机视觉的事故检测”2019第十届计算、通信和网络技术国际会议论文集，印度坎普尔，2019年7月。视图:谷歌学者
D. Singh和C. K. Mohan，“利用堆叠自动编码器检测道路事故的深度时空表征”，IEEE智能交通系统汇刊，第20卷，第2期。3，第879-887页，2019。视图:出版商的网站|谷歌学者
Y. Yao，《第一人称视频中的无监督交通事故检测》2019 IEEE/RSJ智能机器人与系统国际会议论文集，中国澳门，2019年11月。视图:谷歌学者
E. Batanina，“视频中车祸检测的域适应”，在2019第九届图像处理理论、工具和应用国际会议论文集2019年11月，土耳其伊斯坦布尔。视图:谷歌学者
黄x，何平，A. Rangarajan, S. Ranka，“智能交叉”，空间算法与系统汇刊，第6卷，第2期2, pp. 1-28, 2020。视图:出版商的网站|谷歌学者
何凯，张昕，任胜，“基于深度残差学习的图像识别”计算机视觉与模式识别论文集，西雅图，华盛顿州，美国，2016。视图:谷歌学者
胡俊，《挤压-激励网络》，刊于2018 IEEE/CVF计算机视觉与模式识别会议论文集2018年6月，美国犹他州盐湖城。视图:谷歌学者
S. Gupta，《CBAM:卷积阻滞注意力模块》，出版欧洲计算机视觉会议论文集2018年9月，德国慕尼黑。视图:谷歌学者
史晓峰，“基于卷积LSTM网络的降水临近预报方法研究”NIPS的第28届国际神经信息处理系统会议论文集，第一卷，西班牙格拉纳达，2015年6月。视图:谷歌学者
R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh，和D. Batra，“gradr - cam:通过基于梯度的定位从深度网络的可视化解释”，国际计算机视觉杂志，第128卷，第128号2, pp. 336-359, 2020。视图:出版商的网站|谷歌学者
郭勇，李志军，吴勇，徐超，“不同路口骑车人闯红灯行为的非观测异质性研究，”事故分析与预防， 2018, vol. 115, pp. 118-127。视图:出版商的网站|谷歌学者
“基于贝叶斯方法的中国电动自行车牌照注册影响因素分析”，交通研究F部分:交通心理学与行为，第59卷，212-221页，2018。视图:出版商的网站|谷歌学者

先进运输杂志

智能互联环境下的交通安全