安全驾驶评价方法研究基于机器视觉和长期短期记忆网络

文摘

交通运输业的快速发展带来了一些潜在的安全隐患。针对行车安全的问题,人工智能技术的应用在安全驾驶行为识别可以有效地降低事故率和经济损失。根据干扰信号的存在,如时空背景混合信号驱动监控视频序列,小目标,如人眼的识别精度较低。本文提出一种改进的dual-stream卷积网络意识到安全驾驶的行为。基于卷积神经网络(cnn),注意机制(AM)集成到一个长短期记忆(LSTM)神经网络结构,以及混合dual-stream AM-LSTM卷积网络通道设计。空间河道使用CNN方法来提取视频图像的空间特征值并使用池,而不是传统的金字塔池、正常化的尺度转换。时间河道使用单发multibox检测器(SSD)算法来计算相邻两帧的视频序列检测等小物件的脸和眼睛。然后,AM-LSTM用于熔断器和dual-stream分类信息。自建的驾驶行为是建立视频图像集。中华民国、准确率和损失函数FDDB数据库中进行实验,VOT100数据集,分别和自建的视频图像集。 Compared with CNN, SSD, IDT, and dual-stream recognition methods, the accuracy rate of this method can be improved by at least 1.4%, and the average absolute error in four video sequences can be improved by more than 2%. On the contrary, in the self-built image set, the recognition rate of doze reaches 68.3%, which is higher than other methods. The experimental results show that this method has good recognition accuracy and practical application value.

1。介绍

中国制造业已经进入了一个快速发展的时期,随着物流和运输行业上升。与人民生活水平的提高,汽车已经成为主要的交通工具,运输和增加交通事故日益忙碌,也引起人们的生活、生产、和财产损失。根据统计数据,每年的交通事故率是缓慢增加,形势不容乐观。研究表明,交通事故主要是由人引起的,汽车,道路,和环境因素,其中疲劳驾驶和不安全行为是造成交通事故的主要原因1),占交通事故的69%。长期疲劳驾驶是容易导致交通事故(2]。不安全行为主要包括违法行为,称,吸烟,注意力不集中,饮食,和疲劳驾驶3,4]。因此,如何利用现代科学技术手段来减少交通事故和损失值得研究,以确保生命安全。

目前,摄像机安装在前面的出租车主要是用于收集驾驶员的实时图像信息,深入学习理论是用于识别和行为状态信息,以判断司机是否有不安全行为(5]。在人脸识别和行为识别中,学者们做了大量的研究。人脸检测方法主要分为两类:基于知识的方法和统计数据的方法(6]。这两种方法提取的特征脸地区和法官通过计算脸部特征的相似性或分类器的响应值7]。基于知识的方法有肤色的特点,质地,结构,边缘,和形状。深度学习统计方法,如人工神经网络(ANN)演算法的方法,支持向量机(SVM) [8),特征空间的方法,长期反复卷积网络(LRCNs),和卷积神经网络(cnn) [9,10]。基于特征空间的方法包括主成分分析(PCA)、线性判别分析(LDA)和局部二值模式(LBP) (11]。他们的共同特征是使用空间向量的映射图像特征空间的区分和判断,nonface。伽柏和猪的方法通常用于人脸识别(12]。结合全球特征与当地有效特征形成最终的人脸识别的特征,费舍尔编码权重标准用于识别面临的视频(13]。结合伽柏特性与协作表示,人脸识别算法,在一定程度上提高了人脸识别的速度(14]。司机人脸检测方法是一个扩展或延伸应用人脸识别方法。司机面部识别需要估计的位置面对地区输入视频的每一帧,通过可视化标签脸部区域,然后进行机器学习。在视频图像的行为识别、面部特征提取和外观表达行为识别算法的重要基础。常见的外观表达方法包括轮廓模板,光流,特征点。一般来说,颜色直方图,哈雾特性或Haar-like特性,面向的柱状图的梯度算子(猪)特性(15),和小波算法(16)用于从候选区域的视频图像中提取特征。softmax等机器学习分类器,支持向量机,提高或随机森林用于快速分类器学习。分类器通常用前一帧的目标信息或多个连续帧的在线学习和获取目标状态信息,不断更新它。

一般来说,安全驾驶行为的最直接的方法是使用机器视觉实时监控。通过分析视频信息,检测方法主要包括生理参数检测方法,车辆轨迹行为检测方法,和驱动程序行为特征检测方法(17]。因为医疗检测设备的需要,生理参数检测方法的应用价值不高。车辆轨迹行为检测的方法有一些误判和滞后。驾驶员行为特征检测的方法使用机器视觉来判断安全行为和检测疲劳状态信息通过检测闭目的学生比例随时间(PERCLOS) [18),闪烁频率、视线方向,嘴特性,面部表情,和其他功能19]。多尺度retinex (MSR)滤波图像增强算法(20.)用于提高捕获的图像在复杂环境和司机的眼睛和嘴巴行动通过视觉定位(21]。它可以计算出眼睛长宽比描述的令人瞠目结舌的程度和分析驾驶员的疲劳状态(22]。PERCLOS价值最好的相关性与疲劳驾驶,但它主要是矩形的面积眼睛所在的地方,但是眼睛的大小是不同的,导致影响了计算精度。判断驾驶员的不安全行为的方法可以分为两类23):(1)光流场的方法。光流法是用来检测移动目标和计算光流场,然后提取光流特征,可以代表光流场的运动。(2)利用视频序列信息识别,由于存在大量的混合信息的时空背景下视频,判断能力的行为表达受环境因素的影响,可能发生和驾驶行为分类的误判。对普通图像数据处理,CNN是一个更好的选择。数据和视频图像序列,RNN和LSTM是好选择,所以选择LSTM作为数据分类器。长短期记忆(LSTM)模型通常是用于分类(24]。LSTM是递归神经网络(RNN)的改善。双向LSTM单元作为主要的框架来捕获视频序列的双向时空特征(25]。为了满足不同长度的视频的处理需求,细分策略是用来构建一个行为识别框架,和一个LSTM网络模型构建基于时空的注意dual-stream特性,用于人类行为识别的视频(26]。在[27),一本小说深度学习框架,提出了结合了CNN和LSTM细胞实时面部表情识别(带)。在[28),小说深刻的学习模式叫做信用证由一个LSTM-based编码器,功能图像演示,一个CNN-based译码器提出了削弱活动识别的准确性个体之间的差异。在[29日),深度学习解决方案称为OSLCFit(有机同时LSTM和CNN),提出了通过使用学习转移到调整极性分类的特定任务。采用LSTM创建模型,分析骨架序列(30.]。在[31日),process-focused评估方法(PFA)是由学习面部表情,使用神经网络模型。该模型学习,将面部表情分为三类。在[32),本研究旨在发展一种技术基于CNN和LSTM (CNN-LSTM)模型通过使用深度学习的方法来检测精神病患者。

使用描述基于时空信息提取功能从司机的行为,尤其是面部信息,构建特征向量,可以保存过程的关键帧定位并有效改善图像识别率。这种方法提高了人脸识别的准确性,但有一定的边界效应。面对目标是阻挡或更改时,识别速度和精度的影响,但目前仍存在以下缺陷在驾驶行为识别。一个是识别算法的泛化能力。物理场景的复杂性降低视频图像的定义和影响驾驶行为识别算法的准确性。第二个是实时的问题行为识别算法。有两个主要原因为穷人行为识别算法的实时性能:一是行为识别算法不能处理复杂的物理环境背景,和另一个是计算行为特征提取方法太大或太复杂。因此,建设一个更轻量级的网络结构和减少的数量计算,算法识别率高已经成为当前研究的关键问题之一。

在本文中,这个团队对安全驾驶行为识别算法进行了研究。算法主要是用于识别驾驶员的疲劳状态和视频图像的主要不安全的驾驶行为,给及时警报来减少交通事故的发生。的贡献包括以下:(1)一些深度学习算法和网络结构设计,和CNN结构改善。卷积层引入LSTM网络结构来减少图像的尺寸。次区域卷积图像提取的特征层的CNN,然后,计算每个区域的重要性。重要的图像特征描述语句生成,这可以极大地减少图像序列的冗余信息。(2)在网络结构,注意机制集成,和一个双流道AM-LSTM提出了行为识别和分类,分为时间流和空间流。空间金字塔池(SPP)层采用卷积图规模,而不是传统的池。分别采用不同的网络结构,在双通道流动,和时间流使用SSD算法来计算光流的形象两个相邻视频帧序列,针对小目标的检测,如人类的眼睛和嘴的目标,维持的时间特征的行为序列。CNN是用来提取RGB图像的空间特征t帧时间。改善算法的识别效率。(3)进行了三组实验,包括FDDB数据库中的人脸识别、视频人脸识别OTB100数据集,在自建的驾驶和安全驾驶行为识别图像集。

2。长期和短期记忆网络

2.1。改善LSTM网络结构

面对图像识别算法,CNN避免了复杂的图像的预处理,可以直接处理原始图像,因此它被广泛应用。CNN的稀疏连接共享和重量可以减少训练参数和计算复杂度,使模型的泛化能力更强,但CNN没有信息记忆的功能。当前网络的输出序列递归神经网络(RNN)结构不仅与输入有关,是由以前的输入和当前输入的交互。然而,RNN只记得短距离信息在信息序列。LSTM网络的特殊结构(33)使网络有能力记住长途信息。RNN神经元有效信息存储在无法控制的形式在每一个时间步,而LSTM网络使用特殊的学习机制整合和更新上次点的信息,有效地避免爆炸梯度和梯度损失的现象。相比之下,RNN, LSTM存储时域信息的状态参数。作为输入发送到LSTM网络,将有用的信息过滤和存储在状态参数。它也可以表示,在整个培训过程的LSTM网络,国家数量与系统总是存在随时间和更新。比如内存单元的LSTM补充机制c、输入门我,忘记门f,和输出门o。LSTM的结构图tth时间如图1。

为了更好地提取空间结构信息的关键,LSTM结构改善。当前时间的输入是复杂的一层,然后结合短期记忆单元。在tth,网络读取tth输入x_t和国家价值h_t−1前面的时间和计算隐层的状态值h_t隐藏层。重复这个步骤,直到所有的输入都读。如果函数所代表的RNN来标示f,忘记门LSTM卷积计算可以表示为

输入被表示为门

门的输出表示为在哪里代表卷积,W_f,W_我,W_o分别代表门权重矩阵。的b_f,b_c,b_o,分别代表偏见,ℎ_t−1在最后一次代表国家数量。我们使用双曲正切非线性函数,因为它的输出(−1,1),可调整输入的值为0。σ门函数,σ输出是在0和1之间,扮演的角色扩展。为了从复杂的信息,选择关键目标信息的注意机制(34,35引入LSTM网络结构。假设目标特性{x_我由ResNet}提取视频序列的每一帧n₁动态特性加权的总和的注意机制如下:

在tth,的重量特性x_我是 ,然后,特征向量的重量x_我计算如下: 在哪里f_丙氨酸使用多层感知器和手段h_t−1上次的状态。是一个中间变量,k特征向量的下标。重量计算后,开始选择注意机制的输入序列并获得所选项目序列。注意力的图像描述框架机制如图2。

注意机制的图像描述框架采用的软注意力模型。首先,1616形象次区域CNN网络的功能是由卷积提取层,然后,计算每个区域的重要性。最后,重要的图像特征生成到图像描述语句。功能{x_我}关注视频目标的机制tth时刻表达如下:

LSTM结构进一步改善。忘记门的卷积运算和输出门LSTM改为全连接操作。因为输入x_t和最后一次短期记忆ℎ状态_t−1二维向量特征图谱,它们由全球最大的池,转化为一维向量和注意力机制添加输入门我_t和输出门: 在哪里的最大池值吗h_t−1和x_t。的结构如图AM-LSTM注意力机制3。

2.2。双通道AM-LSTM结构算法

LSTM网络取得了优异的性能在大多数视频识别时间。为了进一步提高识别精度,混合dual-stream通道AM-LSTM结构算法结合的注意机制是专为安全驾驶行为识别。为了区分大小的目标在不同的图像区域,双通道分为两个分支:时间流和空间流卷积神经网络。检测算法的两个分支略有不同。基于初始和VGG-16网络结构,SSD算法用来计算光流的形象两个相邻视频帧序列,然后,时间信息从堆叠中提取光流的多个框架,主要用于检测小目标,如人类的眼睛。CNN是用来提取RGB图像的空间特性t帧时间。最后,从两个网络获得语义信息融合,然后,AM-LSTM用于识别和分类36]。驾驶行为识别过程的视频序列,dual-stream网络具有更好的识别性能比单流网络因为dual-stream网络使用图像和光学流场来表示时间和空间信息,分别。虽然它增加一定数量的计算,它可以减少复杂的噪声环境的视频序列。

在司机的脸,动作识别,需要各种各样的行为进行分类。的行动的脸,眼睛,嘴巴属于小目标探测、和目标面积小,但它是非常重要的。其他操作如使用手机和吃属于一个大的目标区域。CNN算法使用不同的尺度特性为目标探测不同褶积层的地图,和SSD算法是一个端到端的图像目标检测方法;时间流的网络通道SSD采用VGG-16结构的初始网络。从一开始的图像数据输入,该算法将直接获得图像特征和分类信息通过网络培训,只需要一个舞台来完成目标检测。前面的特征映射是用于检测小目标,地图和特性是用来检测大目标;它可以提高识别精度。司机的脸,尤其是眼睛和嘴动作识别,是非常重要的信息,属于小目标的探测距离。由于光线,闭塞,和其他环境因素,几乎没有特征信息,导致误判。 In order to further improve the accuracy of recognition, this paper uses SPP (spatial pyramid pooling) instead of traditional pooling and unifies the scale transformation of convolution image so as to change the network output to a fixed scale. The dimension of the transformed image features is reduced, and then, the AM-LSTM network is used for spatiotemporal information fusion, extraction, and recognition. Finally, softmax is used to classify various actions to realize multiscale information extraction of driving behavior features. The hybrid dual-stream AM-LSTM channel is shown in Figure4。

AM-LSTM模型集的时间步n,等于在当地空间矩形窗口的像素数量。最终输出节点的数量和内部映射节点集l,这是当地的空间序列的长度特征矩阵融合低层特征向量的长度。通过最大化输出概率最优输出表示为当前时间在哪里是当前解码输出的概率值判断的语义元素和隐层状态输出最后一次一步被认为是最具代表性和歧视的高层语义特征。然后,softmax分类层连接后AM-LSTM网络分类的分类标签和完成最终的分类任务。因此,对于最后的时间步长,可以修改的公式如下: 在哪里权重矩阵的隐层到输出层,b_o偏差,yⁿ是最后的分类结果。的损失函数,该模型采用熵函数,然后,模型参数通过反向传播训练时间(BPTT)。交叉熵函数可以表示为在哪里λ正则化参数,θ是训练模型参数,表示的概率特征值属于类k,y_k是一个炎热的编码向量。

摘要CNN包含四层:一维卷积层和汇聚层。卷积是3层的大小,和汇聚层采用最大池,池大小的2和步长为2。从第一层开始,卷积核的数量在每一层都是32,64,128,256。辍学层添加第四维卷积在输出端层,和辍学的概率层设置为0.5;即输入值被设置为0的概率为0.5。网络的主要网络参数包括以下:动量参数可以加速收敛;势头被设置为0.85;体重衰减系数设置为0.001;迭代的数量是500;最初的学习速率是0.001; every 50 generations, the decrease is 0.0001; and the batch size is set to 50. The convolution process of CNN and SSD channels is shown in Table1。


SSD通道			CNN频道
褶积层	卷积核大小	大小	褶积层	卷积核大小	大小

Conv4_3	3×3×1024	1	Conv	3×3×32	1
Conv6_2	1×1×1024	1	池	2×2	2
Conv7_2	3×3×512	1	Conv	3×3×64	1
Conv8_2	1×1×512	1	池	2×2	2
Conv9_2	3×3×256	1	Conv	3×3×128	1
Conv10_2	1×1×256	1	池	2×2	2
Conv11_2	3×3×128	1	Conv	3×3×256	1
辍学	- - - - - -	- - - - - -		√	1
SSP	2×2
AM-LSTM	√	1		√	1

CNN层和SSD处理后,单帧图像融合,然后,AM-LSTM层连接。AM-LSTM网络包括转发层和逆向层,和隐藏节点的数量设置为256。AM-LSTM网络层是紧随其后的是完整的连接层,并通过softmax分类类别输出。这个过程如下。

首先,对视频图像的实时采集、过滤和降噪,CNN网络用于提取视频图像的特点和构成视频序列的特性;第二,根据窗口大小,AM-LSTM网络构造与输入和输出的注意机制和选择ReLU激活函数;第三,时空流动特性的训练样本和对应的标准类标签序列输入到AM-LSTM网络,和BPTT用于训练网络参数获得最后AM-LSTM网络结构;最后,AM-LSTM训练网络模型用于提取本地时空系列特性测试的样品,并得到分类结果由softmax获得驾驶行为的判断结果的视频。

3所示。不安全驾驶行为的识别

3.1。全局特征识别

驾驶视频图像识别的难度在于行动持续时间的不确定性和多样性,以及背景的复杂性,角,和环境的差异。全球驾驶视频图像特征识别主要包括非标准的身体动作和面部识别,相对较大,很容易辨认。在本文中,基于混合dual-stream通道检测技术,dual-stream CNN + AM-LSTM算法来识别视频图像。一般来说,视频包含彩色RGB图像信息和运动光流信息。一个频道是输入RGB视频帧作为空间信息的载体到CNN,然后提取形状和其他特征信息。另一个频道是使用光流信息,时间信息的载体,即信息网络的时间。SSD算法提取特征和采样和连续的视频帧,跟踪和跟踪的位置点在下一帧提取行动是由光流信息。然后,数据信息融合,AM-LSTM和驾驶行为识别的网络。

3.2。识别的地方特色

局部特征的识别主要指的是眼睛和嘴的动作。当人们处于疲劳状态时,眼睛和嘴可以最反映,打哈欠和斜视等。与全球特征相比,这部分只占一小部分的视频图像,结合不同的头发,姿势,人工闭塞,戴眼镜,所以很容易造成误判和错过的判断。在整个交通事故,疲劳驾驶占69%。为了有效地识别司机的眼睛和嘴行动,第一步是检测视频图像中的脸和缩小检测范围。我们可以把眼睛和嘴的动作视为小目标探测,所以本文使用SSD算法因为SSD算法只需要一个阶段实现检测,和它的速度比R-CNN算法。常见的眼睛状态识别方法包括霍夫变换,人眼模板,和统计学习。在本文中,设计一个简单的方法来判断疲劳的程度通过检测开幕式和人类眼睛和嘴的动作频率。人类眼睛的探测点图所示5。的眼睛,有八个探测点,每个点对应一个坐标,表达的(x_Ei,y_Ei)。首先,之间的距离E₁和E₅,E₂和E₄,E₆和E₈计算打开眼睛,采用平均值作为正常驾驶标准的价值。因为每个司机的状态是不同的,相同的车辆可能由多个司机,只提供了基本模型。需要学习特定模型的参数自适应,根据眼睛的大小不同的人,环境的变化,以及是否戴眼镜和其他因素。E_开放是用来表达眼睛打开。

因此,对于一个具体的人,我th眼睛打开可以表示为

的公式,我是我th检测,这是作为人大开眼界的指数,因为眼睛开放必然会减少当司机疲劳。眼皮很容易关闭当司机疲劳,和增加累积的时候闭上眼睛。这里将会有一个机制。它可以通过计算来判断眼睛的累积时间减少。考虑到环境因素如光,测试结果是,开幕式在0.9和0.7之间,这表明轻度疲劳,疲劳在0.7和0.5之间,低于0.5是严重的疲劳。当人们疲劳时,眨眼的频率将会变得更快。作为一个参数来判断驾驶员疲劳,为方便计算,把时间转换为视频帧的数量检测单位: 在菲_开放作为一个阈值用于判断疲劳状态。一般来说,当一个人处于正常状态,铁_开放值小于0.5。如果菲_开放值在0.5和0.6之间,一个人在一个轻微的疲劳状态。如果菲_开放值在0.6和0.8之间,一个人处于疲劳状态。如果菲_开放值大于0.8,一个人处于严重的疲劳状态。阈值是动态的,因为每个人的眼睛大小是不同的,开幕式的绝对值是不一样的。司机就上了车后,阈值是通过AM-LSTM算法自适应学习。在监测过程中,不断发现和分析的信息。然后,判断疲劳状态。眼开的比较判断如图6。

(一)

(b)

(c)

同样,疲劳状态分析的运动设计。口是张开的,有八个探测点,如图7。每个点对应一个坐标,表达的(x_心肌梗死,y_心肌梗死)。计算的原理是一样的眼睛。H口的高度开放,l口的宽度吗米_开放和用于描述口开放的程度。口的原理图如图7。

打呵欠是疲劳的风向标,打呵欠的持续时间通常是4 s-5s。因此,当它检测到司机的嘴打开到最大,举行的最大的很长一段时间,它可以判断,司机打呵欠。一般来说,嘴巴打开阈值米_开放如下:当嘴巴是完全封闭的,米_开放值为0;口是张开的,米_开放值为0.7 - -1.0;打呵欠的时候,H可以达到40 - 60毫米,米_开放值为1.3 - -2.5。越大米_开放越大,嘴打开。当米_开放超过阈值,持续一定的时间,它是判断打呵欠。口开放的持续时间米。根据米、打哈欠分为正常打呵欠和深打呵欠。一分钟内两个正则打哈欠或一个深打哈欠是轻微的疲劳,和三个常规打哈欠或超过两个深打哈欠是严重的疲劳。当米大于2秒,少于4秒,这是正常的哈欠。当米大于4秒,它是深打哈欠。口运动的比较如图8。

(一)

(b)

(c)

如图8,米_开放的图8(一)达到1.0和0.1,分别。米_开放的图8分别(b)达到0.9和0。米_开放的图8(c)达到0.2和0.5,分别。从这,我们可以判断人的行为状态,和开口说话,吃东西,或者打呵欠。

VGG-16网络模型用于提取和分类,然后,视频编码向量可以根据每一帧的顺序构造。在获得眼睛和嘴的疲劳特性基于特征点分析,SSD算法用于疲劳状态划分为nonfatigue,轻型疲劳和重型疲劳根据这些特性。当有严重的疲劳在单位时间内,它被认为是疲劳。当没有严重的疲劳,提取的特征融合来判断疲劳。疲劳时连续几个单位一次,产生一个警告消息。

4所示。实验结果分析

实验上实现4.0 ghz Intel CPU和GeForce GTX 1080图形卡。该软件采用Python 3.0, Matlab2016a和张量flow1.3框架。安全驾驶行为识别的过程中,系统采用近红外相机850 nm波长收集视频序列,采样率为30 fps,视频大小是320×240。三个实验设计摘要FDDB数据库中的人脸识别,视频人脸识别OTB100数据集,在自建的驾驶和安全驾驶行为识别图像集。

4.1。FDDB数据库实验

为了验证该方法的有效性,该方法相对于其他几个常见的人脸识别方法,如CNN, LRCN, SSD。FDDB数据库是一个不受约束的自然风光人脸检测的数据集,其中包含5171张面孔在2845年拍摄的图像从不同的自然场景和面孔。在实验中,选择2000张图片,其中1500用于培训和500进行测试。为了分析测试数据,接受者操作特征(ROC)曲线是根据测试数据。中华民国分析是一个二进制分类模型。根据分类结果和曲线下的面积(AUC), AUC面积越大,方法就越好。实验结果如图所示9。

从图可以看出9AM-LSTM结构结合注意机制具有良好的性能,和ROC曲线FDDB数据库中明显高于其他方法。本文算法的AUC面积达到0.8658,这是高于8.86%和6.64% CNN和SSD方法,分别高出1.41%的dual-stream方法0.8517。这些都表明,该方法在人脸识别具有较强的竞争力。

4.2。OTB100数据集实验

为了证明注意力机制的有效性和LSTM功能融合,在OTB100不同方法进行了比较实验数据集,使用CNN, DDS, LRCN,分别和其他方法。结果如图所示10。

(一)

(b)

从图可以看出10在视频序列中,面对目标识别的准确性和成功率这个方法分别达到80.5%和79.2%,3.6%和2.9%高于CNN和SSD。结果证明了该方法的优越性。

4.3。自建驾驶试验视频图像集

为了验证该方法的准确性和实用性提出了文本,在实验中增加了一个自建的视频图像集,如图11。总共有10的情况下收集,包括打电话,吃东西,双手离开方向盘,说话,转动,眯着眼,打呵欠,正常的,和其他非法行为。收集三个视频在任何情况下,共有30个视频,S1-S30编号。培训,初步学习速率设置为0.001和ReLU用作激活函数,和随机梯度下降法(SGD)方法用于优化。AM-LSTM节点的数目是64。培训视频数据没有二级稀疏光流提取与连续两帧输入网络,4连续帧,连续10帧。与其他方法比较和分析自建数据集如下。

其中,眼睛和嘴的测试设计选择8 4州的视频序列进行测试,样品的数量是S16-S27,帧的数目是800。结果如表所示2。


视频数量	菲_开放	米_开放	识别状态	正常状态	测试样品数量	精度(%)

S16	0.35	- - - - - -	轻微的疲劳	轻微的疲劳	763年	78.38
肌力	0.75	- - - - - -	疲劳	疲劳	755年	77.38
S18	0.91	- - - - - -	严重的疲劳	严重的疲劳	762年	78.25
S19	0.42	- - - - - -	轻微的疲劳	轻微的疲劳	720年	74.00
S20	0.55	- - - - - -	疲劳	轻微的疲劳	726年	74.75
S21	0.87	- - - - - -	严重的疲劳	严重的疲劳	730年	75.25
S22	- - - - - -	0.52	正常的	轻微的疲劳	765年	79.63
S23	- - - - - -	1.25	疲劳	疲劳	769年	79.13
S24	- - - - - -	2.12	严重的疲劳	严重的疲劳	763年	80.33
S25	0.19	0.15	正常的	正常的	767年	78.88
S26	0.26	0.23	正常的	正常的	766年	78.75
S27	0.35	0.29	轻微的疲劳	正常的	769年	79.13

AM-LSTM方法与改进的密集的轨迹(idt)相比,dual-stream视频序列识别算法,SSD, CNN, AM-LSTM算法。五行为自建数据库中进行测试,结果如表所示3。


方法	网络结构	精度(%)					参数(MB)	计算(失败)
方法	网络结构	疲劳(%)	调用(%)	吃(%)	把(%)	说话	参数(MB)	计算(失败)

美国有线电视新闻网	VGG-16	65.56	95.22	94.65	98.88	93.55%	1.185	1.963
LRCN	VGG-16	70.78	94.53	96.55	99.12	94.17%	1.177	2.101
固态硬盘	谷歌	73.66	89.82	96.35	98.25	94.28%	1.165	1.995
iDT +阵线	ResNet-50	76.56	94.76	95.82	98.81	93.55%	1.135	1.926
iDT + HSV	ResNet-50	77.53	88.71	95.52	98.18	93.32%	1.123	1.928
Dual-stream	VGG-16	78.22	93.65	94.8	98.22	92.52%	1.193	1.875
我们的	VGG-16 +	80.33	97.35	96.22	98.30	95.52	1.056	1.736
	《盗梦空间》

从表可以看出3,为了提高视频图像识别的性能,这种方法也集成了IDT轨迹特征。费舍尔向量(艘)方法用于编码,火车,IDT特性并对其进行分类。同时,VGG-16和《盗梦空间》采用的网络结构,提高了网络的学习能力,所以该方法的识别率高于其他方法。最困难的是识别的疲劳状态。Dual-stream方法只有78.22%,iDT + HSV是77.53%,而这个方法达到80.33%,分别高于2.11%和2.8%。

为了进一步验证该模型的正确性,基于AM-LSTM结构模型的识别结果,八个驾驶行为结果的ROC曲线,如图12。

可以看出ROC曲线的总体趋势的八个驾驶行为图12。LSTM结构金字塔的混合双通道流池和注意力机制具有良好的分类性能;特别是的AUC值调用、聊天、吃饭等等已达到81.3%以上。打瞌睡行为的识别在疲劳驾驶也达到了68.2%。

为了进一步验证该方法的准确性,识别误差的几种方法对四种不同的驾驶动作序列进行了分析,结果如表所示4。


方法	Sequence1	Sequence2	Sequence3	Sequence4

美国有线电视新闻网	15.233	19.761	20.388	17.812
LRCN	13.212	12.891	16.456	17.123
固态硬盘	11.245	11.378	14.612	13.752
iDT +阵线	17.210	19.289	21.365	27.359
iDT + HSV	14.182	16.564	15.219	18.329
Dual-stream	12.576	14.253	17.498	16.367
我们的	9.213	11.012	10.255	12.213

从表可以看出4AM-LSTM方法的平均绝对误差四个驾驶视频序列在9.213和12.313之间,达到最优的结果,比其他方法具有一定的优势。

CNN的损失函数,LRCN、SSD和AM-LSTM分析自建的视频图像集。第一个75%的数据用于训练,和第二个25%是用于测试。学习速率是设定在0.001,叉损失函数设置的损失函数。训练模型训练用亚当•线性化电路和500进行迭代。培训损失函数曲线的四个模型如图13。

它可以看到从图13损失函数的四个网络继续减少迭代次数的增加。其中,CNN网络损失函数值下降最慢,最后损失值是最大的。在初始阶段,SSD收敛速度比AM-LSTM网络。这是因为AM-LSTM网络转发层和逆向层,和最初的网络训练是相对较慢。但经过一段时间的迭代,SSD网络收敛速度变得更慢,而AM-LSTM网络收敛速度还是非常快,最后收敛损失函数值小于SSD的网络。AM-LSTM的损失函数模型是最小的,和检测性能AM-LSTM网络比SSD和CNN网络。

四个模型的精度曲线如图所示14。

从图可以看出14,随着迭代次数的增加,准确率的四个网络正在增加。在初始阶段,LRCN网络的准确性比AM-LSTM上升最快的网络。经过一段时间的迭代,LRCN网络的准确性增加缓慢,AM-LSTM网络仍然是改善的准确性。最后,AM-LSTM网络精度最高。

5。结论

疲劳驾驶和司机的违法行为是交通事故的主要来源。本文提出一种改进的混合双通道CNN网络安全驾驶行为识别利用人工智能技术和学习理论。该算法是基于CNN和LSTM网络结构的融合和集成机制的关注。基于VGG-16和盗梦空间网络结构、金字塔池使用,而不是传统的汇聚层网络中统一图像大小,和注意力机制引入LSTM网络选择有效的关键信息。在双通道设计,一个频道使用CNN算法提取视频图像的RGB空间的特性,和其他频道使用SSD算法来计算光流的两个相邻帧图像视频序列,用于检测小目标,如眼睛和嘴。双通道信息融合后,AM-LSTM后分类识别,识别结果。三种类型的实验在FDDB VOT100数据库,和自建驾驶视频图像集,和中华民国曲线和曲线的不同方法和不同的驾驶行为。结果表明,该方法具有良好的优势,可以有效地提高疲劳驾驶的识别率和非法驾驶行为。

6。未来前景

疲劳驾驶是交通事故的一个重要原因,和不安全的驾驶行为识别是基于视觉的驾驶疲劳检测的初步工作,旨在实时检测和实时检测和识别的不安全行为和提供数据基础和警告驾驶疲劳的歧视。不安全的驾驶行为识别算法提出了有一定参考价值。深入学习算法和网络结构设计本文需要进一步改进,如目标探测的红外场景,和丢失的检测和定位不准确的现象存在。司机戴着眼镜时,产生高亮度区域,影响识别的准确性。当光线太强或头部移动,会有误判。

虽然算法集成了多个参数,在一定程度上增加了模型的复杂性,降低了实时性能,提高识别精度。在实际应用程序中,安全驾驶行为识别本质上是不同的行为的实时识别网络分类器。分类器的性能直接决定了视频目标的识别性能。虽然AM-LSTM识别和分类方法设计在本文中有大量的计算,它可以解决这个问题通过使用ARM和FPGA的优势在NVIDIA GPU的机器视觉开发平台。通过这个嵌入式平台,安全驾驶行为识别方法提出了可以应用于实际的场景。

数据可用性

目前,大多数的研究数据来自于网络公共数据集,和一些自建数据集用于实验,暂时不能公开。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持部分由中国江苏省自然科学基金(项目号BK20191225)和第二批production-university-research合作基地于2020年在苏州高等职业学院(项目号2020 - 5)。

引用

f . l . x张t . Liu问:潘et al .,“分析驱动因素对道路交通事故的影响指标,”中国安全科学杂志》上,24卷,不。5,79 - 84年,2014页。视图:谷歌学术搜索
b . y .张研究基于深度学习驾驶安全评估方法、西安科技大学、西安,中国,2019。
王l和r . s .太阳,“飞行疲劳分析风险和系统性的解决方案,”人体工程学与健康国际会议的程序方面的工作与电脑美国佛罗里达州奥兰多,2011年7月。视图:谷歌学术搜索
c . Bila f . Sivrikaya m·a·汗et al .,“未来的汽车:对安全问题的调查研究,“IEEE智能交通系统,18卷,不。5,1046 - 1065年,2017页。视图:出版商的网站|谷歌学术搜索
x锣,y . f . Pu、杨z . y . et al .,“PERCLOS算法基于有限状态自动机的人眼开口,“计算机应用研究没有,卷。31日。1,第1065 - 1046页,2014。视图:谷歌学术搜索
Cai, y . b .邓h·s·李et al .,“回顾人类行为的识别方法基于深度学习,”计算机科学卷,47号4、85 - 93年,2020页。视图:出版商的网站|谷歌学术搜索
m·穆尔吉亚i c r·p·巴勃罗·g·r·阿隆索,“面部识别的模糊聚类方法基于人脸特征线和特征向量,”工程的信,15卷,不。1,35-44,2007页。视图:谷歌学术搜索
y高、c·h·周和f . z苏,”研究SVM分级奥利图像性质,“工程测量与映射卷,47号11日,第3086 - 3084页,2014年。视图:谷歌学术搜索
w·h·田,k . m .曾z .问:莫et al .,”司机不安全行为识别基于卷积神经网络,”电子科技大学学报,48卷,不。3、381 - 387年,2019页。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”ACM的通信,60卷,不。8,84 - 90年,2017页。视图:出版商的网站|谷歌学术搜索
a . Alahmadi m·侯赛因·h·a . Aboalsam et al .,“PCAPooL:无监督特征学习对于使用PCA的人脸识别,枸杞多糖,和金字塔池”模式分析与应用,23卷,不。7,673 - 682年,2019页。视图:出版商的网站|谷歌学术搜索
t·h . Liu, x d . et al。有关猪的特性对人类探测使用级联演算法和支持向量机分类器施普林格,柏林,德国,2013年。
x y . Wang j .沈,惠普,“多实例学习视频人脸识别算法基于改进费舍尔标准,“《自动化学报》,44卷,不。12日,第77 - 69页,2018年。视图:谷歌学术搜索
a . m . Hormat k·法耶兹,可并z Shokoohi et al .,“非线性特征的提取和分析的新方法对人脸识别,”电气和计算机工程杂志》上,卷2,不。6,766 - 773年,2012页。视图:谷歌学术搜索
b . h . Tan杨,z .马”人脸识别的基础上,融合全局和本地猪的特性如果脸图像,”计算视觉,8卷,不。3、224 - 234年,2014页。视图:出版商的网站|谷歌学术搜索
z h·w·j·李,j . Wang黄et al .,“LBP-like特性为人脸识别基于伽柏小波,“国际期刊的小波多分辨率和信息处理,15卷,不。5、文章ID 1750049, 2017。视图:谷歌学术搜索
n . k .库里和d .圣地”,基于实时驱动程序的维护系统通过分析人类生理信号,”国际工程的趋势和技术杂志》上,1卷,不。1,41 - 45页,2013。视图:谷歌学术搜索
王b . Mandal l·李·g·s . et al .,“向巴士司机疲劳检测基于健壮视觉的眼睛状态分析,“IEEE智能交通系统,3卷,不。3,1-13,2016页。视图:谷歌学术搜索
r . j . s b z . j . Li Li Li et al .,“在线检测驾驶员疲劳使用方向盘角度对于真正的驾驶环境,”传感器,17卷,不。3、495 - 507年,2017页。视图:出版商的网站|谷歌学术搜索
l·f·刘,s .问:吴和w·m·徐“实时疲劳驾驶检测分析的基础上面部地标,”电视技术,42卷,不。12日,研究,2018页。视图:谷歌学术搜索
j·j·李·h·m·杨郑胜耀Zhang et al .,“识别司机的违法违规行为基于神经网络融合,“计算机应用与软件,35卷,不。12日,第228 - 222页,2018年。视图:谷歌学术搜索
m·f·杨,k . Ren, z . y .赵,“对铁磁材料应力集中和疲劳损伤的研究基于渗透率测试技术,”《国际材料科学与工程研讨会昆明,页585 - 592年,中国,2017年10月。视图:谷歌学术搜索
s . b . f .谢,r . j . Wang沈et al .,“驾驶行为识别算法基于移动惯性传感器和多特征CNN,“中国惯性技术杂志》上,27卷,不。3、288 - 294年,2019页。视图:谷歌学术搜索
m . Jain AV。Subramanyam s Denman et al .,“LSTM引导整体相关性过滤器与外观模型跟踪池,“计算机视觉和图像理解文章ID 102935卷,195年,2020年。视图:出版商的网站|谷歌学术搜索
r .通用电气和徐x, z h . Wang”动作识别与分级卷积神经网络特性和双向长期短期记忆模式,”控制理论与应用,34卷,不。6,790 - 796年,2017页。视图:谷歌学术搜索
周y, z谢k·w·吴et al .,“活动识别基于时空LSTM注意,”中国电脑杂志,42卷,不。130年,硕士论文,2019页。视图:谷歌学术搜索
s . Rajan c . Poongodi s Devaraj et al .,“小说深度学习面部表情识别模型基于最大提振了CNN和LSTM,”专业图像处理,14卷,不。7日,2020年。视图:出版商的网站|谷歌学术搜索
Lg, z . b .挂,w . b .曹国伟et al .,“向CSI-based多样性活动识别通过LSTM-CNN encoder-decoder神经network-ScienceDirect”Neurocomputing11卷,2020年,在出版社。视图:出版商的网站|谷歌学术搜索
r . Kiran p·库马尔,b . Bhasker”OSLCFit(有机同时LSTM和CNN适应):小说深度学习情绪极性分类评审的基础解决方案,“专家系统与应用程序文章ID 113488卷,157年,2020年。视图:出版商的网站|谷歌学术搜索
r·崔a .朱g .华h .阴和h·刘,“多源学习skeleton-based行动识别使用深LSTM和CNN,“电子杂志的成像,27卷,不。4,p。2018。视图:出版商的网站|谷歌学术搜索
周宏儒。李和d·李,“process-focused研究评估使用面部表情识别算法基于深层神经网络模型,”电子产品,10卷,不。1,p。2020。视图:出版商的网站|谷歌学术搜索
f . m . Alotaibi m z Asghar,艾哈迈德,”精神病类的混合CNN-LSTM模型检测的推特用户,”认知计算,2021年1 - 15页。视图:谷歌学术搜索
f·肖,x锣,y, y沈,j . Li和x高,“DAA:双重LSTMs自适应关注图像字幕,“Neurocomputing卷,364年,第329 - 322页,2019年。视图:出版商的网站|谷歌学术搜索
p . j . p . l . Wang Wang Wang et al .,“双网络目标跟踪算法的研究将注意力机制,“计算机工程与设计2020年,卷。11日,https://kns.cnki.net/kcms/detail/11.2127.TP.20201030.1937.013.html。视图:谷歌学术搜索
j·m·刘,y .问:苏和p p,“视频脑电图互动协作的情感识别基于长期短期记忆和信息的关注,“《自动化学报》,46卷,不。10日,137 - 147年,2020页。视图:谷歌学术搜索
y . j . m . Zhang Li Li和r·徐“深度学习的短期电力系统电压稳定评估,”IEEE访问9卷,第29718 - 29711页,2021年。视图:出版商的网站|谷歌学术搜索

电气和计算机工程杂志》上

文摘

1。介绍

2。长期和短期记忆网络

2.1。改善LSTM网络结构

2.2。双通道AM-LSTM结构算法

3所示。不安全驾驶行为的识别

3.1。全局特征识别

3.2。识别的地方特色

4所示。实验结果分析

4.1。FDDB数据库实验

4.2。OTB100数据集实验

4.3。自建驾驶试验视频图像集

5。结论

6。未来前景

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章