文摘

video-prediction算法的兴起在很大程度上促进了异常检测的发展为智能城市和公共安全视频监控。然而,大多数当前的方法依赖于single-scale信息提取外观(空间)的特性和缺乏运动(时间)视频帧之间的连续性。这可能会导致失去部分时空信息,拥有巨大的潜力来预测未来框架,影响异常检测的准确性。因此,我们提出一种新颖的预测网络提高异常检测的性能。由于各种尺度的对象在每个视频,我们使用不同的接受域提取详细的外观特性的混合扩张卷积(HDC)模块。与此同时,更深层次的双向卷积长期短期记忆(DB-ConvLSTM)模块还记得连续帧之间的运动信息。此外,我们使用RGB差损失来取代光学流损失时间约束,大大降低了光流的时间提取。在异常检测任务较先进的方法,实验证明我们的方法可以更准确地检测异常在不同的视频监控场景。

1。介绍

由于2019年的冠状病毒病(COVID-19)爆发,许多国家都加速智能城市建设和公共安全系统(1)有效地管理周围的环境。作为这些系统的一部分,传统的视频监控系统依靠手动监控发现异常庞大的视频数据。这个操作会增加工作时间,劳动力成本和误判。因此,自动检测异常行为(2)吸引了越来越多研究者的关注,因为其潜在的应用价值。一个智能视频监控系统的目的是为管理者提供准确的异常提示尽快处理异常事件。然而,这是一个非常具有挑战性的任务在计算机视觉领域,因为异常检测遭受两个核心问题。首先,在训练阶段只有正常的样品是现成的,因为在大多数情况下罕见的异常事件。第二,各种异常事件和复杂,大量“异常”的定义取决于上下文;因此,没有标准的定义。很难马克异常事件和使用监督技术检测这些行为。

解决上述问题,最先进的方法采用无监督方法,然后使用常规的事件作为训练样本训练模型。当测试样本明显偏离了学习模型,它是检测到异常。到目前为止,各种各样的异常检测方法大致可以分为两种类型:(1)手工方法和特征(2)深度学习的方法。在手工功能方法,核心思想主要是采用手工特征来表示视频序列。这些特性包括轨迹特性(3)和低级特性(例如,面向梯度直方图(4),直方图的光学流(5),和3 d梯度(6])。它们严重依赖于特征提取过程和专家知识,这直接限制复杂特性的准确表示模式和影响异常检测的准确性。深度学习方法通常使用重建偏差的方法。这些方法遵循的规则正常事件产生一个小的重建误差,而异常事件生成一个大错误。他们评估异常基于生成并输入帧之间的一致性。具体地说,哈桑et al。7]介绍了一种方法基于auto-encoder改造规律,低误差但带来更高的重建误差的违规行为。然而,由于卷积操作仅用于特征提取,这个结构不能在很长一段视频序列模型时间信息。因此,庄和泰8和罗等。9)添加卷积长期短期记忆(ConvLSTM)层在auto-encoder执行时间信息的记忆。李张(10)提出了一个多元高斯卷积完全敌对的auto-encoder (MGFC-AAE)模型梯度和光学流异常检测的补丁。乔治et al。11]提出了一种非均匀时空地区类似平行六面体的直方图提取光流方向和大小特征。这些方法同时模拟输入数据的时空特性,使它们更适合视频分析。然而,挑战获得大量重建误差异常由于深神经网络的强大学习能力。此外,由于self-reconstructed生成框架,识别异常不管上下文信息的方法。因此,高错过和错误检测现象发生在执行这些方法。

考虑重建方法的缺点,一些研究人员开始使用video-prediction算法,即future-frame预测基于之前的视频帧序列,来检测异常行为。这些方法同意认为正常的事件是可预测的,而异常事件是不可预测的。只有培训定期活动获得预测模型、异常在视频指事件很少或不应该发生在一个特定的场景。例如,Munawar et al。12)创建了一个深度预测网络来检测异常操作工业机器人的行为。Villegas et al。13)结合LSTM和analogy-based encoder-decoder网络解决长期video-prediction任务从分层的角度来看。此外,赵et al。14)提出了一种时空auto-encoder涉及三维(3 d)卷积视频异常检测。然而,这些方法基于auto-encoder结构只使用从上一层single-scale信息在解码过程中,导致损失转化对象的详细信息在视频。因此,刘等人。15)提出了一种方法来预测未来的帧的基础上U-Net,可有效保留的多尺度结构特征输入帧的跳过连接。然而,传统的U-Net不能充分考虑视频帧之间的运动连续性。

出于上述异常检测任务时,需要充分考虑多尺度识别异常的空间特性和时间连续性的行为。最近,很多作品都取得了极大的检测性能,利用多尺度特性的图像;例如,高et al。16)采用多尺度单级对象探测器构成检测在教室里的场景。哦,et al。17]提出的多尺度卷积递归神经网络分类检查和轴承故障缺陷。文献[18,19)使用多视图接受域网络前景检测。由于摄像机的位置和角度,对象多尺度特征提取可以有效地提高目标检测的性能。在本文中,我们提出一个新颖的时空预测网络,即。,STP-net, which fuses the multiscale appearance features and motion information extraction module. The main idea is to utilize the network to model the video content and internal dynamic changes by training the ordinary events accurately. If the test-video prediction frame is significantly different from the actual frame, an abnormality is detected. First, we use the HDC module [20.)提取多尺度空间尺度变化特征和学习对象。然后,我们采用DB-ConvLSTM [21模块来记住时间信息和获得连续帧之间的复杂的运动特性。最后,我们执行预测未来从时空维度框架。同时,文献[22,23]表明,RGB的区别是一个有效的替代光学流(24)作为一种新型的时间损失。这个操作可以达到类似的效果但显著降低计算成本提取光流信息。

具体地说,我们工作的主要贡献如下:(1)从第二downsampling U-Net, HDC卷积模块作用于前一层每个downsampling层增加接受域卷积内核,使它容易保留更多的数据的详细信息,提高模型的表征能力。(2)U-Net的编码过程,年底DB-ConvLSTM策略可以充分利用连续帧之间的关系来提取详细的时间信息,可加强视频帧之间的时间连续性,有效地提高了预测结果的准确性。(3)实验结果在几个公共基准数据集显示我们的方法的优越能力较先进的方法在异常检测任务。

本文的其余部分组织如下。部分2提供了该方法的总体框架。部分3入手,讨论了实验验证主要通过一系列的公共数据集。最后,部分4总结了一般结论和讨论了未来的研究方向。

2。该方法

如图1,我们的方法的总体框架可以分为两个部分:视频预测和异常检测。第一部分旨在培养一个发电机网络来预测未来帧。生成高质量的预测帧,我们使用生成对抗网络(GAN) [25)和几个损失函数来优化我们的网络模型。我们对待STP-net发电机网络(G),然后采用帧(1,2,3、…t在当前帧之前)t+ 1作为输入张量,预测框架 张量的输出。有识别力的网络(D),我们选择PatchGAN [26)加强实际之间的识别能力,生成的框架。最后,我们使用的总目标优化函数最小化预测帧之间的距离和目标框架, 接近t+ 1。在第二部分,我们采用pretrained模型来判断异常的程度通过计算每一帧的常规得分。接下来,我们将详细说明该框架的不同组件。

2.1。视频预测

U-Net结构的基础上,提出了STP-net图的细节2。我们添加了HDC模块提取训练样本的多尺度空间特征,然后插入DB-ConvLSTM处理时间信息之间的连续的T帧以非线性的方式。该网络包括一个解码编码路径和路径。网络的输入和输出的大小都是256×256×3。内核所有卷积和反褶积的大小设置为3×3和maxpool层设置为2×2。

2.1.1。多尺度特征提取策略

形式和大小不同的对象由于摄像机的位置和角度。灵感来自于HDC语义细分领域的应用,必须考虑多尺度特性的信息。同时,U-Net的多个将采样操作将导致空间的详细信息的严重损失。为了提高网络的学习能力,我们不仅要考虑提取多尺度空间信息,也考虑补偿损失将采样操作;因此,从第二个将采样,HDC卷积模块作用于前一层的每个downsampling层保留更多的图像细节信息。HDC的原因是之前不习惯第一downsampling层数卷积操作之前首先将采样不会导致大量的图像信息的损失。

HDC的结构模块如图3。输入特征图谱被送入三个不同的分支。这些分支是用来获得不同大小的接受域和自动提取多尺度特性通过一组扩张的隆起与不同的膨胀率。也值得一提的一个小膨胀率是适合小物体的提取特征,而大膨胀率是适合大型对象获得的特性。最后,每个分支的功能连接增强上下文信息的输入特征图和多尺度空间特征表示。

2.1.2。时间信息提取的策略

当前的异常检测方法通常采用三维(3 d)卷积或ConvLSTM [27)提取时间相关的输入数据。三维卷积需要更多的计算时间来处理大量的模型参数。因此,许多研究人员选择ConvLSTM结构造型。然而,ConvLSTM只能记住前进方向的序列数据。根据研究[21,28),很明显,考虑向前和向后的特征信息和补充的预测未来帧数是很重要的。因此,我们使用DB-ConvLSTM模块获取更全面的时空特征。

网络的输入模式不同于现有传统堆栈的方法T连续帧连接成一个网络。在这些方法中,所有的T框架连接到每个通道的输出特性映射,从而导致的崩溃时间信息(29日];因此,我们输入T帧到编码器网络一个接一个地生成相应的特征图谱。如图4向前,DB-ConvLSTM结构包括一个浅层和一层更深的落后。具体来说,{Htf}表示相应的输出的时序特征图谱ConvLSTM单元的层。更深层次的向前向后层接收顺序输出{Htf生成{}Htb}映射相应的反向顺序输出特性。然后,我们使用方程(1)处理向前和向后特性映射到获得最终的输出序列{Yt}。最后,前后之间的信息交换定向ConvLSTM单位获取更强大的和互补的时空特性。如图4,我们喂最后输出Yt包含空间相关特性和时间特性的解码过程。

2.1.3。损失函数

我们用空间和时间约束优化模型和最小化预测帧之间的差异及其地面实况。约束强度能保证所有像素的相似性在RGB空间中,和梯度约束可以提高生成的图像。因此,我们选择强度和梯度约束作为空间约束,促进预测帧 与相应的地面真理是一致的。此外,时间损失定义为RGB区别预测帧和地面真理保证运动预测异常检测的正确性。强度损失、损失梯度和时间损失被定义为方程(2)- (4),分别。

我们也甘杠杆限制培训过程由于其优秀的形象代(30.]和video-prediction [31日]近年来表现。具体地说,G试图创造尽可能真实的未来框架,而D旨在区分产生的帧g .理想情况下,氮化镓的目标是达到纳什均衡。当训练D,过程目标分类 成类0和到1级,0代表生成的框架,和1表示真正的框架。损失函数用于火车D对方程(5)。当训练G,我们的目标是让生成的框架 分为类1 d .然后,敌对的损失G定义见方程(6):

获得一个训练有素的模型有更好的能力来识别异常,我们认为上述限制,如空间,时间,和敌对的培训损失,为我们最终的目标函数(7)。在训练D我们固定的权重G优化目标函数(8)。 在哪里αint,αgd,αrgb,α阿德分别为对应的约束系数。

2.2。异常检测

训练后视频序列的模型代表定期事件,我们使用预测帧之间的差异 和地面真理对异常的预测。我们所知,峰值信噪比(PSNR) [32)被广泛用于评估图像质量如下: 在哪里 代表了预测帧,表示相应的地面实况, 代表图像强度的最大值,N代表像素的总数,代表像素指数。

在测试阶段,我们选择了PSNR评价预测框架。更高的PSNR值意味着预测框架更类似于其地面真理和表明它更可能是一个常规事件,反之亦然。相比之下,我们在每个测试规范化所有帧的PSNR视频范围[0,1],和定期的分数可以计算 的最小值tPSNR和马克斯tPSNR值最小和最大的PSNR值在每个测试视频帧,分别。

3所示。实验结果和讨论

在本节中,我们在公开验证该方法性能基准数据集,包括香港中文大学(中大)大道数据集33)和加州大学圣地亚哥分校(UCSD)行人数据集(34]。我们进一步利用记录的视频数据来验证我们的模型的鲁棒性。该框架实现了由NVIDIA Tesla V100 PyTorch和支持。

3.1。评价指标

验证该方法的有效性,我们跟着框架级别的性能评价标准。我们选择接受者操作特征曲线(ROC)作为评价指标的异常检测算法。中华民国曲线逐渐改变阈值,计算得到的真阳性率(TPR)和假阳性率(玻璃钢)。在这项研究中,我们的方法比现有异常检测方法使用曲线下的面积(AUC)和相等的错误率(曾经)。更高的AUC值和较低的曾经值表示更好的异常检测性能。AUC的关系,无论何时见图5

3.2。数据集描述

中大校园大道大道收集数据集在香港中文大学,包括16个培训视频(15328训练帧)和21个测试视频(15324测试框架)。每个视频帧分辨率为360×640像素,每个视频的帧速率是每秒25帧。正常事件主要是行人走在人行道上的行为。异常包括异常事件,比如跑步,闲逛,投掷物体。

UCSD数据集包含两个子集,Ped1 Ped2,包括视频采集的加州大学圣地亚哥从公共行人的地区在不同的视角。Ped1由34个训练场景和36个测试场景帧分辨率为238×158像素。Ped2包括16培训场景和12测试场景帧分辨率为360×240像素。Ped1和Ped2有相同的正常和异常事件的定义。在常规的视频,一些行人走在人行道上。然而,在异常情况下,这些都是自行车,汽车,滑板,轮椅穿越行人区域。

3.3。培训细节

培训的细节我们的模型,我们采用了亚当35)来训练网络参数优化。我们设置T4,使用一个随机剪辑五个连续的帧,并设置mini-batch大小4。对于灰度数据集,我们学习生成器和鉴别器设置为0.0001和0.00001,当我们为色标数据集设置他们0.0002和0.00002。为不同的数据集,系数的因素αint,αgd,αrgb,α阿德略有不同。

3.4。该方法的性能分析

我们分析相应的不同数据集的实验结果。为了更好的说明,在图6选择特定的事件,显示异常检测结果从第七大道数据集的测试视频。图6(一)显示相应的地面实况。图6 (b)提出了地面真值之间的差异和相应的预测帧。图6 (c)显示测试视频帧之间的关系和常规的分数。蓝色块代表帧的地面实况注释包含异常事件,和红色的线条代表的每一帧的常规得分。如图6 (c),更高的常规分数代表通常的事件。相比之下,相对应的常规的得分越低如图蓝色区域是异常事件6(一)(例如,孩子从不同的方向)。执行预测模型时,我们的方法学会了先验信息,然后预测接下来会发生什么。在步行街的场景下,模型所得的外观和运动特性从训练样本行走的人。如图6 (b),当测试框架的一个跑步的人被送入模型,它只能够预测一个人走路时,产生很大的差异(贴上红色矩形)预测帧和地面之间的真理。

物体的大小和形状会改变,因为不同的位置和角度的摄像机。更具体地说,数字78显示异常事件的检测结果从不同的视频角度UCSD Ped1和Ped2数据集。这些数字是类似于图的插图6。如数据所示7(一)7 (b)8(一个)8 (b),对象靠近相机似乎比那些远非如此,虽然他们是相同的对象。此外,我们可以看到,我们的方法可以很容易地检测异常事件(例如,汽车和骑自行车的人)从不同的情况。如数据所示7 (c)8 (c),较低的常规分数是一致的与地面真理贴上异常事件(例如,汽车在19世纪Ped1测试视频和骑自行车的人在Ped2第二测试视频)。更高的常规分数显示正常事件。分析实验数据之后,我们发现,我们的方法是健壮的,当面对这些不同类型的空间特性,因为它使用HDC模块的优点更加注重多尺度空间特征。

验证我们的方法实际上是在真实的场景中,我们记录了旁边的街景建设和验证了提出的模型。这些数字是类似于图的插图6。如数据所示9(一个)9 (b),我们可以看到,我们的方法可以很容易地检测异常事件(如汽车)记录真实的视频。如图9 (c),更高的常规分数代表正常活动。较低的普通分数是一致的与地面真理贴上异常活动。

此外,图10显示了检测异常的实验失败案例在初期UCSD Ped2数据集。如图10 (),我们可以看到异常事件(例如,阻挡自行车)不能被检测到,但是骑自行车可以检测到没有阻塞。与地面常规分数越高是一致的真理贴上异常事件在最初阶段。如图10 (b)差异(阻挡自行车贴上红色矩形)产生的地面真值和相应的帧之间模棱两可,但另一个是明确的。在分析实验数据,值得一提的是,我们的方法可能不表现良好,因为异常事件可以暂时阻挡其他对象的视频。主要关注我们的未来的工作是解决阻塞引起的问题,利用视觉跟踪技术来解决检测小姐在高度遮挡的场景。

3.5。不同方法的性能比较

直观地显示ROC曲线的变化趋势的不同方法的框架级别标准,图11描述了我们的方法的结果与三种典型方法相比,例如,MGFC-AAE [10),基线(15),150 fps (33在大街上的数据集。我们可以观察到的ROC曲线法明显高于其他的算法。表1提出了一种定量的比较我们的方法与其他最近发表的方法AUC值。与这些方法相比,该方法实现了AUC值最高,达到86.4%,证明性能良好。

数据12(一个)12 (b)描述ROC曲线的比较结果UCSD的数据集的不同的方法。我们选择了一些深度学习算法(10,15和传统方法34,38),例如,MGFC-AAE [10),基线(15),混合物的动态纹理(联合化疗)34),和运动能量模型(38]。的比较,我们可以看到,我们的方法优于大多数现有的方法。实验结果进一步证明了深度学习方法与传统方法相比的优越性。表2列出了详细的定量比较数据的不同方面的AUC度量算法。我们设置了文献[15)作为基线在评估阶段因其优秀的基于预测网络异常检测的性能。在细节,我们的方法提高1.3%和0.9% Ped1和Ped2数据集与基线相比15]。总之,我们的方法是有效的检测异常UCSD的数据集。

通过上述比较,该方法在各种视频监控场景;取得更好的结果AUC值通过我们的模型优于大多数现有的模型。更全面的分析,我们还采用了曾经作为评价指标。表3提出了该方法的检测结果以及其他方法。从数据可以看出,我们的方法达到降低曾经与其他方法相比,除了ConvLSTM [8](Ped1)和AnomalyNet [37)(Ped2)。实验结果证明我们的方法的优越性在异常检测的任务。

此外,我们选择每个样本的预测时间(即更典型。,average running time comprises the prediction frame generation and anomaly detection) to evaluate the complexity of the proposed solution. Table4展示了我们的方法的运行时间相比,有更早UCSD Ped2数据集的方法。可以看出,我们的方法比联合化疗(有点慢34和揭露36),但AUC值通过我们的模型优于这些方法。除此之外,我们的方法运行基线(几乎一样快15]。原因在于,我们添加HDC模块和DB-ConvLSTM模块,这需要时间。一般来说,我们的方法可以确保运行时间和精度更好的在现实世界中。

3.6。烧蚀研究

验证该方法的每个组件的有效性,我们进行了一次消融研究为不同的组件。相比较而言,该方法的三个变体(即。,STP-net only with HDC, with ConvLSTM, and with DB-ConvLSTM) were trained to evaluate the performance for anomaly detection. Table5显示了AUC值获得的变异与不同的组件在不同的数据集。它可以观察到,所有组件的变体实现最好的结果比用更少的组件,显示的重要性,以充分利用时空异常检测功能。HDC模块可以提取更多的代表多尺度空间的特性,和DB-ConvLSTM模块可以记住时间信息。实验结果表明我们的方法的有效性,这充分考虑时空信息。

此外,我们评估的影响光学流损失和RGB差损失我们的模型在不同的数据集。如表所示67,当RGB差损失是受雇于网络平均运行时使用批处理数据从0.4648 (s /批)减少到0.0036 (s /批)和AUC值显著提高了0.6%(大道),0.5% (UCSD Ped1)和0.6% (UCSD Ped2),分别。很明显,RGB差损失取代光学流损失可以大大节省时间的光流提取和缩短训练时间。总之,我们的方法给出了一个充分考虑的时空信息,从而有效地提高检测结果的准确性。

4所示。结论和未来的工作

本文提出了一个有效的异常检测方法基于STP-net通过整合HDC和DB-ConvLSTM模块。我们使用该网络来获取更全面的多尺度空间特征和时间信息的定期活动。在测试阶段,测试视频的异常探测到较低的常规计算成绩预测帧之间的PSNR值和实际帧。此外,使用RGB差异作为运动的损失可以减少培训时间。进一步评估该模型,我们进行了一系列的实验在一些公共基准数据集。实验结果表明,中大的AUC值大道,UCSD Ped1,和Ped2数据集达到86.4%,84.4%,和96.3%,分别。我们的方法执行方面的最先进的方法相比,通过定性分析和定量检测的精度比较。

该方法不限制异常的类型,它可以实现不同的通用检测异常行为在一个特定的场景中。因此,我们的方法可以方便地应用于各种视频监控场景。然而,这种方法仍有一些缺点和局限性。首先,预测方法是高度依赖于先验信息;因此,检测结果是对前一帧的任何变化敏感。第二,我们的方法可能表现不佳很容易检测到异常的咬合的异常事件。第三,预测网络依赖于训练数据的完整性,这意味着训练数据应该包含所有场景的正常行为。开发一个完整的异常检测系统,作为未来的范围,我们计划利用视觉跟踪技术来解决这一问题的敏感性和闭塞。与此同时,我们将扩展现有数据集覆盖尽可能多的不同的监控录像场景来解决智能城和治安问题。

数据可用性

原始数据用来支持本研究的结果都包含在这篇文章。

的利益冲突

作者宣称他们没有潜在的利益冲突的研究,本文的作者和出版。

确认

这项工作是由中国国家自然科学基金(批准号。61842103,61842103,61801437),的科学和技术基础的电子测试技术国家重点实验室(批准号6142001180410),技术创新的基础山西省的高等教育机构,中国(批准号2020 l0301和2020 l0389)。