raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

视交叉上核

安全性和通信网络

1939 - 0122 1939 - 0114

Hindawi

10.1155 / 2021/9999398

9999398

研究文章

对有效的视频检测对象超分辨率与深度融合网络公共安全

https://orcid.org/0000 - 0002 - 1543 - 240 x

任

盛

https://orcid.org/0000 - 0002 - 7410 - 2048

李

Jianqi

https://orcid.org/0000 - 0001 - 8833 - 9049

你

天一

https://orcid.org/0000 - 0002 - 0767 - 007 x

彭

Yibo

https://orcid.org/0000 - 0001 - 5886 - 8732

江

江ydF4y2Ba

Megias

大卫

计算机与电气工程学院

湖南大学艺术与科学

415000年常德

中国

huas.cn

2021年

24 5 2021年

2021年 22 3 2021年 14 4 2021年 14 5 2021年 24 5 2021年

2021年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

在公共安全视频监控中发挥着越来越重要的作用,是构建安全的技术基础和智能城市。传统的视频监控系统只能提供实时监控或手动分析情况下检查监控录像。所以,很难有效地使用监控录像的数据采样。在本文中,我们提出了一个有效的视频检测对象超分辨率和深度融合网络公共安全。首先,我们设计了一个超分辨率视频检测对象的框架。通过融合的目标检测算法,视频关键帧选择算法,和超分辨率重建算法,我们提出了一个基于深度学习智能视频检测对象超分辨率(SR)方法。其次,我们设计了一个回归目标检测算法和视频关键帧选择算法。对象检测算法被用来协助警察和保安人员实时跟踪可疑对象。关键帧选择算法可以选择从大量冗余信息的关键信息,这有助于提高视频内容分析的效率,减少劳动力成本。最后,我们设计了一个不对称的递归深度投影网络超分辨率重建。 By combining the advantages of the pixel-based super-resolution algorithm and the feature space-based super-resolution algorithm, we improved the resolution and the visual perception clarity of the key objects. Extensive experimental evaluations show the efficiency and effectiveness of our method.

中国的国家社会科学基金

20 &zd120

1。介绍

视频监控系统是广泛分布在城市街道和道路、商业场所,居民区,银行网点,车站,码头,机场和其他公共场所,在公共安全发挥着越来越重要的作用。通过视频监控系统,可以发现可疑迹象,对象在时间和密切监测,有效地避免犯罪危害的发生。警察可以通过监控录像和获得罪犯的信息询问可疑车辆和人员的位置。在案件的审讯阶段调查,监控录像可以作为客观诉讼证据。视频监控已成为第四大调查技术在刑事科学技术领域,动作技术和网络调查技术。它起着不可替代的作用在安全、智能城市的建设。2015年,公安部科学技术部和其他九个部委提出若干意见》关于加强公共安全视频监控建设”的网络应用程序。他们指出,建设公共安全视频监控的网络应用程序有助于维护国家安全和社会稳定,预防和打击暴力恐怖犯罪新形势下。具有重要意义,提高城乡管理和创新社会治理体系。

传统的视频监控系统只能提供实时监控或手动分析情况下检查监控录像。它会导致低使用率的监控视频数据。人工智能和机器学习技术,视频监控系统可以智能地分析视频内容,检测异常行为,并发现潜在的有害行为( 1]。除此之外,这些技术可以帮助警察和安全人员在调查案件中,从而提供更准确和更安全的监测。阿里巴巴云计算的智能视频监控平台可以确定烟火和检查员戴头盔,检测入侵者,并护送安全生产。百度的视频监控开发平台EasyMonitor有着丰富的人工智能业务技能,包括电子围栏,烟雾检测、安全盖检测和离开检测( 2]。大型互联网公司已经发布了许多智能视频监控产品。然而,一方面,软件产品购买成本的限制,操作,和维护,监控录像领域缺乏简单有效的辅助工具。另一方面,受限于硬件成本,硬件技术,和拍摄环境,目前患有低分辨率和监控录像不清楚视觉感知。总之,有两个问题在公共安全领域的基于监控录像:(1)在大多数情况下,监控录像观众需要手动识别对象和手动选择视频关键帧进行分析,使它容易失去对象除了效率低下。(2)很难使用低分辨率的视频帧,因为它是容易失去当放大视图对象的高频信息,导致识别的模糊和硬度。

为了解决上述问题,我们提出了一个视频超分辨率方法检测对象。我们使用目标检测算法来帮助监视视频观众实时追踪对象和使用超分辨率算法来重建高分辨率的视频帧与清晰的视觉感知。传统的目标检测算法OpenCV级联分类器使用一个滑动窗口选择区域,然后使用猪+支持向量机和其他特征提取方法,最后使用分类器分类检测区域( 3, 4]。基于深度学习的目标检测算法可以分为两种类型:目标检测和识别算法基于地区建议和目标检测;基于回归的识别算法。R-CNN、目标检测和识别算法基于区域建议,首先生成对象候选人框架基于地区建议,然后过滤候选帧生成的对象,最后改进候选人帧的大小和位置( 5]。回归对象检测和识别算法YOLO作为对象检测意思一个回归的问题。训练阶段的目标是训练一组权重和直接调用的训练重量对象定位在测试期间( 6]。传统的超分辨率方法主要是基于插值(如零内插、双线性插值和双三次的插值)和例子。基于实例的稀疏表示方法建立了低分辨率和超分辨率图像之间的映射关系通过学习稀疏图像块之间的关联来实现图像的超分辨率重建 7]。基于深度学习的超分辨率算法可分为pixel-space-based方法和feature-space-based方法。一个基于像素空间超分辨率方法SRCNN首先使用一个9 ∗ 9卷积层提取的初始特征图像,然后使用1 ∗ 1卷积层学习非线性映射从低分辨率(LR)高分辨率(人力资源),最后使用一个5 ∗ 5卷积层重建超分辨率图像( 8]。SRGAN,基于特征空间的超分辨率方法,学习LR人力资源通过发电机的非线性映射,然后鉴别器约束生成的超分辨率图像的语义和风格( 9]。这些目标检测算法和超分辨率算法取得了更好的和更好的结果在他们各自的领域,但他们缺乏整合,统一,为特定的应用程序场景优化和不适合直接使用在公共安全领域的基于视频监控( 10]。

在本文中,我们提出了一个基于深度融合的超分辨率方法监测网络视频对象检测。首先,我们设计了一个全面的监控录像分析框架,集成了目标检测算法,关键帧选择算法和超分辨率算法。对象解决工作量大的问题,容易损失,在公安和低分辨率视频数据分析。其次,我们使用回归物体检测和识别算法来识别实时视频对象,这是方便监视视频观众跟踪对象。此外,我们使用关键帧选择算法选择框架与重大变化在现场监控录像来减少视频分析的工作量。最后,结合像素空间和特征空间超分辨率算法用来重建对象的关键帧。它有利于提高分辨率的关键对象和对象的视觉感知质量检测监控录像和监控录像查看器的调查和处理情况。总结了本文的主要贡献如下:(1)我们设计了一个新颖的监控录像的综合分析框架。它提高了效率和精度视频对象检测相结合的分析,关键帧选择,和超分辨率算法。(2)我们提出了一个关键帧选择算法,使用回归对象检测和识别算法识别实时视频对象。 (3) We proposed a super-resolution approach that deeply integrates the advantages of pixel space and feature space to improve the resolution of surveillance video detection objects.

本文的其余部分组织如下:部分 2解释了相关工作,部分 3描述了我们的方法的工作过程,部分 4详细解释了我们的方法和部分 5提供了实验结果。部分 6总结我们的工作。

2。相关工作 2.1。目标检测算法

目标检测是计算机视觉的基本任务,可以广泛应用于对象跟踪、人群计数、人脸识别等领域。这是一个重要的公共安全算法。目标检测算法基于候选区域,也称为二级目标检测算法,主要包括提出卷积神经网络(R-CNN),快速R-CNN R-CNN更快,其他模型( 11- - - - - - 13]。回归目标检测算法,也称为单程目标检测算法,主要包括YOLO系列算法和ssd(意思 14, 15]。两级对象检测算法包括两个步骤。我们首先生成对象候选人框架基于区域建议,然后筛选候选帧,分类的对象。快R-CNN首先建议使用区域网络(RPN)来生成一个候选帧,然后使用softmax确定候选帧前景或背景。,它利用边界框回归正确的候选人获得更准确的候选人帧,称为提议。然后RPN使用感兴趣的区域(ROI)层池大小不一的提议到相同的大小和使用一个完全连接层对象分类和位置调整回归( 5]。两级对象检测算法具有较高的识别精度,但是候选帧的生成和选择将消耗大量的计算能力和时间,,很难达到24 fps的检测速度,这是不适合实时目标检测。YOLO v5意思直接返回的位置和类别边界框在输出层。它首先使用马赛克数据增强解决问题的许多小对象数据集和不均匀分布在输入端。然后,介绍了重点部分(CSP)和交叉阶段结构骨架提高特征提取能力。除此之外,在脖子上,它使用功能金字塔网络(红外系统)和金字塔的关注网络(PAN)结构融合特征图的语义特征和定位特征在不同尺度和聚合参数对不同检测层。最后,在预测方面,它使用广义交叉在联盟(GIoU)损失处理不一致的边界框。YOLO v5意思有一个更快的运行速度,可以满足实时检测的要求。对象检测算法将产生大量的冗余信息的监视视频帧。从丰富的视频帧的有效选择关键帧对象跟踪是一种有效的方法来提高检测效率和减少计算工作量。

2.2。超分辨率算法

相对应的超分辨率算法可以重构高分辨率图像从一个或一系列低分辨率的图像。这是一个低级的计算机视觉算法和一种高层次的计算机视觉算法的基础。深超分辨率算法基于卷积神经网络可以重建高质量的超分辨率图像丰富的高频信息和清晰的纹理特性,已成为主流的研究方法。超分辨率的卷积神经网络(SRCNN)首次使用卷积神经网络领域的超分辨率和只使用三层卷积神经网络超越最传统的超分辨率方法( 8]。与基于实例相比超分辨率方法,SRCNN不需要复杂的预处理,可以优化超分辨率重建结果几次通过反向传播,这不仅提高了重建结果的质量,也提高了效率。SRCNN的主要缺点是,很难构建深卷积神经网络改进特征提取和描述能力。剩余网络ResNet连接输入侧信息输出端通过快捷连接( 16]。卷积层只需要学习输入和输出的残差,这是构建一个深层神经网络的基础。超分辨率重建的关键是优化高频信息。剩余的残差学习网络含有丰富的高频信息,因为大部分的残差接近0,学习效率很高。因此,残留网络中起着非常重要的作用在提高超分辨率重建的效率和质量,成为骨干网络的超分辨率方法。超分辨率使用很深的卷积网络(VDSR)介绍了残余网络首次超分辨率领域,构建一个超分辨率网络20层的深度,扩大接受域,提高了收敛速度( 17]。VDSR的速度和质量明显优于SRCNN,它使用一个网络重建超分辨率图像不同的倍数。Megvii研究所提出了一个方法,可以实现超分辨率重建任意多个通过单个模型( 18]。张等人的哈尔滨工业大学提出了一个即插即用基于常规深度处理低分辨率的图像超分辨率方法具有任意模糊内核( 19]。SenseTime提出真实场景与原始图像的超分辨率方法( 20.]。四川大学的李等人提出了一个图像超分辨率反馈网络改善低级和高级信息表示[ 21]。武汉大学李等人提出了一个快速时空残余网络视频超分辨率( 22]。顾等人的香港中文大学提出了一种模糊核估计方法在盲人oversegmentation问题[ 23]。清华大学戴等人提出了一个二阶网络图像超分辨率(注意 24,马等人提出了一个限制超分辨率图像结构的方法使用一个渐变映射( 25]。许等人对中国台湾联发科技公司提出了一个动态卷积网络实现超分辨率恢复多个组合模糊内核和嘈杂的图像( 26]。基于像素空间超分辨率方法生产更写实的图像,而高频信息生成的超分辨率方法基于特征空间丰富。通过结合这两种方法的优点在深融合网络,我们可以重建高质量的关键对象。

来解决这个问题,视频监控系统在公共安全领域缺乏基本和智能管理和分析算法,我们提出了一个监控视频对象的超分辨率方法基于深度融合卷积神经网络。它帮助警察和其他监控录像分析师跟踪,识别和分析对象和调查情况。通过优化回归单程对象检测算法,我们可以识别对象的实时监控录像,它帮助观众来跟踪和分析视频内容的视频对象。我们设计了监控视频的关键帧选择算法。通过分析对象类别,数量,和自信程度的视频帧,少数有重大变化的视频帧对象选择从大量的视频协助监控录像查看器快速定位对象,减少工作量。我们使用了基于深度融合网络的超分辨率算法重建对象决定的。它有助于提高分辨率的关键对象,协助监控录像查看器仔细检查关键对象的细节,和完善的质量监控录像内容分析。监控视频的超分辨率方法对象基于深度融合本文构造的卷积神经网络可以有效地用于公共安全领域的协助警察和安全人员跟踪和分析监控录像对象。,它还提供了一个有效的辅助工具,预防和打击暴力恐怖犯罪。

3所示。初步 3.1。对象检测和超分辨率的过程

回归单程对象检测方法需要网络的视频帧作为输入,并返回的位置和类别边界框(BBox)在输出端。对于每个网格的视频帧,它预测 nBBox, c类别信息。其中,每个BBox包含四个位置信息项( w , y, w , h信息项)和一个信心。BBox位置信息( x, y)用于校准的中心点BBox,和( w , h)用于校准的宽度和高度BBox相对于视频帧。信心预测对象中包含的信心BBox和BBox的准确性与实际对象框。(定义的信心 1),其中C意味着信心,O意味着对象(如果有一个对象, 公关 O = 1 ;否则公关 O = 0 ), 借据精准医疗 tru 预测之间的交集在联盟BBox,真正的盒子。定义为预测帧和B为真正的框架;S是所有帧的集合;和一个 , B ⊆ 年代 ∈ ℝ n 。可以描述的借据( 2)。根据每个网格的预测类别信息的视频帧和BBox预测的信心,我们可以获得每个BBox的职业专用信心得分,这是定义在( 3)。根据职业专用信心得分,BBox较低分数是通过设置一个阈值,过滤掉,剩下的处理BBox nonmaximum抑制(NMS)来获得最终的检测结果。 (1) C = 公关 O ∗ 借据精准医疗 tru , (2) 借据 = 一个 ∩ B 一个 ∪ B , (3) C C = 公关类我 ∗ 公关 O ∗ 借据精准医疗 tru , (4) 我 LR = 我人力资源 ∗ k ↓ 年代 + n , (5) 我 LR = 双三次的我人力资源 ↓ 年代 , (6) 我老 = upsample Res 功能我 LR 。

相对应的超分辨率重建方法重建高分辨率的图像或视频基于一个或一系列低分辨率的图像(视频帧)。因为它是很难获得一系列低分辨率图像重建相同的对象,当前研究主要主要关注幅图片超分辨率。视频超分辨率重建需要综合利用信息在时间和空间维度和提高重建效果的中心框架使用相邻的低分辨率的信息帧。一个图像或视频帧的降解过程可以被描述为( 4), 我 LR 代表一个低分辨率的图像, 我人力资源指的是一个高分辨率的图像, ↓ 年代代表将采样范围内, k是一个模糊的内核, n代表噪音。在实际场景中,有许多类型的将采样尺度,模糊内核和噪音。为了便于监督深度学习,SR方法通常使用双立方插值downsample高分辨率图像和获得配对图像(LR、人力资源)学习低分辨率和高分辨率的映射关系。超分辨率重建过程中所示( 6)。它通常可以分为三个步骤。首先,我们使用卷积层(功能)中提取低分辨率的初始功能。然后,我们使用剩余网络(Res)学习非线性映射低分辨率和高分辨率。最后,我们使用upsampling层(Upsample)向指定的规模和扩大低分辨率重建超分辨率图像。

3.2。工作过程概述

视频监控系统广泛分布在社区,道路,街道,和商业场所(超市)是一个强大的公共安全的保证。的结合,传统的视频监控系统和人工智能技术能有效提高视频内容分析的准确性和异常行为的警告,大大提高工作效率的监控视频的观众,并减少劳动力成本。视频的超分辨率框架基于深度学习的检测对象图所示 1。融合的目标检测算法基于深度学习和超分辨率算法,我们可以跟踪对象的实时监控录像,找出变化显著的关键帧,并执行超分辨率重建的关键对象。这为警察和法官提供了清晰、高分辨率的对象,它可以协助调查和审查的相关情况。本文提出的方法可以解决传统视频监控的问题,提供有效的协助监控录像观众,并有效地服务于公共安全领域。

图1

超分辨率的视频检测对象的工作过程。

视频的超分辨率方法基于深度学习的检测对象主要分为三个步骤。首先,我们使用回归对象检测算法执行实时目标检测监控视频来自社区,道路,街道,超市,和其他地方。标记范围、类别、和信心的对象实时视频帧协助警察、安全、和其他视频观众跟踪对象。然后,我们使用一个关键帧选择算法选择从大量的视频帧与重大变化并选择从大量的冗余信息的关键信息快速高效地帮助观众分析视频内容。我们最后使用超分辨率重建算法,提高分辨率,和识别的关键对象。

4所示。视频超分辨率检测对象 4.1。视频超分辨率网络检测对象

改善社区等公共场所的安全,超市、道路、街道和协助监控录像观众迅速和有效地定位对象,我们设计一个视频对象检测超分辨率算法相结合的目标检测和超分辨率重建。如图 2回归对象检测算法中,我们使用实时检测和投影网络超分辨率重建。应该注意的是,为方便绘画,我们没有详细显示每个功能模块的细节图 2等不同尺度的特征融合模块对象检测和视频帧的特征预测模块,和超分辨率的不对称的递归结构。

图2

视频超分辨率网络检测对象。

对象检测网络由三部分组成。首先,我们使用等骨干由模块重点,CBL (BN, conv ReLU漏水),和CSP提取视频帧特性。重点模块用于片输入图像映射和转换的维数特征。例如,我们可以把608 ∗ 608年 ∗ 3图像到一个304 ∗ 304年 ∗ 根据RGB 12特征映射。然后,它通过一个conv包含32层过滤和转换成304 ∗ 304年 ∗ 32个特征映射。CBL模块由conv层,BN层和漏ReLU激活函数,CBL是物体的基本模块单元检测网络。CSP模块由CBL,剩余单位,conv层,BN层和漏ReLU激活函数。是对象的特征分割模块单元检测网络。其次,我们使用多尺度融合模块由CBL CSP-1 CSP-2和其他模块提取不同尺度的融合特征和加强网络特征融合的能力(CSP-1和CSP-2模块的结构如图 3和相关的描述提供了部分 4.2)。最后,我们使用GIoU损失来解决这个问题,检测帧和真正的不相交优化检测框架,加快模型的收敛性。

图3

的核心模块对象检测网络和多尺度特性融合网络。

在我们进行超分辨率重建,我们将选择避免浪费计算能力的检测对象super-resolve大量无用的对象。对象的选择过程是详细描述部分 4.2。我们的超分辨率重建算法使用深非对称递归网络投影重建的关键对象。超分辨率网络由三部分组成。首先,我们使用两个conv层提取初始图像的特性。然后,我们使用抽样层上下迭代学习低收入和高分辨率图像之间的映射关系几次获得upsampling特性不同的水平。我们建立了一个递归结构,深化网络水平和学习先进的语义特征不增加参数。通过共享downsampling层和设置一个不对称的结构,我们减少网络模型的参数。我们融合同源性残差和级联残差upsampling单位充分利用剩余信息同时投影纠正错误。我们连接级联不upsampling特性改善upsampling特性的高频细节信息( 27, 28]。最后,我们使用conv层重建超分辨率视频帧检测对象。

4.2。目标检测和关键帧的选择方法

对象检测算法可以帮助警察和安全人员在分析对象和调查监控录像安全情况。它有助于实时追踪和监视可疑的迹象和对象,以避免刑事伤害。对象检测算法包括两个核心模块,CBL CSP, CSP的残余结构CSP-1和卷积结构CSP-2组成,如图 3。CBL的基本模块,由conv层,BN层和漏ReLU激活函数。CSP-1模块包括两个分支。第一个分支包括CBL特征提取单元,两个CBL残余映射单元,conv层。第二个分支直接使用conv层提取输入低级特征,然后我们融合两个分支的输出通过连接层。CSP-2模块和CSP-1模块共享相同的结构,所不同的是,第一个CSP-2不使用剩余结构的分支。多尺度特性融合模块使用自顶向下的红外系统结构放大深特性信息,融合不同深度的骨干特性使用upsampling单位。我们使用自底向上盘结构downsample upsampled特性和合并颈部不同深度的特点。红外系统结构集成了强大的语义特征从上到下,和潘集强大的定位特性从下到上。多尺度特性融合模块结构如图 3。

我们的目标检测算法首先使用骨架提取输入视频帧的特征;然后使用多尺度特征融合模块来加强网络特征融合的能力;最后使用GIoU损失优化对象框架,通过DIOU_NMS过滤对象框架,和输出对象框架信息,信息分类信息,和信心。目的优化损失函数 GIoU = 借据 − 一个 c − U / 一个 c ,在那里一个 c 是最小的预测之间的边界框盒和真正的盒B,然后呢 U 预测盒和真正的箱子吗 U = 一个 ∪ B 。 GIoU 可以区分不同位置预测帧之间的关系和实际帧相同的借据和相同的大小,可以优化情况预测帧和真正的框架不相交。DIOU_NMS还考虑重叠区域和两个盒子之间的中心距,当过滤对象框。DIOU_NMS不会删除两个盒子一个中心点因为他们可能会在两个不同的对象。DIOU_NMS相反的NMS可以优化重叠对象的检测精度。它可以提高识别精度的阻挡物体不增加计算成本。实时目标检测可以帮助观众监控录像追踪对象。然而,它仍然需要大量的劳动力成本要面对大量的视频信息。因此,选择有重大场景变化的关键帧可以有效改善关键对象识别的效率。我们设计的关键帧选择算法是算法所示 1。

<大胆>算法1:< /大胆>关键帧选择算法。

输入: V #输入视频

输出: F 关键 #输出关键帧

(1)

定义 ℬ 作为对象检测网络的支柱

(2)

定义 N 作为对象检测网络的脖子

(3)

定义 P 作为预测对象的检测网络

(4)

定义 U 作为对象检测网络的输出

(5)

U = DIOU _ NMS P N ℬ V

(6)

U ⟶ C , N , B , P #选择类别、数量、BBox,信心

(7)

为我= 1,…… n 做# n视频帧的数量吗

(8)

如果(C_我 ! = C_张或者N_我 ! = N_张 )

(9)

如果 P 我 > 0.5

(10)

存储(F_我)

(11)

结束了

(12)

F 关键 ← F 1 , F 2 , … , F k # k是关键的视频帧的数量

(13)

返回 F 关键 ;

根据监控录像的输出对象检测算法,我们可以从视频的类别,选择帧数,和检测帧产生重大变化与前一帧作为关键帧。静态的照片经常出现在监控视频(视频中对象的类别和数量没有改变)。检测对象super-scores所有静态视频帧将导致大量的冗余信息,它不仅浪费计算能力,也不利于视频内容分析。所示的算法 1,我们的关键帧选择算法可以使用信息,如类型、数量、和信心检测输出的比较和分析当前帧与前一帧之间的差异,同时检测对象。如果当前监控录像捕捉静态图像,我们相信这个框架更有价值的信息,不会存储关键帧。如果有下列三种情况的发生,关键帧选择算法可以选择一个小的帧数的显著变化监控录像:(1)当前帧的对象类别的变化相对于前一帧;例如,前一帧的对象有汽车和树木,但当前帧的对象包含了汽车,树和人。(2)与前一帧相比,当前帧中的某个类别的数量发生了变化;例如,前一帧有汽车(5车),树(3),人们(1),和当前帧汽车(5车),树(3),和(2)的人。(3)与前一帧相比,当前帧的检测盒已经改变了。例如,前一帧的检测盒汽车( b_x= 0.2, b_y= 0.7, b w = 0.1, b_h= 0.15),检测盒相同的汽车在当前帧( b_x= 0.5, b_y= 0.5, b w = 0.25, b_h= 0.4)。视频观众能够理解的内容通过查看监控录像几帧来提高工作效率。整个算法的时间复杂度 O T 1 + N ,在那里 T 1 视频对象检测和时间吗 N 是视频帧的数量。

4.3。视频检测对象的超分辨率方法

基于像素空间超分辨率方法的目标是使super-resolved图像尽可能接近真实的图像在像素空间的每一个像素点。这些方法使用L1和L2作为损失函数和不使用对抗训练生成视频帧,和重建结果接近真实的视频帧的像素空间。然而,很容易失去高频信息,导致非常光滑和模糊重建视频帧和视觉感知质量差。特征空间超分辨率方法旨在使super-resolved图像的特征空间接近真实世界的图像。这些方法结合感知损失,对峙损失,L1和L2损失函数。他们用敌对的训练来生成高质量视觉感知的视频帧。然而,这些方法容易导致变形和超分辨率图像结构的扭曲。因此,我们提出一个基于像素空间的融合的超分辨率方法和特征空间。基于像素空间超分辨率方法保证了视频帧的真实性而损失函数基于特征空间的融合可以提高视频帧的视觉感知质量。

基于深度投影结构的超分辨率方法学习之间的映射关系LR和SR重建过程中的几次,和将采样单元放置在序列。的结构,将采样单元如图 4。upsampling单元包括2 deconv层和1 conv层。第一deconv层扩大输入LR特性映射到指定的规模,和conv层转换放大特性映射回原尺寸和计算级联投影误差与本单元的输入LR和同源与原始输入LR投影误差。第二个deconv层放大了错误信息到指定的规模,并将其添加到第一个deconv层。它纠正了upsampling单元的输出通过层叠和同源投影错误。将采样单元包括2 conv层和1 deconv层。将采样单元的结构和执行过程类似于upsampling单元。我们没有使用相应的误差将采样单元和只使用级联的错误纠正将采样单元的输出。

图4

抽样单位、递归结构和非对称投影结构。

提高超分辨率重建的影响,我们需要堆栈几个upsampling和downsampling单位获得高层语义特征。然而,叠加数upsampling单位和downsampling单位将导致大幅增加模型的参数,和模型的训练和使用将变得更加困难。如图 4,我们提出一个递归投影的投影结构增加深度网络不增加参数。我们输入2套,并将采样单元到递归循环结构和递归hyperparameter设置为8。我们使用2 upsampling将采样单元的参数达到16 upsampling将采样单元的性能。此外,我们引入一个不对称结构基于递归的投影,从而进一步减少模型参数,提高模型的鲁棒性在实际的应用程序。如图 4老,我们连接特性的地图upsampling单位在不同深度重建老输出视频帧来改善SR重建的影响。我们使用downsampling单位转换的输出upsampling单位回到原来的大小。因此,我们建议所有upsampling单元共享相同的将采样单元构造深度递归与非对称投影网络结构。 (7) l T = α l 1 + β l c x , (8) l 1 = 1 N ∑ 我 = 1 N F DBPN 我我 LR − 我我人力资源 1 , (9) l c x ϕ 我老 , ϕ 我人力资源 , l = − 日志 C X ϕ l 我老 , ϕ l 我人力资源。

图像超分辨率重建的方法基于像素空间缺乏高频细节信息,和纹理特征不够明显。我们试图直接生成超分辨率图像基于生成对抗网络的使用方法。然后,我们发现,这些方法可以提高视觉的清晰度。然而,生成的SR形象遭受结构变形和失真,它是容易模式崩溃在处理现实世界的视频超分辨率重建帧,和模型的鲁棒性是不够的。因此,我们建议使用L1损失函数基于像素空间和上下文损失基于不对称的特征空间深度递归网络投影。上下文损失函数所示( 9), ϕ 我老老代表了图像特征映射, ϕ 我人力资源代表人力资源图像特征映射, ϕ 使用一个pretrained 19-layer VGG网络。我们选择特性的地图第五层之前max-pooling之后第四层的卷积。我们有 C X x , y = 1 / N ∑ j 马克斯我 C X 我 j ,在那里 C X 我 j 是地方特色的相似吗 x 我和 y j 。我们分离的视频帧到当地的集合特性和优化的重建我老特性,通过测量之间的距离本地特性分布我老和我人力资源。基于递归老背投影不对称网络,我们添加上下文损失优化特征空间中的高频信息的重建。结合像素空间的真实性SR方法的优势和高老视觉感知特征空间的质量方法,我们可以重建高质量的视频帧对象与现实的视觉感知。

5。实验结果 5.1。实现细节

我们使用PyTorch建立视频超分辨率模型检测对象。在模型训练阶段,我们使用一个高性能的服务器模型训练和验证。在模型中测试阶段,我们使用个人电脑进行测试,以确保模型的可用性和鲁棒性在实际应用场景。高性能服务器上运行Linux操作系统,GPU是NVIDIA泰坦Xp。个人电脑的操作系统进行测试与i5 Windows 10 CPU核心。我们已经采取了一些视频,不涉及个人隐私的社区,道路,街道,超市,和学校。然后提取视频帧的增量训练对象检测模块。我们选择一些高分辨率视频帧的拍摄视频并将它们添加到DIV2K数据集,然后我们扩大了训练集,验证集和测试集1000年到200年。 (10) 精准医疗 = TP TP + 《外交政策》 , (11) 矩形 = TP TP + FN 。

视频的超分辨率方法的评价指标检测对象包括目标检测的准确性和速度、峰值信噪比,老的结构相似图像。我们使用意味着平均精度(mAP)评估对象检测准确性,主要包括精确率和召回率,所示( 10)和( 11)。分子借据的精度检测帧的数量大于0.5,分母是检测帧与借据之和大于0.5小于0.5。召回的分子检测与借据帧的数量大于0.5,分母是检测帧与借据的总和大于0.5和真正的帧,没有检测到。我们使用帧(帧/秒)评估对象检测速度,这是视频帧的数量,每秒可以处理模型。我们需要模型达到30 fps在一台普通的电脑上。PSNR值基于像素误差的敏感性,我们用它来测量SR图像的均方误差和真正的形象。PSNR值的单位是dB。值越大,变形越小。SSIM(结构相似)图像的相似性措施从三个方面:亮度,对比,和结构。SSIM的值范围是[0,1]。 The larger the value, the smaller the image distortion.

5.2。对象检测实验结果

我们第一次网上获得一些监控视频,但是我们发现幕后参与这些监视视频相对单一。来验证我们的方法的有效性在公共安全领域,我们已经采取了一些监控视频,不涉及个人隐私的社区,道路,街道,超市,学校,和其他地方。视频帧率是30 fps,视频分辨率为720 p(16: 9),和十秒的视频大小约为1.5 MB。我们使用回归目标检测算法来检测实时监控视频中的对象。对象检测算法协助警察和保安人员实时追踪可疑物品,防止犯罪。另一方面,对象的输出信息为关键帧选择检测奠定了基础和关键对象超分辨率重建。我们使用的视频监控三个场景:超市、社区,和公路,来验证对象检测算法的影响,如图 5。

图5

目标检测的结果超市、社区和道路。

在超市,主要检测监控录像的对象是人。我们的目标检测算法可以实时准确地检测人。我们可以实时监控贵重物品在超市通过扩大训练数据集。当类型,数量,和信心的贵重物品的变化,我们可以及时提醒超市管理人员。人的实时检测和贵重物品可以帮助超市经理及时跟踪可疑人员,防止贵重物品被盗。在社区的场景中,监控录像的主要监控对象人们和汽车,这有助于在确保人民的生命和财产的安全。因为有许多小物体在社区视频监控和车辆在停车场之间的遮挡是更严重的,对象检测算法需要识别小物体和阻挡物体。我们可以看到,我们的目标检测算法可以确定小对象和模糊对象图 5。它帮助社区经理实时追踪可疑人员和车辆和维护社区的安全。道路场景,监控录像的主要监控对象是人,车辆等。我们使用目标检测算法来协助交警实时追踪可疑人员和车辆,维护公共安全。

5.3。关键帧选择实验结果

当调查犯罪案件时,警察经常需要找到一个非常小的帧数,从大量的视频关键信息。选择关键帧手动需要大量的成本和物质资源,效率低下。在目标检测算法基础上,我们设计了一个关键帧选择算法与重大改变挑选关键帧类别,数量,和信心从大量的冗余的视频帧信息。我们选择12个关键帧来自社区的监控录像(540帧),14个关键帧从超市监控录像(450帧),和16个关键帧的道路监控录像(510帧)。我们的关键帧选择算法可以过滤大量的冗余信息帧生成的静态照片。图 6显示了一些关键帧和关键对象的我们选择场景的社区,超市,和道路。

图6

一些关键帧选择关键帧选择算法和关键对象。

在社区的场景中,监控录像的主要监控对象是地面停车场。当没有行人和其他对象在地面停车场及周边道路、监控录像是在静态图像所以没有关键帧提取。如图 6,当有行人对象在社区停车场、监控录像对象的类增加和类的关键帧提取。当行人对象接近相机,对象检测框架和信心变得更大,提取关键帧的信心。当行人的数量变化,提取关键帧数。根据提取的关键帧,我们进一步提取关键对象通过设置阈值以下的超分辨率重建信心。主要在超市现场,监控录像监控消费者在产品的数量,和帧记录消费者的数量的变化是关键帧。通过设置阈值的信心,我们可以监测和记录消费者的改变帧之前一定有价值的产品。在道路场景,主要监控录像监控车辆和行人,和帧记录数量的变化,类型,车辆和行人和信心是关键帧。

5.4。关键帧对象SR实验结果

监控视频遭受低分辨率由于硬件技术,硬件成本,拍摄环境、网络传输等。观察关键信息的细节,警察和保安人员经常需要放大图像4次,8倍,甚至更高。如果你直接放大图像,放大图像高频信息,会错过很多患有低质量和视觉感知差,很难辨认。老的pixel-space-based超分辨率方法可以重建视频帧接近真正的图像通过优化super-resolved之间的距离图像和实际图像的像素空间。然而,重建帧可能缺乏大量的高频细节信息,以及纹理的视觉感知特征尚不清楚。因此,基于像素空间超分辨率方法的基础上,我们进一步整合基于特征空间的上下文的损失。通过优化地方特色super-resolved图像和实际图像的特征空间,我们可以改善的高频信息重建老视频帧并获得高质量的图像清晰的视觉感知。应该注意的是,对象检测和关键帧的基础上选择,我们从关键帧选择关键对象根据阈值的信心。决议和存储容量通常非常小和缺乏高频信息。PIRM2018-SR ESRGAN是冠军的解决方案(3)地区超分辨率竞争,这可以产生自然老和详细的图片。 SPSR adds gradient map branches based on ESRGAN to constrain the structure of the generated image, which improves the authenticity of the SR image and the quality of visual perception. Therefore, the SPSR and ESRGAN [ 29日),它可以生成丰富的高频信息,被选为我们的比较方法。数据 7- - - - - - 10显示SR重建结果的关键对象的三种情况,道路,社区,和超市。

图7

比较super-resolved关键对象(三轮车)在道路监控录像。

图8

比较super-resolved关键对象(出租车)在道路监控录像。

图9

比较super-resolved关键对象(客户)在超市监控录像。

图10

比较super-resolved关键对象(孩子)在社区监控录像。

我们设计了非对称深度递归网络投影。我们首先构造一个投影结构的上部和下部抽样单位是堆在序列通过模拟人类的视觉系统。然后,我们使用了层叠投影误差和同源投影误差纠正upsampling的损失,将采样单元。此外,我们改进了SR重建效果的输出级联upsampling单位不同的深度。我们设计了一个递归循环和不对称结构改善SR重建效果不增加参数。在路上,我们选择一个三轮车和一辆出租车重建SPSR和ESRGAN并作出比较。从图 7,我们可以看到老SPSR法重建图像,产生大量的工件,和许多LR线不存在。ESRGAN重建的影响通常是类似于我们的方法,但老的边缘部分视频帧重建我们的方法更清晰,视觉更清晰。重建的出租车在图的影响 8图是一样的吗 7。SR视频帧重建SPSR工件背面的出租车。我们的方法不仅是免费的工件也有更好的清晰度。在社区和超市的场景,我们选择了一个女孩,一个男孩和两个顾客在超市为SR重建的关键对象。在图 10,我们可以看到SPSR重构工件在许多地方,如小女孩的脸和手臂。当使用真实的视频帧重建,SPSR缺乏概括能力和鲁棒性,而ESRGAN遭受大量的参数,困难模式训练,和足够的视觉感知质量。我们的模型使用最少的参数,达到最佳的重建效果。

6。结论

维护和保障公共领域的安全构成安全、智能城市的基础。监视设备广泛分布在公共领域可以及时发现可疑迹象,对象,可以查询信息可疑车辆和人员通过监控录像,并能提供客观诉讼证据的调查和审讯阶段期间的情况。传统的视频监控系统依靠手工分析的视频内容,这使得它很难有效地发挥视频监控的作用。因此,我们将传统的视频监控系统与人工智能技术。首先,我们融合的目标检测算法,关键帧选择算法,和超分辨率重建算法来构造一个超分辨率框架视频检测对象,它提供了一个有效的辅助工具,警方人员。然后,我们使用目标检测算法来检测对象的实时监控录像,协助警察和其他人员跟踪可疑对象。此外,它可以帮助选择的类型、数量、和信心的监控视频帧从大量的冗余信息。从大量的冗余信息选择关键信息可以提高视频分析的效率,减少人工工作量。最后,为了解决这个问题,不能有效利用低分辨率的监控录像,我们选择的关键对象关键帧的超分辨率重建。结合基于像素的优点超分辨率方法和特征空间损失函数,我们设计了非对称深度递归投影网络,可以用高分辨率重建的关键对象。 The next step of our work is to realize super-resolution reconstruction of video detection objects under noise, blur, and other interference in the surveillance video.

数据可用性

图片,视频,关键帧和关键对象和SR结果数据用于支持本研究的发现已经存入GitHub库( https://github.com/yunfeiyoda/Video-Detection-Object-Super-resolution-.git)。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢湖南大学艺术与科学的为他们提供高性能的服务器。所有的培训和测试视频的超分辨率模型检测对象的高性能服务器上完成。这项工作是由中国国家社会科学基金(没有。20 &zd120)。

郭

K。

胡

B。

马

J。

对异常行为检测作为一个边缘网络服务使用一个双重任务互动引导神经网络

IEEE物联网 2020年 99年

方

李

Y。

云

X。

THP:一种新的身份验证方案,防止多个攻击SDN-based物联网网络

IEEE物联网 2019年 7 7 5745年 5759年

10.1109 / JIOT.2019.2944301

Mita

T。

金子

T。

有何利

O。

联合haar-like人脸检测功能

学报第十届IEEE计算机视觉国际会议(ICCV′05)

2005年12月

中国,北京

IEEE

1619年 1626年

10.1109 / ICCV.2005.129

2 - s2.0 - 33745928468

Cuimei

倪志亮

Q。

南

J。

人脸检测算法通过哈雾级联分类器与另外三个分类器相结合

学报13 IEEE国际会议电子测量与仪器(ICEMI)

2017年10月

扬州,中国

IEEE

483年 487年

10.1109 / ICEMI.2017.8265863

2 - s2.0 - 85047140540

任

年代。

他

K。

Girshick

R。

更快的r-cnn:对实时检测与地区建议网络

2015年

http://arXiv.org/abs/1506.01497

Redmon

J。

哈蒂

一个。

Yolov3:增量改进

2018年

http://arXiv.org/abs/1804.02767

杨

J。

莱特

J。

黄

t·S。

马

Y。

基于稀疏表示的图像超分辨率

IEEE图像处理 2010年 19 11 2861年 2873年

10.1109 / TIP.2010.2050625

2 - s2.0 - 78049312324

越南盾

C。

阿来

C . C。

他

K。

图像超分辨率使用深卷积网络

IEEE模式分析与机器智能 2015年 38 2 295年 307年

10.1109 / TPAMI.2015.2439281

2 - s2.0 - 84962128851

Ledig

C。

赛思

Huszar

F。

写实的单一图像超分辨率使用生成对抗的网络

《IEEE计算机视觉与模式识别会议

2017年7月

美国檀香山,嗨

4681年 4690年

10.1109 / CVPR.2017.19

2 - s2.0 - 85035231525

郭

K。

李

N。

康

J。

对高效的基于联邦地理学习计划的医疗网络分布式数据的物理系统

软件:实践和经验 2020年

Girshick

R。

多纳休

J。

达雷尔

T。

丰富的特性准确的对象层次结构和语义分割检测

《IEEE计算机视觉与模式识别会议

2014年6月

美国哥伦布,哦

IEEE

580年 587年

10.1109 / CVPR.2014.81

2 - s2.0 - 84911400494

Girshick

R。

快r-cnn

《IEEE计算机视觉国际会议

2015年12月

圣地亚哥,智利

IEEE

1440年 1448年

10.1109 / ICCV.2015.169

2 - s2.0 - 84964588182

郭

K。

王

Y。

康

J。

核心数据集提取标记医学大数据损伤定位

大数据的研究 2021年 24

100185年

Bochkovskiy

一个。

王

c . Y。

廖

h . y . M。

Yolov4:最优目标检测的速度和准确性

2020年

http://arXiv.org/abs/2004.10934

刘

W。

Anguelov

D。

Erhan

D。

Ssd:单发射击multibox探测器

欧洲计算机视觉 2016年

柏林,德国

施普林格

21 37

10.1007 / 978 - 3 - 319 - 46448 - 0 - _2

2 - s2.0 - 84990068627

他

K。

张

X。

任

年代。

深层残留图像识别的学习

《IEEE计算机视觉与模式识别会议

2016年6月

美国内华达州拉斯维加斯

IEEE

770年 778年

10.1109 / CVPR.2016.90

2 - s2.0 - 84986274465

金

J。

李

j·K。

李

k . M。

准确的图像超分辨率使用很深的卷积网络

《IEEE计算机视觉与模式识别会议

2016年6月

美国内华达州拉斯维加斯

IEEE

1646年 1654年

10.1109 / CVPR.2016.182

2 - s2.0 - 84986325587

胡

X。

H。

张

X。

对超分辨率Meta-SR: magnification-arbitrary网络

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

IEEE

1575年 1584年

10.1109 / CVPR.2019.00167

张

K。

左

W。

张

深即插即用超分辨率为任意模糊内核

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

IEEE

1671年 1681年

10.1109 / CVPR.2019.00177

20.

徐

X。

马

Y。

太阳

W。

对真实场景与原始图像超分辨率

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

IEEE

1723年 1731年

10.1109 / CVPR.2019.00182

李

Z。

杨

J。

刘

Z。

反馈网络图像超分辨率

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

3867年 3876年

10.1109 / CVPR.2019.00399

李

年代。

他

F。

杜

B。

快速时空残余网络视频超分辨率

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

IEEE

10522年 10531年

10.1109 / CVPR.2019.01077

顾

J。

陆

H。

左

W。

与迭代盲超分辨率内核校正

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

IEEE

1604年 1613年

10.1109 / CVPR.2019.00170

戴

T。

蔡

J。

张

Y。

二阶网络关注单一图像超分辨率

《IEEE / CVF计算机视觉与模式识别会议

2019年6月

美国加利福尼亚州长滩

IEEE

11065年 11074年

10.1109 / CVPR.2019.01132

马

C。

饶

Y。

程

Y。

还利用超分辨率与梯度指导

《IEEE / CVF计算机视觉与模式识别会议

2020年6月

美国西雅图,华盛顿州

IEEE

7769年 7778年

10.1109 / CVPR42600.2020.00779

徐

y S。

曾

郑胜耀R。

曾

Y。

统一的动态卷积网络与变分退化超分辨率

《IEEE / CVF计算机视觉与模式识别会议

2020年6月

美国洛杉矶类似CA

IEEE

12496年 12505年

10.1109 / CVPR42600.2020.01251

郭

K。

郭

H。

任

年代。

张

J。

李

X。

基于投影对有效的运动模糊公共安全视频超分辨率网络

网络和计算机应用》杂志上 2020年 166年 102691年

10.1016 / j.jnca.2020.102691

任

年代。

李

J。

郭

K。

李

F。

医学视频超分辨率基于不对称投影与多级网络错误的反馈

IEEE访问 2021年 9 17909年 17920年

10.1109 / access.2021.3054433

29日

王

X。

余

K。

吴

年代。

Esrgan:增强超分辨率生成对抗的网络

计算机视觉的欧洲会议(大会)研讨会

2018年8月

英国格拉斯哥

1 16