基于高效亚像素卷积神经网络的城市计算视频超分辨率重建

抽象的

视频监控是城市计算和智能的重要数据源。许多现有视频监控设备的低分辨率影响城市计算和智能的效率。因此，提高视频监控的分辨率是城市计算和智能的重要任务之一。本文基于学习方法，通过超级化重建改善了视频的分辨率。与静态图像的超级化重构不同，视频的超级化重建的特征在于运动信息的应用。然而，到目前为止，该地区仍有很少的研究。旨在充分探索运动信息以改善视频的超级化学，本文提出了一种基于高效亚像素卷积神经网络的超级化重建方法，其中在深度学习网络中引入了光学流量。熔断连续帧之间的光流特征可以补偿帧中的信息并产生高质量的超级化结果。另外，为了改善超级度，在深卷积网络之后加入超像素卷积层。最后，实验评估表明，与先前的方法和其他深度学习网络相比，我们的方法的令人满意的性能; our method is more efficient.

1.介绍

超分辨率重建是利用构造模型从低分辨率图像中生成高分辨率结果。与硬件相比，基于算法的图像构建可以高效、低成本地生成高分辨率图像。由于大量的图像和视频样本，越来越多的研究者关注图像重建。

近年来，人们提出了超分辨率重建方法。例如，Farsiu等人[1]提出了一种求解不适定问题逆问题的正则化重构方法。提出了一种针对纯平移运动和空间不变模糊的快速超分辨率重建算法[2］．邻居嵌入的原则[3.要假设低分辨率图像块和高分辨率图像块之间的局部空间结构是相似的。低分辨率图像块表示低维数据，高分辨率图像块表示高维空间。因此，低分辨率图像可以线性地表示并映射到高维图像块以重建高分辨率图像。俞和张提出了一种改进的视频图像超级化重建辉煌群优化算法[4］．结合超分辨率重构的特点，重新定义了算法的群输入、萤火虫荧光素酶和位置更新方程;确定了优化目标函数准则。

虽然上述方法可以解决超分辨率重建的一些问题，但邻域嵌入方法的缺点是数量少对于低分辨率图像块所选择的图像块，人为地指定了图像块的大小，这会影响监控器的重建效果，可能会造成欠拟合和过拟合的现象。为此，我们提出了一种基于光流和高效亚像素卷积神经网络(ESPCN)的超分辨率重建方法，解决了传统重建方法的缺陷。

本文的其余部分安排如下。相关工作是在一节中讨论的2．该方法在本节中描述3.．本节给出了我们方法的细节4．部分5介绍了实验和结果分析。最后，本节概述了与本文相关的结论6．

超分辨率方法有三种:插值法、重构法和基于学习的超分辨率方法。

插值方法是通过使用先前的原始低分辨率图像来估计像素的缺失位置。这里，插值操作的关键是建立低分辨率和高分辨率图像之间的映射关系。通常，插值方法包括三类：最近邻插值[5]、双线性插值[6]和双方插值[7］．然而，基于插值的方法的缺点在于普遍遭受文本噪声的低质量重建结果。

基于重构的方法是对图像样本的退化过程进行建模，通过逆变换生成高分辨率图像。退化模型的建立是实现多幅图像融合重建高分辨率图像的关键。重构方法中有三种典型的方法:迭代反投影[8，凸集上的投影[9，以及最大后验概率[10.］．2011年，Zhang等对序列帧图像的凸集投影方法进行了改进[11.[并将模型应用于全景变换的图像序列。该方法精确地实现了序列帧的几何变换，提高了重建速度。2012年，Wallach等人。改进了地图方法[12.并通过融合全局信息来提高重建图像的对比度和分辨率。

基于学习的方法打算了解低分辨率和高分辨率图像之间的相关性。这些方法中包含三个阶段：特征提取，特征学习和重建。典型方法包括邻居嵌入[3.]和稀疏编码[13.- - - - - -15.］．基于稀疏表示的代表性方法是超分辨率图像重建方法[16.，由Yang等人在2008年提出。分别针对LR图像和HR图像分辨率训练高分辨率和低分辨率字典，使所有要重建的低分辨率图像都能从字典中提取稀疏表示。但重建图像的样式和边缘需要与学习中使用的数据集相似，重建的质量和效率都不尽如人意。

近年来，基于深度学习的方法在超分辨率重建方面表现出了优异的性能[17.，18.］．Dong等在稀疏编码方法的基础上，首先提出了一种利用深度卷积网络的超分辨率方法，称为超分辨率卷积神经网络(SRCNN) [17.］．设计了一个三层卷积神经网络（CNN），用于从低分辨率到高分辨率图像中学习映射关系。旨在加速重建过程，东等。进一步提出了一种快速的超级卷积卷积神经网络（FSRCNN），其基于包含更多层的沙漏形CNN，而是具有更少的参数。FSRCNN的优点在于，它消除了图像放大率的要求，并提高了重建过程的效率。

Shi等人。提出了一种有效的子像素卷积神经网络方法[18.]提取低分辨率域中的特征，并用高效的子像素卷积替换经典的双方上采样操作。此外，ESPCN的特征在于，子像素卷积，其产生了特征图通道。通过对亚像素卷积的周期性激活，得到大小相同的特征图进行重建，生成尺寸为．这些图像特征由深度架构中的隐藏层提取。在实践中，与其他方法相比，ESPCN更有效，因此有更多机会迎合实时任务。塔拉巴等人。用于超低分辨率面部识别的ESPCN和CNN [19.］．

为了扩大图像重建的接收领域，Kim等人。提出了一种非常深的超级化重建方法（VDSR），从而增加了内核大小到［20.］．利用稀疏性加快了收敛速度。此外，VDSR可以产生多尺度的超分辨率结果。与以往的方法相比，VDSR可以捕获更多的图像细节，提高分辨率重建的性能。

Ledig等人。将生成的对抗网络（GAN）引入超级化重建，提出了超级化生成的对抗网络（SRGAN）[21.］．SRGAN由生成块和对抗块组成，其中第一个用于重建，第二个用于对重建图像的质量进行分类。虽然SRGAN无法在PSNR分数中产生竞争力，但它可以获得符合真实图像的结果，提供视觉上满足的效果。

太阳等。引入并更新了剩余网络（Reset）进入超级化重建[22.］．因此，将残留层数从16层增加到32层，扩大了模型的尺度，以获得更好的结果。

3.方法论

为了提高速度和质量的超级化重建方法，本文提出了一种基于光流量和ESPCN的新方法。在重建过程中考虑帧之间的运动信息以提高重建质量。光流可以在非常小的时间内计算对象的运动[23.］．它适用于视频帧之间的运动估计。因此，与其他运动估计方法相比，光流量以准确性和有效性良好。由于亚像素卷积层，与其他深度学习方法相比，ESPCN具有很少的额外计算成本。ESPCN可以实时使用，以提高城市计算和智能的效率。具体地，提取光学流量特征，其与图像共同组合以输入到网络。最后，应用子像素卷积层以从特征图产生高分辨率图像。我们方法的框架如图所示1；有三个阶段：运动信息估计，信息融合和重建。

光流定义为像素的瞬时速度，包括移动物体中的像素[24.- - - - - -26.］．对于视频序列，通过估计两帧之间的变化来实现光流提取。估计连续帧之间的相关性，以识别时间轴的变化。光流特征用二维矢量表示，表示强度变化的比例。

假设有ESPCN网络的层，前面层可以表示为:

在这分别为各层的权重和偏差;的价值在1和；是具有大小的二维卷积张量；特征尺寸是层;的维数是频道号码c，卷积核的大小是层;是激活功能;以及网络的最后一层将低分辨率图像映射到高分辨率图像．

首先在ESPCN中提出子像素卷积方法，其中卷积内核用于激活图像的不同部分。当移位内核时，根据其位置定期激活子像素，该位置可以在数学上定义如下：在哪里和映射函数在和层，SR和LR表示超分辨率和低分辨率项，内核在层,是适度因素，和致力于将feature map映射到高分辨率图像的周期性变换: 在哪里和在高分辨率图像中定位像素;内核的大小是．由于在深卷积网络底部消除了非线性映射层，因此在低分辨率图像上运行子像素卷积和．

我们使用均方误差(MSE)作为训练策略。计算方法如下:

同时，我们使用Tanh函数作为激活功能，通过使用Tanh函数引入网络中的非线性;上部网络的输出映射到下网络的输入;提高神经网络的表达能力。Tanh函数定义为

Tanh函数是一类快速收敛的双曲函数。

此外，子像素卷积可以消除初始插值过程，其可以产生具有低成本的满足重建结果。这种架构很好地适应具有大量帧的视频的超级化重建。

4.算法

超分辨率重建的相位如图所示2．连续的5帧被选为深度卷积网络的输入。在这里，我们将第三帧的时间尺度定义为，虽然前两帧的时间尺度是和；最后两个帧的两个时间尺度是和．运动特征估计基于帧；光流量计算在框架上运行，，，和为这些帧生成要素映射。然后，这些特征映射与原始帧组合以获得施加子像素卷积层的深卷积网络的输入块来重建超级化图像[27.］．

深度卷积网络的结构构造有4层结构，该结构包括3个卷积层和1个亚像素卷积层。我们将原始帧的颜色空间从RGB空间传输到YCB空间。第一层包括64个内核，生成64通道特征图。第二层包括32个内核，它生成32通道特征映射。果仁是包含在生成特征映射。最后一个亚像素卷积层实现了超分辨率重构。

具体来说，我们假设帧的大小为，在哪里框架的高度是多少是宽度。因此，输入RGB帧的维数为．在我们的模型中，联合考虑连续的5帧来估计光流特征。因此，输入块的大小为，第一层中滤波器的大小是和．经过4个隐藏层的映射，生成特征映射以进一步重建帧的高分辨率图像．

5.实验评估

5.1。数据库

从XIPH数据库收集训练数据，其中包括10个视频序列，长度为2695帧[28.］．框架的分辨率为．训练数据如图所示3.城市视频监控中包含新闻广播、汽车、巡逻艇、植物、橄榄球比赛等不同的内容。对于训练视频序列，通过加入高斯噪声和降采样过程对视频分割进行提取和退化，生成低质量和低分辨率的样本。然后将这些示例输入到模型中。注意到卷积神经网络的输入训练数据是经过运动估计后由5个连续帧组成的图像块。卷积神经网络输出的是高分辨率的图像。同时，网络产生与参考框架的误差来更新网络。最后，得到网络收敛后的超分辨率重建模型。

（一种）

（b）

（C）

（d）

（e）

测试数据库如图所示4是由VideoSet4数据库提供的4个视频:日历、建筑、树叶和散步[29.］．建筑视频包括34帧，大小；日历视频包括41个日历图像，大小．在此训练样本中，该框架包含大量字符和常规纹理，可以通过边缘重建的细节来评估。叶子视频显示交通场景，包括车辆和街道。原始框架的分辨率是．此外，叶子的内容是非常复杂的，这可以评估我们对动态噪声的方法的鲁棒性。散步视频包括行走行人;该视频的数据集包括47个帧，大小．该数据集的特点是缓慢移动的对象，因此可以评估我们的方法的运动估计的性能。

（一种）

（b）

（C）

（d）

5.2。参数设置

输入块是运动估计和原始图像的结合，为15维。在网络架构上，第一层由64个核组成，大小为并生成64维特征映射。第二层由32个内核构成，其施加以处理由第一层提取的特征图并生成32维特征图。第三层包括大小为，而产生 -维度特征映射。最后，子像素卷积层用于重建超级化图像。学习比率设定为0.001，最大纪元数为100，网络的批量大小为32。

5.3。实验比较

比较分为两部分。首先是传统方法的比较和所提出的方法。第二个是具有运动估计的超级化与没有运动估计的超级度的比较。实验评估的数据选自视频特4。PSNR和时间成本被选为度量。PSNR计算如下：在这为图像阈值，MSE为均方误差。

5.3.1。第一个比较

传统的方法包括双三次插值、POCS和基于稀疏编码的超分辨率重构方法，而比较基于深度学习的方法是SRCNN。

图5和6定性地呈现在建筑视频中漫画视频和帧＃8中的帧＃13的结果。从结果中，我们可以发现，与我们的方法获得的结果相比，通过传统方法，即稀疏编码和基于POC的方法获得的重建结果与我们的方法获得的结果相比更模糊。例如，我们的重建图像可以清楚地区分行人轮廓的细节和婴儿车的纹理。此外，我们的方法的显着优势可以在图中证明5．在图中5时，建筑物的窗户会产生许多复杂的纹理，这些纹理会引起周期性的噪声。然而，由于使用了运动特征，这种影响在很大程度上被我们的方法所消除。

（一种）

（b）

（C）

（d）

（e）

(f)

（一种）

（b）

（C）

（d）

（e）

(f)

表格1定量地显示通过不同方法获得的PSNR分数。从表格1，我们可以发现，相对于PSNR分数，我们的方法产生了更好的重建结果。与传统的重构方法相比，该方法的优点在于运动特征学习可以提高重构的正确性。虽然SRCNN和我们的方法通常基于卷积操作，但我们的方法是最好的。与SRCNN不同的是，我们的方法对运动信息进行了估计和引入，这是我们的性能更好的原因。


方法	城市	日历	叶子	走

双立方插值	25.84	20.30	24.13	26.47
Pocs.	28.04	21.87	26.94	29.98
稀疏编码	28.53	22.09	27.33	30.58
SRCNN.	30.23	23.39	28.78	32.43
我们的方法	30.44	23.59	29.00	32.61

5.3.2。第二个比较

我们使用相同的视频训练集来训练他们。表格2显示了VideoSet4通过两种不同模型重建的四个视频的PSNR。在放大两倍的情况下，可以看出，不进行相邻帧运动估计的算法一般比双三次插值算法高出约5 dB。与SRCNN(不含运动估计)相比，我们的方法平均增长约0.12。


方法	城市	日历	叶子	走

双立方插值	25.84	20.30	24.13	26.47
我们的方法	30.44	23.59	29.00	32.61
ESPCN	30.29	23.56	28.83	32.49

数字7显示在不同算法下VideoSet4中的树叶序列19th框架的重建质量。从结果中，可以发现，对于没有运动估计的运动估计和ESPCN模型的ESPCN模型之间的最大差异是用于移动物体，添加运动估计可以产生更好的重建效果，这在高速移动方面更为明显对象。在图中7，中视运动的黑色轿车有明显的扭曲和晕线(图7 (d)）.在图中7 (e)，在运动估计重建图像中，黑色轿车的边缘相对直而清晰。这是因为新模型考虑了帧前和帧后的运动信息，比单一信息的单帧图像更能考虑视频的时间相干性。

（一种）

（b）

（C）

（d）

（e）

图中也显示了同样的现象8．在日历视频序列的第31帧，双三次插值图像日历中的字符如图所示7 (c)模糊。在图中8 (d)，尽管单帧图像的超级化方法在一定程度上改善了字符边缘，但是在较小的字符之间存在一定程度的位错。在图中7 (e)，在结合运动估计的模型重建图像中，较小字符的边缘变得更加分离，变形程度更低。叶状图与日历的区别在于叶状图主要反映物体的主运动，而日历反映的是透镜运动引起的物体的相对运动，这说明运动估计对两种运动都有一定的影响。

（一种）

（b）

（C）

（d）

（e）

6。结论

旨在提高视频重建的性能，本文提出了深度卷积网络的重建方法，其中提取和介绍了运动信息。此外，所提出的方法介绍了子像素卷积，这可以显着加速重建过程。实验结果表明，与先前的方法，SRCNN和ESPCN相比，我们的方法产生更好的重建导致结果。所提出的方法可以应用于由嵌入式程序形式的由诸如数字信号处理器（DSP）和芯片（SOPC）的集成电路芯片（如数字信号处理器（DSP）和可编程系统组成的硬件架构。因此，我们的方法可以配置在视频监控的前端设备中。将来，它将被用作边缘智能的形式，并提供可行的方法，用于减少城市计算中心系统的计算负荷，我们将评估其他类型运动信息对超级化重建的贡献。

数据可用性

用于支持这项研究结果的数据包括在文章中。

利益冲突

作者声明他们没有利益冲突。

致谢

该工作部分由中国国家自然科学基金（第51979085和61903124），中央大学（No.B200202186）的基础研究资金以及中国国家自然科学基金（No.61563036）。

参考

S. Farsiu，M. D. Robinson，M. Elad和P. Milanfar，“快速和强大的多帧众多超级分辨率”，图像处理的IEEE交易，卷。13，不。10，pp。1327-1344,2004。查看在：出版商网站|谷歌学术搜索
N.K. Bose，M.K.ng和A. C. Yau，“图像超分辨率的快速算法从模糊的观察中，”EURASIP CHINESING信号处理的进步，卷。2006年，没有。1，2006年第035726号。查看在：出版商网站|谷歌学术搜索
H. chang，D. Y. Yeung和Y. Xiong，“通过邻居嵌入的超级分辨率”计算机视觉与模式识别，2004。CVPR 2004，第1卷，美国华盛顿特区，2004年6月。查看在：出版商网站|谷歌学术搜索
于伟，张明，“基于改进萤火虫群优化算法的视频图像超分辨率重建”2018第三届IEEE图像、视觉与计算国际会议， pp. 331-335，中国重庆，2018年6月。查看在：出版商网站|谷歌学术搜索
W. T. Freeman, T. R. Jones和E. C. Pasztor，“基于实例的超分辨率”，计算机图形与应用第22卷第2期2，页56-65,2002。查看在：出版商网站|谷歌学术搜索
J. D. van Ouwerkerk，《图像超分辨率调查》图像和视觉计算，卷。24，不。10，pp。1039-1052，2006。查看在：出版商网站|谷歌学术搜索
D. Glasner，S. Bagon和M. Irani，“来自单一形象的超级分辨率”2009年IEEE第12届计算机愿景国际会议，第349-356页，日本京都，2009年9月。查看在：出版商网站|谷歌学术搜索
S. Dai，M. Han，Y.Wu和Y.Gong，“单一图像超分辨率的双边背投”多媒体与展览，2007 IEEE国际会议，PP，北京，中国，2007年7月1039-1042。查看在：出版商网站|谷歌学术搜索
范灿，李国栋，马建军，“基于点扩展函数估计的低分辨率遥感图像凸集投影超分辨率重建，”传感器，第十七卷，第二期2, p. 362, 2017。查看在：出版商网站|谷歌学术搜索
G. K. Chantas, N. P. Galatsanos和N. a . Woods，“基于快速配准和最大后验重建的超分辨率，”图像处理的IEEE交易，卷。16，不。7，pp。1821-1830,2007。查看在：出版商网站|谷歌学术搜索
Z. Zhang，X. Wang，J.Ma和G.JIA，“基于全球加权POCS算法的三维视图遥感图像超分辨率重构”2011年遥感，环境和运输工程国际会议，中国南京，2011年6月。查看在：出版商网站|谷歌学术搜索
D. Wallach，F...Lapare，G. Kontaxakis和D. Visvikis，“呼吸同步正电子发射断层扫描的超级分辨率”医学成像上的IEEE交易第31卷第1期2, pp. 438-448, 2012。查看在：出版商网站|谷歌学术搜索
J. Yang，J. Wright，T. Huang和Y.Ma，“通过稀疏代表的图像超级分辨率”图像处理的IEEE交易第19卷第2期11，页2861-2873,2010。查看在：出版商网站|谷歌学术搜索
陈振宇，“基于潜在Dirichlet分配模型的个性化驱动状态研究”，IEEE智能交通系统杂志，第11卷，第5期。2，第41-53页，2019。查看在：出版商网站|谷歌学术搜索
C. Xu，“基于矩阵分解技术的基于社交网络的新推荐方法”信息处理与管理第54卷第5期3, pp. 463-474, 2018。查看在：出版商网站|谷歌学术搜索
杨建军，杨建军，杨建军，黄涛，马耀辉，“图像超分辨率作为原始图像斑块的稀疏表示”，发表于2008 IEEE计算机视觉与模式识别会议，第1-8页，安克雷奇，AK，美国，2008年6月。查看在：出版商网站|谷歌学术搜索
K.Muehara，J.Ota，N.Ishimaru等，“超级分辨率的卷积神经网络，用于改善胸部射线照片中放大图像的图像质量，”诉讼卷10133，医学成像2017：图像处理，奥兰多，佛罗里达州，美国，2017年2月。查看在：出版商网站|谷歌学术搜索
W. Shi，J. Caballero，F.Huszár等，“使用有效的子像素卷积神经网络”实时单映像和视频超分辨率“2016 IEEE计算机视觉与模式识别大会(CVPR)，pp.1874-1883，Las Vegas，NV，2016年6月。查看在：出版商网站|谷歌学术搜索
M. A. Talab, S. Awang，和S. A. M. Najim，“利用集成高效亚像素卷积神经网络(ESPCN)和卷积神经网络(CNN)的超低分辨率人脸识别”，在2019 IEEE自动控制和智能系统国际会议（I2cacis），pp.331-335，雪兰莪，马来西亚，2019年6月。查看在：出版商网站|谷歌学术搜索
J. Kim, J. K. Lee，和K. M. Lee，“使用非常深卷积网络的精确图像超分辨率”2016 IEEE计算机视觉与模式识别大会(CVPR)，PP。1646-1654，Las Vegas，NV，2016年6月。查看在：出版商网站|谷歌学术搜索
C. LEDIG，L.THEIS，F.Huszár等，“使用生成的对抗网络，”照片逼真的单图像超分辨率“2017 IEEE计算机视觉与模式识别大会(CVPR)，第4681-4690页，夏威夷，美国，2017年7月。查看在：出版商网站|谷歌学术搜索
孙博，卢建军，魏晓伟，“基于深度残差网络的图像超分辨率重建”，《中国图象图形学报》，第2期2018第二届人工智能技术与应用国际会议论文集，大阪，日本，2018年3月。查看在：出版商网站|谷歌学术搜索
W. L.中，卷积神经网络在视频超分辨率中的应用研究电子科技大学学报(自然科学版)2018年第5期。
E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy，和T. Brox，“Flownet 2.0:深度网络光流估计的进化”，刊于2017 IEEE计算机视觉与模式识别大会(CVPR)，第2462-2470页，夏威夷，美国，2017年7月。查看在：出版商网站|谷歌学术搜索
Zhu X.， Zhang S.， and J. Song，“robust unsupervised spectral feature selection for Local and global structure preservation，”IEEE关于知识和数据工程的交易，卷。30，不。3，pp。517-529,2018。查看在：出版商网站|谷歌学术搜索
郑伟，朱旭东，朱勇，胡蓉，雷灿，“基于动态图学习的光谱特征选择，”多媒体工具及应用，卷。77，没有。22，pp。29739-29755,2018。查看在：出版商网站|谷歌学术搜索
x y杜,基于深度学习的超分辨率重建方法研究，第5卷，河海大学，2019。
P. V. VU，“视频质量评估的新方法和主观数据库”，博士论文，俄克拉荷马州立大学，2015年。
李丹，“基于运动补偿和深度残差学习的视频超分辨率”，IEEE计算成像汇刊，第3卷，第2期。4, pp. 749-762, 2017。查看在：出版商网站|谷歌学术搜索

无线通信和移动计算