文摘

基于图像的人群计数在公共安全问题有极其重要的应用。大多数以前的研究集中于极其密集的人群。然而,随着摄像头的数量增加,一群人用超高密度可以获得更少的错误总结图像多尺度网络摄像头,但仍存在一些问题,如沉重的遮挡和大规模的变化。解决上述问题,本文提出了一种新型的multibranch神经网络补偿器,通过multibranch特征的提取不同尺度的子网。分支机构之间的权重调整补偿器,和捕获特性不同分支之间是有区别的。为了避免学习几乎相同的特性在每个分支和减少训练偏差,贴上头规模的数据集,自适应评分损失函数用于计算估计损失的条件。实验结果表明,网络的准确性提出了高于10%的比较网络。

1。介绍

近年来,人群中计算基于计算机视觉已广泛应用于视频监控、交通控制、安全服务,等等,这吸引了人们的极大关注。目前,解决人群计数已逐渐由目标探测显示密度分布,并给出总数通过集成密度地图。成功的启发,卷积神经网络在计算机视觉任务,例如对象检测(1,2,图像分割3,4),和对象跟踪(5,6),人们开始关注卷积神经网络方法的应用人群计数。

由于沉重的挑战遮挡,大规模的变化,透视效果,和大密度的差异人群计数(7],人群计数面临巨大困难,尤其是对人群分布的过度集中造成的透视效果,严重影响人群分布图像。人拥有的数量在一个较小的区域占更大比例的人数由整个画面。如图1,人类头上的目标主要集中在一个小区域的形象,而人类头上的总数目标在下面的面积较大的图像显著低于中部地区的形象。很明显,相比之下,人群计数误差产生的区域形象,以下人群计数产生的误差在中间区域的图像有更重要的影响最终的整体形象的评价指标。因此,当前的焦点人群减少计算误差主要是改善人群计数的准确性非常密集的地区。

面积与人口密度大的形象也意味着目标是非常小的。与大量的人一个图像,通常只需要成功地捕获目标特性与介质和低于目标尺度接受良好的计算结果,但这也会导致大规模的人头目标的忽视。此外,特征的数量,可以获得一个头目标与一个非常小的规模相对较小,和过度拟合的数据集将降低模型的泛化能力,很难在实际应用场景。这也是在当前人口计算的一个问题。

与现实的需求增加,尤其是对半封闭的人群密度高的地区,危险,如体育场和剧院,摄像头的数量逐渐增加;与此同时,距离人群更接近;然后,附近的相应规模目标也遵循人类头上。通过增加摄像头,摄像头和观众之间的距离缩短,因此现场的人群密度转化为多个地区的人群数之和,使结果更准确。然而,人口规模变化的问题仍然存在。甚至一个特写镜头将导致增加在附近的人头目标,导致更大的变异在人类头上的目标。因此,人群计数与大规模的变化具有十分重要的实际应用价值。

图像的head-scale信息不明显的头部数据注释。自卷积神经网络在很大程度上依赖于所提供的资料数据集在培训过程中,缺乏规模的注释信息也会影响网络学习的结果。因此,本文增加了分级标签头规模的数据集来增加失踪head-scale信息数据集;然后,根据尺度信息,使用自适应评分损失函数。根据头部大小信息在图像块,最后通过计算获得当地的损失和损失积累所有块的损失。此外,所有块积累的损失,最后损失。

针对大规模人群计数的变化,提出了一种multibranch卷积神经网络补偿器。multibranch结构可以有效地解决多尺度特性问题,和补偿器可以执行重量补偿输出不同的分支。不同的分支使用卷积核的不同尺度。为不同规模的特性,分支的不同接受字段可以相应地,捕获和性能在不同分支同时进行了优化。网络也使用自适应分级损失函数和自适应使用异步损失函数根据目标规模。head-scale分级标签是手动添加到数据集,它保留了head-scale信息图像在一定程度上。最后,比较是在一个大型的数据集上进行的实验规模的变化特性。相比之下比较网络,这个网络的人口计数准确性的提高数据集。

人群计数主要分为两类,即检测方法和回归方法。检测方法(8,9)有良好的结果当人群稀疏和闭塞不重。然而,往往很难获得良好的人群计数基于检测在实际复杂的场景中,如遮挡、复杂背景。回归方法计算的人数通过学习图像特征和密度地图之间的映射关系。然而,这种方法忽略了图像的空间信息,不能直观地感觉到人群聚集的地方。最近,成功的卷积神经网络(cnn),在这个领域研究人员专注于训练CNNs-based模型生成高质量的地图,从而提高计算性能(密度10,11]。实践证明,使用卷积神经网络人群计数非常有效,但是早期的模型是受到规模变化的影响,通常会导致减少错误。出于这个原因,一些学者提出了一系列multibranch神经网络提取多尺度特性,旨在提取不同尺度的特征利用卷积核的不同尺度处理大规模变化的问题。例如,多列卷积神经网络(MCNN)提出的Zhang et al。12]multi-size过滤器用来提取特征具有不同大小和最后综合这些特征映射到相同的密度。同样,山姆et al。13]提出的Switch-CNN开关使用分类器选择密度的最佳分类器从池中发电机。随后,为了使网络有一定的特色,学者们开始有针对性地优化网络,所以网络特点解决某些问题的能力。例如,Sindagi和帕特尔(14)提出了一种多级屁股上,自上而下地融合网络(MBTTBF),这是精心设计的结合多个浅和深的特点。陈等人。15)提出了一个金字塔网络规模(SPN),使用并行多尺度特征提取的不同膨胀率在一个共享的扩张卷积单列CNN。scale-based注意力模型提出了自适应地选择适当的头部大小和形状(16,17]。王(18)等人提出了一个结合人口扩张与多个膨胀率的卷积过程不同尺度的特征用扩张旋转捕捉大规模目标,减少参数的优势。

虽然这些方法取得了有效的改进,仍然有一些限制:(1)完全相同的多个分支长度将学习几乎相同特点,偏离了multibranch设计的最初目的。(2)扩张卷积本身有很强的能力来捕获大型特性,但是它有一个可怜的捕捉能力小规模的特性。使用扩张卷积需要一个更复杂的网络结构,以确保网络可以同时捕获特性在不同的尺度上。(3)网络结构过于复杂,网络层次深,所以很难概括,没有一个足够大的数据集。

针对上述问题,本文提出一种multibranch神经网络补偿器。(1)我们使用multibranch网络解决多尺度问题;与此同时,我们增加了补偿器模块,multibranch结构之间的权重的调整,增加了每个分支的学习特征的差异程度。(2)添加了数据集规模水平的信息,和头部特征分为4个级别根据规模来促进网络学习。(3)针对大型目标尺度的差异,提出了一种基于目标尺度层次损失函数。

针对上述问题,本文提出一种multibranch神经网络补偿器。网络调整分支机构通过补偿器之间的权重,增加每个分支的学习特征的差异。浅结构保证了网络的泛化能力。

3所示。该方法

3.1。Multibranch卷积神经网络

为了解决大的问题人群计数和类似规模的变化提取multibranch每个分支的结构特性,提出了一个multibranch神经网络补偿器。总体架构如图2。网络由一个输入,一个输出,一个multibranch神经网络补偿器。

不同的输入部分可以接收输入图像像素,但是为了防止图像过大,超过224像素的图像是减少。因为这个数据集需要减少在一个小比例,它不会造成严重损失精度由于减少,这会影响人群计数精度。输出部分是连接到multibranch神经网络的输出;补偿器模块和不同分支的输出输入输出部分在一起;然后,输出部分生成一个地图人群的分布密度。multibranch神经网络是一个多尺度特征提取模块由三个分支组成的。网络过度深将削弱泛化能力。然而,3×3的卷积核,在提取图像特征,有更好的效果很难大规模提取特征时表现良好在浅网络由于接受不足的领域。基于这一考虑,本文增加了分支机构的大型卷积核同时使用浅网络。最后,网络结构组成的三层烘箱分支用于提取图像的特征。 The three branches in Figure2使用3×3、5×5和7×7从上到下卷积核。为了优化训练效率,每次卷积核的数量减少了一半作为卷积核的规模增加。

通过计算接受域和比较形象的接受域规模,可以看出,大规模的卷积内核中发挥着重要作用捕获大型对象。第一个分支的接受域大小计算如下: 在哪里 是接受域, 层数, 是步长, 卷积核的大小。

通过引入卷积核的共同影响和池层接受域,上面的第一个分支网络的接受域是40×40。同样,接受第二个和第三个分支领域计算76×76、112×112,分别。从图可以看出3,112×112的接受域已经可以读四分之一的224×224像素的输入图像,这是在大多数情况下,足以应付变化。即使有功能,超过这个规模,他们的数量小于4,对计算结果影响不大,但更多的参数对计算卷积的内核有一个负面影响准确性、网络培训、网络推广等。因此,较大的卷积核不习惯。

4所示。分支重量补偿

图的底部2是补偿器模块,它弥补了其他分支的结果通过图像特性和优化最终结果。经过实验测试,网络本身显示处理复杂场景的能力;过于复杂的补偿器模块为模型很难收敛,实现好的结果。简单的补偿器模块可以改善网络的简单特征的提取能力。

补偿器模块实现通过使用单个分支,它允许网络自适应学习掌握其他分支的输出权值的图像输入特征。测试后,将使用网络学习特性信息,即使一个很小的数量的3×3卷积核,以替代原始设计补偿器的目的。因此,补偿器只由1×1过滤和马克斯池层,用于组织图像的特征信息并执行重量补偿前三个分支机构,以优化权重不同的分支在不同规模的特性。

三个卷积操作确保其非线性结构,两个最大池操作可以先保持相同大小作为其他分支的输出,输入图像的四分之一。同时,1×1的接受域卷积内核可以增加4×4,帮助部门更好地掌握输入图像的特点,在保持较少的参数。

特征提取的三个分支的输出 , , , ;补偿器的输出 重量当他们第一次卷积操作执行 , 在第二次卷积操作,重量是多少 ,最后重量补偿计算公式如下: 在哪里代表不同的分支,j代表的数量过滤器,Y代表分支输出的值,ω对应的重量Y

通过补偿权重,每个分支,原来固定的输出可以有一定的选择空间,这有助于multibranch结构时,有更多的自由选择学习不同的特性。在某种程度上,我们避免所有分支试图学习完全相同的特点,从而使分支之间的区别。

5。自适应评分损失函数

在训练阶段,前面CNN-based密度估计网络通常使用整个估计密度之间的欧几里得距离地图和地面真理密度地图作为损失函数(19,如以下公式所示: 在哪里 kth输入图像, 是它的地面实况密度地图, 的参数是计算网络, 是估计的密度图,然后呢 训练集的大小。

这个损失函数忽略了不同尺度的特征信息的影响网络训练过程。因为不同尺度特征往往需要反馈不同大小的步骤,这个损失函数不能满足异步要求不同规模的反向传播特性,这会削弱网络的学习能力当训练不同的尺度特性。为了解决上述问题,损失函数进行优化,充分利用规模的数据集信息。对不同的人群密度,一种自适应分层损失函数(AGLoss) [20.)提出了参考自适应金字塔(APLoss)损失。AGLoss可以自适应地划分密度映射到亚区各级根据真正的规模。然后,AGLoss计算相对估计损失并将它添加到每个部分得到最终的损失。数据预处理分层次使用相同的结构为3×3的分支网络,以便后续网络使用不同的损失函数。

具体来说,AGLoss以以下方式计算。首先,真正的人口密度图 分为一个2×2一级网格,然后呢 用于表示条件,在哪里 如果当地居民特性次区域的规模 大于给定的阈值 ,它分为2×2第二次网格。图4显示了两级AGLoss计算。人类头上的特征尺度在二级宫都大于 ,然后迭代二次宫分为2×2三级的宫,直到这个区域的功能规模小于 表示层内亚区, 分割完成之后,可以获得一个分级不均匀网格。应用自适应获得分级网格密度估计的地图 并计算每个次区域的局部损失根据以下方程:

最后,总结所有局部损失获得最后AGLoss按照下列公式:

6。案例研究

6.1。数据描述

为了获得数据的场景与中等密度和大型人群规模的变化,对于大型的数据集头的大小和不同的拍摄距离的变化选择从公众人群计数数据集的竞争。通常的数据预处理方法是高斯模糊处理每头功能,当所有正面使用相同的大小高斯内核处理,和所有头特性将被视为相同的尺度特性在人群计数反馈,使包含头部大小的形象最初在反向传播信息完全丢失。然而,它需要太多的人力规模标记所有精确。为了解决上述问题,人类头上的功能扩展,人头是分为四个水平像素的长度:大于112,大于56,不到112,大于28岁和小于56岁,不到28。使用不同尺度模糊处理。

数据集的场景图像中包含的有很大的不同,图像的失真程度是不同的,和人类头上的规模明显不同。的细节数据如表所示1。在这种情况下,它已经非常具有挑战性的提取特征,和标记的总数很小,提出高要求网络的泛化能力。数据集分为训练集,验证集和测试集的规模6:2:2。

6.2。性能评估

本文两个指标,即平均绝对误差(MAE)和均方误差(MSE),用于评估所有考虑方法的性能。 在哪里测试图像的数量, 人的实际数量的估计数量届图像,分别。

6.3。实验结果和讨论

首先,pretrained提取特性的三个分支,和整个网络的其他部分是pretrained不改变pretraining权重,以避免pretrained分支之间的偏差参数和生成的其他部分。特征提取和分析的方向变化。最后,整个pretrained网络再次训练,获得最终的培训模式。使用的批量大小是8,学习速率为0.0003,体重衰减是1 e-5(亚当优化器)。

MSCNN [21],MCNN [12],DSA-CNN [22),和宽带运23),被复制的数据集,而multibranch神经网络补偿器的评估实验结果。MSCNN反复通过输入图像通过一个卷积核的不同尺度,然后合并结果的输出。卷积核的互动使用不同尺度上可以结合很多情况下的接受尺度变化的字段来解决这个问题。MCNN也采用multibranch结构。不同的分支使用更大的首先卷积,然后使用三个相对较小的卷积核。卷积核尺度不同分支之间相差2。MCNN是一个经典的方法,该模型既简单又有效。DSA-CNN之前添加一个1×1卷积核的卷积核不同尺度形成DSAM,重复使用的网络阅读多尺度特性。宽带使用dual-branch结构上半年网络:上半年使用大规模的卷积核进行大规模的特征提取,和第二部分输出结果。不同方法的计算结果如表所示2

如表所示2,multibranch神经网络补偿器实现精度7.3美。由于透视效果,与较小的头部大小的比例数据在数据集比较大。小规模特性的人群计数精度对结果产生重大影响。然而,数据集的目的是为了人与不同尺度的特性,也有一定数量的功能规模。这就要求网络能够计算不同尺度的对象。自MSCNN同等重视所有尺度上的对象,其准确性与密集计算小型对象的信息是不够的。MCNN是一个典型的人群计数的方法,和规模的变化也有更好的结果。DSAM DSA-CNN还好结果当人群计数与大规模的变化。宽带也有极好的两个分校的不同尺度的网络性能。网络提出了执行人群计数在不同的尺度上通过不同的分支和更多关注小型目标信息密度更小的参数配置。 The compensator module also has some optimization to the network. The hierarchical loss function uses different calculation methods for objects of different scales, which is more helpful for counting objects of different scales. For the detailed effect of each part of the network on the count, there is a detailed analysis later. The effect of counting images with large variation in feature scale is shown in Figure5。计算图像具有相似特性的影响规模大小如图6。multibranch神经网络补偿器可以成功地捕获和计数功能主管不同的尺度。

为了分析补偿器的有效性和适应性评分函数,我们比较他们没有补偿器或自适应的网络分级损失函数和分析结果。网络没有的美价值补偿器模块是7.7,与补偿模块和网络是7.3,这是相对较低。通过比较,结果显示在图7,可以看出重量补偿器主要有两个功能:一是减少人类头上的误判特性随着人类正面,另一个是改善人类头上的目标识别能力。通过这两个方面,网络具有较强的结果。证明了补偿器的重要性,这有助于体重调整multibranch神经网络。网络权重的调整也帮助每个分支的multibranch神经网络结构来更好的扮演着不同的角色,不同尺度的目标。

该模型的计算结果与2级和三级AGLoss展示在表3。可以看出AGLoss进一步提高计算性能的网络补偿器。网络的美与补偿器和2级AGLoss达到7.3,比网络更好的与MSE损失和三级AGLoss补偿器。水平2 AGLoss比三级AGLoss具有更好的泛化能力。这可能是由于over-grading人头大的特性,导致人类头上的特性被分割在不同的地区。因此,二级AGLoss终于选中。

为进一步定性分析,多个分支的功能分别进行了分析,这也是建设分支的原因之一。在使用个人分支进行预测和分析美、RMSE,和损失指标,结果如表所示4。小规模目标占据更大比例的数据集。3×3部门比其他部门更有效。此外,由于大量的大规模的特征像素,人群计数只需要简单的头信息,不需要太多的详细信息。因此,信息密度较低,大规模的卷积核的使用更少的参数还可以提高网络的效率。

7所示。结论

提出了一种改进的multibranch褶积模型为解决人群计数在复杂的场景。在提出的模型中,multibranch结构是用来捕获特性不同的规模,和一个额外的补偿器引入优化权重不同的分支机构根据不同规模的特性。实验证明该模型的可行性公共人群计数数据集的竞争。实验结果表明,该模型准确地估计人群的数量和不同的头部大小和射击距离。与此同时,与基准测试方法相比,即MSCNN, MCNN, DSA-CNN,宽带,该模型实现了最佳的评价性能。此外,通过head-scale分级标签,通过自适应与不同尺度优化目标分级损失函数。因此,承诺要利用该方法计算的人数在复杂的场景24- - - - - -27]。

数据可用性

所使用的图像数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究部分由中国国家重点研发项目(2018∗∗∗∗∗∗∗∗01)和国家社会科学基金项目(bxw065 17日)。