文摘

计数的乘客进入和退出的交通工具是客流监测系统的基本功能。乘客的确切数字是重要的在公共交通等领域监测、客流预测、交通规划和交通车辆负载监控。允许大规模客流监测系统,利用他们的成本要低。总体价格主要是由价格的传感器和处理单元使用,我们建议利用可见光谱相机和数据处理算法时间复杂度低,以确保最终产品的低价格。保证乘客的匿名性,我们建议正交扫描的一个场景。的精确计算是贴切地受到乘客识别的精度,我们专注于一个适当的识别方法的发展。我们提出两种相反的方法,可用于交通工具的乘客识别,没有入口的步骤,或者分裂地板水平。第一种方法是利用一个适当的卷积神经网络(事先),目前在计算机视觉的方法。第二种方法是利用直方图的梯度(猪)的特性结合支持向量机分类器。这种方法是一种经典方法的代表。 We study both approaches in terms of practical applications, where real-time processing of data is one of the basic assumptions. Specifically, we examine classification performance and time complexity of the approaches for various topologies and settings, respectively. For this purpose, we form and make publicly available a large-scale, class-balanced dataset of labelled RGB images. We demonstrate that, compared to ConvNets, the HOG-based passenger recognition is more suitable for practical applications. For an appropriate setting, it defeats the ConvNets in terms of time complexity while keeping excellent classification performance. To allow verification of theoretical findings, we construct an engineering prototype of the system.

1。介绍

在客运,人流动监测不可或缺的重要性。在一些地区的公共交通,客流监测系统是用来使这一任务自动化。的基本措施,系统必须提供的,运送乘客的数量。精确计算的乘客进入和退出的交通工具有积极影响公共交通监测、客流预测、交通规划、交通车辆负载监测、控制和管理,和成本优化(1,2]。

确保一个健壮的实时和精确计数的乘客,乘客流监测系统必须基于一个适当的成像系统和数据处理算法。为了让大规模部署这样一个监控系统,一种低成本的最终解决方案是同样重要的。的解决方案也应该满足法律要求乘客匿名性是非常重要的。具体来说,个人根据他们的面孔的识别必须避免。

成像系统必须确保数据的采集和处理,即。,其基本组成是一个传感器和一个处理单元。为了开发一种廉价的解决方案,两个组件的低的价格都是至关重要的。而价格下限的处理单元主要由数据处理算法的复杂性,给出的价格下限的传感器是传感技术使用。雷达传感器(3),激光扫描仪(4),三维激光扫描仪(5),或红外传感器6适用于乘客的计数。所有这些传感器自然保证高水平的乘客匿名。他们的主要缺点是价格高的传感器和频繁的错误计数(7,8]。由于这些原因,相机在可见光的最好用于计数的人(9]。传统相机(在波长的可见光摄像机操作)明显便宜,相对于前面提到的传感器。摄像机可以结合深度传感装置(10]。融合的数据会导致一个更加平衡的假阳性和假阴性之间的权衡(11]。另一方面,深度传感装置增加传感器的最终价格,即。,utilization of a depth sensing device would increase the final price of the imaging system.

自动计数的人在一个场景通常是进行彩色图像或序列的彩色图像。许多数据处理算法,旨在准确计数的人在拥挤的场景图像呈现(9]。它们中的大多数都是用于覆盖安装的摄像机。摄像机安装在公共和私人的地方通常看不起场景角度,通常介于40°、80°(从地面)。考虑低主题距离运输方式(一个摄像头和一个乘客之间的距离),我们得出这样的结论:匿名的乘客是这样的设置(即不能保证。、数据处理算法,旨在处理这些图片不能用于计数的乘客)。只有垂直的抓取的图像(相机上面放置一个场景,直接在现场)保证高水平的客运匿名(图1)。

数据处理链,针对计算人的活动捕获图像,是混合的三个基本步骤:人检测,多人跟踪和计数(图的人2)。在第一步中,处理图像检查存在的人。跟踪以下步骤,第一步中检测到的所有的人都是与现有的跟踪模型的人。如果一个人不能与任何现有的模型中,初始化一个新的跟踪模型。链的最后一步是计数。如果一个人被跟踪模型离开现场,通常定义为虚拟线路,触发计数(11]。自然,不可分割的一部分,该数据处理链是一个算法,将视频摄像机提供的数据分为个人图像。

精度和时间数据处理链的复杂性主要是由人的准确性和时间复杂度检测。人检测是图像的位置和识别人的过程。在这个过程中,可能位置的人(区域)提出了使用一个适当的技术。区域确定候选对象图像,它使用一个合适的对象进行分类识别系统。命题的区域可以使用一个详尽的实施方法,如一个滑动窗口(12)或使用一个先进的处理方法如选择性搜索算法(13]。在现代目标检测系统中,位置和识别都是由一个单一的深层神经网络(14- - - - - -16]。这些系统具有检测精度高,但高时间复杂度。

分析表明,低成本的乘客计数系统应该基于传统相机(由于低价格的可见光相机)。为了保证乘客的匿名,上面的相机必须放置一个场景,直接在现场。数据处理,采用正交方法能够处理必须使用捕获的图像。结果数据处理链必须健壮和精确。保持低成本的要求,时间复杂度的方法应尽可能低。从这个角度看,乘客的检测是最薄弱的环节。

作为单一的时间复杂度深层神经网络检测器高(14- - - - - -16),我们倾向于实现一个乘客探测器作为一个两级系统。当使用一个健壮的和时间区域建议选择性搜索算法等方法(13)的准确性和计算复杂度的探测器主要是使用对象识别方法。在彩色图像,识别的人通常依靠光学流特性(11,17,18]。另一种方法的检测人员的检测头和肩膀19];然而,一个头本身可以提供一个强大的功能因其近圆形。通常使用正面的计算通过计算的人在人群密集的图像(20.,21]。识别正面垂直的抓取的图像也可以依靠光学流分析(22]。光学流为基础的方法的主要缺点是他们的高计算复杂度和噪声敏感性[23]。

考虑乘客识别的计算的重要性,我们关注的是价格竞争力的和时间的发展对象识别系统。随着系统的目的是识别的乘客,我们叫它“乘客识别系统。”作为目标识别的趋势显然仍在朝着卷积神经网络(回旋网)24,25),我们检查回旋网乘客识别的性能。通常,ConvNet-based对象识别系统具有良好的分类性能,但其时间复杂度通常很高。由于这个原因,我们提出一个面向竞争的方法基于直方图的梯度(猪)特性26)和支持向量机(SVM)分类器。设置适当的参数,HOG-based对象识别可以有良好的分类性能,同时保持低时间复杂度(27]。

在垂直的抓取的图像识别的乘客使用猪的特性和支持向量机分类器,基于对象的图像组成的头和肩膀的乘客,被证明是有用的在场景高度差异(19]。现代公共交通工具越来越低的底部水平(即。,there is no or negligible height difference in the area of a doorway), but a substantial part of operated buses, trams, trains, and trolleybuses are high-floor [28- - - - - -30.]。考虑到这一事实,我们得出这样的结论:HOG-based乘客识别系统的鲁棒性必须验证上下文中的变量照相机镜头和乘客之间的距离。我们也考虑到系统的时间复杂度可以减少一次对象图像仅包含乘客的头(省略肩膀将导致较小的物体图像,从而减少数据处理时间)。我们推断出这种方法的适用性的结果HOG-based对象识别系统类似的任务,例如,葡萄检测(31日,32)(见图3;葡萄的圆形状类似于头部的形状)。

在本文中,我们研究的分类性能和时间复杂性乘客识别系统。系统旨在识别的乘客在垂直的抓取的图像,识别质量不不利影响的变量之间的距离乘客和相机传感器。乘客识别系统在回旋网或基于猪的特性。这两种方法依赖于正面的检测。回旋网在ConvNet-based系统的情况下,我们考虑各种拓扑。在HOG-based系统的情况下,我们研究各种参数的设置。我们在现实的应用程序中验证理论结果。为此,我们开发一个工程系统的原型。

2。材料和方法

2.1。工程系统的原型

两个基本组件系统的传感器和处理单元(图4)。在我们的例子中,我们使用一个工业颜色相机巴斯勒acA2500-60uc [34]随着传感器。相机装在一个交通工具,在天花板附近的一扇门。相机的光轴垂直于车辆地板上。考虑运输工具的建设,我们预计平均主题从0.2米到1米的距离。相机应该监控面积约2.4米 2.0米。对这些参数,我们配备摄像机Computar M3514-MP透镜(35]。相机的输出(即。,the input of the data processing chain) is a sequence of RGB images.

我们使用的原型数据收集和验证所提出的识别方法,即。,原型必须能够实时处理获得的图像。为了让所有提出的测试解决方案(包括解决方案基于回旋网),我们使用一个单板计算机VOB-P3310。它提供了一个NVIDIA Tegra X2 (2.0 GHz, 6芯)的CPU和8 GB RAM和它提供广泛交流的可能性(USB 2.0, 3.0, SATA, WiFi) (36]。

2.2。旅客的认可

候选对象图像可能会或可能不会包含完整的乘客(图5)。根据这一标准,图像分为“头”和“头”的乘客识别系统。输入识别系统的图像大小归一化RGB对象的维度 像素([51,51]px)。其输出是图像的标签,标签“头”和“头”是允许的。

2.2.1。乘客识别基于回旋网

在分类精度方面,最先进的对象识别系统是基于一个成功的深事先架构(37]。大多数情况下,他们原始图像数据(即过程。,no image preprocessing is usually carried out). They consist of multiple layers arranged in a feed-forward manner. Upper and lower level layers ensure feature extraction and classification of object images, respectively. The feature extraction is usually carried out using convolutional and pooling layers, where the convolutional layers are typically combined with a ReLU activation function. The classification is generally ensured by a softmax activation function. The function processes data at the output of the last network layer, where a fully connected layer is placed. The number of neurons of this layer corresponds to the number of object classes [38]。最先进的深事先架构的主要缺点是其高计算的要求。

乘客识别可以简单的实现为一个事先一个合适的体系结构,在网络保证了特征提取和分类(图6)。低时间复杂度的系统是至关重要的,我们测试5事先架构的性能不同的复杂性。

最简单的架构,Net1,由一个卷积(32层过滤器 px内核),一个max-pooling层( px不重叠的池),两个完全连接层512和2个神经元,分别。分类是使用将softmax函数。Net2在第二个简单的架构,我们替换序列卷积和max-pooling层的层:卷积层(32岁 )+卷积层(32岁 )+ max-pooling层+卷积层(64 )+卷积层(64 )+ max-pooling层, 使用px不重叠的池,池层。在这两种网络中,我们使用ReLU激活函数的卷积和完全连接层。减少过度拟合,我们辍学后层每个max-pooling层和第一次完全连接在网络层。max-pooling的辍学率为25%和50%,完全连接层,分别。

其余三个架构研究在本文中是众所周知的LeNet-5 [39,40],AlexNet [41],VGG-16净(42]。网络命令根据他们的复杂性。LeNet-5是开创性的事先的一个相对简单的架构。AlexNet可能是最被人们深深的事先经过大量的工业和工程应用。VGG-16回旋网是一个很深的代表。它由只有13和3卷积和完全连接层,分别VGG-16实现数据的实时处理的工程原型(部分2。1)仍然是可能的。

我们从头开始训练所有网络初始权重集和正态分布随机(值= 0,标准偏差= 0.05)。此外,我们使用转移学习(TL) AlexNet和VGG-16为了测试更好的性能(的可能性41,42]。对于这两种架构,我们调整的最后三层pretrained网络。

由于随机字符训练的过程中,我们对每个网络和重复训练一百次训练策略。对于每个训练,我们随机分割一个训练集训练和验证子集的比例85:15。对于每个训练子集,我们100年在批处理模式运行培训与批32图像时代。我们随机洗牌数据训练每个时代的子集。我们使用一个亚当优化器(43)在最初的学习速率设置 和指数衰减率第一和二次矩估计设置在0.9和0.999,分别。的优化和设置hyperparameters初步研究的结果。我们尽量减少二叉叉功能: 在哪里 是训练子集和图像的数量吗 一个实际和预测类的吗 - - - - - -th物体图像,分别。我们验证每一个这样的训练网络相应的验证子集使用熵函数(1)。

2.2.2。乘客识别基于猪和支持向量机

在此,我们报告一位乘客识别系统开发使用传统的计算机视觉技术。视觉系统的管道包括三个连续步骤:图像预处理,特征提取,分类(图7)。特征提取和分类,我们使用猪的描述符和SVM分类器,分别。为了减少系统的复杂性,我们输入RGB图像转换为灰度图像预处理中的格式。根据ITU-R转换进行推荐BT.601 [44]。第二步的预处理是基于统一的归一化的灰度图像31日]。

猪描述符编码当地区域内图像的信息塑造成一个特征向量(26]。描述符有五个参数:数量的垃圾箱,定位面元、细胞大小(以像素为单位),细胞块,相邻块之间的重叠细胞数量。细胞的大小显著影响最终的图像识别系统的性能(27)(图8),研究了该参数对分类的影响HOG-based乘客识别系统的性能。具体地说,我们认为细胞的大小 px。其余的参数,我们使用一个保守的设置已被证明是有效的:线性梯度投票到9箱线性分布在0到180度,块 细胞,1相邻块之间的重叠细胞的两个方向。

SVM分类器的训练是一个优化问题,寻找一个超平面最大利润率从训练数据(45]。如果数据不是线性可分的,数据必须转换成一个线性可分的问题使用一个适当的内核函数。强非线性问题,核函数的选择是至关重要的。考虑到这一事实,我们测试的影响各种内核HOG-based乘客识别系统的性能。具体来说,我们关注的线性、高斯径向基函数(RBF)和多项式核函数(我们使用多项式核订单2和3)。

演出也受到了支持向量机分类器设置的正规化常数。如果一个支持向量机分类器使用RBF内核,其性能进一步受内核宽度的影响。在试验研究中,我们发现设置的正规化常数1是最优的。我们使用一个subsampling-based启发式程序找到内核的最优设置宽度。

作为分类器的分类性能强烈依赖于作文的训练集,我们搜索一个设置确保最好的HOG-based乘客识别系统的性能。我们进行搜索的方式描述的部分2.2。1。具体来说,我们随机分割训练集训练和验证子集的比例85:15,我们训练和验证系统的子集。我们重复training-validation过程一百倍为每个可能的组合核函数和细胞大小。我们进行验证相应的验证子集用损失函数,给出更进一步的观察,也就是说, 在哪里 指标函数。

2.3。评估乘客识别

提出了乘客识别系统的两个关键方面是他们的分类性能和时间复杂性。惯例的分类性能的评价计算准确性的测试集(独立于训练集的数据集)。图像分类的分类“积极”和“消极”,准确给出如下: 在哪里 是正确的数量分类正面形象, 是正面形象分类错误的数量, 是负面形象分类错误的数量,和 是正确的数量分类负面形象。

综合评估的分类性能,我们使用三个额外的措施(31日,46]:

评估的时间复杂性系统,我们测量倍所需的系统流程测试集。结果独立使用的硬件,我们采用相对计算时间。为 - - - - - -th评估系统,给出其相对计算时间如下: 在哪里 是时间 - - - - - -系统需要处理数据和 是所有的评估系统的数量。

我们开展的评估乘客识别系统在培训过程中使用获得的最好的模型(见章节2.2。12.2。2)。在ConvNet-based系统的情况下,我们使用对于每一个架构,该模型与代价函数的最小值(1)得到验证。在HOG-based系统的情况下,我们使用为每个设置模型与代价函数的最小值(2)得到验证。

2.4。训练集和测试集

质量和构成训练集和测试集的明显影响对象识别系统在实际的应用程序的总体性能。数据包含在集应该反映尽可能真实情况的许多方面。考虑到这一事实,我们基地集视频序列在公共交通和类似的公共场所的手段在各种光线条件下,使用工程原型。

一组候选对象生成的图像搜索算法从一个框架是不平衡(通常是高度)12,13)优势的图像不完整(图5)。与传统支持向量机不适合学习任务不平衡(47),必须平衡训练集和测试集得到公正的结果。考虑到这些事实,我们创建的集手动确保平衡类的集合。

具体来说,我们执行四个不同录像实验。他们将模拟真实情况以及理解的架构假设人流监测系统(见图4)。所有的实验包括楼梯,一群人走下采集传感器。男人、女人和儿童的人以及没有顶盖(帽子、围巾、帽子和帽兜)。由于使用镜头集中手动为每个实验(一次),获得帧显示某些模糊根据特定的对象和透镜之间的距离。我们不同的位置,照明条件下,人之间的帧数,平均距离 (主题之间的平均距离和另外两个最近的人),和最小和最大头和传感器之间的距离, ,在每个实验(表1)。

我们削减和大小正常6020独特的对象图像的视频数据(归一化图像的尺寸 px)。我们标签的图像根据存在/没有头(图9)。我们混合和标签图像划分为训练集和测试集根据表2。我们集公开在[48]。集包含大规模class-balanced数据使其普遍适用的(集可用于设计任何分类器包括分类器,不适合与不平衡训练训练集)。

3所示。结果

3.1。乘客识别系统的验证

我们训练和验证每个拟议的架构(ConvNet-based系统)和每个设置(HOG-based系统)的一百倍。显示验证结果,我们使用盒子情节。结果基于回旋网的系统图所示10。中央线在图中位数的损失函数(1);盒子的边缘 百分位数;和胡须表示上、下四分位数外的可变性。根据体系结构和数据分组训练策略(x设在)。上的值y设在对应损失函数值。

11显示了HOG-based验证结果乘客识别系统使用损失函数(2)。我们为每个内核函数使用一个单独的图。图表中的数据分组根据细胞的大小。离群值使用星星象征。

3.2。分类乘客识别系统的性能

在表3从测试集,我们总结评估结果使用措施(3)- (6)。结果分成两部分根据它们基于的方法。每个测量的最佳结果是这两种方法以粗体显示。

3.3。时间乘客识别系统的复杂性

我们显示相对计算时间(7)作为一个条形图(图12),时间和评估系统y- - -x分别相互重合。以上每个结果,我们显示F1-score (6)系统的一个条形图(上面的图12),F1-score和评估系统y -x分别相互重合。

4所示。讨论

提出了工作的主要目的是比较两种行之有效的对象识别方法的乘客识别任务。评价结果(表3)表明,细胞的大小 px和学位的多项式核函数3 HOG-based系统的分类性能略超过ConvNet-based系统的分类性能。这个设置,HOG-based系统值最高的四个措施。ConvNet-based系统显示最好的结果只有一个测量一次(除了LeNet-5准确性和最高F1-score)。除了回忆,HOG-based系统也超过了ConvNet-based系统性能测量值的大小。进一步为这个设置,HOG-based系统显著降低时间复杂度相比ConvNet-based系统(图12)。考虑到所有这些事实,我们得出这样的结论:HOG-based乘客识别系统,3度的多项式核函数和细胞大小10,10 px,最适合的要求实现低成本的自动乘客计数实时系统。这是在协议与早期研究乘客识别没有高度差(19]。

完善回旋网如AlexNet和VGG-16预计将是一个不错的对象识别系统的基础。为验证结果(图10)显示,功能良好的学习能力,导致小损失函数值。AlexNet可以观察到类似的能力。从这个角度看,该网络Net1和Net2似乎是不够的。然而,他们的分类性能评估测试组(表3)是比得上AlexNet和LeNet-5-based系统(这四个网络)之间没有明显的赢家。令人惊讶的是,VGG-16-based系统表现最差的一类ConvNet-based系统。最可能的解释这一现象是一个相对较高的学习能力VGG-16(相比其他架构师),可能会导致过度拟合的头识别任务。考虑到高时间复杂度的VGG-16(图12),我们得出这样的结论,尽管预期,VGG-16不适合旅客的认可。

我们也调查可能的好处转移的培训学习ConvNet-based乘客识别系统。我们观察到一个较低的成本变化函数值网络训练使用TL,相比网络从头训练(图10)。代价函数值的中位数也转向TL较小值。我们得出这样的结论:一个模型与一个低成本的函数值可以使用TL更有可能获得比从头开始训练。

细胞的大小已经报道的重要参数预先确定目标识别系统的性能基于猪功能(27]。在本文中给出的实验结果证实这一发现。细胞大小的一个不正确的设置导致劣质分类(比较结果为细胞大小10,10 px和14日14像素图11和表3)。HOG-based系统的同时,时间复杂度很大程度上取决于该参数的设置(比较,例如,细胞大小的结果(6,6)px和10、10 px图12)。

5。结论

目前,深回旋网通常视为第一选择在开发一个图像识别系统。我们建立了图像识别系统与同样好的分类性能可以使用传统的计算机视觉方法开发。当适当的设计和设置,这样的系统能打败ConvNets-based解决方案的时间效率是特别重要的在实际的应用程序。这也是HOG-based乘客识别系统的情况下,利用猪的特性结合支持向量机分类器可能导致效率和准确的乘客识别。在这种情况下,我们发现乘客头部足以精确而快速客运的认可。我们还表明,HOG-based系统是高度灵活的,因为它可以使用三层和层楼的交通工具。其实现成一个乘客监控系统目前正在开发,允许我们利用基本处理单元。成本节约的单位反映在最终价格的人流动监测系统,从而支持它的质量在世界各地的运输工具使用。

数据可用性

数据用来支持这个研究的发现是可用的https://www.researchgate.net/publication/342888989_Dataset_for_head_detector

的利益冲突

作者宣称他们没有任何商业或关联利益代表的利益冲突与提交的工作。

确认

这项工作是支持ERDF /养”合作Pardubice大学和企业之间的应用研究,领域的定位、检测和运输系统仿真技术(PosiTrans)”(没有。CZ.02.1.01/0.0/0.0/17_049/0008394)。