文摘

近年来,视觉物体跟踪已经成为一个非常活跃的研究领域主要分为基于过滤器跟踪和深度学习的相关性(例如,深卷积神经网络和暹罗神经网络)建立跟踪。基于深度学习的目标跟踪算法,需要大量的计算,通常部署在昂贵的显卡。然而,对于富人在物联网监控设备,很难捕捉每个设备中的所有移动目标实时,所以有必要进行分层处理和使用基于相关滤波跟踪不敏感地区缓解当地的计算压力。在敏感地区,将视频上传到云计算平台具有更快的计算速度来执行一个算法基于深度特性。在本文中,我们主要关注基于过滤器的关联跟踪。相关基于过滤器的跟踪,有识别力的尺度空间追踪(DSST)是最受欢迎的和典型的成功应用于许多应用领域。然而,仍然有一些改进DSST需要进一步研究。一是算法不考虑目标旋转的目的。其二,这是一个非常沉重的计算负载的直方图提取面向梯度从太多的补丁(猪)功能集中在目标位置以确保规模估计精度。解决这两个问题,我们介绍了可变块数量规模为目标跟踪和空间搜索目标旋转跟踪到标准DSST跟踪方法,提出视觉对象多峰性跟踪基于相关性过滤器(MTCF)同时应付翻译、规模、和在平面旋转跟踪目标和获取目标信息的位置,规模,同时姿态角。 Finally, in Visual Tracker Benchmark data set, the experiments are performed on the proposed algorithms to show their effectiveness in multimodality tracking.

1。介绍

视觉物体跟踪(嗓音起始时间),计算机视觉的领域,是一个连续的过程通过视频图像序列估计目标状态。近年来,嗓音起始时间已成为一个非常活跃的研究领域由于其广泛的应用在许多类型的智能监控等领域(1),自动驾驶(2),和交通流量监测3),等等。

在安全监控等领域,传统的网络体系结构是很难处理的网络延迟和安全可靠性,因此边缘计算技术诞生了。任务具有不同的属性可以被传递给不同级别进行处理。詹(4]表明,最初几个特征提取层边缘设备上运行,和其他人在云上运行。和高5,6)将任务划分为不同级别根据业务应用程序和使用边缘设备在一个水平。

如图1显示,非敏感区域,较低的视频流决议可以在本地处理装置;在中区域,可以使用普通决议视频流在边缘设备;在高危地区,可以使用高清视频流在核心云服务器上,从而减少网络带宽和提高系统的整体运行效率。本文主要探讨了边缘云处理视频流,并跟踪算法是基于过滤。

许多健壮的跟踪算法被提出和发展解决问题造成阻塞,光照变化、背景杂乱,运动模糊,等等7- - - - - -14]。这些算法分为基于深度学习类别(DLC)和相关滤波器——基于(CF)的类别9]。

DLC,因为报纸上写的杰夫•辛顿et al。15,16)发表,深度学习变得特别流行在深层神经网络的背景下,取得了令人印象深刻的成功在许多应用程序中,特别是在计算机视觉特征提取。在这种成功的启发下,各种deep-learning-based追踪器(13,14,17- - - - - -22)已经提出和发展应对遇到的问题跟踪。尽管大多数基于深层神经网络的追踪者展示了潜在优势显著提高跟踪性能由世界证实电话投票比赛(17),还有一些明显的限制。例如,较少甚至没有培训数据的追踪,因为之前信息跟踪对象或对象边界框只在第一帧通常是可用的。即使离线pretraining用来学习的目标特性构建许多目标的特性集,很可能跟踪一个特定对象的功能不包含在特性集。如今,zero-shot和一次性学习,以及暹罗地区建议网络,可能是最有效的措施来应对这些问题23- - - - - -27]。

和相关基于过滤器跟踪也是一个解决方案。从它开始输出最小平方误差的总和(MOSSE)方法(10)有识别力的尺度空间追踪(DSST)方法(12),大量的不断改进,使得跟踪基于CF实现一些突出跟踪性能,如降低计算负载,健壮的目标的外观变化,和较高的跟踪精度。然而,仍然有一些改进,需要进一步研究基于CF跟踪。一是算法不考虑目标旋转的目的。其他的实时性DSST不能总是保证,因为它有一个非常沉重的计算负载的直方图提取面向梯度(猪)特性从这么多补丁集中在目标位置以确保规模估计精度。这启发我们思考一个想法:在保证跟踪精度的前提下,适当减少补丁为了节省时间的目标旋转引入DSST形成多重跟踪。这意味着追踪应该同时应付翻译、规模、和旋转平面的跟踪目标,这让我们提出视觉物体的多峰性跟踪基于相关性过滤器(MTCF),求出这两个问题,同时获取目标信息的位置,规模,同时姿态角。

在本文中,我们设计一个基于过滤器的相关性跟踪瞄准目标精确跟踪和强劲的跟踪速度每秒25帧和跟踪目标的旋转。

在本节中,围绕基于CF跟踪,我们简要列举一些相关研究工作贡献跟踪基于CF强调我们的动机。

MOSSE方法被认为是最早的实时CF-based跟踪器(28),这是一个改进版本的平均合成的过滤器(期亚欧基金)29日)训练有素的离线检测对象。MOSSE追踪目标外观和环境变化具有很强的鲁棒性,可以实现快速跟踪速度。这是因为在时域相关性的卷积图像转换成图像在频域的乘法,大大降低了计算的复杂性和负载。然而,MOSSE方法只使用灰度样本训练CF和主要关注翻译不考虑规模和旋转。

基于MOSSE,循环结构内核埋头方法(30.构造一个循环矩阵的训练数据通过使用循环移位的目标窗口保持在目标密集采样,而非随机抽样。另一方面,埋头地图岭回归方法的线性空间通过核函数的非线性空间和简化了计算非线性空间中通过求解对偶问题,避免逆矩阵操作,从而减少了计算复杂度和提高跟踪速度。kernelized相关性过滤器(KCF)方法(11是埋头的一个改良版本。介绍了多通道特性猪到埋头增强特征表征能力和显著提高跟踪性能。然而,存在一个重大缺陷KCF方法;即。,it is not robust to the scale variation of the target. In addition, for the KCF-based tracking, the authenticity of negative samples will decrease along with the increase of cyclic displacement, which results in the tracker being trained on a portion of unreal samples. To address this issue, Danelljan et al. [18]介绍空间目标函数的正则化项KCF-based追踪惩罚滤波器系数边界框的边缘附近。基于[18),戴et al。28]提出一种新颖的自适应空间正规化CF进行跟踪了解更多可靠的滤波器系数,充分利用的多样性信息跟踪过程中不同的对象在不同的帧。然而,标准KCF-based追踪器一样,这两个追踪器还没有健壮的尺度变化的目标。

DSST [12,31日)跟踪器使用多尺度搜索策略解决规模适应的问题。它跟踪分为翻译规模预测和预测。首先,翻译预测是由应用标准翻译过滤当前帧目标的位置。其次,目标大小估计采用训练规模滤波器在目标位置从翻译获得过滤器。翻译过滤器过滤和规模两个独立的过滤器,并基于MOSSE。尽管DSST跟踪器提高了跟踪性能和鲁棒目标尺度变化,存在一些明显的限制需要进一步完善。一个是DSST故意不考虑目标旋转,具有强烈的负面影响跟踪性能。另一个是没有必要为保证跟踪速度操作花很多时间在抽样太多补丁集中在目标位置。

除了跟踪方法,跟踪目标的特点也追踪的关键组件,它有一个非常沉重的影响跟踪性能。一般来说,丰富的功能,更好的跟踪器的性能。最简单的功能是强度矩阵搜索图像,用于MOSSE [10]。和筛选功能32和猪的特性33)用于对象跟踪。近年来,深特性(34)广泛应用于对象的跟踪。摘要猪特征结合灰度特征而不是深度特性采用了因为我们的重点是CF-based跟踪。我们不采用筛选因为筛选是尺度不变,我们需要显式地捕捉对象的大小变化。

总结上述分析,我们提出了MTCF缓解上述相关CF-based追踪器的缺陷。针对目标精确跟踪和强劲的跟踪速度每秒25帧至少对实际视觉物体跟踪、MTCF由4个任务。首先,基于该标准的CF-based翻译追踪,确定当前帧的目标位置。其次,基于DSST样品几个补丁(可变数量的补丁)与不同的决议,集中在跟踪目标位置取决于翻译CF,补丁找出可行的规模,寻求一个最优决策策略找到最终的规模在可行的尺度。第三,基于该标准的CF-based翻译跟踪器,设计一个旋转跟踪器使用空间搜索。最后,整合形成MTCF前三的任务。

3所示。跟踪设计的方法

3.1。变量符号用于本文

在这篇文章中, 表示一个图像块的“特性”剪裁与特定的边界框, 表示相关滤波器, 表示响应相关的地图。通过这种方式, 表示的特点 帧用来与翻译过滤器 我们得到翻译响应图

表示目标的规模后的跟踪了 框架, 表示目标的旋转角度后跟踪 框架。

卷积定理,在空间域的相关性可以转化为element-wise操纵,这将大大降低相关计算负载。因此,对于计算效率,提出了相关操作使用快速傅里叶变换(FFT)方法在频域。让大写的变量是小写的同行的傅里叶变换,即, , , 对应于 , , ,分别。

3.2。基于相关性的标准翻译跟踪滤波器

如图2表明,给定一个视频序列,画一个矩形边界框(非常接近相同的大小作为目标,红色的)在第一帧的目标并提取特征映射 从所选的区域(绿色矩形,两倍大小的红色的)。然后火车相关滤波器 得到一个理想的响应 在下一帧,使用相关的过滤器 与提取特征的地图选择地区和得到一个响应图 如下: 在哪里 代表卷积操作。

在正常的跟踪过程中,应该有一个峰值响应中的地图。峰值的位置被认为是中心目标(在这个意义上跟踪执行)。跟踪的关键是找到一个健壮的特性提取器和维护相关滤波器 应对各种不利影响如目标外观转换、闭塞,等等,使用适当的更新策略。

3.3。规模跟踪基于相关性过滤器

在原始DSST,不同于尺度的数量 (或图像补丁的数量)在本文中是一个可选的正整数由跟踪速度和跟踪精度(即之间的权衡。,小 如果选择跟踪速度需要重点跟踪精度,亦然)。让 目标的形状,构造图像补丁集中在目标位置 不同尺度上形成一个图像补丁集 在哪里 是规模的一步。调整每个 到相同的形状形成一组边界框 如图3提取一个特征地图的显示,而不是从一个边界框固定规模、跟踪提取特征映射 每个补丁的边界框 (特征图33在图的数量3)。每个特性图 连接成一个向量,所有这些向量组合成一个功能地图吗 我们设计一个规模相关滤波器来将功能映射 ,和最大响应发生的规模预测规模匹配当前规模的目标。

3.4。旋转跟踪基于相关性过滤器

在跟踪目标可以旋转,因此我们使用旋转限位框集中在目标作物每一帧。如图4,让 目标和中心 当前目标的旋转角度,和 表示在坐标系旋转的边界框 和使用目标周围的旋转中心,我们构造一组边界框 具有相同的大小 ;在这里 给定的最大旋转角位移和吗 是旋转的一步。

对于每一个边界框 ,提取的特征映射 ,并与旋转相关滤波器最大响应值,

这些值进行比较,找到最大的一个预测旋转角度 帧的跟踪结果 ,如下:

除了我们这里使用的方法,我们还设想“维相关旋转跟踪”的补充材料。然而,后测试,结果表明,此方法需要太多的计算和不适合使用在边缘节点。

3.5。多峰性跟踪基于相关性过滤器

整合翻译、尺度和旋转前一节所形成MTCF迭代过程的 框架简要概述了与已知的参数获得的 框架,包括目标的位置 ,翻译过滤 ,尺度滤波器 ,规模 ,旋转过滤器 ,和旋转角度

3.5.1。翻译估计

(1)构造边界框 与规模 ,集中在 框架。(2)提取的特征映射 (3)计算关联映射 使用 (4)获得目标的新职位 对应位置的最大相关值 发生。

3.5.2。规模估计

(1)构建图像补丁 不同的尺度以目标为中心的位置 框架(2)提取特征映射补丁 从图像补丁 ,并将每个特性映射 形成一个向量,然后结合这些向量特征矩阵 (3)计算关联映射 使用 (4)更新目标和最优规模 对应位置最大规模的相关价值所在

3.5.3。旋转估计

(1)构建图像补丁 的边界框 以目标为中心的位置 与旋转角度 (2)提取特征图 对于每一个补丁的 (3)对于每一个功能图 ,使相关性与原旋转过滤器,并得到最大响应值 (4)更新目标旋转角度 与最优 对应的最佳

3.5.4。模型更新

(1)构造边界框 以目标为中心的位置 与规模 和旋转角度 (2)提取 , , (3)更新的翻译模式(4)更新比例模型(5)更新旋转模型

3.5.5。保持跟踪

输出的跟踪结果 框架并返回到下一帧跟踪。

4所示。MTCF:整个模型

4.1。翻译跟踪过程

最简单的correlation-based跟踪只有关注翻译的目标。在第一帧,我们标签一个矩形区域 以目标为中心。因此,跟踪器可以提取特征映射的目标外观。特征映射必须保持空间的映射,因为追踪使用位置最大响应预测新的目标位置。

最简单的功能映射是灰色强度矩阵转换的特定区域(例如, )原来的框架。许多研究人员使用二维汉宁窗(见图5)预处理的原始强度矩阵。由汉宁窗,处理后强度矩阵集中在中部地区的目标和削弱了边界框边缘附近的背景信息。因为在第一帧我们画周围的边界框严格目标,追踪可能失去一些特性和表现不稳定。

为了解决这个问题,最简单的方法是扩大搜索区域。定义一个参数 确定的多少倍 搜索窗口。一般来说,更大的参数bb将有助于提取更多的功能目标,并跟踪器的稳定。但更多的时间是花在从大型搜索区域中提取特征。

这显然是证明了“S1”提出的补充材料。在本文中,我们采取一种折衷政策和选择

从现在开始,我们将使用 代表翻译搜索窗口。

我们得到了 ,因为我们需要训练翻译相关过滤器 ,一个初始 是必需的。在论文之前,大多数研究人员以Gauss-shaped响应映射为初始化,如下: 和图6展示了一个示例

虽然在计算强度特性是廉价的,它是不稳定的。因为它只利用了帧中的信息。最近,很多深刻的特性(例如,卷积神经网络特性)介绍了对象跟踪和行为以及在准确性和鲁棒性。不过,计算昂贵,在这篇文章中,我们关注FHOG [36)功能。

我们使用一个FHOG特征提取器的功能映射 在翻译步骤中,27个维度FHOG和1维的强度特性考虑在内。根据DSST [12),有识别力的多维特性的相关性过滤器应用如下。

最小化代价函数,

在这里, 是理想的响应特性映射之间的相关性和过滤器,和参数 正则化项。在FFT领域,解决方案(12可以写成 在哪里 表示复杂的结合, element-wise乘法, 是维数。

翻译过滤器 可以解决如下:

方程(9)是采用离线学习获得相关滤波器。在实际跟踪,跟踪器(例如,MOSSE KCF, DSST)目标位置 帧边界框的中心 帧,提取特征的地图 ,然后计算相关地图 确定目标的新职位 对应元素的最大值 ;在这里, 表明傅里叶反变换。

后来,重建边界框 集中在目标新职位 地图的功能 提取,然后更新翻译CF得到了什么 最后,一个迭代公式方程(9)提出了以下方程从方程(9)- (12根据()10,12]: 在哪里 是学习速率。

4.2。规模跟踪过程

至于规模跟踪过程中,常用的两种方法。一个叫,另一个是“详尽的规模跟踪维相关滤波尺度跟踪。”在这篇文章中,我们使用“维相关性”的方法。

在前面的帧,得到目标的位置 和规模

目标的形状,构造图像补丁集中在目标位置 在第三节中给出的方法方面,和调整,形成一个边界框 FHOG器应用于提取特征映射 每个补丁的边界框 每个特性图 连接成一个向量,向量合并成一个整合向量 估计目标规模可以通过学习来解决一个单独的维相关性过滤器。设计一维滤波器 最初的理想反应 是一个Gauss-shaped峰,如图7所示。

规模最大的关联响应值作为最优规模

后来,提取特征的地图 集中在目标新职位 与目标最终的规模 ,然后更新规模相关性过滤器 使用方程(13)- (17)。

在这个过程中,参数“空间本大小”设置为4节省时间在接下来的过程和使用所有FHOG维度。的长度年代特征向量是

估计目标规模可以通过学习来解决一个单独的维相关性过滤器。将特征向量作为多维特性和 向量转化为维特性

构造不同的组含有不同数量的补丁。从小型到大型斑块的数量变化(例如,从10 - 55),和所有的补丁都集中在跟踪目标位置在当前帧由翻译CF。让基本DSST [12)执行视觉跟踪数据组(35),并计算特征的跟踪速度和跟踪精度之间的欧几里得距离跟踪窗口中心和地面真理中心为每个组。实验结果如图所示8

从图8可以看出,与不同数量的跟踪精度和速度是不同的补丁。更多的补丁对应于一个跟踪速度低,反之亦然。因此,在保证跟踪精度的前提下,适当选择补丁的数量以保存的时间目标旋转引入DSST形成多重跟踪。实验后,发现大部分时间是花在特征提取模块。

4.3。旋转空间跟踪过程

设置目标的态度 在第一帧;构造一组边界框 如前一节所述连续帧。FHOG器应用于提取特征映射 为每一个补丁 的边界框 估计目标旋转可以通过学习来解决一个单独的维相关性过滤器。火车一维单个旋转过滤器 的相似度函数来计算出最大的相关反应 对于每个特征图 因此,最好的跟踪角 计算通过使用以下方程:

后来,提取特征的地图 集中在目标新职位 与目标最后的旋转角度 ,然后更新旋转相关滤波器 使用以下公式:

我们把图9作为一个例子来演示我们的搜索旋转角度。如图9所示, , , , 构造一组边界框 5补丁 ;火车旋转相关性过滤器 在第一帧使用样品。和图10显示每个补丁的相关反应, 对应于最高的响应。因此,我们可以做一个结论 是最好的预测旋转角图吗9,它展示了我们建议的搜索旋转方法的有效性。

在这个过程中,如何设置参数 是非常重要的来获得良好的跟踪性能包括跟踪速度和跟踪精度。更大的 和小 将有助于良好的跟踪性能,但更多的时间是花在跟踪目标的特征提取,具有负面影响的跟踪速度。这显然是证明了“S2”提出的补充材料。作为一个规则,参数 是固定的实验根据跟踪任务的要求。

在这篇文章中,我们也采取这样的政策。

5。实验

5.1。实验设置

在本文中,我们的方法是在Windows上的MATLAB R2019a 10系统实现的。实验是在PC与Intel Xeon®2.4 GHz和63.9 GB RAM。选择数据集从视觉跟踪数据集35]。我们的实验分为3组不同的参数。都是用来证明我们的建议方法:在保证跟踪精度的前提下,适当减少补丁为了节省时间的目标旋转引入DSST形成多重跟踪验证我们提出的旋转跟踪算法的有效性,并证明整个跟踪性能提出的视觉对象基于相关滤波器的多峰性跟踪算法。

每组实验中,视觉跟踪数据集选择翻译的目标,规模,同时旋转。和尺度的数量年代,比例因子 ,和学习速率 每组保持不变,是固定的(33岁,1.02和0.015)和(27岁,1.0247和0.015),分别,这意味着规模最大和最小的两组相同,如图11所示。我们测试不同大小的影响 搜索窗口的补充材料。

5.2。第一组实验

在这组实验中, 选择是 , 选择是 因此,跟踪速度是31 fps,和实验结果如图1213一些典型的跟踪框架组成。

从图11可以看出,适当减少斑块的数量完全可以节省的时间目标旋转引入DSST形成多重跟踪在保证跟踪精度的前提下,我们提出了旋转跟踪算法可以很好地工作。

5.3。旋转跟踪性能测试

在这组实验中, 选择是12, 选择是4。因此,跟踪速度是29 fps,实验结果如图所示13一些典型的跟踪框架组成。

在这组实验中,跟踪速度是29 fps低于因为第一组实验 4这意味着选择的数量吗 增加,导致更多的时间花费在提取特征地图吗 但视觉追踪我们的建议还可以用翻译工作在跟踪目标,规模,和旋转。这可以通过图13。从这个角度来看,我们可以说旋转步骤可以适当增加如果跟踪精度是首选,反之亦然。

5.4。多峰性跟踪性能测试

在两个组的实验中,我们提出了MTCF算法进行视觉跟踪数据集(35]演示多峰性跟踪性能;跟踪结果如图14

从图14,可以看出我们的提议MTCF具有良好的多峰性跟踪性能,可以使我们获得这个职位,规模,同时跟踪目标的姿态角。

这个算法的泛化能力仍然保持同一水平DSST和非常依赖于猪提取算法。

6。结论和未来的工作

本文在保证跟踪精度的前提下,介绍了可变块数量规模为目标跟踪和空间搜索目标旋转跟踪到标准DSST跟踪方法,提出多重跟踪MTCF同时应付翻译,规模,在飞机和旋转跟踪目标和获取目标信息的位置,规模,同时姿态角。实验结果表明,该多通道MTCF目标跟踪算法(1)可以达到批准跟踪速度在很大程度上是超过25 fps至少对实际视觉物体跟踪通过适当降低补丁的数量规模为目标跟踪和(2)可以为翻译,获得良好的跟踪性能,同时旋转。在未来,我们的工作将集中在分布式硬件和软件的实现提出了多通道综合跟踪算法。

为终端设备未配备GPU单位,低分辨率的视频是用来减少计算目标的压力特性。为边缘设备与特定的计算能力,他们负责的主要目标跟踪任务。最后,对于几个关键和高风险领域,网络带宽被上述两个用于上传中央处理器云计算实现分层治理协调。

数据可用性

所有的源代码和相关图片上传到GitHub,可从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持下由中国国家自然科学基金资助61772575,国家重点研发项目,中国yfb1402101格兰特在2017中国民族大学和独立研究项目。

补充材料

S1:不同的搜索窗口的大小和影响分析结果。S2:维相关旋转跟踪, (补充材料)