文摘
在本文中,我们研究运动方向的估计预测快速运动目标检测算法,提出一种基于阈值的人类利用运动矢量和其他数据作为人类的目标特征信息。标准化的运动矢量划分为若干个区域,形成一个运动矢量场,然后预处理,然后人体目标检测通过其运动矢量区域block-temporal相关检测人体运动目标。实验结果表明,该算法有效地检测人体运动目标的视频摄像机相对静止。人体位置的算法预测当前帧的参考帧的视频转发映射当前帧的运动矢量,然后使用运动矢量方向角直方图匹配特征,并结合区域匹配策略来跟踪人体目标预测的地区,从而实现人体目标跟踪效果。实验证明算法有效地跟踪人体运动目标的视频相对静态背景。解决样品的问题和缺乏多样性数量在多目标跟踪环境中,生成模型的基础上,有条件的变分self-encoder条件代对抗网络,提出了生成的性能模型使用行人reidentification和其他数据集,验证和实验结果表明,该方法可以利用这两种模型的优点来提高生成的结果的质量。
1。介绍
近年来,人类行为的理解,作为一个关键任务的智能应用,如自动驾驶、服务机器人,和先进的监测系统,是研究人员感兴趣的热点之一在计算机视觉领域(1]。一个准确的理解人类行为是一个关键的先决条件在机器人人机交互和其他智能设备,覆盖多个阶段从感知到人类行为的表征和分析2]。机器人在动态真实的场景中,需要准确地感知周围环境,并迅速处理信息,分析和了解人类行为做出正确的决策和在各种情况下完成相关任务3]。运动轨迹预测是其中一个任务在行人行为分析(4]。行人轨迹预测通常是建立在计算机视觉方向的其他任务,如行人检测、行人识别属性,和语义分割,是指预测代理随着时间的移动场景涉及多个代理(5]。观察,先验信息周围的环境,和行人运动信息是用来定位和预测目标的位置行人在未来帧的视频6]。预测行人的轨迹具有十分重要的现实意义;例如,在自动驾驶的安全性至关重要的任务,只有通过正确的推断在车辆和行人的意图准确地预测未来的轨迹可以车辆计划它的路径,避开障碍,阻止事故的发生(7]。与此同时,由于人类行为的复杂性和周边环境的多样性,准确预测的轨迹行人也是一个具有挑战性的任务(8]。行人轨迹的变化是由多种因素决定的,如目标意图,方向和位置周围的代理,和现场的信息,其中一些不能直接观察到,需要从大量的嘈杂的线索推断或需要模仿和学习基于上下文信息(9]。
Al-Jarrah等人提出了Social-LSTM方法,最早的深度学习的方法处理行人轨迹预测的问题,它使用一个递归神经网络模型观察行人的运动视频场景和使用模拟结果作为预测未来的轨迹的行人10]。在社会池层是用来捕获行人之间的交互,然而,这种方法不考虑不同的行人的重要性11]。结合运动矢量的方法(MV)及其相关编码语法元素提出了文献[12),这是一个场景中的运动目标的良好指标。由于这些信息在视频比特流,一个想尝试用它来移动目标跟踪(13]。压缩域的跟踪方法的优点是效率高、速度(14]。这是因为他们可以避免过度解码的视频和存储和处理像素的像素值字段,和他们通常极其几个数据处理中心(15]。缺点是他们过度依赖压缩视频编码方法,可以减少由低分辨率的运动精度,因为它是有限的采样网格:通常,一个MV使用4×4或更大的模块/单元(16]。粒子的变化与检测结果(17]。在这之后,探测和跟踪策略已成为一个流行的多目标跟踪方法(18]。基本思想是使用离线训练检测器来检测目标逐帧,然后选择一个特定的时间窗口关联检测结果与被跟踪目标的轨迹。检测跟踪过程的一部分是实时性能的瓶颈,并应用其他方法来代替目标探测也是一个解决方案来减少计算时间19]。因此,皮尔森提出了一个局部大密度3 d视觉船体重建算法来代替检测算法在多目标跟踪,在使用粒子滤波相结合的泰森多边形法分割跟踪(20.]。
在本文中,我们研究人类HEVC视频编码流中包含运动目标,基于运动矢量部分解码等信息数据库。HEVC压缩编码的视频处理与人类的对象提供了一个深入研究运动目标检测和跟踪技术。摘要视觉注意力机制研究。自底向上的搜索过程可以识别局部特征的视觉刺激,而自上而下的过程是基于任务的,注意引导全球结构现场检测的视觉特点。结合这两个前全球和地方特性可以有效地实现卓越目标搜索。同时,发现引导搜索理论是一个注意力模型,模拟了自上而下的全球搜索和自底向上的地方特色。因此,引导搜索理论的基础上,我们提出一个基于two-pathway框架的视频显著目标检测模型。模型使用时空对比指导搜索突出目标。首先,帧间的映射结肠反差和对比在非选择性运动路径,结合卓越线索与前一帧,作为先验信息的空间位置的目标。同时,低级特征如亮度、颜色和运动是选择性提取途径实现精确的搜索目标。 Finally, an improved Bayesian inference model is used to further obtain optimal results. Our algorithm does not require parameters and can automatically detect significant targets in the video.
2。快速运动估计模型分析设计
2.1。理论模型的特征集成的关注
功能集成理论表明,早期功能是自动记录和并行整个视野,而目标才单独确定后,一个步骤,需要集中注意力。最初假设视觉场景编码根据几个可分维度,如颜色、定位、空间频率、亮度和运动方向21]。重组这些单独的交涉,确保正确的合成的特性为每个目标在复杂场景中,单独的刺激位置连续处理,和注意力都集中在一起。任何特性出现在相同的注视点被合并成一个单独的对象。瑞斯曼认为,没有集中注意力,不可能彼此关联特性。似乎不可能有意识地“感知”个体形状没有给它一个颜色,大小、亮度,和位置。然而,一个无人值守区域不被视为空间,如图1。
瑞斯曼推测,视觉的早期阶段只能检测独立特性,包括颜色,大小,方向,相比之下,倾斜,弯曲,和线端点,可能还包括运动和距离的差异。这些特性是自由浮动的,而不是绑定到它们所属的对象,和他们的位置是主观不确定的。每个维度的感知系统独立编码特征形成特征映射。第二阶段是关注阶段,关注细节的分析和处理,将各种功能集成到一个目标的过程。正确感知系统协会独立的特征(颜色、方向、大小、距离等)形成一个对象的具体表征。在这个阶段,有必要定位特性,即。,以确定的边界特性所在地和形成一个位置地图。处理功能需要集中注意力的位置信息(22]。集中注意力就像胶水,集原始、分离到一个单独的对象特性。这一系列的过程有点慢于前。因为需要更多的努力,当注意力超载或人分心,尤其是当注意力要求很高,刺激的特性可以组合不当,导致虚幻的现象。功能整合发生在视觉处理的后期和nonautomated,顺序过程中,基于数字图像的偏移补偿的移动数码相机在拍摄的视频中,从而减少全球运动模糊和稳定图像的视频。
为了避免亮度的变化由于阴影的影响,H-S算法首先假定成像的表面是平的。进一步假设入射照明是统一在整个表面。然后,图像中的一个点的亮度成正比的表面反射率对应点上的对象。另外,假设反射系数变化平稳,没有空间不连续。H-S算法也排除了对象相互阻碍的情况,部分是因为在反射率存在不连续物体边界。因此,在简单的这些假设的情况下,图像中亮度的运动模式是直接由对应点的运动对象的表面上。一旦知道光的流动,计算的速度点的对象是一个简单的几何问题。
如果每个点图像亮度模式的独立运动,几乎没有希望恢复视觉的速度。更常见的是,我们看到了有限尺寸的不透明的物体,受到刚性运动或变形23]。在这种情况下,相邻点的对象也有类似的速度,顺利和亮度模式的速度场变化几乎在每一个图像。的情况下一个对象块,可能发生不连续的光流。因此,角和Schenck说,表达附加约束条件的一种方法是减少大小的平方的速度梯度光流。H-S算法需要光学流尽可能平滑,所以其约束最小化,方程(1)是H-S的平滑约束方程的算法。
根据基本方程的光流矢量,光学流误差最小化
因此,光流场的解转化为解决以下方程:
运动向量的归一化引起的不同的参考系相邻坐标系称为时域标准化。也同样因为HEVC代码的编码单位不分歧,因此,有必要计划部门大小一致,在这里他们都除以最小编码单元,4×4的标准(24]。除了时域标准化、空间归一化,这是一个过程,将大小不同的编码单位分成同样大小的块和分配他们的运动向量,也是必需的。下面的公式运动矢量中值滤波处理在本章米是所有运动向量的集合框架和问后运动向量的集合X(矢量中值滤波)处理。
然而,由于某种程度的震动在一些视频的背景下,全球运动矢量有一个很大的错误,和人类不能直接检测到运动目标区域,所以全球视频帧的运动估计是需要解决这个问题。运动矢量的问题,增强由于抖动主要是预测的全球运动估计,从而获得更可靠的前景运动目标的向量场。向量场的旋度的散度总是0;即向量场的旋度场必须是一个被动的领域。
在全球的每个像素帧运动补偿视频、运动向量场需要积累提高运动目标检测的准确性和可靠性。运动向量场积累的主要目的是消除background-induced噪音。然而,在智能监控录像,人类运动目标可能接近彼此,不能检测到运动向量场积累。因此,有必要添加一个逆向迭代投影积累方法。方程(6)是一个反向投影的数学表达式。
阈值处理技术被广泛用于运动视频的分割和检测。在压缩域视频中,基于阈值的运动目标检测方法主要包括向量块。一般来说,在摄像机相对静止的视频序列,背景矢量幅值很小或者为零。然而,在摄像机运动的视频序列,背景矢量通常有一定的幅度,将在本章研究视频序列的镜头是相对静止的。
在网上多目标跟踪过程中,获得一个特定目标的连续轨迹,就必须找到所有的确切位置被跟踪的目标图像,在跟踪器获取下一帧的图像信息,并寻找一个特定目标的位置的过程称为边界框的回归。这四个映射通常可以通过线性回归获得。进一步研究多目标跟踪的任务,本文首先提取整个图像的深度特性通过卷积神经网络,输入获得深度特性为线性回归算法,然后输出上述四映射后的计算线性回归算法。
2.2。快速运动估计设计
CNN-LSTM行人轨迹预测模型提出了如图2,网络框架是一种编解码器结构一维convolutional-inverse卷积网络编码器和译码器。深度学习作为一种常见的网络模式,convolutional-inverse卷积网络常被用来处理图像分割,生成、分类、和其他图像域的任务。学习的过程神经网络本质上是一个线性变换的数据操作,增加网络的权重矩阵与输入多维向量获得另一个多维向量。有太多的学习算法,如分类、回归、聚类,建议,和图像识别。不容易找到合适的算法,因此,在实际应用中,我们通常使用启发式学习方法的实验。通常,开始时,我们通常会选择算法,每个人都同意,如支持向量机,GBDT,阿斗波。现在,深度学习非常受欢迎,和神经网络也是一个不错的选择。如果你关心的准确性,最好的方法是通过交叉验证测试每一个算法,比较它们,然后调整参数,以确保每个算法达到最优解,最后选择最好的一个。卷积网络主要用于从高维向量中提取低维特征,相当于一个编码器;逆卷积网络是相反的,从低维特征重构高维向量,相当于一个解码器,即。,执行前后的卷积神经网络反向传播操作。 In this paper, in the codec module of the model, the historical information on the position and size of pedestrians observed in the first-view video and the self-motion information of the camera is encoded by constructing a convolutional-inverse convolutional network, from which the features of the pedestrian position and size information and the self-motion information of the camera are extracted, and the input and output streams are in the form of one-dimensional convolution.
一系列行人的位置和尺寸大小4∗10的历史信息。第一个一维卷积的输出层的输入二维卷积层,二维卷积的输出层的输入第三维卷积层,最后,第三维卷积的输出层的输入第四维卷积层。在这个编码器,每一层的输出结果是BN ReLU批规范化和激活的激活函数。的网络体系结构配置编码器历史运动的位置和大小如表所示1。
评估模型的准确性,最终的位移误差(FDE)和最终的位移误差平均FDE的目的地之间的距离预测轨迹和目标的轨迹。而且,由于本文预测行人检测帧的位置和大小,你介绍作为评价指标,和乔丹是一种常见的指数用于目标检测任务,指检测帧之间的重叠率的预测模型和原始标记检测框架,即。十字路口的检测结果和真实值。两者之间的联盟比本文中用于评估预测未来的位置和大小的性能检测行人的框架结构。
损失的变化值在模型的训练这三个数据集在图所示3。水平轴是培训期间,纵轴是日志的损失价值。根据这三个数据,当模型第一次训练,因为模型未学到的样本数据,生成的预测样本之间的差异和实际样本大,导致大的损失值,大幅下降时,培训周期小于100和100年后放缓。在每个数据集,每个交叉验证模型训练,总体趋势是模型损失函数减少和收敛随着训练的数量增加,和模型趋于稳定。
神经网络在训练过程中,必须backpropagate残差,和反向传播过程,爆炸梯度和梯度不稳定的现象经常出现梯度消失。的学习速率梯度爆炸问题发生在面前的隐层神经网络比背后的隐藏层,导致更快的网络变化;梯度消失问题发生在前面的学习速率的隐层神经网络低于背后的隐藏层,导致网络变化慢。根源在于神经网络使用链推导来解决每一层的梯度,和中间的分支过程可能使剩余计算不稳定,这可能会阻止该模型进一步培训。
网络调整中提取深度的外观特征的行人通过构造残余网络融合与SE模块,比较不同的损失函数,学习不同的行人目标的指标通过两个网络框架,和学习外观特征表示。然后调整网络来提取深的行人和学习外观表示。在图所示的方法框架4。
短暂,引导搜索理论表明,在早期阶段的视觉系统,所有的位置都是并行处理,但只有有限的信息可以从视觉输入。后续的流程可以执行其他更复杂的任务,但只有一个位置或几个空间位置。信息收集的平行前端用于重建的部署的部分视野最可能包含感兴趣的对象。本指南并不完美,但它是更有效的比一个随机的干扰。非选择性的途径是一种选择,后期的过程中移动到一个先进国家之前遇到“瓶颈”。
选择性途径体现了早期选择,加工前的瓶颈。传统上,这些替代品的竞争,在这里,它们共存。然而,传统的延迟选择允许目标识别(例如,单词识别)前的瓶颈。非选择性的路径,从场景中提取一些语义信息的能力,没有识别功能。基于引导搜索理论的基本原理,我们提出一个模型视频显著目标检测使用比较信息在时间和空间域先验引导视觉搜索,考虑视频帧之间的关联度分析。其中,本地特征提取的局部特征提取算法(如筛选)被称为描述符。例如,筛选描述符的维数是128,然后如果米描述符提取图像,图像的矩阵描述符是∗128。地方特色的数量从每个图片可能有所不同,所以我们需要将这些不同数量的描述符合并到一个特征向量维度(假设n)来表示整个图像,这样一幅画可以使用1∗k这是由一个向量表示。这样做之后,可以很容易地实现图像检索和分类任务。
引入一个状态机的核心思想是用不同的态度拟合方法在不同运动状态改善态度拟合的准确性。本文构造一个有限状态机五运动状态:正常散步、快走、跑步、脚静止,和跳跃运动,不同的posture-fitting方法实现在不同的州。正常走路的姿势变化规律,与明显的周期性和脚接触地面。在快走,腿上的肌肉造成很大误差传感器,和肌肉的抖动时降落在地面导致传感器抖动,脚触地时间很短。跑步是一个更复杂的运动,其最明显的特点是极短的脚触地时间。状态之间的切换的条件需要找出上述行动的阈值或特征条件和分析角速度特征,加速特性,和关节角度在不同的运动状态来确定使用哪个姿势拟合方法在特定的时刻。
3所示。结果和分析
3.1。对比实验分析
图5显示了HEVC标准的篮球训练和Bimal测试视频序列,这两种相对静态背景,382×480分辨率,多个人类运动目标,和大的人体运动目标的视频。使用GMM和氛围算法和本文算法相比,算法都是基于像素的目标检测算法,并避免造成视觉干扰颜色、灰度图像用于比较。
自从GMM混合高斯模型算法与光强度容易受到干扰,有很多噪音检测人体运动目标图像时,和人类目标的检出率相对贫困是由于人体的大的区别和背景。氛围算法是相对贫穷的检测人体运动目标的完整性。由于本文采用运动向量场积累和阈值的时域相关性,背景部分,没有噪音和检测性能很好。在本章提出的算法进行比较,分析了三个测试标准:准确性(以下简称 - - - - - -值),回忆起(以下简称热阻),F-measure(以下简称f值)。
图6显示了一个比较的三个测试标准篮球演习视频序列。第一个100帧选择三个序列的统计,GMM的检测结果和氛围相对较差,而本文方法的检测结果相对较好。上述分析表明,该方法显著减少,从而减少了检测时间精度损失,相对良好的实时性能,比GMM和氛围在人类目标检测算法。
(一)
(b)
(c)
该方法具有较高的热阻以及f值,特别是热阻,比其他两种方法,但稍微缺乏检测精度,因为它是基于压缩域的人类目标的检测,具有更大的比像素域的基本单元,从而导致更低的 - - - - - -价值。这比较分析表明,该方法大大减少了检测时间,尽管精度降低,实时性能更好。提出了一种基于阈值的人体目标检测算法,包括几个步骤,通过规范初始运动矢量。运动矢量场进行积累,最后,人类检测到运动目标图像的一部分结合阈值集。上述步骤后,视频序列最终选定的实验,实验结果表明,该算法在本章是有效地检测人体目标。该算法的优点是简单,实时,快速。然而,视频序列的要求更加严格,需要一个相对静态的背景,检测效果取决于阈值的选择。
人们不感兴趣的所有信息在整个图像,但只有在一些地区或部分的图片,感兴趣的区域(ROI)。如果我们能确定这些区域和不同优先级分配到不同的区域进行处理,图像处理的效率和精度将大大提高。图像的底层特征直接影响质量的ROI提取;因此,有必要分析和研究每个基本特性的影响程度的ROI提取的图像。自从CGVS算法是一个重要的目标探测模型图片,我们将视频序列划分为帧,然后使用CGVS算法来计算每个框架的意义的地图。
3.2。分析趋势预测结果的方向运动
对于较小的目标领域的观点,由于缺乏详细的外观特性,提取他们的身体特征的误差很大,所以运动趋势只是由行人的运动模式在前面的帧;即。,运动趋势只是预测的速度模型。在当前帧,行人的运动速度(即帧。帧的数量之间的位移/目标帧的时间间隔是预测)分解在横向和纵向两个方向的视野,以及水平和垂直速度输入阈值循环单元的学习。进行集中培训,培训数据提取的每个行人的运动状态目标在水平和垂直方向。训练模型预测目标的趋势在水平和垂直轴的运动。模型预测分类和输出通过一个简单的SoftMax层,两轴集成和速度预测来估计总体框架的位移。这种方法的两个模型,一个更大的目标运动趋势预测模型基于小目标运动姿态估计和基于速度估计趋势预测。图7显示了整体烧蚀实验结果和跟踪算法的性能验证结果后整合运动估计模型。
姿势估计部分,网络结构使用一个阈值循环单元1024隐式节点和不使用代表学习层独立的外观特征的时间序列信息处理。1024个节点的训练单位产生重大影响的模型速度和成倍增加的难度训练模型随着序列长度的增加。因此,我们使用一个编码器网络减少训练节点维度54(对应于人类个体的数量提供的关节pretrained模型采用数据集)。在测试过程中,对于更大的目标,目标的轮廓分割方法首先提取使用快速实例,然后行人姿势是通过聚类,最后输入运动趋势预测的基础构成预测模型。速度估计部分,网络结构由一个阈值循环单元300隐式节点。培训执行基于行人目标运动速度从非常贴切的挑战中提取公共数据集,优化RMSprop方法与动力。
GRU-based速度估计模型评估以来,在整个跟踪算法的应用,GRU-based速度估计模型在现场只用于小目标。在烧蚀实验,验证该方法GRU-based速度估计模型扩展到所有目标领域的观点。实验结果如图所示8使用相同的指标,绩效评估作为在前面的小节。从表中可以看出,GRU-based速度估计模型,虽然更广泛基础的态度估计模型为目标情况下,整体效益较低,显示只在IDF指标明显改善,而莫塔和MT指标几乎不变。毫升指数,丢失目标的数量会增加。原因是GRU-based速度估计模型不使用外观特性作为一个主管,但只有学习目标的连续帧的边界位置,然后预测位置后失踪的多个帧。目标领域的观点更有可能有类似的边界大小和不考虑外观特性相同的运动趋势。在这种情况下,速度估计模型无法确定目标出现在多个帧原始失去目标然后将它们均匀,导致新目标,应该是初始化被认为是失去了目标,导致失去了目标和更多错误的检测。如果较大,基本单位值将会变得越来越小,因此结果越来越准确。
整体效果差的原因是,初始数据的质量不是非常好。nonstrenuous下跳,胯部的高度信号变化更频繁,更少和脚的加速度和角速度变化急剧的即时着陆但长期的改变。跳跃状态,加速度和角速度信号的左脚惯性传感器收集,如图9。
加速度峰值的差异之间的奔跑和跳跃国家很小,但频率的差异很大;即。波长的差异很大。信号的波长是由计算两座山峰之间的距离对跳跃状态进行分类。适合收集到的离散数据点的曲线,解决由数值拟合曲线的解析表达式,发现极端点通过导数的函数表达式,然后确定波峰或波谷。两者之间的时间差计算和比较阈值。如果时差大于阈值,它表明跳跃状态。首先,承运人、导航和世界坐标系统,以及它们之间的转换,介绍,然后不同的姿势表示方法进行了分析,主要是二次数量方法、方向余弦矩阵法,和欧拉角方法,以及它们之间的特性比较和转换。之后,通过分析人体下肢运动模型和模型的错误,多种方式的姿势配合的重点是,包括姿势适合基于转发运动学,姿势适合基于逆运动学,姿势基于积分位移拟合,和基于卡尔曼滤波的免费配件与正向和逆向运动学算法。最后,基于有限状态机(FSM)——姿势拟合方法用于实时切换不同的姿势在不同运动状态下,和姿势拟合方法的有效性和可行性进行了实验验证。
4所示。结论
本文基于预测机制的特征匹配跟踪方法是人类提出了解决多目标跟踪问题。首先,人体位置和区域匹配根据提出的基于阈值的检测算法。重叠面积比率是用来确定跟踪匹配成功或失败。人类无法匹配的运动目标跟踪再次由人类匹配。解决人类问题的目标跟踪失败由于阻塞或错过的检测,本文结合了运动矢量和卡尔曼滤波和预测机制,预测和匹配人类由于错过了位置信息检测和执行跟踪计算根据人类的匹配状态。我们把重要的地图当前帧的前一帧先验来指导选择路径的搜索。选择性的途径,我们计算亮度,颜色,运动振幅和运动方向的特性来准确估计的目标。最后,一个贝叶斯模型用于整合全球信息与当地的潜在功能之前,贝叶斯模型,我们距离进一步增加检波器,它可以有效地抑制背景。最后,我们比较算法在三个广泛使用的视频显著目标检测数据和证明,我们的算法可以实现视频显著目标检测任务完全和准确,健壮的各种更复杂的场景。;这种方法集成到多目标跟踪算法提出了目标识别精度指标描述长期跟踪性能和处理阻塞的能力提高了2.5%和3%,分别和目标识别交易所指标降低21.4%和15.9%,分别有229%和400%的提高操作速度,分别,没有受到影响。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。