文摘
人识别视频内容的语义分析中起着重要的作用。本文提出一种新颖的方法来自动标签在视频序列捕获来自固定相机。而不是利用传统的人脸识别方法,我们处理人识别的任务由运动传感器信息融合平台,像智能手机一样,进行人体和提取相机视频。更具体地说,从相机中提取视频序列的运动特性与这些收集到的加速度计的智能手机。当检测到强相关,身份信息传播从相应的智能手机是用来识别手机使用者。测试该方法的可行性和有效性,进行了广泛的实验,取得了令人印象深刻的表现。
1。介绍
快速增长的存储设备、网络、大规模视频数据压缩技术,已经成为越来越多的普通用户。因此,它也成为一个具有挑战性的任务搜索和浏览的数据根据内容在大型视频数据集。一般来说,个人信息是其中最重要的语义线索当人们回顾视频内容。因此,人的识别是基于内容的视频摘要和检索的关键。
人鉴定的主要目的是将每个主题出现在视频剪辑与一个真正的人。然而,手动标签所有受试者出现在大规模视频档案是劳动密集型,耗时和昂贵。为了解决这一问题,自动人脸检测(1- - - - - -3和人脸识别(FR) [4- - - - - -7]介绍了。然而,传统的FR方法仍远未支持实用和可靠的自动识别,即使只有数量有限的人出现在录像中。这主要是由于这样的事实,只有外观信息(如颜色、形状和纹理)一个脸图像是用来确定一个主题的身份。具体来说,光照的变化,姿势,面部表情以及部分或全部脸遮挡所有能识别一个极其困难的任务。
该方法的主要贡献如下。首先,该方法提供了一种替代的方式对自动识别人的集成新的传感模型。这种集成扩展域视频内容的语义分析和将催化可穿戴设备的日益普及和并发进步个人传感技术和无处不在的计算。第二,方法是全自动没有任何需要建立一个预定义的模型或需要用户交互的过程中识别人。此外,任何认可的独立技术使得该方法更健壮的关于上面提到的问题,降低FR技术的效率和准确性。最后但并非最不重要,方法的简单性和计算效率可以插入实时系统。
2。相关工作
提高人的性能鉴定,上下文信息在最近的研究利用。作者在8)提出了一个框架,利用异构上下文信息包括服装、活动,人类的属性,步态,人们共存,面部特征来识别一个人一起在低质量的视频数据。然而,遭受的困难的多的人彼此类似服装颜色或行动。视角和subject-to-camera距离综合识别人视频的融合步态和脸9),只有当人们沿着直线路径的情况下有5个量化的角度。时间、空间和社会背景信息也采用与低水平特性分析注释在个人和家庭图片集(10- - - - - -14),只有静态图像处理。此外,在所有这些方法中,一个预定义的模式已经被训练识别过程和性能的质量和规模是有限的训练集。
与上述努力,我们提出一个新颖的方法来自动识别人视频使用人类的运动模式。我们认为,在视野(FOV)固定相机,人体的运动模式是独一无二的。在这种假设下,除了视觉分析,我们也分析人体的运动模式由传感器模块在智能手机。在本文中,我们使用智能手机配备硬件加速器进行人体加速度收集和传播信息和身份信息。通过分析之间的关系从两种不同类型的遥感提取运动特征,人的问题识别是妥善处理简单、准确。
本文的其余部分组织如下。部分3该方法的细节。节4、进行实验和结果进行了讨论。结论放在部分5
3所示。总体框架
该方法的流程图如图1。可以看到,人体的视觉特征是首先提取追踪人们在不同的视频帧。然后,光流估计潜在的人体和分段使用前面获得的身体功能。同时,加速度计测量从智能手机对人类的身体是传播和收集,与身份信息。运动特性计算光流和加速度测量在一个滑动窗口风格部分中描述3.3。当人们从视频序列中消失时,相关分析注释过程开始。方法的细节下面。
3.1。摄像头数据采集
首先,背景减法(BGS)广泛采用的移动物体检测在视频是利用我们的方法。英国地质调查局的主要思想是探测移动物体从当前帧和参考帧之间的区别,通常被称为“背景图像,”或“背景模型”(15]。在本节中,我们需要检测图像块对应于潜在人体移动摄像机视场。为此,一个算法的自适应高斯混合模型(16,17)是用来分割前景补丁。这个算法表示每个像素的高斯函数在运行时构建一个健壮的背景模型。
当人们进入相机视场、图像补丁对应潜在人体提取和跟踪描述符组成的补丁ID、颜色直方图和补丁质心算法1。此外,我们还包括第一个和最后一个出现的帧索引中的每个块描述符注释以便于人。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
的补丁来自英国,我们试着联系起来之前的描述符。从连续帧直方图相似性补丁是首先分析。通常图像补丁对应相同的主题更相似比不同的科目。颜色直方图的比较中使用的路径算法1定义在(1)。的范围是。更大的,类似的补丁和。然后从类似的描述符的集合,选择最近的一个跟踪补丁的水平运动中心: 在哪里直方图的垃圾箱吗。
为每一个补丁,我们采用光流法来估计运动模式(18)和垂直加速度的近似补丁加速度意味着要点,作为中定义 在哪里的二阶导数吗协调的要点对时间。要点的总数在补丁。
伪代码补丁的跟踪和运动估计算法中列出1。
3.2。加速度计测量值集合
在本节,我们描述使用可穿戴传感器加速度测量的程序集合。Android智能手机配备使用硬件加速计是利用传感平台。三分量加速度计读数,只有最大的绝对平均值分析在我们的实验中由于其最好的反映人体垂直运动的模式。三个不同的位置进行测试和比较来评估不同的手机位置对运动精度的影响集合。在每一个测试中,参与者随机执行一系列的活动包括站立、行走、跳跃而携带三个智能手机的身体,和两个手机放在胸前的口袋和夹克的口袋里,分别和一个附加到腰带,如图2。结果见图3定性表明,所有三种类型的位置可以正确地捕获次要的参与者接受垂直运动的特性差异。这个测试让手机附件的选择更加灵活和不引人注目的。
3.3。特征提取和识别
嘈杂的原始运动测量不同采样频率之前从不同传感器获得的资源不能直接比较。相反,标准差和能源(19,20.)用作运动特性进行比较后噪声抑制和数据清洗。能量被定义为平方之和离散的数据样本和FFT组件大小除以样本计数正常化。这些特性计算的滑动窗口长度与连续重叠之间的窗口。特征提取在滑动窗口(50%的重叠已经证明了它的成功21]: 找出是否代表一个人体,进行相关分析。事实上,运动特征提取视频帧被认为是积极的线性与加速度计测量相同的主题。我们采用相关系数来可靠地测量强度的线性关系,定义在(4),和运动特性进行比较,协方差,和的标准偏差和。范围从−1 - 1在内地,0表示没有线性关系,+ 1表示一个完美的正的线性关系,−1表示一个完美的负线性关系。更大的越多,相关的和。在我们的例子中,运动的特性与每一个从智能手机在同一时间。身份信息的智能手机对应于最大的正相关系数用于标识。
4所示。实验和讨论
在本节中,我们在各种情况下进行详细的实验优化算法1和评估拟议的人识别算法。我们用数码相机和两个数据收集的安卓智能手机。创建一个简单的GUI应用程序启动和停止对手机数据收集。加速度测量记录和保存在文本文件在电话中SD卡,后来通过USB接口访问。视频记录mp4格式的文件的分辨率15帧每秒。视频帧的时间戳和加速度计读数前同步实验。算法1实现基于OpenCV库和测试3.4 GHz Intel平台上运行Ubuntu 13.04。我们招聘两个参与者,标记为A和B,分别参加我们的实验,并将智能手机在夹克口袋里。我们选择四种不同的场景进行实验,包括户外近场,户外远场,室内室内近场、远场,如图8。在近场情况下,学科范围内移动大约五米远的地方,相机。人体的轮廓高度不小于一半的身高和人脸图像可以明显区分。在远场情况下,对象移动大约二十米的地方详细的人体的视觉特征主要是失去了身高和身体形象不超过30像素。在每个场景中,我们四次重复了这个实验,每个持续五分钟左右。在所有我们收集16个视频剪辑和加速度测量32文本文件。
4.1。跟踪优化
补丁跟踪是一个重要的一步从相机视频运动估计,直接影响到后续的人识别的准确性和鲁棒性。上市的算法1,补丁跟踪的目的是估计运动测量的每个补丁出现在视频帧。在理想的情况下,主题是不断跟踪摄像机视频中只有一个描述符在整个实验中,我们可以提取一个序列的加速度测量接近从智能手机收集的时间,而在最坏的情况下,我们必须为每一帧中所有补丁和创造新的描述符的数量描述符用于附加一个主题的帧的外表。我们提出一个度量(5)来衡量算法的性能1。度规被定义为一个比率的视频和数字的描述符用于跟踪研究对象。的范围是。更大的更好的跟踪性能。此外,我们还提供一个度量评估跟踪精度,所示(6)。准确描述符意味着一个描述符跟踪只有一个主题在其一生。更大的更精确的算法1:
算法中所描绘的一样1三个参数,,,,影响和。显示最低的一个补丁,可能代表了一个话题。斑块面积不足是过滤掉。一般来说,在一个特定的应用程序场景中,的价值可以算出经验。在我们的实验中我们将它设置为150,效果很好。指定一个最小直方图相似性当前的补丁和潜在的描述符。每个活动描述符满足这个需求测试的水平距离。规定距离阈值排除不合适替代描述符。最近的描述符满足这个阈值选择跟踪如果退出。否则我们创建一个新的描述符。此外,许多干扰因素在该方案中包括照明条件差,服装颜色的背景相似,人体的影子,不可预测的运动模式的快速转变和穿越补丁跟踪过程也会造成负面影响。排除这些因素的影响并优化补丁跟踪,从每个四个场景,我们选择一个代表视频和运行算法1在不同的视频和。结果和说明在图4。从视频帧中提取标记在图列出补丁8。
(一)户外近场
(b)室内近场
(c)户外远场
(d)室内远场
由于不同的运动模式的受试者,可能会有所不同在不同场景的视频剪辑。然而,从图4我们可以得出结论,急剧下降的时候在近场情况下在远场情况下。这主要是由于背景减法的声音。直方图相似性的补丁同一主题的两个连续帧是在这种情况下近场约0.8。与相对较小的前景补丁,在远场情况下的负面影响更加严重和相似性阈值降低至0.2。补丁相同的主题与不同的描述符的直方图相似性超出这些阈值。当,最坏的情况下发生。我们需要创建新的补丁在每一帧描述符之间的水平距离补丁同一主题的两个连续帧是超出这个极限。作为的增加,增加和收敛。
在近场情况下,算法1与任何达到100%的准确率和,而在远场情况下,不执行如此完美和。在实验中,我们发现这大多发生在当受试者被关闭的情况下和一个主题的补丁迷失在以下框架。
平衡和,我们设置,运行算法116个视频剪辑,并收集运动测量人识别在接下来的实验。获取描述符的数据见图7。
4.2。人识别
当从视频运动测量收集完成,我们获得一块组描述符和每个描述符associates加速度数据的时间序列的一个潜在的主题。一些描述符在一组带有短系列的运动数据通常小于10帧。这可能是由于学科相互交叉,假的前景从闪光,快把人体,移动物体在摄像机视场的边缘,等等。这些不足和嘈杂的数据不能反映实际的运动模式的潜在主题和过滤掉。如图7,有相对更嘈杂的描述符在远场情况下,尤其是在户外远场情况近50%的描述符是排除在每个视频。
然后我们计算每个描述符的序列的运动特性和比较功能序列和每一个从智能手机获得在同一时间。滑动窗口在运动特性计算密切相关学科和应用场景。应该大到足以捕捉主题的独特的模式运动,但不要太大,混淆的。在我们的实验中我们窗口大小设置为1秒经验。运动特性从一个例子补丁描述符和那些来自这两个智能手机同期数据所示5和6,我们可以得出这样的结论:补丁在它的生命周期中代表主题B。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(我)
(j)
(k)
(左)
(m)
(n)
(o)
(p)
准确识别的总数在每个视频上市在图块描述符7。该方法达到相对更好的性能在近场环境中,我们可以获取更精确的和健壮的人体运动的测量。最坏的情况下发生在户外远场情况。在这种情况下,有少光流在每一个补丁和每个描述符的数据帧。我们节省补丁之间的映射描述符和他们估计身份并重新运行算法1用相同的参数配置。获得补丁身份标签是修补后的视频ID。如图8,该方法可以保持相对可接受的性能即使在不利的情况。
5。结论
在本文中,我们提出一个新颖的方法,自动识别人。身体运动特性的方法创新利用相关性从两个不同的遥感数据源,即加速度计和相机。实验结果验证了该方法的性能和准确性。然而,该方法在以下方面是有限的。首先,用户必须注册并携带智能手机为了被观察到摄像机视场。第二,我们假设手机与人体保持相对静止在实验期间,但在实践中,人们倾向于取出,检查自己的手机的时候。加速收集的数据在这些场合会损伤识别精度。此外,该方法在很大程度上依赖于背景减法补丁的过程跟踪。因此更实用和可靠的运动数据收集策略是必要的。第三,存档视频对象运动没有可用的上下文信息不能确定使用该方法。 Therefore, this method only works at the time of video capture. In the future, we plan to overcome the aforementioned constraints and extend the application of the proposed method into more complex environments.
利益冲突
作者宣称没有利益冲突有关的出版。
承认
这项工作是支持部分由中国国家自然科学基金(批准号61202436,批准号61271041,批准号61300179)。