视频监控应用程序的灵活的人类行为分析框架

文摘

我们研究一个灵活的框架为人类运动从监控视频的语义分析。成功的轨迹估计和人体建模促进语义分析视频序列的人类活动。尽管人类运动广泛调查,我们扩展这类研究在三个方面。通过添加第二个摄像头,不仅更可靠的行为分析是可能的,但它也可以映射到一个3 d场景的事件设置,以方便进一步的语义分析。第二个贡献是引入3 d重建方案场景的理解。第三,我们执行一个快速方案来检测不同的身体部位和生成装配骨架模型,不使用显式的假设直立体位。扩展的多视图融合提高15% - -30%的基于事件的语义分析。我们建议的框架证明其有效性,达到接近实时的性能(13 - 15帧/秒和6 - 8帧/秒)为单眼和两个视图视频序列。

1。介绍

全球视觉监测人类行为分析研究作为一个活跃的研究课题1]。为了自动监测接受一个大社区,它需要一个足够高的准确性和计算复杂性应该启用实时性能。在视频监控应用程序,即使人的运动,这是不足以描述人的姿势。人的姿势可以提供重要的线索来理解他们的活动。因此,准确检测和识别各种人类的姿势都贡献到现场了解。系统的准确性受单个摄像机的使用,在复杂的情况和几个人在同一场景进行操作。通常,人们的姿势被挡住,这样的行为不能实现高精度。在本文中,我们为提高分析精度,利用第二个相机的使用和将事件映射到一个3 d场景模型,使行为在3 d域分析。现在让我们讨论文学的相关工作。

1.1。相关工作

大多数监测系统通过轨迹的研究集中在理解事件和立场的人使用先天的关于现场的知识。Pfinder [2)系统来描述一个人在一个室内环境中移动。它跟踪单个nonoccluded人在复杂的场景。VSAM [3)系统可以监视活动在不同的场景中,使用多个连接作为一个网络摄像头。它可以探测和跟踪多个人员和车辆在凌乱的场景和管理他们的活动在很长一段时间。实时视觉监视系统W4 [4)员工身体形状分析和跟踪技术相结合,和模型不同表象的一个人。这种单机系统检测和跟踪的人群和监控他们的行为,甚至在部分遮挡的存在和在户外环境。然而,上述系统普遍遭受这个问题,他们缺乏可靠的连续观测的位移。上述系统的监控性能主要依赖于检测轨迹的关注对象。此外,结果在某些情况下事件分析是不够的。的局部属性检测人失踪,发达系统缺乏语义识别动态人类活动的结果。在本文中,我们探索的结合使用轨迹、姿态识别、骨架装配和3 d场景重建为了提高语义分析人类的行为。此外,我们运用以上技术双向摄像头改善事件识别的准确性。

1.2。三维重建

场景三维重建是一个有用的工具在semantic-event分析中,通常利用在多媒体应用5]。准确的在一个虚拟空间和现实的重建可以显著促进现场了解,像犯罪证据收集和战术分析。因此,有趣的是扩展scene-reconstruction功能先进的监视应用程序,比如家庭护理监测和robbery-detection监测。三维场景重建可以进行可视化现场进行进一步分析。3 d重建实际上是一个映射的2 d图像数据到一个3 d现实世界的模型。从图像映射到现实世界后被执行时,我们可以估计的位置和计算实际速度的人参与现场的视频。此外,现场可以通过逼真的3 d模型重建的高级建模软件改善现实。上面的后处理步骤扩展框架有更好的视觉呈现。在抢劫银行检测的应用,例如,这个扩展在犯罪现场分析处理起着有益的作用,数据检索,收集证据。

映射的原理基本上是一个单应性方程描述了2 d点位置的转换成3 d位置。为了这个目的,我们的目标是在发现一组参考点,可以可靠地检测到。使用这些参考点作为多参数输入单应性估计。如果足够的参考点,可以计算单应性的参数。校正之后,每一个输入图像都可以映射到三维空间使用计算单应性。如果我们扩展系统的双摄像头设置,也推出的每一个摄像头需要校准如上所述。两个相机视图映射到相同的三维空间。如果一个人被挡住在一个相机视图中,他的地位仍然可以主要由第二个摄像头,这样可以进行可靠的三维场景分析。

1.3。研究目标

解决具有挑战性的问题,准确地分析人体运动和总结事件语义水平很高,我们在三个方面做出贡献。

(我)提出了一个灵活的框架,使人类运动分析层次。它可以用于监视应用程序与使用单个或多个相机四层分析结果。(2)介绍了3 d重建方案场景理解基于自动相机校准。人的位置和姿态可视化在3 d空间上下文知识集成。更具体地说,2 d-3d映射为规范化运动提供了一个平台配置(即。、位置和速度)和场景可视化/分析在现实世界中。(3)快速方案提出了人类运动检测身体的不同部位。更具体地说,对于每一个个体的人,身体比例、轮廓和外观,是集成到一个混合模型来检测身体部位。的传统假设直立体位不是必需的。

在续集中,我们首先提出一个系统的概述部分2然后详细描述每个级别的技术部分3。实验结果在部分提供监控录像4。最后,部分5得出的结论。

2。我们建议的系统框架

我们的工作目标是在对象/现场分析和变形对象的行为建模。框架捕捉人类运动分析和演示了其姿态/活动,推断语义事件利用交互建模和执行三维场景重建。前面的分析只可能在现场各级及其对象分析(例如,背景建模、移动物体、事件识别、等等)。我们的多层次事件分析系统的框图如图1。多级一词指的是四个不同概念层次:基于像素级别,对象的水平(包括轨迹估计,姿态分类,和骨架配件),基于事件的级别,和可视化水平。

(我)基于像素级别。背景建模和实现目标检测。视频中的每个图像覆盖单个人体分割提取“blob”代表前景对象。这些发现blob精制后产生人类的轮廓。(2)基于对象的水平。它执行轨迹估计、姿态分类和骨架。我们第一次跟踪每一个移动的人。之后,一个shape-based分析不同姿势类型进行分类。最后,每个对象的骨架模型自适应地产生。(3)基于事件的级别。互动关系进行建模来推断一个多人的事件。语义分析是因此负责人类活动的认可。(iv)可视化水平。校准的目的2 d-3d映射,3 d场景重建进行可视化现场进行进一步分析。对家用这个级别可以是简单的,但先进的专业使用(例如,在犯罪分析3 d)。

框架的目的是,它应该足够强大、健壮的促进几个不同的监视应用程序。为了实现这个目标,语义层面上分析应该足够高的性能。续集,家庭护理监测和安全监控检测一次抢劫是我们的关键应用程序。

3所示。人类行为分析的技术

3.1。轨迹估计

在基于像素级,人类的轮廓检测基于背景减法。这种一般方法可以用来部分移动对象在场景中,假设摄像机是固定和照明条件是固定的。改善blob分割,shadow-removing方法(6是用于我们的计划。虚假分割造成的阴影可以最小化通过计算不同颜色空间(RGB)强度的变化不敏感。

在基于对象的层面上,人跟踪(轨迹估计)和姿态分类。在trajectory-estimation步骤中,我们采用广泛接受了均值漂移算法跟踪人,基于个人的外观模型表示为一个颜色直方图。当应用均值漂移跟踪器,我们提取每一个新人进入现场和计算相应的直方图模型在图像域。在后续帧跟踪那个人,我们将person对象位置的直方图是最接近前一帧。后来,从我们以前的工作7),我们采用了双指数平滑法(DES)操作符来追踪移动的人。这个过滤器运行约135倍的受欢迎卡尔曼预测跟踪算法基于过滤器,用等效预测性能。当轨迹,我们可以估计的位置人员参与现场的视频。因此,我们可以进行精神分析每一帧的位置的人。

基于轨迹估计的结果,是采取行动的人分为三种类型:跑步、散步,和地位。在站的情况下,移动人的速度低于预定义的阈值。只有在这种情况下,姿势进行分类,这将在下一小节中得到解决。

3.2。个人与CHMM姿势识别

我们采用一个简单但有效的形状描述符来分析人类的轮廓进行时序建模方案之前连续隐马尔可夫模型(CHMM)认识到姿势类型。

个人的姿势对人类活动识别分类是重要的。首先,我们采用shape-based描述符来分析人类的轮廓。我们的姿势分类器利用两个特性常用对象分类:区域和边界框的比例每个检测到的对象。这种方法是简单而有效的,它很大程度上有助于跟踪并避免训练数据的复杂过程。受到排挤的人对象和图像噪声可以有效地移除。不同的人产生的扰动山庄也被认为是。我们执行训练步骤关于不同高度在现场应用了一种自适应阈值。最后,我们可以获得观察到二维轮廓的特征向量。

由于噪音分割错误,单帧识别是不够准确的,当我们需要一般运动分类。所需的时间一致性是一个好的姿势识别。因此,我们采用HMM作为姿态分类器,因为它已经被证明是一种有效的序列数据处理的工具。我们使用连续隐马尔可夫模型(CHMM)左右拓扑(8]。假设一个CHMM已经州和输出符号。它完全由三联体指定的。让时间步的状态是;然后状态转移矩阵可以定义为

的状态的输出概率矩阵B被定义为

初始状态分布向量被指定为

我们指定一个CHMM模型每一个预定义的人体姿势类型上观测到的。基于Baum-Welch每个CHMM训练算法(8]。学习过程可以计算使用训练数据模型的所有参数。换句话说,三联体为每个模型获得。每个姿势的模型后,我们可以继续实现在线测试。给定一个观察序列,我们可以计算,这是观察序列的概率考虑到模型与。的概率可以通过使用向前算法8]。每个模型的输出概率计算后,模型以最大概率是选为识别结果。因此,我们可以认识到姿势类作为一个由最大可能的模型中类型,这是规定

在我们调查情况(= 20,= 4),每一个姿势终于分为下列类型之一:指出,蹲,提高手开销,和说谎。

3.3。骨架安装

骨架安装的目的是可视化的行为的人。为此,我们需要在每一帧检测各个身体部位。因为这起源于早期的科学研究,我们首先简要介绍下面这个工作的概述。

准确检测和有效跟踪各种身体部位发挥重要作用在展示人类行为。现有的快速技术可以分为两类:外貌和silhouette-based方法。外貌的方法(9,10)利用强度或颜色配置在整个身体推断出特定的身体部位。他们可以简化评估和训练数据的集合。然而,他们明显差异的影响身体姿势和衣服。为silhouette-based方法(11- - - - - -13),不同的身体部位位于外部采用点沿着轮廓检测,或内部点估计的形状分析。每个部位的几何配置建模之前执行整个人体的姿态估计。然而,身体部位的高度准确的检测仍然是一个困难的问题,由于分割的有效性。人类四肢常常不准确检测由于遮挡或阻塞其他对象/人。总结,轮廓和外貌的技术不能提供足够高的整体身体部分的检测精度。同时,直立的姿势的假设通常是必需的。在我们的工作中,我们不需要假设一个直立的姿势。我们必须设计一种新的算法,因为在所需的应用程序中,人们并不总是在一个直立的位置。在下面,我们总结报道算法,首先在14]。

我们开发一个快速方案检测不同的身体部位在人类运动。更具体地说,对于每一个个体的人,身体比例、轮廓和外观,是集成到一个混合模型来检测身体部位。的传统假设直立体位不是必需的。skeleton-fitting处理步骤模型的人体运动骨架模型。详细过程见图2。在单人运动的例子中,输入框(图2(一个))是第一个受阴影去除,然后分段生产前景blob(图2 (b))。后来,实现凸包整个blob(图2 (c))。占主导地位的点沿着凸包是强大的线索,单人的身体部分的检测。他们推断可能的身体部分的结束点的位置,如头,手和脚。这里我们使用一个content-aware计划估计中心点(图2 (d)),这从根本上是用于确定人类骨骼模型的位置。同时,主要分选择沿着凸包和精定位头,手和脚(图2 (e))。最后,不同的身体部分是连接到一个预定义的骨架模型包括一个中心点,骨架在哪里适应实际情况的人在现场(图2 (f))。

(一)

(b)

(c)

(d)

(e)

(f)

3.4。交互建模

在多人事件,事件分析是通过参与现场理解人们之间的交互作用。两人互动的时间限制是由两个事件的因果关系两个人的姿势变化一致。事件很少瞬时和通常显著依赖于子事件的时间顺序和关系(个人的姿势)。我们引入适当的空间和时间限制为每个不同的二人作为领域知识交互模式。特定空间/时间约束的满足导致的语义识别交互。因此,文件识别特征是特定领域知识的集成,而对象级识别更密切相关的纯运动人体。

为了表示时间关系的子事件,我们应用基于区间时序逻辑代数,是(15]。七个时态关系集的表示之后,满足、期间完成,重叠,相同的情况下,就开始了 。这些关键词可以链接不同sub-events单项后分析。通过这种方式,现场变成了链的sub-events前面提到的关键词。来描述场景的语义,我们运用启发式规则。例如,在一个抢劫银行的应用检测、启发式规则是基于专家的知识。在我们的调查中抢劫检测(14),姿势“指向”是一个关键的参考姿势。它可以极大地推断抢劫事件。其他姿势也估计基于特定时态约束提高识别精度。假设行动已经一个人贴上“指向”,检测到B“提高双手”,C是“蹲”在sub-event从人,实际上我们可以推断抢劫案发生。在执行交互建模之后,我们能够计算异常的程度。如果学位价值高于一个预定义的阈值,监测系统将触发报警信号(例如,当检测到的抢劫事件发生)。使用这样一个指标的优势是一个异常情况可以提高程度值没有信号警报提醒保安人员。度值可以作为预防措施,而不是实际的抢劫发生时报警。

3.5。三维场景重建

基于自动或手动相机标定,我们可以实现2 d-3d映射。换句话说,图像内容可以在3 d世界域描述。此外,真正的场景是在虚拟空间重建。这个3 d场景重建犯罪分析是有用的,它导致了犯罪证据的收集。

相机校正的目的是提供一个几何变换,将点在图像域映射到实际的坐标。现场重建的一个例子是显示在图3。在我们的系统中,我们基于人的轨迹分析人类行为和/或速度在地上,这样人类的高度信息不是必需的。因为地上,显示的图像平面,它们之间的映射是一个单应性,可以写成变换矩阵,把一个点在图像坐标到现实世界的坐标与,相当于

的变换矩阵可以计算出从四个点的位置是已知的在现实世界和形象。在我们以前的工作(7),我们开发了一个自动算法建立的单应性映射分析网球视频,法院线条和交互点识别的图像。这些线条和点线和相关点在一个标准网球场。因此,描述的单应性映射(5)后可以建立通讯。这种方法采用了在我们的监视系统。基本思想是将手动把四个白线形成一个矩形(见图3)。我们已经测量了每一行的长度在现实世界中,从而定义其坐标在现实世界的领域。在我们以前的工作之后,提出的算法可以应用同形映射的计算参数。完整的算法包括四个步骤,white-pixel检测、线检测,找到交集点和计算参数。更多细节,我们将早期出版(7]。

后执行从图像映射到现实世界中,我们可以估计的位置和计算实际速度的人参与现场的视频。走路和站立的标签就可以分配给一个人。此外,现场可以重建3 d空间。上面的后处理步骤扩展我们的框架和更好的视觉呈现和场景的理解。例如,每一个运动的人的3 d位置推断他的实际行为在家庭护理监测中的应用。在抢劫银行应用程序检测,这个扩展处理是有用的在犯罪现场分析,数据检索和收集证据。

4所示。实验结果

我们训练有素的框架使用10视频序列的各种单/多人运动(15帧/ s)在家庭护理和robbery-event场景。然后我们使用15相似的序列进行测试。框架的基础上,我们获得了人检测准确率98%,检出率95%人跟踪(标准是,至少70%的人体是包含在检测窗口),检出率为82%,姿态分类(robbery-event场景)。

4.1。单机实验:家庭护理监测

基于轨迹估计,我们可以计算的速度和估计每个人的位置。我们进行了实验在我们的第一个案例研究在家庭护理监测。实验视频捕获在一个公寓6人(不同性别、身高、年龄和衣服)。视频序列的长度超过2小时。公寓的布局是显示在图4。根据检测到的位置和速度,人类日常活动分为8种类型(在厨房,坐在餐桌上,坐在沙发上,弹钢琴,阳台,卧室,浴室,和进入/离开门)。活动识别的分类结果(涉及检测序列和总测试序列号码,零意味着没有检测到相应的序列)在表中做了总结1。在我们的实验中,身体位置的地面真理是手动。最大可容忍的错误评估将20像素。骨架模型进一步重建个人身上。两个例子的建模表示由图描绘5。


	在厨房	坐在	坐在沙发上	弹钢琴	到阳台上	在卧室	在浴室	进入/离开
	在厨房	餐桌	坐在沙发上	弹钢琴	到阳台上	在卧室	在浴室	通过门

在厨房	14/16	2/16	0	0	0	0	0	0
坐在餐桌上	0	8/8	0	0	0	0	0	0
坐在沙发上	0	0	10/10	0	0	0	0	0
弹钢琴	0	1/8	0	7/8	0	0	0	0
到阳台上	0	0	0	0	10/10	0	0	0
在卧室	0	0	0	0	2/12	10/12	0	0
在浴室	0	1/7	0	0	0	0	6/7	0
进入/离开的门	0	0	0	0	0	0	0	5/5

(一)

(b)

4.2。双摄像头实验:也推出Robbery-Event检测

进一步打击阻塞的问题,采用多个摄像机从不同角度获取同一场景。我们进行了一项双摄像头的实验也推出第二robbery-event检测案例研究。我们分析两个相机视图和结合这两种观点都到一个程度的语义异常。目前,一个或逻辑操作符应用于链接两个视点的abnormal-event检测。两个不同的事件类型(正常和异常)基于领域知识的定义。每个相机的检测精度和组合图所示6。它证明了双摄像头方案有效地改善了也推出基于事件的语义分析。图7显示了一个检测模拟银行抢劫事件的例子。每个人都是可视化的位置轨迹估计。姿势估计和语义事件突出显示从两个不同的观点(交互建模后的数字7(一)和7 (b))。摄像机标定和执行2 d-3d映射可视化。异常的程度也是计算并显示在图7 (c)。虽然姿态指向并不承认在一个相机(见图7 (b)),这是正确认识其他相机(见图7(一))。抢劫事件之后成功地检测到。

(一)

(b)

(c)

4.3。系统性能

我们通过视频序列在系统性能进行了测试决议(VGA), P-IV 3 ghz电脑。结果表明,系统满足实时要求,13 - 15帧/秒和6 - 8帧/秒获得了单眼和两个视图的视频序列,分别。图8介绍了每个模块的平均周期消费比例。我们认为相机标定是一个离线过程发生。可以注意到,前景/背景分割和跟踪模块消耗大部分计算周期。

5。结论

我们提出了一个分层框架,使多级人体运动分析,在像素层、对象、事件和可视化水平。框架捕捉人类的运动,把它的姿势,身体部分检测后生成装配骨架模型,推断语义事件利用交互建模和执行三维场景重建。我们在单机应用这个框架设置和双摄像头的设置也推出。在最后一种情况下,有可能受益于额外的视图的阻塞,它也可能增加犯罪分析。这个扩展的多视图融合提高15% - -30%的基于事件的语义分析。

框架是评估两个应用程序,一个家庭护理监测和robbery-detection案件。实际结果表明,我们的框架可用于各种监测情况。使用单个或多个摄像机的选择基本上是独立监视应用程序的类型和更受遮挡的质量要求或发生。性能评价表明,该框架是效率,达到快速性能(13 - 15帧/秒和6 - 8帧/秒)为单眼和两个视图视频序列。因此,它可用于嵌入式系统的实现。

我们正在改善的有效建模的多人互动,为了获得一个概率推理引擎。遮挡问题尚未彻底解决目前的阶段。因此我们打算集成一个有效occlusion-handling模块,在[报道16)提高运动分析的鲁棒性。

引用

w·胡,t . Tan l . Wang和美国梅班克”视觉监视对象的运动和行为调查,“IEEE系统,人与控制论部分C,34卷,不。3、334 - 352年,2004页。视图:出版商的网站|谷歌学术搜索
c·r·雷恩a . Azarbayejani t·达雷尔和a . p . Pentland”Pfinder:实时跟踪人体。”IEEE模式分析与机器智能,19卷,第785 - 780页,1997年。视图:谷歌学术搜索
r·t·柯林斯A·j·利普顿·t·金et al .,“视频监控和监控的系统,”科技,众议员CMU-RI-TR-00-12走走,匹兹堡,宾夕法尼亚州,美国,2000年。视图:谷歌学术搜索
即Haritaoglu d·哈伍德,l·s·戴维斯“W4:实时监测的人民和他们的活动,“IEEE模式分析与机器智能,22卷,不。8,809 - 830年,2000页。视图:出版商的网站|谷歌学术搜索
j·汉、d .截至和p h . n . de,“体育广播视频增强的实时增强现实系统,”诉讼的ACM国际多媒体会议和展览奥格斯堡,页337 - 340年,德国,2007年。视图:出版商的网站|谷歌学术搜索
z和f . van der Heijden”,有效的自适应每个图像像素密度估计的任务背景减法,”模式识别的字母,27卷,不。7,773 - 780年,2006页。视图:出版商的网站|谷歌学术搜索
j·汉,d .截至,p . h . n . de, w .老挝,“实时视频内容分析工具对消费者媒体存储系统”IEEE消费类电子产品,52卷,不。3、870 - 878年,2006页。视图:出版商的网站|谷歌学术搜索
l·r·拉宾”教程隐马尔科夫模型和选择在语音识别中的应用,”IEEE学报》,卷77,不。2、257 - 286年,1989页。视图:出版商的网站|谷歌学术搜索
p .中提琴,m·j·琼斯,d .雪,“检测行人使用的运动模式和外观,”《IEEE计算机视觉国际会议,2卷,第741 - 734页,2003年。视图:谷歌学术搜索
美国公园和j·k·Aggarwal”,同时跟踪多个身体部分互动的人,”计算机视觉和图像理解,卷102,不。1、21、2006页。视图:出版商的网站|谷歌学术搜索
h . Fujiyoshi a·j·利普顿,t·金“实时图像骨架化的人体运动分析,”IEICE交易信息和系统,英镑,卷。共有财产占有一席之地。1,第120 - 113页,2004。视图:谷歌学术搜索
c c。Yu J.-N。黄,G.-F。Ho和学术界。谢长廷,“自动人体跟踪,从单目视频序列建模,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 07),1卷,页I917-I920,檀香山,夏威夷,美国,2007年。视图:出版商的网站|谷歌学术搜索
Bui, p . Peursum h·h·马纳尔,和g .西方“健壮的人类行为的识别和分割使用摘要和失踪的观察,“EURASIP应用信号处理》杂志上,卷2005,不。13日,2110 - 2126年,2005页。视图:出版商的网站|谷歌学术搜索
w .老挝、j·汉和p h . n . de,“快速检测和建模的人体部分单眼视频,”的运动和变形的物体卷,5098在计算机科学的课堂讲稿施普林格,页380 - 389年,柏林,德国,2008年。视图:谷歌学术搜索
j·f·艾伦和g·弗格森“区间时序逻辑行为和事件,”《逻辑计算4卷,第579 - 531页,1994年。视图:谷歌学术搜索
j .汉·m·冯和p h . n . de,“实时视频监控系统与人类遮挡处理使用非线性回归,”《IEEE国际会议多媒体和世博会(ICME ' 08),页305 - 308,汉诺威,德国,2008年。视图:出版商的网站|谷歌学术搜索

国际期刊的数字多媒体广播

视频分析、抽象和检索:技术和应用程序

文摘

1。介绍

1.1。相关工作

1.2。三维重建

1.3。研究目标

2。我们建议的系统框架

3所示。人类行为分析的技术

3.1。轨迹估计

3.2。个人与CHMM姿势识别

3.3。骨架安装

3.4。交互建模

3.5。三维场景重建

4所示。实验结果

4.1。单机实验:家庭护理监测

4.2。双摄像头实验:也推出Robbery-Event检测

4.3。系统性能

5。结论

引用

版权

更多相关文章

相关文章