文摘
多人活动识别是一个重要分支,以及人类行为识别的一项富有挑战性的课题研究。本文采用混合学习模式多个人之间的时空关系和咬合关系。最初,本文建立一个活跃的多人互动关系估计框架模型来捕捉人与人之间的时空关系。这个模型包含交互关系估计框架与多人关系网络。在这地面上,它会自动从人机交互数据集在一个端到端的方式和执行推理与标准矩阵运算。其次,本文提出了一种自适应闭塞状态行为识别方法源于语义知识模型来解决阻塞和遮挡的关注人类行为识别。然后,佩特里网是用来识别多人交互行为。这个模型已通过大量实验电视交互数据集,数据集视频博客,艾娃数据集,和MLB-YouTube数据集,实验结果证明了该模型的识别性能优越比其他可用的模型。总结和前景的评估框架的交互关系和阻塞语义知识的关系。本文实验结果表明,该方法可以为多人互动活动捕获的区别的关系信息识别,进一步验证混合学习模式的效率。
1。介绍
人工交互活动涉及到社会行为和互动行为。前者指的是个人行为,但需要其他个体的行为考虑在内;后者是指组织行为的共同目标。识别不同的行为,因此,集体智慧,旨在共同原因多个人的行为。在这地面上,本文提出了一种方法来识别组织的行为让我们定位和叙述每个个体的互动和集体行动的上下文。上述社会环境的看法可以应用于运动分析,社会行为识别和监控。
最近的多人交互行为识别方法采用顺序的方法。不同于行动识别(1- - - - - -8],它专注于识别的个人行动,多个行为识别落定下来找出多人交互行为在公共区域的情况下,可以应用到实际应用,如视觉监控,智能机器人,和体育事件分析。多个活动涉及不止一个人,几乎可以确定如果只考虑一个人的行动。例如,操作站(由一个主题)实际上是兼容多人交互行为,如图1- - - - - -4。因此,重要的是要考虑开销相关的交互组多人互动活动模型。
追溯到十年前,互动活动识别造型开始与发展中每个类集体活动的交互模型矩阵(9)和工作系统地组织骨架特征与定向增强特性在处理交互行为识别和实时检测任务(10]。安安et al。(11)提出了视觉特性学习纳入多任务学习框架,与Frobenius-norm正则化项和稀疏约束项,联合任务建模和relatedness-induced功能学习。朱et al。12]提出了一种光子交换光学连接内存系统架构的深度学习模型。然而,这些描述符不能告诉确切的一群人之间的关系。徐et al。13]提出了新颖的小组活动识别技术,提出了基于多通道与时空关系表示关注。金等。14)提出一套预测基于空间特征交互行为关系,时间、过渡和环境上下文。刘等人。15)提出了一种深完全连接学习人与人之间的互动关系模型。陆et al。16)提出了一个图关注交互模型(GAIM)嵌入式图形注意块(唠叨)显式地、自适应地推断出不平衡的互动关系个人和集团的水平。
在这些以往的研究,特点是首先提取对于每一个人,然后,每一对之间的交互功能是显式地建模。大多数现有模型的主要限制在于人类的分离检测和建模活动。现有的模型更重群体行为或集体行为建模。至于人类探测,他们直接采用边界框由第三方行人检测器输出。不幸的是,这种设计完全把探测器和集体活动识别器和放弃固有的这两个模块之间的合作。离群值的执行语义无关的个人活动的主要组织或失踪的积极参与者信息不利于集体活动识别(分别并被错误地归类为交叉和行走),从而影响小组活动识别。之间缺乏协作带来的检测器和识别器单独学习/处理在以前的方法也会导致沉重的计算推理时的集体活动。这是因为提出通过神经网络骨干,旨在传播基本特征提取是检测和执行两次活动识别任务,分别。
我们也注意到,当前的趋势(17- - - - - -21应对这一问题的多人互动活动的识别是开发一个模型或同时与日益复杂的框架,共同学习更多的子任务(例如,检测、跟踪、姿势估计,外观造型,和交互)。
虽然方法提到的似乎是合理的,它有一些局限性。首先,最先进的检测方法不涉及联合优化处理多个对象,而是依赖于启发式后处理方法。贪婪nonoptimal决策从而共同拭目以待。其次,忽略了每个对象的特征提取大量的上下文和交互,这被认为是高效的信息推理multipersonal因为一些人类的地位和作用对象的交互与互动关系可以是高度相关的。第三,将跟踪和定位的检测表明,损失特性,并利用这些特性将成为一个更有效的识别模型。最后,序贯方法不能战胜一个多人的场景,因为它需要多次运行在一个图像。
简而言之,以前的方法展示一些优势(比如,一个好的联合学习框架可以同时处理多个任务),但它也显示了明显的限制。例如,(1)复杂的模型很难得到优化,每个子任务(2)没有充分地探索和研究深度,和(3)这些模型的核心部分和解决问题的机制仍然underexplained,,很难指导进一步的研究。
我们的研究中提出的方法试图克服上述限制和解决具体问题。灵感来自于最近multipersonal交互识别,我们建议的多人互动关系图(著)同步捕获人际的外观和位置关系。其次,我们构建的交互关系评估框架和多人关系图网络代表了多人的场景。最后,我们推断出人类行为的佩特里网络。在接下来的部分2讨论了该方法的概述。节3,我们讨论的多人交互评估框架,多人闭塞国家重建基于语义知识的活动,和佩特里网(pn)。部分4提供了一个比较实验。在最后的部分,一般结论和可能的进一步改进研究。
2。相关工作
多人交互行为识别是一个全面的分析任务,近年来发展迅速。在本节中,我们将简要地回顾多人互动活动识别的发展。认识到集体活动的参与者成为一个有吸引力的研究课题。通常,多人互动活动识别需要推断不同活动参与者之间的复杂的相互作用,它比识别个体的行动更具挑战性的话题。
2.1。描述符学而不交互建模
在早期阶段,研究人员旨在寻求一种区别的描述符总结“多人互动活动状态”集体场景。为此,赵et al。22)提出了一个统一的歧视学习框架识别多个上下文模型的并发的集体活动。陈等人。23)提出了一个新的属性的时空(AST)特性表征描述符包括时空(ST)特征和属性特征。
通过开创性的作品(24,25),深层神经网络用于提取特征表征能力高。Sudhakaran et al。26]提出EgoACO视频行动承认学会池action-context-object描述符从帧特性利用行动的verb-noun结构标签。援助的多尺度特征图谱完全卷积网络输出,每个在连续帧的特点融合在一起由一个周期性网络(17]。
2.2。与浅模型交互建模
一些作品试图探索个人通过浅模型之间的交互。董et al。27)提出了剩余的3 d网络(R3D)和关注剩余3 d网络(AR3D)人类行为识别模型。杨et al。28)提出了一个即插即用通道自适应合并模块(CAMM)基于图卷积网络(gcn)特定的人类骨骼图,可以合并相同的顶点骨架图自适应和有效的一部分。盛等。29日]提出了一种区别的子空间学习模型(DSLM)探索手工浅特性之间的互补性质表征和深层的特性。歌等。30.)提出了一种图象电平二维特征表示和时间关注模型在一个浅卷积神经网络有效利用的时空动态。燕et al。31日)设计了一个分层的基于交叉推理网络(HiGCIN),三个层次的信息包括身体区域层面,人的水平,和小组活动水平。李等人。32)提出了共生图形神经网络,包含一个骨干,action-recognition头和运动预测的头。
综上所述,这些研究旨在捕捉互动行为在集体活动中通过一个浅模型,描述活动与复杂的交互呈现他们不适用的。
2.3。深度交互模型
周et al。33)提出了级联解析网络(CP-HOI)多级,结构化海理解,每一个级联阶段改进建议和提要成结构化的交互推理模块。风扇等。34)神经网络提出了一种时空图来表示不同的目光相互作用通过消息传递和推断出原子水平的目光交流。Qi et al。35)提出了图解析神经网络(GPNN)来推断图结构和节点标签。压力等。36)提出了鲁棒非线性知识转移模型(R-NKTM)人类行为的认可。肖et al。37)提出了一个双重关注网络模型原因约人造物的交互。这个网络重对象和操作的重要特性,分别。
而前面提到的方法似乎是合理的,它有几个缺点。首先,大多数先进的检测方法不使用任何形式的联合优化处理多个对象,而是依靠启发式后处理。因此,他们容易受到贪婪nonoptimal决策。其次,提取的特征分别为每个对象丢弃大量的上下文和相互作用,这可能是有用的多人交互行为的理由。这一点尤为重要,因为一些互动的位置和动作的人类可以高度相关。第三,独立的检测和跟踪方法意味着表示用于定位被丢弃,而重用它将更有效。最后,序贯方法不能很好地扩展和许多人在现场,因为它需要多个运行单个图像。
3所示。该方法的概述
为了克服上述限制和解决具体的问题,我们建议的多人互动关系图(著)同时捕获人际的外观和位置关系。首先,我们构建的交互关系评估框架和多人关系图网络代表了多人的场景。其次,我们讨论了多人交互评估框架。部分4讨论了多人闭塞国家重建基于语义知识的事件。最后,我们介绍佩特里网(pn)检测活动在电视人机交互数据集,视频博客,原子视觉行为,MLB-YouTube数据集。系统流程图如图1。
3.1。多人互动评估框架
框架的目的是认识到多人互动场景由明确的关联信息和特征提取结果的输入并生成一套可靠的边界框坐标与相应的信心成绩通过目标检测阶段。在此基础上,我们构建的交互关系评估框架和多人关系图网络代表了多人的场景。应对人类行为识别领域的遮挡问题,提出了一种新的自适应闭塞状态行为识别方法的基础上,佩特里网络。在下一节中,我们将详细描述我们的方法。
3.1.1。交互评估框架
首先,为了获得多人对象从监控录像,我们使用这种方法17针对多人。
考虑到特征映射 和两个密集的地图 和 (P代表一个分割掩模图像的编码的部分包含多人和B代表人民的边界框的坐标出现在现场,编码相对于像素位置),我们给定地面实况对象位置转换成密集地面实况地图和 ,检测的边界框 : 在哪里年代y和年代x比例系数是固定的最大大小在训练集图像边界框。被定义为我: ,并相应地构造回归损失。损失被定义如下: 在哪里是一个重量,使训练更关注分类或回归数据集的分类是很容易的,例如排球。
其次,我们使用这种方法18获得外观关系和位置关系: 在哪里作为归一化因素: 在哪里指标函数;根据实际的场景,设置一个阈值来确定1或0。 表示之间的欧几里得距离中心点的多人边界框,和作为距离阈值hyperparameter。
参数表示为多人之间的相对距离位置关系使用余弦和正弦函数值不同的波长。嵌入后的特征维度d年代。然后我们将嵌入特性转换为一个标量的权重向量W年代和b年代,其次是RELU激活:
为了识别多人行为的互动关系,我们开发了一个多人关系方法,我们定义了三种索引(19]:运动时间(MT), nonoverlapped运动时间(NOMT)和组运动时间(GMT)。太表示单个用户的运动时间,格林尼治时间是所有人的总运动时间,和人之间NOMT nonoverlapped运动时间。
概括的方程,在给定的时间,如果太的人太n,格林尼治时间的人1,人2⋯人n−1是格林尼治时间1、2⋯n−1,NOMT的人1,人2⋯人n−1是NOMT1、2⋯n−1;然后,格林尼治时间和NOMT用户1、用户2⋯用户n计算如下:
假设绝大多数越高,越有可能有一个互动,网络方法识别人的交互通过四个阶段:(1)建立一个潜在的交互的人,(2)连接另一个人的潜在交互的人,(3)证实的交互关系,和(4)识别另一个互动关系。这些阶段详细描述如下:第一阶段:建立潜在人的互动关系(1)计算所有可链接的NOMT NOMT最高的情况下,任何两个人之间。(2)如果两个人的NOMT高于各自的太,一个潜在的互动关系是确定的。否则,就没有。阶段2:连接别人潜在的互动关系(1)计算潜在的NOMT任何个人,然后联系增加NOMT最的人。之后,潜在的多人交互是重新建立新连接的人。(2)重复以上步骤,直到没有用户离开谁能增加NOMT。如果有任何没有参与的人潜在的相互作用关系,他们被认为是不交互的人。阶段3:确认关联(1)如果潜在的格林尼治时间交互关系等于或超过一个值,它是确认为一个交互(2)如果格林尼治时间小于潜在的互动关系的一个值,所有的关系被认为是noninteraction收集第四阶段:识别组交互
当他们两个多扶少团团员,可以多次利用的网络方法识别互动关系。
正如上面提到的,我们利用图结构显式模型的成对关系信息小组活动的理解。我们的设计灵感来源于最近的成功关系推理和神经网络图(8,38]。
形式上,图中的节点对应一组演员 ,在哪里我是演员的数量, 是演员我的外观特性 的中心坐标的演员吗我边界框。根据现有的方法(38),我们构造图 代表演员之间的双向关系,关系的价值表明演员的重要性j的特性的演员我: 在哪里 表示两个演员的外表关系,位置关系计算 。这个函数h保险丝外观和位置关系一个标量重量: 在哪里作为归一化因素: 在哪里 表示之间的欧几里得距离中心的两个演员的边界框作为距离阈值hyperparameter。
3.1.2。功能描述
我们使用3 d扩展筛选算法(39,40),如[41,42),以确定兴趣点的位置。给定一个3 d的输入量我(x,y,z)和一个3 d高斯滤波器 ,我们形成多尺度高斯差(狗)卷,类似于(38,39),如下: 在哪里Dij是狗的二阶导数。Stavropoulos et al。43)派生衡量拒绝点使用的跟踪和决定因素H,在那里
如果有拒绝点,我们定义以下方程:
由于超声图像噪声和不像正常的大幅图片,我们减少阈值限制,以获得更多特征点(39]。 ,这个阈值从实际测试,并获得具有一定的普遍性。因此,我们定义subvoxel估计极值的真实位置是通过对狗体积数据二次插值法。获取利益点的识别区域后,我们定义一个局部邻域函数,扩展这个从早些时候的工作39,40]: 在哪里 可以限制周围像素点的贡献点感兴趣的那些在当地社区,d是立体像素距离体素的贡献感兴趣的点,然后呢用于确定当地贡献的程度:
的体素k,相邻的体元距离dk收购了兴趣点位置和密度 。
3.2。多人闭塞国家重建基于语义知识的事件
本节介绍了语义知识技术的框架,即语义知识解释(滑雪)组件基于方法(25),分别提供一个一致的表征存储(表示层)和语义解释和事件融合(解释层)。语义知识结构和词汇形容。
语义知识建模和存储允许最终用户模型领域知识(1)目标明确的协议,(2)域观察实体和事件,和(3)交互的阻塞行为上下文模型。参与每个场景语义知识的复杂活动。
多人阻塞协议(或场景)可以标记为一个实例,这是适用于多人阻塞的保存信息的闭塞状态。参与者实例允许自行对参与者定义断言,如交互闭塞和遮挡。协议步骤覆盖一个或多个任务,开始和结束节点。我们建议的方法实现了三个协议步骤:定向活动,阻塞活动,和遮挡的活动。术语事件表明低水平观察类型和高级活动。本体提供了轻量级的词汇基本与事件相关的信息,例如,事件层次结构和时间延长。事件是两个直接的根类子类的观察和活动为造型的观察和活动,分别。事件有两个分支:观察和活动。四种观察来源于观察造型,即造型的位置(如在监测区域),姿势(例如,站起来),行动(如饮用水),和对象(例如,一个钱包)。这些都是观察类别下的基本类型。
代理的事件和时间上下文捕获利用DUL构造(43,44)和猫头鹰时间(45),分别。例如,检测对象的模型如下::Purse1 em:钱包;利奥:atTime: t1;利奥:involvedAgent () du1:代理)。:t1: TemporalEntity时间:hasBeginning[时间:即时;时间:inXSDDateTime]时间:hasEnd(时间:即时;时间:inXSDDateTime]一次:闭塞的时刻;时间:inXSDDateTime]
完美的互动行为的定义结构处于阻塞状态,以便更好的分享和重用知识,本文选择一个活跃的本体的阻挡交互行为建模。本体能够认识到封闭活动和观察类型,和上下文的阻塞,因此遮挡互动活动可以表示。这个框架的知识表示模块创建一个上下文的语义建模模型。上下文信息在每个闭塞活动是通过类等价公理,连接互动行为与低层的观察。更准确地说,活动模型包含域语义知识需要检测复杂的活动。体现了相互依存的低级观察和复杂的行为和由以下知识结构。
3.3。行为识别
在本文中,我们介绍了Petri网(pn)检测活动在电视人机交互数据集,视频博客,原子视觉行为,MLB-YouTube数据集。佩特里网是基于技巧可以建模和可视化各种行为类型包括并行性、并发性、资源共享和同步46,47]。佩特里网是一个有限状态机,允许多个输入和多个输出(传统的有限状态机是佩特里网过渡被限制为每一个函数都输出和一个输入(48]。图形表示(49- - - - - -51),被吸引的地方为圆形和转换是方形或矩形。弧是连接节点转换节点(输入弧)或转换节点,节点(输出弧)。常规的弧线画箭头。抑制弧是用点正面。弧与体重相关,也称为弧的多重性。电弧是如果不是指定的多重性。地方通过输入连接到一个过渡弧称为过渡的输入(或输入)的地方。同样,地方通过输出连接到一个过渡弧称为过渡的输出(或输出集)的地方。一个节点可能包含一定数量的令牌(另一个图表组件)。令牌中可视化为黑点节点包含他们的地方。
为PN介绍认识区域的相对速度模型和节点,该方法是基于一种原始先进的佩特里网,也被称为PN area-velocity令牌。
首先,定义一个盾等。27如模型和推理如下。
关于格式,基本的地方/过渡PN five-tuple可以描述为: 和可以通过一个有向图形表示由两部分构成的图,包括两种类型的节点:地方P,画圆,和转换T,这是在酒吧或盒(15]: 是一个有限集合的地方吗 是一个有限集的转换 是输入弧函数输入矩阵可以表示为: 。如果存在一个弧与重量k连接的地方的过渡 ,然后 ;否则, 。 是输出弧函数,输出矩阵可以表示为: 。如果存在一个弧与重量连接的过渡的地方 ,然后 ;否则, 。 是当前标记的网,可以表示为向量 。 最初的标记,表示网络的初始状态。
一个新的转换函数后,行为识别如下: 在哪里探测器响应的行动j,过渡的area-velocity善良吗j,是以前的成绩令牌我这是通过过渡j。
解雇一个给定的过渡(规则)后,从其输入的地方标记删除。解雇一个给定的过渡(规则)和删除令牌可以直观地理解为一个执行的推理在给定的推理过程中使用这个规则。因此,在接下来的步骤中,标记的输入触发规则的地方已经没有必要。这样的推理可以被理解为一种向前推理。
4所示。实验
电视人机交互的结果数据集(52)如图2。交互数据集包括300个视频剪辑来自20多个不同的电视节目,包含四种类型的交互:握手、击掌、拥抱和亲吻。Noninteraction剪辑也附呈。
视频博客(53YouTube)是一个大型数据集,旨在收集生活方式的视频博客,包括日常人与物之间的相互作用。这个数据集的实验结果如图所示3。
原子的视觉行为(54)是加州大学伯克利分校和谷歌发布的数据集与不同环境和大量的类标签使用详尽的框架水准仪注释的YouTube视频。430视频提取从15到30分钟的电影和电视节目与来自不同国家的著名演员。原子的视觉行为的结果数据集在图所示4。
MLB-YouTube(美国职业棒球大联盟)(55)是一个细粒度的活动数据集组成的2017大联盟季后赛的棒球比赛。其中,9活动(swing,犯规,球,罢工和任何行动)不是很鲜明而突出的重复活动的注意。注释multilabel和重叠以及沥青类型(如快速球,曲球和滑块)和节距的速度为每个球场也被给予。结果MLB-YouTube(美国职业棒球大联盟)如图5。实验结果如表所示1- - - - - -4,分别。
从上面的表可以看出,本节平均识别方法的识别精度为93.42%,优于其他识别算法。
从上面的表可以看出,本节平均识别方法的识别精度为93.37%,优于其他识别算法。
从上面的表可以看出,本节平均识别方法的识别精度为93.21%,优于其他识别算法。
从上面的表可以看出,本节平均识别方法的识别精度为92.87%,优于其他识别算法。
因此,根据上面的表格,我们的方法被证明是更准确的识别人机交互,这进一步验证算法的准确性和效率。
5。结论和未来的工作
本研究提出了一种新近发展起来的互动行为关系模型和识别框架,能够成功地识别多人交互行为。我们构建一个灵活、高效的多人互动关系模型估计框架来捕捉人们的外观和位置关系,和一种新的推理方法。时间一致性是通过递归神经网络person-level匹配处理。关于评估框架和多人交互关系的集成关系图网络,它不仅促进了人机交互的数据集的自动学习结束结束的方式在我们建议的方法也使推理过程可以有效地执行标准矩阵运算。人类行为识别的遮挡问题,提出了一种新的自适应闭塞状态行为识别方法基于语义知识事件表示。
的四个标准互动行为数据库,我们可视化交互关系的评估框架和多人关系图(著),这表明,该方法能够捕获的区别的关系信息识别多人互动活动。实验结果表明,多人闭塞国家重建基于犁式优于其他方法的准确性。
上面有一些失败情况下的实验。在实验过程中,如果有一些强大的阻塞(如遮挡面积超过三分之一)和高动态视频(例如,交互操作快速切换。例如,板球是迅速从手)在多人或person对象,识别精度将大大减少。因为强烈的阻塞和高动态,它可能导致特征点定位是不准确和位置和交互关系只能预期。
我们提取上述数据库包含视频数据,并有很强的闭塞和高动态视频,对该方法进行了大量实验。结果如表所示5- - - - - -8。
从上面的表可以看出,本节平均识别方法的识别精度为30.26%,优于其他识别算法。
从上面的表可以看出,本节平均识别方法的识别精度为31.12%,优于其他识别算法。
从上面的表可以看出,本节平均识别方法的识别精度为34.23%,优于其他识别算法。
从上面的表可以看出,平均识别方法的识别精度这一节是28.12%,它不如其他识别算法。
假设该方法可以扩展到人或对象进行交互。跟踪提出了互动的人,然而,将涉及更复杂的因素,例如,处理更多的变速运动,interperson遮挡,和可能的外观相似的不同的人。51]
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这部分工作是支持江西省科技项目主管部门授予20181 bab202017和20181 bab212004,“湖湘高层次人才聚集工程2019 rs1072和科技研究项目江西省教育部门授予GJJ170373 GJJ190354。