一个轻量级的层次模型与框架水准仪关节自适应图像卷积Skeleton-Based动作识别

文摘

在skeleton-based人类行为识别方法,人类行为可以通过时间和空间分析人类骨骼的变化。骨骼不受限于服装变化,照明条件下,或复杂的背景。这种识别方法是健壮和已引起极大的兴趣;然而,许多现有的研究与大量的深层网络使用必需的参数,提高模型的性能,从而失去了更少的计算框架数据的优势。很难先前建立模型部署到实际的应用程序基于低成本的嵌入式设备。获得较少的参数和模型更高的精度,本研究设计了一个轻量级的框架水准仪关节自适应图像卷积网络(FLAGCN)模型来解决skeleton-based行动识别任务。与经典2 s-agcn模型相比,新模型获得了更高的精度与参数的1/8和1/9的浮点操作(失败)。我们建议网络正是三个主要的改进。首先,前一个feature-fusion方法取代了多流道网络,减少所需的参数的数量。第二,在空间层面,两种图像卷积方法捕捉人类行为的不同方面的信息。 A frame-level graph convolution constructs a human topological structure for each data frame, whereas an adjacency graph convolution captures the characteristics of the adjacent joints. Third, the model proposed in this study hierarchically extracts different levels of action sequence features, making the model clear and easy to understand; further, it reduces the depth of the model and the number of parameters. A large number of experiments on the NTU RGB + D 60 and 120 data sets show that this method has the advantages of few required parameters, low computational costs, and fast speeds. It also has a simple structure and training process that make it easy to deploy in real-time recognition systems based on low-cost embedded devices.

1。介绍

人类行为识别可用于各种场景,如视频检索和人机交互(1),所以它被广泛讨论的文学。然而,人类行为的多样性和复杂性提出巨大的挑战人类行为识别的任务。生物的研究表明,即使没有出现信息,可以区分行为类别通过分析联合运动(2]。骨架组成的三维位置数据的几个关键在人体关节,描述丰富的深度信息(3]。这些数据不受学科所穿的衣服,照明条件或环境噪声。此外,这些数据有很强的鲁棒性和可以表达先进的人体运动特征。随着3 d摄像机,如Kinect摄像头(4),骨架数据变得容易获得,和行动识别研究基于骨架数据吸引了更多的关注,取得了很大的进步5),成为人类行为识别研究的一个重要分支。

在初始阶段,由于数据的局限性,skeleton-based人类行为识别研究人员主要用于手工特征提取和机器学习方法。自从Shahroudy et al。6,7)建立了南大RGB +D大规模数据集的数据集,3 d人类活动分析,深度学习已广泛应用于skeleton-based人类行为识别研究。现有的研究主要分为两个方向:基于卷积神经网络(cnn)模型8- - - - - -12)和模型基于递归神经网络(RNNs) [13- - - - - -18]。CNN导向定价方面X,Y,Z关节的坐标图像通道,而每个操作序列的帧数和关节数被视为相应的图片的长度和宽度,分别。RNN-based方法考虑人类行为的时间序列特征,并使用RNNs模型随着时间的推移这些行为。

然而,骨骼关节无序的非欧几里得的结构数据。不同的关节有不同的邻近节点连接人类骨骼。如果按顺序输入一个卷积网络关节,关节附近的信息获得任何给定的节点可能不是相邻的一个真正的人类骨骼。因此,很难提取本地和全球共同特性使用传统卷积方法。复发性神经网络进行时序建模和不能完全表达在骨骼关节的空间信息。图卷积神经网络(GCN)是一种新型的卷积神经网络。燕等人首先应用图卷积方法在skeleton-based人类行为识别研究[19),提出了一种时空图卷积网络(ST-GCN)。ST-GCN模型构造的空间结构,根据相邻两个人类骨骼关节在人体,显著提高模型的识别性能,反映出政府通讯在这个任务的适用性和优越性。图卷积框架识别逐渐成为一个主流的研究方法,和研究人员进行了具体的研究基于卷积的概念图(20.- - - - - -32]。结合图像卷积和优秀的网络结构,如关注网络(33,34)或残余网络(35,36),可以进一步提高人类骨骼识别精度。

当前的主流研究基于ST-GCN提高识别精度多流道骨架识别任务的输入(37),添加优化模块,改进损失函数(38),提高卷积核(24,39),和越来越多的关注34]。这些方法使得网络变得更深,每一层的结构更复杂;他们经常介绍许多参数和极其困难的训练过程中,经常需要很多计算资源和长时间的培训。此外,这些方法不仅对利用的计算性能要求高的设备,还需要很长时间才能预测实际应用的操作序列。因此,这些模型很难适用于实时识别基于低成本的嵌入式设备的应用程序。

为了解决上述问题,本研究提出了一个轻量级的层次模型称为框架水准仪关节自适应图像卷积网络(FLAGCN)。层次模型包括四个部分:数据处理水平,水平,空间层次,和时间的水平。有六个核心层次,即协调嵌入层,三个框架水准仪关节自适应图像卷积(FLAGC)层和两层CNN。FLAGCN不仅保证了较高的识别精度也大大减少了所需的参数和模型的计算复杂度,从而减少模型的训练时间和预测时间和提供解决方案构建一个实时识别系统。本研究的主要贡献如下。

三个主流特征(骨骼和关节的相对位置和运动)是获取和融合在造型过程的早期,取代了传统的多流道网络。模型的输入可以获得有用的判别信息,减少所需的训练参数和计算成本。一代此外,特点是集成到模型中,从而避免代操作之前额外的特性。

该模型使用一个三层框架水准仪关节自适应图像卷积方法获取人体运动信息来自两个方面:一个框架水准仪图卷积和相邻图卷积。框架水准仪图卷积方法自适应地构造不同的图形为每个数据帧的每个操作序列和捕获每一帧的空间特征。邻接图卷积方法使用一个预定义的邻接矩阵来捕获相邻关节之间的关系,充分利用先验信息描述人类骨骼。这两个图卷积方法的结合提高了该模型提取空间特征的能力。

在这项研究中,骨架序列的特征提取的层级结构。从时空图卷积层相比,在每一层提取的时空特性。在模型中提出了在这项研究中,三维坐标关节主要是提取的特征点水平,而每一帧的所有关节的空间特征提取在空间层面和整个序列的时序特征提取在时间的水平。因此,该模型简单、清晰,易于理解。烧蚀实验证实,分层特征提取过程利用该模型可以有效地提高识别精度的骨架与少量的必需的参数。

2.1。Skeleton-Based行动识别

在传统的方法中,使用机器学习解决人类行为基于人类骨骼的识别任务。例如,Vemullapally et al。40)结合的动态时间扭曲,傅里叶时间金字塔,和一个线性支持向量机(SVM)对骨骼进行分类。Zanfir et al。41)表示每个操作相关的关节速度和加速度的关键帧和分类使用一种改进的行动再邻居(资讯)分类器集成了全球时间信息。不断发展深入学习方法显示良好的数据处理能力和允许突破性进展在计算机视觉和自然语言处理领域。随着大型数据集的出现(6,7),深度学习人类行为也被用于识别基于骨架。例如,李et al。8)提出了一种分层共生特征学习框架基于cnn的全球聚合能力。他们学会了独立各关节的点特征和双侧框架融合的运动特性。聂et al。9)提出了两个描述符和输入到一个CNN网络。锅等。17)建造了一个dual-stream,短期记忆(LSTM)网络提取多级态度和轨迹特性。郑et al。18]介绍了复发的关系网络和设计一个有机框架同时模拟关节的空间分配和时间动态。这些作品实现了改进的表现与之前相比利用方法。

2.2。图卷积网络

出现的图像卷积网络,作为一种新的网络形式,近年来在非结构化数据处理和显示优势广泛应用于交通流预测,网络节点分类,预测在生物化学和分子活动42]。灵感来自于这些优势,燕et al。19)提出了一种时空图卷积方法,每个人体骨骼关节对应于每个节点一个骨架图,以及关节之间的关系被定义为骨架的边缘图。有两种类型的边缘在行动序列。空间的边缘是指自然接头连接;因此预定义的这些边缘邻接矩阵描述人类关节。时间边缘指相邻帧之间的虚拟连接相同的关节和被选中的模拟时间卷积方法。施等。20.)提出了dual-stream,自适应图像卷积网络(2 s-agcn),火车和更新骨骼图结构的卷积模型的参数。这个数据驱动的方法提高了灵活性的图。同时,利用二阶信息(骨骼的长度和方向)的骨骼数据,该模型增加了骨头作为输入另一个流。骨的长度和方向表示为向量指向关节关节从源到目标。该方法补偿的缺点ST-GCN预定义的图形,如缺乏灵活性和仅包含一阶的信息,和达到更好的识别效果。近年来,一些研究人员致力于优化的结构骨架图,提高利用网络基于图像卷积方法,而其他人则结合其他理论与图像卷积。例如,你们提出的动态框架等。27利用政府通讯和cnn。转变政府通讯由程设计等。28)是由空间转变图卷积法和迅速变化的图卷积法,及其计算成本大大降低。如果et al。36]提出了卷积LSTM attention-enhanced图(AGC-LSTM)网络,代表第一次尝试结合图卷积与LSTM人类行为识别的任务。赵et al。43)结合图卷积LSTM和进一步扩展网络概率模型遵循贝叶斯框架。彭et al。31日]使用神经结构构造图卷积网络搜索。

上面提到的一些方法需要大量的参数和深度网络或大量的计算。如果模型应用于低成本的嵌入式设备内存和计算能力有限,很难确保良好的实时识别性能。框架水准仪、自适应图像卷积模型提出了本研究的优点结合frame-adaptive图和邻接矩阵来提取空间特征和使用一个简单的网络和轻量级模型实现高精度识别基于骨架的人类活动。该模型可以适应这样的嵌入式设备小成本。

3所示。方法

在本节中,介绍了该模型三个部分。第一部分描述了特征融合的水平。第二部分介绍了框架级别的细节,适应性,图卷积层用于空间层,关注两个图卷积机制。在第三部分,我们分析提出的层次特征提取模型,引入数据处理水平和时间的水平。

3.1。点水平:早期功能融合

尽管神经网络可以自主学习数据特性,许多研究表明,早期功能处理可以提高模型的性能,因此有必要选择特色(44- - - - - -48]。例如,灵感来自谎言组的骨架描述符(44江,et al。16)提出了一种时空框架转换描述符(ST-STD)定义骨架的相对变换姿态,包括旋转和翻译在骨架运动。Ahad et al。45)使用线性关节位置特性(LJPF)和角接头位置特性(AJPF)获得基于三维线性骨架段之间的共同立场和角度独特的特性。聂et al。9)提出了两种新的viewpoint-invariant运动特点:关节的欧拉角(牛仔裤)和关节之间的欧氏距离矩阵(JEDM)。李等人。23)选择共有六个数据模式(关节、骨骼,他们的运动,和他们的相对位置)和独立这些形式输入网络six-stream输入。

后,骨骼和关节的相对位置和运动信息在skeleton-based行动成为共同的特征识别,因为它们很容易获得和有很强的辨别能力18,21,23,26,29日,30.,44]。因此,我们首先生成这三个模型的特性在数据处理水平。

联合的相对位置是通过减去联合中心的坐标从任何其他关节的坐标。这个值可以计算使用方程(1),一个是一个任意的关节吗c是一个中央联合。因为骨架和观察点之间的距离和角度是不确定的,关节的相对位置可以用来降低位置变化的影响在人们和观察点。如果帧的中心是减去从每个关节,中央关节的运动信息将丢失;考虑到这一点,我们决定脊柱在第一帧的中间的一个给定的序列作为中央联合行动。

骨头参考边向量由人体自然连接。在我们的模型中,25骨中定义向量2 s-agcn [20.使用)。每个骨头向量计算的区别是两个关节组成骨,如方程所示(2),t联合节点和目标吗年代是源联合节点。

关节的运动信息是通过计算相邻帧之间的协调差异代表相同的关节如方程所示(3),t₂代表帧后t₁。空帧结束时充满了0的值,计算和简单的操作导致低于插值帧同步方法。因为两个相邻帧之间的时间间隔是固定的,运动信息可以表明不仅关节位置的变化,还联合运动的速度。

一些研究中使用的二束或多流道网络(8,14,18,20.,21,23,30.取得了良好的表现,但也增加了所需数量的模型参数。因此,本文嵌入骨头和关节的相对位置和运动到一个高维空间点级别的,然后没有乘以参数融合这三个特性。这个数据融合可以表示如下:

在方程(4),骨骼和关节的相对位置和运动信息被描述为在方程(1),(2)和(3)和嵌入(·)代表嵌入操作,组成含两个卷积核的卷积操作的大小 ,类似于致密层;操作通过每一层实现如下所示: 在哪里上层的输出,当前层的输出,的重量,是偏见,马克斯是解决线性单元(ReLU)激活函数。

关节表示一阶信息的相对位置,而骨骼和关节运动代表二阶信息。早期feature-fusion上述方法的优点结合这三种特性在不同层次上获得多流道的特色,避免使用网络。的数据处理和点层次的细节层次模型图所示1。最初的骨架是直接输入到模型,和三个功能是生成的数据处理水平和输入点特征提取层。分别嵌入后,这些特性被添加到模型中。额外的数据处理层提供深入的细节部分3所示。3。

3.2。空间等级:框架水准仪图卷积和相邻图像卷积方法

在传统skeleton-based人类行为识别方法,骨骼被当作结构化数据类似于一个图像,以及关节之间的空间关系将被忽略。ST-GCN引入了图卷积神经网络并定义一个时空框架节点和边组成的序列,在节点指的是骨骼的关节和边分为两类。在同一帧,人工关节之间的连接关系视为第一边缘类型,代表空间信息,这些连接是由邻接矩阵表示。同样的关节,相邻帧之间的连接被认为是第二个优势类型,用于提取时间信息。ST-GCN使用邻接矩阵来执行图卷积和提取空间信息。图像卷积实现使用以下方程。在哪里是输入给定的时空图卷积层,是输出相应的层,代表的重量,邻接矩阵,是注意面具,是类别子集的数字。ST-GCN,三个连接模式识别子集:self-connection、向心连接,和离心连接。的邻接矩阵决定使用关节之间的连接。相应的位置连接关节的骨骼被定义为1,和关节没有连接定义为0。空间之间的连接关节决心通过邻接矩阵乘法操作。颞连接实现卷积操作的时间维度。

ST-GCN直接繁殖和通过相应的元素。如果一些元素零值,最后一个乘法的结果是零,不管剩下的值。这意味着,如果一个连接两个关节之间并不存在于原始的骨架,网络最终不会产生此连接。但是,在某些行为动作,两个无关的联合节点有显著的关系。例如,在行为如“饮用水”和“吃”,伟大的手和头部之间的相关性存在。然而,手和头部没有直接联系,因此网络很难捕捉这种相关性。鉴于这个关节边缘ST-GCN限制,2 s-agcn添加了一个无约束,参数化的邻接矩阵( )和一个独立graph-calculated矩阵( )对于每一个样本,提高模型的灵活性。他们的方法是显示在以下方程:

与方程(6),方程(7)添加sample-level自适应参数和 ;其他参数都是相同的的方程(6)。然而,邻接矩阵的加法 ,参数化矩阵 ,和sample-level矩阵会导致空间信息的损失。2 s-agcn不考虑图中的变化在每个样本在不同的帧之间变化。事实上,在每个操作的过程中,不同的帧显示不同的图形特征。因此,我们使用框架水准仪、自适应图像卷积层的空间层模型来捕获的空间特性。每个框架水准仪、自适应图像卷积层包括两个分支:自适应图像卷积框架水准仪分支和相邻图卷积分支,使用预定义的图形。整个计算FLAGC层机制如下:

上半年,方程(8)是卷积框架水准仪图的一部分,是图像卷积的重量,是一个框架水准仪图的动作序列。类似于任期2 s-agcn使用经典高斯嵌入函数来捕获关节之间的相似性。从2 s-agcn相比,我们保持每一帧的图像信息,称之为信息框架水准仪图矩阵。所示的计算方法是以下方程: 在哪里是输入矩阵的形状吗和和是两个嵌入层的权重。这里使用的嵌入操作是一样的,在点级别使用,由两个卷积层与卷积核的大小。和代表两种不同的转置。获得的词是一个框架水准仪类似图矩阵的规模。框架水准仪图不使用之前的信息,但自适应列车在每一帧的每个样本对应的图结构和每一帧的提取空间特征骨架。

下半年方程(8)是邻接图卷积模块。邻接矩阵, ,在模块包括三个矩阵(= 3)。第一个矩阵表示零的关节与距离之间的关系,即。自相关的关节。第二个矩阵表示的关节与距离之间的相关性。第三个矩阵表示2的关节与距离之间的相关性。因此,相邻特征与不同的距离就是从这三个矩阵中提取出来的。连接在矩阵内的位置的值是1,和nonconnected位置的值是0。所示的正则化过程以下方程: 在哪里定义是邻接矩阵,根据骨骼的分析,然后呢用于规范化 ;图邻接矩阵将已知骨架信息添加到空间层,充分利用先验信息,进一步帮助空间层提取更多的空间特性。

图2显示了FLAGC层的整体架构,和计算细节图所示3。图上的分支2,对应于图的左半部分3,显示了框架水准仪图卷积模块。模块计算相应的框架水准仪图矩阵的输入样本,然后执行graph-convolution操作。较低的分支图2,对应于正确的图的一半3显示了邻接图卷积模块,执行相应的graph-convolution操作使用预定义的邻接矩阵与输入信息。FLAGC层执行这两种图形旋转在并行模式下,充分利用信息包含在之前的样品和信息。

3.3。层次模型:一个简单的和轻量级访问模型

我们提出了层次模型包括四个主要部分,数据处理水平,水平,空间层次,和时间,由虚线框表示在图所示4。上述六个核心层与罗马数字标记I-VI,协调嵌入层存在的层面上,存在三层FLAGC在空间层面,和两层CNN存在时间的水平。

数据处理层,框架在垂直方向旋转。在实践中,观察到的行为可能不是收集与主题完全面对镜头,和随机旋转骨架相当于增加来自不同角度的数据量,扮演一个角色在提高数据(11,26,41,43]。这个随机旋转操作执行根据以下方程: 在哪里代表随机旋转角度,代表原始的坐标,代表旋转坐标。随后,三个特性计算和由方程(1),(2)和(3)。功能升级方法集成到模型减少早期的工作负载数据准备和模型转化为一个端到端的识别系统。

空间层,three-feature-fused数据作为输入,骨架提取的空间信息使用三个FLAGC层,和输出数据的空间维度由池转化为一维层完成空间特征提取。

在时间层,框架序列的时序特性由两个卷积层连续提取,和内核卷积层的大小。卷积核的大小类似于一维时间卷积,错综复杂的信息只有在时间维度;这个卷积方法可以表示由以下方程: 在哪里是输入的上层,卷积核,是偏见。其次是BN和每个CNN ReLU层。两层卷积后,AdaptiveMaxPool2d池输出的时间维度数据转换成一维时空信息提取,分类和致密的双层完成最终的行动。模型中提取动作序列特征与不同的维度层次这一过程是明确的,容易理解。相比之下,ST-GCN [19),采用时空层同时提取时空特性,文中提出的方法简化了模型结构,层数和计算成本。

4所示。实验

4.1。数据集

南大RGB +D60组数据(5)是最早的,大规模、多通道、人类行为识别数据集和成立于2016年。它包含RGB视频、深度信息、骨架信息(25个主要关节的三维位置)和红外数据。60行为中包含的数据集收集从40主题,和三个Kinect v2相机被安置在17个不同的拍摄位置。这个数据集解决相关的问题使用一个单一的视角,有限的行动分类,和不变的背景,经常出现在人类行为识别的研究基于深度学习。这个数据集提供了两个评价标准:跨学科(CS)和cross-view (CV)标准。16560 CS任务包括40320个训练样本和测试样本;这些样品是除以分类40人分为两组。简历培训视频摄像机收集的样品2和3(37920个样本),和收集的视频相机1(18960个样本)被视为测试集。

南大RGB +D120数据集6是南大的扩展版本RGB +D60和成立于2019年;额外的60行动和57600个样本都包括在这个扩展数据集。结果数据集包含视频从155种不同的镜头角度。总共106例不同年龄的57岁(10)和不同文化背景(15个国家)记录在96不同的环境(不同的背景或光照条件)中包含的数据集。总共包括114480个样本;在这些示例中,行为主要分为三个方面,日常,医学、人类行为和互动,人类生活中最常见的行为。跨学科的评价,106例随机分为两组。53人在每组用于训练样本(63026)或测试样本(50919)。在32个不同的Kinect设置方法,奇数方法用于训练样本(54468),和其他用于测试样本(59477)cross-view评估。值得注意的是,535人失踪样本应该被忽略。

4.2。实验的细节

一致行动的帧数据样本,我们南大RGB +帧数的计算D120个样本,发现大多数的样本包含在100帧,除了“阅读”“写作”“穿一件夹克,”和“脱掉夹克”样本。100帧内样本的比例接近70%。样本帧数的分布如图5。水平轴代表帧范围,纵轴代表样本落入的数量范围。可以理解的是,在生活中许多常见的行为在3秒内完成。因此,我们的样品只有零帧和随机数据处理层和均匀选择20帧作为训练输入,如赵等人的研究。43];采样间隔是由以下方程:代表了原始帧总数和代表了标准的帧数一致。采样间隔后,我们在每个区间随机选择一帧。例如,如果数据帧的总数是100,一帧提取每5帧。这样一个随机均匀提取才能真正反映样本中包含的行为和动作,使培训过程简单和快速。此外,这个随机提取方法允许每一轮的训练样本不完全相同的,减少了过度拟合训练集。

此外,考虑相机角度的多样性中包含的数据集和实际应用,骨架是随机旋转(−30°30°)提高数据和数据处理水平适应角度变化。

我们实现这个模型PyTorch和火车在泰坦图形处理单元(GPU)。亚当优化器是用于优化和重量衰减设置为0.0001。最初的学习速率是设定在0.001,这个值是60下降了0.1倍^th,80年^th,100^th轮。培训时间的最大数量设置为100。批处理两个数据集的大小是64。每一层的通道是图所示6。嵌入式层包括两个卷积层和多维数据集的大小表示的数据的大小。

4.3。烧蚀研究

4.3.1。融合模式不同的特点

关于早期融合方法的三个特点(骨骼和关节的相对位置和运动)是融合的,我们测试各种组合,如个人特性,功能连接和功能添加。最后,我们确认feature-fusion方法提出了部分3所示。1可以用来优化动作识别的准确性。

在表1,P代表的相对位置,B代表骨架向量,米代表运动信息,+代表加法操作,“猫”代表维拼接点。我们尝试使用“猫”参数,最后确定的数量降到最低的方法三个特性被添加后嵌入结果最好的精度性能。表1显示,使用多个输入会导致精度提高了1% - -5%。


方法	参数(米)	CS (%)	简历(%)

P	0.81	84.2	91.6
B	0.81	83.6	90.8
P+B	0.82	87.5	93.2
P+米猫B	0.82	87.9	93.6
P+米+B	0.83	89.4	94.8

4.4。框架水准仪图卷积的有效性

我们做很多尝试探索的有效性两种graph-convolution结构框架水准仪自适应图像卷积层。首先,我们使用两种方法来解决框架水准仪图卷积结构计算每个样本的全局图而不是框架水准仪的图,表示最大和平均图矩阵值在时间维度。结果如表所示2。


方法	婴儿车(米)	失败(G)	CS (%)	简历(%)

的意思是	0.83	4.1	88.3	93.6
马克斯	0.83	4.1	87.5	92.9
FLAGCN	0.83	4.1	89.4	94.8

从表2,我们可以看到,使用平均值获得的精度略高于获得使用的最大价值。框架水准仪图卷积方法实现最佳性能,而无需额外的参数或计算成本(浮点操作(失败)。参数和失败单元10⁶和10⁹,分别。

确认并行图的两种利用卷积发挥积极作用在整个造型过程中,我们把两种graph-convolution结构到空间层分别叠加之后,就像2 s-agcn进行。结果如表所示3,这表明两个卷积操作引起的平行结构的精度提高1%以上。


方法	婴儿车(米)	失败(G)	CS (%)	简历(%)

FLGCN	0.66	3所示。1	86.6	92.2
AGCN	0.70	3所示。7	87.8	93.6
(FL +一个)政府通讯	0.83	3所示。9	88.0	93.4
FLAGCN	0.83	4.1	89.4	94.8

4.5。层次模型结构的有效性

进一步探索分层特征提取的有效性的研究模式,类似于以前的研究中使用的方法(19,20.),我们将时间特征提取层添加到每个spatial-extraction层形成一层类似的时空图滚动。结果如表所示4。包括多个参数时,时空在cross-object任务图卷积方法执行不佳,和它的精度是1.6%低于层次模型。更好的提取时间特性,我们也试着使用LSTM和封闭的复发(格勒乌)方法构造时间单位模块。类似地,在考虑多个参数情况下,两种方法的精度是减少了超过2%。第三行表4显示数据处理层的准确性没有随机旋转和显示,因为随机模拟旋转视角变化的特点,这种情况下表现不佳的cross-visual angle-recognition任务。


方法	婴儿车(M)	CS (%)	简历(%)

时空在空间水平	0.94	88.0	93.9
LSTM颞水平	0.86	86.6	92.2
格勒乌颞水平	0.85	87.3	92.5
没有旋转的水平	0.83	88.6	92.6
FLAGCN	0.83	89.4	94.8

4.6。与SOTA方法进行比较

表5显示了我们的模型之间的性能比较和其他优秀的方法基于不同的网络与南大RGB +D60个数据集。CS模型的精度是89.4%,这是优于0.4%的准确性与先前建立的方法获得26简历),94.8%,优于0.3%的准确性得到与以前相同的方法(26]。


	方法	一年	CS	简历

美国有线电视新闻网	HCN [8]	2018年	86.5	91.1
美国有线电视新闻网	View-invariant CNN (9]	2019年	86.7	91.8
RNN	Ind-RNN [13]	2018年	81.8	88.0
	2 s ARRN-LSTM [14]	2019年	81.8	89.4
	AGC-LSTM [36]	2019年	89.2	95.0
政府通讯	ST-GCN [19]	2018年	81.5	88.3
	2 s-agcn [20.]	2019年	88.5	95.1
	胡志明市(26]	2020年	89.0	94.5
我们的	FLAGCN	−	89.4	94.8

因为南大RGB +D120数据集是新的,还没有测试这个数据集建立方法,和许多方法没有提供参数的数量,计算量,预测速度。我们得到一些数据标有“”在表6通过我们自己的测试。表6比较了精度、参数失败,这些模型和预测的速度。速度参数,失败,和预测都是基于南大RGB +D60组数据表中列出的预测速度6代表所需的平均时间训练模型来预测一个给定的操作序列。结果表明,FLAGCN精度CS任务的81.6%和82.9%的简历;这些精度略高于2 s-agcn。同时,所需的参数的数量减少到小于1/8,可降低计算成本的不到1/9,和预测速度比2 s-agcn快7倍。在表6胡志明市显示,获得最小的参数的数量和最快的速度,但其精度略低于其他模型。Sybio-GNN达到精度最高,但其必需的参数很多。在ResGCN-N51所需的参数的数量低于我们的方法及其精度较高时应用于南大RGB +D120数据集。但当方法应用于南大RGB +D60组数据,精度是低于我们的方法。从我们的模型相比,ResGCN-N51模型使用一个并行提取结构获得时空特性。


方法	NTU60 CS	NTU60简历	NTU120 CS	NTU120简历	参数个数	失败	速度

ST-GCN [19]	81.5	88.3	71.7	72.4	3.10	16.3	30.9
HCN [8]	86.5	91.1	73.9	76.5	10.02	1.8	52.9
2 s-agcn [20.]	88.5	95.1	80.5	82.6	6.93	37.3	150.3
胡志明市(26]	89.0	94.5	79.2	81.5	0.69	3所示。4	15.2
RA-GCN [49]	87.3	93.6	- - - - - -	- - - - - -	6.21	- - - - - -	41.2
MS-G3D [50]	91.5	96.2	86.9	88.4	6.44	98.0	- - - - - -
Sybio-GNN [39]	90.1	95.4	- - - - - -	- - - - - -	14.85	- - - - - -	60.3
Tripool [38]	88.0	95.3	80.1	82.8	3所示。6	11.76	- - - - - -
MS-AAGCN [37]	90.0	96.2	- - - - - -	- - - - - -	15.04	74.8	- - - - - -
DGNN [50]	89.9	96.1	- - - - - -	- - - - - -	8.18	- - - - - -	41.7
ST-TR [51]	90.3	96.3	84.3	86.7	4.83	26.26	- - - - - -
Shift-GCN [28]	87.8	95.1	- - - - - -	- - - - - -	- - - - - -	2.5	- - - - - -
ResGCN-N51 [34]	89.1	93.5	84.0	84.2	0.77	- - - - - -	16.8
FLAGCN	89.4	94.8	81.6	82.9	0.83	4.1	21.5

4.7。可视化的FLAGCN

进一步确认FLAGCN可以模型空间结构体现在人类活动和解释模型通过显示特性提取模型的每一层,我们做了两种视觉显示:演讲的三层FLAGC和框架水准仪图矩阵。使骨骼显得更清晰,我们显示在2 d而不是3 d,所以有一些闭塞。

首先,确认空间特性可以逐渐从三层FLAGC中提取,我们在空间展示每一层的输出水平。我们获得的形状数据大小通过平均所有维度除了联合维度。数据规范化和放大100倍大小。我们选择两个代表性的手脚动作为例,如图7:面板(一)表示“擦脸”运动,而面板(b)显示“踢”运动。每个行动的三个子图的输出第一个FLAGC层,第二层,第三层。所有关节的权重在第一层的输出不广泛不同,但是手和脚的重量增加输出的第二和第三层。

(一)

(b)

此外,我们提出了可视化框架水准仪图框架水准仪图卷积,表明每一帧的重量在一个给定的操作是不同的,FLAGC层捕获这种差异。上一次迭代后,框架水准仪图矩阵的第三FLAGC层可以最明显的支持我们的观点,所以我们选择它的可视化。在图8小组(一个)显示“头痛”运动和面板(b)显示了“交叉的手在前面”运动。第十,我们选择第二个的数字和19帧的这两个动作序列代表了早期阶段,中间阶段,每个行动的后期阶段。网络图的参数计算的规范化和扩大到100倍的大小相应的关节。所有关节的权重不广泛不同的早期阶段,但在面板(a),双手和头部的重量增加中、晚期;面板(b)表明,头部和肘部在早期更多的重量。手臂的重量增加中间阶段,头部的减少,中间部分的脊柱开始扩大由于手臂到达附近的中间部分的脊椎在稍后阶段。这是符合我们的观点;图的结构,在描述可能不断改变行动。同时,观察到的关键关节的变化在不同的运动时间也结合常识。因为时间层的可视化结果没有实际意义,他们不显示。

(一)

(b)

5。结论

本研究提出了一个轻量级的层次模型与早期特征融合和框架水准仪自适应图像卷积,这可以应用于资源受限的嵌入式设备。我们的模型使用6-layer网络体系结构,而不是传统的9-layer网络体系结构。该模型可以减少所需的参数的数量和模型的计算成本和提供了一个简单的方法,实时识别人类骨骼的行动。在这个模型中,早期feature-fusion过程集成了多个功能的优势没有多流道网络利用率。FLAGCN分为两个分支来获取空间信息:框架水准仪图卷积分支计算每一帧的图像结构,而相邻图卷积分支使用邻接提取相邻节点之间的关系特点,相应的关节,和这两个的组合图卷积方法允许在行动序列中提取空间信息更全面。网络分层设计,有效的端到端模型。为了测试这个模型,许多探索。最终的模型验证在南大RGB +D60 - 120数据集,并使用只有1/8的所需的参数和失败的1/9 2 s-agcn而达到较高的识别精度和预测速度快。

接下来,我们希望在我们自己的嵌入式系统部署模型并将其应用在各种应用场景,如显示器,表演,游戏,等等。我们将关注在不同的硬件条件下模型的适用性有限的存储和计算性能。

数据可用性

本文中使用的数据集是公开的,免费的,可用的https://rose1.ntu.edu.sg/dataset/actionRecognition/。

的利益冲突

作者宣称他们没有利益冲突有关的出版。

确认

这项工作是由文化部和旅游资金重点实验室的基础研究基金(WLBSYS2005)和中央大学(CUC19ZD005)。

引用

r波”,调查的人类行为识别,建立“图像和视觉计算,28卷,不。6,976 - 990年,2010页。视图:出版商的网站|谷歌学术搜索
g·约翰逊,”生物运动和视觉感知模型的分析,“知觉和心理物理学,14卷,1973年。视图:出版商的网站|谷歌学术搜索
p .伊莱亚斯j . Sedmidubsky, p .泽兹拉,“理解之间的差距2 d和3 d skeleton-based动作识别,”《2019年IEEE国际研讨会上多媒体(ISM)IEEE,页192 - 1923年,圣地亚哥,美国,2019年12月。视图:出版商的网站|谷歌学术搜索
微软的Kinect。https://dev.windows.com/en-us/kinect (OL)。
d . l . Wang问:黄齐,p . Koniusz”比较审查最近的kinect动作识别算法,”IEEE图像处理卷29日15-28,2020页。视图:出版商的网站|谷歌学术搜索
a . Shahroudy j . Liu T.-T。Ng, g . Wang“南大RGB + D:大规模数据集人类活动对3 D分析”《IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:谷歌学术搜索
a . Shahroudy j . Liu m·佩雷斯L.-Y g . Wang。段,a·c·科特“南大RGB + D 120:大规模的基准3 D人类活动的理解,”诉讼的IEEE模式分析与机器智能(TPAMI)2019年4月,西北华盛顿特区。视图:谷歌学术搜索
c .李问:钟、d .谢和s .聚氨酯”同现特征学习行动从骨骼数据识别和检测等级聚合”学报二十七人工智能国际联合大会(IJCAI-18)斯德哥尔摩,瑞典,2018年7月。视图:出版商的网站|谷歌学术搜索
问:聂,j . Wang王x, y,“View-invariant人类行为识别基于3 d bio-constrained骨架模型,”IEEE图像处理,28卷,不。8,3959 - 3972年,2019页。视图:出版商的网站|谷歌学术搜索
y Zhengyuan l .运城,y表示,和l . Jiebo”动作识别与时空视觉注意力的骨架图像序列,”IEEE电路和系统视频技术,29卷,第2415 - 2405页,2018年。视图:出版商的网站|谷歌学术搜索
梁y . f .孟h . Liu, j .涂”样本融合网络:一个端到端的数据扩充网络skeleton-based人类行为识别,”IEEE图像处理,卷99,p . 2019。视图:出版商的网站|谷歌学术搜索
y, y, j .卢·李和j .周”深进步强化学习skeleton-based动作识别,”《IEEE计算机视觉与模式识别会议2018年,页5323 - 5332,美国。视图:出版商的网站|谷歌学术搜索
c . w . s . Li Li做饭,朱,和y高,“独立递归神经网络(indrnn):构建一个RNN持续的时间更长,也更加严重,“《IEEE Conferenceon计算机视觉和模式识别,1卷,不。2、5457 - 5466年,2018页。视图:出版商的网站|谷歌学术搜索
d·达沃m .卡西欧,l·辛格·g·l·Foresti c . Massaroni和e . Rodola”二维skeleton-based行动识别通过两个分校LSTM-RNNs堆放,”IEEE多媒体,22卷,不。10日,2481 - 2496年,2020页。视图:出版商的网站|谷歌学术搜索
美国歌曲,c .局域网、j .邢和w·曾“时空引起LSTM网络对3 d动作识别和检测,”IEEE图像处理卷。2018年,ID 2818328条,1页,2018。视图:出版商的网站|谷歌学术搜索
徐x江,k, t .太阳,“行动识别方案基于骨架与DS-LSTM网络表示,“IEEE电路和系统视频技术,卷99,p . 2019。视图:谷歌学术搜索
g .锅黄懿慧歌,s . h·魏”相结合构成和基于骨架的行动轨迹识别使用二束RNN,”《2019中国自动化大会(CAC)2019年11月,杭州,中国。视图:出版商的网站|谷歌学术搜索
w·郑l·李和黄y, z . Zhang“skeleton-based动作识别,关系网络”学报2019年IEEE国际会议多媒体和世博会(ICME)IEEE,页826 - 831年,上海,中国,2019年7月。视图:出版商的网站|谷歌学术搜索
y Sijie、x Yuanjun和l .大华”空间时序图卷积网络skeleton-based动作识别,”AAAI,2018年vol. abs / 1801.07455。视图:谷歌学术搜索
l . Shi, y, j . Cheng和h,“二束自适应图像卷积网络skeleton-based动作识别,”学报2019年IEEE / CVF计算机视觉与模式识别会议(CVPR)长滩,页12018 - 12027年,CA,美国,2019年6月。视图:出版商的网站|谷歌学术搜索
z呗,问:叮,j . Tan“Two-Steam完全连通图卷积网络skeleton-based动作识别,”《2020年中国控制与决策会议(CCDC)合肥,中国,2020年8月。视图:出版商的网站|谷歌学术搜索
>,壮族,z . Wang和h .富裕县”结构特点融合自适应图像卷积网络skeleton-based动作识别,”IEEE访问,8卷,第228117 - 228108页,2020年。视图:出版商的网站|谷歌学术搜索
a . f . Li朱、y徐和r·崔”Multi-stream和增强的时空图卷积网络skeleton-based动作识别,”IEEE访问,卷99,p . 2020。视图:出版商的网站|谷歌学术搜索
l . Shi, y, j . Cheng和h,“Skeleton-based行动识别神经网络与有向图”《IEEE / CVF计算机视觉与模式识别会议长滩,页7912 - 7921年,CA,美国,2019年6月。视图:出版商的网站|谷歌学术搜索
m·李、陈,陈x,和h . Lu”Actional-structural图卷积网络skeleton-based动作识别,”《IEEE / CVF计算机视觉与模式识别会议长滩,页3595 - 3603年,CA,美国,2019年6月。视图:出版商的网站|谷歌学术搜索
张平,c .局域网w .曾庆红,j .兴j .雪和n .郑”Semantics-guided高效skeleton-based人类行为识别,神经网络”学报2020年IEEE / CVF计算机视觉与模式识别会议(CVPR)长滩,页1109 - 1118年,CA,美国,2020年6月。视图:出版商的网站|谷歌学术搜索
f .你们美国Pu、问:钟、c·李·d·谢,h·唐,“动态GCN: context-enriched拓扑学习skeleton-based行动识别,”学报》第28届ACM国际会议多媒体(20毫米的),55 - 63页,计算机协会,纽约,纽约,美国,2020年10月。视图:出版商的网站|谷歌学术搜索
k . Cheng x, y . Zhang w·陈,j . Cheng和h,“Skeleton-based行动识别与图像卷积网络转变,”学报2020年IEEE / CVF计算机视觉与模式识别会议(CVPR)长滩,页180 - 189年,CA,美国,2020年6月。视图:出版商的网站|谷歌学术搜索
d, f .曾庆红,罗,j . Tang和z叮,“信息增强的图像卷积网络skeleton-based行动识别,”《2020年国际神经网络(IJCNN)联合会议,2020年,页1 - 7、美国。视图:出版商的网站|谷歌学术搜索
h·夏和x高”,多尺度混合密度图卷积网络skeleton-based动作识别,”IEEE访问9卷,第36484 - 36475页,2021年。视图:出版商的网站|谷歌学术搜索
w·彭、x香港和g .赵”学习图卷积skeleton-based人类行为识别的神经网络搜索,”人工智能程序的三十四AAAI会议(AAAI-20)美国,2020年。视图:出版商的网站|谷歌学术搜索
黄黄l . y . w .欧阳,l .王”部分级图卷积网络skeleton-based动作识别,”人工智能学报AAAI会议,34卷,不。7,11045 - 11052年,2020页。视图:出版商的网站|谷歌学术搜索
胡锦涛和E.-J z。李,“双重attention-guided多尺度动态聚合图卷积网络skeleton-based人类行为识别,”对称,12卷,不。10,1589年,页2020。视图:出版商的网站|谷歌学术搜索
Y.-F。张歌,z, c .山和l .王”更强,更快和更简单:图卷积skeleton-based行动识别、基线”第28届ACM国际会议多媒体学报》上,页1625 - 1633,计算机协会,纽约,纽约,美国,2020年10月。视图:出版商的网站|谷歌学术搜索
c .吴,吴x j ., j .难应付的“空间残留层和致密连接块增强空间时序图卷积网络skeleton-based动作识别,”《IEEE CVF计算机视觉国际会议/研讨会首尔,韩国,2019年10月。视图:出版商的网站|谷歌学术搜索
c . Si w·陈,w . Wang和l .王”注重增强图像卷积lstm skeleton-based行动识别网络”《IEEE / CVF计算机视觉与模式识别会议长滩,页1227 - 1236年,CA,美国,2019年6月。视图:出版商的网站|谷歌学术搜索
l . Shi, y, j . Cheng和h,“Skeleton-based行动识别进行多流自适应图像卷积网络”与“IEEE图像处理,29卷,第9545 - 9532页,2020年。视图:出版商的网站|谷歌学术搜索
刘y, z秦p霁et al .,“skeleton-based动作识别,利用三阶特性”2021年,arXiv预印本arXiv: 2105.01563。视图:谷歌学术搜索
m·李,陈,陈x, y, y . Wang,问:田,“共生图神经网络对3 d skeleton-based人类行为识别和运动预测,“IEEE模式分析与机器智能卷,2021篇文章ID 3053765, 2021。视图:出版商的网站|谷歌学术搜索
f r . Vemulapalli Arrate r . Chellappa”代表人类行为识别的三维骨架点在李群,”学报2014年IEEE计算机视觉与模式识别会议西北,页588 - 595,华盛顿特区,2014年6月美国。视图:出版商的网站|谷歌学术搜索
m . Zanfir m . Leordeanu, c . Sminchisescu”运动姿势:一种有效的三维运动学描述符低延迟动作识别和检测,”学报2013年IEEE计算机视觉国际会议悉尼,页2752 - 2759年,新南威尔士州,2013年。视图:出版商的网站|谷歌学术搜索
z,锅,f . Chen g .长,c,和p . s . Yu”图神经网络综合调查,“IEEE神经网络和学习系统,32卷,不。1,4-24,2021页。视图:出版商的网站|谷歌学术搜索
苏h·r·赵k . Wang,问:,“贝叶斯图卷积LSTM基于骨架的动作识别,”《计算机视觉国际会议(ICCV)悉尼新南威尔士,2019。视图:出版商的网站|谷歌学术搜索
c . Caetano、f . Bremond和w·r·施瓦兹”骨架图像表示基于树结构的3 d动作识别和参考关节,”学报2019年第32 SIBGRAPI图形,会议模式和图像(SIBGRAPI),IEEE,里约热内卢,巴西,2019年10月。视图:出版商的网站|谷歌学术搜索
阿哈德·m·m·艾哈迈德,公元安塔尔,y Makihara,和y靖”行动识别使用姿势运动学特性三维骨架关节位置,”模式识别的字母,145卷,2021年。视图:出版商的网站|谷歌学术搜索
问:Ke, m . Bennamoun s一个f . Sohel f . Boussaid,“学习剪辑表示skeleton-based 3 d动作识别,”IEEE图像处理,27卷,不。6,2842 - 2855年,2018页。视图:出版商的网站|谷歌学术搜索
a . j . Liu Shahroudy、徐董和g . Wang“时空与信任盖茨lstm 3 d人类行为识别,”ArXiv,2016年vol. abs / 1607.07043。视图:出版商的网站|谷歌学术搜索
a . Haoran宝生,a·库恩l .嘉和z鑫”骨架边缘运动网络对于人类行为的识别,”Neurocomputing卷,423年,页1 - 12,2021。视图:出版商的网站|谷歌学术搜索
Yi-F。张歌,z和w·梁”丰富的激活图卷积网络行动识别在完整的骨架,”《IEEE国际会议上图像处理(ICIP)IEEE,神户,日本,2019年10月。视图:出版商的网站|谷歌学术搜索
h . z . Liu, z, z . Wang和w·欧阳,“解开,统一图沟回skeleton-based行动识别,”《IEEE / CVF计算机视觉与模式识别会议长滩,页143 - 152年,CA,美国,2019年6月。视图:出版商的网站|谷歌学术搜索
c . Plizzari m . Cannici和m . Matteucci”Skeleton-based行动识别通过时空变压器网络,”计算机视觉和图像理解卷,208 - 209 ID 103219条,2021年。视图:出版商的网站|谷歌学术搜索

安全性和通信网络

安全、隐私和多通道数据分析社交媒体