文摘

探讨排球运动员的提取骨架信息和提供了一个基于深度学习解决方案识别玩家的行动。为此,卷积神经网络方法识别排球运动员的行动。李群骨架以来大型数据维度用于表示特征的检索模型。卷积神经网络用于学习和分类功能,以处理高维数据,减少识别过程的复杂性,加快计算。本文使用李群骨架表示模型来提取骨架的几何特征信息的特征提取阶段,几何变换(旋转和翻译)不同四肢代表表示阶段排球运动员的运动特性。使用数据集的方法是评估Florence3D行动,对MSR行动,UTKinect行动。我们的方法的平均识别率为93.00%,高于现有文献的高度关注和反映出更好的精确性和鲁棒性。

1。介绍

排球运动员的动作识别近年来获得了很多关注,由于先进的计算机视觉,人工智能,模式识别。虚拟现实、医疗康复、创造游戏,视频监控,多媒体视频检索,和其他学科都受益于这个新领域的研究。排球运动员动作识别的早期研究主要依赖于标准的RGB彩色视频。基于光流特征表示和运动信息,时空兴趣点,表示描述性特性,基于形状和静态特性表示是最常见的方式。有很多事情需要考虑,包括排球运动员的高自由度、背景混乱,摄像机运动和缩放,照明变化,和视频噪声。排球运动员的动作识别基于经典的RGB彩色视频不再是一个可行的选择。随着深度传感器的出现,如微软Kinect和华硕这款产品,两获取运动信息的方法有显著提高。使用Kinect快速和可靠地提取骨骼信息和深度信息的人类运动不仅包含更多的排球运动员的运动信息,但也有助于克服障碍,如光,体温,和身体温度变化。外部环境因素影响排球运动员的体型的变化。研究人员目前使用角改变,关节位置改变,排球运动员的相对几何关系的四肢描述基于骨骼的排球运动员的活动信息的球员。

发展排球运动员的动作识别、机器学习算法是一种流行的行为识别方法。如支持向量机(SVM)算法,提高,现在深刻地使用和其他类似的算法。越来越方便的数据采集,深入学习算法开始发光。结合深的学习特点的学习能力强,应用深度学习排球运动员的动作识别大大提高了识别效果。在人机交互,理解一个人的行动或行为是一个重要的援助来理解对方的意图,人们经常花很多时间和精力去观察和解释他人的行为。今天,随着经济和科技的快速发展,人们想要让机器理解人类行为,以便进行人机交互更自然,使机器给人类带来更好的安慰。排球运动员的动作识别的目的是让机器自动分析排球运动员的行为的可移动的数据。作者使用了运动知觉实验(1)联合位置的变化和运动的实验者。实验结果表明,人类的视觉不仅检测运动的方向,而且检测不同类型的肢体运动模式,包括活动的识别和速度不同的运动模式。实验也被认为是作为一个领域的先驱排球运动员的行为识别。扎齐奥尔斯基等。2排球运动员视为一个铰链系统连接的接头点,然后将他们的行为定义为一个连续时间变换空间的四肢。本研究的发展奠定了基础动作识别基于骨骼的排球运动员的四肢。随着Kinect和其他深度传感器的应用,作者进行了开创性工作估计排球运动员的关节位置的深度地图(3],它促进了行动研究的发展识别基于骨骼关节的排球运动员。在计算机视觉领域,研究人员定义一个排球运动员作为图解模型的骨架由头部、躯干和四肢。目前,两种排球运动员的图解模型被研究人员广泛使用,如图1

根据Turaga et al。4),排球运动员的行为识别主要是动作识别。排球运动员的动作识别技术主要包括特征提取和特征分类的两个阶段。在特征提取的情况下,早期的排球运动员的动作识别基于RGB彩色视频主要用于手动提取操作功能,如猪/霍夫特性,HOG3d特性,和上网功能5]。这个特征提取方法比较费力,主要取决于研究者的经验,发展空间有限。与Kinect的出现,研究人员开始使用关节角,关节的位置,和其他关键部件排球运动员的运动特征。近年来,基于三维特征提取方法的相对几何关系提出了四肢。这种方法的优点是,它可以更好地克服运动之间的相似性和组内差异的问题。功能分类是判断不同的行动和特色数据的过程。经典的分类器包括支持向量机(SVM) [6- - - - - -8隐马尔可夫模型(HMM) [],9,10),而贝叶斯网络(bn) [11,12]。在[13),作者提出了深刻的信念网络(DBNs),这促进了深度学习在学术界和业界的发展。作为机器学习的延伸,深度学习在图像识别领域获得了巨大的成功,并逐步引入动态视频领域的行为分析。深度学习的优势在于深度特性为大量数据学习,较强的非线性拟合能力,和高维数据处理能力,已广泛应用在特征提取和分类。目前,深度学习领域的影子行动识别、语音识别、语音情感识别和文本情感识别。

剩下的纸是组织如下。节2,相关工作进行了探讨。节3排球运动员的动作识别方法提出使用深度学习方法进行了探讨。节4,实验结果和分析。最后,本文的结论部分4

在本节中,我们提供了相关的工作。首先,现有技术用于排球运动员的动作识别中讨论部分2。1。接下来,排球运动员的运动信息采集技术章节中讨论2。2。最后,讨论了收购球员的骨骼信息部分2。3

2.1。排球运动员的技术动作识别

排球运动员的行为在人类交流,类似于他们的语言,扮演着重要的角色在传达信息。研究排球运动员的动作识别通常是模块化的方式进行的,也就是说,动作数据采集,行动特征提取和特征分类。目前流行的经典数据采集方法是Kinect体感技术和动作捕捉技术(14- - - - - -19]。行动特征提取的方法大多是基于数据来源,主要包括(1)基于RGB彩色图像的特征提取方法和深度图像,主要提取空间特征排球运动员的运动和(2)基于骨骼信息特征提取方法,主要提取骨骼和关节的位置坐标,时空变化,和肢体角度,分别。常见的方法包括时空的兴趣点(煤断层),形状上下文,3 d联合直方图(HOJ3D),四肢和非线性三维几何关系。功能分类是判断不同特性的具体行动的过程。目前比较流行的分类方法的支持向量机(SVM),隐马尔科夫模型(HMM),随机森林,和深度学习模型,如cnn和DBNs。

本文提出的框架排球运动员的动作识别方法基于深度学习如图2。在数据采集阶段,因为Kinect很容易提取排球运动员的骨信息,本文使用Kinect躯体感觉的数据采集技术。在特征提取阶段,李群骨架表示模型用于提取骨架的几何特征信息和使用不同肢体之间的几何变换(旋转和翻译)代表排球运动员的运动。功能分类,卷积神经网络(cnn)的深度学习模型用于学习和分类功能。

2.2。排球运动员的运动信息采集技术

对排球运动员的动作数据采集,数据获取适当的行动将大大促进动作识别的影响。目前,排球运动员的主要数据源的操作包括RGB-D视频数据、便携式传感器数据,深度信息排球运动员的动作,和骨骼信息排球运动员的动作,其中基于视频数据包括k[打开数据库20.,21],魏茨曼[22佛罗里达大学体育(),23],UCF101 [24,日常生活25],和YouTube [26]。公共数据库基于深度信息和骨骼信息包括MSR行动3 d, MSR行动对(27],南大RGB + D [28],UTKinect行动[29日),和G3D游戏(29日]。本文主要提取骨对排球运动员的动作识别的信息。

2.3。收购骨头排球运动员的信息

排球运动员的数据采集的骨骼信息的关键步骤是球员的运动分析,这是很有价值的分析他们的姿势和获取运动信息的变化。Kinect强大的功能是它的骨骼追踪的能力。在时间延迟范围内所允许的系统,它可以快速构建球员四肢根据他们的骨骼关节。有骨架的两个州:(1)当骷髅在某个时间是静止的,它是一个排球运动员的姿势;(2)当骨头的关节或四肢的运动空间,他们作为球员的行动或行为出现。

3所示。排球运动员的动作识别方法基于深度学习

功能分类是一个排球运动员的动作识别的关键步骤。分类器的设计将直接影响动作识别的结果。本文采用卷积神经网络学习和动作特征进行分类。李群的骨架表示模型的最大缺点是,当它代表了排球运动员的骨头,计算每一帧的骨骼的三维几何关系和四肢,然后添加骨骼三维几何关系和四肢的动作序列。这个结果在一个相对高功能维度。结合高维数据的处理能力和功能深度学习的学习能力,本节采用卷积神经网络分类操作特性。它可以减少数据处理的复杂性和节省成本的计算。此外,它可以获得更好的动作识别的效果。

3.1。卷积神经网络

卷积神经网络(CNN)的特点在于当地知觉,体重分享,和时间或空间抽样。这些特点使它可以使用更少的训练参数时使用的CNN数据训练。CNN模型降低了网络的复杂性,提高了计算速度和泛化能力,使得翻译模型不变,失真,和比例在一定程度上,使模型健壮和容错。

在CNN,多个特征图构成卷积层,和多个神经元构成特征映射。每个神经元的功能是在本地与上层的地图通过卷积的内核。在CNN的结构,深度越深,特征图谱的数量越多,特征空间越大,网络可以表示,和较强的学习能力。然而,特征图的深度和额外的数量导致过度拟合。卷积核是一个权重矩阵,用于提取特征自动根据网络模型。CNN卷积层提取不同的特征通过检查输入数据。在第一个卷积层,一些低级特征往往提取,如边缘、线条,和轮廓特征,可以作为边缘检测器。推进回旋的层越多,越进步特征提取。卷积后的大小计算功能图如下。

让输入特性图的大小×n,卷积内核k×k和卷积的滑步内核年代;大小计算如下:

在卷积过程中,输入和输出的表达式

在这个方程,f是激活函数,用来改变输入信号到输出信号。常用的激活函数是乙状结肠函数,双曲正切函数,ReLU函数,径向基函数,等等。 是改变重量, 是偏差参数。幻灯片卷积核的卷积过程输入矩阵,卷积的重量乘以相应的内核的数据在相应位置输入矩阵,并将结果添加到卷积得到最终的结果。具体的过程如图3。在图4,大小的输入特性映射的输入层4×5、卷积核的大小是2×2,和滑步是设置为1。开始滑动,神经元(输入蓝色框的范围)的特征映射旋卷与卷积核的价值输出层神经元(蓝框)。同样的,当滑动的红色框区域输入层,这一领域的神经元旋卷与卷积核红色框的值输出层的神经元。最后,卷积后,输入层的大小特征地图变得越来越小,即。3×4。

结合这一事实数据维度的特性提取摘要高,参照CNN模型(17),美国有线电视新闻网(CNN)的基本结构模型提出了如图5。在第一层,即。,convolutional layer, a group of convolution checks with the size of 13 × 13 are used to convolute the input features. Here, the number of feature maps is set to 46. The second layer is the pooling layer, which selects the max pooling method, and the pooling core size is 4 × 4. This layer is used to reduce the feature dimension and ensure the same number of feature graphs as the previous layer. The third layer is the second convolutional layer of the model, the convolution kernel size is set to 8 × 8, and the number of characteristic graphs is 78. The fourth layer is the pooling layer. The size of the pooling core is set to 4 × 4, and the pooling mode is set as maximum pooling. After the previous convolution and pooling operations, the feature dimension is greatly reduced. At this stage, using the full connection layer, the local features are connected into 128-dimensional global feature vectors. The sixth layer is the output layer. At this layer, the number of neurons is the same as the number of action categories, which is used for the final classification. To avoid overfitting during training, due to the large amount of data, this section introduces weight attenuation in the loss function, i.e., L2 regularization, whose coefficientλ是0.008。同时,当梯度减少,介绍了动量系数来加快收敛速度,并将其值设置为0.9。在实验中,网络的学习速率是0.0001。

本文实验的开放数据库Florence3D行动。每一层的大小和数量的特征映射后输入和卷积和池操作如表所示1

4所示。实验结果和分析

根据排球运动员的动作特征提取和分类,这部分验证的准确性提出了使用开放数据库Florence3D识别方法。三个数据库的实验结果表明,该方法可以实现理想的动作识别影响公共数据库。应该强调,这种方法对数据库的移植具有较强的适应性。换句话说,当模型训练在一个数据库,它可以很容易地移植到另一个数据库进行实验。没有必要redebug等网络参数网络层的数量,数量的特征图,卷积核的大小,大小的池的核心。

4.1。实验分析Florence3D操作数据库

首先,Florence3D行动的行动序列数据库由李群表示为特征提取骨架模型。特性预处理后,特征矩阵。数据库中的215个动作序列,选择115个动作序列作为训练集,选择和其余100操作序列作为测试集,根据设置的训练集和测试集(14]。本文提出的卷积神经网络用于特征识别和分类。识别率的变化随着迭代次数,如图6。该方法的平均识别率为93.00%。它可以看到从图的分析6随着迭代次数的增加,数据库操作的平均识别率逐渐趋于稳定,表明网络训练好。Florence3D操作数据库中的实验结果如表所示2。根据实验结果比较,不难发现这种方法取得了良好的识别效果。

从分析表2可以看出,排球运动员的动作识别方法在本文中可以实现更好的动作识别效果。与其他流行的动作识别方法相比,本文的效果更好。特别是,该方法的平均识别率是11%高于l . Seidenari et al。27],r . Vemulapalli [30.),和其他人,用李组框架表示的方法和支持向量机(SVM)认识到排球运动员的运动。与现有的方法相比,本文不仅达到更好的识别效果,而且消耗更少的时间在整个训练的时间。SVM不降低高维数据的维数,但本文中使用的CNN能有效处理高维数据,减少数据的复杂性,和节省计算成本。与此同时,CNN的学习能力具有良好的特性,这有利于学习和分类功能。

当使用特性的卷积神经网络学习和分类,很难选择适当的数量的特征图。如果设置特性图的数量太小,有些功能,有利于网络学习可能被忽略。如果功能图的数量设置为高值,它将提高网络训练参数和训练时间,这是不利于学习的网络模型。摘要实验是进行不同数量的特征图谱。例如,表3显示了三种情况下的平均识别结果。从表中可以看出,本文使用的CNN,当特征图的数量第一次卷积46层和第二卷积层特征图的数量是78,它可以达到更好的识别效果。

在网络训练的过程中,网络模型参数的选择将大大影响模型的有效性,例如,等关键参数的选择输入层节点之间的权重特性映射和输出层特性映射和偏差参数,这将产生不同的识别结果。在本文中,为了达到一个令人满意的识别效果,实验通过选择不同的参数进行组合(主要包括卷积核的大小不同的卷积层)。这些实验考虑action-featured的高维度数据的实际情况提取本文也把CNN模型作为参考。几个具有代表性的关键模型参数的识别结果如表所示4

从表可以得出结论4,尽管一些CNN模型与不同的卷积核大小组合可以有效地分类排球运动员的李群特征提取,分类效果存在差异。最主要的原因是,当不同的卷积核大小处理特性,获得的特征信息是不同的,相对于其他重量组合。当的卷积核大小第一次卷积层13×13第二卷积和卷积核大小8×8层,可以获得相对较好的识别结果。因此,本文选择重量参数来建立网络模型。为了阐明行动Florence3D操作数据库中该方法的识别情况,介绍了正确识别率和错误识别率的每个操作的形式混淆矩阵,如图7。根据结果提出的混淆矩阵,在6 9排球运动员的运动,运动可以完全和准确地识别。其他三个动作,2有超过80%的准确率。当两个动作相似,很容易误判而认识。例如,行动“接电话”有20%的概率被认为是动作“喝”和10%的可能性被认为是行动”读表。“所有这三个动作支持举起手和手臂,与类似的行动跟踪和高相似性的行动。

5。结论

本文探讨了排球运动员所使用的动作识别机制使用卷积神经网络(CNN)。首先简要介绍了深度学习和共同深度学习模型,然后深入探究了网络结构、工作原理、和福利的美国有线电视新闻网CNN模型之前对排球运动员的动作识别和参数设置。实验的开放数据库Florece3D行动和结果表明,该方法基于李群特性和深度学习可以达到良好的识别效果,能力强的数据库移植。与此同时,从文学与现有的方法相比,它具有更好的识别效果和鲁棒性,计算成本大大降低。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。