文摘
传统的人类行为识别(HAR)方法是基于RGB视频。最近,随着微软Kinect和其他消费阶层的引入深度相机,基于RGB-D HAR (RGB-Depth)从学者和行业吸引了越来越多的关注。与传统方法相比,基于RGB-D哈尔有鲁棒性强,测量精度高。在本文中,使用一个选择性集成支持向量机融合多通道特性提出了人类行为识别。算法结合了改进的猪基于RGB模态数据,深度运动地图局部二进制模式特性(DMM-LBP),关节和混合共同特性(HJF)的模态数据。与此同时,框架选择性集成支持向量机分类模型(SESVM)提出,有效集成了选择性的整体战略和选择的SVM分类器,从而增加基分类器之间的差异。实验结果表明,该方法简单、快速、高效的公共数据集相比与其他动作识别算法。
1。介绍
视频已经成为信息的主要载体由于视频采集设备的普及和快速发展,宽带网络。视频数据的大量出现,自动化的采购和分析内容已成为一个需要迫切解决的问题。哈尔基于视觉的主要目的是处理和分析原始图像或图像序列数据收集的传感器(相机)通过计算机,学习和理解人类行为和行为。哈尔基于计算机视觉技术已广泛应用于人类生活的几个字段,如智能视频监控(1,2[],人机交互技术3,机器人3)、视频分析(4),和人类活动识别(5- - - - - -9]。
现有的大多数人类行为识别算法是基于传统的RGB视频数据。然而,人类行为识别基于RGB信息遇到多重挑战如下:(1)复杂的背景,闭塞,影子,规模变化和不同光照条件将为识别引起巨大的困难,这也是基于RGB动作识别的难度。(2)相同的动作从不同的角度会产生不同的看法。(3)相同的动作由不同的人将会明显不同,和两种不同类型的行动可能会相当大的相似性。RGB视觉信息的这些固有的缺陷将限制人类行为识别基于RGB的性能信息。
RGB-D相机,最近微软Kinect v1和v2传感器等进行了深度图像可用于人类行为识别(5,10,11]。记录深度图像中的每个像素的深度值,而不是光强度。深度相机的引入扩展了计算机系统的感知能力的3 d视觉世界,弥补了缺乏维信息3 d对象信息包括2 d的视觉信息。与RGB视觉信息相比,深度图像可以大大减少遮挡的影响,复杂的背景,通过提供场景结构信息和其他因素。颜色和纹理不同照明条件下是不变的。从一个角度来看,如果不同的行为也有类似的二维投影,深度图像可以提供额外的体型信息来区分不同的行为。此外,Kinect还提供了一个强大的骨架跟踪算法,它可以输出每个人类联合3 d点的位置。人体的骨骼关节不会受到规模和视角的变化的影响。
根据不同类型的输入数据,哈尔技术基于RGB-D视频大致可以分为三类,即HAR基于RGB数据,深度图像数据和骨骼关节数据。
1.1。人类行为识别基于RGB图像数据
早期研究人类行为识别启发了基于RGB图像序列图像处理技术,由于丰富的RGB图像的颜色和纹理特征序列。哈尔主要是由提取时空兴趣点(STIP) RGB视频。Kovashka和好莱坞12)提出了一种基于层次的人类行为识别方法(13)模型。该方法结合了HOG3D [14),猪(面向梯度直方图),霍夫(光流的直方图)时空域描述符和引入了多核学习模型。Melfi et al。15)扩展视频行为识别的Harris角点检测算子。首先,提取运动目标的轮廓,然后是3 d哈里斯的兴趣点提取哈尔的移动物体。在[16),视频帧的兴趣点的密集采样在不同尺度空间的视频帧形成密集的轨迹。此后,特性,即猪,霍夫,和MBH(运动边界直方图),轨迹的提取。最后,使用支持向量机对特征进行分类。
最近,由于机器学习理论的发展,我们也可以使用深度学习从RGB视频数据中提取特征,除了利用时空兴趣点提取视频图像特征。
Gammulle et al。17获得视频帧特性通过卷积神经网络(CNN),然后使用双河长短期记忆(LSTM)训练意识到哈尔的特性。Bilen et al。18)提出了将视频序列转化为一个动态的图像使用等级池技术,进一步使用CNN模型提取特征动态图像的HAR。Arif et al。19提出了运动图的概念。首先,3 d CNN网络用于提取视频特征,然后视频帧的功能集成到移动地图。这些步骤之后,LSTM方法用于提高哈尔的准确性。Majd和Safabakhsh20.)首先获得通过美国有线电视新闻网CNN视频帧的特点深入学习网络。此后,CNN的特性被发送到内核交互相关(KCC)滤波器实现自动估计的运动信息。
与手动设计动作特性相比,虽然视频特征提取自动通过深入学习,动作识别的准确性也增加了。然而,由于不清楚学习的深度学习机制,提取的特征的稳定性相对较差,和大量的参数调整实验需要手动进行。因此,基于深度学习的方法在实际应用中有一些局限性。
1.2。基于深度图像的HAR
哈尔基于深度图像数据主要使用RGB图像特征提取方法提取的局部和全局特征时空的体积。与RGB图像相比,深度图像对光照变化不敏感。此外,它包含丰富的三维结构信息。然而,深度图像也有一些缺点。由于某些因素,如特定的材料,反射和干扰,Kinect无法估计的深度场景中物体的某些部分。这导致的损失获得的深度图像的一部分,形成了几个洞。此外,深度图像通过Kinect缺少对象的颜色特征,丰富的声音。这些因素很难从深度图像获取强大的功能。灵感来自煤断层RGB图像序列的特征提取算法,夏和Aggarwal21]获得深度时空兴趣点(DSTIP)的深度图像,通过二维高斯滤波和一维伽柏过滤。基于这一点,深度长方体相似特性(儿童家庭及教育部门)是哈尔的提取。杨和田22)提出了一个特性,即超级法向量来表示深度图像序列。功能结合了当地的运动信息和形状信息的深度图像序列和达到突出MSRDailyActivity3D和其他数据集的实验结果。Reza et al。23)提出了一种加权深度运动地图(DMM),然后提取猪特征加权DMM的HAR。
由于缺乏深度图像的描述图像的颜色,质地,和其他细节,和CNN神经网络模型主要是为了提取图像的颜色和纹理特征,利用CNN模型提取深度图像的特性不能达到令人满意的结果。此外,深度学习模型需要大量的训练数据。然而,大多数的深度图像数据集的数据量小,不能用于大规模培训使用CNN和其它神经网络。因此,在这一领域的研究成果相对较小。
1.3。哈尔基于骨架关节数据
人类行为的识别基于骨架关节功能可以追溯到移动光显示(MLD)实验约翰逊等。由于传感器的限制,早期的描述骨架关节功能结果在高噪声的联合点,导致较低的HAR的准确性。由于计算机视觉技术的发展,特别是Kinect,人们可以实时得到健壮的接合点。杨和田24)提出了一个骨骼特征表示方法,它是通过不同框架之间的框架节点的位置不同。首先,三种提取骨架节点位置差异,差异的静态姿势,运动,和偏移量。此后,三种类型的骨架的不同特性相结合,和EigenJoints特性通过PCA降维。最后,进行动作识别的朴素贝叶斯分类器。夏et al。25)提出了使用三维直方图的关节功能实现的描述框架行动。12个主要功能是项目数据的人体关节的球面坐标系统,然后获取他们的分布直方图在球面坐标系,然后使用线性判别分析减少获得特征的维数。最后,隐马尔可夫模型用于分类和表达功能。
研究者也尝试使用从人类骨骼数据深度学习学习功能。该算法的主要思想是代表人类骨骼数据到一个合适的图像形式,然后从骨骼中提取特征图像使用CNN和其他人类行为识别模型。然而,当前深入学习理论的约束很难把一个适当的骨架图像。Zhang et al。26]提出了多层LSTM网络骨架特征学习和采用光滑的部分融合方法融合的骨骼特征多流道LSTM学习,它改善了人类行为识别的准确性。李等人。27)提出了3 d skeleton-based行动识别使用神经网络小说共生图,共同处理动作识别和运动预测和使用基于操作捕捉行动模式。
短暂,尽管HAR方法基于最先进的RGB-D进步巨大,他们的应用程序的可靠性在现实的工程场景仍温和。这是由于较大的组内差异和小年级之间的差异的几个动作,动作速度的变化,极端的计算复杂性。这项工作充分利用多通道信息通过Kinect传感器有效地提取人类行为的特点。此外,一个集成multilearner策略采用了分类展示特殊的推广能力。
本文的其余部分组织如下。部分2提出了一种新颖的选择性ensemble-based支持向量机(SESVM)方法融合哈尔的多通道特性。部分3解释了多通道特性的提取从RGB-D图像采用不同的方法。节4、选择性ensemble-based SVM分类识别框架部署特性。G3D数据集上的实验结果和康奈尔大学活动数据集60节中给出5,显示了该方法的可行性和性能。最后,一个简短的结论,指出在部分给出进一步的工作6。
2。该框架
Kinect传感器由微软能提供RGB和场景的深度信息,除了人体的骨骼关节的位置。深度图像被Kinect传感器可以提供light-invariant前景信息深度几何结构,他们的优势质地,颜色不变性,和无视照明的影响,环境,和阴影。本文利用多通道Kinect传感器提供的数据和提取三种不同特性的描述符操作。因此,一个集成multiclassifier算法采用分类利用不同特性的优点。
图1显示了该方法的系统配置。它实现了高效计算从处理简单的特点,同时保证鲁棒性和识别能力的特性。特别是,我们的框架由以下步骤组成:(1)获得同步的RGB、深度和联合Kinect的图像传感器(2)输入RGB图像转换为灰度图,然后提取改进的直方图的梯度特性(3)计算深度运动地图局部二进制模式(DMM-LBP)从深度图像,然后提取joint-based混合共同特性(HJFs)获得的三维骨架的形象(4)选择性ensemble-based训练支持向量机(SESVM)使用样本集结合特性(5)实现相同的提取工艺在动作识别,预测图像输入成SESVM识别,识别结果
总结了本文的主要贡献如下:(1)一种新型选择性ensemble-based支持向量机(SESVM)方法提出了基于多通道信息的描述人类行为的特性。这种方法能够描述人类活动的各种观点和在公共数据集已被实验验证。(2)改进RGB-based面向的柱状图的梯度(RGB-HOG)特性采用本文是不变的几何和光学图像的变形。(3)地的DMM-LBP特性创建维护人类行为的动态特性具有良好的局部不变性。(4)joint-based混合共同特性(HJF)已经被用来提供关于人类活动的空间结构信息。(5)相关系数分类器选择算法(CCCSA)已经被用来从现有的选择分类器构造系综分类器。这是为了加快分类器的预测速度,减少存储空间的需求,进一步提高分类精度。通过使用更少的分类器,预测的速度可以加快,因为预测的计算开销减少。此外,由于小数量的个体分类器在选择性集成学习系统中,存储开销也减少了,因为只有少量的个体模型需要保存。
3所示。特征提取
本节介绍了各种形式的特征提取方法。特别是,节3.1描述了RGB模式的改进的猪功能,部分3.2介绍了DMM-LBP特性的深度模式,部分3.3解释了HJF关节形态特征。
3.1。RGB-HOG特性
中间人和组织首次提出了猪的特性来检测行人在静态图像28]。此后,多个研究人员提出改进的猪功能(29日]。
最近猪算法是一种特征提取方法用于目标识别的研究。然而,猪特征提取算法只能计算一个像素的梯度方向信息,这是不够全面的,具有一定的缺陷描述目标的定向功能。
我们使用了可操纵的滤波算法可以获得多向信息弥补猪算法的不足。这种方法扩展了single-directional的像素信息multiple-directional信息。
弗里曼和阿德尔森(30.首次提出可操纵的过滤器,混淆了图像通过生成模板在不同方向的边缘图像。卷积过程增加有效像素的重量,减少无效的像素的权重加权操作。
可操纵的滤波器的一般形式给出 在哪里是基地的数量过滤器和的我基本滤波器。此外,代表了方向滤波器的系数相关学位 ,和的过滤器方向。
我们使用的方法获得多向滤波器的线性组合的一组基本滤波器和二维高斯函数的推导。给出了相应的表达式
给出的具体表达式 并给出相应的系数 在哪里 和 ,分别表示图像像素的二阶导数在相应的方向,也就是说,根据过滤相应的方向。在任何方向的振幅信息可以计算的线性组合三个表达式。显示为线性组合后的计算公式
我们结合了可操纵的滤波算法与传统的猪算法。首先,可操纵的滤波算法被用来计算方向数和振幅信息价值最高的方向,然后猪算法获得统计方向直方图特征。算法流程,给出了具体的计算,在图中进行了描述2。
猪的实现序列特征提取算法可以描述如下:步骤1。规范化的伽马空间和颜色空间。为了减少光照的影响,首先需要归一化图像。当地面接触结构强度的贡献相对较大。因此,这种类型的压缩可以有效降低当地的变化,阴影和光照的图像。第一次转换为灰度图像的颜色信息的贡献甚微。γ压缩公式给出 在哪里 是输入RGB图像。γ的值通常需要1/2。步骤2。让 灰度图像的像素。构造两个互相垂直的方向可控的过滤器像素(过滤器的方向和 ,分别为, ),并记录它们和 ,分别。然后,点的梯度值在和方向给出 步骤3。计算图像的梯度。计算梯度方向的水平和垂直轴,每个像素的梯度方向。衍生品的计算可以捕捉轮廓,人物,和某些纹理信息的图像,除了进一步减少光照的影响。一个像素的梯度 在给定的图像 在哪里 , , ,和 垂直的水平梯度,梯度,梯度幅值、像素的梯度角 ,分别。步骤4。构建一个面向直方图的梯度为每个细胞。这为当地提供了编码图像面积和能够维持人体姿势的不变性和外表的形象。我们将图像分成许多单元细胞,和每个细胞都包含6例如,6像素。假设我们使用9-bin直方图来收集这些6的梯度信息6像素,即。,to divide the gradient orientation of the cell of 360 degrees into nine oriented blocks. For example, if the gradient orientation of the pixel is 20–40 degrees, then the 2nd histogram bin count will be increased by 1. By doing so, every pixel in the cell is projected with a weight onto the histogram by its gradient orientation (mapped into specific angle range). Consequently, the histogram of the oriented gradient of the cell is obtained, which is the 9D feature vector of the cell (since there are nine bins).步骤5。面向连接细胞块和规范化的梯度直方图在每个块。的强度梯度变化明显由于变化在当地的光照强度和前景和背景的对比。因此,梯度强度需要规范化。正常化可以进一步压缩照明,阴影和边缘。实现顺序如下:(1)结合单位细胞大,空间连接块;(2)连接羽毛向量的所有细胞块生成块猪的特点。因为有重叠块中,特征向量的每一个细胞可能会出现多次在最后的特征向量。我们称之为规范化块描述符(向量)“猪描述符”。步骤6。收集猪的特性。最后一个步骤是收集所有重叠块的猪的特性测试窗口,组合成最终的特征向量用于分类。
3.2。DMM-LBP特性
随着RGB-D相机的发展,一些动作识别算法提出了基于深度图像。深度图像可以用来表示物体的三维结构及形状信息。深度图像投射到三个正交平面(31日)形成深度运动地图,然后梯度直方图提取操作特性。具体地说,使用前视图,俯视图,左视图,人体是定位在笛卡儿坐标系统。此外,人体的深度数据预计将前面的视图,俯视图,分别和左视图。每一帧动作可以表示为 ,在哪里 ,和代表人类的投影在前视图,俯视图,分别和左视图。对深度数据的视频N框架,与数字特征计算 在哪里是时间序列帧。代表帧的投影在视图 ,和和分别代表起始帧和结束帧。
几个深度图像中的像素值0,这并不有利于动作特性的描述。因此,应该执行的操作的每一帧图像。进一步过滤DMM的像素,局部二进制模式(LBP)操作上执行的价值。枸杞多糖是一种有效的纹理特征描述算子。首次提出了Ojala et al。32]。它是用来提取纹理特征。其优点是具有较高的鲁棒性照明和旋转的变化,和提取的特征是局部图像的纹理特征。
对于一个给定的点 在图像 ,枸杞多糖可以计算的 在哪里米采样点的个数。的坐标可以表示为 在哪里是像素的采样半径 。
深度图像的LBP特征提取的算法如下:步骤1。感兴趣的区域提取深度图像的检测窗口。 步骤2。得到的投影视图深度地图在三个不同的方向。 步骤3。计算深度运动地图投影的视图。 步骤4。把检测窗口细胞。 步骤5。在每一个像素 ,相邻的八个像素的像素值进行比较。如果周围像素的值大于价值的中心像素,像素的位置被标记为1;否则,它是0。因此,8分的域可以比作生成8位二进制数;也就是说,窗口的中心像素的枸杞多糖价值。 步骤6。计算每个单元的直方图,即。,的frequency of each number, and normalize the histogram. 步骤7。最后,每个单元的统计直方图连接成一个特征向量,这是整个深度图像的LBP特征向量。
DMM-LBP特征提取算法流程如图3。
3.3。HJF特性
RGB-D传感器可以快速获得人类的共同立场和三维骨架通过深度图像信息。这些数据包含丰富的信息,带来了新的思想和方法HAR。例如,微软发布了Kinect v2,为我们提供了20人的3 d骨点的信息,然后提取这些信息的特征点。此外,功能维度将变得微不足道,这有利于加快计算和提高实时性能。
不同的人类活动不仅反映在联合位置信息的差异也在联合的能量特征点序列。我们使用联合动能特性、方向变化特性,势能和关节功能的混合共同特性。
计算动能信息人类共同的点,有必要获得人类联合点的三维坐标 。因此,根据两个相邻帧的坐标信息的变化,人类共同的动能点在计算每一帧 在哪里的动能我th联合在框架和是动能参数。在这个实验中,可以作为1。是两个相邻帧之间的时间间隔。
人类行为是当前和过去的职位的相关信息。在不同的操作状态,关节运动的速度随机变化随着时间的推移,和变化的方向也不尽相同。根据人类3 d关节的坐标点,每个关节的方向变化向量点计算人类的运动特性,给出 在哪里代表的方向变化向量我联合点框架相对于我联合点在前面框架。此外, , ,和代表联合的空间三维坐标点框架。
我们结合关节动能和关节的功能方向改变成一个新特性,它被定义为混合共同特性,下面给出
3.4。特征融合
特征融合是一种有效的方法来明确区分人类行为特性。目前,主要的功能包括进行像素级融合方法,部件级和决策级融合。我们雇佣的特性融合在这项研究中,就是能保留和融合的有效识别的信息功能,除了有效地消除冗余特征信息和特性较差的特殊性。特别是RGB-HOG、DMM-LBP HJF特征融合到描述性特征的行动,也就是说,
与单一动作特性相比,这些复合功能显示良好的鲁棒性的优点集合的每一个功能和更适合描述人类行为的特性。
4所示。识别方法
最近,整体学习理论和算法的研究一直是机器学习领域的热点。建设一个学习机器分为两个步骤,即生成步骤和合并步骤。关键是要有效地生成一个基地学习机器具有较强的泛化能力和巨大的差异。另外,基础学习机器的准确性和多样性是两个重要的因素。一般来说,整体学习机器的预测效果明显优于单一基础学习机器。然而,预测整体学习机器的速度显著慢于单一基础学习机器。此外,随着基础学习机器数量的增加,所需的存储空间急剧增加,这对于在线学习是一个严重的问题。周et al。33)提出了“选择性合奏”消除的基本学习者表现不佳,因此,选择特定的构建设置更好的预测效果。
我们建议选择性ensemble-based SVM分类识别框架。假设 给定每个训练样本训练集吗 ,它的输入变量是行动的特征向量 ,输出变量是行动的范畴 ,和是action类的数量。与此同时,让 表示验证设置的能力 。表1显示了选择性ensemble-based SVM分类算法(SESVM)。
选择性集成学习假设多个基本学习机器已经生成,并且只选择其中的一些构造最后合奏基于一定的选择策略。选择性集成学习的基分类器之间的差异中扮演一个重要的角色在解释multiclassifier系统的工作机制和构建有效的整体系统。当前多样性措施可分为两种,即计算(i)成对多样性措施两种基本分类器之间的多样性和(2)未配对的多样性措施针对所有基本分类器。成对的多样性的措施包括问统计、相关系数、分歧测量和误差测量的两倍。分歧测量方法在这项研究中,因为它功能简单的计算,在大多数情况下广泛应用,有利的结果。假设和是两种不同的分类器给定表是谁的关系2。
相关系数的测量可以被定义为
表3显示相关系数分类器选择算法(CCCSA)。因此,当有两个或更多值相等和最小 ,应该有一个优先级排名 ,这是 ,例如, 当和是相等的。后获得过滤基分类器设置,关键问题是组合决策的输出。的融合决策多分类器系统的输出,有两种方法34),即类基于标签的决策输出方法和支持函数fusion-based决定输出方法。
我们采用了基于信心由于多数表决的简单性和有效性类标签融合。每个分类器已被视为简单的投票方法完全平等,然而,在实践中可能有所不同。因此,分类器的性能降低被赋予较小的权重而更好的性能得到更大的权重在大多数基于信心投票。基分类器设置 已经被CCCSA上映后获得的。然后,每一个基本分类器的投票权重确定基于其精度。一个基本分类器的投票权重取决于它的错误率 ,这是定义为
注意,如果谓词 是真的, ;否则,它是0。基本分类器的重量可以被定义为
如果接近0,那么是一个较大的值。如果方法1,那么是一个大型的负值。的分类结果的集合N分类器给药
5。实验结果
在本节中,实验使用G3D数据集和康奈尔大学活动数据集进行60。结果和分析已提交给显示了该方法的可行性和性能。
5.1。数据集
G3D数据集(35)包含20个类别的人类行为,已由10人。20类行为是穿孔,穿孔,踢,踢左边,防守,高尔夫,网球正手,网球反手,网球发球,把保龄球,目的和消防枪,走,跑,跳,攀爬,克劳奇,驾驶一辆车,波瓣,鼓掌。康奈尔大学活动数据集60 60 (cad) (36)包含12个动作,由4人5不同的环境。这些行动冲洗口,刷牙,戴隐形眼镜,在电话中交谈,饮用水,打开容器,切,搅拌,在沙发上,沙发上放松,写在白板上,电脑上工作。G3D数据集的行动和cad 60包含图像信息在三个不同的模型,即RGB图像,深度图像,和骨架关节图像,如图4和5。
(一)
(b)
(c)
(一)
(b)
(c)
5.2。实验和结果
在本节中,我们验证该方法的可行性和有效性两个实验。交叉验证实验中采用训练分类模型并测试其性能。首先,我们测试G3D数据集上的识别率和cad 60,基于单一特征和算法。在第二个实验中,我们比较方法来替代算法。第一个实验的结果,提出了使用混淆矩阵。的元素 动作类的比例是被归类为行为的类 。因此,分类的结果是大量的对角元素更好。
在数据6- - - - - -8,使用单一特征的识别利率G3D混淆矩阵数据集已经说明。图9是该方法的识别率使用多通道融合的信息。从实验结果如图6- - - - - -9,我们可以看到,使用组合特性识别精度高于使用单一功能。这表明人类行为的表示特性直接影响人类行为识别方法的识别效果。单一特征往往是受人类影响外观、环境、相机设置,和其他因素,识别效果是有限的。从图9,我们可以看到四个行动的识别率(防守,网球发球,扔球,鞠躬和鼓掌)是100%,和三个动作的识别率(走、跑、跳)很低,很容易混淆。通过分析,发现等行为走,跑,跳,动作功能,能区分这些行动是运动频率,这需要使用多个帧的信息之间的关系和相邻帧的特点,当训练动作模式。
在数据10- - - - - -12使用单一模态特性,识别率在cad 60所描述的混淆矩阵。图13显示了该方法的识别率在cad 60使用多通道特性。通过比较,很明显,该方法实现的一个很好的识别率91.7% cad 60。
表4显示了使用单一模态特性识别利率和多通道特性的精度。它可以观察到,该方法的识别率高于使用多通道特性识别这些方法使用单一模态特性。
在第二个实验中,我们比较了提出方法来替代的。表5展示了我们的算法之间的比较,提振,装袋,支持向量机(SVM)和人工神经网络(ann)。因此,基于多通道特性的综合multilearner识别算法取得了最高识别率为92%。
表6比较平均类准确性的方法与结果报告的其他研究人员。与现有方法相比,我们的方法优于最先进的方法。注意,精确比较的方法是困难的,因为实验结构,例如,不同的策略培训,与每个方法略有不同。
6。结论
哈尔本文提出一种新颖的方法,这是一个具有挑战性的研究课题。Kinect传感器已被部署到收购RGB-D图像数据,和多通道特性(RGB-HOG特性、DMM-LBP特性和HJF特性)提取。选择性ensemble-based支持向量机(SESVM)已经被用来从不同的学习者充分利用偏置的影响。实验进行了标准的公共数据集和取得了良好的识别水平。然而,大量的标记所需的视频训练样本分类器实现良好的泛化能力。这需要丰富的手工标记的工作,因此增加了实际困难。因此,我们未来的工作将集中在利用丰富的未加标签的视频样本,提高系统性能。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由安徽的大学自然科学研究项目,在批准号KJ2020A0660;安徽省自然科学基金,在批准号2008085 mf202;安徽省重点实验室开放项目的多通道认知计算(安徽大学),在批准号MMC202003;合肥大学的主要教学和研究项目,在批准号2018 hfjyxm09;安徽省教育部门的省级教学研究项目,在批准号2020 jyxm1584; the National Natural Science Foundation of China, under grant nos. 61662025 and 61871289; the Zhejiang Provincial Natural Science Foundation of China, under grant nos. LY20F030006 and LY20F020011; the Scientific Research “Climbing” Program of Xiamen University of Technology, under grant no. XPDKT20027; and the Humanities and Social Sciences Research Foundation of the Ministry of Education of China, under grant no. 21YJAZH065.