手运动和姿势识别网络中的校准相机

文摘

本文提出一个手势识别相结合的方法建立轨迹和手的姿势识别。手部是分段的固定距离CbCr凌乱和移动背景和追踪的卡尔曼滤波器。两个校准摄像机的跟踪结果,3 d手运动轨迹可以重建。然后由动态运动建模原语和支持向量机训练轨迹识别。利用尺度不变特征变换,提取特征分割手的姿势,和手的姿势识别提出了新策略。介绍了姿态向量识别手势作为一个整体相结合的识别结果运动轨迹和手的姿势训练支持向量机的基于手势的手势识别向量。

1。介绍

结果表明,近90%的日常交流是语言1]。手势一直是一个强大的通讯工具在人们的日常生活。随着技术的发展,手势识别正成为一个重要的组成部分在创新的应用程序中,如人机界面,机器人tele-control,手语解释。摘要手势是指移动轨迹和手的姿势代表的手的形状和外表。

几十年前,人类和计算机之间的交互是通过命令行接口键盘条目。通过技术进步,介绍了其他类型的用户界面的设备(如鼠标),可以提供替代传统的人机接口的设计。此外,结果表明,65%的人类交流涉及非语言手势(2]。为听力受损的人,这个比例上升到100%。因此,手势,作为最主要的通信工具之一在我们的日常生活中,可以表达丰富的沟通模式与丰富的编码信息。开发一个手势界面丰富人机界面不仅提供了一个更方便的方法对听力受损,还可以增强和扩展当前的和现有模式的接口。

手势识别可以分为两大类:基于ambient-based。基于手势识别需要用户戴手套等设备,标记,或其他工具以获得手或手臂关节角对应的空间位置(3- - - - - -6]。数据手套,一个3 d建模手设计(7]。这手套措施使用模拟弯曲手指弯曲的角度传感器。采用了色彩斑斓的手套(5)根据它的颜色重建手的姿势模式。由于电流传感器设计的进步,基于手势识别手势的收集相对准确的信息。此外,这样的手势识别方法是健壮的照亮变化的各种应用手势识别的主要缺点。

ambient-based手手势识别、传感器捕获的图像场景和流程所需的信息需要确定手的动作和外表。为RGB类型传感器、姿态信息主要是依赖于手颜色或纹理(8- - - - - -12]。RGB-based系统的一个缺点是它对光照变化的敏感性。因此,如HSV色彩空间(13],YCbCr [14)、CIE实验室或CIE爱可以利用。的分类方法,如贝叶斯分类器与直方图技术(15和高斯分类器16,17)通常被介绍。还有其他的手势识别的方法。例如,为了解决与RGB图像相关联的一些限制,介绍了深度传感器为了捕捉手运动(18- - - - - -20.]。深度传感器的输出可以被编码为灰度图像,在强度对应于对象和摄像机之间的距离。手势识别,因为手通常是最接近的移动物体到相机,可以定义一个合适的阈值灰度图像,以消除背景噪音。红外相机结合回射的标志也是为了确定使用的位置和姿态的手的一个相机(21]。在本文中,两个校准RGB相机是用来记录手势。这些摄像机是利用稳定的照明条件下。由于相机的曝光补偿,YCbCr颜色空间采用手区域分割。

作为一个最灵巧的手,人类身体的一部分,有27个自由度可以占领各种形状和外表。提取的手从其余的形象,颜色线索和运动线索通常用于从背景中手。肤色通常更独特、更敏感,照明色相饱和度的变化比在RGB颜色空间(9]。大部分的颜色分割方法依赖于直方图匹配(23,24]。颜色提示不健壮的光照变化,经常导致未被发现的皮肤区域或错误检测nonskin区域。为了解决这样的问题,一些假设,如区域大小(规模过滤器)或特定的空间位置(位置过滤器)。另一个解决此类问题是允许用户戴手套有独特的颜色(5)或特殊标记(LED灯(3,25),荧光材料(26])或干净的背景噪音不大(12]。这些方法是健壮的光照变化,但失去的意图解放从手套的手。运动线索通常用作分段的主要组件之一移动物体如图像帧的手或胳膊。它们也可以用于分段手势从静止的背景11,27,28]。

特征提取是非常重要的姿势识别。最简单、最常用的功能是手可以很容易地提取的轮廓。轮廓是一组常用的功能。几种不同的边缘检测方案可以用于生产轮廓9]。轮廓通常采用与3 d模型,构建基于手的形状和结构。手的姿势可以被比较的相似性检测轮廓和生成轮廓基于手模型(29日,30.]。在[29日),他们建立一个3 d模型与27个自由度模型的表达。手势识别是通过比较生成的基于模型和输入手的轮廓图像。另一个常用功能的姿势识别图提示。姿势可以识别五个指尖的位置的基础上,通过提取标记(LED照明灯3,25]或空间颜色)或在轮廓凸包(31日]。还有其他功能探测器,可以应用于实现姿态识别,如尺度不变特征变换(筛选),这是对光照变化,规模和方向变化(32- - - - - -35];Haar-like功能,将手姿势转换成Haar小波变换的系数向量(36];和方向直方图(37]。

手势是表现在四个方面:手的形状,位置,方向,和运动38]。相同的语义路径通常是在不同尺度、速度、和形状由于个体差异。统计模型,隐马尔可夫模型(HMM)被发现在时空的时间序列建模效率相同的手势有不同的形状和持续时间(39,40]。其他特征提取方法如高斯混合模型和主成分分析(41,42)可以用来增强HMM识别过程。有限状态机(FSM)类似于嗯模型手运动在一个时空配置空间的有序状态(8,43]。提出的动态运动原语(DMP) (44)是用于(43)2 d轨迹识别,取得了一个令人印象深刻的98.06%的准确性。DMP编码的姿态路径权重向量保持拓扑结构的路径。DMP的好处是(a)的时空变化的姿态路径和(b)容易调整基于手势的权向量的维数路径复杂性适应不同的应用程序。

手的姿势识别是手势识别的另一个关键部分。模板匹配是一个简单的姿势识别方法,并可以很容易地添加或删除模板类。提取特征的手的姿势,在轮廓凸包(31日]或指尖检测使用圆形面具作为相关技术(45可以使用。然而,这些识别方法,基于轮廓或轮廓通常需要一个干净的背景,手可以分割。在我们的例子中,手的姿势是一个杂乱和移动背景和使用颜色YCbCr空间分割。有时,手不能从背景中分割出来。在这种情况下,一方面可以作为部分堵塞。因此,特征检测器对光照变化和部分遮挡是必要的。可以这样的尺度不变特征变换(SIFT)特征检测器和描述符也是强大的规模和方向变化。此外,它健壮一些仿射变形在允许的范围内,可以受益的姿势识别。这是由于这样的事实:手和摄像机之间的相对位置的变化会导致仿射畸变之间的输入手姿势和体态模板。在我们的工作中,筛选用于特征检测器和姿势识别。 Combining recognition results of gesture path and hand postures, a gesture vector is proposed for gesture recognition [46]。

摘要手势是指移动轨迹和手的姿势代表的手的形状和外观。手运动也被称为姿态路径。两个校准相机是用来记录的手势。这些摄像机是利用稳定的照明条件下。由于相机的曝光补偿,YCbCr颜色空间采用手区域分割。本文也只集中在形状和运动自手位置和姿态参与身体上下文不考虑我们的工作。

2。预赛

本节给出了初步分析和结果获得有关论文的主要贡献。两个预赛,三维坐标重建和分割,介绍了。三维坐标重建世界空间中的一个点的方法使用两个校准相机提出了部分2.1。部分2.2介绍和实验比较了几种方法的肤色分割和从背景中提取手部的方案。

2.1。摄像机标定

两个校准相机是用来捕捉手运动的重叠视野重建3 d手运动轨迹。两个摄像头的设置如图1。相机和世界坐标之间的关系图2。基于针孔相机模型,一个点之间的关系在世界坐标和投影在图像平面上的相机所示(1)。投影的关系在相机和相同的点制定本法(2)。

内在矩阵,和 ,分别计算了相机标定为MATLAB工具箱(47)在两个摄像机。外在的矩阵,和 ,代表着旋转和翻译世界坐标系与摄像机坐标系之间,和 ,分别。

本节的目标是重建一个点的位置在世界空间利用其投影图像平面上的两个校准相机。目标是重建的坐标基于和在(1)和(2)(这将导致4个方程三个未知数)。的坐标可以计算三个未知数。根据实验装置的几何,特定的值 , , , , ,和被计算为

实验评价,一盒由透明塑料两摄像机放置在重叠视图。这个盒子的尺寸图3。图4显示了两个不同的观点被摄像头。

表1列表8个顶点的坐标的图像平面和重建的3 d坐标在物质世界。地面真理的八个盒子角落也在此表中列出。消除任何坐标系统之间的位移误差,八个角点之间的相对位置在盒子上计算并与地面真理。表中列出的结果2这也显示值之间的相对误差。


(像素)	(像素)	恢复三维坐标(cm)	地面真理(厘米)


点关系	恢复(cm)的距离	地面真理(厘米)	错误(厘米)

2.2。手分割

一个高效的手分割方法对视觉跟踪是成功的关键,进一步的姿势识别。可能存在各种各样的手出现在不同的姿势,角度和方向。颜色提示是一种有效的工具来识别背景的手。然而,分段从杂乱的背景是非常具有挑战性的48)由于存在不同的皮肤颜色与人的肤色不同光照下也可以改变。在本节中,一个合适的颜色空间表示的皮肤颜色是探索;位置和尺寸约束添加到定位手部。

给定一个单色的手部或不同的颜色背景,手部可以通过阈值分割的背景颜色。杂乱的背景,里面有多种颜色包括摄像机视图。人体皮肤有相对一致的颜色是不同于许多对象的颜色(49]。因此,皮肤颜色可以是一个重要的线索将手从背景区域。一个合适的颜色空间和分类算法是必不可少的成功和有效的皮肤分割。皮肤分割了许多颜色空间在前面研究[13- - - - - -15]。红绿蓝(RGB)颜色空间对光照的变化很敏感,这是手分割效率较低。Hue-Saturation-Value (HSV) [13]和YCbCr [14更健壮的比较RGB色彩空间,因此广泛用于皮肤分割与不同的照明条件。

存在不同的分类算法,如分段线性分类器(14,50)和贝叶斯分类器与直方图技术(15为皮肤分割。分析和比较的皮肤分割使用颜色像素分类(49)展示不同的皮肤颜色表示和分类的性能。此外,基于贝叶斯分类器RGB, 3 d高斯混合(RGB)和固定距离CbCr显示所有获得良好的表演在一个共同的数据集(49]。本研究复制在我们基于三种肤色分类器实验装置。贝叶斯RGB分类器和3 d RGB高斯混合分类器训练在[使用方法和数据报告15]。固定距离CbCr分类器( 和在()获得使用方法报告14]。图5(一个)一个手势视频中显示了一个典型的框架。使用贝叶斯RGB肤色分割结果,3 d RGB高斯混合,固定距离(CbCr)分类器数据所示5 (b),5 (c),5 (d),分别。固定距离CbCr分类器给最好的结果在三个分类器,从准确的皮肤分割图表示5。

(一)原始图像

(b)贝叶斯RGB分类器

(c)高斯分类器

固定距离CbCr (d)

我们评估了固定距离CbCr分类器在其他几个样本用手势帧不同的肤色、照明条件和背景。表3显示了分割的结果。在我们的研究中,房间光线代表现有的荧光照明条件(即在我们的实验室。,30.0- - - - - -500Lux measured using standard light meter (Reed LM-81LX), held vertically at the position of the hand). The强烈的光代表现有的房间如前所述光加上额外的标准LED台灯指向主体(即。,500 - 800勒克斯测量使用标准照度计(Reed lm - 81 lx),垂直握住手的位置)。剩余的这项研究中,固定距离CbCr分类器采用皮肤分割为分段的手在我们的系统混乱和移动背景。类似于其他分割方法,固定距离CbCr方法仍然可以导致出现一些背景噪音(blob分割结果在表中显示3)。在我们的研究中,一个上规模限制分段介绍了气泡的大小(即。,3000像素),所有的噪音blob小于约束将被消除。


图像获取条件	原始图像	分割结果

光(我)房间 (2)300 - 500勒克斯 (3)较轻的皮肤颜色

(我)强光 (2)500 - 800勒克斯 (3)较轻的皮肤颜色

光(我)房间 (2)300 - 500勒克斯 (3)较轻的皮肤颜色

(我)强光 (2)500 - 800勒克斯 (3)深色皮肤的颜色

光(我)房间 (2)300 - 500勒克斯 (3)深色皮肤的颜色

3所示。手跟踪和轨迹重建

在前面的小节中,手blob分段,在一些不理想的情况下,其他还包括皮肤面部和颈部等领域作为分割过程的一部分。由于手部的相似之处和其他皮肤区域共享的各种属性,如形状和颜色,计划涉及位置约束采用单独的手从其他皮肤斑点。卡尔曼滤波器(KF)是用来跟踪和降低其他皮肤区域的影响姿态和轨迹识别。根据跟踪结果,手的运动轨迹可以重建。

3.1。卡尔曼滤波的应用

卡尔曼滤波器(KF) [51)已广泛应用于计算机视觉社区为对象跟踪52]。在这里,一个状态的简化表示和时间被定义为重心的位置和速度的blob,还是在哪里代表的重心的像素值手团,由黄色的边界框计算图6。生成的边界框是最大分四个方向,包括,,,,的手blob。关键是用一个向量表示 ,在那里和边界框中心的像素值是由红十字会表示。和显示的速度手blob的方向和 ,分别在框架。滤波器的实现包括两个步骤,预测步骤(更新)和校正步骤(测量)。为每个视频帧,手的位置预测从先前的帧。根据测量KF模型修改。图7显示在KF迭代的概念图。由于KF是一个递归估计,预测步骤,计算下次估计状态的步骤只需要估计状态和当前时间步的测量。

例如,可以被定义为一个吗状态转移矩阵模型转换当前状态之间的关系和下一个状态。测量矩阵是一个矩阵映射为观察向量。这个系统中的KF运动模型简化为一个恒定的速度模型。转换模型和测量模型整个跟踪过程中剩余的是相同的。在预测步骤,之前估计的状态和之前的估计误差协方差可以通过下面的计算方程,在哪里过程噪声协方差的高斯分布噪声。

实际需要测量手的位置纠正之前的状态和误差协方差。为了生成和改善后的状态更好的精度,测量可以根据我们的恒定速度计算的假设如下: 在哪里是高斯分布的测量噪声和噪声协方差呢。后状态和误差协方差可以得到的校正方程。在哪里增益矩阵。此外,为了限制跟踪状态定义在每个框架中,饱和值定义中间帧。这个添加指标被定义为blob的面积的函数可以进一步提高跟踪结果的鲁棒性。

3.2。实验研究

在本节中,实验结果与不同的速度和条件提出了单手使用的跟踪(与跟踪相关结果可以发现两只手在53])。图8显示了两个摄像头和示例的设置帧从相机和也包括在内。帧从相机和照相机也被称为前视图和侧视图,分别在剩下的纸。

图9显示了多个摄像机跟踪的结果的一个最小的背景噪音的存在。案件涉及的背景噪音,人物10显示了一个示例的跟踪结果。初始化,blob时成功地定位和跟踪手团不是与任何背景噪音重叠区域(图10(a))。在下一帧(图10(e)),现在手重叠噪声颜色斑点区域。前一帧的边界框而不是扩大到包括整个颜色斑点,KF的预测跟踪结果是为了适应在新手调整边界框的位置。在下一帧,重叠的结束和边界框的大小和位置更新手blob。KF跟踪在这种情况下表现良好,但如果手部与背景噪音重叠的时间较长,边界框的状态与跟踪结果将基于预测的手的速度慢慢散去。图11显示了一个示例。手blob数据跟踪11(一),11(b)11(c),当背景噪音的手重叠区域很长一段时间,系统将失去跟踪手的区域。

4所示。轨迹重建和平滑

节2,这是显示一个点的三维坐标的重叠区域内的摄像机视图可以通过投影图像上的像素值重建飞机。为每个实例的时间 ,的定义和跟踪状态,手中心和可以提取来自两个相机视图。替代和为 , 在(1)和(2);手在时间坐标和相应的点在世界空间可以重建。图12显示的例子重建手单手和双手的运动轨迹。

(一)

(b)

4.1。轨迹平滑

重建的轨迹如图12一般来说并不是一个平滑的轨迹。例如,在图(13日)从绿色标记点,轨迹开始,沿着蓝色箭头,然后在红色标记点结束。沿着轨迹波动可以由于边界框的大小的变化。例如,如果手部阻挡据英国与其他区域,分割的中心颜色blob并不代表真正的位置的中心。消除这种波动的影响,每一个轨道是由3时空的组件 , ,和的方向。图13 (b)显示投影圆轨迹随时间变化的信息 , ,和的方向。两种滤波方法实现和比较的轨迹,即局部加权散点图平滑(黄土)54)和黄土的健壮的版本(RLOESS)。黄土是局部加权散点图平滑使用最小二乘二次多项式拟合。RLOESS是一个健壮的版本的黄土平滑分配低体重异常值的回归。

(一)

(b)

图14比较这两种方法的结果。在这个图中,跨度是数据点的总数的百分比,小于或等于1。例如,如果跨度= 0.1,这意味着10%的数据点都包含为每个平滑计算。图中红点14代表原始数据点三维重建圆轨迹的方向。蓝色曲线代表平滑数据点。根据观察,如果跨度值设置太大(数字14 (b)和14 (d)),平滑曲线拟合不好与原数据点。如果跨度值设置太小,原始数据中的异常值的影响不能完全消除(图(14日))。总之,RLOESS优于黄土对于这种情况。在我们的系统中,我们采用RLOESS跨度为0.1,消除小波动轨迹重建的手。图15显示了RLOESS平滑轨迹,波动已被抹去。

(一)

(b)

(c)

(d)

5。手的轨迹识别

在前面的小节中,手的方法跟踪轨迹重建,平滑。识别的轨迹是一个挑战性的任务由于各种模式的手可以在时间和空间上。例如,相同的目标运动轨迹由不同的人通常具有相同的空间格局。动态运动原始(DMP) (44,55)是一种轨迹控制方法有良好的表现(所示6手写识别和[11为2 d轨迹识别。在本文中,我们扩展了空间手轨迹识别的方法。

5.1。动态运动原语的概述

动态运动原语(DMP)的方法模型运动与给定的开始和结束为一组微分方程。例如,它能够编码的手部运动轨迹的时空信息的权向量的健壮的时空变化沿着相同的轨迹。

的微分方程描述动态系统的时空演化与给定的开始和结束了(8)和(9)。一个二阶非线性函数的线性弹簧阻尼模型添加(8强迫项)。这个非线性力函数可以捕获运动模式由人类的复杂性。

在(8)和(9), , ,和代表的位置,速度和加速度的运动动力学。是一个时间常数代表轨迹持续时间和是一个已知的目标代表最后的手的位置轨迹。一个合适的选择的参数和 ,强迫项会随时间衰减为零,使系统收敛于目标位置。

非线性强迫函数是由一组Gaussian-like基础功能在哪里基函数的权重和吗是Gaussian-like基础功能。强迫项消失了很长一段时间。

权重向量在保存轨迹的形状信息。例如,如果是固定的和其他参数,如目标状态或时间常数变化,DMP将生成的拓扑相似的轨迹。换句话说,类似的轨迹会有相似的特征向量名为DMP模型的不变性特性(55]。这样的属性,轨迹可分为基于权重向量。

5.2。从三维轨迹中提取权向量

给定一个一维的轨迹在每个点的动力学表示时间的状态向量,可以根据帧率计算是整个的时间路径。给定轨迹,学习权向量的初始状态和目标状态,也可以从轨迹中提取时间。从(8),可以写成权重向量可以学习使用局部加权回归(轻水反应堆)所44]。

在进行轨迹识别之前,“圆”(图轨迹实例17日(d))选择从收集到的轨迹,以可视化的权向量,并学会了DMP模型。获得手轨迹是在三维空间中,在DMP沿每个投影方向可以利用世界坐标系统。图16显示了学会了DMP模型和权重向量与不同维度()的轨迹预测方向。数据16(一),16(c),16(e)16(g)显示原来的轨迹在绿色和DMP蓝色的学习轨迹。数据16(b),16(d),16(f)16(h)显示相应的权重向量。可以看出,当维度权向量的增加,学习轨迹方法最初的轨迹。

(一)跳

(b)左

(c)对吧

(d)圆

(e)转发

5.3。培训阶段手轨迹使用支持向量机分类器

的不变性特性DMP保留轨迹的形状信息的权重向量,可以用于轨迹识别。在[11),他们比较两种分类方法:最近邻(神经网络)和支持向量机(SVM)。根据实验结果,SVM获得更更好的精度神经网络。在我们的实现中,多类SVM训练和测试执行使用LIBSVM库(56]。

轨迹识别,收集五类的轨迹。这五类是由通过“跳”,“左”,“对了,”“圆”和“前进。“图17为每个类显示了示例轨迹。8人(2男6女)被要求执行轨迹,为每个类5。收集超过200轨迹,3/4的数据集训练支持向量机,而其他的数据集进行测试。轨迹在训练和测试数据集是由不同的人来完成。

一个线性内核的支持向量机是训练有素的轨迹识别。表4给出了5倍交叉验证识别准确性基于不同的权向量维度。随着尺寸的增加,相同数量的训练数据的精度降低。这是因为更大的权向量的维度,多个参数的支持向量机需要决定,还需要更多的训练数据。在获得的最高识别率。这也是因为我们收集的类的轨迹是相对简单和杰出的彼此。对于复杂的轨迹,需要较高的权向量维度。


训练轨迹数字	权向量维数
	5	10	20.	40

150年	86.67%	74.12%	59.17%	51.67%

5.4。测试阶段的轨迹识别

我们应用测试数据集上的训练支持向量机导致88.0%的准确性。识别结果如表所示5。误分类出现由于用户习惯。因为轨迹“跳”和“推”都是向前移动,在某些情况下,如果轨迹“跳”是由较小的弧度,并被错误地归类为“推动。”轨迹“左”,有时,执行角度,支持向量机将意识到这是“推”。但轨迹“圆”,这是非常独特的从其他类,可分为完全。


类	跳	左	正确的	圆	推

跳	12	0	0	0	3
左	0	14	0	0	0
正确的	0	0	17	0	0
圆	0	0	0	18	0
推	6	4	1	0	15

精度	84.4% (76/90)

我们训练支持向量机测试了90测试轨迹收集3人,6为每个类。识别结果如表所示5。误分类出现由于用户习惯。正如你所看到的,因为轨迹“跳”和“推”都是前进,在某些情况下,如果轨迹“跳”是由较小的弧度,并被错误地归类为“推动。“还留下的轨迹,有时它被授予一个角,并支持向量机将推动。但轨迹“圆”,这是很独特的从其他类,它可以完美地分类。

6。手的姿势识别

手的姿势识别是另一个手势识别的关键部分。我们系统样本姿势和遵循的姿势改变手轨迹(图18)。姿势识别有三个步骤,即(一)手图像采集、特征提取(b)和(c)分类。为我们的系统,手沿着轨迹跟踪完成图像采集过程中手的姿势已经从背景中分割出来。

模板匹配是一个简单的姿势识别方法,并可以很容易地添加或删除模板类。提取特征的手的姿势,在轮廓凸包(31日]或指尖检测使用圆形面具作为相关技术(45可以使用。然而,这些识别方法,基于轮廓或轮廓通常需要一个干净的背景,手可以分割。在我们的例子中,手的姿势是由杂乱和移动背景和分段使用固定距离CbCr皮肤更优雅。有时,手不能从背景中分割出来。在这种情况下,一方面可以作为部分堵塞。因此,特征检测器对光照变化和部分遮挡是必要的。筛选是一个特征检测器和描述符也是强大的规模和方向变化。此外,它是健壮的仿射畸变在某些范围内,这可能对姿势识别,因为手和摄像机之间的相对位置不断变化,导致仿射畸变之间的输入手姿势和体态模板。在我们的工作中,筛选用于特征检测器和姿势识别。的方法袋的视觉单词和支持向量机结合的分类。

6.1。尺度不变特征变换

尺度不变特征变换(SIFT)特征检测器(开发的22]。筛选功能提供强劲的显示匹配的闭塞和仿射畸变,噪音,和照明的变化。获得特征在不同尺度,筛选使用高斯过滤器改变方差与原始图像卷积和downsampled图像。高斯的区别是减去相邻图像与高斯卷积计算相同的八度音阶(图19)。

为了检测的局部最大值或最小值的不同高斯(狗),每个样本点是26个邻国相比地区,8日在自己的形象,在规模上方和下方(图920.)。选择一个点作为特征点只有26比所有其他的更大或更小的邻居。稳定的特征点,特征点一旦检测到上面的方法中,阈值最小对比上执行这些邻国之间的特征点。也消除边缘响应应用于狗,因为它有很强的反应边。通过这种方式,图像中的特征点与强烈的对比和特征点匹配。

通过分配一个常数为每个特征点定位基于本地图像属性,旋转的特征点是不变的。这个方向信息还用于建立一个是一个向量的特征点描述符包含128负的元素。结果向量定义为筛选键和用于加权的方法来找到匹配点和检测图像之间的相同的对象。图21显示检测到的特征点筛选的绿色圆圈或双手的手掌。圈的大小提出了特征点的规模,和每一个圆的半径是每个特征点的方向。36集这两个姿态之间找到匹配点的例子,在蓝线连接。

我们的工作是为了认识六个目标手姿势,即“手掌”,“V”,“点”“Y”“拳头,”和“八”(图22)。为了证明特性发现这些姿势有不同的类之间的歧视,我们筛选适用于每个类的姿势图所示23表和上市的数量匹配点6。对角线上的数字标志着粗体显示的数量匹配分在同一个班。正如你所看到的,它比其他数字相同的行或列,它存在两个不同的类之间的匹配点的数量。这表明虽然有不同姿势类之间的匹配特性,匹配的数量的相同类型的姿势更大错误分类等姿势。


的姿势	棕榈	V	点	Y	的拳头	八

棕榈	45	12	6	16	8	10
V	7	36	13	8	9	12
点	7	22	39	9	13	11
Y	12	14	7	25	11	9
的拳头	4	8	15	6	20.	6
八	16	15	8	15	9	27

6.2。袋的视觉单词

袋的视觉单词是一个流行的图像分类算法。每个图像是由一组检测特征点,和袋视觉词用一个向量来表示特征点的发生数量。换句话说,它是一个直方图特征点。通过这种方式,每个图像都由一个直方图向量表示。图24显示了一个典型的处理管道生成每个图像的特征点直方图。

在这篇文章中,检测到的特征点筛选并通过集群则。——集群编码每个功能点的指数属于哪个集群。通常,这是通过寻找输入特征点之间的最短欧氏距离和集群中心由一群训练有素的特征点提取一组训练图像。如何确定集群的数量是一个问题。如果集群的数量太小,没有足够的类之间的歧视,分类精度会下降。如果集群的数量太大,然后将着稀拉的特性,分类精度仍会下降。在[57),提出了一种方法来确定集群的数量。在哪里是检测筛选的数量对训练图像特征点。有超过20000个特征点检测训练图像和我们选择到150岁。聚类后,每个模板都由一个向量表示的索引显示相应的功能是属于哪个集群。最后一步将是这个向量排序成一个直方图箱里。通过这种方式,每个模板将被映射到一个向量叫做bag-of-words向量。

6.3。培训阶段使用尺度不变特征变换姿势分类器

后将每个模板的特征点映射成一个bag-of-words向量,向量是用来训练多类支持向量机分类器模型。支持向量机是一种监督式学习的方法建立一个分类和回归维超平面优化把数据分成不同组。

姿态识别、六类收集的姿势;前视图和侧面的每个类都包括在内。图25显示了6类体式;前视图所示图(25日),而侧视图如图25 (b);从左到右,姿势是“手掌”,“V”,“点”“Y”“拳头,”和“八”。

(一)姿势6类的前视图

6 (b)侧面的姿势类

训练姿势分类器、分段良好的手的姿势模板收集从六个姿势类从手势视频剪;前视图和侧面视图都包括在内。通过应用袋子的话,每个图像的表示向量。等多类支持向量机训练基于向量。表7显示了5倍交叉验证的准确性不同数量的线性内核支持向量机的训练数据。通过增加训练数据的数量,准确性会略有增加。我们用402的姿势图像作为训练数据集,以构建支持向量机分类器。


数量的训练数据	120年	240年	340年	402年	480年
精度	98.3%	98.8%	98.5%	98.8%	98.8

6.4。测试阶段的姿势识别

测试集包含432姿势由其他四人216次,36个州为每个类的时间。在每次状态,一个前视图和侧视图的姿态。测试的性能训练姿势优雅漂亮,每个姿势的图像分别从相机视图都是公认的。识别结果如表所示8。每一列是指一个姿势实例分为相应的类。78.7%的精度。


的姿势	八	的拳头	棕榈	点	六个	V

八	71年	0	1	4	2	0
的拳头	0	46	0	15	9	0
棕榈	0	0	61年	0	0	2
点	0	17	3	52	7	2
Y	1	9	0	1	43	1
V	0	0	7	0	11	67年

精度	98.6%	63.9%	84.7%	72.2%	59.7%	93.06%
精度	78.7% (340/432)

测试的分类器区分最正确姿势。但姿势属于类“拳头”,大量的姿势也分为类“点”和几个数字“Y”的姿势被误诊成阶级”的拳头。“这样做的原因是,这三个姿势都含有类似的右手三根手指卷曲在一起的一部分。因此,他们分享更多类似的功能。但是对于这些姿势很杰出,其识别精度更高。

同样,如果我们看看分类错误的姿势,不分段良好的手的姿势会导致误分类。图26显示了三个样本分类错误的姿势。背景噪音分段手部(数据(26日)和26日(b)错误分类的一个原因。也由于手外观改变观点,一些姿势时不能被外表的变化太多了。例如,在图26日(c)食指的姿态“八”是总看不见的从相机视图,这是被误诊成类“拳头”。

(一)

(b)

(c)

考虑到在同一时间采取的姿势状态是相同的姿势,但是不同的观点,相机视图的姿势识别结果与对方以下列方式有关。同时,如果姿势的识别结果取自两个摄像头是不同的,那么这个姿势是作为模糊和丢弃。认为是同一个类的姿势从相机视图将被保存在后续的步骤中手势识别。对于每个姿势类,识别和放弃率如表所示9。尽管近百分之三十的测试数据是废弃的,该方案提高了识别精度从78.7%降至96.6%。


的姿势	识别精度	放弃率

八	35/35	1/36
的拳头	16/20	13/36
棕榈	27/27	9/36
点	17/18	18/36
Y	17/17	19/36
V	31/31	5/36

精度	96.6%	30.1%

7所示。手势识别

手势识别、姿态和轨迹识别的结果结合成一个特征向量我们叫姿态向量。从每个手势视频和姿态向量提取用于支持向量机进行分类。如何定义一个特征向量的细节在以下介绍。此外,本节给出手势识别性能的评价。

7.1。姿态向量

姿态向量是由两部分组成:姿势元素和轨迹元素。表示认可轨迹类。根据手势的复杂性,每个手势分为段处理姿态变化。代表了公认的姿势类的发生数量在段。方程(13)显示了一个向量和姿态段和姿势类。

手势在不同速度会产生一个巨大的数字差异公认的姿势。因为相机的帧速率是固定的,手移动的速度越快,越少的姿势可以采取。因此,姿态向量元素的姿势被公认的总数规范化姿势为每个部分。方程(13)是写成为每个手势和姿态向量提取采用手势分类。

7.2。定义类和姿态的姿态向量

测试识别性能,我们定义8类的手势。单手和双手手势都包括在内。虽然我们只有八类定义的手势进行评估,更多的手势类可以被添加到系统,一些训练数据和手势的定义。图27显示手运动轨迹和姿态。蓝色箭头表示的手移动轨迹,姿势变化也是这个图所示。

(一)抓

(b)打击

(c)调用

(d)戳

(e)放大

(f)移动

(g)推进困难

(h)碰撞

动作名称的列表及其组成部分的姿态和轨迹是列在表中10。自定义手势只包含一个或没有姿态变化,每个轨迹划分为两个部分,使得姿态向量元素长时间单手使用的手势。在使用情况下,每个手的姿态向量提取每只手,然后组合在一起使双手动作向量只要两次单手使用的情况下,和它包含元素。


手势	的姿势		轨迹

抓住	棕榈的拳头	+	向前
打击	的拳头	+	向前
调用	Y	+	圆
戳	点	+	向前
变焦	八	+	左
移动	V八	+	正确的
推	左、右手掌	+	向前
碰撞	左翼和右翼的拳头	+	左和右

7.3。训练阶段的手势使用支持向量机分类器

在训练阶段,10为每个类手势,80年总手势,收集培训阶段四人之一。单手和双手的姿势模型分别训练支持向量机。地面轨迹的真相和手的姿势的识别结果利用组合姿态向量。线性内核支持向量机训练,获得了5倍交叉验证精度在94%,单手双手手势动作和100%。手势的训练精度是列在表中11。


手势	单手的姿势	双手手势
精度	94%	100%

7.4。手势识别的测试阶段

在本节中,收集80个手势进行测试。这80个动作,每个动作10类,四人之间的收集。基于最初的地区检测到有多少手姿势,手势自动归类为单手或双手的姿势。然后,基于每只手的轨迹和姿态识别训练SVM模型将每个手势识别基于其姿态向量。图28显示了测试管道。表12显示了每个类的识别结果和精度。


手势	抓住	打击	调用	戳	变焦	移动	推	碰撞

抓住	6	2		2
打击		8		2
调用			10
戳				10
变焦					10
移动						10
推							10
碰撞								10

精度	60%	80%	100%	100%	100%	100%	100%	100%
精度	92.5% (74/80)

所有的姿势都承认除了类“抓住”和“打击。“这是因为,在姿态识别阶段,训练分类器分类“拳头”到“点”(表8这两个体式)的相似性。因此,极有可能为这类错误分类。涉及的手势姿态发生变化,会有一段时间间隔,姿态不会姿势中定义的类。与我们的姿势识别方案,这样的姿势会有很高的机会被丢弃,而姿态识别结果是不一致的。例如,在课堂上“动”,间隔姿势改变姿势“V”“八”是丢弃,并获得较高的识别精度。

8。结论和未来的工作

提出了一种应用方法对轨迹和姿态识别的使用多个校准相机。一个固定距离CbCr采用区域分割。卡尔曼滤波器采用手跟踪的阻塞或背景噪音。发现手轨迹包含时间和空间模式,可以在不同的个体之间不同。DMP应用的方法,可以保持时空信息的加权向量。例如,拓扑相似的轨迹会有类似的权重向量,可以利用使用支持向量机作为轨迹分类特征向量。结果表明,只有几个轨迹训练数据,可以实现识别的准确性达88.0%。

检测到的特征点,手的姿势使用筛选方法。bag-of-words方法是用来表示每个姿势unisize直方图向量。这样的直方图向量使用SVM用于姿势识别。训练姿势同时包含前面和侧面视图由摄像机拍摄的。手的姿势识别结果时只考虑是公认的从相机的观点是一致的。这样的计划,尽管一些姿势作为面目全非然后丢弃(30%),96.6%的识别率有准确性。手势识别,手势特征向量相结合定义轨迹和姿态识别的结果。在我们的实验研究中,手势识别使用SVM方法导致了92.5%的准确率。

8.1。未来的工作

结合RGB和深度传感器(RGB-D)可以利用在未来确定各种沉默特性结合传感模式。特别是,各种功能可以与每个扫描平面的深度关联映射可以作为部分的学习算法(58]。当前的实验装置利用两个校准相机放置在一个固定的距离。的摄像头应用程序不能被放置在邻近的用户(例如,老年人的情况下的老年生活和应用计算机接口),pan-tilt-zoom相机可以部署(59]。这种活跃的相机设置可以提供一个健壮的方法,其中一个镜头可以放大的手手势识别的用户,而之后(通过平移和倾斜运动)的预测运动模式是通过另一个相机的手。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

m·艾伯特沉默的消息沃兹沃思出版商,贝尔蒙特,小腿,美国,1971年。
e . t .大厅,沉默的语言锚的出版商,纽约,纽约,美国,1973年。
d . j . Sturman和d . Zeltzer Glove-based输入的调查。”IEEE计算机图形学和应用程序,14卷,不。1 - 39,1994页。视图:出版商的网站|谷歌学术搜索
r·罗萨莱斯诉Athitsos、l . Sigal和s . Sclaroff”3 d重建使用专门的映射,手”《IEEE计算机视觉国际会议1卷,第387 - 378页,2001年。视图:出版商的网站|谷歌学术搜索
r . Wang和j·瑞尔“实时人工跟踪颜色手套,”ACM交易图片,28卷,不。3,第63条,2009年。视图:出版商的网站|谷歌学术搜索
斯特,r . Murray-Smith i奥克利,j . Angesleva“动态手势交互原语,”移动人机交互程序国际会议卷,3160年,第330 - 325页,2004年。视图:出版商的网站|谷歌学术搜索
t·g·齐默尔曼,j·尼尔,c·布兰查德s .布赖森和y Harvill,“一个手势接口设备,”学报SIGCHI / GI会议人的因素在计算系统和图形界面,第192 - 189页,1987年。视图:谷歌学术搜索
s . Mitra和t . Acharya手势识别:一项调查,”IEEE系统,人,控制论,C部分:应用程序和评论,37卷,不。3、311 - 324年,2007页。视图:出版商的网站|谷歌学术搜索
诉我Pavlovic, r·沙玛,t . s .黄”为人机交互目视判读的手势:复习一下,”IEEE模式分析与机器智能,19卷,不。7,677 - 695年,1997页。视图:出版商的网站|谷歌学术搜索
吴y和t . s .黄”,建立手势识别:回顾”国际研讨会Gestue-Based在人机交互通信,第115 - 103页,1999年。视图:谷歌学术搜索
f . z . Liu, d .罗,吴x”视觉手势识别人类机器人交互原语,使用动态运动”系统,人与控制论IEEE,页2094 - 2100年,圣地亚哥,美国,2014年10月。视图:出版商的网站|谷歌学术搜索
他和j . Ohya“Multiple-hand-gesture跟踪使用多个摄像头,”《IEEE计算机视觉与模式识别会议,1999年。视图:谷歌学术搜索
d·萨克斯和r .福尔兹健壮的皮肤识别视频图像,”国际会议的程序自动脸上和手势识别,第384 - 379页,1996年。视图:谷歌学术搜索
d .柴和k . n .颜”,面对可视电话应用程序使用肤色分割图”,IEEE电路和系统视频技术,9卷,不。4、551 - 564年,1999页。视图:出版商的网站|谷歌学术搜索
m·j·琼斯和j . m . Rehg”统计模型与应用程序肤色检测。”国际计算机视觉杂志》上,46卷,不。1、文章ID 390108 81 - 96年,2002页。视图:出版商的网站|谷歌学术搜索
h·格林斯潘,j . Goldberger Eshet,“face-color混合物模型建模和分割,”模式识别的字母,22卷,不。14日,第1536 - 1525页,2001年。视图:出版商的网站|谷歌学术搜索
m·杨和n . Ahuja“高斯混合模型对人类皮肤颜色及其应用在图像和视频数据库”学报学报:存储和检索图像和视频数据库的七世,页458 - 466,3656,1999。视图:谷歌学术搜索
x刘和k》“手势识别,使用深度数据”学报Automatci脸上的IEEE国际会议和手势识别,第534 - 529页,2004年。视图:谷歌学术搜索
z任,j·孟和j .元,“基于深度相机的手势识别及其在人机交互应用,”学报》第八届国际会议信息,通信和信号处理(ICICS 11)2011年12月,页1 - 5,IEEE,。视图:出版商的网站|谷歌学术搜索
l . t . y . Wang Yu史,z,“利用人体手势输入游戏通过深度分析”学报2008年IEEE国际多媒体会议和博览会,ICME 2008德吴,页993 - 996年,2008年6月。视图:出版商的网站|谷歌学术搜索
c·迪亚兹和s . Payandeh“多通道为触觉传感界面交互,”杂志上的传感器卷,2017篇文章ID 2072951, 24页,2017。视图:出版商的网站|谷歌学术搜索
d·g·劳”独特的形象特征尺度不变的要点,国际计算机视觉杂志》上,60卷,不。2、91 - 110年,2004页。视图:出版商的网站|谷歌学术搜索
艾哈迈德,“可用的实时3 d手跟踪器,”《IEEE会议信号,系统和电脑太平洋格罗夫,页1257 - 1261年,CA,美国,1994年。视图:出版商的网站|谷歌学术搜索
y Lu和s . Payandeh“合作混合多个摄像机跟踪监视的人,”加拿大电气和计算机工程杂志》上,33卷,不。3 - 4、145 - 152年,2008页。视图:出版商的网站|谷歌学术搜索
j .公园和杨绍明。关铭Yoon”LED-glove基于交互多模式显示的电话会议,”学报》第16届国际会议上人工现实和Telexistence工作坊,ICAT 2006中文,页395 - 399年,2006年12月。视图:出版商的网站|谷歌学术搜索
h·金和d . w . Fellner”与手势交互投影墙,”诉讼程序的计算机图形学国际CGI 2004集选区,页395 - 402年,2004年6月。视图:出版商的网站|谷歌学术搜索
w·t·弗里曼和c . Weissman“电视控制手势,”程序自动脸上国际研讨会和手势识别,第183 - 179页,1995年。视图:谷歌学术搜索
r . a .螺栓“眼睛在接口,”人为因素在计算系统学术会议盖瑟斯堡,页360 - 362年,医学博士,美国,1982年3月。视图:出版商的网站|谷歌学术搜索
t . Starner j·韦弗,a . Pentland“实时美国手语识别使用桌子和基于嵌入式计算机的视频,“IEEE模式分析与机器智能,20卷,不。12日,第1375 - 1371页,1998年。视图:出版商的网站|谷歌学术搜索
d . m . Gavrila l·s·戴维斯,“3 - d模型跟踪行动:人类的多视点的方法,”《IEEE计算机视觉与模式识别会议1996年6月,页73 - 80。视图:谷歌学术搜索
李y“手势识别使用Kinect,”学报2012年IEEE第三国际会议软件工程和服务科学,ICSESS 2012中文,页196 - 199年,2012年6月。视图:出版商的网站|谷歌学术搜索
周h . l .谢,方x”视觉鼠标:筛选检测和PCA识别”《IEEE国际会议上计算情报和安全,第266 - 263页,2007年。视图:谷歌学术搜索
p . Scovanner、美国阿里和m .沙”行动的三维筛选描述符和它的应用程序识别,”学报》第十五届ACM国际多媒体会议(毫米' 07)2007年9月,页357 - 360。视图:出版商的网站|谷歌学术搜索
c . Wang和k .王”,手的姿势识别人类机器人交互,使用筛选的演算法在机器人技术最新进展,”施普林格控制和信息科学的课堂讲稿,第329 - 317页,2008年。视图:谷歌学术搜索
Pandita和s . p . Narote“手势识别使用筛选,”《IEEE国际会议上计算情报和安全,卷2,不。1、p。4、2013。视图:谷歌学术搜索
c, n . d . Georganas, e . m . Petriu“实时手势识别使用haar-like特性,建立”《IEEE会议仪器和测量技术IEEE,页1 - 6,华沙,波兰,2007年5月。视图:出版商的网站|谷歌学术搜索
w·t·弗里曼和m .罗斯“手势识别方向直方图,”程序自动脸上国际研讨会和手势识别,第301 - 296页,1995年。视图:谷歌学术搜索
w·c·斯托科和m . Marschark”手语结构:概述美国聋人的视觉传达系统,”聋人和聋教育研究杂志》上,10卷,不。1、比较,2005页。视图:出版商的网站|谷歌学术搜索
m . Elmezain A . Al-Hamadi j . Appenrodt b·米歇利斯,”一个隐藏的马尔科夫模型连续手运动轨迹,手势识别系统”《IEEE国际会议模式识别2008年12月,页1 - 4,。视图:谷歌学术搜索
s . Payandeh视觉跟踪在传统微创手术,CRC出版社,克利夫兰,俄亥俄州,美国,2016年。视图:出版商的网站
f·巴希尔,w ., a . Khokhar, d .联系“HMM-based运动识别系统使用分段主成分分析,”学报2005年IEEE图像处理国际会议上,ICIP 2005ita,页1288 - 1291年,2005年9月。视图:出版商的网站|谷歌学术搜索
f·巴希尔,a . a . Khokhar和d .联系”对象trajectory-based活动分类和识别使用隐马尔科夫模型,”IEEE图像处理,16卷,不。7,1912 - 1919年,2007页。视图:出版商的网站|谷歌学术搜索|MathSciNet
p .香港、m . Turk和t . s .黄”手势建模和识别使用有限状态机,”程序自动脸上的第四届IEEE国际会议和手势识别,FG 2000联邦铁路局,页410 - 415年,2000年3月。视图:出版商的网站|谷歌学术搜索
Schaal,“动态运动原语——一个框架在人类和仿人机器人运动控制,”在斯普林格适应运动的动物和机器施普林格,页261 - 280年,德国,2006年。视图:谷歌学术搜索
j . Letessier和f -“视觉跟踪的交互式表面裸露的手指,”ACM研讨会上的用户界面软件的程序和技术,第122 - 119页,2004年。视图:谷歌学术搜索
j . Wang和s . Payandeh”手运动的研究/姿态识别两个摄像头的观点,“课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学):前言卷,9475年,第323 - 314页,2015年。视图:出版商的网站|谷歌学术搜索
Bouguet, J。,摄像机标定Toolbox for Matlab,http://www.vision.caltech.edu/bouguetj/calib_doc/2017年10月,持续访问。
y方,k . Wang j . Cheng和h,“实时手势识别方法,”《IEEE国际会议多媒体和世博会,第998 - 995页,2007年。视图:谷歌学术搜索
s . l . Phung a Bouzerdoum, d .柴”皮肤分割使用像素颜色分类:分析和比较,”IEEE模式分析与机器智能,27卷,不。1,第154 - 148页,2005。视图:出版商的网站|谷歌学术搜索
k . Sobottka和皮塔饼,”一个新颖的方法,自动分割,面部特征提取和跟踪,”信号处理:图像通信,12卷,不。3、263 - 281年,1998页。视图:出版商的网站|谷歌学术搜索
r·e·卡尔曼“线性滤波和预测问题的新方法,”流体工程,卷82,不。1、35 - 45,1960页。视图:出版商的网站|谷歌学术搜索
a . Yilmaz o . Javed, m .沙”对象跟踪:一项调查,”ACM计算调查,38卷,不。4、第十三条,2006年。视图:出版商的网站|谷歌学术搜索
j .王手跟踪及其模式识别网络中的校准相机(应用科学硕士论文)加拿大西蒙弗雷泽大学,2015。
w·s·leveland,“洛斯:一个程序平滑散点图的健壮的局部加权回归,”美国统计学家,35卷,不。1,1981。视图:谷歌学术搜索|MathSciNet
a . j . Ijspeert j .录像h·霍夫曼,p .牧师和s . Schaal“动力运动原语:学习吸引子模型运动行为,”神经计算,25卷,不。2、328 - 373年,2013页。视图:出版商的网站|谷歌学术搜索|MathSciNet
c . Chang和c·林,“LIBSVM:支持向量机的库,”ACM智能交易系统和技术,卷2,不。3、第二十七条,2011年。视图:出版商的网站|谷歌学术搜索
k . v . Mardia j·t·肯特和j·m·毕比多变量分析、学术出版社,1979年。视图:MathSciNet
n . Mohsin x刘,s . Payandeh”信号处理技术对自然睡眠姿势估计使用深度数据,”第七届IEEE学报》年度信息技术、电子和移动通信大会上,IEEE IEMCON 20162016年10月,可以。视图:出版商的网站|谷歌学术搜索
y Lu和s . Payandeh“智能合作跟踪多个摄像机系统,”学报》第九届国际会议上智能系统设计和应用中,ISDA 2009ita,页608 - 613年,2009年12月。视图:出版商的网站|谷歌学术搜索

多媒体的发展

文摘

1。介绍

2。预赛

2.1。摄像机标定

2.2。手分割

3所示。手跟踪和轨迹重建

3.1。卡尔曼滤波的应用

3.2。实验研究

4所示。轨迹重建和平滑

4.1。轨迹平滑

5。手的轨迹识别

5.1。动态运动原语的概述

5.2。从三维轨迹中提取权向量

5.3。培训阶段手轨迹使用支持向量机分类器

5.4。测试阶段的轨迹识别

6。手的姿势识别

6.1。尺度不变特征变换

6.2。袋的视觉单词

6.3。培训阶段使用尺度不变特征变换姿势分类器

6.4。测试阶段的姿势识别

7所示。手势识别

7.1。姿态向量

7.2。定义类和姿态的姿态向量

7.3。训练阶段的手势使用支持向量机分类器

7.4。手势识别的测试阶段

8。结论和未来的工作

8.1。未来的工作

的利益冲突

引用

版权

更多相关文章

相关文章