手势识别基于单发Multibox探测器深度学习

文摘

手势识别是一种直观、有效的方法对人类与电脑由于其高处理速度和识别精度。本文提出一种新颖的方法来识别手势在复杂场景的单发Multibox检测器(SSD)和19层的神经网络学习算法。基准数据库使用手势,和一般的手势在复杂的场景被选为处理对象。一个实时手势识别系统基于SSD算法构造和测试。实验结果表明,该算法快速识别人类手中并准确地区别不同类型的手势。此外,最大精度99.2%,显著重要的人机交互的应用程序。

1。介绍

计算机技术的快速发展和人工智能,无触点手势识别在人机交互(HCI)应用程序中扮演重要的角色(1- - - - - -4]。由于其自然人机交互特点,手势识别系统允许用户交互直观、有效地通过计算机接口(5,6]。此外,基于视觉的手势识别广泛应用于人工智能、虚拟现实、多媒体、和自然语言通信(7- - - - - -10]。

然而,传统的基于图像处理的手势识别算法并没有广泛应用于人机交互,因为它可怜的实时能力,识别精度低、复杂的算法。最近,手势识别基于机器学习已经迅速发展在HCI由于图形处理器(GPU)单元的引入和人工智能(AI)图像处理(11,12]。当地的方向直方图等机器学习算法,支持向量机(SVM) [13)、神经网络和弹性图匹配广泛用于手势识别系统(14- - - - - -16]。拥有学习能力,神经网络不需要手动功能设置模拟人类学习过程中,可以进行样本训练动作形成一个网络分类识别地图(17,18]。深度学习模型启发信息处理和通信模式由生物神经系统,涉及多个隐层神经网络。他们很容易获得学习对象的特点和准确的复杂对象和表现出优越的性能在计算机视觉(CV)和自然语言处理(NLP) [19- - - - - -21]。当前最先进的目标检测系统变异的速度R-CNN [22]。单发Multibox探测器(SSD)进一步优化目标检测(23,24]。相比R-CNN更快,SSD是更简单,更有效,因为它完全消除提议代后续像素重采样阶段和功能,同时也封装了所有计算在一个网络容易使SSD可训练的和容易集成到系统(5,25- - - - - -28]。

论述了手势识别在复杂环境中基于单发Multibox探测器。从工作方法是不同的28]。图像金字塔方法适应手势识别。更准确地说,系统作物图像块检测和小的手势。实验结果显示SSD克服了干扰信号在复杂背景和提高了手势识别的准确性和处理速度。

一般来说,手势识别系统建立的过程包括三个步骤,分割,手势模型构建、手势的分类。为了提高效率,我们简化了使用SSD网络过程分为两个步骤。更准确地说,我们只需要一个卷积神经网络等VGG16 [29日)作为一个模型系统来识别手势功能,然后进行手工分割和手势分类同时SSD网络。这使得我们的架构更简单和更快的比其他基于快R-CNN模型的方法。

手势建模的主要目的是获取有用的语义特征,分别从复杂的背景,并提供有效的输入信息来源以下阶段。阶段的细分和手势分类,手的姿势与不同大小将位于不同的边界框。对于这些边界框,同时,我们获得信心的手势类别。培训是用于这个统一的框架来获得一个有效的识别模型;识别输出是基于模式识别手势类别的训练输入数据。换句话说,给定一个输入图像,我们可以获得位置和分类评分的手势图像的端到端。

标准动作手势识别系统数据库是非常重要的。图1(一)显示了36个手势从梅西大学的2 d静态手势图像数据集是关于标准的数字和字母30.]。注意,一些手势,而难以区分彼此。例如,“一个”和“e”,“d”和“l”“m”和“n”或“我”和“j。”在这篇文章中,我们已经选择的字符“w”“哦,”“r”和“k”作为研究对象,如图1 (b)。佳能EOS 6 d相机来捕捉手势与EF 24 - 105 mm / 4 l是振子结构镜头和快门时间的1/100。最大距离是5米。每一个手势样本获得三种不同的复杂背景下,旨在证明手势识别系统的适用性和可靠性。

(一)

(b)

手势模型构建手势识别系统中起着至关重要的作用,被认为是第一步处理原始输入手势。这一阶段的输入图像。当看到一个图像,从人类的角度来看,我们能赶上看到图中描述的场景。然而,电脑不能捕获这些场景的原始图片。电脑认为图像只是一个矩阵的值在不同的空间位置和通道。换句话说,计算机只能获得对一个图像进行像素级的信息。显然,很难区分不同对象使用低级像素值等信息。因此,如果我们想要识别手势,最有效的方法之一是提取和总结高层信息,如他们的特性和结构的原始图像。这是什么手势建模框架。我们使用VGG16卷积神经网络,它使用13卷积层深度足以获得高层信息的手势。 Given the original image as the input, the VGG16-Net will output feature maps of different resolutions which contain high-level information of the image. The reason for choosing 19 layers is that it is enough to extract high-level semantic information for classification and regression. And limited by the size of our dataset, using high-level layers can easily lead to overfitting.

VGG-Nets是一系列的卷积神经网络与不同深度都使用非常小的( )卷积过滤器。VGG16-Net(16层重量)就是其中之一,有13个卷积层和3层完全连接。VGG16图所示的结构2。在这个图中,卷积层参数表示为“conv <接受域大小>−<渠道数量>。没有显示“ReLU激活功能简洁。原始图像通过一堆卷积层,使用过滤器和一个小的接受域:(这是最小的尺寸用于捕获左边的概念,对,,,和中心)。卷积跨越固定为1像素;卷积的空间填充层后,保留了空间分辨率卷积,即。1,填充卷积过滤器。空间连接池是由五个maxpooling层,它遵循一些回旋的层(不是所有的卷积层其次是maxpooling层)。Maxpooling在执行像素的窗口,2步。

卷积层都配备了整流非线性(ReLU) [31日]。后一堆卷积,maxpooling ReLU层,得到较低的特征图谱分辨率和更强的语义信息。也有完全连接层和一层软马克斯原始VGG16-Net用于图像分类的。我们用SSD替换这些层的层来实现分割和手势的分类。

第二阶段,即。,using the SSD network to perform hand segmentation and hand gesture classification, is the most important part in our framework. We have chosen the SSD model because it is both accurate and fast. The core of SSD is predicting category scores and bounding box offsets for a fixed set of default bounding boxes using very small ( )卷积过滤器应用于特征图。除此之外,SSD产生预测的不同尺度的特征图谱长宽比的不同尺度和分离预测。这种架构导致简单的端到端培训和高精度,进一步提高速度和准确性权衡(5]。

SSD是基于前馈卷积神经网络(VGG16)产生一个固定大小的集合的边界框和分数为对象类实例的存在在那些盒子。这种方法将生成大量的边界框,和它们中的大多数都是由对方。因此,nonmaximum抑制一步执行丢弃重复边界框和生成最终的检测。SSD的结构如图3。输入图像是一个图像像素和RGB通道。在虚线框部分截断VGG16网络。SSD模型增加了几个功能层的不同尺度的截断VGG16网络。这些层大小随着深度的增加和减少允许检测在多个尺度的预测。然后,小卷积过滤器适用于每个位置选择的特征图谱。更准确地说,这些过滤器适用于一组默认不同纵横比的盒子在每个位置在几个选定的特征图谱预测形状偏移和自信的分数为所有对象类。在我们的工作中,对象类别包括四个手势和背景。

指出我们有SSD框架,接下来我们需要的是一个目标函数训练模型的端到端。总体目标函数的加权和本地化损失(loc)和信心损失(设计): 在哪里N是默认的箱子的数量相匹配的地面真理盒子。本地化是一个光滑的损失l1损失之间的地面真理盒( )和预测盒(l)参数。这些参数补偿为中心坐标(残雪,cy默认的边界框(的)d为其宽度()和 )和高度(h),这是类似于更快R-CNN [22]:

信心损失是柔软的最大损失信心(c)在多个类,通常是用于多个分类任务:

培训期间,我们默认匹配盒子在地上真理框计算和减少损失的目标函数。我们这样做递归优化固态硬盘的参数模型,最后得到一个理想的模型。利用k - means聚类指导锚箱的长宽比,我们得到了三个不同的比率。后,比率是1.9,1.6,和1.1轻微调整,分别。此外,使用优化器是亚当最初的学习速率为0.0001。

3所示。结果与讨论

手势识别系统是由SSD算法和训练每个字符的姿态与1070年具有三种不同的复杂背景的图像。然后,我们使用268张图片没有在训练集测试建立识别模型。在字符识别模型的测试结果“w”“o”,“r”和“k”显示良好的性能。在所有268张图片,其中261人将被正确识别,准确率超过93.8%,识别精度最高的99.2%。261年的平均预测信心图像识别成功是0.96,这是非常接近1。可视化结果如图的例子4- - - - - -7字符“w”、“o”,“r”和“k”。

(一)

(b)

(c)

(一)

(b)

(c)

(一)

(b)

(c)

(一)

(b)

(c)

手势识别的综合性能评价体系,每个手势的识别精度和响应时间进行了测试。手势识别系统的平均精度和响应时间如表所示1。所有的精度超过93.8%,这个角色“o”拥有更高的精度。响应时间都少于20 ms,这表明系统展品高实时性能。


字符	精度	响应时间(女士)

“w”	> 96.9	17.1
“o”	> 99.1	18.3
“r”	> 93.8	18.2
“k”	> 98.6	19.7

拟议的工作有助于促进手势识别的准确性作为字母(“w”“o”,“r”和“k”)的就业SSD和图像裁剪。结果表明,采用分类方法性能优越,这清楚地表明,拟议的手势识别系统是一种有效的方法。发现,与其他作品进行比较,该方法的准确性高于采用我们的工作表中列出的其他2。


作品	方法	培训人数	测试数量	精度(%)

刘等人。32]	Baum-Welch和维特比路径计算	520年	260年	85.77
Sahoo et al。33]	Firefly-based反向传播	442年	442年	73.3
茶室et al。34]	26点特征提取和安	520年	260年	86.5
曾庆红et al。(35]	通过确定的跳跃运动	2340年	2600年	92.9

4所示。结论

单发Multibox探测器(SSD)算法适用于手手势识别。我们选择了三个不同的复杂背景下四个人物的手势作为调查对象。19-layer卷积神经网络用作识别模型的学习和培训所选字符的端到端。系统测试结果表明,该手势识别系统基于SSD模型执行高效,可靠,快速,准确。系统的响应时间小于20 ms揭示高实时性能。的最低精度超过93.8%,最高为99.2%。研究结果表明,SSD算法可用于人机交互的手势识别系统应用程序。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者承认金融支持山东重点研究与发展计划项目(批准号中国2019 ggx105018),国家重点研发项目(批准号2017 yfe0112000),上海市科技重大项目(批准号2017 shzdzx01)。

引用

美国美国Rautaray和a . Agrawal”基于视觉的手势识别人机交互:一项调查,“人工智能审查,43卷,不。1,1-54,2012页。视图:出版商的网站|谷歌学术搜索
s . Kim g .公园,严,美国崔崔和美国“Gesture-recognizing手持vibrotactile反馈3 d交互界面,“IEEE消费类电子产品,55卷,不。3、1169 - 1177年,2009页。视图:出版商的网站|谷歌学术搜索
好Oyedotun和a . Khashman”深度学习在应用静态手势识别中,“神经计算和应用,28卷,不。12日,第3951 - 3941页,2016年。视图:出版商的网站|谷歌学术搜索
j .宋和y张成泽不等式裁剪方法,健壮的手区域提取的基于图像的手势识别,”软计算,19卷,不。4、815 - 818年,2014页。视图:出版商的网站|谷歌学术搜索
d . w . Liu Anguelov, d . Erhan s Szegedy彭译葶。傅,a·c·伯格“SSD:单发射击multibox探测器,“电脑Vision-ECCV 2016卷。21日,21-37,2016页。视图:出版商的网站|谷歌学术搜索
d . y . Wu江、刘x r . Bayford和A . Demosthenous“人机界面使用电阻抗断层手假肢控制”IEEE生物医学电路和系统,12卷,不。6,1322 - 1333年,2018页。视图:出版商的网站|谷歌学术搜索
马x和j .彭“Kinect传感器远距离手势识别和指尖检测与深度信息,“杂志上的传感器卷,2018篇文章ID 5809769、9页,2018。视图:出版商的网站|谷歌学术搜索
s . f . Chevtchenko r . f .淡水河谷(Vale)和诉Macario,“多目标优化的手的姿势识别。”专家系统与应用程序卷,92年,第181 - 170页,2018年。视图:出版商的网站|谷歌学术搜索
c . Mummadi f .狮子座Verma k . et al .,“实时和嵌入式检测手势IMU-based手套,”信息学,5卷,不。2、2018年p。28日。视图:出版商的网站|谷歌学术搜索
d .徐、吴x杨绍明。关铭陈,y徐”,在线动态手势识别人类机器人互动,”《智能与机器人系统,卷77,不。3 - 4、583 - 596年,2014页。视图:出版商的网站|谷歌学术搜索
j .唐盖茨,j . Kurzak p . Luszczek和y . m .蔡”自动调谐密度数值线性代数为批处理计算与GPU硬件加速器,“IEEE学报》,卷106,不。11日,第2055 - 2040页,2018年。视图:出版商的网站|谷歌学术搜索
m . Morchid“吝啬的内存单元的复发性神经网络应用于自然语言处理,”Neurocomputing卷。314年,48 - 64年,2018页。视图:出版商的网站|谷歌学术搜索
c c。谢长廷和D.-H。Liou”,小说哈雾特性对于使用支持向量机的实时手势识别,”实时图像处理》杂志上,10卷,不。2、357 - 370年,2012页。视图:出版商的网站|谷歌学术搜索
a . Sultana和t . Rajapuspha”,基于视觉的手势识别字母手势使用SVM分类器,”国际计算机科学与工程技术杂志》上,3卷,不。7,218 - 223年,2012页。视图:谷歌学术搜索
j . Triesch和c . von der Malsburg”一个人组成的独立系统的手的姿势识别对复杂的背景,“IEEE模式分析与机器智能,23卷,不。12日,第1453 - 1449页,2001年。视图:出版商的网站|谷歌学术搜索
g j·王,王,“Hand-dorsa静脉识别结构增长引导CNN,“Optik卷,149年,第477 - 469页,2017年。视图:出版商的网站|谷歌学术搜索
s . p .莫尔恰诺夫表示,古普塔,k金,j . Kautz”手势识别与三维卷积神经网络,”IEEE关于计算机视觉,1卷,不。3、1 - 7,2015页。视图:谷歌学术搜索
J.-T。蔡,黄永发。周,T.-K。刘”,优化神经网络的结构和参数,通过使用混合Taguchi-genetic算法,”IEEE神经网络,17卷,不。1,第80 - 69页,2006。视图:出版商的网站|谷歌学术搜索
j .陈欧,z气,h .傅“微笑检测野生深卷积神经网络,”机器视觉和应用程序,28卷,不。1 - 2、173 - 183年,2016页。视图:出版商的网站|谷歌学术搜索
c . Zhang y田、郭x和j .刘”女:深activation-based属性行动学习深度识别视频,”计算机视觉和图像理解卷。167年,37-49,2018页。视图:出版商的网站|谷歌学术搜索
·巴罗斯g . i Parisi c·韦伯和s . Wermter”Emotion-modulated注意改善表达式识别:深学习模式,”Neurocomputing卷,253年,第114 - 104页,2017年。视图:出版商的网站|谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快R-CNN:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6,1137 - 1149年,2017页。视图:出版商的网站|谷歌学术搜索
b . j . Yu j . Li太阳,j . Chen和c·李,“多级无线电频率干扰的检测和抑制SAR基于单一multibox探测器,“传感器,18卷,不。11,4034年,页2018。视图:出版商的网站|谷歌学术搜索
A . f s Yoon s . Kim和d公园,“一个健壮的deep-learning-based检测器实时番茄病虫害识别,”传感器,17卷,不。9,2022年,页2017。视图:出版商的网站|谷歌学术搜索
h . y . Li黄问:谢,l .姚明,问:陈,“基于MobileNet-SSD表面缺陷检测算法的研究,“应用科学,8卷,不。9,1678年,页2018。视图:出版商的网站|谷歌学术搜索
和h c . y . Wang Wang张”组合一枪multibox探测器转移学习船舶检测使用sentinel-1 SAR图像,”遥感信,9卷,不。8,780 - 788年,2018页。视图:出版商的网站|谷歌学术搜索
x赵,w·李,张y和z,“剩余超分辨率单发射击低分辨率的对象检测网络”IEEE访问》第六卷,第47793 - 47780页,2018年。视图:出版商的网站|谷歌学术搜索
c .咦,l .周z . Wang z太阳,和c . Tan“与联合SSD网络远程手势识别,”《IEEE机器人和仿生学内部会议上2018年12月,吉隆坡,马来西亚,。视图:出版商的网站|谷歌学术搜索
d .赵d·朱j . Lu y罗·g·张,“合成医学图像通过使用多尺度VGG16 F&BGAN改善肺结节的分类,“对称,10卷,不。10,519年,页2018。视图:出版商的网站|谷歌学术搜索
A . l . c . Barczak n h·雷耶斯,m . Abastillas A . Piccio和t . Susnjak,“一个新的二维静态手势彩色图像数据集的手语手势,“在信息和数学科学研究快报15卷,12-20,2011页。视图:谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”先进的神经信息处理系统25卷,第1114 - 1106页,2012年。视图:谷歌学术搜索
n . Liu公元前Lovell, p . j . Kootsookos和r·戴维斯中情局”模型结构选择和训练算法嗯手势识别系统,”《IEEE 9日国际研讨会在手写识别领域,页100 - 105,东京,日本,2004年10月。视图:出版商的网站|谷歌学术搜索
m . k . Sahoo j . Nayak s Mohapatra b . k . Nayak和h s Behera”字符识别使用基于夜火的反向传播神经网络,”计算智能,卷2,37-49,2016页。视图:出版商的网站|谷歌学术搜索
茶室,h . s . Chhabra, s . s . Ara和r . p . Mishra“光学字符识别使用26点特征提取和安,”国际先进研究期刊》的研究在计算机科学和软件工程,7卷,不。5,156 - 162年,2017页。视图:谷歌学术搜索
w .曾庆红,c·王,王,“手势识别使用跳跃运动通过确定性学习,”多媒体工具和应用程序,卷77,不。21日,第28206 - 28185页,2018年。视图:出版商的网站|谷歌学术搜索

移动信息系统