手势识别算法使用SVM和猪模型对机器人系统的控制

文摘

在这项研究中,我们提出了手势识别算法使用支持向量机(SVM)和面向梯度直方图(猪)。此外,我们也使用CNN模型对手势进行分类。我们应用问题的方法和选择技术控制机器人系统。该算法的目标是检测手势与实时处理速度,减少干扰,减少捕获无意动作的能力。静态手势控制用于这项研究包括,增加和减少。此外,它使用运动手势包括打开状态开关,增加和减少体积。结果表明,该算法准确率可达到99%每帧70毫秒执行时间,适合工业应用。

1。介绍

今天,科学技术快速发展使新技术和思想容易申请行业提高生产率和工作效率。因此,工业机器人变得更快,更聪明,更便宜。越来越多的公司开始整合技术结合他们的劳动力。这并不意味着机器人取代人类,而的确,一些不良的工作都由机器。这种趋势有几个更多的制造业的积极成果。

机器人的行动是由一个组合的编程软件和控制。一般来说,工业机器人被预执行重复性任务。然而,仍然有工作需要人工交互。人机交互的目的是控制机器人,人类不能直接执行工作。今天,共同控制系统主要是屏幕和键盘交互,它是直接在机器人或远程控制。然而,在某些情况下不方便和不友好。

目前,一个新的研究方向工业机器人控制是姿态控制的可用性。机器人将观察人类手势通过传感器安装在身体或一个图像从相机到执行相应操作,设置。基本的方法的优点是灵活性和速度的运营商为用户提高安全要求的机器人。图像处理今天不再是实现高速复杂相当于实时图像分析或更快因为控制方法的用户方便,效率高。

因此,在这项研究中,我们提出一个手势识别算法使用支持向量机(SVM)和面向梯度直方图(猪)基于以前的工作1]。此外,我们也使用CNN模型对手势进行分类。该算法的目标是检测手势与实时处理速度,减少干扰,减少捕获无意动作的能力。静态手势控制包括,,,在这项研究中。此外,动态手势在这项研究包括以下:(我)从传播状态切换状态开关手向上,进入控制状态(2)秩序是手从张开的状态到左边(3)下订单从伸出手到正确的状态

其他研究提出了如下。节2,我们将相关工作。在部分3和4,我们现在和评估该模型的有效性,分别。最后,我们给出一个结论5。

视觉识别和跟踪的问题非常具有挑战性。许多方法使用位置标记或颜色的乐队来简化问题的识别。然而,他们不能被视为一种自然界面机器人控制由于其不便。运动识别问题可以解决通过结合基本的图像处理问题,即目标检测、识别和跟踪。有许多图像处理算法开发目标探测和识别。他们分成两大组,即先进的机器学习(毫升)和深度学习(DL)技术(2- - - - - -14]。

毫升技术是常用的一般条款与从原始数据基本特征提取方法,然后结合,例如,支持向量机,决策树,和加权,火车身份模型。有几个典型目标检测提取技术如下:(我)Viola-Jones目标探测技术(2:它是第一个基于哈尔特征提取技术在实时目标检测。这一技术是常用的人脸检测。(2)尺度不变特征变换(SIFT) [3]:筛选的特点是尺度不变的因为它给稳定的结果与不同纵横比的形象。此外,算法是旋转不变,确保结果与不同对象的旋转。(3)猪(4):它是计算密集的网格细胞和规范化的对比块以提高准确性。它主要是用来描述一个物体的形状和外观的形象。

先进的DL技术经常使用多层卷积神经网络训练数据集的标签。几个技术通常应用于物体检测和识别,包括以下几点:(我)地区的提议(R-CNN R-CNN,快,快R-CNN,级联R-CNN) (5]:包含对象的方法提出了领域的能力和执行标识保存计算能力。(2)单发射击multiBox检测器(SSD) [6如YOLO和ReneDet意思:SSD的主要观点来自preinitializing使用边界框的框在图像上的每个位置。SSD将计算和评价信息在每个位置是否有一个对象。如果该网站上有一个对象,它将决定哪一个。基于近距离的结果,SSD将计算一个融合框覆盖对象。

自检测和识别算法需要大量的计算和精度不能达到100%,手势识别的对象跟踪技术也广泛应用于确保主体位置的连续实时记录,避免干涉综合性环境。有许多针对等图像处理算法提高(7)、MIL KCF [8),TLD, MEDIANFLOW [9],GOTURN [10],MOSSE [11),和才招供12,13]。根据每个问题的精度和处理速度,我们可以选择合适的算法。

此外,这个问题需要实时处理图像识别。使用CPU、GPU和FPGA具有自己的优势取决于图像处理算法的具体应用。图像处理算法通常会消耗大量的计算资源。在许多情况下,不断增长的cpu的性能足以处理这些任务在指定的时间内。然而,GPU和FPGA处理器被广泛用于替换图像处理应用程序的cpu。除此之外,美国有线电视新闻网(细胞神经网络)技术是一种模拟并行计算模式中定义的空间,发现当地处理单元之间的连接(细胞或神经元)。它引入了高速并行神经结构作为一种特殊的图像处理和识别14]。

3所示。算法

该算法的目标是检测手势与实时处理速度,减少干扰,减少捕获无意动作的能力。他们的数据集是描绘在图1。

该算法将执行如图2。在模型中,图像实时处理。我们将进行扶持区域检测基于前面的模型。然后系统提取感兴趣的区域(ROI)的框架。对象跟踪模块将ROI的坐标和锁定下一帧的跟踪对象。接下来,识别模块被激活来评估投资回报率是否动作开始。因此,它将决定继续执行下一帧的ROI找到结束和绘画的手势。

如果算法并没有发现任何手势,我们将再次启动这个过程。如果一个操作被重复了太久,我们将再次启动程序。

3.1。技术的概述

3.1.1。检测对象

该技术有两个要求。第一个要求是检测图像包含对象或不。第二个要求是找到的位置的主题形象。正如在前一节中介绍的,有很多算法执行的任务。在这项研究中,要求是结果的准确性以及对实时应用程序的足够快的操作。系统中,操作对象检测操作。因此,有必要选择技术以相对较快的计算速度。因此,我们的实现思想是使用多尺度和滑动窗口技术把图像分解为ROI。我们然后从这些作物图像ROI区域并提取他们的猪的特性。支持向量机技术用于分类是否一个映像都包含一个对象。 We then conclude that areas are likely to contain objects. Finally, we use the nonmaximum suppression technique to find the most suitable ROI.

3.1.2。跟踪对象

当算法检测包含对象的框架以及ROI区域,下一件事就是锁定和跟踪目标时移动或可能部分变形下一帧。

跟踪对象的使用将是必要的,因为用户的手势将在几秒钟。如果我们继续使用分类和检测技术最后,很难达到预期的处理速度也可能导致错误的结论。例如,行动启动结束动作,来自两个完全不同的对象。

在动作的开始和结束之间的中间阶段,可能部分变形。很难使用检测技术。要求对象跟踪技术在这种问题是快速粘附与可接受的精度。在这项研究中,我们选择kernelized相关性过滤器(KCF)算法跟踪对象。该算法具有良好的速度和精度一致。它不会恢复跟踪目标时失去目标姿态控制系统,减少噪音。

3.1.3。对象分类技术

对象分类技术尤其适用于图像处理。在人工智能应用程序中,分类器要求是能够区分彼此开始的手势。所需的精度很高,这将确保所需的水平的控制精度。处理速度不需要太高因为已知信息包含对象和分类不发生不断在每一帧。

当物体(手势检测)包含目标,下一个任务是认识他们。一旦手势识别开始,我们继续跟踪目标和最终的姿态。执行任务时,我们选择卷积神经网络(CNN)模型。CNN使用在许多问题,如图像识别,视频分析、核磁共振图像,和自然语言处理。

3.2。目标检测和分割技术

在分析部分3所示。1,我们选择猪特征提取技术,结合支持向量机分类算法,该模型在图2。猪李和涌提出的特点是(4]。典型的猪的想法来自于对象的形式和状态。可以是像素的强度和方向分布的特征值,调用梯度向量表示为向量。梯度向量的元素表示的像素值变化有多快。梯度向量的值带来很多有用的信息。它代表了像素的亮度值的变化。梯度向量的值改变时,像素是在角落和边缘地区的对象。因此,猪的特性是有效的在选择的代表性的姿势。

猪的本质方法是使用信息的分布强度梯度或边缘的方向来描述本地对象在一个图像。猪运营商实现将图像分割成亚区细胞。我们将计算的方向梯度直方图点为每个细胞。结合直方图,得到原始图像的表示。提高识别性能,当地可以归一化直方图对比通过计算一个强度阈值面积大于细胞块。我们将使用阈值正常化所有细胞块。规范化步骤后的结果将是一个特征向量不变的光照条件的变化导致的。下面是步骤提取猪的特点:(1)第一步:计算每个像素的梯度向量。对于灰度图像,像素值从0到255。如果一个像素值与邻近左,右,上面,下面,像素的梯度向量是由不同的一对。让和不同的值的两对左,右,和上下像素。梯度向量计算使用以下公式: (2)步骤2:创建块。我们将上一步的输出图像分成相等的块。每一块分为4细胞,每个细胞都有一个相同数量的像素。彼此的块堆积在上面,如图3。块的数量计算使用以下公式: 在哪里 , , , , ,和图像的宽度和高度,块,分别和广场。(3)步骤3:计算特征向量。我们为每个细胞块计算特征向量。然后我们将定向空间划分为本(细胞)的典型向量维度的数量。坐标像素的倾角离散成垃圾箱。我们无符号猪离散化( )根据以下表达式: Unsigning猪( ),我们有本值是由像素的总可变强度决定的。由4块电池。加入4个细胞,我们得到一个街区的特征向量。物体的特征向量维数本与 (unsigning猪)或18(签署猪)。(4)第四步:计算特征向量:我们正常特征向量除以其大小的块。结合特征向量的每一块图像,我们有猪的特性。图像的特征向量维数计算在哪里块和每个块的特征向量维数。

支持向量机是一种机器学习算法属于监督学习组。它是用于分类和回归问题。它是一个二进制分类算法。支持向量机的输入和将他们分为两个不同的类。支持向量机训练算法构建一个模型划分成两类。

SVM的想法是找一个hyperlane分离数据点。该超平面将空间划分为不同的域,每个域包含一个类型的数据。例如,我们有一个数据集的蓝色和红色点放置在同一个平面上。我们可以找到一条线分离的红色和蓝色的点集,如图4(15]。

然而,我们需要一个以上的直线划分为复杂的数据集。我们用一种算法来将它们映射到多个维空间(维度)和找到超平面。图中的例子5将数据从二维空间到三维空间15]。

有许多superplanes划分数据集。然而,我们需要遵循以下原则最佳优化:(我)首先,我们必须能够把数据集。(2)第二,规则是,某一层的距离最近的点superplane必须尽可能大。这个距离称为保证金。

superplane之间的距离是最近的两个数据点对应于两个子类。SVM试图优化算法通过最大化利润的价值。因此,我们必须找到最好的superplanar把两个数据层。

问题是要找到两个边界的两个数据层,这两条线之间的距离是最大的。绿色层边界将通过一个或多个绿点。红层的边界将通过一个或几个红点。蓝色和红色点躺在两个边界被称为向量支持,因为他们负责元素找到如图6(15]。

Superplane表示的函数和向量; 是两个向量标量的乘积。我们要积极的进行分类(蓝色)标记类数据集1和负(红色)标记−1类数据。

Superplane分开两个数据层为了满足。超平面创建了两个半无限的数据如下:负一层的空间数据满足和积极的空间层数据满足。我们的下一个选择两个支持超级车道通过点-层通过点的积极层平行那里的距离来是 ,距离来是 ,和的保证金水平。

最优superplanar分离超平面的最大的利润。机器学习理论表明,superplane最小化误差的极限。计算利润 ,我们有以下:

从一个点的距离的元素是 ,在哪里向量的长度是计算的

从一个点的距离在来是

因此,我们可以计算保证金

因此,模型训练SVM技术对应的最小化问题在条件

这是SVM的hard-margin条件问题。的决心超级车道假定在理想条件:数据集可以线性分离,找到两个边际超级车道和他们之间没有数据点。因此,如果这些点不满足条件,问题将不会找到一个解决方案。

3.3。金字塔技术

正如上面分析的,基本上可以包含对象使用猪和SVM分类图像。然而,主题是只有一小部分的实际形象。如果你只整个图像分类,结果将是不准确的。因此,需要有一个算法来确定物体的位置和尺寸精度高。

多尺度图像代表许多比率。使用图像金字塔让我们找到图像在不同尺度上的对象。我们有原始大小的宽度和高度以金字塔为基础。图像大小(子样品)和可选平滑(通常通过高斯模糊)在每个后续层。他们逐渐子样品,直到一些停止标准得到满足或达到的最小大小和二次抽样不再是必需的。

第二个重要组件是滑动窗口。滑动窗口是一个固定大小的矩形,幻灯片从左至右,从上到下在一个图像。我们将提取ROI,启动分类器,并在每一步得到预测结果。

结合图像金字塔,滑动窗口允许本地化对象在不同位置和不同比例的输入图像。结果在一个图像可以处理多个后。有多个对象的结果在不同尺度水平在一个位置或邻近的位置。

结果表明,我们的分类器返回对象的概率越来越大。然而,只有一个对象,我们需要崩溃和删除多余的结果。为了解决这个问题,我们应用nonmaximum抑制(NMS)方法,将减少重叠区域。

的想法的方法如下:(我)我们有一系列的ROI区域与相应的自信点和一个重叠的阈值。与此同时,初始化一个空列表。(2)选择最高的ROI区域信心点和删除 ,并添加。(3)比较新添加的ROI区域在通过十字路口在联盟指数(借据)。如果阈值大于原重叠阈值初始化 ,然后删除这些ROI区域。(iv)继续选择ROI区域点目前最高的信心和添加。(v)比较的借据价值区域添加到与其他地区的 ;如果大于阈值重叠;然后删除。(vi)继续执行,直到没有更多的元素。(七)结束结果集合的元素。

3.4。实时跟踪技术

由于实时应用,现代对象追踪者试图调和尽可能多的样本,并保持较低的计算。Kernelized相关性过滤器(KCF)是一种变异的相关性过滤器。过滤器的两个样本之间的相关性。这些样本匹配时,相关值是最高的。版本之间的相关性可以找到根(ROI区域包含跟踪目标)和ROI区域在同一位置在下一帧。这表明方向的主题已经在跟踪。

在标准相关滤波器,以下对象模型不更新。如果物体图像显著变化,跟踪器的性能降低。KCF跟踪器,直接被监视对象的模型更新,不断使用线性岭回归模型。

坚持目标的过程中使用的基本KCF方法包含以下步骤:(我)确定控制面积:它可以最初定义的区域或一个区域检测到系统与前一帧(2)描述的功能:定义图像的特征区域(3)回归训练:ROI检测功能将被添加到数据集形成一个包括过去和现在的特性为基础的快速培训(iv)结果经过回归训练是一种新的模式,和下一步目标探测模型的基础

KCF方法的特点是相对精度高、中速,尤其是在短时间内无法恢复时,失去目标。因此,我们选择的方法。

3.5。算法

该算法使用一个数据集从直播摄像机的图像测试的目的和解决基本的问题。该算法的详细信息,如图7。

3.5.1。预处理

预处理前输入图像识别是提高图像质量的步骤来消除噪声,提高识别能力的正确类型的手势。在预处理步骤中,我们使用自适应直方图均衡化方法和平均滤波器消除噪声,提高了输入图像的质量。此外,在处理之前我们也标准化图像大小。

在预处理步骤中,我们使用以下技术:(我)图像调整:图像的大小调整到一个新的同步处理步骤,减少图像大小,并保存的数量计算。(2)相对有限的自适应直方图均衡化(CLAHE):这是一个方法来帮助平衡直方图与限制之下的水平。图像分成小块称为细胞( )。每一个街区然后正常绘制。因此,直方图将限制在一个小区域。如果任何细胞超过指定的水平相比,这些像素将剪和分布式一致应用直方图均衡化前其他细胞。消除注液电池偏见,使用线性插值平衡方法如图8。(3)中值滤波器:我们将所有像素的平均值在内核区域和中心元素来代替平均价值。这是非常有效的噪声图像。过滤器的中心元素计算新值,有效降低噪音。其乘法面积大小必须是一个奇怪的正整数。我们使用乘数面积像素。结果如图9。

(一)

(b)

(一)

(b)

3.5.2。构建训练样本

训练样本的建设将会根据我们的实际图像将为智能室内应用程序最现实的训练的结果。训练样本是来自用户的实际图片。

(1)开发一种检测训练数据集。检测训练样本图像的人手运动的开始。我们的培训抽样方法是使用python应用程序执行以下想法:(我)不断从摄像头接收帧的笔记本电脑和显示在屏幕上。(2)利用帧如下:ROI区域是固定的像素和从第一帧的左上角。然后从下一帧使用滑动窗口方法6像素的水平和垂直的80像素。(3)执行命令来保存一个框架在一段约50毫秒,文件名存储在一个文本文件与坐标和ROI区域对应的大小。

我们运行应用程序和移动手在每一帧的ROI。我们得到一个文件夹包含映像模板和一个文本文件包含手位置信息在各自的形象。我们执行一次构建训练数据集,如图10。

例如,相应的ROI区域信息文件的内容如下:

然后,我们执行一个随机选择的图片和检查文件的位置。然后我们评估样品质量是否符合ROI。我们可以执行多次在不同背景和灯光添加数据集。

(2)发展中国家身份的训练数据集。对于识别训练样本,我们执行一个类似的想法检测培训模式。在这种情况下,输出是削减的ROI区域图像帧,如图11。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

我们增加数量的运行和变化的执行环境更加多样化背景样本的结果。我们执行开始和结束的位置。相对应的结果将四个数据集1开始姿势和3结束位置。我们使用程序来构建4个数据集对应于以下构成:传播你的手,左,右,和握住你的手。每个数据集包含1000特色图像。

3.5.3。训练模型来检测开始姿势

训练检测模型,我们使用猪和SVM技术支持在dlib图书馆与输入数据如下:样本图像组成的列表元素numpy矩阵表示图像。ROI区域包含的对象的列表形式”dlib。矩形”条件。正如上面提到的,一个小值是一个更大的容许偏差,可能导致underfitting。如果太大,会导致过度拟合的公差很小。因此,有必要选择合适的参数如图12。

(一)

(b)

(c)

我们注意到样本集列表长度和ROI区域。在我们的自助建站脚本,测试和选择参数。“dlib测试培训结果与模块。测试”(simple_object_detector)产生以下:培训指标:精度是1,记得是0.995825,平均精度为0.995825。

结果将被存储为“∗。支持向量机”申请检测。

3.5.4。培训手势识别模型

首先,我们将建立一个数据集从先前创建的一组4文件夹4姿势。数据读取文件夹,标签。数据集的结果列表中列出元素的个数等于样本图像的数量。每个元素都有一个结构组成的矩阵的图像描述和标签的样本。

使用“tensorflow训练。keras”来建立模型。通过培训过程与许多类型的结构、模型层的数量和大小选择如下:dense_layers = (0, 1, 2)layer_sizes = (32、64、128)conv_layers = (1、2、3)

我们选择最优模型与三层Conv2D大小32,64,和128年,分别。ReLU激活函数是三层MaxPooling2D和一个平层,分别。的输出是一个致密层大小128和一层致密的大小4。一个输入图像有四个输出。表1是一个神经网络的描述。在表1,总参数是240772;可训练的参数是240772;和nontrainable参数是0。


层	输出的形状	参数的数量

conv2d_1	(没有,126、126、32)	320年
Activation_1	(没有,126、126、32)	0
max_pooling2d_1	(没有,42岁,42岁,32)	0
conv2d_2	(没有,40,64)	18496年
Activation_2	(没有,40,64)	0
max_pooling2d_2	(没有13 13,64)	0
conv2d_3	(没有,11日,11日,128)	73856年
Activation_3	(没有,11日,11日,128)	0
max_pooling2d_3	(没有,3,3,128)	0
Flatten_1	(没有,1152)	0
Dense_1	(没有,128)	147584年
Activation_4	(没有,128)	0
Dense_2(密度)	(没有,4)	516年
Activation_5	(没有,4)	0

结果训练后与参数如表所示2。


时代	一步的时间(秒)	损失	精度	Val_loss	Val_accuracy

1	21	1.2469	0.5143	0.7816	0.7944
2	14	0.0568	0.9881	0.0281	0.9944
…	…	…	…	…	…
298年	15	2.7532e−08年	1.0000	1.0010e−06	1.0000
299年	15	2.7248e−08年	1.0000	9.9832e−07	1.0000
300年	15 ms /步骤	2.6680e−08年	1.0000	9.9170e−07	1.0000

在表2,训练结果表明,该模型是完成当val_loss指数很小。

4所示。仿真和结果

4.1。设置

我们在电脑上执行模拟Core i5 4310 CPU配置没有GPU在2 GHz。我们评估的准确性和执行时间为三个场景包括手区识别、静态手势识别和动态手势识别。在我们的研究中,输入视频的分辨率可以改变取决于应用程序。ROI区域检测对象的大小或。

4.2。结果

4.2.1。准备手检测结果

我们进行了重新评估目标检测结果的猪和SVM使用具有不同背景的图像。结果如表所示3和图13。图13显示了一个数量的情况下,决心是错误的手由于背景变化。我们发现,图像亮度是一个重要因素来提高算法的精度。


的姿势	数量的测试	许多错误的识别	识别时间(毫秒/图片)	出错率(%)

传播的手臂上	1000年	90年	63.47	9

(一)

(b)

(c)

(d)

4.2.2。静态姿势识别结果

根据CNN模型,分类器将第4单元的输出序列。每个元素代表一个分类标签和值在0和1之间。当标签的代表值接近1,分类器的结果类似于标签。我们选择一个限制为0.85。标签时将选择相应的值大于0.85。如果没有标签对应的值大于0.85,结果将是算作面目全非。如果有标签对应的值大于85%但不正确的标签识别前检查,结果也算作假身份。

结果如表所示4和图14。在图(14日),实际的状态是第一个(向上的状态)。然而,结果显示第三国家指导正确可靠性最高。在图14 (b),实际的状态是第四状态(开关状态)。然而,结果显示第一个状态(向上),可靠性最高。


的姿势	假身份率(‰)	识别图像的时间(毫秒)	精度

手牵着手	4	69.41	0.99
传播的姿势了	5	72.15	0.99
传播了姿势	11	66.52	0.98
开放的右手	7	67.32	0.99

(一)

(b)

4.2.3。动态姿势识别结果

我们执行实时摄像头。因此,图像处理速度取得实时选择配置电脑。结果如表所示5。


的姿势	许多错误的识别	精度

开关状态(开/关)	2	0.93
增加	4	0.87
减少	3	0.90

由于数量有限的手势,我们没有充分评估了该方法的有效性。然而,我们可以判断手的位置精度的检测步骤以及识别的步骤开始和结束的姿势。结果在表5准确的表明该算法提高了86%以上。

我们执行我们的建议与其他方法相比较。结果如表所示6。在表6与数据集,我们可以看到,检测在不同环境中仍然给出了一些特殊的错误结果当背景变化快。然而,结果是可以接受的,因为检测可以在高速连续发生(0.06秒)。因此,CNN模型具有很高的精度对所有姿势(超过96%)。这个结果适合实时应用程序。


方法	训练数据(框架)	平台	精度(%)	检测帧(秒)	硬件

结合边缘detectio [17]	3154年	CPU	82年	从10到15	2.3 GHz CPU (i5, 16 GB的RAM)
猪人物和支持向量机(18]	1000年	CPU	91年	N /一个	N /一个
提高了分类器和主动学习19]	300年	CPU	70年	0.089	3.2 GHz Pentium 4日1 GB RAM
我们的建议	1000年	CPU	90年	0.15	CPU (i5 2 GHz 4 Gb RAM)

该方法优于其他方法,如手势识别和检测使用了分类器和主动学习19大约有70%的准确性。另一种方法也有一个相对较高的准确性(20.]。然而,该方法是基于人脸识别以及运动检测和基于运动的历史。然而,该方法的缺点是很难申请的环境噪声有关的颜色和手势。

在该方法中,我们的目标是利用快速检测猪的优点和支持向量机配合使用CNN模型识别。模型的优点是高度准确的但对实时应用要求相对强劲的GPU。因此,我们有一个平均速度处理系统仍然产生可接受的结果(90%)。

4.2.4。讨论

作者(21- - - - - -27)执行CNN处理器硬件配置较低的图像处理。在[21),实时视频处理的要求应用程序完全满意,允许早期分割和有效的预处理技术来执行复杂的例程用于配置。结果显示实时图像处理的可行性支持手势识别机器人控制应用程序的流程。在[26),作者提出了一种新颖的算法的局部二值模式(LBP)特征提取使用CNN。使用的动态并行CNN,该功能可以有效地执行的功耗和速度。

当使用硬件部分中描述4所示。1,我们发现计算机仿真使用10 - 15%的CPU检测模式和60 - 70%的CPU分类模式。使用RAM(包括仿真软件)小于510 Mb。可以看出,硬件只是足够处理图像。因此,我们将优化方法硬件下一步的图像处理。此外,作者(26)显示使用CNN基本图像处理的可行性。在[26,27),作者展示了使用CNN深度学习应用程序的一个想法。优化系统,要求输入图像的大小当最小的处理速度和内存512 Mb每秒30帧,分别。在我们的研究中,我们使用的训练算法只有1000图片,个人电脑配置较低,每帧的执行时间少于0.15毫秒。它是完全适用于硬件配置使用常见的CNN芯片。

5。结论

在这项研究中,我们建立了一个基于猪将SVM的手势识别算法能够适用于机器人系统。结果表明,该算法的精度提高到99%。然而,姿态数据集不够大,因为该方法的有效性不高。因此,我们能够提高检测的精度和识别步骤的开始和结束的动作。

在未来,我们将执行下面的步骤增加每秒的帧速率,提高精度通过增加输入图像的分辨率或使用方法在我们之前文献[28,29日),将神经网络与其他网络提高计算的效率和性能与任何对象。

数据可用性

这项研究的作者确认数据是建立。不是他们的其他数据是完全在这项研究中引用。

的利益冲突

作者宣称没有利益冲突。

确认

本研究进行了框架的项目由教育部和培训(酩悦),越南,在批准号B2020-BKA-06。作者要感谢酩悦的财政支持。

引用

p . n . Huu t . p . Ngoc, h·t·农德孟”提议手势识别算法使用猪和支持向量机对于智能应用程序,”课堂讲稿的计算机科学研究所、社会信息和通信工程施普林格国际出版,卷。379年,纽约,纽约,美国,2021年。视图:出版商的网站|谷歌学术搜索
p .中提琴和m·琼斯,“健壮的实时人脸检测,”《第八IEEE计算机视觉国际会议IEEE,温哥华,加拿大,2001年7月。视图:出版商的网站|谷歌学术搜索
d·劳”,从当地的扇区特征对象识别,”《第七IEEE计算机视觉国际会议1999年9月,IEEE,克基拉岛,希腊,。视图:出版商的网站|谷歌学术搜索
周宏儒。李和黄永发。钟,“手势识别使用方向直方图,”IEEE学报》上。IEEE 10地区会议。TENCON 99。亚太地区信息基础设施“多媒体技术”(猫。No.99CH37030)IEEE,济州韩国(南),1999年9月。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。学报2015年IEEE计算机视觉国际会议(ICCV)2015年12月,IEEE,智利圣地亚哥。视图:出版商的网站|谷歌学术搜索
c .宁h .周,y的歌,j .唐“单身拍摄multibox探测器对目标检测》《盗梦空间》世博会2017年IEEE国际会议多媒体工作室(ICMEW)IEEE,香港,中国,2017年7月。视图:出版商的网站|谷歌学术搜索
l . Breiman“偏差、方差、灭弧分类器”技术。代表,加州大学洛杉矶CA,美国,1996年,460年。视图:谷歌学术搜索
l . Dalei l . Ruitao y于宁波,“对象跟踪基于内核相关滤波器和特征融合,”《2019中国自动化大会(CAC)IEEE,杭州,中国,2019年11月。视图:出版商的网站|谷歌学术搜索
达塔。汉族,蔡明俊。金,诉迈克。,j .沉重的一击”Keypoint-based对象跟踪使用修改后的中值流,”对消费者Electronics-Asia学报2016年IEEE国际会议(ICCE-Asia)IEEE,首尔,韩国(南),2016年10月。视图:出版商的网站|谷歌学术搜索
c . Wang h . k . Galoogahi学术界。林,美国使用“Deep-lk高效的自适应跟踪对象,”Prceedings 2018年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”IEEE,布里斯班,澳大利亚,2018年5月。视图:出版商的网站|谷歌学术搜索
d . s . Bolme j·r·贝弗里奇b·a·德雷珀和y . m .他“视觉物体跟踪使用自适应相关过滤器,”2010年IEEE计算机学会学报计算机视觉与模式识别会议美国CA, IEEE,旧金山,2010年6月。视图:出版商的网站|谷歌学术搜索
f .冯X.-J。吴,t .徐”对象跟踪内核相关过滤器根据意思转变,”2017年国际智能城市研讨会论文集(ISC2)2017年9月,IEEE,无锡,中国,。视图:出版商的网站|谷歌学术搜索
j·a·t·Olivero c . m . b . Anillo j·p·g·巴里奥斯,e·m·莫拉莱斯e . j . Gachancipa和c a z d l。托瑞,“比较先进的方法检测和跟踪人的安全摄像头视频,”学报2019年第二十二研讨会上图像、信号处理和人工视觉(STSIVA)2019年4月,IEEE布卡拉曼加、哥伦比亚、。视图:出版商的网站|谷歌学术搜索
p .竞技场,m . Bucolo s Fazzino, m . Frasca“CNN范式:形状和复杂性,”国际期刊的分歧和混乱,15卷,不。7,2063 - 2090年,2005页。视图:出版商的网站|谷歌学术搜索
s . Kandukuri a·克劳森h . v . Khang和k . Robbersmyr“风力发电机电气故障诊断系统使用传感器融合方法,”物理学杂志》:会议系列,卷1037,不。3,p。32036年,2018年。视图:出版商的网站|谷歌学术搜索
a . Tharwat”参数的调查与核函数支持向量机分类器,”知识和信息系统,卷61,不。3 p。2019。视图:出版商的网站|谷歌学术搜索
m . Kounavis“指尖检测没有深度数据的使用,颜色信息,或大型训练数据集”学报2017年IEEE国际会议系统,人,控制论(SMC)2017年10月,IEEE,班夫,加拿大,。视图:出版商的网站|谷歌学术搜索
K.-P。冯和f .元,“静态手势识别基于猪人物和支持向量机,”学报》2013年第2国际研讨会仪表和测量、传感器网络和自动化(IMSNA)IEEE,多伦多,加拿大,2013年12月。视图:出版商的网站|谷歌学术搜索
h·弗朗基,j . r。太阳能,r . Verschae“实时手势检测和识别使用提高了分类器和主动学习,”图像和视频技术的进步d . Mery l·埃达,Eds。,pp. 533–547, Springer, Berlin, Germany, 2007.视图:出版商的网站|谷歌学术搜索
c c。谢长廷,D.-H。Liou, d·李,“实时手势识别系统使用运动历史图像,”学报2010年的第二次国际会议上的信号处理系统IEEE,大连,中国,2010年7月。视图:出版商的网站|谷歌学术搜索
p .竞技场,a . Basile m . Bucolo l .命运,“面向对象的分割模拟CNN芯片上,”我:IEEE电路和系统基本理论和应用程序,50卷,不。7,837 - 846年,2003页。视图:出版商的网站|谷歌学术搜索
p . Kaluzny和s Kuklinski”性质的细胞神经网络在选定的图像处理应用程序中,”《IEEE国际研讨会对细胞神经网络及其应用1990年12月,IEEE,布达佩斯,匈牙利,。视图:出版商的网站|谷歌学术搜索
c c。LeeJ。p d。Gyvez”,彩色图像处理在细胞神经网络环境中,“IEEE神经网络,7卷,不。5,1086 - 1098年,1996页。视图:出版商的网站|谷歌学术搜索
k·r·Crounse和l . o . Chua”方法的图像处理和模式形成细胞神经网络:一个教程中,“我:IEEE电路和系统基本理论和应用程序,42卷,不。10日,583 - 601年,1995页。视图:出版商的网站|谷歌学术搜索
美国的。陈,肯尼迪。钟,S.-F。梁和C.-T。林”,细胞神经网络(CNN)电路设计早期人类视觉系统的建模”《IEEE国际生物医学研讨会电路和系统,2004年,IEEE,新加坡,2004年12月。视图:出版商的网站|谷歌学术搜索
o . Lahdenoja m . Laiho, a . Paasio“局部二进制模式特征向量提取与CNN,”Porceedings 2005 9日国际研讨会的细胞神经网络及其应用,IEEE,新竹,台湾,2005年5月。视图:出版商的网站|谷歌学术搜索
a .霍m . Hillmer卢,x s . Hu和m . Niemier”细胞神经网络与cnn的友好卷积神经networks-CNNs”程序的设计、自动化测试在欧洲会议展览(日期),2017年2017年3月,IEEE,瑞士洛桑,。视图:出版商的网站|谷歌学术搜索
n h .酷毙了、t .问:Vinh和t .三好”视频压缩方案使用边缘特性的无线视频传感器网络,”电气和计算机工程杂志》上文章ID 421307卷,2012年,20页,2012年。视图:出版商的网站|谷歌学术搜索
p . n . Huu诉tran quang, t .三好”图像压缩算法考虑无线传感器网络能量平衡,”学报》第八届IEEE国际会议产业信息(INDIN 2010)IEEE,大阪,日本,2010年7月。视图:出版商的网站|谷歌学术搜索