研究论文|开放存取
阿拉伯手语识别和生成阿拉伯语语音使用卷积神经网络
摘要
手语包括胳膊和手的运动作为通信人有听力障碍的一种手段。一种自动标志识别系统需要动作的两个主要课程:的特定特征的检测和特定输入数据的分类。在过去,进行分类和检测手语很多方法已经被提出了提高系统性能。然而,在计算机视觉领域的最新进展面向我们朝手征兆/手势的认可与深层神经网络的帮助下,进一步探索。阿拉伯手语见证了前所未有的研究活动,以认识到使用深层学习模型手的标志和手势。基于视觉的系统运用CNN的认可阿拉伯手的标志型字母和它们翻译成阿拉伯语讲话,本文提出。所提出的系统会自动检测手签封,能讲出来与深刻的学习模式阿拉伯语的结果。该系统提供了90%的准确识别阿拉伯语手的标志型字母这保证它作为一个高度可靠的系统。的精度可通过使用更先进的手势识别装置,例如飞跃运动或Xbox超高动力学得到进一步改善。认识到阿拉伯手的标志型的信件后,结果将被输送到文成产生阿拉伯语作为输出的音频语音引擎。
1.介绍
语言被认为是包含的被用于日常通信正式标志,符号,声音,或手势的系统。通信大致可分为四种形式;言语,肢体言语,视觉和书面沟通。口头沟通方式或者通过语音或通过手语传递信息。然而,非语言沟通是此相反,由于涉及语言的使用身体语言,面部表情,姿势和传送信息的使用。书面通信,然而,涉及通过写入传送信息,打印,或诸如数字和字母输入的符号,而可视通信需要通过诸如艺术,照片,图画,图表,草图,和图形传达信息。
胳膊和手的运动进行沟通,特别是与人们听力残疾,被称为手语。然而,根据人,他们来自该区域不同。因此,关于手语后续没有标准化;例如,在美国,英国,中国,和沙特有不同的手语。由于手语已经成为谁是又聋又哑人潜在的沟通语言,它可以开发一个自动化系统为他们的人谁是不是聋哑人交流。
手语由四个主要的手工部件组成,包括手的形状、手的运动、手的方向和手相对于身体的位置[1]。自动信号识别系统主要有两个步骤:面对面检测特征和分类输入数据。为了提高手语自动识别系统的性能,对手语的分类和检测提出了多种方法。美国手语(American Sign Language, ASL)被认为是在许多国家广泛使用的手语,如美国、加拿大、墨西哥的部分地区,在亚洲、非洲和中美洲的少数国家也使用很少的修改。手语的研究活动也广泛地进行在英语、亚洲和拉丁手语,而很少关注阿拉伯语。这可能是因为研究人员没有一个普遍接受的阿拉伯手语数据库。因此,研究人员不得不求助于开发自己的数据集,这是一个乏味的任务。特别是,阿拉伯手语重组系统还没有使用相对较新的技术,如认知计算、卷积神经网络(CNN)、物联网、网络物理系统等在许多自动化系统中广泛使用的技术[2-7]。认知过程使系统认为一个人的大脑认为,没有任何人为操作的援助方式相同。人类的大脑激发了认知能力[8-10]。在另一方面,深学习是机器学习的人工智能(AI),其具有能够从作为非结构化数据无人监督学习网络的或未标记的,其也被称为深神经学习或深神经网络[子集11-15]。在深度学习,CNN是一类深层神经网络,计算机视觉领域最常用的的。基于视觉的方法主要集中姿态拍摄的图像上,并获得主要特征来识别它。该方法已在很多任务,包括超分辨率,图像分类和语义分割,多媒体系统,以及情感识别[被应用16-20]。K. Oyedotun和Khashman是应用CNN的为数不多的知名研究人员之一[21]谁使用CNN与堆积降噪自动编码器(SDAE)沿识别通过公共数据库得到了美国手语(ASL)的24个手势。在另一方面,建议使用卷积神经网络(CNN)用于识别意大利手语是由庇古等人提出。[22]。而胡等人。已经提出了关于混合CNN和RNN的体系结构的建议,完美捕捉时间特性对于解决了手势识别的问题[肌电信号23]。一个令人难以置信的CNN模型,自动识别数字基于手的迹象,能讲孟加拉语语言的特定结果[解释24],这是接下来的工作。在[25此外,还有一项建议是在从几个用户收集的数据上使用转移学习,同时利用深度学习算法来学习从大型数据集发现的区别特征。
阿拉伯手语的识别还有其他几种技术,如Tubaiz等人提出的k近邻分类器连续识别系统和阿拉伯手语统计特征提取方法[26]。不幸的是,图拜兹的方法的主要缺点是,用户需要使用一个装有仪器的手套来获取特定手势的信息,这通常会给用户带来极大的困扰。在这之后,(27]还提出了阿拉伯语的手语识别系统发展的一个仪器手套。连续识别阿拉伯手语,使用隐马尔可夫模型和时空的特点,提出了由[28]。Halawani对阿拉伯手语翻译的研究[29],其可以在移动设备上使用。在[三十],使用传感器和图像方法自动识别阿拉伯手语提出。[31]也使用两个深度传感器来识别的阿拉伯手语(ArSL)字的手势。[32]介绍了一个使用微软Kinect的动态阿拉伯手语识别系统,该系统依赖于两种机器学习算法。然而,阿拉伯手语与CNN最近的这种做法在手语研究领域是前所未有的。因此,本研究的目标是开发一个基于视觉的系统,利用CNN对阿拉伯手语字母进行识别,并将其翻译成阿拉伯语。对于阿拉伯语的31个字母,每个手势的训练集中有100幅图像,测试集中有25幅图像。通过不同的超参数组合对该系统进行测试,以获得训练时间最短的最优结果。
2.数据预处理
数据预处理是朝着建设一个工作深度学习模型的第一步。它是用来在一个有用的和有效的格式转换的原始数据。数字1示出了数据预处理的流程图。
2.1。RAW图像
手势图像称为原始图像,使用相机捕获实现该系统。这些图像是在以下环境中拍摄的:(我)从不同的角度(2)通过改变照明条件(ⅲ)质量和焦点都很好(iv)通过改变物体大小和距离
创建原始图像的目的是创建用于训练和测试的数据集。数字2从拟议系统的数据集显示31个阿拉伯字母的31个图像。
2.2。图像分类
所提出的系统的图像划分为31类的阿拉伯字母的31个字母。一个子文件夹被用于存储一个种类的图像来实现该系统。代表类中的所有子文件夹中所提出的系统名为“数据集”一个主文件夹放在一起。
2.3。格式的图片
通常情况下,手势图像是不平等的,具有不同的背景。因此,为了得到手部部分,需要从图像中删除不必要的元素。提取的图像将被调整为 像素,并转换为RGB。数字3显示了阿拉伯字母的31个字母格式的图像。
2.4。划分数据集进行训练和测试
在31个字母中,每个字母对应125张图片。数据集分为两组,一组学习,另一个用于测试集。比例为80:20是用于将数据集划分为学习和测试集。有100个图像训练集和25图像测试集的每只手的迹象。
2.5。增强
由于许多转换(旋转、移动等),实时数据总是不一致和不可预测的。图像增强被用来提高深度网络的性能。它通过各种处理方法(如移位、翻转、剪切和旋转)人工创建图像。利用这种图像增强技术,将系统的图像从0到360度随机旋转。少数图像随机剪切0.2度范围,少数图像水平翻转。数字4显示了拟议系统的增强图像的快照。
2.6。创建图像记录文件和生成训练数据集
它需要创造出保存在不同的文件夹来获取标签和文件名信息的所有图像的列表。
3.建筑
数字五显示了使用CNN阿拉伯手语识别系统的体系结构。CNN是利用感知器的系统中,在其功能,用于分析所述数据的执行机器学习(ML)算法。该系统落入人工神经网络(ANN)的范畴。CNN主要是适用于计算机视觉领域。它主要是帮助在图像分类与识别。
CNN的两个组成部分是feature extraction和classification。每个组成部分都有其需要探讨的特点。下面几节将解释这些组件。
3.1。特征提取部分
CNN有各种各样的积木。然而,美国有线电视新闻网的主要组成部分是卷积层。卷积层是指对功能以产生一个第三函数的数学组合。需要通过使用过滤器或内核用于产生特征地图做就输入卷积。卷积的执行涉及滑过特定输入的每个过滤器。在每个位置上,矩阵乘法中进行,并增加了输出到特定的特征地图。
每个图像转换为一个三维矩阵指定的宽度,指定的高度,和指定的深度。深度包括作为一个维度,因为图像(RGB)包含颜色通道。使用不同的过滤器可以对输入数据进行大量的卷积,从而生成不同的特征图。将不同的feature map组合,得到卷积层的输出。然后输出经过激活函数生成非线性输出。
最流行的一种激活函数是线性整流单元(RELU),其与所述计算所述功能动作 (0,κ)。该函数显示激活的阈值为0。与sigmoid和tanh相比,ReLU更可靠,收敛速度加快了六倍,但在操作过程中它非常脆弱。然而,可以通过确定适当的学习速度来克服这一缺点。
步长是指卷积滤波器每次执行的特定步长的大小。步幅的大小通常被认为是1;它的意思是卷积滤波器一个像素一个像素地移动。如果我们增加特定步幅的大小,过滤器将以更高的间隔滑过输入,因此单元格内的重叠会更小。
因为该功能的地图尺寸总是比输入的尺寸较小,我们必须做些什么来阻止我们的萎缩特征图。在这里,我们的目的是使用填充。
现在需要添加零值像素层,对特定的输入进行零圈,以防止feature map的收缩。填充还有助于在进行卷积之后保持空间维常数,以便内核和步长大小与输入匹配。因此,它提高了系统的性能。
在卷积神经网络中,有三个主要参数需要调整,以修改卷积层的行为。这些参数是过滤器大小、步长和填充。可以计算任意给定卷积层的输出大小为: 哪里=输出卷积层的大小。=输入图像的尺寸。=过滤器的大小。填充的数量。=步幅的大小。
3.2。汇聚层
自然,池化层被添加在卷积层之间。但其主要目的是以较少的参数不断降低维数,减少计算量。它还可以调节过拟合,减少训练时间。有几种形式的联营;最常见的类型称为最大池。它使用了所有窗口中的最大值,因此减小了feature map的大小,但保留了重要的信息。需要预先指定窗口大小,以确定池化层的输出卷的大小;可以采用以下公式。
在所有情况下,一些翻译不变性是由指示一个特定的对象将是可识别的而无需考虑它成为所述框架上可见的池层提供。
3.3。分类
CNN的第二个重要的组成部分是分级。所述分类包括(FC),其完全连接的几个层。在FC层神经元拥有每上一层的激活的全面连接。所述FC层有助于映射特定的输入和输出之间的表示。该层通过施加常规神经网络的相同原理来执行其功能。但是,一个维数据只能由FC层接受。对于转换三维数据到一个维数据,巨蟒的扁平化功能是用来实现所提出的系统。
4.实验结果与讨论
所提出的系统与2卷积层进行测试。然后 最大池层跟随每个卷积层。卷积层在第一层有不同的结构;有32粒,第二层有64粒;然而,这两层的内核大小是相似的 。每对卷积和池层的与该性能分别为25%和50%,两种不同的压差值正规化检查。所以,此设置允许消除每四个输入中的一个输入端(25%)和来自每对卷积的两个输入端(50%)和集中层。完全连接层的激活功能使用RELU和SOFTMAX决定是否神经元火灾或不是。该模型的实验设置在图中给出五。
RMSProp优化器使用基于分类交叉熵的成本函数对系统进行了100个epoch的训练,因为它在100个epoch之前就收敛了,所以权重被存储在系统中以供下一阶段使用。
该系统呈现在下一阶段(测试阶段)最小的损失率乐观的测试精度。损失率使用增强图像保持精度大致相同后,进一步减小。在测试阶段的每个新图像在该模型中在使用前进行处理。从所提出的系统所产生的向量的大小是10,其中这些值的1/10是1,并且所有其他的值是0来表示给定数据的预测类值。然后,该系统利用它的签名步骤,其中手征转化为阿拉伯语音连接。这个过程完成分为两个阶段。第一阶段是从手的标志翻译与翻译API(谷歌翻译)的帮助阿拉伯字母。将所生成的文本阿拉伯语将被转换成阿拉伯语音。在这个阶段,使用谷歌文本到语音(腹围)。
该系统是由超参数的不同组合,以达到最佳的效果构成。结果表明83%的准确度,并用0.25和0.5漏失率的32级64的内核卷积层只有0.84验证损失。该系统还测试了卷积层用批量大小64和128。此外,在图像增强(IA)的存在下,准确度提高86至90%为批量大小128,而验证损失降低0.53至0.50。表1代表这些结果。人们还发现,进一步添加卷积层的不适合,因此避免。数字6礼物损失和在不存在和批量大小128.图像增强的存在训练和验证准确性的图形这表明,之前扩增,确认精度曲线是训练精度和进行验证的训练和损失的准确性低于两者都增强实施后下降。该图显示,我们的模型是不是过度拟合或underfitted。
|
||||||||||||||||||||||||||||||
混淆矩阵(CM)展示了系统在正确和错误分类方面的性能。因此,在缺乏和存在IA的情况下,检验预测的CM见表2和表3, 分别。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.结论
这项工作的主要目的是为有语言障碍的人提出一个模型,以加强他们的交流使用阿拉伯手语,并尽量减少符号语言的影响。该模型还可以有效地应用于手势识别的人机交互。虽然该模型尚处于起步阶段,但在正确识别手部数字和将其转换为阿拉伯语语音方面仍具有较高的准确率,达到90%以上。为了进一步提高模型的准确性和质量,可以考虑使用更先进的手势识别设备,如Leap Motion或Xbox Kinect,也可以考虑增加数据集的大小并在未来的工作中发布。在识别基于阿拉伯语的手势字母后,该系统还将产生阿拉伯语的音频作为输出。尽管如此,该工具被发现成功地解决了非常重要和被低估的社会问题,并为听力障碍的人提供了一个有效的解决方案。
数据可用性
用于支持该研究结果的数据包括在项目之内。
利益冲突
作者宣称,他们没有利益冲突。
致谢
这项工作是由朱夫大学,Sakaka,沙特阿拉伯,格兰特40/140下支持。
参考文献
- E.科斯特洛美国手语词典,兰登书屋,纽约,美国,2008年。
- 《交叉rec:基于社会大数据和认知计算的跨领域推荐》,移动网络及应用第23卷,no。2018年,1610-1623页。视图:出版商网站|谷歌学术搜索
- Hao, J. Yang, M. Chen, M. S. Hossain, M. F. Alhamid,“通过迁移学习的情感感知视频QoE评估,”IEEE多媒体第26卷,no。1, 2019年31-40页。视图:出版商网站|谷歌学术搜索
- 钱元华、陈文明、陈文明、侯赛因、阿拉姆里,“认知车辆网络的安全执行”,物联网杂志IEEE互联网第5卷,no。2018年,第1242-1250页。视图:出版商网站|谷歌学术搜索
- A.亚辛,S.辛格,M. S.侯赛因和穆罕默德G.,“与雾和云计算智能家居物联网的大数据分析,”下一代计算机系统,第91卷,第563-573页,2019年。视图:出版商网站|谷歌学术搜索
- Ma x, Wang R., Zhang Y., Jiang C., H. Abbas,“工业物联网智能机器人顾问的名字消歧模块”机械系统和信号处理2020年第一百三十六卷第106413条视图:出版商网站|谷歌学术搜索
- M. S.侯赛因,M. A.拉赫曼和G.穆罕默德,“网络物理云为导向的老年人多感官智能家居框架:能源效率的角度来看,”杂志并行与分布式计算的第103卷,不。2017,第11-21页,2017。视图:出版商网站|谷歌学术搜索
- 林,李,田,A. Ghoneim, M. S.侯赛因,S. U.阿明,“基于人工智能的异构无线网络认知通信数据分析”,IEEE无线通信第26卷,no。3,第83-89页,2019年。视图:出版商网站|谷歌学术搜索
- M. S. Hossain和G. Muhammad,“一种使用深度学习融合的认知无线框架的视听情感识别系统,”IEEE无线通信第26卷,no。3,第62-68,2019。视图:出版商网站|谷歌学术搜索
- 张元义,马欣欣,张建民,M. S.侯赛因,G.默罕默德,S. U.阿明,“认知物联网中的边缘智能:提高敏感性和交互性”,IEEE网络第33卷,no。3,第58-64页,2019年。视图:出版商网站|谷歌学术搜索
- 十,陈,张良军,T.刘和M. M. Kamruzzaman,“研究在机械设备故障诊断的图像质量的领域更深层次的学习,”杂志视觉传达和图像表示,第62卷,第402-409页,2019。视图:出版商网站|谷歌学术搜索
- G. B.陈,隋X.和M. M. Kamruzzaman,“农业遥感影像的耕地信息提取技术的基础上深度学习”杂志德拉Facultad德Agronomia德拉大学德尔苏利亚卷。36,没有。6,第2199年至2209年,2019。视图:谷歌学术搜索
- P.阴和M. M. Kamruzzaman,“基于深神经网络的动物图像检索算法,”杂志Cientifica-:科学院Veterinarias,第29卷,第188-199页,2019年。视图:谷歌学术搜索
- “基于深度支持值学习网络的遥感影像质量评估”,陈志强、裴志强、M. M. Kamruzzaman,“基于深度支持值学习网络的遥感影像质量评估”,信号处理:图像通信2020年第83卷第115783条视图:出版商网站|谷歌学术搜索
- “基于目标分解算法和机器学习的生态空间极化SAR图像光谱分类”,陈志强,王丽明,M. M. Kamruzzaman,“基于目标分解算法和机器学习的SAR图像光谱分类”,神经计算与应用卷。32,没有。10,第5449-5460,2020。视图:出版商网站|谷歌学术搜索
- B. Kayalibay,G.詹森,和P.范德Smagt,“医学成像数据的基于CNN的分割”,2017年,http://arxiv.org/abs/1701.03056。视图:谷歌学术搜索
- M. S. Hossain和G. Muhammad,“使用安全边缘和云计算的情感识别,”信息科学,第504卷,第2期。2019,第589-601页。视图:出版商网站|谷歌学术搜索
- M. M. Kamruzzaman,“未来智慧城市的电子犯罪管理系统”,台北数据处理技术和应用的Cyber-物理系统(DPTA 2019),黄志文,陈元文,颜新民编。,第1088卷智能系统和计算的进步,施普林格,新加坡2020年。视图:出版商网站|谷歌学术搜索
- 张,钱,吴,M. S. Hossain, A. Ghoneim, M. Chen,“情感感知多媒体系统安全”,IEEE多媒体汇刊第21卷,no。3, 2019年第617-624页。视图:出版商网站|谷歌学术搜索
- M. S.侯赛因,穆罕默德·G.,W.阿卜杜勒B.宋和B. B.古普塔,“云计算辅助安全视频传输和智能城市共享框架,”下一代计算机系统卷。83,第596-606,2018。视图:出版商网站|谷歌学术搜索
- O. K. Oyedotun和A. Khashman,“深度学习在基于视觉的静态手势识别,”神经计算与应用第28卷第2期12,第3941-3951页,2017。视图:出版商网站|谷歌学术搜索
- L.庇古,S. Dieleman,P.-J.Kindermans和B. Schrauwen,在“使用卷积神经网络,手语识别”欧洲计算机视觉会议,第572-578页,2015。视图:出版商网站|谷歌学术搜索
- 一种基于注意力的混合CNN-RNN架构,用于基于semg的手势识别。公共科学图书馆·一第13卷,no。2018年第e0206049条第10条。视图:出版商网站|谷歌学术搜索
- S.艾哈迈德M.伊斯兰教,J.哈桑等人,“手征孟加拉演讲:视力深度学习为基础的系统识别手签位并产生孟加拉讲话”。2019年,http://arxiv.org/abs/1901.05613。视图:谷歌学术搜索
- U. coter - allard, C. L. Fall, A. Drouin等人,“使用迁移学习进行肌电信号分类的深度学习,”IEEE神经系统和康复工程第27卷第2期2019年,760-771页。视图:出版商网站|谷歌学术搜索
- N. Tubaiz, T. Shanableh, K. Assaleh,“基于手套的连续阿拉伯手语识别的用户依赖模式”,IEEE人机系统学报卷。45,没有。4,第526-533,2015。视图:出版商网站|谷歌学术搜索
- s . Ai-Buraiky阿拉伯手语识别使用的仪器手套,[M.S.论文]法赫德国王石油与矿产大学,沙特阿拉伯,2004年。
- K. Assaleh, T. Shanableh, M. Fanaswala, F. Amin, H. Bajaj,“用户依赖模式下的连续阿拉伯手语识别”,杂志智能学习系统和应用程序卷。2,没有。1,第19-27,2010。视图:出版商网站|谷歌学术搜索
- 移动设备上的阿拉伯手语翻译系统,国际计算机科学和网络安全杂志卷。8,没有。1,2008年。视图:谷歌学术搜索
- M. Mohandes, M. Deriche, J. Liu,“基于图像和基于传感器的阿拉伯手语识别方法”,IEEE人机系统学报第44卷,no。4,第551-557页,2014。视图:出版商网站|谷歌学术搜索
- M. Almasre和H. Al-Nuaim,“四种支持向量机分类器与深度传感器用于识别阿拉伯手语单词的比较”,电脑卷。6,没有。2,P。20,2017年。视图:出版商网站|谷歌学术搜索
- B. Hisham和A. Hamouda,“使用Kinect V2识别阿拉伯手势的监督学习分类器,”SN应用科学,第1卷,no。7日,2019年。视图:出版商网站|谷歌学术搜索
版权
版权所有©2020 M. M. Kamruzzaman。这是下发布的开放式访问文章知识共享署名许可,允许在任何媒体中不受限制地使用、发布和复制原创作品,只要原稿被正确引用。