文摘

聋哑人人口总感觉无助的时候不被别人理解,反之亦然。这是一个巨大的人道主义问题,需要本地化的解决方案。为了解决这个问题,本研究实现卷积神经网络(CNN), convolutional-based关注模块(CBAM)认识到马来西亚手语(韩剧)图像。两种不同的实验与韩剧的迹象,使用CBAM-2DResNet(二维剩余网络)实施“块”和“分类”方法。等指标的准确性、损失、精密,记得,F1-score、混淆矩阵和训练时间记录来评估模型的效率。实验结果表明,CBAM-ResNet模型取得了良好的性能在实验室标志识别任务,通过一个小与准确率超过90%的变化。CBAM-ResNet“分类”模型是比“块”CBAM-ResNet模型更有效。因此,最好的训练模型CBAM-2DResNet选择开发一个实时信号识别系统从手语翻译文本,从文本符号语言在一个简单的聋哑人和其他人之间的通信方式。所有的实验结果表明,“分类”CBAMResNet模型更有效识别实验室,为未来的研究是值得的。

1。介绍

马来西亚手语(韩剧)或印尼语Isyarat马来西亚马来,成立于1998年,当时马来西亚聋人联合会(打)成立1]。它是主要的手语在马来西亚。用于日常交流的又聋又哑的人社区,包括聋人,有听力障碍的人,身体无法说话。韩剧中日益流行失聪的领导者和参与者。一般来说,美国手语(ASL)对马来西亚手语有显著影响。虽然有一些相似之处与韩剧和印尼手语,都被认为是不同的。否则,印尼手语是基于实验室的基础。通信是通过解读签名者的意义的手势,有时,通过使用适当的面部表情。2013年,大约有58700人从马来西亚人口使用实验室2]。

大多数时候,预期意味着聋哑人希望交付在交互常被他人误解或难以理解的。许多普通的人不熟悉,不能理解火星科学实验室。掌握手语是非常具有挑战性的和高度取决于一个人的学习意愿。如果人们不懂韩剧,他们将面对问题与聋哑人交流。无效的沟通的影响在他们的心理影响了聋哑人,教育、就业、社会维度。我们每个人都需要一个好的倾听者分享我们的感觉和想法。与重听导致学生心理健康问题比同龄人谁能听见3]。聋人在不同年龄组通常是与更高的窘迫,somatisation,感到孤独和抑郁4]。这些感觉可能是由于他们在人际沟通的失败。在高等教育中,聋哑人的机会与老师互动或讲师可能比别人少,因为不能传达。它可以抑制和在课堂上影响他们的学习经验。聋哑寻求就业是很困难的在马来西亚由于他们的听力和演讲中不足的。邱等人进行的一项研究发现几例就业歧视,欺凌,在马来西亚和剥削的听力障碍(5]。有时候,经历负面情绪聋哑人让他们觉得被社会排斥,因为他们不理解。

新兴手语翻译软件或应用程序之前,人类翻译依赖于它作为聋哑人之间的沟通桥梁,人们在不同领域。可用性的专业人力翻译帮助翻译手语已经成为一个问题,因为它涉及到考虑用户的成本和时间。没有有效的基于机器学习手语翻译软件实验室将符号转化为句子或声音为公共使用。这些问题引起了之间的沟通问题或差距又聋又哑的人的个人和社会。个人才华横溢又聋又哑的人不能向别人陈述自己的观点。结果,社会不仅是失去了宝贵的人才,但又聋又哑的人得到心理问题由于这种差距。虽然火星科学实验室研究承认在过去已经取得了良好的识别精度,其中大部分只关注静态类型语言测试词汇有限的迹象。它不足日用语言帮助聋哑人在他们与他人沟通。这些研究的结果缺乏鲁棒性发展中有效韩剧翻译机制。有一个开放的研究领域为实验室认可相关技术的发展。 Therefore, there is need of real-time sign language translation system to fill the communication gap among the deaf-mutes and the community.

因此,这种手语识别研究有助于技术用于删除这些人口和别人之间的沟通障碍。摘要CBAM-ResNet的引入方法填空研究实验室识别技术上的差距。CBAM [6)由一个通道和子空间的关注,用于延长剩余网络的结构,提高性能(ResNet)在图像识别。本研究强调这种方法的性能、效率和实用性来产生一个健壮的马来西亚聋哑人手语翻译系统的好处。CBAM-ResNet 2 d的卷积实现与两种方法称为“块”和“分类器之前。“效率评价CBAM-ResNet竣工使用多个指标分类精度等损失,精度,记得,F1-score混淆矩阵和培训时间。

1.1。意义和贡献

本研究的主要目的是测试和评估的效率CBAM-ResNet方法使用实验室。自动化学院最初CBAM-ResNet神经网络进行,电气工程(拍摄),北京,中国,实现中国手语识别从这项研究有不同的网络体系结构7]。符号语言因地方而异,确定模型的多样化和性能至关重要的前multi-metric广泛实现火星科学实验室。因此,本研究设计了一种新的模型和组合CBAM ResNet延长ResNet的结构,提高性能。这个研究的subobjectives概述如下:(我)实现的新方法,即CBAM-ResNet实验室认可,提高手语识别机制的效率。(2)进一步调查之间的差异CBAM-ResNet“块”和“分类”关于火星科学实验室识别的效率。(3)火星科学实验室开发实时识别系统通过人类使用CBAM-ResNet手势识别方法。

这是第一个研究采用CBAM-ResNet火星科学实验室的方法。本研究介绍了CBAM-ResNet神经网络来解决问题,如火星科学实验室在前面的识别技术准确性和适用性。通过评估的效率CBAM-Resnet火星科学实验室方法识别,该方法可以有效的为研究者的期望和帮助你识别任何潜在的提高手语翻译机制。本研究也至关重要改善聋哑人口和普通民众之间的沟通在马来西亚相互理解在他们的谈话。一旦效率CBAM-ResNet实验室认可证明,它可以开发一个健壮的韩剧翻译系统实现。因此,聋哑人将享有平等获得普通人一样的特权和促进社会和谐。

1.2。组织

剩下的工作是有组织的如下:部分2简要讨论了有关过去的研究在其他语言的识别标志。火星科学实验室CBAM-ResNet实现的方法在部分说明3。部分4介绍了实验设置,结果,讨论比较CBAM-ResNet“块”和“分类”在实验室认可迹象。最后,部分5提供了本文的结论。

2。文献综述

从过去到现在,各种计算算法和机器学习方法已经应用于许多不同的手语识别,如人工神经网络(ANN)、卷积神经网络(CNN),机器学习基于支持向量机(SVM),机器学习隐马尔科夫模型(HMM),模糊规则的算法,利用bp算法,递归神经网络(RNN), 3 d残留卷积网络(3 d-resnet)和CBAMResNet神经网络。这些方法有各自的优点和局限在识别符号语言。一般来说,过去的研究的研究人员使用手语识别的两个主要流方法:建立和glove-based技术。应用方法相对比glove-based的方法更方便,因为它不需要任何可穿戴设备,使其无争议的解决方案。然而,应用方法仍有局限性,如使用的相机和图像的质量,从摄像机获取的距离和方向,照明的环境,配件签名者所穿的,重叠的手在呈现手语8- - - - - -10]。这些因素可能会影响模型的性能。精度等关键的评价参数,识别速度、响应时间、适用性和可访问性是用来衡量手语识别算法的效率。

2.1。有关过去的研究在不同的语言在世界各地的迹象

随着世界更关心的是又聋又哑的人的福利,它显示了积极的发展和逐渐增加的研究与语言最近迹象。全世界的研究人员提出了不同的机器学习算法在语言识别标志。也同时,手语识别方法上实现改变随着科技的进步,可以提高机器学习算法的性能。

2.1.1。人工神经网络

一个人工神经网络(ANN)由节点,模拟生物生命的大脑中的神经元相互连接(11]。它通常被应用于解决所需的数据处理和知识表示的问题。例如,Tangsuksant et al。12)研究美国手语静态字母识别使用前馈反向传播的安。他们的研究在重复实验返回平均精度为95%。另一项研究使用了相同的方法,取得了更高的平均精度为96.19%,泰国手语研究的42个字母(13]。

Lopez-Noriega,等人选择了手套内置传感器字母标志识别使用ANN与反向传播,迅速传播,曼哈顿传播(14]。迈赫迪和汗15)进行的一项研究用7个传感器配备手套和安架构,实现了88%的准确率。最后,艾伦et al。16)开发了一个手语识别系统使用MATLAB对美国手语字母。选择神经网络感知器与18行和24收到一个矩阵的列作为输入18传感器通过训练服。他们的模型有一个90%的准确性。

2.1.2。卷积神经网络(CNN)

卷积神经网络前馈神经网络(FNN)的亚型适合图像和视频处理(17]。塔拉et al。18)提出了一个美国手语翻译,不依靠pre-trained模型。他们证明了模型识别精度99%。它是高于从Krizhevsky修改CNN模型19]。CNN使用美国手语的另一项研究数据集有35000张照片进行了在印度20.]。本研究适应一个CNN的拓扑三卷积与32层,64年和128年过滤器,max-pooling层,和修正线性单元(ReLu)激活函数(21]。通过实验测试,他们提出的系统能够识别精度达到96%。

2.1.3。递归神经网络(RNN)和长期短期记忆(LSTM)

递归神经网络(RNN)的神经网络配备内存,其输出将被再次映射到RNN重复。从先前的会话RNN取决于输入的序列,重复先前的元素将会与新的输入合并完成决策任务(22]。然而,RNN通常有梯度训练中消失的问题。因此,长期短期记忆(LSTM)介绍了作为一个RNN的改良版,可以解决这个问题。

刘等人。23建议一个LSTM-based中国手语与他们的自助建站系统手语词汇使用微软Kinect 2.0数据集。他们的研究返回63.3%的准确率。此外,RNN的手语和LSTM也应用于印度尼西亚语使用TensorFlow [24]。他们扩展识别根词附加词缀,不同于原来的意义和词性等名词或动词。“1-layer从印度尼西亚实施一项研究,2层,和双向LSTM。达到78.38%和96.15%的屈折词和根词识别的准确性。

所有工作由研究人员在先前的研究探索提供健壮的手语识别机制是感谢。

2.2。有关过去的研究实验室

时间轴图发表的一些研究实验室在过去13年在图中进行了描述1。它显示了本研究领域的研究趋势。例如,Akmeliawati et al。25)提出了一个自动手语翻译承认只有手语和手势。另一个马来手语手势识别系统收集了24的输入传感器、加速度计和挠曲组成的传感器通过蓝牙模块无线连接(26]。这些研究不能提供实时翻译系统。

手势识别系统开发Kod Tangan马来语(KTBM)在2009年。它通过摄像头捕捉图像,然后处理离散余弦变换(DCT)生成特征向量27]。该系统使用一个ANN模型获得分类率为81.07%。2012年,研究人员在实验室建立了一个组织良好的数据库具有不同的分类28]。随之而来的一年,Karabasi et al。29日)提出了一个模型,通过移动设备实时信号识别系统。Majid et al。1)实现安与反向传播分类框架数据从传感器获取Kinect的迹象。他们训练的网络学习速率为0.05使用225个样本和动态信号15日已经达到了80.54%的准确率。2017年,Karbasi et al。30.火星科学实验室)演示了一个数据集开发由字母和10(10)动态使用微软Kinect迹象。2019年,法赫米等。31日手势)提出了一个基于模糊逻辑的方法翻译系统。该系统将手模式转换为英语字母a - z。同时,利用模糊逻辑方法的优点来处理不确定情况下的输入和系统的未知参数32,33]。所有这些研究不能解决翻译问题的姿态进入文本和声音。

研究者青睐安在承认马来西亚语言符号。因此,研究实现了一个名为CBAM-ResNet CNN-based神经网络,引入一种新的分类方法在实验室认可解决翻译问题的手势。

3所示。方法

3.1。Convolutional-Based关注模块(CBAM)

CNN在图像和视频识别的强度是不同的可用性卷积内核能够提取图像中变化的特性。在这个研究中,采用CBAM,有两个子:通道和空间集中在检测任务。同时注意子提出了不同的功能。通道注意子模块为突出代表输入图像提供的信息。空间注意sub-module关注的代表地区,导致图像的意义。此外,两个子强调“什么”和“的概念。“图2显示了这两个子的序列顺序处理信息流的卷积块时神经网络。

之前一系列顺序选择平行结构为两子,在输入功能是针对渠道关注空间的关注。这是证明,连续的订单产生更好的结果6]。

在通道的注意,池平均和最大池分别应用。输入功能将被引导到一个多层感知器(MLP)只有一个隐藏层生成频道关注地图。element-wise求和将结合两个输出地图计算sub-module通道的关注。方程(1)显示通道的表示关注,Mc在符号: 在哪里 指的是乙状结肠功能应用,延时是多层感知器,AvgPool池和MaxPool代表平均和最大池,分别。

不同频道的注意,空间注意子应用池平均和最大池过程沿着通道轴与卷积层产生一个空间注意力地图。在这个时候,没有实现延时。空间注意女士见方程(2rdf: 在哪里f意味着卷积层计算。

3.2。CBAM融入Resnet-18架构内块和分类器之前

一块残留在ResNet-18两个卷积层的深度。“块”是指插CBAM的方法在每个ResNet剩余块在神经网络架构(6]。中间16卷积在ResNet-18将形成8层剩余块结构。这个结构推断,“块”方法集成CBAM八倍之间的残块。这个CBAM,剩余网络,可以精炼中间特性映射到重要信息,更好地代表输入。而“分类器”技术集成CBAM最后整个剩余网络的一部分,在平均池层和完全连接(FC)层。在这个实现中,将使用CBAM只有一次对每一个时期的训练,降低网络复杂性和消耗更少的计算成本相比,“块”的方法。在张量给定输入后,曲线玲珑的格式传递了CBAM-ResNet的残块,将最终功能映射转换为平均池和FC层。在这个阶段,只有最后CBAM特性映射将进行细化。精制的结果将被分类预测输入的标签。

3(一个)CBAM-ResNet显示一个残块,展现的确切地方综合关注模块剩余网络架构使用“块”的方法。CBAM最后剩余函数的实现,F在它的块。图3 (b)显示了CBAM的确切位置,底部CBAM-ResNet架构的使用“分类”方法。

4所示。实验设置和结果

本研究实现了修改CBAM-2DResNet马来西亚静态图像识别标志。实验进行了比较和评估CBAM集成方法的分类性能成2 dresnet完成静态图像识别标志。静态标志图像的实时识别系统使用网络摄像头使用产生的最佳CBAM-2DResNet训练模型构建的比较。

4.1。实验设置在马来西亚静态图像识别迹象

开发阶段使用Python编程语言版本3.6和蟒蛇世爵集成开发环境和利用基本的Python深度学习库如Pytorch Torchvision和CUDA工具包。这个实验是在谷歌进行与特斯拉K80 GPU COLAB CBAM-2DResNet“块”和“分类器之前。“图4显示了一个总结实验过程流程图准备实验室静态图像识别迹象。分类模型的训练开始之前,数据预处理和扩增步骤是建立在符号图像数据和一些重要的神经网络参数。收集96800标志图像大小为112×112分辨率的图像和正常使用z分数正常化。正常化进一步处理图像数据与其他图像转换操作,如随机图像水平翻转在50%概率,随机图像亮度和对比度调整范围在0.5和1.5之间,随机图像旋转和剪切范围内改变 这些数据增强技术应用可以显著提高可用数据的变异和多样性进行训练。

随机数据分割后分离这些标志图像训练和验证子集与比8:2,训练子集占用77440图片,剩余19360图像验证子集。接下来,标志图像训练子集转换为四维张量和加载到CBAM-2DResNet“块”和“分类”训练了15世纪。相同的网络参数配置的培训,比如学习率= 0.0001,动量= 0.9,3×3 CBAM内核大小,批处理大小为64。随机梯度下降法(SGD)优化器是实现,采用和叉损失函数计算训练和验证损失超过时代。验证后继续培训通过选择最训练有素的分类模型。利用小型验证批大小为4。验证结果所需的模型的效率评估基于性能指标记录和分析。

4.2。由于图像识别实验使用CBAM 2 dresnet迹象
4.2.1。准备比较的培训和验证CBAM-2DResNet“块”

比较图CBAM-2DResNet训练和验证损失曲线之间的“块”超过15时代描绘在图5。培训损失大幅减少从3.066到0.381 /时代1期4,回应时代下降率很低的5到15时代。而验证损失也降低迅速从3.024到0.211 /时代1期4,然后以最小的速度减少。培训和验证损失曲线显示几乎相同的下降趋势。最低培训损失记录时代15一个值为0.0252,而对于验证最低损失记录是0.0214在过去的时代,价值观都是差不多的。损失的最小差异训练和验证表明,该模型在学习取得了一个不错的选择。

在图5,我们之间的对比图也显示培训和验证的准确性CBAM-2DResNet 15时代“块”。训练精度从6.69%迅速增长到86.73%时代1期4,回应时代增长率放缓5时代15,迅速实现的稳定,而验证精度从8.15%上升到92.42% /时代1期4,转向适度增加率的时代。

培训和验证准确性情节显示上升趋势几乎相同,在时代以来的精度图10中的增量是次要的。在时代15训练精度达到最高99.17%,而验证精度达到最高99.29%在最后时期。精度达到都是类似的图像数据集,几乎类似的迹象。培训和验证精度之间的最小差距暗示训练CBAM-2DResNet“块”是一个修身图像识别模型。

4.2.2。比较的培训和验证CBAM-2DResNet“分类”

培训和验证损失比较CBAM-2DResNet绘制图的“分类”超过15时代如图6。培训和验证损失曲线显示,减少类似的趋势,随后迅速下降开始收敛的稳定性。培训损失大幅减少从2.644到0.131 /时代1时代5和回应最小减少从时代6时代15。同样,迅速从1.913减少到0.188 /时代1期4观察验证完成之后的损失。培训记录的最低价值损失0.0205时代14,而验证最低损失也记录在同一时代,值0.0210,其中损失值都是封闭的。这个模型拥有一个适合的学习曲线之间的缩小分歧最终训练和验证计算损失。

在图6,我们显示比较绘制线曲线之间的培训和验证的准确性CBAM-2DResNet“分类”15时代。迅速增加观察训练精度从18.80%到95.62% /时代1纪元5,紧随其后的是一个缓慢增加利率时代。精度验证也迅速从4.02%上升到93.65% /时代1时代4和减速后剩下的时代。标准,增加的趋势是注意到两国线图的培训和验证。稳定点的精度值融合时代以来增量速度非常低6。培训和验证所获得的最高精确度是99.37%在15 - 99.39%时代时代14日。可比精度记录的培训和验证阶段暗示CBAM-2DResNet”分类器”是一个很好的训练后适合在这个数据集模型预测能力高。

4.2.3。CBAM-2DResNet分类报告,混淆矩阵,F1-Score条形图在“块”和“分类”

通过表1我们列出精密,回忆,和F1-score CBAM-2DResNet”在街区”和“分类”为每个字母类验证子集和类宏观和加权平均生成与分类报告Scikit-learn功能,Python的机器学习库。

所有0.97到1之间的值范围内。每个类实例的比例占时考虑计算加权平均。与此同时,排除在计算宏观平均水平。召回、精度和F1-score宏观平均或加权平均报道舍入后一个值为0.99。

多级混淆矩阵是分类的结果绘制CBAM-2DResNet“块”和“分类”验证子集,如图7。这种混淆矩阵有助于给仔细看看分类模型的错误预测。每个字母类的假阳性的绿绿的和灰色细胞混淆矩阵对角的。相比之下,其他非对角的细胞被错误的预测分类在其他字母类。

模型对两类最糟糕的预测,字母“R”和“V”21类分类错误的实例。以字母“V”进一步说明,855年有一个正确的预测实例,19实例并被错误地归类为“K”和两个“W”共有876个样品的图片。与此同时,该模型正确分类2类,“H”和“验证22类的子集。

8说明了F1-score条形图每个字母类使用CBAM-2DResNet“块”和“分类”验证子集。的F1-score类的“块”是相对较高的。11个22类达到最佳值为1.0,其中包括字母“B”,“C”“D”“F”“H”“L”“O”,“P”“问”,“W”和“Y。”同时,字母“V”最低F1-score,价值0.97。F1-score类中“分类”都是大约的最佳值1。14类,字母“B”、“C”,“D”“E”“F”“H”“我”“L”“O”,“P”“问”,“W”“X”和“Y”排名最高F1得分在1。另一方面,另一个4类达到0.98,字母“K”“R”“U”和“v”。

“标识符”是不是一个字母“R”真阳性876人。38(38)实例并被错误地归类为“U”3“X”总917样品的图片。22个字母中验证子集,7类贡献100%正确预测实例,字母“C”的“E”“H”“Q”“U”“W”和“y”

4.2.4。实时马来西亚手语识别使用图像识别技术

数据9(一个)- - - - - -9(我)火星科学实验室提出正确的实时分类某些字母标志了他们班预测和信心得分,分别。最训练有素CBAM-2DResNet”分类器”被选为一个分类模型在构建实时信号字母识别应用程序。这个实时应用程序使用OpenCV库提供了直接的平台实现评价模型通过训练图像从摄像头中提取帧。实时图像信号从蓝框区域中提取每四帧通过摄像头捕获饲料作为测试输入并返回相应的分类结果给用户,如果信心得分高于0.5。

5。讨论

CBAM-2DResNet实现有能力从信号中提取重要的特性,比如手或手指图像。表2显示了一个比较表比较两个不同CBAM实现方法通过提取出重要的结果,包括培训时间、最低验证损失,验证精度最高,F1-score实现,并概括性能。

从比较表,CBAM-2DResNet“在一杯啤酒”和“分类”显示良好的性能在图像分类任务迹象韩剧字母集。类似地,两个模型的实现F1-score 0.99计算分类报告和反映的适合模型概括性能。0.0004的一个微小差别存在于最低的损失值通过验证这两个模型。最高只验证精度变化0.1%的差异。然而,这些微不足道的差异不会区分在两个模型的分类效率。

确认损失的比较图和准确性之间的“块”和“分类”模型的CBAM-2DResNet图给出10。这表明验证“分类”模型的损失是容易降低,聚合速度比另一个模型在所有15时代。相应地,验证“分类”模型的精度也增加了速度比模型“内块。”

注意到22个字母类的分类性能,CBAM-2DResNet“块”和“分类”最重要的阶级”的错误分类实例R。“实时测试,观察到“前分类器”有时可能会做调整某些字母分类错误分类与信心不足或相似性高的迹象,如手迹象“V”和“K”和手迹象“R”和“U。“同样的错误分类问题也可以追踪从混淆矩阵图7。一般来说,CBAM-2DResNet“分类”是更有效的比CBAM-2DResNet“块”在识别静态图像的迹象。

6。结论

本研究是设计和实现的先锋CBAM-ResNet模型转换为马来西亚手语。两个实验进行了静态和动态的迹象迹象分别使用图像识别和视频识别技术。马来西亚手语视频数据集包含19个动态信号被记录。两种不同CBAM集成应用尝试在这个研究中,这被称为“块”和“分类”方法。模型实现精度超过90%有一些变化。CBAM-ResNet“分类”整体擅长识别图像数据集上的任务。CBAM-ResNet“标识符”是最好的,因为它有一个更少的计算成本和在训练快2.52倍比CBAM-ResNet“块”在视频识别分类的性能实验。这种新方法可以应用于实时系统在实验室识别帮助马来西亚签署者在日常通信。

在动态sign34eds视频识别和分类,观察一个过度拟合的问题。的过度拟合可能是因为小数据集;数据集通常超过100 k的样品需要在cnn成功优化卷积核架构。

转移的概念学习可以应用在未来的研究在应对小CBAM-3DResNet过度拟合问题的视频识别迹象。人工智能的另一个分支,自然语言处理(NLP)可以扩展这项研究更上一层楼,通过构造句子的完整意思承认通过实时视频或迹象。这可翻译的句子写或音频输出可以提高他人和聋哑人之间的沟通效果。最后,该模型也适用于探索人类行为的认可。

数据可用性

的数据支持本研究的发现可以要求从相应的作者。

的利益冲突

作者宣称他们没有利益冲突的报告对于本研究。

确认

作者要感谢研究、创新和企业中心(RIEC)和认知科学和人类发展学院大学马来西亚沙捞越州(UNIMAS)的支持和资助出版的这个项目。在这项研究的研究人员有贡献支持项目数量(RSP-2021/244),沙特国王大学,利雅得,沙特阿拉伯。