文摘
移动技术是非常快速增长和令人难以置信的,但没有技术开发和改善聋哑的人民。现有的移动应用程序使用手语作为唯一的选择与他们进行交流沟通。在我们文章中,没有这样的应用程序(应用程序)使用中断演讲聋哑人的社会连接存在于移动市场的目的。该应用程序,名为发声静音(V2M),使用自动语音识别(ASR)方法识别又聋又哑的人的演讲,将它转换成一个正常人的言论可识别的形式。在这个工作mel频率cepstral系数(MFCC)特征提取为基础训练和测试样本的言论又聋又哑的人。隐马尔可夫模型工具包(HTK)是用于语音识别的过程。应用程序还集成了一个3 d《阿凡达》提供可视化的支持。《阿凡达》的手语代表负责执行一个没有意识的人又聋又哑的人的文化。原型应用程序在社会福利研究所聋哑儿童。参与者15 7和13岁的儿童。 The experimental results show the accuracy of the proposed application as 97.9%. The quantitative and qualitative analysis of results also revealed that face-to-face socialization of Deaf-mute is improved by the intervention of mobile technology. The participants also suggested that the proposed mobile application can act as a voice for them and they can socialize with friends and family by using this app.
1。介绍
历史上这个词又聋又哑的人指的人要么是聋人用手语作为一种沟通或聋和无法说话。这个学期继续是指的人是聋子,但某种程度的口语能力(1]。在聋人社区,这个词充耳不闻有两个独立的方法。小“d”通过听力失聪的代表一个人的听力水平和与聋人社区的其他成员而资本“d”聋表明文化聋人用手语沟通(2]。
根据世界聋人联合会(WFD)超过5%的世界人口(≈3.6亿人)禁用听力损失包括3.28亿名成年人和3200万名儿童(3]。听力损失的程度分为轻度,中度,严重,或深刻的水平(4]。听力损失的一个人有直接影响他/她的演讲和语言发展。严重或深刻的听力损失患者有更高的语音障碍指数(VHI)得分比那些患有轻度听力损失(5]。人以轻度听力损失少的语言发展中存在的问题,他/她可能无法听到某些声音,语音清晰不受影响。人以严重或深刻的听力损失可以在语言能力的发展有一个严重的问题,通常依靠手语作为沟通的来源。
聋人面临许多烦恼和挫折限制他们做日常任务的能力。研究表明6],聋人,尤其是失聪儿童,有高水平的行为和情感问题与不同的沟通方法。大多数人都有这样的障碍变得内向,抵制社会连通性和面对面的社会化。不能说与家人和朋友可能会导致低自尊和可能导致社会孤立的聋人。不仅仅是他们缺乏社会交往,但沟通也是一个主要障碍聋哑医疗(7]。在这样的条件下,它变成了困难的过渡与失聪的人。
不同医学治疗可用于聋人社区为了摆脱自己耳聋但这些治疗的成本是昂贵的8]。世界卫生组织(世卫组织)2017年的一份报告(9)指出,有不同类型的成本与听力损失,如下:(1)直接成本:包括与听力损失相关的成本发生的医疗系统;一些其他类型的直接成本包括教育支持这样的孩子;(2)间接成本:包括生产力的损失,通常指个人无法导致经济成本;和(3)无形成本:指有耻辱的家庭正在经历听力损失。这个报告的结论是,如果听力损失对医疗体系构成实质性的成本和经济作为一个整体。
有许多沟通渠道,通过这个又聋又哑的人可以提供他们的信息,例如,笔记,帮助页面,手语,与字母书,唇读,和手势。尽管这些渠道,有许多问题所遇到的聋哑人和正常人交流。问题不是只局限于一个又聋又哑的人是无法听到或说话,但另一个问题是缺乏认识聋文化的正常的人。多数听人要么没有/小知识或经验的手语10]。也有300多符号语言和一个正常的人很难理解和习惯于这些语言(11]。上述涉及辅助技术可以解决的问题,因为它可以作为翻译为符号语言转换成文本或语音聋人社区和听力个人之间更好的沟通12]。其他技术,如演讲技术可以帮助与听力损失以不同的方式来帮助人们改善他们的自主权13]。语音识别技术的一个常见的例子是语音识别,也称为自动语音识别(ASR)。的过程是将语音信号转换为序列的单词的帮助下一个算法(14]。人造硅视网膜过程包括三个步骤,即。,(1)feature extraction, (2) acoustic model generation, and (3) recognition phase [15,16]。特征提取、MFCC是最常用的技术17,18]。MFCC的成功使其成为标准的选择等先进的语音识别器HTK [19]。
这个研究报告的主要目的是使用手机辅助技术提供一个简单的和具有成本效益的解决方案又聋又哑的人很少或完整的语言能力的发展。该系统利用基于HTK语音识别器识别的演讲又聋又哑的人,为他们提供一个交流平台。接下来的两节解释相关的工作和提出的我们的系统的方法。部分4州的实验装置和结果提出系统。
2。相关工作
聋人社区不是单一的群体;它有一个多样性的组织如下(20.,21]:(1)耳背的人:他们既不完全失聪,也不是完全的听证会上,也被称为文化边缘人22]。他们可以从演讲中获得一些有用的语言信息。(2)聋人文化:他们可能属于聋人家庭和用手语交流的主要来源。他们的声音(语言清晰度)可能被中断。(3)先天性或prelingual聋人:聋生或成为聋子才学会说话,并不隶属于聋文化。他们可能或不可能使用基于符号语言的沟通。(4)口头教育或postlingual聋人:他们已经在他们的童年耳聋但发达的口语技能。(5)使重听成年人:他们有机会调整通信技术作为他们的进步听力损失。
每组一个聋人社区都有不同程度的听力损失,使用不同的沟通的来源。表1说明了聋人社区团体和他们的细节程度的听力损失和与他人沟通的来源。
听力损失或耳聋有直接影响沟通,教育成就,或社会交往(23]。缺乏知识关于聋人文化是社会中以及在医疗环境中(24]。Kuenburg等人还表示,在卫生保健专业人士之间的交流有重大挑战和聋人25]。改善医疗访问聋人之间可能通过提供支持的手语视觉传达和实施卫生保健专业人士的通信技术。的一些实现技术为基础的方法促进聋哑人与易于使用的服务如下。
2.1。基于传感器技术的方法
基于传感器的援助可以用于解决社会问题的聋哑弥合沟通差距。Sharma等人使用可穿戴传感器手套检测手语的手势26]。在此系统中,flex传感器被用来记录符号语言和环境意识。一个人的手势激活手套,和flex传感器在手套这些手势转换成电信号。然后从数据库中匹配的信号并转换为相应的演讲和在LCD上显示。具有成本效益的传感器通信设备(27)也提出了与医生沟通又聋又哑的人。这个实验使用32位单片机,液晶显示输入/输出,和一个处理单元。基于LCD显示屏不同的手手语图片给用户。用户选择相关的图片来描述疾病症状。这些照片然后转换成模式和搭配词来造句。Vijayalakshmi和Aarthi flex手套上的传感器用于手势识别(28]。开发该系统是为了认识的美国手语(ASL)。从传感器获得的文本输出系统转化为语言使用流行的语音合成技术隐藏的马尔可夫模型(HMM)。HMM-based-text-to-speech合成器(高温超导)连接到系统的手势的人获得的文本转换成语音。高温超导系统涉及培训阶段提取的光谱和激发参数收集语音数据和建模是上下文相关的摘要。高温超导的合成阶段系统是用于建设嗯序列通过连接上下文相关的摘要。同样,Arif等人五flex传感器使用手套为聋哑翻译手语手势到视觉和音频输出液晶(29日]。
2.2。应用技术方法
许多应用技术干预措施是用来识别聋人的符号语言。例如,Soltani聋哑等人开发了一个基于手势的游戏通过使用微软Kinect识别手势命令并将其转换成文本,这样他们就可以享受交互式的环境(7]。沉默的声音(VOM)系统开发采取的形式输入手语和转换成相应的演讲30.]。手语符号的图像检索的相机。执行噪声去除和图像处理后,手语信号匹配的训练数据集。信号处理与适当的文本和文本转换成所需的演讲。Nagori和Malode31日)提出了交流平台,从视频中提取图像并将这些图像转换成相应的讲话。Sood和Mishra32]提出的系统以手语的图像作为输入并显示演讲作为输出。方法建立语音处理中使用的功能在不同的基于对象识别的应用程序也使用(33- - - - - -39]。
2.3。分享服务技术方法
智能手机技术起着至关重要的作用,帮助人们与障碍自己社会互动和克服沟通障碍。智能手机技术的方法是更方便和有效的传感器或视觉技术相比。许多新智能手机配有先进的传感器、处理器、高和高分辨率相机(40]。一个实时紧急助理“iHelp”[41)提出了对又聋又哑的人,在那里他们可以报告任何紧急情况。用户的当前位置是通过内置的GPS系统的智能手机。关于紧急情况的信息通过短信发送到管理,然后传递给最合适的救援单位,因此用户可以通过使用iHelp获得救援。MonoVoix [42)是一个Android应用程序,还可以作为手语翻译。它捕获的信号从一个手机相机,然后将它们转换成相应的演讲。耳朵听到的(43是一个又聋又哑的人的Android应用程序。它使用手语与正常人交流。使用speech-to-sign和sign-to-speech技术。听到人与聋哑人交流,语音(TTS)技术输入语音信号,和相应的手语视频播放与输入的沉默很容易理解。布拉格et al。44)提出了一种声音探测器。这个应用程序是用来检测红色警报声音和警报又聋又哑的人通过振动和显示一个弹出通知。
3所示。提出的方法
现在很多技术设备如smartphone-enabled设备接口在视觉的喜欢演讲。研究[49)强调,现成的语音识别系统不能用于检测失聪的讲话或听力损失的人这些系统包含一个更高比例的字错误率。本研究建议使用人性化计算识别语音使用语音功能,语音一代充耳不闻。在这方面,我们提出并开发了一个基于Android应用程序命名为发声静音(V2M)。提出了应用程序充当了一个解释器,并鼓励双向聋哑人与正常人之间的沟通。我们指的是正常人的人没有听到声音障碍或残疾。下面列出了该应用程序的主要特点。
3.1。正常的又聋又哑的人沟通
这个模块需要一个正常人的文本或语音消息作为输入和输出一个3 d《阿凡达》表演手语的聋哑的人。《阿凡达》的手语基础动画存储在一个中央数据库的应用程序。每个动画文件2 - 5给出了标记。正常的又聋又哑的人沟通的步骤如下:(1)应用程序需要文本/语音的正常人作为输入。(2)应用程序将一个正常的人的语音信息转换成文字使用谷歌云语音应用程序编程接口(API)这个API检测正常讲话比人的言论充耳不闻。(3)应用程序匹配文本的任何标签与一个动画文件和显示相关联的《阿凡达》执行相应的签收又聋又哑的人。
3.2。又聋又哑的人正常的人沟通
不是每个人都了解手语的提出应用程序使用中断演讲一个又聋又哑的人。这种破坏形式的语音转换成可识别的语音格式使用语音识别系统。HMM-based语音识别是一个日益增长的商业部署技术就是明证迅速增加。HMM-based语音识别的性能已经达到的水平可以支持可行的应用程序50]。为此,HTK [51)是用于开发语音识别系统,此工具包主要是为构建HMM-based语音识别系统设计的。
3.2.1之上。使用HTK语音识别系统
3.4.1 ASR系统实现通过使用HTK版本。语音识别过程HTK遵循四个步骤得到公认的演讲又聋又哑的人。步骤训练语料库准备、特征提取、声学模型生成和识别如图1。
(一)训练语料库的准备。的录音演讲的训练语料样本来自又聋又哑的人。wav格式。英语口语语料库包含字母(a - z),英语数字(0 - 9),和15个常用句子在日常生活中,例如,good morning, hello, good luck, thank you, etc. The utterance of one participant is separated from the others due to the variance in speech clarity among Deaf-mute people. The training utterances of each participant are labeled to simple text file (.lab). This file is used in acoustic model generation phase of the system.
(b)声学分析。声学分析的目的是将语音样本(wav)转换成适合的格式识别过程。该应用程序使用MFCC声学分析方法。MFCC特征提取技术在语音识别(52]。主要优点使用MFCC(1)低复杂性和(2)更好的性能在识别精度高(53]。的整体工作MFCC如图2(19]。
下面列出了每个步骤的特点MFCC。
(1)预加重。MFCC特征提取的第一步是通过传递语音信号通过一个过滤器。预加重过滤器是一阶高通滤波器。它负责提高语音信号的频率越高。 在哪里代表了预加重系数,是输入语音信号,是输出与高通滤波器应用于语音信号的输入。预加重的组件是很重要的,因为演讲与高频小振幅w.r。与低频(t组件的言论54]。沉默的间隔也删除在这个步骤中使用对数技术分离和分段演讲从嘈杂的背景环境55]。
(2)框架。框架的过程是用来把pre-emphasized语音信号分割成短段。语音信号是由框架样品和帧间距离或转移( )。在拟议的应用程序中,帧样本大小 和转移 。帧大小和移码的计算(以毫秒为单位)
(3)窗口。语音信号是一个非平稳的信号,但它是静止的时间很短。窗口函数用于对语音信号进行分析,提取信号的固定部分。有两种类型的窗口:(我)矩形窗口,(2)汉明窗。
矩形窗削减信号突然提出了应用程序使用汉明窗。汉明窗收缩值为零的边界语音信号。汉明窗的价值()计算 在时间窗口通过计算
(4)离散傅里叶变换(DFT)。对计算离散傅里叶变换的最有效的方法是使用快速傅里叶变换算法,降低了计算的复杂性来 。它转换离散样本的言论从时域到频域计算 在哪里的傅里叶变换和DFT的长度。
(5)Mel-Filter银行处理。人耳作为带通滤波器;即。,they focus on only certain frequency bands and have less sensitivity at higher frequencies (roughly >1000 Hz). A unit of pitch (mel) is defined for separating the perceptually equidistant pair of sounds in pitch into an equal number of mels [56),它是计算
(6)日志。这一步需要每个mel-spectrum值的对数。随着人类的耳朵不太敏感的细微差别在振幅高振幅相比低振幅。对数函数的频率估计不太敏感的细微差别的输入。
(7)离散余弦变换(DCT)。它转换频率域(日志mel-spectrum)回时间利用DCT域。转换的结果被称为梅尔频率倒谱系数(MFCC) [57]。我们计算了梅尔频率倒频谱 在拟议的方法,的价值= 12因为一个12维特征参数是足以代表一帧的语音功能(17]。倒频谱通过DCT的提取结果在12 cepstral系数为每一帧。这组系数被称为声向量(.mfcc)。声学矢量(.mfcc)文件用于语音样本的训练和测试。HTK-HCopy运行对输入语音样本转化为声波向量。配置参数,用于MFCC特征提取的语音样本,表中列出2。
(c)声学模型生成。它提供了一个参考声学模型的比较,认识到测试的话语。一个原型是用于初始化第一嗯。此原型生成的每个单词又聋又哑的字典。嗯拓扑包含6活跃状态(观察函数)和两个nonemitting(最初的最后状态没有观察函数)是用于所有的摘要。单高斯观察函数对角矩阵作为观察函数和被一个均值向量和方差向量在文本描述文件称为原型。这个预定义的原型文件连同声学矢量(.mfcc)的训练数据和相关的标签(.lab) HTK使用工具HInit嗯的初始化。
(d)识别阶段。HTK提供一个称为HVite的维特比词识别器,用于记录声波的序列向量序列的单词。HVite采用维特比算法找到声学矢量根据MFCC模型。测试语音样本也准备以同样的方式准备训练语料库。在测试阶段,语音样本转化为一系列声学矢量(.mfcc)使用HTK-HCopy工具。这些输入声向量连同嗯列表,又聋又哑的人发音字典和语言模型(文本标签)是被HVite作为输入来生成识别单词。
3.3。消息传递服务又聋又哑的人,正常的人
应用程序还提供了消息传递功能聋哑和正常的人。一个人可以选择美国手语或英文键盘发送消息。“V2M”的完整的流程图如图3。
4所示。实验结果和讨论
4.1。实验装置
提出应用V2M需要一个相机,手机的安装V2M应用,笔记本电脑(充当服务器),和一个导师指导聋哑学生。完整的场景如图4。
一共有15名学生从复杂Baharwal Al-Mudassir特殊教育,巴基斯坦,参与这个实验,参加学生7和13岁的一些演讲培训学校。教师引导学生在使用移动应用程序。实验由两个阶段组成。
以下4.4.1。语言测试阶段
在这个阶段,教师从菜单中选择“注册的声音”选项的程序,输入一个单词/句子或问题(标签)的文本字段“样本挂号”对话框中,训练的语音样本的参与者(见图5 (b))。首先,老师需要手语问参与者说单词/句子或一个答案。系统2到4声音样本的每个单词/句子。当参与者注册他/她的声音,由视觉系统承认支持(如在图5 (c))。测试,研究者提出的问题通过V2M应用程序,它显示一个阿凡达表演手语的聋哑参与者为了理解问题(见图5 (d))。作为回应,参与者选择麦克风图标(如图5 (e))说他/她的回答。应用程序处理和记录的语音样本相比注册样品。在比较之后,它返回的文本和说出答案参与者(见图5 (f))。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
4.1.2。信息活动阶段
参与者只需极少的支持从一个教练在这个阶段。他们容易书写和发送的消息通过选择手语键盘(见图5 (g))。
4.2。定性反馈
研究人员正式问卷调查评估的有效性又聋又哑的应用程序。参与者的调查由12个问题回答的原因短的长度选择问题不是压倒聋哑学生再面试。其次,这些学生没有使用任何基于聋哑的应用经验。定性反馈总结成以下类别(改写自反馈形式)。
熟悉现有的移动应用程序。所有参与者没有听到或使用任何致力于聋哑人的移动应用程序。
易于使用和享受。所有参与者享有使用应用。他们喜欢的想法用手语表演的《阿凡达》。15名学生,12名学生执行给定任务很容易和学生没有使用或与移动设备互动。最初,他们发现这个程序后困难但很容易应用功能进行2 - 3次在他们面前。总体上他们发现这个程序用户友好的和互动。
应用程序接口。参与者喜欢的接口应用。他们很快地学会了应用程序的步骤也喜欢《阿凡达》的想法执行问候在主屏幕手势。
沟通的来源。所有与会者都用手语交流的主要来源。他们建议的介入移动应用程序的通信。他们承认,手机应用程序可以用来传达的信息又聋又哑的人正常的人。
4.3。结果和比较分析
训练和测试的应用程序得到语料库语音样本的聋哑人。训练语料库由英文字母(a - z),英语数字(0 - 9),和15个常用句子在日常生活中,例如,早上好,你好,祝你好运,谢谢你,等。所有参与者说出每一个字母,数字,和语句2 - 4次。总培训话语是2440卡路里。HTK语音识别器是用于训练过程和语音识别。嗯是用于后端语音识别器HTK。进行测试,每个参与者被要求回答十个问题。总共有390测试话语。应用程序记录答案(语音样本),处理它,并显示(文字/语音)结果正常人的理解。仿真结果的准确性提出了应用程序的计算通过使用精度和召回。V2M应用,计算精度的一小部分正确识别语音信号的语音样本总数而召回是一个百分比的数量相关的结果。 Precision, recall, and accuracy are calculated by using the following formulas: 真阳性(tp)是指话语说出的人,系统检测到的。假阳性(fp)是指没有说出的人但检测到的系统。假阴性(fn)是指词说的人,但系统不检测。真阴性(tn)是指一切。
提出的方法的实验结果在精度方面,召回和精度参数表中所示3。
它是观察从表3语音样本的数量直接影响应用程序的精度和召回。总体平均精度56.79%,召回是46.79%当注册样品数在所有语句2 ( 为每个参与者)。然而,平均精度93.16%,召回是83.19%注册样品数3 ( )。的平均精度的精度和召回时97%以上注册样品数在所有语句是4 ( 为每个参与者)。的得分的最佳计算精度和召回: 因此扣除的是应用程序的精度降低,以有限的语音样本( )又聋又哑的人。应用程序优于当语音样本的数量为每个语句大于2 ( )。提出了应用程序的语音识别方法比较与其他语音识别系统如表所示4。
5。结论
聋人面临许多烦恼和挫折限制他们做日常任务的能力。失聪儿童有高水平的行为和情感问题与不同的沟通方法。提出了应用程序背后的主要灵感聋哑尤其是孩子消除沟通障碍。这个应用程序使用的语音或文本输入正常的人,并把它转换成通过3 d大片《阿凡达》的手语。它提供了语音识别系统为聋哑人的扭曲的言论。语音识别系统使用MFCC特征提取技术提取声学语音样本的向量。HTK工具包用于这些声学向量转换成可识别的单词或句子用发音字典和语言模型。应用程序能够识别聋哑英语的语音样本字母(a - z),英语数字(0 - 9),和15个常用句子在日常生活中,例如,早上好,你好,祝你好运,谢谢你,等。它提供了消息服务为聋哑人和正常的人。聋哑人可以使用定制的手语键盘写消息。应用程序也可以收到手语的信息转换为一个正常人文本。 The proposed application was also tested on 15 children aged between 7 and 13 years. The accuracy of proposed application is 97.9%. The qualitative feedback of children also highlighted that it is easy for Deaf-mutes to adapt the mobile technology and mobile app can be used to convey their message to a normal person.
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者感谢儿子是玛斯哈立德、Mustabshira齐亚在这项研究的有价值的帮助。作者也欣然承认Al-Mudassir特殊教育复杂Baharwal,巴基斯坦,为他们提供一个平台来测试提出本文的技术。作者是感激老师的辛勤工作和奉献精神和儿童参与了这项研究。这项工作是财务支持的机器学习研究小组,苏尔坦王子大学,利雅得,沙特阿拉伯rg - ccis - 2017 - 06 - 02 。作者感谢这次金融支持和提供的设备使这项研究成功。