文摘
人工智能(AI),特别是机器学习(毫升)和神经网络(NN),各种应用程序,引发了大量的兴趣近年来由于其优异的性能在各种各样的任务。自动语音识别(ASR)是一种越来越重要的技术随着时间的推移和被用于我们的日常生活。语音识别是一个重要的应用毫升和神经网络,这是机器的听觉系统,实现人和机器之间的通信。一般来说,语音识别方法分为三种类型,即。,based on the channel model and speech knowledge method, template matching scheme, and the use of NN method. The main problem associated with the existing speech recognition methods is the low recognition accuracy and more computation time. In order to overcome the problem of low recognition accuracy of existing speech recognition techniques, a speech recognition technology based on the combination of deep convolution neural network (DCNN) algorithm and transfer learning techniques, i.e., VGG-16, is proposed in this study. Due to the limited application range of DCNN, when the input and output parameters are changed, it is necessary to reconstruct the model that leads to a long training time of the architecture. Therefore, the migration learning method is conducive to reducing the size of the dataset. Various experiments have been performed using different dataset constructs. The simulation results show that transfer learning is not only suitable for the comparison between the source dataset and the target dataset, but also suitable for two different datasets. The application of small datasets not only reduces the time and cost of dataset generation, but also reduces the training time and the requirement of computing power. From the experimental results, it is quite obvious that the proposed system performed better than the existing speech recognition methods, and its performance is superior in terms of recognition accuracy than the other approaches.
1。介绍
听力损失影响世界范围内大约有360 - 362人(1]。这些数据预计到2035年平均增长40%。听力损失通常是由于两个因素,即。、年龄和噪音。造成听力损失这两个因素,即。,aging or noise, is gradual and neither treatable, nor reversible. People with serious hearing problems are frequently socially isolated, which can lead to despair and a variety of other harmful outcomes. The most often used technologies for mitigating hearing loss are hearing aids and cochlear implants. Even advanced listening devices, on the other hand, create significant issues for the hearing impaired people, as they typically improve speech audibility but do not necessarily restore intelligibility in loud social circumstances [2]。人类已经被观察到使用视听方面的言论前后文减少背景噪音和专注于目标语言在这种情况下。此外,人们普遍认识到视觉信息帮助解决声学模棱两可。例如,人们在语音识别中使用AV信号,正确理解对话。麦格尔效应(3)表明,大多数人解释视觉“遗传算法”说“ba”为“哒。“视觉信号,尤其是给信息清晰度的位置(4)和肌肉运动,它可以帮助区分演讲一样的声音。
语音识别是机器的听觉系统,它可以实现人和机器之间的通信。一般来说,语音识别方法分为三种类型,即。,based on the channel model and speech knowledge method, template matching scheme, and the use of artificial neural network method [5,6]。与传统的语音识别方法相比,人工神经网络(ANN)有一个很好的改善建模能力和语音识别的准确性。深度学习的概念(DL)是源于人类的神经网络系统(7]。2009年,DL首次应用于语音识别任务(8]。根据当前语音识别技术的发展,基于DL的语音识别算法主要分为长期短期记忆(LSTM)网络(9),深层神经网络(款)8),而卷积神经网络(CNN) (10]。CNN使用本地过滤可以获得更好的鲁棒性和最大池技术。因此,CNN在图像领域都得到了广泛的关注,近年来视频和语音识别(11,12]。在最近的研究中,CNN已经应用于语音识别领域,取得了可喜的成果的准确性。和以前的工作相比,最大的不同是使用深卷积神经网络(DCNN) [13,14]。在语音识别中,在每个人的发音有差异,可以有效地去除通过DCNN和提高语音识别系统的准确性15,16]。DCNN执行更好的在一个庞大的数据集上,同时,在小数据集,它不能给更好的识别结果由于过度拟合的问题。DCNN需要一个大型数据集,以防止过度拟合的问题,所以培养和选拔DCNN架构非常耗时的,但一个重要的步骤。目前使用的方法来减少图像的数据集的大小由迁移学习技术,模型结构的训练在一个大型数据库,然后测试在一个较小的数据集,这被称为目标数据库。转移的对象识别能力学习技术可以在不同的研究中找到。由转移学习,几种方法用于视觉识别和广泛应用于图像分类(17和医学领域18,19]。
本研究的目的是演示转移的广度学习的应用和性能异构和稀疏数据库。最初的研究工作的目标是证明转移学习不仅仅是合适的情况下,源和目标数据库是相同的,而且对情况两个数据库有很大的不同。作为一个结果,而不是图片,pretrained DCNN用于学习语言从a到z的字母AVICAR数据集被用作数据库,它包括语言字母从五十女性和男性演讲者在各种驾驶情况下(20.]。每个字母的录音转换成使用傅里叶变换的谱图预处理过程的一部分。产生的DCNN训练使用的图片色,由字母组合。结果,有26个类的多类分类问题。此外,数据集保存短为了测试的效率pretrained网络模型只使用稀疏数据库。VGG-16被选中作为pretrained DCNN [21]。这是一个16层卷积神经网络由斯坦福大学的视觉几何组和pretrained ImageNet数据,一个巨大的视觉目标识别的数据集。它是最先进的架构已经提交给ImageNet款问题近年来。在本文中,您将发现款模型的概述以及研究的计算需求,功耗和推理时间(22]。
本研究使用DL和转移学习语音识别的技术。给出了本研究的主要贡献如下:(我)本文提出一种方法通过结合DCNN算法转移学习实现语音识别。(2)使用DCNN算法显著提高了语音识别的准确性,转让和使用学习技术,即。VGG-16,减少了数据集的大小和有助于提高识别精度。(3)仿真结果表明,将学习方法不仅降低了数据集生成的时间和成本,还大大节省了,减少了训练时间。
本文的其余部分组织如下:部分2显示了相关工作部分,部分3说明了提出方法,部分4演示实验装置和结果分析,而部分5总结了研究工作。
2。相关工作
自动语音识别(ASR)已经发展成为一个技术越来越多的用于我们的日常生活。词识别性能已被证明在无噪声的情况下达到100% (23),但在嘈杂的环境中,性能下降很快。模型标准化、可靠的特征提取和分类算法,以及语音增强方法,使用的一些策略,可能会让ASR这些情况下更有弹性。语音增强是一种常见的方法,因为它几乎不需要先验信息的环境为了成功减少语音信号和噪声,因此,提高识别精度。只关注声音通道,每一种方法旨在提高ASR系统的质量。使用视觉特征从扬声器的嘴巴区域的视觉运动结合听觉通道增加噪音弹性与温和的成功尝试。大量的研究已经完成视听ASR的主题(AVASR) [24]。比较这两种不同的技术(演讲改进与视觉信息融合)增加噪声语音识别的弹性在不利的环境中是极大的兴趣。由于缺乏数据,可以允许这样的评估,已经很难确定声学语音增强或视觉融合是可取的,是否可以结合这两种技术在嘈杂的情况下进一步提高韧性。到目前为止,大多数AVASR研究都集中在提高视觉信息的质量(24),隐含的假设,即视觉信息的使用在ASR系统将增强其韧性噪音的存在。
学习是一种很流行的方法,减少转移一个图像数据库的大小。在这种背景下,保存的重量和现有建筑从一个类似的问题是用来帮助学习小说发展的挑战。转移学习涉及培训模型架构在一个巨大的数据库在转移到一个新的和相当有限的目标数据库。使用转移学习技术的研究在不同领域进行(25),旨在展示转移学习的重要性在不同的应用程序。通过转移学习技术,有几种方式来完成视觉识别的任务。
本研究的主要目的是调查的应用和性能转移学习在一个多样化的和稀疏数据库。研究的主要目标是调查转移学习不仅适用于当训练和测试数据集是相同的,而且当这两个数据集是相当不同的。本研究提出了一种语音识别系统基于DCNN和转移学习技术的结合。它是最先进的架构已经报款ImageNet问题近年来。在本文中,您将发现款模型的概述以及研究的计算需求,电力消耗,和推理时间。
3所示。提出的方法
本节阐述了提出的方法进行研究。拟议的方法由不同的步骤从数据收集、数据预处理和转移学习技术的使用以及卷积神经网络。
3.1。数据收集和预处理
AVICAR数据集来自视听语言语料库组装汽车使用各种传感器设备。伊利诺伊大学的学者在2004年收购并记录。收集到的数据是用八个麦克风安装在太阳盾和四个摄像机放在仪表板。字母分开,接触数字,数字分开,和短语被聚集的四种类型的演讲。捕获所有的课程用英语来自50岁女性和男性演讲者,在五个不同的驾驶情况下,每个关闭和打开的窗口和空转,35到55英里每小时的速度。数据是公开的,可以没有任何成本。孤立的字母的音频数据被收集在这个研究在所有5个驾驶情况进行额外的分析。每一个字母从A到Z, 200音频文件选择培训和50选择音频文件进行测试,分别。对于每一个字母,女性和男性的声音的录音保存在不同的地方。共有13000个音频文件生成,在10400年被选中为训练,而其余的2600用于测试模型。
为每一个音频文件创建一个谱图。的频段的声音录音的光谱图所示。这种技术用于音乐、音响、广播和语音识别。利用傅里叶变换光谱产生从声音文件。图1说明了色的字母A到D。
随着数据集是稀疏,所以增加应用的数据。使用label-preserving转换、数据扩增方法实现人为地扩大的目标数据集。因为存在的稀疏数据集、数据进行扩张,和标签保存转换用于实现手动扩展数据集。为了扩大数据,不需要生成新的图片,和现有数据集略有修改,使用不同的增强技术像翻转,旋转,和翻译。这些图片是给神经网络时,他们认为这是不同的图像。摘要不同的增强调整测试,最好的结果是通过随机旋转运动和随机宽度。转换后的图像从原始图像生成,这是产生在CPU上最后一批的培训期间,不需要被存储。
3.2。学习技术转移
训练上的DCNN短数据集,即使增强数据,证明在许多研究论文(10,11),没有产生足够的成果,党卫军前面所讨论的,在小数据集训练DCNN给不满意的结果。这种方法产生的结果是不同的理论,所以转移学习技术用于解决这个问题。除了pretrained权重,有不同的体系结构,可以免费用于识别、微调和特征提取。摘要VGG-16模型是用于进一步的工作,因为与其他可用的模型相比,测试精度VGG-16模型更好的结果比其他的模型。图2展示了VGG-16架构,它始于一个输入图像大小为244×244×3,然后增加了卷积层有3×3场大小、步幅大小为1,以及5 Max-pooling层有2×2窗口大小。接下来,使用3完全连接层,最后softmax用作激活函数。隐藏层,解决线性激活使用单位(ReLU)和激活函数。这种架构ImageNet数据集上训练。ImageNet图像数据集,由上述14 m图像。这些图片是手动分类识别图像中的对象数据集。超过100万张照片的一个子集训练VGG-16模型,利用图像分为1000项类别生成多种图像特征表示。Pretraining的识别对象和创建一个结构之间的相关性,并形成大规模分类和不同的数据集可能调整和聚集到新的任务完成设计任务。字面上,转变学习进步到当前的话题。
利用有限的数据集时,转移的好处学习视觉识别被广泛记录。对于小数据集和视觉识别,转移学习是非常合适的,尤其是在医学图像分析中,通常使用一个非常小的数据集,DCNN是医学图像分析的首选方法。大型数据集的pretraining从数据中提取有用的特性,这些特性适用于随后的任务的小数据集,并提出了改善学习稀疏数据。
4所示。实验装置和结果分析
实验设置和仿真结果将在这一节中讨论。实验装置包括一台笔记本电脑系统的规范:核心我7、7th一代,16 GB的内存,500 GB硬盘,128 GB的SSD, 2.7 GHz处理器运行在Windows上10。使用的IDE进行模拟是蜘蛛Python是用于语言的实现算法。实施AVICAR数据集Keras深度学习(DL)框架,它使用TensorFlow后端。除了各种pretrained DCNN模型,Keras也用来实现VGG-16模型如前所述。的模型有权重pretrained可以用于预测,提取特征,和微调。在这种方法中,微调是用于开发提出的模型。如图3,pretrained VGG-16模型被碾压最后完全连接层之前最后一个最大池层,扩大全球空间平均池层(GAP)和两个完全连接层。差距减少模型参数的数量,简化了空间维度,并确保不会overfit模型。之后,一个完全连接层大小为11512,线性预测(ReLu),和随后的完全连接softmax层26类遵循的差距。这是实验所需的类的数量。
VGG-16的上层建筑被训练使用产生的谱图数据增强技术,提高性能通过人为地扩大规模的数据。随机梯度下降优化器(SGD)有适度的学习速率的0.0004被选中作为优化器。模型训练的批量大小8 25、50、100和200年时代使用音频数据分开两个男性和女性的声音,以及两者的结合女性和男性的声音。pretraining学时应该方法或范围内的培训能力。表1显示了训练结果准确性的百分比。
从表1,很明显,一个数据集是由5200个男性或女性的声音文件,和每个性别的声音测试结果可以接受在一个有效的方法。培训不能产生类似的结果对于男性和女性声音的混合使用5200个文件的数据集。然而,一个数据集,其中包含两个文件,即。,10400 files, not only achieves the results of individual training, but it is even better than the results of individual training. It can be observed that, for the total test cases, the results that cannot be completed after more than 25 class hours of training can be obtained through 50 or more class hours of training.
微调可以在第二阶段完成。只有上层用于训练,而较低的层是保持不变的。结果提出设计研究了通过改变冷冻层的百分比分数从10% - -90%。此外,女性和男性的声音训练的结果是独立检查,以及一个数据集,包括女性和男性的声音。总共有5200个文件在所有的数据集。从一个更大的学习速率可能导致误传的pretrained权重,它应该反映出优秀的新模型,结果SGD优化器和一个适度的学习速率的0.0002是用于微调。
表2说明了语音识别精度在应用冻结层的微调。
从表可以看出2女性和男性的声音测试单独和组合。整体精度的结果具有可比性的pretraining的女性和男性的声音训练有素的单独和组合,和准确性的男性和女性的声音低而分开。可以看出,所有的实验条件下,可以获得最好的结果,当冻层的比例是10% - -50%。当90%的层冻结,没有训练的结果。pretraining数据集和真实数据集无关时,冻结的大多数层培训最后剩余层是毫无意义的,因为功能适应性不足,这可能是增加了减少冷冻层,直到一个特定的点。
由于不足的结果表125岁以上,假设pretraining时代将不足不能断言。在微调的背景下,只有25学时pretraining像其他测试用例产生类似的结果。表3表明数据翻倍提高培训结果男性和女性的声音,导致近80%的准确性,尽管只有10400文件的数据集的限制。
它可以看到从学习速率和准确性在图的饱和度4,超过50学时的培训就足够了微调,和冻层的比例小于50%,假设的结果表2。
5。结论
自动语音识别(ASR)是一种越来越重要的技术随着时间的推移和被用于我们的日常生活。本文主要使用DCNN和转移学习技术的结合,即。VGG-16,语音识别。本研究的主要目的是使用转移学习语音识别技术和提高识别精度的音频语音文件。尽管使用一个完全不同的数据集,主要目标是学习使用转移。虽然使用不同的数据集,仿真结果表明,pretraining特性通常是适用的,即使是有区别的目标数据库和源数据集pretraining模型。另一个主要目的是调查转让的上下文中学习口语字母识别在有限的数据集。在语音字母识别的应用,转移学习是用于较小的数据集。仿真结果表明,即使是一个非常小的数据集,它可以检测语音字母显著,但识别精度略低于其他方法使用的大型数据集。然而,只有使用数据集的10400名男性和女性的声音文件,即使部分音频数据记录在噪声情况下,精度达到近80%。小数据集的应用减少了数据集生成的时间和成本,也减少了训练的时间模型,并对计算能力的需求。 The future work of this paper is to use more transfer learning techniques along with the ML and DL algorithms in order to improve the speech recognition accuracy using both the small and large datasets.
数据可用性
使用的数据来支持本研究的结果包括在本文中。
信息披露
本文扩展了会议论文“说信使用深卷积神经网络识别稀疏和不同的数据”(https://ieeexplore.ieee.org/document/87023002019年IEEE国际研讨会(ISCAS)电路和系统。
的利益冲突
作者宣称没有利益冲突有关的出版。