研究文章|开放获取
中国语气识别基于3 d动态肌肉信息
文摘
推进唇读识别的研究符合中国发音标准,我们仔细研究了普通话声调识别基于视觉信息,相比以前的基于字符的中国唇读技术。在本文中,我们主要研究了元音色调转换中文发音和设计一个轻量级的跳过卷积网络框架(SCNet)。,实验结果表明,SCNet音高变化的敏感,更详细的描述比传统模式,取得了更好的声调识别效果和优异的抗干扰性能。此外,我们进行了更详细的研究深度的援助在唇读识别纹理信息。我们发现深纹理信息对声调识别有很大的影响,和多通道的可能性唇读中文音调识别确认。同样,我们验证的作用SCNet音节声调识别和发现元音和音节声调识别我们的模型精度高达97.3%,这也表明我们的汉语语气识别方法的鲁棒性,它可广泛用于音调识别。
1。介绍
近年来,唇读性能优越的鲁棒语音识别已经收到了广泛的关注。唇读的目的是提高语音识别的鲁棒性等特殊情况的低限比(信噪比)或安静的环境。然而,由于中国的复杂性和可变性发音,中文唇读识别的性能在实际场景中并不总是令人满意的。
唇读识别最重要的任务之一是特征提取。目前,有两个主要类别的视觉信息提取唇读系统,即。基于像素的方法和基于模型的方法。基于像素的方法从图像中提取视觉特征直接或经过预处理和转换。Yuhas et al。1)利用灰度图像像素信息唇及其周边地区的特征。沃尔夫et al。2)使用水平和垂直扫描行集中在嘴唇作为特征向量。自的方法直接利用图像的像素信息作为特征是盲目的,更有效的和有针对性的方法,如离散余弦变换(DCT),主成分分析(PCA)、奇异值分解(计算),离散小波变换(DWT)和线性判别分析(LDA) (3- - - - - -5),提出了减少冗余的信息。基于像素的方法可以充分利用像素信息来提取更全面的嘴唇特征。然而,特征向量是高维度和冗余。同时,基于像素的方法对光线很敏感,影子,发音,和其他条件。此外,基于模型的方法旨在建立一个参数的数学模型,然后使用模型参数来描述嘴唇轮廓信息。Kaynak et al。6)使用的水平和垂直距离嘴唇轮廓,唇角角度,唇角的一阶导数角。Zhang et al。7]提出的几何特征的嘴唇,含口宽度、上/下嘴唇宽度、唇口 ,和水平唇线之间的距离和上。基于模型的方法利用低维特征表示图像特征,特性通常不改变因素,如翻译、旋转、缩放、或照明。然而,这两种方法提取相关信息直接从平面图像中感兴趣的区域(ROI) (8]。
的发展高灵敏度RGB-D相机,演讲者的脸的三维信息可以更准确地提取。例如,Yargıc和Muzaffer [9)开发了一个唇读系统使用Kinect摄像头获取深度特征点,然后提取角特性的唇读。Palecek et al。10]研究面临着深度的融合性能数据孤立词视觉语音识别任务。Rekik et al。11,12)提出了一种自适应唇读系统基于图像和深度数据。王等人。13)使用3 d唇点从Kinect,改善多通道语音识别的性能。这些先驱者的研究指出,在唇读识别深度信息的有效性。因为不受光照影响的深度信息,肤色等。14),二维图像信息的缺陷补偿。然而,由于嘴唇的特征通常是获得离散三维点或面部深度图像,很难完全代表嘴唇的特征。
目前提出的唇读识别基于三维深度信息不考虑开车的嘴唇运动的固有结构问题在自然语言的变化。在我们以前的工作(15],探讨内部机制演讲的过程中,我们进行了一次深入研究面部纹理信息驱动的改变唇阅读和探索的面部纹理信息的嘴唇运动中国元音的发音,有重大影响的变化。然而,由于中国的发音是一个严格的tone-changing语言,场上的转换的一个重要组成部分,对中国的理解。因此,探索中国在当前唇读色调变换研究基于3 d信息是很重要的。
在这项工作中,我们重点研究中国发音的元音的色调变化。我们的主要贡献如下。(1)对中国发音色调变化,我们提出一个新的轻量级的网络框架,SCNet,对细节的变换更敏感比传统网络体系结构。(2)详细我们探索的重要影响,提出深元音的变化音调的面部纹理信息辅助唇读。(3)与深度纹理音节识别,实验结果显示的普遍性和良好性能SCNet识别模型集成的基调。
本文的其余部分组织如下。部分2介绍了数据收集和预处理。部分3给出了该模型体系结构。部分4介绍了我们的实验结果。第五节总结了我们的工作,并介绍了未来的工作。
2。数据收集和预处理
2.1。数据收集
八个母语的中国人,四个男人和四个女人,作为研究对象。所有受试者使用标准普通话发音没有任何口音的影响。在中国的发音,每个音节都有四个不同的音高变化(音调1 - 4)。事实上,有五分之一的中国发音发音类型,这是无声的声音(即。一般在中国的发音),一个特殊的沉默的语气说话。为了探索不同音高的影响转换,我们消除了无声的声音很少在中国,所以在实验中每一个音节只包含的四个常用的音调。的实验数据,我们收集了5个元音(/ /,/ e /, /我/,/ o /和/ u /)和5个音节(/ ta /, / te /, / ti /, / /, /你/),共有40个音调。在录音过程中,每个音调被宣布人均10倍。例如,四音节(//,/ /,//和/ /)是通过结合四个词汇音调与无调性音节/ /。
数据采集设备使用微软的Kinect V2面临实时跟踪相机和相机通过面部关键点生成实时三维点云(1347面部关键点)。在[16],Mallick等人的肌肉已经证明基于点云的面部表情识别成功,并通过验证,生成真实感三维人脸点云与肌肉分布。与此同时,他们的实验表明,生成的点云的脸的形状无关,可以很稳定的相同的位置在不同的面孔。与此同时,(17,18)也证明Kinect V2的稳定性和有效性。为确保其质量,我们收集的数据在标准的安静的房间。数据收集情况如图1。
在这个过程中,我们重建索引1347点。该指数的特征点唇区域如图2 (b),这只使用收集到的图像信息和三维深度信息。通过考虑头部模型的变化运动期间,我们纠正头部旋转角度 , ,和的方向。作为一个例子,向量之间的夹角(和两个点在图吗2 (b))和飞机XY计算如下: 在哪里 和 的坐标是和和和代表数字平面上的坐标点XY。旋转面平行坐标点XY飞机是由下面的算法。
(一)
(b)
(一)
(b)
最后,我们获得了真正的演讲者的标准点集的脸。
2.2。特性预处理
2.2.1。图像预处理功能
对于收集到的图像信息,我们使用开源OpenCV lib库拦截 唇感兴趣的区域,如图4(一个),然后使用提出的图像序列表示方法Saitoh et al .发音的音节连续提取16帧 中间的发音,形成一个连续的序列图像的嘴唇运动变化( ,从左到右,从上到下),并使用一个伽马变换 光增强增加数据,如图4(b)(带16表然后排序)。
2.2.2。肌肉动力学特性
根据这项研究,有六个主要类型的肌肉驱动唇在面部肌肉运动。面部的分布函数和特征的每一块肌肉都在表1和2反映每一块肌肉的具体名称和特征点识别的每一块肌肉kinect数据。在特定深度纹理特征表示,我们提取了两个最代表深度,肌肉长度变化,肌肉动态特性数据点。
|
||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||
(1)肌肉长度变化的信息。长度表示为特征 ,在哪里代表了向量在演讲的时候,肌肉长度代表了肌肉长度向量的时候放松,消除之间的差异不同的扬声器。
(2)肌肉动力学信息。肌肉动力信息描述面部肌肉和面部特征点之间的关系,反映了不同的扬声器之间内在的共性。我们还分析了不同肌肉的影响特征点的位移的司机肌肉动态转换。对于特征信息,肌肉之间的矢量变化通过计算得到不同的特征点在相邻帧的变换趋势。具体表达式如下: 在哪里代表了动量的变化特征点 , 和分别代表了开始点和结束点的肌肉 ,和每一点的肌肉运动的方向是由分解每个点的位移subvector表示。表示每一块肌肉运动点的长度。
3所示。网络体系结构
考虑到嘴的形状变化的微妙差异在中国的色调变化,我们设计了一个轻量级跳过回旋的结构网络(SCNet)和微妙的描述特性变化来评估我们建议的3 d唇特性和探索的色调变化和音节唇读识别的可行性。总体架构如图3。
网络体系结构受到的VGG [19]和ResNet [20.]。在网络的初始阶段,我们使用三个 脑回的大步的层2来提取图像的表面特征。这不仅网络结构减少了网络的总体参数的精度损失,还功能映射。
网络结构的主体是两个连接特征提取模块,他们不同于当前剩余块结构。两个subconnection块采用不同的二次抽样表达式。块1,后面的边缘特征更加明显,最大池是用来表示不同特性的特殊性,突出的特点不同的特征图谱。2块,使功能,地图有关的特异性特征图更为顺利和有效地使用全球平均池。两个连接的块结构框架都略有不同。第二块,块1后的平滑作用最大化,最后卷积块2层输出通道是翻了一倍,其余是块1的相同。这种结构也表现出良好的性能在实验中。在最后,128 -维线性层连接,然后分类概率。
3.1。跳过卷积结构
我们使用一个跳过连接在每一块。每一块的结构如图2 (b),每一块的连接定义如下: 在哪里和分别代表输入和输出的每一块代表直接连接的学习功能。如图3 (b)所示,直接连接由卷积三层,所以是专门表示为 ,在这LeakyReLU和是跳过连接,它代表了一层的连接结构的公式吗 。介绍了自正则化层,减少参数的变化在此体系结构中,没有带到偏差项。最后, 操作代表的直接体重增加直接和跳过连接,而不是相应的拼接结果。
方程(4)主要是分为两个部分:结构和跳过结构的直接连接。在直接连接结构的阶段,首先我们使用 卷积,紧随其后的是一个 卷积的步伐获得更详细的特征信息,然后连接到一个网络优化 卷积核,跨步1模拟处理边界Sobel矩阵的特性。这种结构使边界特征更加明显,因此,判断区域功能更好的特征特性。在跳过模块中,我们使用一个 卷积,泰然自若的 ,和渠道的数量增加。这个过程生成相同的渠道网络,和相同的大小是更方便的特性缝合。这种方法也保证了融合图像的特征结构。传统的物块的目的是确保局部结构的表征和全球特性使网络结构更具有代表性。我们使用这个结构考虑的 卷积保留全球功能,使用 卷积。这个卷积确保了网络结构的多尺度表示。
3.2。特征融合结构
特征融合结构给出的表达式如下:
更好地整合深度信息和图片信息,我们采用了决策融合方法深度整合两种不同的信息。具体表达式见公式(5),代表了128 -维SCNet获取的信息。深度特性,代表了浅的深度特征缝合完全连接两层后,和表明融合策略。因此,功能, ,两者的融合后,由一个线性解码层一层和输出。
3.3。实现细节
在实验中,输入图像的大小 。自图像调整输入之前,没有相应的数据增强方法在实验中使用。批正常化(BN) [21)网络中采用卷积后,激活之前和之后BN。网络权值,采用随机初始化方法和网络训练从0。一个亚当优化器是用于实验,小批量的大小被设置为30。学习速率开始 ,和学习速率衰减函数的表达式如下公式所示: 在哪里代表了最后一轮的学习速率, 迭代衰变后,每个阻尼系数 次 。我们没有使用期间辍学实现。
4所示。实验和结果
实验,验证该模型的平滑度对整个数据集,我们设置了5倍交叉验证和实验方案计算所有结果的平均值作为最终的实验结果。
4.1。交叉验证
确保充分利用数据和实验结果的准确性在我们的实验中,我们设计了一个5倍交叉验证。我们所有的实验数据随机分为5部分。水抽样用于部门的数据。在每个样本集数据只包括1860组。四个测试是用来训练一个测试,实验共进行了5轮,以便每个可以作为训练集和测试集和每个实验会给一个独立的结果。
因为元音在整个发音过程中起主导作用,在实验中,为了验证整个音节的区别识别效果和不同的音节识别性能的每一个音节,我们首先针对每个元音识别精度进行了讨论,然后进一步分析语气元音的识别不同的音调。通过使用不同的语言表达,我们忽略了无声的声音在中国发音来验证我们的提议SCNet可观的实验结果的整个音节的声调识别精度和准确性的认可。
4.2。元音检测和元音音检测
我们首先验证我们提出的模型的有效性,并与传统的模型(VGG、ResNet DenseNet [22]);此外,我们测试了不同模型的影响在元音识别和元音音识别。确保考试的公平性比较,线性的 层和一层softmax分类添加到传统模式,选择和最优值的参数设置。
数据5和6显示单独的元音识别结果和元音音识别结果,分别。通过比较两个图像定量,我们发现所有的模型表现出良好的识别性能;具体地说,拟议中的元音的区别SCNet达到近100%的识别率,声调识别效果明显高于传统的模型结构。比较几种模型的总体结果的网络深度、参数和精度如表所示3。发现SCNet给三个参数的最优值,特别是那些参数的变量。与之前的模型相比,只有1/50的VGG SCNet参数值,ResNet值的1/4、1/3 DenseNet价值和更优势的实验结果。这些结果表明,我们的设计模型是便于处理实时数据和更好的性能比现有的传统框架。
(一)
(b)
|
||||||||||||||||||||||||||||||||
我们对这一实验现象的分析是基于SCNet架构的应用程序转换数据集的细微差别。此体系结构显示良好的结果数据的描述细节。
作为一个整体,实验可以显示出这样优秀的结果,并且把成功归结于以下网络结构的特点:(1)在音调识别中,分化程度之间的嘴形状不同的音调相同的音节很小,在实验中,我们使用了一个3×过滤器。这么小的卷积核的使用可以提高细功能结构歧视。(2)基于几个之前的验证,这是证明不可以保留通过卷积特性特征图谱之间的转换,这除了更有利于传播梯度比传统的直接连接。跳连接提出了表明,我们的方法可以捕捉更多微妙的网络结构特征,从而提高好歧视的性能。(3)不同的结构块之间的不同将采样方法可用于特征选择,突出不同特性之间的传播,使网络结构流畅,更有利于表达不同的详细功能。
4.3。纹理深度信息融合
更好的验证深度纹理信息在声调识别的有效性,我们设计了一系列的实验来证实我们的猜想的正确性。
音识别的结果只有图片和音调识别融合后的深度图所示的信息7。实验结果表明,融合后的纹理深度信息,仅音调识别的识别结果增加了2%,特别是在图像识别率低的情况下,对音调识别的影响是显而易见的,这表明,我们建议的3 d纹理深度显著影响辅助音识别的信息。这种效应发生因为基于图像的特性并不足以完全代表连续的嘴唇运动。彩色图像的特征音识别对光线很敏感,议长肤色,和相机采集质量。然而,3 d信息有很好的抗干扰这种缺点,几乎没有影响。我们提出面部纹理深度信息很大程度上弥补了唇发音声调识别的缺陷所引起的环境问题和补充了意象唇的发音方法。
图8显示了模式识别的结果添加不同的噪声类型。在实验中,随机的高斯噪声 和 添加模拟识别场景不同的摄影的定义,与伽马伽马算法 被用来适应光线变化由于现实生活中的变化。添加动态噪声可以更好地反映不同模型的鲁棒性的自然场景和无处不在的能力不同的框架。出人意料地提出SCNet模型的性能远远高于传统的模式,这表明,我们的框架在实际场景中更好的应用程序性能。同样,之前和之后的性能识别效果的纹理深度信息,有一个稳定的改善效果0.5%以上的深度融合后的信息,表明融合深度信息是更有意义的识别真正的场景。
4.4。音节识别
因为语调变化发生在所有中国发音,辅音与元音,音节识别的难度大于的元音。进一步验证我们提出的有效性SCNet所有中国认可的音调,我们也验证了模型的性能40混合音调识别的基于5个元音(/ /,/ e /, / /, / o /和/ u /)和5个音节(/ ta /, / te /, / ti /, / /, /你/)。
识别结果如图9。尽管音节的音高识别根据理论困难得多,我们的SCNet模型是健壮的,和高得到的识别率为97.364%,表明我们的模型不仅元音音识别性能好,它也是中国优秀的声调识别性能。此外,添加深度纹理信息之后,球场的平均识别结果显示有0.2%的改进。由于发音的音节是比这更复杂的元音发音器官是更多的参与,面部深度可能相关。纹理信息对音节的识别有更大的影响。比较与我们之前的猜测表明深纹理信息有一个很清晰的识别影响中国唇协助唇读识别辅音和元音的基调。
5。总结
这项工作主要是集中在声调识别中国唇读识别的难度。在本文中,我们设计了一个高效的轻量级的网络框架,SCNet,基于一个全面、有效的唇读特征提取方法,并验证了该网络框架的几个实验的有效性。在这项研究中,我们进行了一个深入验证拟议的框架。对比实验表明,该框架能够准确地识别中国发音的音调。此外,面部纹理深度信息和图像信息融合的可行性面部纹理深度信息来帮助识别中国的音调。
广泛应用的深度摄像头的视频设备,唇读会更好的帮助将来语音识别和提高语音识别的鲁棒性在不同的环境中。本文中使用的数据集是由独立的音节,但结果表明,该方法是可行的,可以有效地应用于未来的大规模数据集。
数据可用性
使用的数据来支持本研究的发现可以从第一作者。
的利益冲突
作者声明没有潜在的利益冲突对这篇文章的作者和/或出版。
确认
这项研究是由中国国家自然科学基金资助(批准号61977049)和天津市重点实验室先进的网络。
引用
- b . p . Yuhas m·h·戈尔茨坦,t . j . Sejnowski”一体化的声学和视觉语音信号使用神经网络,”IEEE通讯杂志,27卷,不。11日,第71 - 65页,1989年。视图:出版商的网站|谷歌学术搜索
- g·j·沃尔夫,k·v·普拉萨德,d . g .鹳和m . e .需求“读唇术通过神经网络:视觉预处理,学习,和感官集成”。视图:谷歌学术搜索
- p·斯坎伦和r·赖利”特性,分析自动语音阅读”《IEEE第四车间多媒体信号处理2001年10月,法国戛纳。视图:谷歌学术搜索
- p s Aleksic和a . k . Katsaggelos”比较低收入和高级视听连续自动语音识别、视觉特性”IEEE国际会议上声学学报》上蒙特利尔,加拿大,2004年5月。视图:谷歌学术搜索
- 马修斯,g . Potamianos洗鼻,j . Luettin和A . Ascom Systec,“比较模型和视听lvcsr transform-based视觉特性,”《IEEE国际多媒体会议及博览会2001年8月,东京,日本,。视图:谷歌学术搜索
- m . n . Kaynak智,公元Cheok, k .森古普塔z剑,和k·c·钟,”唇为视听语音识别的几何特性分析,“IEEE系统,人,Cybernetics-Part答:系统和人类,34卷,不。4、564 - 570年,2004页。视图:出版商的网站|谷歌学术搜索
- 张x r . m . Mersereau, m·a·克莱门茨“视听语音识别视话法,”数字信号处理程序的国际会议美国佛罗里达州奥兰多,2002年5月。视图:谷歌学术搜索
- j . Bin y Jiachen, l . Zhihan t·库恩m .轻钢和m .严,“互联网跨媒体检索基于深度学习,”杂志的视觉传达和图像表示48卷,第366 - 356页,2017年。视图:谷歌学术搜索
- A Yargıc和d . Muzaffer女士Kinect摄像头,上唇读应用程序”IEEE INISTA学报》上2013年6月,Albena,保加利亚,。视图:出版商的网站|谷歌学术搜索
- k . Palecek提取的特征使用Autoencoders唇读施普林格,柏林,德国,2014年。
- a . Rekik a Ben-Hamadou w .救世主,一个新的RGB-D摄像机视觉语音识别方法施普林格,柏林,德国,2014年。
- a . Rekik a Ben-Hamadou w .马赫迪,“唇读的自适应方法使用图像和深度数据,”多媒体工具和应用程序,卷75,不。14日,第8636 - 8609页,2015年。视图:出版商的网站|谷歌学术搜索
- j . j . Wang, h .清w .建国和d .安益“视听语音识别集成3 d唇从Kinect获得的信息,“多媒体系统,22卷,不。3、315 - 323年,2016页。视图:出版商的网站|谷歌学术搜索
- 江j·杨,b, b . Li k .田和z Lv,“网络大数据设计的快速图像检索方法,”IEEE工业信息,13卷,不。5,2350 - 2359年,2017页。视图:出版商的网站|谷歌学术搜索
- j .魏f·杨,j . Zhang r . Yu m . Yu和j·王,“唇读,三维联合geometric-physiologic特性”学报2018年IEEE 30日国际会议上与人工智能工具2018年11月,沃洛斯,希腊,。视图:谷歌学术搜索
- t . Mallick p . Goyal p p . Das和a . k . Majumdar“面部表情识别的kinect数据评估kinect脸跟踪库,”国际会议的程序计算机视觉理论和应用程序,罗马,意大利,2016年2月。视图:谷歌学术搜索
- “微软kinect传感器和其效应”,IEEE多媒体,19卷,不。2、4到10,2012页。视图:出版商的网站|谷歌学术搜索
- 2020年Kinect v2和v1的区别,https://skarredghost.com/2016/12/02/the-difference-between-kinect-v2-and-v1。
- k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。视图:谷歌学术搜索
- s . r . k .他x张,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议(CVPR),1卷,页770 - 778,拉斯维加斯,NV,美国,2016年7月。视图:谷歌学术搜索
- 约飞和c . Szegedy“批量标准化:加速深层网络训练通过减少内部协变量转变,”机器学习的国际会议(ICML)2015年7月,法国里尔。视图:谷歌学术搜索
- 黄g . l . Maaten z . Liu和k·温伯格,“人口回旋的网络连接,”学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,页2261 - 2269年,美国,2017年7月,你好。视图:谷歌学术搜索
版权
版权©2020年建嵘王等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。