文摘

近年来,随着人工智能(AI)的发展,人机交互技术,语音识别和生产要适应人工智能和人机技术的快速发展,这需要通过添加新的功能,提高了识别的精度融合特性,提高识别方法。针对开发新颖的识别功能和应用语音识别,本文提出了一种新的方法articulatory-to-acoustic转换。在这项研究中,我们已经将发音功能(即。,velocities of tongue and motion of lips) into acoustic features (i.e., the second formant and Mel-Cepstra). By considering the graphical representation of the articulators’ motion, this study combined Bidirectional Long Short-Term Memory (BiLSTM) with convolution neural network (CNN) and adopted the idea of word attention in Mandarin to extract semantic features. In this paper, we used the electromagnetic articulography (EMA) database designed by Taiyuan University of Technology, which contains ten speakers’ 299 disyllables and sentences of Mandarin, and extracted 8-dimensional articulatory features and 1-dimensional semantic feature relying on the word-attention layer; we then trained 200 samples and tested 99 samples for the articulatory-to-acoustic conversion. Finally, Root Mean Square Error (RMSE), Mean Mel-Cepstral Distortion (MMCD), and correlation coefficient have been used to evaluate the conversion effect and for comparison with Gaussian Mixture Model (GMM) and BiLSTM of recurrent neural network (BiLSTM-RNN). The results illustrated that the MMCD of Mel-Frequency Cepstrum Coefficient (MFCC) was 1.467 dB, and the RMSE of F2 was 22.10 Hz. The research results of this study can be used in the features fusion and speech recognition to improve the accuracy of recognition.

1。介绍

随着人工智能技术的普及,人机交互技术的语音处理技术,提出了更高的要求,希望智能产品,比如电脑和手机,会有沟通的能力与人类和谐,表达情感的能力。情感语音处理的现有技术不可避免地利用人类的发音机制,然后人类语言是明显成功的系统的运动通过肌肉的收缩的发声器官,如舌头、嘴唇和下巴。发音和声学数据之间的这种关系已经形成通过大量的发音的积累经验。

尽管人们采取了各种各样的技术来收集发音器官的运动信息,如x射线(1),实时磁共振成像(rMRI) [2],超声波[3],EPG [4],EMA (5),大多数数据采集环境并不完美,和收集的数据是糟糕的自然程度或很容易被外部噪声(6]。其中,由于EMA技术使用传感器放置在发音器官如唇的表面,接触面积只有3毫米2;与此同时,传感器的工作原理很简单,性能稳定,已广泛应用于发音器官的轨迹跟踪和数据收集。

十几年来,研究人员一直在研究acoustic-to-articulatory反演。苧和Laprie7)在2005年首次提出了码书方法,使用矢量量化编码语音的声学向量和计算声学之间的最小欧氏距离向量和发音向量,构造反演系统。这种方法的缺点是,它需要大量的数据来实现准确的转换效果。

国王和扳手(8)实现了一个动态系统培训教育津贴1999年数据用卡尔曼滤波器。他们讲话的声音和发音功能定义为线性关系基于语言产生的物理模型。然而,没有严格的声学和发音功能之间的线性关系。

此外,在2000年,科维奇和邓9]扩展卡尔曼滤波器用于训练acoustic-articulatory数据建立一个更现实的转化关系。通过这个模型结合卡尔曼平滑滤波器,发音器官的运动轨迹模拟,模拟轨迹之间的均方根误差和最初的轨迹是意识到2毫米。

华忻办公里士满和山10)使用神经网络实现acoustic-to-articulatory反演首先在2002年。他们用MOCHA-TIMIT的两个主题,取得的数据反演结果RMSE低至1.40毫米。与此同时,户田拓夫et al。11]提出了一种特征反演方法基于高斯混合模型(GMM),采用最大似然估计方法来分析并行声学数据流和EMA的数据流,并建立了联合概率密度函数。不同数量的高斯混合元素被用于实现较高的反演精度。

Hiroya和本田(12林,et al。13凌,et al。14)先后使用和改进嗯最后达到了1.076毫米的集成RMS,也是最高的反演精度通过使用HMM模型到目前为止。

近年来,深度学习的能力引起了人们的重视模型非线性映射关系,已应用于发音和声学特性的反演。莱昂纳多Badino et al。15,16)实现acoustic-to-articulatory反演使用深层信念网络(DBN)和隐马尔可夫模型(HMM)和应用语音识别,导致识别相对误比特率减少16.6%。在早期阶段,卷积神经网络(CNN) (17)已广泛应用于图像信号处理领域,曾在分析地方特色明显的优势;与此同时发音特性可被视为演讲的视觉特征。太阳et al。18从云南大学表明,CNN言论可以应用到情感分类,取得了良好效果。他们第一个引入word-attention机制情感分类和揭示了语义对分类效果的影响。

然而,大多数研究人员只关注acoustic-to-articulatory反演,研究articulatory-to-acoustic转换越来越开始相对较晚。然而,articulatory-to-acoustic转换有助于发音机制的研究和说话人识别和情感识别的发展。刘等人。19,20.)中国科学技术大学的使用级联谐振网络和BiLSTM-RNN发音特性转换成频谱能量和基频特性在2016年和2018年,分别取得了良好的转换效果。

目前,转换着重于框架或音素水平,与强调音素的发音规则和声学特征。然而,在色调汉语等语言,音节之间的交互必须隐藏某些acoustic-pronunciation信息。同时,word-attention机制已被广泛应用于文本处理领域和情感分类。王,陈21)提出了一个LSTM情感分类方法基于注意机制和意识到情感分类通过短期和文字的特征筛选功能结合机制的关注。王等人。22]提出了word-attention卷积模型与CNN和注意力机制的结合,针对特征提取。

依靠深度学习与非线性和注意力机制,BiLSTM-CNN方法和word-attention机制被用来实现articulatory-to-acoustic转换。本文组织如下。首先,我们审查相关工作articulatory-to-acoustic转换,以及CNN和word-attention机制部分2。接下来,我们提出的详细方法是描述的部分3,部分4我们的实验及其结果报告。部分5提供工作的讨论和结论。

探索articulatory-to-acoustic转换,提高转换效果,进行了大量的研究在过去的几十年里,和几个方法提出了模型转换,包括高斯混合模型(GMM),递归神经网络(RNN),长期短期记忆(LSTM) BiLSTM, CNN。在这一节中我们将给一个简短的介绍。

2.1。GMM-Based Articulatory-to-Acoustic转换

GMM是一个经典的特性转换方法(23),曾经acoustic-articulatory特性的联合概率密度函数实现转换。转换模型的描述

在这里,用于表示高斯混合元素的数量, 表示声学特征向量的概率 , 代表充分条件高斯分布的协方差矩阵。

被定义为发音和声学特性,分别,帧的数量。考虑到帧的发音特征众所周知,一阶动态特性如下:

一阶动态特性的发音特点和拼接作为输入特征向量 ,然后输出向量 可以获得。因此,输入和输出向量的联合概率分布可以描述如下: 在哪里 是发音的联合矢量和声学特性,N是高斯元素的数量, ,表示GMM的模型参数 , , 重量,意思是,和协方差的高斯元素j,分别。其中,模型参数 将由最大似然估计算法估计(MLEA) [24]。当发音和声学特性之间的尺寸是不同的,协方差矩阵 是满秩矩阵。

在转换期间,应该是输入发音功能 ,应该是和输出声学特性 ; 可以依靠计算程序如下:

在这里,W系数矩阵是动态的窗口。在公式(4),有条件的概率分布可以改写如下:

如果我们只引用一个高斯元素,它可以通过最大后验概率计算,如下所示:

如果帧是相互独立的,输入的帧,X存在公式(7);与此同时,帧的输出,Y存在公式(8):

在这里, 分别均值和协方差矩阵,计算使用以下两个公式:

在此基础上,我们可以获得输出序列使用最大似然准则,见公式(11), 方阵, 可以通过计算 连接鼻子到尾巴:

2.2。LSTM RNN的

递归神经网络(RNN)是一种以序列数据作为神经网络的输入数据和资源序列的时间域方向(20.]。在这个网络所有节点连接在一个链。RNN的优势是难忘的,参数共享,图灵完整性和明显优于GMM学习非线性特性。网络已广泛应用于语音识别,语音建模、功能转换等领域。

RNN的核心是有向图,循环单元完全连接。序列作为输入 ,并给出扩散长度 对时间步 ,复发性单位应被视为 在哪里h表示系统RNN的状态,年代表示内心的状态计算年代=年代(h,X,y),f代表激活函数,如物流和双曲正切函数,或者代表一种前馈神经网络。激发函数对应于简单的复发性网络,和前馈神经网络算法对应于一些深度。 权重系数在复发性单位。

我们把一个RNN包含一个隐藏层的例子;隐层向量序列 可以获得的

然后,输出序列 可以如下所示:

最初,逆误差传递算法在时间轴上采用更新参数,这将产生一些逆传输错误。所以梯度擦除和爆炸发生,这严重影响RNN的训练效果。为了减少上述问题,李et al。25]提出长期短期记忆(LSTM),包括非线性变换和闸门结构的感情功能。通过发展LSTM,结构提出了由铁砧和Kouki [26)组成的输入,输出门,忘记门。其中,输入门是用来控制转换处理接受信息记忆序列,如下所示:

在这里, 是乙状结肠函数和c是内存序列。忘记门是用来控制多少应该丢弃当前的内存信息,它的实现方法

记忆序列可以更新如下依赖输入和输出盖茨:

门的输出可用于规模输出序列,和详细的方法如下:

最后,我们可以获得 可以转移到RNN结果。

2.3。BiLSTM

双向长期短期记忆(BiLSTM) [18)是一种变体的传统神经网络和LSTM向前和向后LSTM。模型的输出可以表示为

让我们的意思 作为输出;也就是说,输出 直到多空序列到达BiLSTM层时,门结构开始采用通过乙状结肠和释放的信息,并输出是在0和1之间(1意味着完整的采用,0意味着完全丢弃)。理想的BiLSTM结构如图1

2.4。美国有线电视新闻网

卷积神经网络(CNN) (18)是一种前馈神经网络包含卷积操作,和它的模型结构一般包括输入层、卷积层、汇聚层,完整连接层和输出层。卷积层、汇聚层和完整连接层都可以视为隐藏层。其中,卷积的角色层进行特征提取,特征提取的输入层数据可以实现通过使用一组过滤器。具体方法如下所示:

在这里, 表示卷积内核, 表示卷积核的大小, 从坐标系表示发音特征向量 , 表示偏差值。因此,我们可以获得特征矩阵 通过卷积层计算。

使用max池技术,汇聚层可以downsample当地的特征矩阵,实现最优解的值。完整连接层位于最后一层隐层的和可以扩展特性图拓扑结构来激活函数。输出层使用逻辑函数或Softmax函数输出分类标签和预测价值。

3所示。方法

3.1。基于普鲁士转换议长正常化

因为扬声器的发音特点很容易受到使用者本身,包括他们声道特征,高度,和坐姿;这些因素是内在的扬声器之间的区别。为了消除这些固有的差异和更好的量化演讲的运动学特性,我们使用了普鲁士转换规范化不同扬声器的发音特征。具体处理如图2

该算法实现了从原始多点线性几何变换对象目标多点对象,包括尺度转换、翻译变换和旋转变换。据推测原始发音数据 ;然后正常化 ,和目标说话人的发音数据 使用混合变换组成的尺度变换和旋转变换,我们可以带之间的关系 如下: 的参数{正常化H,一个,b}可以优化依赖最小化目标数据之间的均方根误差 和原始的规范化数据演讲者的发音

具体而言,可以使用奇异值分解计算旋转矩阵,如下所示:

在这里, 是对角矩阵,UV是独立的正交矩阵,然后呢一个是对角矩阵对角线元素的绝对值是1。

3.2。BiLSTM-CNN-Based Articulatory-to-Acoustic转换

根据部分2.22.3,CNN有很好的提取局部特征的能力,和BiLSTM网络具有良好的性能在前一帧和语义连贯的特性基于word-attention机制(27]。本文结合CNN和BiLSTM和使用词的关注达到articulatory-to-acoustic转换理论,在BiLSTM发音功能和上下文信息分析使用火车连续帧,和word-attention层word-attention机制用于提取语义特征并将它们发送到BiLSTM进行训练。在后期,CNN是主要由卷积层,池层和完整连接层。最后,通过回归层声学特性输出。具体的模型结构如图3

如图3,LSTM细胞在每一层BiLSTM-CNN被分成前后两个部分来捕获依赖性,分别。在这种情况下,向前和向后清晰度特征序列都是10帧,每一帧的特征向量是8个维度,和语义特征是1维。因此,输入特征维度的特征融合层是169维度。在CNN的部分中,我们使用4完整连接层,与大小为128维卷积层,回归层。

4所示。实验和结果

4.1。材料
以下4.4.1。参与者

在这项研究中,参与者十男性和5女性(5)招募;都是25到40岁(平均年龄为27.1,性病是1.94),没有专业的语言培训和没有orofacial手术史(28]。在收集数据之前,所有受试者被告知收集数据并签署知情同意的过程。这项研究是健康科学研究伦理委员会的批准,中国科学院心理研究所(没有。H16012)。

4.1.2。文本材料

双音节词单词和句子的神经影响被选为文本材料。句子的神经文本材料被选为口语材料,包括“Xia4语le1。“(下雨),Jin1 tian1适xing1 qi1 yi1。“(今天是星期一。)”,Wo3 xiang3 gei3 ta1移个jing1 xi3。”(我想给他一个惊喜。),“Ni3 yuan2何来zai4 zhe4李”(这里你。)”Wo3 cuo4 le1。”(我错了),“Ni3 xue2 de1 zhen1 kuai4。”(你学的很快。),和“Wo3 men2适老急tong2 xue2。”(我们是老同学。)。

双音节词的词被选为口语材料,包括“妈妈”(妈妈),“再见”(再见),“天天”(日常),“大旗”(鼓励),和“你好”(你好)。

4.1.3。数据收集

所有发音数据和声学数据收集使用AG501 [29日卡斯腾斯]EMA设备(29日)(德国Lenglern)如图4,24发音通道和一个音频频道250赫兹和48千赫采样率。AG501广泛用于电磁articulography,它允许收集3 d的发音器官的运动精度高。

我们有粘6传感器( )细线左右乳突,鼻梁,和飞机携带的头咬收集和9传感器上下嘴唇,左和右唇角,上下门齿,和舌头,舌头,中期和舌头根(如图5)。所有受试者参与谈话大约5分钟后传感器连接到提供主题的机会熟悉口腔中的传感器的存在。

收集实验进行了在安静的环境中,最大50 dB的背景噪音。声学匹配电容麦克风EM9600收集的数据,数据收集和发音与声学数据同步。

4.1.4。数据处理和特征提取

收集到的数据加载到VisArtico,可视化工具过滤使用低通滤波器(截止20 Hz)。与此同时,发音数据纠正使用Cs5normpos工具头运动,它是一种工具在AG501 EMA控制系统。

VisArtico程序可以想象运动数据的计算,同时允许舌头运动参数。在这篇文章中,我们提取的八维发音特性如表所示1

在本文中,我们选择了299个样本的典范和句子,然后把200个样本作为训练数据和99个样本作为测试数据,分别。

4.2。模型的比较EMA-to-F2转换

EMA-to-F2实验,我们的表演GMM-based相比,RNN-based, BiLSTM-CNN-based方法。均方根误差(RMSE)赫兹和真实之间的预测采用F2作为评价指标参数。

作为一个经典的预测模型,GMM可以近似任何函数只要混合元素的数量就足够了。在这项研究中,我们选择了GMM 500高斯元素来准确地描述发音的联合概率密度函数的特性和声学特性。根据最大似然准则,获得了声学特性的条件概率的联合概率密度函数的近似计算声学特性和发音功能,和封闭的解决方案获得了最好的声学特性。结果如图6(图80帧数据为例)。

基于BiLSTM-RNN EMA-to-F2转换,21-frame输入窗口(10帧向前和10帧向后)已经被用于训练网络。我们有训练50迭代BiLSTM-RNN 100 5隐藏层和隐藏每个隐层单元。培训结果如图7,这说明RMSE以及训练数据的损失。随着迭代次数增加,RMSE之间真正的和预测数据和损失函数值下降。光学模型发生在48时代,损失函数值和RMSE达到最低,分别。

我们建议由BiLSTM BiLSTM-CNN, word-attention层,CNN(卷积层、汇聚层、完整连接层,和回归层)。CNN的部分,我们选择了大小的卷积层 ,4完整连接层,和一维回归层。BiLSTM部分,我们把5隐藏隐藏层100单位/隐藏层和采用21帧(10帧,1当前帧,和10帧向后)作为输入功能;与此同时,语义特征需要输入的BiLSTM特征融合和培训。在培训过程中,我们最初设置学习速率为0.005和固定的动量为0.8,最大50的时代。之后,我们可以发现BiLSTM-CNN比BiLSTM-RNN和GMM转换模型,和F2真值和预测值之间的比较,采用GMM, BiLSTM-RNN,和BiLSTM-CNN基于词的注意,所有图所示8

从图中,我们可以发现预测使用BiLSTM-CNN F2是最接近真值,并使用BiLSTM-RNN预测F2 BiLSTM-CNN更相似。此外,我们使用测试数据对GMM BiLSTM-RNN, BiLSTM-CNN基于词的关注;RMSE和相关系数r可以获得F2和表所示2

相关系数r被用于分析预测之间的相关特性和真正的功能使用皮尔逊积差相关法,这是一个方法来分析两个变量之间的线性关系。这里,人们猜测有两个数据库:发音功能的输入( )和声学特性输出( ),和数据库的大小n。因此,皮尔森相关系数可以被定义为 在哪里 代表样本特征的方法 显示th的值 ,分别。相关系数r能反映变量之间线性关系的强度信息集吗 ,从−1比1。如果 多维向量,向量的维数应该先降低,然后是应该进行相关分析。

在这项研究中,我们可以发现有很强的正相关性之间的预测和真正的特性在所有三个模型,表所示1。反过来,在细节中,相关性是BiLSTM-CNN > BiLSTM-RNN > GMM。

4.3。模型的比较EMA-to-MFCC转换

在EMA-to-MFCC实验中,我们采用了MMCD作为参数来评估articulatory-to-MFCC转换的结果,它可以被定义为平均值之间的欧几里得距离预测价值和真正的价值。在这里,我们使用的十二MFCC的声学特征和性能GMM-based相比,RNN-based, BiLSTM-CNN-based方法。

在实验中,我们选择了GMM 500高斯元素来准确地描述发音的联合概率密度函数的特性和声学特性。BiLSTM-CNN,我们设置了卷积层的大小 ,4完整连接层、一维回归层和5隐藏隐藏层100单位/隐藏层和采用21帧(10帧,1当前帧,和10帧向后)作为输入功能。

在培训过程中,我们最初设置学习速率为0.005和固定的动量为0.9,最大60时代。然后,我们可以发现BiLSTM-CNN比BiLSTM-RNN和GMM转换模型,并比较结果如表所示3

从表中,MMCD BiLSTM-CNN至少在三个模型,和BiLSTM-RNN比GMM但不是比BiLSTM-CNN更好。与此同时,我们可以发现之间有很强的正相关性和真正的特性在所有三个模型预测;反过来,在细节中,相关性是BiLSTM-CNN > BiLSTM-RNN > GMM。

5。讨论和结论

这项研究提供了一个新的转换方法结合BiLSTM, CNN, word-attention理论。在最近的研究中,特征的舌头和嘴唇AG501已提取的3 d坐标转换和识别研究和声学特性(即。,F2和MFCC)。

从转换研究中,我们发现,舌头和嘴唇的运动学可以构造一个简单的图,发现从应用程序的CNN,因为CNN已被广泛用于图像信号处理。与此同时,因为我们使用的数据库是普通话,作为一种声调语言,语义特征在语音处理中起着重要的作用,尤其是在articulatory-to-acoustic转换和语音识别。所以,我们采用word-attention理论在这项研究中,取得了理想的效果,这证明了语义特征有助于转换研究尤其是普通话。

当前的研究打破了限制只专注于元音和融合语义特征和发音功能。由于样本数量的限制,我们选择299双音节只有摘要;样本容量有点小,这将被认为是在未来的努力。本文研究的地下室应该语音识别和语音的研究生产。它可以促进人工智能和智能的融合未来的校园。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

我们应感谢所有受试者在目前的实验中,为技术援助Guicheng Shao,坚美傅模态设计,Jianzheng和李董协助数据收集。这项工作得到了中国山西省教育改革创新项目(J2019174),忻州师范大学科技工程(2018 ky15),和学术领袖忻州老师大学的项目。