用于低比特率语音编码的固定位置脉冲线性预测编码声编码模型

摘要

基于多脉冲线性预测编码（MP-LPC）的任意位置脉冲确定算法该算法可以在不使用综合分析的情况下，根据给定的脉冲位置，一次确定各脉冲的幅值，从而保证脉冲在最小二乘意义上是最优的，为提高合成语音的质量提供了理论基础。编码（FLP-LPC）该方法基于任意位置脉冲确定算法，在MATLAB中对该算法进行仿真，结果表明，利用不同位置的脉冲合成语音，并采用任意位置脉冲确定算法进行处理，在不影响编码质量的前提下，提高了语音质量ime，约为MP-LPC编码时间的1.5%。FLP-LPC中的脉冲位置是固定的，不需要传输，只有LSF、增益和16个脉冲幅度需要编码和传输。FLP-LPC允许以2.5 kbps的速率生成类似于G.729编码语音的合成语音。

1.介绍

语音编码作为交流思想最常见的方式之一，多年来一直是广泛研究的主题[1- - - - - -4]．在移动通信系统中，随着用户数量的爆炸性增长，电话流量的急剧增加导致分配给每个语音信道的带宽有限。

在通信系统中，合成语音的质量和编码速率是相互矛盾的因素。参数编码主要研究和提取声道模型和激励的参数，能够以低于4kbps的比特率合成语音。合成语音虽然听起来不自然，但仍可理解。参数编码包括对偶激励线性预测、混合激励线性预测(MELP) [5[McCree and Barnwell, 1995]，波形插值(WI) [6，正弦变换编码(STC) [7]，以及多波段激励（MBE）[8]．混合编码可以在4 ~ 16kbps的编码速率下获得较好的合成语音质量，适用于不同的领域。混合编码包括多脉冲线性预测编码(MP-LPC) [9]及编码激励线性预测[4，10]．

MP-LPC是一种典型的综合分析线性预测编码(ABS-LPC)方法，其中选取数十个脉冲作为激励信号[11]．MP-LPC可以在低编码速率下获得较好的合成语音质量;但它的脉冲判定算法比较复杂。MP-LPC通过简化激励脉冲的振幅和位置得到改进。在规则脉冲激励线性预测编码(RPE-LPC) [12，等频脉冲被用作激励信号。因此，只需要确定和传输脉冲的振幅和第一个脉冲的位置。在多脉冲最大似然量化(MP-MLQ) [13]时，脉冲的位置可以是全奇或全偶，脉冲的振幅可以是符号(±1)。在RPE-LPC和MP-MLQ中，脉冲的位置或位置和振幅变得更有规律，需要传输的信息更少。在本文中，我们提出了一种基于传统MP-LPC的任意位置脉冲确定算法。在该算法中，脉冲位置可以任意分配，而不需要通过综合分析程序进行搜索。这些具有任意位置和最佳振幅的脉冲可以产生接近于最小二乘意义上的原始语音。在任意位置脉冲确定算法的基础上，提出了一种固定位置脉冲线性预测编码(FLP-LPC)方法。该算法能在较短的编码时间内合成质量较好的语音。FLP-LPC不仅可以得到高质量、短编码时间的合成语音，而且可以降低编码速率。

2.MP-LPC

对于长度的讲话框架N，米用脉冲作为激励信号表示为，在哪里和振幅和位置是kMP-LPC的关键是确定和最小化原始语音和合成语音之间的感知加权误差。

对应的合成语音信号为在哪里是表示前一帧效果的线性预测(LP)滤波器的零输入响应，以及为LP滤波器的单位脉冲响应。

之间的误差和是在哪里为不受前一帧影响的等效语音，即LP滤波器滤波后的激励信号。被感知加权过滤器过滤在哪里为感知加权滤波器的单位脉冲响应。感知加权均方误差是

MP-LPC的主要思想是最小化通过选择适当的和在激励信号中。通过设置的偏导数为零,米线性方程,米可以得到非线性方程。解决这两个米每次的方程都很复杂。因此，在MP-LPC中，采用了一种顺序的方法来确定每个迭代中一个脉冲的振幅和位置。后米迭代，振幅和位置米脉冲可以被确定。的的jTh脉冲是使下列公式最大化的位置:

下一个是根据上述决定如下: 在哪里

3.任意位置脉冲确定算法

由此可见，MP-LPC的主要思想是确定和对于，这是

上面的米方程可以简写为在哪里

可以推断出将保持不变一次在搜索开始时确定(即使是任意分配)。因此,公式(10)可视为一个线性系统。如果和为非奇异，则线性系统(10)有唯一解。然而，在大多数情况下而且系统是过度确定的，可能不一致；因此，它并不总是有唯一的解决方案。断定这就相当于找到一个最小二乘解(10)：

可确定上述线性系统的最小范数最小二乘解H⁺，的Moore–Penrose广义逆H［14］

Moore-Penrose广义逆的计算方法有以下几种:正交投影法、正交化法、迭代法和奇异值分解法[14]．

激励信号中脉冲的位置可以任意分配，这对(10)任意位置脉冲确定算法的过程可总结如下。

步骤1。分配脉冲位置，任意。

步骤2。计算单位脉冲响应矩阵H．

步骤3。计算脉冲振幅矢量：．

脉冲在激励信号中的位置对(的最小范数最小二乘解的存在没有影响10)；也就是说，无论脉冲位置如何，合成语音始终可以在最小二乘意义上接近原始语音。此外，脉冲位置的传输将增加编码速率，导致带宽浪费。如上所述，对于不同的语音帧，脉冲位于固定位置，但具有不同的幅度因此，我们提出了一种只对脉冲幅度和LPC参数进行编码而不需要对脉冲位置进行编码的方法，这种方法称为固定位置脉冲线性预测编码。

4.结果

4.1.任意位置脉冲确定算法的性能评估

为了测试不同脉冲位置组合对所提出的任意位置脉冲确定算法处理合成语音质量的影响，对来自5个不同说话人的5段相同内容的语音进行了分析。采样频率为8000 Hz。五个部分共813个帧，每个帧包含160个样本。对50次实验中的语音帧进行分析，任意选择脉冲的位置;然后利用所提出的任意位置脉冲确定算法计算所有脉冲的振幅。

不同位置的脉冲以及每个脉冲为同一语音帧生成的合成语音如图所示1．残差信号和原始语音如图所示1(一)和1 (b)分别地为了与顺序法进行直接比较，在任意位置脉冲确定算法和顺序法中使用相同的脉冲位置。通过顺序法和任意位置脉冲确定算法（在相同位置但振幅不同）获得的激励信号如图所示1 (c)和1（e），对应的合成语音如图所示1 (d)和1（f）．这两种方法都能生成接近于原始语音的合成语音，信噪比分别为17.1471和19.9547，表明该方法优于顺序法。这里信噪比定义为在哪里和分别为原始语音信号和合成语音信号。数据1（g）- - - - - -1 (p)给出了在不同位置用5串脉冲合成的语音信号，说明了该方法比顺序法获得的信噪比更好。实验结果表明，利用不同位置的脉冲可以获得高质量的合成语音，并利用该方法计算了合成语音的幅值。进行的40650次试验的平均信噪比为19.2937。序列法的平均编码时间为0.1224，本文方法的平均编码时间为0.0019，仅为序列法编码时间的1.55%。

(一)

(b)

(c)

(d)

(e)

（f）

（g）

（h）

(我)

(j)

(k)

(左)

(m)

(n)

(o)

(p)

对于上述演讲，对所有的演讲框架进行了50次试验。在每次试验中，提取任意位置的8、10、12、14、16、18、20、22、24、28和32个脉冲，并使用所提出的算法计算振幅。结果如图所示2，这表明盒高降低，中位数增加(图2(一个)）.所有试验的平均信噪比都随着脉冲数的增加而增加，标准差也随着脉冲数的增加而减小，这表明脉冲数越多，求解过程越稳定，所分配的脉冲位置的影响也越小。正如Ma等人所提到的[15]，对于一定的语音帧，当脉冲数达到一定值时，脉冲数的持续增加并不能提高合成语音的质量。在本算法中，当脉冲数达到一定值时，H的秩没有随之增加，对求解振幅的贡献也不明显。不同脉冲数的平均编码时间如图所示2（b）．脉冲数的增加导致平均编码时间的逐渐增加。32个脉冲的平均编码时间为0.0028 s，低于顺序法的0.1224 s。不同脉冲数的激励信号和同一帧语音的合成语音如图所示3.．结果表明，合成的语音与原始语音接近，具有较好的信噪比。数据2和3.表明当脉冲数大于16时，合成语音的质量以不明显的方式提高。

(一)

(b)

(一)

(b)

(c)

(d)

(e)

（f）

（g）

（h）

(我)

(j)

(k)

(左)

(m)

(n)

(o)

(p)

4．2．FLP-LPC性能评估

4.2.1。准备非量化FLP-LPC的性能评价

在该方法中，脉冲的位置可以任意分配，不需要使用算法计算。因此，固定位置但幅度不同的脉冲可以用作每个语音帧的激励信号。提出的方法和序贯方法[11]，用于处理来自中国中央电视台新闻广播(2534.3950 s)的男女相同的语音，使用国际电联标准P.862规定的PESQ_MOS和信噪比评价语音质量。平均信噪比和PESQ_MOS作为脉冲数的函数如图所示4．

(一)

(b)

与MP-LPC相比，FLP-LPC获得的语音更自然、更易理解。MP-LPC和FLP-LPC的平均信噪比和PESQ_MOS随脉冲数的增加而增加，但当脉冲数大于18时，其增加不显著。

4.2.2.FLP-LPC编码方案及性能评估

目前的结果表明，对于20ms的语音帧，16个脉冲足以产生高质量的合成语音。因此，在FLP-LPC的编码方案中，16个均匀分布的脉冲被用作激励信号。首先，对脉冲幅度进行归一化，然后对增益和归一化幅度进行编码oded参数为LSF、增益和脉冲幅度。LSF和归一化幅度采用多级矢量量化，增益采用4位量化。FLP-LPC的具体位分配如表所示1．


参数	位

LSF	18
获得	4
脉冲振幅	28
总计	50

测试演讲包括20组样本，分别来自两名男性和两名女性，样本频率为8000赫兹。录音中还有背景噪音，如门的吱吱声和汽车的噪音。测试演讲稿包括一个数据库，该数据库由83名男性和83名女性的1560句话组成，内容选自《人民日报》。使用FLP-LPC、G.723.1和G.729对这些speech进行编码，计算PESQ_MOS值，如表所示2．FLP-LPC合成的语音质量与G.729生成的语音质量相近，且优于G.723.1，编码速率为2.5 kbps。


编码方法/标准	编码率(kbps)	PESQ_MOS

FLP-LPC	2.5	3.731
G.723.1	5.3	3.497
G.729	8	3.765

5.结论

为了解决MP-LPC算法存在的问题，本文提出了一种任意位置脉冲确定算法。该算法在任意给定脉冲位置的前提下，通过求解线性方程组来确定脉冲幅值。该线性系统的最小范数最小二乘解的存在性不受激励信号中脉冲位置的影响。在不同的语音帧中进行的测试表明，不同位置的脉冲组合可以作为激励信号合成高质量的语音，比传统的顺序法得到的效果更好。顺序法每次确定一个脉冲，这就保证了所添加的脉冲在每次迭代时都是最优的，而不保证所有迭代后的脉冲组合都是最优的。在该算法中，每次确定的脉冲组合在最小二乘意义上是最优的，为保证合成语音的质量提供了理论依据。该算法不增加编码时间以提高合成语音质量，仅为MP-LPC编码时间的1.5%。为了研究脉冲数对合成语音质量的影响，对同一帧语音计算了不同脉冲数的激励信号。结果表明，16个脉冲足以产生20毫秒长的语音。

在改进的MP-LPC方法中，如RPE-LPC和MP-MLQ，脉冲的位置或振幅或两者都变得更有规律，以减少要传输的激励信号上的信息。FLP-LPC进一步降低编码率。该方法的前提是最小二乘意义下的脉冲矢量与激励信号中脉冲的位置无关。在FLP-LPC中，脉冲的位置是固定的，只需要通过任意位置的脉冲确定算法来确定脉冲的振幅。该脉冲位置不需要编码或发送，在不影响合成语音质量的情况下降低了编码率。结果表明，使用FLP-LPC合成的语音的信噪比和PESQ_MOS均高于MP-LPC合成的语音。此外，我们还提出了一种脉冲均匀分布的FLP-LPC编码方案。FLP-LPC可以在2.5 kbps的编码速率下合成与G.729相似、优于G.723.1的语音质量。综上所述，FLP-LPC可以在较短的编码时间内合成高质量的语音，降低编码率;然而，它的缺点是计算Moore-Penrose广义逆需要更大的内存。

数据可用性

用于支持本研究结果的语音数据由中文语言数据联盟授权提供，因此不能免费提供。如需查阅这些数据，请联系孙孟毅(service@chineseldc.org)。

的利益冲突

作者宣称他们没有相互竞争的利益。

致谢

教育部人文社会科学研究项目(18YJCZH129);山东省自然科学基金(ZR2014FL005);滨州学院科研基金项目(2016Y29)。

参考文献

F. Lahouti, a . R. Fazel, a . H. Safavi-Naeini，和a . K. Khandani，“使用基于格的量化方案的语音LPC参数的单帧和双帧编码”，IEEE音频、语音和语言处理交易第14卷第2期5、2006年。视图:出版商的网站|谷歌学术搜索
A. Mouchtaris, K. Karadimou，和P. Tsakalides，“斑点麦克风信号低比特率编码的多分辨率源/滤波器模型”，EURASIP音频、语音和音乐处理杂志， 2008, vol. 2008, pp. 1-16。视图:出版商的网站|谷歌学术搜索
M. Deriche和D. Ning，“一种利用扭曲线性预测模型和离散小波变换的新型音频编码方案”，IEEE音频、语音和语言处理交易第14卷第2期第6页，2039 - 2048,2006。视图:出版商的网站|谷歌学术搜索
N.Ku，C.Yeh和S.Hwang，“ACELP语音编码器的高效代数码书搜索，”EURASIP音频、语音和音乐处理杂志， 2014年第5期。1, 2014。视图:出版商的网站|谷歌学术搜索
A. V. McCree和T. P. Barnwell，“用于低比特率语音编码的混合激励LPC声码器模型”，IEEE音频、语音和语言处理交易，第3卷，第2期。4，页242-250,1995。视图:出版商的网站|谷歌学术搜索
W. B. Kleijn，《使用原型波形编码语音》，IEEE音频、语音和语言处理交易， vol. 1, no. 14，第386-399页，1993。视图:出版商的网站|谷歌学术搜索
R. J. Mcauly和T. F. Quatieri，《基于正弦表示的语音分析/合成》，IEEE信号处理汇刊第34卷第3期4，第744-754页，1986。视图:出版商的网站|谷歌学术搜索
D. W. Griffin和J. S. Lim，“多频带激励声码器”，IEEE信号处理汇刊第36卷第2期8，第1223-1235页，1988。视图:出版商的网站|谷歌学术搜索
BS。Jr Atal，“Remde，一种用于低比特率产生自然语音的LPC激励新模型”，inIEEE声学、语音和信号处理国际会议论文集，第614-617页，法国巴黎，1982年。视图:谷歌学术搜索
M. Schroeder和B. Atal，“编码激励线性预测(CELP):在非常低比特率下的高质量语音”IEEE声学、语音和信号处理国际会议论文集，第937-940页，美国佛罗里达州坦帕。视图:出版商的网站|谷歌学术搜索
S. Singhal和B. S. Atal，“多脉冲编码器的振幅优化和音调预测”，IEEE信号处理汇刊，第37卷，第2期3，第317-327页，1989。视图:出版商的网站|谷歌学术搜索
P.Kroon，E.F.Deprettere和R.J.Sluyter，“规则脉冲激励——有效和高效的语音多脉冲编码的新方法，”IEEE信号处理汇刊第34卷第3期5，第1054-1063页，1986。视图:出版商的网站|谷歌学术搜索
S-W.Yoon、H-G.Kang、Y-C.Park和D-H.Youn，“G.723.1和G.729A语音编码器的高效转码算法：移动和IP网络之间的互操作性，”言语交际，第43卷，第1-2号，第17-31页，2004年。视图:出版商的网站|谷歌学术搜索
Serre博士,矩阵:理论与应用，第216卷，共页毕业数学课本，斯普林格，纽约，纽约，美国，2002年。视图:数学网
马振中，曹勇，臧建军，“MPLPC激励脉冲抽象算法研究”，载2009年计算智能与设计国际研讨会论文集，ISCID 2009，第489-492页，中国，2009年12月。视图:谷歌学术搜索

工程数学问题

摘要

1.介绍

2.MP-LPC

3.任意位置脉冲确定算法

4.结果

4.1.任意位置脉冲确定算法的性能评估

4．2．FLP-LPC性能评估

4.2.1。准备非量化FLP-LPC的性能评价

4.2.2.FLP-LPC编码方案及性能评估

5.结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章