文摘

随着信息技术的发展,频带扩展技术正逐渐应用到大学英语听力教学。这项技术的目的是恢复宽带语音信号从窄带语音信号频带有限。然而,由于当前语音设备和通道的限制条件下,现有的语音频带扩展技术往往忽略了音频的高频和低频的相关性,导致过度平滑的高频频谱中恢复过来,太主观听力,表达能力不足。为了解决这个问题,神经网络模型PCA-NN(主成分analysis-neural网络)提出了基于主成分图像分析。基于音频图像信号的非线性特征,模型减少了高维数据的维数和实现的有效恢复高频详细的音频信号在相空间频谱。结果表明,PCA-NN,即。,neural network based on principal component analysis, is superior to other audio expansion algorithms in subjective and objective evaluation; in log spectrum distortion evaluation, PCA-NN algorithm obtains smaller LSD. Compared with EHBE, Le, and La, the average LSD decreased by 2.286 dB, 0.51 dB, and 0.15 dB, respectively. The above results show that in the image frequency band expansion of college English listening, the neural network algorithm based on principal component analysis (PCA-NN) can obtain better high-frequency reconstruction accuracy and effectively improve the audio quality.

1。介绍

英语听力测试是英语水平测试的一个重要组成部分,在英语学习中起着重要的作用。然而,由于现有的语音采集设备的局限性,声音回放设备,和通信条件下,有一些问题在英语听力音频,声音质量差和自然损坏等产生巨大影响英语听力的学习和评价(1]。因此,如何提高英语听力的声音质量通过现有的技术手段已经吸引了越来越多研究者的关注。目前,由于信道带宽的局限性,编码模式,成本,和其他因素在通信网络,英语听力音频信号只能保留低频部分(0.3 kHz - 3.4 kHz)传输(2]。高频信号的缺乏直接导致音色的还原,自然,清晰,和音频信号的清晰度,使声音低,降低了原始自然语言的表达能力;这让听者无法区分类似的辅音,导致英语听力认知能力的下降。背景下,现有的通信系统和通信网络难以在短时间内大大提高和更新,恢复和扩大的频带扩展技术高频部分失去了由于通信系统中信道带宽等因素具有重要现实意义的整体音质改善英语听力音频和学生的学习经验。

音频信号频带扩展技术手段人为地添加某些频率信息重构宽带音频在接收端通过分析原满带音频的信号特征而不影响网络传输和宽带信号源编码,以恢复其高频频带分量,提高听觉质量和繁殖ultrawide音频(3]。传统的音频频带扩展方法是基于统计声学模型。它使用高斯混合模型(GMM)之间的映射关系来描述低频声学特性和高频声学特性。这样,将会有不足等问题建模精度和平滑重建的高频频谱4]。随着信息技术的发展,神经网络模型与深层结构吸引了研究人员的兴趣。与传统的高斯混合模型相比,神经网络具有更好的建模能力的非线性特性之间的关系。虽然频带的方法基于神经网络可以有效地预测和恢复高频频谱包络和频谱细节,现有的模型通常使用光谱移动和光谱折叠的方法恢复详细的光谱,忽视之间的相关性高、低频率的音频,不遵循音频信号的进化规律本身,而忽视研究非线性系统生成的音频信号。这也导致光谱失真的音频信号中恢复过来。与此同时,现有的模型只适用于低维数据建模和模型很难高维原始频谱信封或振幅谱特性,这将导致过度平滑的高频频谱中恢复过来,太主观听力,表现力不足。为了解决这个问题,神经网络模型(主成分analysis-neural网络(PCA-NN))提出了基于主成分图像分析。从音频信号的非线性特征,模型减少了高维数据的维数和实现的有效恢复高频详细的音频信号在相空间频谱。

为了解决问题的弱表达,低可认可,和频谱失真引起的现有英语听力音频频带扩展技术,本文研究和提出了一种基于主成分图像分析的神经网络算法,旨在有效地恢复高频详细的音频信号通过现有的技术手段和完整的英语听力乐队的扩张,提高英语听力的整体音质音频和学生的学习经验。节1简要解释说,英语听力带扩张的研究背景和意义,介绍了本文的整体框架和内容安排。部分2简要描述了音频频带展宽技术的研究现状,讨论了在这个领域需要解决的问题,并使总体介绍本文的研究工作和研究方法。部分3首先介绍了模型框架PCA-NN基于主成分图像分析,然后基于PCA-NN扩大英语听力带模型。节4通过应用程序的比较实验,应用PCA-NN模型的可行性进行了研究。部分5简要总结了本文的主要结论。

为了获得明亮的和富有表现力的音频服务,许多研究人员做了很多工作如何使宽带音频系统获得主观听觉。作为最有效的语音增强方法,带扩张人为地增加了高频分量的重构信号译码器在不改变源编码和网络传输,从而实现信号带宽的扩张(5]。基于这个想法,相关学者已经提出了很多带频谱包络和频谱的扩展解决方案从两个方面的细节。1994年,李等人提出的方法使用统计复苏预测高频频谱函数,它初步改善重建音频的质量(6]。同年,联合码书的帮助下低频特性和高频特性的谱包络来模拟它们之间的一对一的映射,Aboelmaged等人提出了一种基于码书的包络谱估计方法映射(7],它减少了变形后的音频频谱扩张在一定程度上。在此基础上,其他学者提出了插值,和柔软的决定,分裂速率映射(8)减少光谱畸变引起的单速率。2000年,姚明等人提出了一个包络谱估计方法基于高斯混合模型(9]。使用GMM估计的联合概率密度高,低频特性,高频频谱包络估计是最小均方误差的原则下实现的。此外,Migenda等人和通用电气等,分别使用远期神经网络估计高频频谱包络(10,11]。编织等人相比,远期映射网络方法引入映射方法。结果表明,在音频质量没有显著差异在两个方法之间,而远期神经网络方法的计算复杂度显著降低(12]。这些方法专注于探索高、低频率之间的关系在当前音频帧,专注于光谱的静态特征的显示。古普塔等人利用隐马尔可夫模型的时域动态演化模拟音频频谱包络(13)和帧间相关性引入频谱包络估计。然而,由于该方法只使用离散状态来模拟实际的音频频谱的时间演化,还有动态重建音频失真。

神经网络技术的兴起,频带扩展技术基于神经网络也推出了一个接一个。风扇等人使用浅多层感知器神经网络,但其改善效果不明显14]。彭等人应用浅随机网络模型高度非线性映射的窄带语音特性和高频语音特征参数之间的关系。这种方法可以更好的保护和重建高频频谱的细节15]。Hassib等人提出了简化参数带宽扩展(SPBE)高频重建技术,其重点是分析高频部分和低频评分之间的相关性(16]。李等人使用HBE方法延伸低频光谱信息来获得高频频谱细节。然而,存在着巨大的差距重建光谱形状和高端组件之间的原始音频(17]。选择合适的神经网络预测信号产生的非线性系统可以实现高精度和准确地恢复高频频谱特征。

总之,虽然许多学者做了大量的工作在音频带扩张和现有的方法可以有效地预测和恢复高频频谱包络谱的细节,他们忽略高频和低频音频之间的相关性和音频信号的非线性,使得恢复音频信号的频谱容易失真。同时,现有的模型只适用于低维数据建模和模型很难高维原始频谱信封或振幅谱特性,这将导致恢复高频频谱过度平滑,主管的听感觉太枯燥,它是不足的表达式。针对这个,PCA-NN,基于主成分图像分析的神经网络模型,提出了。从音频信号的非线性特征,模型减少了高维数据的维数和实现的有效恢复高频详细的音频信号在相空间频谱。

3所示。频带扩展大学英语听力的基于主成分图像Analysis-Neural网络(PCA-NN)算法

主成分分析可以被定义为低维线性空间上的正交投影数据,也就是主要的子空间,所以投影数据的方差最大化,即最大方差理论。同样,这也可以被定义为一个线性投影最小化平均投影成本,即最小误差理论。平均投影成本指的是平均平方数据点之间的距离,他们的预测。

3.1。基于主成分分析的神经网络模型(PCA-NN)

主成分图像分析(PCA)方法,揭示了内部和大样本多变量指标之间的关系。它利用降维的思想来简化多个指标转化为少数综合指标,以减少加工样品的尺寸,确保获得最重要的信息(18]。假设原始变量指数 和它的主要组件 ,

在公式(1), 被称为第一、第二、…、n原始变量的主成分指标 是线性无关的。基于主成分图像分析的神经网络结构如图1

从图可以看出1主成分图像分析后,n选择主成分代表原始数据作为神经网络的输入信息。网络结构包括三个部分:输入层、隐藏层和输出层。神经网络的输入向量

在方程(2), ,在哪里h代表学习模式对的数量,也就是说,许多组数据。期望的输出向量对应的输入模式

中间隐层的净输入向量表示为

输出向量表示为

在方程(5),P是在隐藏层细胞的数量,网络输出层的输入向量表示为 ,和实际的输出向量表示为 连接的重量从输入层到隐层表示为

连接的重量表示为隐层到输出层

流的描述基于主成分图像分析的神经网络算法如图2

从图可以看出2的主要流基于主成分图像分析的神经网络算法首先需要正常化原始数据(19之间),将所有的原始数据转换成值(0 - 1),并计算相关系数矩阵:

在公式(8),r是原始变量之间的相关系数,其计算公式是什么

然后,计算特征向量和特征值,和情形 是解决。雅可比矩阵特征值,得到的方法并根据它们的大小顺序排列,即 特征向量 对应的特征值 分别获得的,需要吗 图像主成分贡献率和累积贡献率计算。主成分贡献率的计算公式

累积贡献率的计算公式

通过反复实验,确定最佳的累积贡献率。最后,n得到主成分,n主成分是输入到神经网络,对一个学习模式 随机选择提供到网络中。网络隐层神经元的输出和输入计算,计算公式如下:

的实际输出和净输入输出层中的每个神经元计算,计算公式如下:

根据给定的预期输出,校正误差计算输出层中的每个神经元。计算公式是

随机选择一双学习模式提供网络,直到所有学习模式对已经完成了培训。它是判断全球网络错误E满足精度要求, 如果它满足算法的需求,它将结束;如果没有,它将继续下去。

在方程(15),d培训时间, 培训的输出oth培训, 的期望输出值吗o培训。最后,更新网络学习时间。如果小于指定的时间,周期是持续的;如果指定的次数,它结束了。

3.2。乐队扩张的大学英语听力基于PCA-NN模型

详细的光谱特性的音频直接确定音频的音色特点。传统音频频带扩展技术忽略了相关性高、低频率的音频和音频信号的非线性系统,导致频谱失真和穷人的听觉效果恢复音频信号(20.]。要解决这些问题,本章从音频信号的非线性,使用PCA-NN模型有效地恢复高频详细的音频信号在相空间频谱。其基本原理如图3

3显示带扩张的大学英语听力的基本原理基于PCA-NN模型。首先,我们输入未展开的音频采样率的16赫兹和7赫兹的带宽。上面的两个抽样过程和低通滤波后,信号分为帧的汉明窗重叠显示帧长度的50% 20 ms, MLT(调制研磨转换)的调制重叠汉明窗获取MLT参数执行 ,低于7 kHz。这些参数分为7部分波段根据40个频率点的每个部分波段,然后MLT参数部分波段包膜获得低频详细的光谱参数 ,当前帧,然后用于提取主成分图像分析方法详细的光谱参数降维的目的,然后,一维相空间参数的频域音频序列的每一帧计算通过使用相空间重建算法,并实现宽带频率序列的相空间重构(21]。

后实现音频域序列的相空间重构,PCA-NN用于健康和预测的非线性系统。在图3 (b),空间初步安装基于低频阶段分和详细的光谱参数最接近低频和高频域序列预测。在预测过程中,预测的新阶段点构造频域序列不断引入原始网络的训练,可以有效地预测随后的高频域序列而丰富网络训练样本。具体的预测步骤如下:(1)280 MLT参数得到每一帧的宽带音频信号传输,和 点是通过相空间重构阶段。(2)嵌入维度的相空间是用来确定网络的输入层的神经元数,输出层神经元的数量设置为1时,用于预测高频系列。(3)相点 通过相空间重建作为输入层信号降维后的主成分图像提取。下一个MLT价值 最高的空间组成部分点作为每个阶段所需的输出层信号。PCA-NN训练算法来训练网络。因此,网络权值 V得到了。(4)的最后阶段 低频MLT序列作为输入和输出的价值PCA-NN用于第281 MLT价值估计,以重建一个新的阶段 新阶段的点和最初的低频阶段点引入神经网络的训练同时,重复这一步,直到所有高频传输系数都预测,以便扩大高频频谱。

4所示。神经网络算法的应用效果研究基于主成分图像分析在大学英语听力带扩张

4.1。乐队扩张对大学英语听力测试基于PCA-NN模型

为了测试PCA-NN模型的扩张能力的大学英语听力音频,本文选择一段英语男声的音频和男性标准音频的音频信号评价扩张试验(22]。首先,英语的表达了采样频率的男性声音是32 kHz,和它的原始声音信号波形和光谱图如图4(一)4 (b),分别。

扩大后的音频频带通过PCA-NN模型,得到的波形和声谱图扩展音频,如图5(一个)5 (b),分别。

5显示了对音频信号的男孩用英语使用PCA-NN模型后扩张。可以看出高频频谱更清晰和更丰富的细节后扩张和高频频谱能量的变化趋势是保持而有效地恢复高频频谱的细节。

为了测试PCA-NN模型的适应性,选择一段英语男声的标准音频的音频信号评价扩大测试。音频采样频率是48 kHz。原始声音信号的波形和频谱图所示6(一)6 (b),分别。

扩大后音频频带通过PCA-NN模型,扩展了音频的波形和声谱图,如图7(一)7 (b),分别。

7显示了标准音频信号的男孩用英语获得扩张后使用PCA-NN模型。可以看出高频频谱更清晰和更丰富的细节后扩张和高频频谱能量的变化趋势是保持而有效地恢复高频频谱的细节。

这两组测试实验的结果表明,PCA-NN模型提出了具有良好适应性表示音频和音频标准英语听力。结果可以满足预期的需求扩展频带,扩张后,音频质量在一定程度上改善。

4.2。PCA-NN模型之间的性能比较和主流音频频带扩展模型

在本节中,PCA-NN详细的光谱非线性预测算法相比,本文将与现有的主流频带扩展算法从主观、客观,并记录光谱失真(LSD)的角度来评估,音频信号是摘自大学英语听力音频。

客观评价标准采用PEAQ测试工具设计基于ITU-R bs。1387 - 1标准。测试是一个音频质量感知评价国际电信联盟提出的算法。其主要评价参数是目的不同年级(ODG)。ODG的值范围是0∼4。得分越低,音频效果越好;每0.1 ODG得分下降表明,音频质量明显改善。在评价过程中,本文比较了性能与当地自适应非线性预测方法(本地适应性),连接推断勒(线性外推),和有效的高频频带扩展算法EHBE(高效的高频频带扩展)23- - - - - -25]。我们选择5个不同的英语听力材料作为音频评估对象和获得扩展的ODG分数音频通过客观评价,如图8

从客观评价图8可以看出,nondetailed频谱得分PCA-NN算法基于主成分图像分析的结果提出了优于其他主流算法。PCA-NN可以更好地提高音频质量扩大英语听力的音频频段。

在主管测试中,主观偏好听觉测试方法(A / B测试)。同样,五个不同的英语听力材料选择评价音频对象。测试人员需要选择首选的超宽频音频通过两个扩展算法,两者之间几乎没有区别。在这篇文章中,9人选择主管测试,测试结果如图9

9横坐标代表PCA-NN和其他主流音频扩张算法,纵坐标代表了每个算法的测试结果。从主观评价图9后,可以看出,音频带扩张基于PCA-NN有明显的声音质量改进和被很多人喜欢与其他算法的扩展的音频。

日志中频谱失真测试,所选的测试数据应与原super-bandwidth音频在时域,重新取样32 kHz,整个LSD数据作为客观质量测量(26]。测试结果如图10

10横坐标代表PCA-NN和其他主流算法,纵坐标代表日志每个算法的频谱失真测试结果分数。从日志频谱失真测试结果图10,它可以看出PCA-NN算法可以获得较小的迷幻药三个不同的大学英语听力音频。因此,PCA-NN可以获得更好的高频重建精度。与EHBE相比,勒勒,LSD平均减少了2.286 dB, 0.51 dB,分别为0.15分贝。

5。结论

扩张现有的音频技术忽略了相关性高、低频率的言论,导致过度平滑的高频频谱中恢复过来,太主观听力,表现力不足,等等。在本文中,基于主成分图像分析的神经网络模型(PCA-NN)提出。从音频信号的非线性特征,模型减少了高维数据的维数和实现的有效恢复高频详细的音频信号在相空间的频谱。结果表明,基于主成分图像分析PCA-NN比其他音频扩张算法在主观和客观评价。日志中频谱失真评价,PCA-NN算法获得较小的迷幻药。与EHBE相比,勒拉,LSD平均减少了2.286 dB, 0.51 dB,分别和0.15分贝。因此,在乐队扩张的大学英语听力音频,PCA-NN基于主成分图像分析算法可以获得更好的高频重建的准确性,有效提高音频质量,提高听众的听觉感受。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由一流的学科建设宁夏高校(教育学)(批准号NXYLXK2017B11)。