基于多尺寸扩张卷积网络的双耳语源定位的自适应方法

摘要

大多数双耳语音源定位模型在噪声和混响前所未有的情况下表现不佳。在这里，这个问题是通过建模一个多尺度扩张卷积神经网络(CNN)。在扩张卷积网络的不同分支中分别对时间相关互相关函数(CCF)和能量相关耳间水平差(ILD)进行预处理。多尺度扩展的CNN可以分别编码CCF和ILD的鉴别表示。编码后，融合了不同的声音表示来映射源的方向。此外，为了提高参数自适应能力，提出了一种新的半自适应熵，在方向约束下进行网络训练。实验结果表明，该方法能够在模拟噪声和混响环境中自适应地定位语音源。

1.介绍

言语源本地化（SSL）在过去几十年中引起了不断的关注。它广泛应用于人机交互系统和视频会议系统。双耳语言源定位是语音源定位的子任务，旨在利用由虚拟头的人造耳朵中安装的双耳麦克风记录的音频信号来估计讲话源的到达方向（DOA）[1]．双耳语音源定位的过程包括两个步骤。首先，从接收到的双耳信号中提取耳间线索，即耳间时间差(ITD)和耳间水平差(ILD) [2- - - - - -4]．随着虚拟头的包含，可以通过头相关传递函数（HRTF）捕获空间线索的频率依赖性特性[5，6]．这种频率依赖性促使双耳信号使用时频表示。双耳信号的典型时频表示是基于Gammatone滤波器，通常用于模拟人类听觉系统的周边处理[7- - - - - -9]．DOA估计的第二步是应用几何分析技术[1或离线模型[4，7]来将听觉线索映射到声源方位。多年来，大多数方法从两个方面来提高双耳SSL的性能:估计鲁棒的间音线索和改进基于学习的模型的泛化。

互连时间差是对应于左右麦克风信号的横相关函数的最大值的时间延迟。腔室差异是左右麦克风信号之间的功率能量的对数差异。然而，在嘈杂和混响的环境中，跨相关函数的额外峰值和目标语音源的功率能量损失。额外的峰值和能量损失将导致不可靠的互连线索估算。为了改进这些不可靠的互纳力提示，提出了时滞补偿方法对齐ILD和ITD [10]，提出了混响加权法抑制早期和晚期混响[11]提出了一种无回波的靴子检测方法来检测直接路径信号[12]．因为过渡段在低频率(低于1.5 kHz)下更稳定，而ILD在高频率下更可靠[13[γ滤波器通常用于过滤低频和高频。Karthik和Ghosh使用γ滤波器来预处理双耳信号并使用ITD-Azimuth模板将频率依赖于频率依赖于方位角[14]．May等人。使用高斯混合模型（GMMS）为各个源方向建模ITD和ILD在子带中进行模拟[7]．在具有多个激活语音源的场景中，双耳信号的时频（TF）表示也能够区分不同碎片中的噪声和语音源。Christensen等人。调查不同的TF重量估计用于互纳力提示的方法[15]．最近，深神经网络表现出言语源定位对噪声和混响的显着性能，包括时频屏蔽估计[16]和多源定位[17]．卷积神经网络（CNN）可用于使用相位分量估计语音源的宽带进时（DOA）[17]并共同定位并分类多个语音源[18]．频率相关的深度神经网络(DNN)和头部运动可以用来检测多个DOAs和识别前后混淆[19]．然而，培训这种稳健且广泛的模型需要大量的各种声学条件。很少有研究提出了提高模型的适应性至以前看不见的条件。Takeda和Komatani建议使用自熵和参数选择对DNNS参数无监督适应的培训计划[20.]， Wang等人提出了一种基于DNN和聚类的数据高效方法来改善不匹配HRTF条件下的双耳定位性能[21，但本地化性能仍然很差。为了解决离网问题，提出了一种基于离网宽带稀疏贝叶斯学习算法的离网BSSL方法，该方法仅优于目前最先进的基于hrtf的BSSL方法[22]．如何推广基于学习的模型，使其在未知和不利的声学条件下自适应地定位双耳信号，仍然是一个挑战。

在这里，我们提出了一种基于多尺度扩展cnn的方法来进一步解开这些问题。从双耳信号中提取互相关函数(CCF)和耳间水平差(ILD)作为输入特征。为了保留详细的空间信息，对不同扩张因子的CCF和ILD分别进行预处理。然后，两种编码的CCF和ILD的听觉表达被融合来学习跨域信息。通过多尺度放大的神经网络编码的跨域信息提供了CCF和ILD特征的小和大接受域之间的权衡，从而更好地在各种声学条件下泛化网络。在这个网络中，一个遗留的问题是如何使网络参数适应看不见的声学条件。借鉴网络参数的无监督自适应研究[20.[我们还提出了一个半露天熵作为目标函数。不同于自熵，半露出熵包括转基调部分，以提高本地化性能。此外，学习因素用于重量基于共度和自熵的注意。

总而言之，我们的贡献如下:（一世）我们提出了一种用于双耳语言源定位的多尺寸扩张的CNN框架，其有效地编码不同扩张因子的跨相关功能和腔内级别差异特征。(2)我们提出了一种半自适应熵用于CNN的参数自适应。实验结果表明，在噪声和混响声环境中，采用半自适应熵训练的多尺度扩张型CNN比常规的DNN和CNN有明显的改善。

2. MultiSscale扩张CNN

假设只有一个目标扬声器，所接收的双耳信号可以通过在时域中卷积语音信号和头相关的脉冲响应（HRIR）来配制的象征代表卷积操作,表示双耳麦克风指标，和参考左右麦克风，是时间框架的指标，表示语音信号，和表示头部相关的脉冲响应。为了模拟人类耳蜗的频率选择性，使用四阶Gammatone滤波器组将双耳信号分解为32个听觉通道[23]．γ滤波器的中心频率在80Hz和8kHz之间的等效矩形带宽刻度上对数相等。在过滤双耳信号之后，独立地在每个频率子带中的左和右信号之间计算横相关函数。CCF通过左右信号的自相关的进一步标准化。CCF作为时间延迟的函数制定：在哪里表示左和右信号之间的横相关是频率子带的索引。和表示左右信号的自相关，分别。一般情况下，假头的人工耳朵直径约为15-17厘米。根据声音的传播速度，可以估算出两耳间的到达时间差1.1 ms。在实际情况下，考虑头部遮挡效果，最大时延设置为2ms。例如，在一定的中心延迟范围内以16khz采样的双耳信号的互相关函数2ms形成一个大小为32的矩阵CCF65年。另一种耳间提示ILD为双耳信号之间的对数能量差，公式如下: 在哪里表示一系列样本索引的集合在框架。由于双耳信号被构造成短而稳定的语音信号，因此存在非能量帧。这些非能量框架将被忽略。双耳信号的耳间水平差形成一个大小为32的向量ILD1在所有频率子频带。

2.1。网络架构

SSL可以看作是一个基于CNN的方向分类任务。通过扩展带有零的密集卷积核，扩展后的CNN可以在一个粗糙的接受域上操作，并在嘈杂环境下的语音活动检测中表现出鲁棒的性能[24]．因此，在我们的网络中考虑扩张型CNN来编码鲁棒的耳间特征。所提出的多尺度扩张CNN的原理图如图所示1．图的右上角显示了内核大小为3的两个膨胀内核示例1．相邻单元间的零单元数取决于膨胀因子(DF)。黑色块表示卷积核的参数，用于激活相应的输入单元，白色块表示零，用于保持输入单元不激活。两个活化细胞之间0的数目是DF-1。

在双耳语音源定位中，CCF和ILD分别反映了时间相关和能量相关的物理信息。在我们的方法中，将多尺度扩张型CNN的分离分支设计成根据其物理意义更好地捕捉独立的耳间特征。CCF的分支由两个平行膨胀的CNN组成，其中一个分支堆叠了两个膨胀的CNN层，DF = 2(即dilab2 CNN)，另一个分支堆叠了两个膨胀的CNN层，DF = 5(即dilab5 CNN)。这种多尺度扩张型CNN被设计用于定位双耳信号在额半野的方位，范围为[−90°，90°]。以37个步距为5°的方位角为例，65个CCF时延样本正好是DOAs个数的两倍。通过考虑核内互相关的最大值和该最大值的周围值来估计信号的DOA。在现实中，也考虑了某些角距离内的邻近DOAs。考虑到这一点，通过将膨胀系数设置为2和5，我们隐式地包括了5°和10°的公差误差。膨胀系数为2和5的玉米粒的容差范围为[0°，10°]。这里不包含膨胀因子4，因为它可以通过将带有膨胀因子2的核移动两次得到。 The other branch for ILD consists of only one layer of dilated CNN with dilation factor 2. All CNN layers employ 64 kernels to double expand frequency bands and are activated by rectified linear unit activation function and a dropout probability 0.5. The max-pooling layers are added after each dilation-2 CNN to reduce parameters but are excluded in dilation-5 CNN to preserve details. Finally, all interaural representations are fused in a fully connected layer with 128 neurons and followed by an output layer with Softmax activation function. The aforementioned parameters are sufficiently evaluated in experiments.

2．2．Semiadaptive熵

如前所述，可以认为某些公差内的相邻方位角是正确的。另外，由于语音间歇性，弱语言帧不可避免地被噪声主导。在本节中，我们提出了一个半露出的熵，可以培训多尺寸扩张的CNN。在大多数回归任务中，Kullback-Leibler发散（KLD）被广泛用于测量两个概率分布之间的相似性。在本文中，概率分布是指双后言语源定位中的真实DOA和估计的DOA。KLD可以制定为“真理”熵和软联网复制的总和：在哪里和表示真实DOA和估计的概率分别方位。假设静止或噪声占主导帧的DOA概率均匀分布于另。在此假设下，KLD的“真”熵被一致熵所代替。此外，还有一个学习因素用于平衡交叉熵和均匀熵: 在哪里意味着平均训练样本。在定向约束下，网络能够在不同的声学条件下进行微调参数。Adadelta [25算法，使损失函数最小化。如果验证集在最近3个时点内没有出现较低的错误，培训过程将停止。方位概率对由上下文帧组成的接收信号块，通过平均帧级方位角概率产生。通过最大化估计目标DOA ．

3.实验和讨论

3．1．实验装置

提出的方法在模拟声学条件下，包括信噪比(SNR)、噪声类型和混响时间，采用双耳设置进行评估。声学条件总结在表中1．语音源位于前平面−90°和90°之间，步长为5°，即37个方向，其仰角与接收器相同。基于双耳信号公式，基于KEMAR数据集的头部相关脉冲响应(HRIR) [26[来自Timit DataSet的语音录制[27]．为了模拟有噪声的情况，从NOISEX-92数据集中提取了六种常见噪声[28]被适当地截断，并在相同信噪比的基础上添加到每个麦克风信号。将噪声与HRIR在37个不相关方向上卷积产生的所有方向噪声相加，将每个噪声处理为扩散噪声。为了模拟混响条件，一个为(1063) m是使用Roomsim工具箱模拟[29]基于图像方法[30.]．这个房间里的所有表面都有同样的反射。一个由CIPIC数据集Subject_021索引的虚拟头[31]放置在中心位置。源-传感器距离为1.5米。通过这种混响装置产生的双耳室脉冲响应与测试语音记录进行卷积，以产生一个混响数据集。所有的双耳混合语音在16khz采样，并通过一个512个样本的汉明窗口进行帧化，移动256个样本。一个信号块包含20个上下文帧，相当于一个持续时间为336 ms的段。定位性能是根据定位精度来衡量的，如果估计的DOA距离真实DOA在5°以内，则认为估计的DOA是正确的。


	培训集	测试集

KEMAR HRIRs	消声HRIRs	带耳机Akgk271 MK II的Anechoic HRIR
TIMIT演讲录音	10名男性和10名女性	其他3名男性和3名女性
Source-to-sensor距离	0.5米，1米，2米，3米	1米，1.5米
噪声类型	Babble，Destroyerops和Factory1	白色，m109和f16
信噪比	-20 dB：15：25 dB	−10 dB: 10:30 dB
混响时间	没有一个	0。1s, 0。3 s, 0。5 s
Direct-to-reverberant比(DRR)	没有一个	-1.44 db，-2.02 db，-2.58 db
双耳混合物的数量	52369无噪声和噪声信号和5819用于验证集	936对于每种噪声和SNR，和1221个混响信号

3.2。学习因素的影响

我们网络的适应性受到学习因素的影响，使得价值需要评估以最大限度地提高适应性。请注意，半拔牙熵缺乏定向信息；因此，最大值设置为0.999。的最小值设置为0;因此，半自适应熵成为交叉熵。在实验中，我们使用0 ~ 0.999和不同的学习因子来训练我们的网络在−20 dB信噪比的噪声条件下，通过在验证集上评估定位精度来确定。数字2（a）显示了不同的本地化性能．图中有三个局部最大值2（a）有不同的学习因素，分别。在ADADELTA期间[25更新算法，使用累积梯度自动更新学习速率:

(一)

(b)

我们的半露天熵的制定也看起来像这种累计渐变的形式。可以单独计算半拔牙熵的每个项的梯度，并且累积的梯度变为在哪里和分别表示交叉熵和均匀熵的梯度。在这里,也是一个超参数，是控制学习速率的动量因子。因此，在更新迭代过程中，模型可能会出现不同的局部极大值或鞍点。通过充分的验证，设置为0.9，性能最佳，表明该网络在噪声环境下具有较高的适应性。图中描述了双耳信号在- 10db信噪比条件下的到达角概率2（b）．信号的实际DOA是60°，但在训练网络时得到了错误的65°DOA = 0. Red curve shows the wrong DOA probability is reduced when training network with= 0.9。此外，由于均匀熵的影响，远离真正DOA的方位角可能有非零概率。结果表明，半自适应熵能有效地提高网络的自适应性。

3．3.双耳SSL评估

我们的方法与基于两个基线网络的方法进行了比较，即多层erceptron（MLP）[8]和频率相关的DNN [19]，网络架构也在消融研究中进行了评估:Regular CNN:我们的架构中使用的是Regular CNN，而不是extended CNN扩张型CNN: CCF和ILD被送入扩张型CNN的单独分支，但CCF分支只堆叠了两层扩张型CNN扩张-5 CNN：CCF和ILD被送入扩张CNN的单独分支，如在所提出的架构中，但CCF分支只堆叠两层扩张-5 CNN级联DCNN：扩张-2 CNN和扩张-5 CNN在CCF分支中级联而不是并联。

这些方法的本地化精度如表所示2（在嘈杂的场景）和表3.（在嘈杂和混响的场景中）。在表格中3.，符号“-/-”表示无附加噪声。在噪声条件下，MLP在低信噪比条件下优于频率依赖的DNN，这是因为过渡段和ILD是在整个信号块上估计的，而不是在短帧上。与DNN的结果相比，基于cnn的方法平均准确率提高了2% ~ 6%。这是因为相邻频带可以相互提供信息，而不是独立频带。在混响条件下，扩张性-5 CNN的性能优于其他CNN，因为在交叉子带中，远程信息对互信息同样重要，其中远程信息包括直接路径的声间特征、早期混响和晚期混响。放大后的CNN具有相对较大的接受域，可以一次捕捉到更多的远程信息。由于不同膨胀核的互补性，多尺度膨胀CNN训练在噪声条件下表现良好，但在混响条件下略低于膨胀-5 CNN。多尺度扩张型CNN的融合在噪声和混响条件下能自动学习大小扩张型核之间的权衡。此外，我们还证明了半自适应熵的重要性。与交叉熵相比，半自适应熵训练的网络在强噪声场景下的定位精度提高了近10%，在混响场景下的定位精度平均提高了4.62%。


SNR.	- - - - - -	−10 dB			0分贝			10 dB.			20 dB			30 dB
噪音	Avg。	白色的	F16	M109.	白色的	F16	M109.	白色的	F16	M109.	白色的	F16	M109.	白色的	F16	M109.

MLP [8］	83.77	62.93	53.21	67.41	72.65	71.37	82.37	81.62	86.75	95.51	89.42	96.26	99.15	98.18	99.89	99.89
款(19］	82.56.	43.16	38.25	53.42	70.30	57.16	86.32	97.65	92.31	100.0	99.89	99.89	100.0	100.0	100.0	100.0
常规的美国有线电视新闻网	84.65	54.38	41.99.	65.60	73.61	69.76	86.43	89.96	90.81	99.04	98.72	99.79	99.79	99.89	100.0	100.0
Dilation-2 CNN	87.46	45.30	54.17	75.75.	70.94	77.67	97.76	97.33	93.59	99.68	99.89	99.89	100.0	100.0	100.0	100.0
Dilation-5 CNN	90.14	62.61	54.17	80.34	83.55	75.85	99.15	97.86.	98.61	100.0	100.0	100.0	100.0	100.0	100.0	100.0
级联dcnn.	89.62	57.05	54.38	87.61	76.92	76.50	99.25	95.51	97.22	100.0	99.79	100.0	100.0	100.0	100.0	100.0
我们	89.34	59.83	47.54	78.63	84.19	74.47	98.61	98.40	98.50	100.0	100.0	100.0	100.0	100.0	100.0	100.0
我们	91.85.	68.16	56.62	90.06	86.00	80.24	99.36	98.61	98.72	100.0	100.0	100.0	100.0	100.0	100.0	100.0


RT_60./ drr.	- - - - - -	0.1 s /−1.44 dB		0.3 s /−2.02 dB		0.5 s /−2.58 dB
噪音/ snr.	Avg。	- / -	白色/ 15分贝	- / -	白色/ 15分贝	- / -	白色/ 15分贝

MLP [8］	28.87	43.24	24.46	33.42	24.19	23.84	24.05
款(19］	67.69	92.14	78.11	74.94	53.51	63.81	43.65
常规的美国有线电视新闻网	61.40	85.26	79.73	58.23	52.16	49.40	43.65
Dilation-2 CNN	57.69	77.15	75.41	56.02	50.14	43.74	43.65
Dilation-5 CNN	84.03	94.59	89.46	92.14	75.95	86.62	65.41
级联dcnn.	73.16.	91.15	77.84	84.52	56.62	79.25	49.59
我们	78.86	93.12	87.97	83.78	71.08	76.50	60.68
我们	83.48	94.59	89.05	90.66	77.70	85.08	63.81

4.结论

本文提出了一种基于多尺度扩张型CNN的自适应双耳SSL方法。单独扩张的CNN可以编码CCF和ILD特征的鉴别表示。通过对输入信号的同步操作，在噪声和混响条件下，膨胀-2 CNN和膨胀-5 CNN相互补充。此外，我们从Kullback-Leibler散度推导出半自适应熵，以自适应训练网络在方向约束下。多尺度扩张的CNN训练具有较高的学习因子值，可以很好地概括以前未见过的场景。实验结果表明，与其他基线方法和单尺度网络相比，该方法在不利情况下具有优势。

数据可用性

所有数据都是开放的，其源已在纸质中陈述。

的利益冲突

作者声明他们没有利益冲突。

致谢

这项工作得到了中国国家自然科学基金的支持（No.61673030和U1613209）和深圳国家自然科学基金（NO.JCYJ20190808182209321）。

参考文献

J.Blauert，空间听觉:人类声音定位的心理物理学张国强，1997。
C. Knapp和G. Carter，“估计时滞的广义相关方法”，IEEE声学、语音和信号处理汇刊，卷。24，不。4，pp。320-327，1976。视图:出版商的网站|谷歌学术
Wu x, D. Talagala, W. Zhang, T. Abhayapala，“基于空间特征学习的双耳声源定位方法”，载于IEEE声学、语音和信号处理国际会议论文集，PP。2016年3月，中国上海6320-6324。视图:谷歌学术
J. Woodruff和D. Wang，“多声源在混响和噪声环境中的双听觉定位”，IEEE音频、语音和语言处理汇刊第20卷，没有。5, pp. 1503-1512, 2012。视图:出版商的网站|谷歌学术
M. Zohourian, R. Martin和N. Madhu，“头部半径在基于模型的双耳讲话者定位中的作用的新见解”IEEE欧洲信号处理会议论文集2017年8月，希腊科斯岛，221-225页。视图:谷歌学术
g·比尔，“克马尔假头麦克风的HRTF测量值”米尔媒体实验室。知觉Computing-Technical报告，第1-7页，1994年。视图:谷歌学术
T. May, S. van de Par, A. Kohlrausch，“一种基于双耳听觉前端的鲁棒定位概率模型”，IEEE音频、语音和语言处理汇刊第19卷，没有。1，页1 - 13,2011。视图:出版商的网站|谷歌学术
K. Youssef, S. Argentieri, J. Zarader，“一种使用听觉线索和视觉的双耳声源定位方法”，载于IEEE声学、语音和信号处理国际会议论文集2012年3月，日本京都，217-220页。视图:谷歌学术
N. Ma, G. Brown, J. Gonzalez，“利用自顶向下的声源模型来改善混响环境中多个声源的双耳定位。国际言语通信协会(INTERSPEECH)年会论文集2015年9月，德国德累斯顿，160-164页。视图:谷歌学术
张杰，刘慧，“基于时滞补偿和间匹配滤波器的鲁棒声定位”，IEEE信号处理汇刊，卷。63，否。18，pp.4771-4783,2015。视图:出版商的网站|谷歌学术
“基于混响加权和广义参数映射的双听觉定位方法”，IEEE/ACM音频、语音和语言处理汇刊，卷。25，不。8，pp。1618-1632,2017。视图:出版商的网站|谷歌学术
J. Huang，N.Hyhishi和N. Sugie，“基于优先效应模型的混响环境中的声音本地化”IEEE仪表和测量交易，卷。46，没有。4，PP。842-846，1997。视图:出版商的网站|谷歌学术
L. Jeffress，“一个地方定位理论”，IEEE比较和生理心理学杂志，卷。61，pp 468-486，1947。视图:谷歌学术
G. R. Karthik和P.K.Ghosh，“使用模板匹配的互动演讲源定位，内部时间差模式”IEEE声学、语音和信号处理国际会议论文集，pp.5164-5168，卡尔加里，加拿大，2018年4月。视图:谷歌学术
H. Christensen, N. Ma, S. N. Wrigley，和J. Barker，“一个语音片段的方法使多个扬声器在混响环境中许可”，在宣布IEEE国际音响，言语和信号处理会议（ICASSP），pp.4593-4596，台湾台湾，2009年4月。视图:谷歌学术
Z.-Q。Wang, X. Zhang, and D. Wang，“基于深度学习的时频掩蔽的鲁棒说话人定位”，IEEE/ACM音频、语音和语言处理汇刊，第27卷，第2期。1，页178-188,2019。视图:出版商的网站|谷歌学术
S. Chakrabarty和E. Habets，“使用噪声信号训练的卷积神经网络进行宽带DOA估计”IEEE信号处理在音频和声学中的应用研讨会论文集2017年10月，New Paltz, NY, USA，第136-140页。视图:谷歌学术
W. HE，P. MOTLICEK和J.-M。Odobez，“使用多任务神经网络的联合本地化和多个声源分类”国际言语通信协会(INTERSPEECH)年会论文集，pp.312-316，海德拉巴，Telangana，2018年9月。视图:谷歌学术
N. Ma, T. May，和G. J. Brown，“利用深度神经网络和头部运动实现混响环境中多源双耳定位，”IEEE/ACM音频、语音和语言处理汇刊，卷。25，不。12，pp。2444-2453,2017。视图:出版商的网站|谷歌学术
R.Takeda和K. Komatani，“使用熵最小化的声源定位对深神经网络的无监督适应”，“IEEE声学、语音和信号处理国际会议论文集，pp.2217-2221，新奥尔良，拉，美国，2017年3月。视图:谷歌学术
J. Wang，J. Wang，K.Qian等人，“基于深神经网络的双耳声音定位和非匹配的HRTF条件中的亲和传播聚类，”欧元群期刊音频，演讲和音乐处理，第2020卷，第2期。4、2020。视图:出版商的网站|谷歌学术
Ding j, Li j, Zheng c, and X. Li，“一种基于稀疏贝叶斯学习的离网双声源定位方法，”信号处理(SP)第166卷，第107250条，2019年。视图:出版商的网站|谷歌学术
D. Wang和G. Brown，计算听觉场景分析:原理、算法和应用，Wiley-Ieee Press，Piscataway，NJ，美国，2006年。
S.-Y。Chang, B. Li, G. Simko等人，“使用扩张卷积和门控进行语音活动检测的时间建模”，在IEEE声学、语音和信号处理国际会议论文集， 5549-5553页，加拿大卡尔加里，2018年4月。视图:谷歌学术
m·d·ZeilerADADELTA:一种自适应学习率方法arXiv:1212.5701。
H.Wierstorf，M.Geier和S. Spors，“一个免费的有关的脉冲响应测量数据库，水平面有多个距离，”音频工程学会会议录(AES)2011年5月，英国伦敦。视图:谷歌学术
J. Garofolo, L. Lamel, W. Fisher, J. fischer, D. Pallett， " Darpa TIMIT声学-语音连续语音语料库CD-ROM。NIST演讲光盘1-1.1，"美国宇航局STI/侦察，华盛顿特区，美国，1993年，技术报告第93期。视图:谷歌学术
A. Varga和H. J. M. Steeneken，“自动语音识别评估:II。noise -92:一个研究加性噪声对语音识别系统影响的数据库和实验言语交际第12卷，没有。3，页247-251,1993。视图:出版商的网站|谷歌学术
D. Campbell，K.Palomaki和G. Brown，“Shoebox”室声学的Matlab仿真，用于研究和教学，“计算和信息系统（CIS），卷。9，不。3，pp。48-51,2005。视图:谷歌学术
J. B. Allen和D. A. Berkley，“有效模拟小房间声学的图像方法”，美国声学学会杂志，第65卷，不。4，页943-950,1979。视图:出版商的网站|谷歌学术
V. Algazi，R. Duda，D. Thompson，以及C. Avendano，“Cipic HRTF数据库”IEEE信号处理在音频和声学中的应用研讨会论文集，第99-102页，New Paltz, NY, USA, 2001年10月。视图:谷歌学术

复杂

使用复杂的生物启发性计算方法解决工程和科学问题

摘要