复杂性gydF4y2Ba 复杂性gydF4y2Ba 1099 - 0526gydF4y2Ba 1076 - 2787gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2020/5819624gydF4y2Ba 5819624gydF4y2Ba 研究文章gydF4y2Ba 基于多尺度自适应方法扩张卷积网络双耳语音源定位gydF4y2Ba https://orcid.org/0000 - 0002 - 0280 - 848 xgydF4y2Ba 吴gydF4y2Ba 露露gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 7498 - 6541gydF4y2Ba 刘gydF4y2Ba 在香港gydF4y2Ba 1gydF4y2Ba 杨gydF4y2Ba 必应gydF4y2Ba 1gydF4y2Ba 丁gydF4y2Ba RunweigydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 杨gydF4y2Ba ZhilegydF4y2Ba 1gydF4y2Ba 重点实验室的机器感知gydF4y2Ba 深圳研究生院gydF4y2Ba 北京大学gydF4y2Ba 深圳518055年gydF4y2Ba 中国gydF4y2Ba pku.edu.cngydF4y2Ba 2gydF4y2Ba 学校的人工智能gydF4y2Ba 重庆理工大学gydF4y2Ba 重庆401135gydF4y2Ba 中国gydF4y2Ba cqut.edu.cngydF4y2Ba 2020年gydF4y2Ba 30.gydF4y2Ba 12gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 27gydF4y2Ba 6gydF4y2Ba 2020年gydF4y2Ba 16gydF4y2Ba 11gydF4y2Ba 2020年gydF4y2Ba 24gydF4y2Ba 11gydF4y2Ba 2020年gydF4y2Ba 30.gydF4y2Ba 12gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 版权©2020吴露露et al。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

大多数双耳语音源定位模型在空前噪声和混响情况下表现不佳。这个问题是接洽造型多尺度扩张卷积神经网络(CNN)。与时间相关的互相关函数(CCF)和能源两耳水平差异(ILD)的预处理在单独的分支扩张卷积网络。多尺度扩张CNN可以为CCF和ILD编码区别的表征,分别。编码后,个人两耳表示融合映射源方向。此外,为了提高参数的适应性,提出了一种新型semiadaptive熵火车定向约束下的网络。实验结果表明该方法可以自适应地确定演讲来源在模拟噪声和混响环境。gydF4y2Ba

中国国家自然科学基金gydF4y2Ba 61673030gydF4y2Ba U1613209gydF4y2Ba 国家自然科学基金的深圳gydF4y2Ba JCYJ20190808182209321gydF4y2Ba
1。介绍gydF4y2Ba

语音源定位(SSL)吸引了越来越多的关注在过去几十年。它广泛应用于人机交互系统和视频会议系统。双耳语音源定位子任务的语音源定位,针对估计到达方向(DOA)的一次演讲中源利用音频信号记录的双耳麦克风安装在人造耳朵仿真头(gydF4y2Ba 1gydF4y2Ba]。双耳语音源的管道定位包含两个步骤。首先,提取双耳线索,即。,我nteraural time differences (ITD) and interaural level differences (ILD) from received binaural signals [ 2gydF4y2Ba- - - - - -gydF4y2Ba 4gydF4y2Ba]。包含的假头,空间信号的频率相关特性可以被head-related传递函数(电火花冲激)[gydF4y2Ba 5gydF4y2Ba,gydF4y2Ba 6gydF4y2Ba]。这个频率依赖激励为双耳信号时频表示的使用。一个典型的双耳信号时频表示是基于Gammatone过滤器通常用于模拟人类听觉系统的外围处理(gydF4y2Ba 7gydF4y2Ba- - - - - -gydF4y2Ba 9gydF4y2Ba]。第二步对DOA估计是应用几何分析技术(gydF4y2Ba 1gydF4y2Ba)或离线模型(gydF4y2Ba 4gydF4y2Ba,gydF4y2Ba 7gydF4y2Ba双耳线索映射到声源DOA。多年来,大多数方法提出了从两个方面提高双耳SSL的性能:估计健壮的双耳线索和改善上优于模型的泛化。gydF4y2Ba

双耳时间差的最大值对应的时间延迟左右麦克风信号的互相关函数。耳间水平差异是对数的区别左派和右派之间的电能麦克风信号。然而,在噪声和混响环境,会有额外的山峰在互相关函数和权力目标语音源的能量损失。额外的峰值和能量损失将导致不可靠的双耳信号估计。为了改善这些不可靠的双耳线索,提出了时滞补偿方法使ILD和ITDgydF4y2Ba 10gydF4y2Ba),混响加权法提出了抑制早期和晚期混响(gydF4y2Ba 11gydF4y2Ba),无回声发作检测方法提出了检测直接路径信号(gydF4y2Ba 12gydF4y2Ba]。因为ITD是更健壮的频率较低(低于1.5 kHz)和ILD是更可靠的高频率gydF4y2Ba 13gydF4y2Ba),Gammatone过滤器通常用于过滤低和高频率。恋人和Ghosh Gammatone过滤器用于预处理的双耳信号和频率相关ITD另使用ITD-azimuth模板映射(gydF4y2Ba 14gydF4y2Ba]。可能等人建模ITD和ILD分解为每个源方向使用高斯混合模型(gmm) [gydF4y2Ba 7gydF4y2Ba]。场景中与多个激活语音来源,双耳信号的时频(TF)表示也能够区分噪声和语音源在不同的片段。克里斯腾森等人研究了不同的TF重量估算方法对双耳线索(gydF4y2Ba 15gydF4y2Ba]。最近,深层神经网络言论显示显著的性能对噪声和混响源定位,包括时频掩蔽估计(gydF4y2Ba 16gydF4y2Ba和多源定位gydF4y2Ba 17gydF4y2Ba]。卷积神经网络(CNN)可以用来估计宽带到达方向(DOA)的语音源使用阶段组件(gydF4y2Ba 17gydF4y2Ba)和共同定位和多个语音源的分类gydF4y2Ba 18gydF4y2Ba]。频率相关深层神经网络(款)和头部动作可以被利用来检测多个DOAs和识别正反面混淆(gydF4y2Ba 19gydF4y2Ba]。然而,培训这样一个健壮的、好地实现模型需要大量的各种声学条件。很少有研究提出了改进模型的适应性前所未有的条件。武田和Komatani提出培训计划无监督自熵和参数适应款参数使用的选择(gydF4y2Ba 20.gydF4y2Ba,王等人提出了一个基于款data-efficient方法和集群来提高双耳定位性能的不匹配的电火花冲激条件(gydF4y2Ba 21gydF4y2Ba),但定位性能仍然保持贫穷。为了解决网的问题,一个离网BSSL方法基于一个离网宽带稀疏贝叶斯学习算法,它只比最先进的HRTF-based BSSL方法(gydF4y2Ba 22gydF4y2Ba]。它仍然是具有挑战性的如何推广上优于模型,使其自适应定位双耳信号在以前看不见的和不利的声学环境。gydF4y2Ba

在这里,我们提出一种多尺度扩张CNN-based进一步解决这些问题的方法。互相关函数(CCF)和耳间水平差异(ILD)中提取的双耳信号作为输入功能。为了保存详细的空间信息,CCF和ILD分别在不同扩张cnn预处理与特定的扩张的因素。后来,CCF的两耳编码表示和ILD都学习crossdomain信息融合。crossdomain信息编码的多尺度扩张cnn提供之间的权衡的接受域大小CCF和ILD特性更好的推广网络在不同声学条件。在这个网络中,剩下的问题是如何适应网络参数看不见的声学条件。利用无监督的研究适应网络参数(gydF4y2Ba 20.gydF4y2Ba),我们还提出一个semiadaptive熵作为目标函数。不同于自熵,熵semiadaptive包括crossentropy部分提高定位的性能。除此之外,一个学习的因素是用于体重crossentropy的注意和自熵。gydF4y2Ba

总之,我们的贡献如下:gydF4y2Ba

我们提出一种多尺度扩张CNN双耳语音源定位框架,有效地编码互相关函数和双耳水平差异特性从不同膨胀的因素。gydF4y2Ba

我们提出一个semiadaptive熵为CNN的参数适应。实验结果表明,多尺度扩张CNN训练semiadaptive熵达到明显改善了普通款和CNN噪声和混响声环境。gydF4y2Ba

2。多尺度扩张美国有线电视新闻网gydF4y2Ba

假设只有一个目标,获得双耳信号可以由语音信号卷积和制定head-related脉冲响应(HRIR)在时域gydF4y2Ba (1)gydF4y2Ba ygydF4y2Ba 米gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ⊗gydF4y2Ba hgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba +gydF4y2Ba vgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba ∈gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba rgydF4y2Ba ,gydF4y2Ba 的象征gydF4y2Ba ⊗gydF4y2Ba 代表卷积操作,gydF4y2Ba 米gydF4y2Ba 代表双耳麦克风指数,gydF4y2Ba lgydF4y2Ba 和gydF4y2Ba rgydF4y2Ba 指的是左和右麦克风,gydF4y2Ba ngydF4y2Ba 是时间的指数,gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba 表示语音信号gydF4y2Ba hgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba 表示head-related脉冲响应。为了像人工耳蜗的频率选择性,双耳信号分解成32听觉通道使用四阶Gammatone滤波器组(gydF4y2Ba 23gydF4y2Ba]。Gammatone滤波器的中心频率是对数等距的等效矩形带宽规模在80赫兹和8 kHz。过滤后的双耳信号,左派和右派之间的互相关函数计算信号在每个频率独立副环带。CCF进一步规范化,左派和右派的自相关信号。CCF制定作为时间的函数是延迟gydF4y2Ba τgydF4y2Ba :gydF4y2Ba (2)gydF4y2Ba cgydF4y2Ba cgydF4y2Ba fgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba τgydF4y2Ba =gydF4y2Ba RgydF4y2Ba lgydF4y2Ba rgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba τgydF4y2Ba RgydF4y2Ba lgydF4y2Ba lgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba RgydF4y2Ba rgydF4y2Ba rgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba RgydF4y2Ba lgydF4y2Ba rgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba τgydF4y2Ba 表示左派和右派之间的互相关信号和gydF4y2Ba kgydF4y2Ba 该指数可。gydF4y2Ba RgydF4y2Ba lgydF4y2Ba lgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 和gydF4y2Ba RgydF4y2Ba lgydF4y2Ba lgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 表示左和右信号的自相关gydF4y2Ba τgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,分别。一般来说,人工耳朵的仿真头的直径大约是15 - 17厘米。根据声音传播的速度,到达时间可以估计在两个耳朵之间的区别gydF4y2Ba ±gydF4y2Ba 1.1 ms。在现实的条件下,考虑遮蔽效应,最大延时设置为2毫秒。例如,双耳信号的互相关函数采样延迟16千赫范围内的中心gydF4y2Ba ±gydF4y2Ba 2一个矩阵形式CCF女士32的大小gydF4y2Ba ×gydF4y2Ba 65年。其他双耳线索ILD对数双耳信号之间的能量差,这是制定如下:gydF4y2Ba (3)gydF4y2Ba 我gydF4y2Ba lgydF4y2Ba dgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 10gydF4y2Ba 日志gydF4y2Ba 10gydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ygydF4y2Ba rgydF4y2Ba 2gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ygydF4y2Ba lgydF4y2Ba 2gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba 表示一系列样本指标的集合gydF4y2Ba tgydF4y2Ba 在gydF4y2Ba ngydF4y2Ba thgydF4y2Ba 框架。自双耳信号被陷害到短而稳定的语音信号,会有nonenergy帧。这些nonenergy帧将被忽视。双耳信号的双耳高差形成一个向量ILD和32的大小gydF4y2Ba ×gydF4y2Ba 1在所有频率分解。gydF4y2Ba

2.1。网络体系结构gydF4y2Ba

SSL可以被视为一个方向分类任务基于CNN。通过扩张密度卷积与零内核,扩张CNN可以操作一个粗感受野和显示强劲的性能对于语音活动检测在嘈杂的环境中gydF4y2Ba 24gydF4y2Ba]。因此,扩张CNN被认为是在我们的网络编码健壮的两耳特性。提出了多尺度扩张CNN的示意图如图gydF4y2Ba 1gydF4y2Ba。扩张的两个例子内核,内核大小3所示图右上角的一面gydF4y2Ba 1gydF4y2Ba。零相邻细胞之间的细胞的数量取决于膨胀系数(DF)。黑块表示卷积内核的参数来激活相应的输入细胞,而白色块表示零输入细胞灭活。0两个激活细胞的数量是DF-1。gydF4y2Ba

原理图的多尺度扩张CNN。gydF4y2Ba

在双耳语音源定位,CCF ILD反映时间相关和能源相关的物理信息,分别。在我们的方法中,分离的多尺度扩张CNN是为了更好的捕捉独立双耳的特征根据其物理含义。CCF包括两个并行的分支扩张CNN,其中一个栈两个扩张CNN层与DF = 2(即。,dilation-2 CNN)和其他分支栈两个扩张CNN层与DF = 5(即。,dilation-5 CNN)。这多尺度扩张CNN设计定位的双耳信号方位角额障碍的范围(−90°、90°)。以37另间隔5°的步骤为例,65个样本的时间延迟CCF正是DOAs的数量的两倍。考虑一个信号的DOA估计的最大互相关和周围的值的最大一个内核。在现实中,相邻DOAs内一些角距离也考虑。有鉴于此,我们隐式地包含5°和10°的宽容错误设置膨胀因素2和5。内核与扩张因素2和图5描述的公差范围(0°,10°)。这里,膨胀系数4不包括因为它可以通过移动内核与扩张因素2两次。 The other branch for ILD consists of only one layer of dilated CNN with dilation factor 2. All CNN layers employ 64 kernels to double expand frequency bands and are activated by rectified linear unit activation function and a dropout probability 0.5. The max-pooling layers are added after each dilation-2 CNN to reduce parameters but are excluded in dilation-5 CNN to preserve details. Finally, all interaural representations are fused in a fully connected layer with 128 neurons and followed by an output layer with Softmax activation function. The aforementioned parameters are sufficiently evaluated in experiments.

2.2。Semiadaptive熵gydF4y2Ba

如前所述,相邻的另一些公差内可以被认为是正确的。此外,由于说话的间歇,weak-speech框架不可避免地由噪音。在本节中,我们提出一个semiadaptive训练多尺度熵扩张CNN。在大多数回归任务,Kullback-Leibler散度(KLD)被广泛用于测量两个概率分布之间的相似性。摘要概率分布是指真正的DOA和双耳语音源DOA估计本地化。的KLD可以制定为一笔“真相”熵和软crossentropy:gydF4y2Ba (4)gydF4y2Ba DgydF4y2Ba KgydF4y2Ba lgydF4y2Ba 问gydF4y2Ba |gydF4y2Ba |gydF4y2Ba pgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba ⋅gydF4y2Ba 日志gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba −gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba ⋅gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba 和gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba 表示真正的DOA和估计的概率gydF4y2Ba 我gydF4y2Ba thgydF4y2Ba 分别方位。无声的DOA概率或noise-dominant帧被认为是均匀分布gydF4y2Ba 我gydF4y2Ba 另。这种假设,“真相”KLD由统一替换熵熵。此外,一个学习的因素gydF4y2Ba λgydF4y2Ba 应用于平衡crossentropy统一熵:gydF4y2Ba (5)gydF4y2Ba JgydF4y2Ba =gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba λgydF4y2Ba EgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba λgydF4y2Ba EgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba 我gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba EgydF4y2Ba ⋅gydF4y2Ba 意味着在训练样本平均。方向约束下gydF4y2Ba λgydF4y2Ba ≠gydF4y2Ba 1gydF4y2Ba ,网络能够调整参数在不同的声学条件下。ADADELTA [gydF4y2Ba 25gydF4y2Ba)算法用于最小化损失函数。训练过程会低停止如果没有错误出现在验证设置在最后3时代。方位概率gydF4y2Ba PgydF4y2Ba θgydF4y2Ba 收到的信号块组成的上下文框架是由平均概率框架水准仪方位。通过最大化目标DOA估计gydF4y2Ba PgydF4y2Ba θgydF4y2Ba 。gydF4y2Ba

3所示。实验和讨论gydF4y2Ba 3.1。实验装置gydF4y2Ba

该方法评估使用双耳设置模拟声学条件,包括信噪比(信噪比),噪声类型和混响时间。声学条件总结表gydF4y2Ba 1gydF4y2Ba。说来源之间的额平面定位−90°和90°的步骤5°,即。37岁的方向,他们的高度是一样的接收者。基于双耳信号配方,head-related脉冲响应(HRIR) KEMAR数据集(gydF4y2Ba 26gydF4y2Ba]从TIMIT卷积的演讲录音数据集[gydF4y2Ba 27gydF4y2Ba]。模拟噪声条件下,六种常见的噪音从noisex - 92数据集gydF4y2Ba 28gydF4y2Ba)正确地截断和添加到每个麦克风信号基于相同的信噪比。每个散射噪声的噪声处理总结所有的定向卷积噪声和HRIR 37所产生的噪声不相关的方向。模拟反射的条件,(10的外壳gydF4y2Ba ×gydF4y2Ba 6gydF4y2Ba ×gydF4y2Ba 3)m是模拟使用Roomsim工具箱(gydF4y2Ba 29日gydF4y2Ba)基于图像方法(gydF4y2Ba 30.gydF4y2Ba]。这个房间里的所有表面都同样混响。一个虚拟的头被Subject_021从CIPIC数据集gydF4y2Ba 31日gydF4y2Ba放置在中心位置。source-to-sensor距离是1.5米。这种回响的设置带来的双耳的房间脉冲响应卷积测试演讲录音来生成一个混响数据集。所有16岁双耳语音混合采样kHz和一个汉明窗结构转变的512个样本256个样本。一块信号包含20个上下文框架,相当于一段时间336毫秒。定位性能是衡量在定位精度方面,认为估计DOA是正确的如果DOA估计在5°远离真正的DOA。gydF4y2Ba

训练集和测试集的配置。gydF4y2Ba

训练集gydF4y2Ba 测试组gydF4y2Ba
KEMAR HRIRsgydF4y2Ba 消声HRIRsgydF4y2Ba 消声HRIRs耳机AKGK271 MK IIgydF4y2Ba
TIMIT演讲录音gydF4y2Ba 10男性和女性gydF4y2Ba 其他3男性和女性gydF4y2Ba
Source-to-sensor距离gydF4y2Ba 0.5米,1米,2米,3米gydF4y2Ba 1米、1.5米gydF4y2Ba
噪声类型gydF4y2Ba 胡言乱语,destroyerops factory1gydF4y2Ba 白色,m109和f16gydF4y2Ba
信噪比gydF4y2Ba −20 dB: 15: 25分贝gydF4y2Ba −10 dB: 10: 30 dBgydF4y2Ba
混响时间gydF4y2Ba RgydF4y2Ba TgydF4y2Ba ¯gydF4y2Ba 60gydF4y2Ba 没有一个gydF4y2Ba 0.1,0.3,0.5gydF4y2Ba
Direct-to-reverberant比(DRR)gydF4y2Ba 没有一个gydF4y2Ba −1.44 dB,−2.02 dB,−2.58 dBgydF4y2Ba
双耳的混合物gydF4y2Ba 5819 52369无噪声的噪声信号和验证集gydF4y2Ba 各种噪声和信噪比,936和1221年混响信号gydF4y2Ba
3.2。影响学习的因素gydF4y2Ba

我们的网络是影响学习的适应性因素,这样的价值gydF4y2Ba λgydF4y2Ba 需要评估最大的适应性。注意,semiadaptive熵缺乏方向信息gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ;因此,最大的价值gydF4y2Ba λgydF4y2Ba 设置为0.999。的最小值gydF4y2Ba λgydF4y2Ba 设置为0;因此,semiadaptive熵变得crossentropy。在实验中,我们的网络与不同的学习训练因素从0到0.999gydF4y2Ba λgydF4y2Ba 是由评估验证设置在噪声条件下的定位精度与−20 dB信噪比。图gydF4y2Ba 2(一个)gydF4y2Ba展示了定位性能不同gydF4y2Ba λgydF4y2Ba 。有三个局部极大值图gydF4y2Ba 2(一个)gydF4y2Ba与不同的学习因素gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.5gydF4y2Ba ,gydF4y2Ba 0.9gydF4y2Ba 和gydF4y2Ba 0.99gydF4y2Ba ,分别。在ADADELTA [gydF4y2Ba 25gydF4y2Ba)更新算法,使用渐变积累学习速率是自动更新:gydF4y2Ba (6)gydF4y2Ba EgydF4y2Ba ΔgydF4y2Ba xgydF4y2Ba 2gydF4y2Ba tgydF4y2Ba =gydF4y2Ba ρgydF4y2Ba EgydF4y2Ba ΔgydF4y2Ba xgydF4y2Ba 2gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ρgydF4y2Ba ΔgydF4y2Ba xgydF4y2Ba tgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

(一)评估学习的因素gydF4y2Ba λgydF4y2Ba 。(b) DOA概率noise-dominant帧定位在60°。gydF4y2Ba

制定我们的semiadaptive熵也看起来像这个渐变积累的形式。每一项的梯度semiadaptive熵可以分开计算,累计梯度gydF4y2Ba (7)gydF4y2Ba EgydF4y2Ba ggydF4y2Ba 2gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba λgydF4y2Ba ρgydF4y2Ba EgydF4y2Ba ggydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba λgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ρgydF4y2Ba ggydF4y2Ba 1gydF4y2Ba tgydF4y2Ba 2gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ρgydF4y2Ba EgydF4y2Ba ggydF4y2Ba 2gydF4y2Ba 2gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba λgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ρgydF4y2Ba ggydF4y2Ba 2gydF4y2Ba tgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ggydF4y2Ba 1gydF4y2Ba tgydF4y2Ba 和gydF4y2Ba ggydF4y2Ba 2gydF4y2Ba tgydF4y2Ba 代表的梯度crossentropy和统一的熵,分别。在这里,gydF4y2Ba λgydF4y2Ba 也是一个hyperparameter作为动力因素控制学习速率。因此,该模型可以分为不同的局部极大值或鞍点在更新迭代。通过足够的验证gydF4y2Ba λgydF4y2Ba 与最佳性能设置为0.9,表明在嘈杂的环境中相对较高的适应性的网络。DOA概率-10分贝的双耳信号信噪比条件如图gydF4y2Ba 2 (b)gydF4y2Ba。信号的DOA 60°,但它被错误的DOA 65°时,网络是训练有素的gydF4y2Ba λgydF4y2Ba = 0。红色曲线显示了错误的DOA概率降低训练网络时gydF4y2Ba λgydF4y2Ba = 0.9。此外,由于统一的熵的影响,远离真正的DOA方位角》可能有非零概率。这是证明semiadaptive熵能有效提高网络的适应性。gydF4y2Ba

3.3。双耳SSL的评价gydF4y2Ba

我们的方法是与两个基线网络方法相比,即。多层感知器(MLP) (gydF4y2Ba 8gydF4y2Ba和频率相关款gydF4y2Ba 19gydF4y2Ba),网络体系结构也消融研究评估:gydF4y2Ba

常规CNN:常规CNN是用于我们的架构,而不是扩张CNNgydF4y2Ba

Dilation-2 CNN: CCF和ILD被送入不同的分支扩张CNN在拟议的架构,但CCF分支只栈两层Dilation-2 CNNgydF4y2Ba

Dilation-5 CNN: CCF和ILD被送入不同的分支扩张CNN在拟议的架构,但CCF分支只栈两层Dilation-5 CNNgydF4y2Ba

级联DCNN: dilation-2 CNN和dilation-5 CNN在CCF分支而不是并行级联。gydF4y2Ba

这些方法的定位精度如表所示gydF4y2Ba 2gydF4y2Ba(在吵闹的场景)和表gydF4y2Ba 3gydF4y2Ba(噪声和混响场景)。在表gydF4y2Ba 3gydF4y2Ba,象征“- / -”意味着没有加性噪声。在嘈杂的情况下,MLP优于低信噪比条件下的频率相关款,这是因为ITD和ILD估计在整个信号块而不是短帧。同款的结果相比,CNN-based方法精度平均提高2%到6%。原因在于,相邻频带可以提供相互的信息而不是独立的频带。在混响情况下,dilation-5 CNN优于其他人因为远程信息同样重要的互信息交叉分解后,远程信息包括两耳的功能直接路径,早期和晚期混响。相对较大的扩张CNN接受字段可以捕获更多的远程信息。由于不同扩张内核的互补,多尺度扩张CNN训练gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.9gydF4y2Ba 表现良好在嘈杂的环境但略逊于dilation-5 CNN回响的条件。有意义的融合多尺度扩张CNN学习自动之间的权衡小型和大型扩张内核噪声和混响条件。此外,我们也展示semiadaptive熵的重要性。与crossentropy相比,网络训练与semiadaptive熵,从而提高定位精度平均近10%强烈喧闹的场景和4.62%在回响的场景。gydF4y2Ba

定位精度(%)在加性噪声环境中不同的方法。gydF4y2Ba

信噪比gydF4y2Ba - - - - - -gydF4y2Ba −10 dBgydF4y2Ba 0分贝gydF4y2Ba 10 dBgydF4y2Ba 20 dBgydF4y2Ba 30 dBgydF4y2Ba
噪音gydF4y2Ba Avg。gydF4y2Ba 白色的gydF4y2Ba F16gydF4y2Ba M109gydF4y2Ba 白色的gydF4y2Ba F16gydF4y2Ba M109gydF4y2Ba 白色的gydF4y2Ba F16gydF4y2Ba M109gydF4y2Ba 白色的gydF4y2Ba F16gydF4y2Ba M109gydF4y2Ba 白色的gydF4y2Ba F16gydF4y2Ba M109gydF4y2Ba
延时(gydF4y2Ba 8gydF4y2Ba]gydF4y2Ba 83.77gydF4y2Ba 62.93gydF4y2Ba 53.21gydF4y2Ba 67.41gydF4y2Ba 72.65gydF4y2Ba 71.37gydF4y2Ba 82.37gydF4y2Ba 81.62gydF4y2Ba 86.75gydF4y2Ba 95.51gydF4y2Ba 89.42gydF4y2Ba 96.26gydF4y2Ba 99.15gydF4y2Ba 98.18gydF4y2Ba 99.89gydF4y2Ba 99.89gydF4y2Ba
款(gydF4y2Ba 19gydF4y2Ba]gydF4y2Ba 82.56gydF4y2Ba 43.16gydF4y2Ba 38.25gydF4y2Ba 53.42gydF4y2Ba 70.30gydF4y2Ba 57.16gydF4y2Ba 86.32gydF4y2Ba 97.65gydF4y2Ba 92.31gydF4y2Ba 100.0gydF4y2Ba 99.89gydF4y2Ba 99.89gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba
常规的美国有线电视新闻网gydF4y2Ba 84.65gydF4y2Ba 54.38gydF4y2Ba 41.99gydF4y2Ba 65.60gydF4y2Ba 73.61gydF4y2Ba 69.76gydF4y2Ba 86.43gydF4y2Ba 89.96gydF4y2Ba 90.81gydF4y2Ba 99.04gydF4y2Ba 98.72gydF4y2Ba 99.79gydF4y2Ba 99.79gydF4y2Ba 99.89gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba
Dilation-2 CNNgydF4y2Ba 87.46gydF4y2Ba 45.30gydF4y2Ba 54.17gydF4y2Ba 75.75gydF4y2Ba 70.94gydF4y2Ba 77.67gydF4y2Ba 97.76gydF4y2Ba 97.33gydF4y2Ba 93.59gydF4y2Ba 99.68gydF4y2Ba 99.89gydF4y2Ba 99.89gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba
Dilation-5 CNNgydF4y2Ba 90.14gydF4y2Ba 62.61gydF4y2Ba 54.17gydF4y2Ba 80.34gydF4y2Ba 83.55gydF4y2Ba 75.85gydF4y2Ba 99.15gydF4y2Ba 97.86gydF4y2Ba 98.61gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba
级联DCNNgydF4y2Ba 89.62gydF4y2Ba 57.05gydF4y2Ba 54.38gydF4y2Ba 87.61gydF4y2Ba 76.92gydF4y2Ba 76.50gydF4y2Ba 99.25gydF4y2Ba 95.51gydF4y2Ba 97.22gydF4y2Ba 100.0gydF4y2Ba 99.79gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 89.34gydF4y2Ba 59.83gydF4y2Ba 47.54gydF4y2Ba 78.63gydF4y2Ba 84.19gydF4y2Ba 74.47gydF4y2Ba 98.61gydF4y2Ba 98.40gydF4y2Ba 98.50gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.9gydF4y2Ba 91.85gydF4y2Ba 68.16gydF4y2Ba 56.62gydF4y2Ba 90.06gydF4y2Ba 86.00gydF4y2Ba 80.24gydF4y2Ba 99.36gydF4y2Ba 98.61gydF4y2Ba 98.72gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba 100.0gydF4y2Ba

定位精度(%)的不同的方法在噪声和混响的场景。gydF4y2Ba

RTgydF4y2Ba60gydF4y2Ba/ DRRgydF4y2Ba - - - - - -gydF4y2Ba 0.1 s /−1.44 dBgydF4y2Ba 0.3 s /−2.02 dBgydF4y2Ba 0.5 s /−2.58 dBgydF4y2Ba
噪声和信噪比gydF4y2Ba Avg。gydF4y2Ba - / -gydF4y2Ba 白色/ 15分贝gydF4y2Ba - / -gydF4y2Ba 白色/ 15分贝gydF4y2Ba - / -gydF4y2Ba 白色/ 15分贝gydF4y2Ba
延时(gydF4y2Ba 8gydF4y2Ba]gydF4y2Ba 28.87gydF4y2Ba 43.24gydF4y2Ba 24.46gydF4y2Ba 33.42gydF4y2Ba 24.19gydF4y2Ba 23.84gydF4y2Ba 24.05gydF4y2Ba
款(gydF4y2Ba 19gydF4y2Ba]gydF4y2Ba 67.69gydF4y2Ba 92.14gydF4y2Ba 78.11gydF4y2Ba 74.94gydF4y2Ba 53.51gydF4y2Ba 63.81gydF4y2Ba 43.65gydF4y2Ba
常规的美国有线电视新闻网gydF4y2Ba 61.40gydF4y2Ba 85.26gydF4y2Ba 79.73gydF4y2Ba 58.23gydF4y2Ba 52.16gydF4y2Ba 49.40gydF4y2Ba 43.65gydF4y2Ba
Dilation-2 CNNgydF4y2Ba 57.69gydF4y2Ba 77.15gydF4y2Ba 75.41gydF4y2Ba 56.02gydF4y2Ba 50.14gydF4y2Ba 43.74gydF4y2Ba 43.65gydF4y2Ba
Dilation-5 CNNgydF4y2Ba 84.03gydF4y2Ba 94.59gydF4y2Ba 89.46gydF4y2Ba 92.14gydF4y2Ba 75.95gydF4y2Ba 86.62gydF4y2Ba 65.41gydF4y2Ba
级联DCNNgydF4y2Ba 73.16gydF4y2Ba 91.15gydF4y2Ba 77.84gydF4y2Ba 84.52gydF4y2Ba 56.62gydF4y2Ba 79.25gydF4y2Ba 49.59gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 78.86gydF4y2Ba 93.12gydF4y2Ba 87.97gydF4y2Ba 83.78gydF4y2Ba 71.08gydF4y2Ba 76.50gydF4y2Ba 60.68gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.9gydF4y2Ba 83.48gydF4y2Ba 94.59gydF4y2Ba 89.05gydF4y2Ba 90.66gydF4y2Ba 77.70gydF4y2Ba 85.08gydF4y2Ba 63.81gydF4y2Ba
4所示。结论gydF4y2Ba

在这项工作中,我们提出了一个基于多尺度自适应双耳SSL方法扩张CNN。CCF的单独的扩张CNN可以编码区别的表示和ILD特性。通过同步操作输入,dilation-2 CNN和dilation-5 CNN在噪声和混响条件相互补充。另外,我们得到的熵semiadaptive Kullback-Leibler散度自适应训练方向约束下的网络。培训的高价值的学习因子、多尺度扩张CNN可以概括在前所未有的场景。实验结果证明了这种方法的优越性与其他相比基线方法和single-scale网络不良场景。gydF4y2Ba

数据可用性gydF4y2Ba

所有的数据是开放和它的来源已经在我们的论文。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

确认gydF4y2Ba

这项工作是由中国国家自然科学基金(61673030号和U1613209)和国家自然科学基金深圳(没有。JCYJ20190808182209321)。gydF4y2Ba

BlauertgydF4y2Ba J。gydF4y2Ba 空间听觉:人类声音的心理物理学本地化gydF4y2Ba 1997年gydF4y2Ba 美国剑桥,马gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 克纳普gydF4y2Ba C。gydF4y2Ba 卡特gydF4y2Ba G。gydF4y2Ba 广义相关时延估计方法gydF4y2Ba IEEE声学,演讲,和信号处理gydF4y2Ba 1976年gydF4y2Ba 24gydF4y2Ba 4gydF4y2Ba 320年gydF4y2Ba 327年gydF4y2Ba 10.1109 / tassp.1976.1162830gydF4y2Ba 2 - s2.0 - 0016990291gydF4y2Ba 吴gydF4y2Ba X。gydF4y2Ba TalagalagydF4y2Ba D。gydF4y2Ba 张gydF4y2Ba W。gydF4y2Ba AbhayapalagydF4y2Ba T。gydF4y2Ba 空间特性为强劲的双耳声源定位学习使用一个复合的特征向量gydF4y2Ba 学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2016年3月gydF4y2Ba 中国上海gydF4y2Ba 6320年gydF4y2Ba 6324年gydF4y2Ba 伍德乐夫gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba D。gydF4y2Ba 双耳定位多个来源的混响和嘈杂的环境gydF4y2Ba IEEE音频、语音和语言处理gydF4y2Ba 2012年gydF4y2Ba 20.gydF4y2Ba 5gydF4y2Ba 1503年gydF4y2Ba 1512年gydF4y2Ba 10.1109 / tasl.2012.2183869gydF4y2Ba 2 - s2.0 - 84872299752gydF4y2Ba ZohouriangydF4y2Ba M。gydF4y2Ba 马丁gydF4y2Ba R。gydF4y2Ba MadhugydF4y2Ba N。gydF4y2Ba 新见解头半径在基于模型的双耳演讲者的角色定位gydF4y2Ba 学报IEEE欧洲信号处理的会议gydF4y2Ba 2017年8月gydF4y2Ba 希腊科斯岛gydF4y2Ba 221年gydF4y2Ba 225年gydF4y2Ba 比尔gydF4y2Ba G。gydF4y2Ba 电火花冲激的测量KEMAR人工头麦克风gydF4y2Ba 米尔媒体实验室,知觉Computing-Technical报告gydF4y2Ba 1994年gydF4y2Ba 280年gydF4y2Ba 1gydF4y2Ba 7gydF4y2Ba 可能gydF4y2Ba T。gydF4y2Ba van de不相上下gydF4y2Ba 年代。gydF4y2Ba 科尔劳施gydF4y2Ba 一个。gydF4y2Ba 强大的本地化的概率模型基于双耳听觉前端gydF4y2Ba IEEE音频、语音和语言处理gydF4y2Ba 2011年gydF4y2Ba 19gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 13gydF4y2Ba 10.1109 / tasl.2010.2042128gydF4y2Ba 2 - s2.0 - 77957729908gydF4y2Ba 优素福gydF4y2Ba K。gydF4y2Ba ArgentierigydF4y2Ba 年代。gydF4y2Ba ZaradergydF4y2Ba J。gydF4y2Ba 双耳声源定位方法使用耳朵的线索和愿景gydF4y2Ba 学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2012年3月gydF4y2Ba 日本京都gydF4y2Ba 217年gydF4y2Ba 220年gydF4y2Ba 马gydF4y2Ba N。gydF4y2Ba 布朗gydF4y2Ba G。gydF4y2Ba 冈萨雷斯gydF4y2Ba J。gydF4y2Ba 利用自上而下的源模型来提高双耳本地化混响环境中多个来源gydF4y2Ba 学报》国际言语交际协会年会(INTERSPEECH)gydF4y2Ba 2015年9月gydF4y2Ba 德国德累斯顿gydF4y2Ba 160年gydF4y2Ba 164年gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba 刘gydF4y2Ba H。gydF4y2Ba 健壮的声学定位通过时滞补偿和双耳匹配滤波器gydF4y2Ba IEEE信号处理gydF4y2Ba 2015年gydF4y2Ba 63年gydF4y2Ba 18gydF4y2Ba 4771年gydF4y2Ba 4783年gydF4y2Ba 10.1109 / tsp.2015.2447496gydF4y2Ba 2 - s2.0 - 84939786729gydF4y2Ba 庞gydF4y2Ba C。gydF4y2Ba 刘gydF4y2Ba H。gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba 李gydF4y2Ba X。gydF4y2Ba 双耳声定位基于混响权重和广义参数映射gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2017年gydF4y2Ba 25gydF4y2Ba 8gydF4y2Ba 1618年gydF4y2Ba 1632年gydF4y2Ba 10.1109 / taslp.2017.2703650gydF4y2Ba 2 - s2.0 - 85028427960gydF4y2Ba 黄gydF4y2Ba J。gydF4y2Ba 吴建gydF4y2Ba N。gydF4y2Ba SugiegydF4y2Ba N。gydF4y2Ba 声音定位在混响环境下基于优先级的模型效果gydF4y2Ba IEEE仪表和测量gydF4y2Ba 1997年gydF4y2Ba 46gydF4y2Ba 4gydF4y2Ba 842年gydF4y2Ba 846年gydF4y2Ba 10.1109/19.650785gydF4y2Ba 2 - s2.0 - 0031199145gydF4y2Ba 杰弗里斯gydF4y2Ba lgydF4y2Ba 一个地方的声音定位理论gydF4y2Ba IEEE比较和生理心理学杂志》上gydF4y2Ba 1947年gydF4y2Ba 61年gydF4y2Ba 468年gydF4y2Ba 486年gydF4y2Ba 恋人gydF4y2Ba g·R。gydF4y2Ba 戈什gydF4y2Ba p K。gydF4y2Ba 双耳语音源定位使用模板匹配的双耳时间差模式gydF4y2Ba 学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2018年4月gydF4y2Ba 加拿大卡尔加里gydF4y2Ba 5164年gydF4y2Ba 5168年gydF4y2Ba 克里斯坦森gydF4y2Ba H。gydF4y2Ba 马gydF4y2Ba N。gydF4y2Ba 箭牌gydF4y2Ba s . N。gydF4y2Ba 巴克gydF4y2Ba J。gydF4y2Ba 演讲片段licalising多个扬声器在混响环境的方法gydF4y2Ba 点火的IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2009年4月gydF4y2Ba 台北,台湾gydF4y2Ba 4593年gydF4y2Ba 4596年gydF4y2Ba 王gydF4y2Ba Z.-Q。gydF4y2Ba 张gydF4y2Ba X。gydF4y2Ba 王gydF4y2Ba D。gydF4y2Ba 基于健壮的扬声器定位指导下深学习时频掩蔽gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2019年gydF4y2Ba 27gydF4y2Ba 1gydF4y2Ba 178年gydF4y2Ba 188年gydF4y2Ba 10.1109 / taslp.2018.2876169gydF4y2Ba 2 - s2.0 - 85055049949gydF4y2Ba ChakrabartygydF4y2Ba 年代。gydF4y2Ba HabetsgydF4y2Ba E。gydF4y2Ba 宽带DOA估计使用卷积神经网络训练和噪声信号gydF4y2Ba IEEE学报》研讨会上的应用信号处理音频和声学(WASPAA)gydF4y2Ba 2017年10月gydF4y2Ba 美国纽约(纽柏兹gydF4y2Ba 136年gydF4y2Ba 140年gydF4y2Ba 他gydF4y2Ba W。gydF4y2Ba MotlicekgydF4y2Ba P。gydF4y2Ba OdobezgydF4y2Ba 人类。gydF4y2Ba 联合多个声音源定位和分类使用神经网络多任务gydF4y2Ba 学报》国际言语交际协会年会(INTERSPEECH)gydF4y2Ba 2018年9月gydF4y2Ba 建邦者海德拉巴,纳gydF4y2Ba 312年gydF4y2Ba 316年gydF4y2Ba 马gydF4y2Ba N。gydF4y2Ba 可能gydF4y2Ba T。gydF4y2Ba 布朗gydF4y2Ba g . J。gydF4y2Ba 利用神经网络和头部动作的健壮的双耳定位在混响环境中多个来源gydF4y2Ba IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2017年gydF4y2Ba 25gydF4y2Ba 12gydF4y2Ba 2444年gydF4y2Ba 2453年gydF4y2Ba 10.1109 / taslp.2017.2750760gydF4y2Ba 2 - s2.0 - 85032733582gydF4y2Ba 武田gydF4y2Ba R。gydF4y2Ba KomatanigydF4y2Ba K。gydF4y2Ba 无监督的改编深层神经网络使用熵最小化进行声源定位gydF4y2Ba 学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2017年3月gydF4y2Ba 新奥尔良,洛杉矶,美国gydF4y2Ba 2217年gydF4y2Ba 2221年gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 钱gydF4y2Ba K。gydF4y2Ba 双耳声定位基于深层神经网络和亲和力传播集群状况不匹配的电火花冲激gydF4y2Ba EURASIP杂志在音频、语音和音乐的处理gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 4gydF4y2Ba 10.1186 / s13636 - 020 - 0171 - ygydF4y2Ba 丁gydF4y2Ba J。gydF4y2Ba 李gydF4y2Ba J。gydF4y2Ba 郑gydF4y2Ba C。gydF4y2Ba 李gydF4y2Ba X。gydF4y2Ba 宽带稀疏贝叶斯学习网的双耳声源定位gydF4y2Ba 信号处理(SP)gydF4y2Ba 2019年gydF4y2Ba 166年gydF4y2Ba 107250年gydF4y2Ba 10.1016 / j.sigpro.2019.107250gydF4y2Ba 王gydF4y2Ba D。gydF4y2Ba 布朗gydF4y2Ba G。gydF4y2Ba 计算听觉场景分析:原理、算法和应用程序gydF4y2Ba 2006年gydF4y2Ba 美国新泽西州皮斯卡塔韦gydF4y2Ba Wiley-IEEE新闻gydF4y2Ba 常gydF4y2Ba S.-Y。gydF4y2Ba 李gydF4y2Ba B。gydF4y2Ba SimkogydF4y2Ba G。gydF4y2Ba 使用扩张卷积和浇注voice-activity-detection时序建模gydF4y2Ba 学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba 2018年4月gydF4y2Ba 加拿大卡尔加里gydF4y2Ba 5549年gydF4y2Ba 5553年gydF4y2Ba ZeilergydF4y2Ba m D。gydF4y2Ba “ADADELTA:一个自适应学习速率法”,gydF4y2Ba 2012年gydF4y2Ba arXiv预印本arXiv: 1212.5701gydF4y2Ba WierstorfgydF4y2Ba H。gydF4y2Ba 现gydF4y2Ba M。gydF4y2Ba 设想gydF4y2Ba 年代。gydF4y2Ba 免费的数据库head-related脉冲响应测量的水平面与多个距离gydF4y2Ba 音频工程学会学报公约(AES)gydF4y2Ba 2011年5月gydF4y2Ba 英国伦敦gydF4y2Ba GarofologydF4y2Ba J。gydF4y2Ba 薄层gydF4y2Ba lgydF4y2Ba 费雪gydF4y2Ba W。gydF4y2Ba FiscusgydF4y2Ba J。gydF4y2Ba PallettgydF4y2Ba D。gydF4y2Ba 美国国防部高级研究计划局TIMIT acoustic-phonetic连续语音语料库cd - rom。NIST演讲光盘1 - 1.1gydF4y2Ba 1993年gydF4y2Ba 美国华盛顿特区gydF4y2Ba 美国航天局STI /侦察gydF4y2Ba 技术报告93年gydF4y2Ba 巴尔加gydF4y2Ba 一个。gydF4y2Ba SteenekengydF4y2Ba h·j·M。gydF4y2Ba 评估自动语音识别:II。noisex - 92:一个数据库和一个实验来研究添加剂噪声对语音识别系统的影响gydF4y2Ba 言语交际gydF4y2Ba 1993年gydF4y2Ba 12gydF4y2Ba 3gydF4y2Ba 247年gydF4y2Ba 251年gydF4y2Ba 10.1016 / 0167 - 6393 (93)90095 - 3gydF4y2Ba 2 - s2.0 - 0027623210gydF4y2Ba 坎贝尔gydF4y2Ba D。gydF4y2Ba PalomakigydF4y2Ba K。gydF4y2Ba 布朗gydF4y2Ba G。gydF4y2Ba “鞋盒”室内声学的MATLAB仿真研究和教学使用gydF4y2Ba 计算和信息系统(CIS)gydF4y2Ba 2005年gydF4y2Ba 9gydF4y2Ba 3gydF4y2Ba 48gydF4y2Ba 51gydF4y2Ba 艾伦gydF4y2Ba j·B。gydF4y2Ba 伯克利gydF4y2Ba d . A。gydF4y2Ba 图像的方法有效地模拟小房间声学gydF4y2Ba 《美国声学学会杂志》上gydF4y2Ba 1979年gydF4y2Ba 65年gydF4y2Ba 4gydF4y2Ba 943年gydF4y2Ba 950年gydF4y2Ba 10.1121/1.382599gydF4y2Ba 2 - s2.0 - 0018455820gydF4y2Ba AlgazigydF4y2Ba V。gydF4y2Ba 杜达gydF4y2Ba R。gydF4y2Ba 汤普森gydF4y2Ba D。gydF4y2Ba 阿根廷gydF4y2Ba C。gydF4y2Ba 的CIPIC电火花冲激数据库gydF4y2Ba IEEE学报》研讨会上的应用信号处理音频和声学(WASPAA)gydF4y2Ba 2001年10月gydF4y2Ba 美国纽约(纽柏兹gydF4y2Ba 99年gydF4y2Ba 102年gydF4y2Ba