raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

复杂性gydF4y2Ba

1099 - 0526gydF4y2Ba 1076 - 2787gydF4y2Ba

HindawigydF4y2Ba

10.1155 / 2020/5819624gydF4y2Ba

5819624gydF4y2Ba

研究文章gydF4y2Ba

基于多尺度自适应方法扩张卷积网络双耳语音源定位gydF4y2Ba

https://orcid.org/0000 - 0002 - 0280 - 848 xgydF4y2Ba

吴gydF4y2Ba

露露gydF4y2Ba

^1gydF4y2Ba

https://orcid.org/0000 - 0002 - 7498 - 6541gydF4y2Ba

刘gydF4y2Ba

在香港gydF4y2Ba

^1gydF4y2Ba 杨gydF4y2Ba

必应gydF4y2Ba

^1gydF4y2Ba 丁gydF4y2Ba

RunweigydF4y2Ba

^1gydF4y2Ba ^2gydF4y2Ba 杨gydF4y2Ba

ZhilegydF4y2Ba

^1gydF4y2Ba

重点实验室的机器感知gydF4y2Ba

深圳研究生院gydF4y2Ba

北京大学gydF4y2Ba

深圳518055年gydF4y2Ba

中国gydF4y2Ba

pku.edu.cngydF4y2Ba

^2gydF4y2Ba

学校的人工智能gydF4y2Ba

重庆理工大学gydF4y2Ba

重庆401135gydF4y2Ba

中国gydF4y2Ba

cqut.edu.cngydF4y2Ba

2020年gydF4y2Ba

30.gydF4y2Ba 12gydF4y2Ba 2020年gydF4y2Ba

2020年gydF4y2Ba 27gydF4y2Ba 6gydF4y2Ba 2020年gydF4y2Ba 16gydF4y2Ba 11gydF4y2Ba 2020年gydF4y2Ba 24gydF4y2Ba 11gydF4y2Ba 2020年gydF4y2Ba 30.gydF4y2Ba 12gydF4y2Ba 2020年gydF4y2Ba

2020年gydF4y2Ba

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

大多数双耳语音源定位模型在空前噪声和混响情况下表现不佳。这个问题是接洽造型多尺度扩张卷积神经网络(CNN)。与时间相关的互相关函数(CCF)和能源两耳水平差异(ILD)的预处理在单独的分支扩张卷积网络。多尺度扩张CNN可以为CCF和ILD编码区别的表征,分别。编码后,个人两耳表示融合映射源方向。此外,为了提高参数的适应性,提出了一种新型semiadaptive熵火车定向约束下的网络。实验结果表明该方法可以自适应地确定演讲来源在模拟噪声和混响环境。gydF4y2Ba

中国国家自然科学基金gydF4y2Ba

61673030gydF4y2Ba

U1613209gydF4y2Ba

国家自然科学基金的深圳gydF4y2Ba

JCYJ20190808182209321gydF4y2Ba

1。介绍gydF4y2Ba

语音源定位(SSL)吸引了越来越多的关注在过去几十年。它广泛应用于人机交互系统和视频会议系统。双耳语音源定位子任务的语音源定位,针对估计到达方向(DOA)的一次演讲中源利用音频信号记录的双耳麦克风安装在人造耳朵仿真头(gydF4y2Ba 1gydF4y2Ba]。双耳语音源的管道定位包含两个步骤。首先,提取双耳线索,即。,我nteraural time differences (ITD) and interaural level differences (ILD) from received binaural signals [ 2gydF4y2Ba- - - - - -gydF4y2Ba 4gydF4y2Ba]。包含的假头,空间信号的频率相关特性可以被head-related传递函数(电火花冲激)[gydF4y2Ba 5gydF4y2Ba,gydF4y2Ba 6gydF4y2Ba]。这个频率依赖激励为双耳信号时频表示的使用。一个典型的双耳信号时频表示是基于Gammatone过滤器通常用于模拟人类听觉系统的外围处理(gydF4y2Ba 7gydF4y2Ba- - - - - -gydF4y2Ba 9gydF4y2Ba]。第二步对DOA估计是应用几何分析技术(gydF4y2Ba 1gydF4y2Ba)或离线模型(gydF4y2Ba 4gydF4y2Ba,gydF4y2Ba 7gydF4y2Ba双耳线索映射到声源DOA。多年来,大多数方法提出了从两个方面提高双耳SSL的性能:估计健壮的双耳线索和改善上优于模型的泛化。gydF4y2Ba

双耳时间差的最大值对应的时间延迟左右麦克风信号的互相关函数。耳间水平差异是对数的区别左派和右派之间的电能麦克风信号。然而,在噪声和混响环境,会有额外的山峰在互相关函数和权力目标语音源的能量损失。额外的峰值和能量损失将导致不可靠的双耳信号估计。为了改善这些不可靠的双耳线索,提出了时滞补偿方法使ILD和ITDgydF4y2Ba 10gydF4y2Ba),混响加权法提出了抑制早期和晚期混响(gydF4y2Ba 11gydF4y2Ba),无回声发作检测方法提出了检测直接路径信号(gydF4y2Ba 12gydF4y2Ba]。因为ITD是更健壮的频率较低(低于1.5 kHz)和ILD是更可靠的高频率gydF4y2Ba 13gydF4y2Ba),Gammatone过滤器通常用于过滤低和高频率。恋人和Ghosh Gammatone过滤器用于预处理的双耳信号和频率相关ITD另使用ITD-azimuth模板映射(gydF4y2Ba 14gydF4y2Ba]。可能等人建模ITD和ILD分解为每个源方向使用高斯混合模型(gmm) [gydF4y2Ba 7gydF4y2Ba]。场景中与多个激活语音来源,双耳信号的时频(TF)表示也能够区分噪声和语音源在不同的片段。克里斯腾森等人研究了不同的TF重量估算方法对双耳线索(gydF4y2Ba 15gydF4y2Ba]。最近,深层神经网络言论显示显著的性能对噪声和混响源定位,包括时频掩蔽估计(gydF4y2Ba 16gydF4y2Ba和多源定位gydF4y2Ba 17gydF4y2Ba]。卷积神经网络(CNN)可以用来估计宽带到达方向(DOA)的语音源使用阶段组件(gydF4y2Ba 17gydF4y2Ba)和共同定位和多个语音源的分类gydF4y2Ba 18gydF4y2Ba]。频率相关深层神经网络(款)和头部动作可以被利用来检测多个DOAs和识别正反面混淆(gydF4y2Ba 19gydF4y2Ba]。然而,培训这样一个健壮的、好地实现模型需要大量的各种声学条件。很少有研究提出了改进模型的适应性前所未有的条件。武田和Komatani提出培训计划无监督自熵和参数适应款参数使用的选择(gydF4y2Ba 20.gydF4y2Ba,王等人提出了一个基于款data-efficient方法和集群来提高双耳定位性能的不匹配的电火花冲激条件(gydF4y2Ba 21gydF4y2Ba),但定位性能仍然保持贫穷。为了解决网的问题,一个离网BSSL方法基于一个离网宽带稀疏贝叶斯学习算法,它只比最先进的HRTF-based BSSL方法(gydF4y2Ba 22gydF4y2Ba]。它仍然是具有挑战性的如何推广上优于模型,使其自适应定位双耳信号在以前看不见的和不利的声学环境。gydF4y2Ba

在这里,我们提出一种多尺度扩张CNN-based进一步解决这些问题的方法。互相关函数(CCF)和耳间水平差异(ILD)中提取的双耳信号作为输入功能。为了保存详细的空间信息,CCF和ILD分别在不同扩张cnn预处理与特定的扩张的因素。后来,CCF的两耳编码表示和ILD都学习crossdomain信息融合。crossdomain信息编码的多尺度扩张cnn提供之间的权衡的接受域大小CCF和ILD特性更好的推广网络在不同声学条件。在这个网络中,剩下的问题是如何适应网络参数看不见的声学条件。利用无监督的研究适应网络参数(gydF4y2Ba 20.gydF4y2Ba),我们还提出一个semiadaptive熵作为目标函数。不同于自熵,熵semiadaptive包括crossentropy部分提高定位的性能。除此之外,一个学习的因素是用于体重crossentropy的注意和自熵。gydF4y2Ba

总之,我们的贡献如下:gydF4y2Ba (我)gydF4y2Ba

我们提出一种多尺度扩张CNN双耳语音源定位框架,有效地编码互相关函数和双耳水平差异特性从不同膨胀的因素。gydF4y2Ba

(2)gydF4y2Ba

我们提出一个semiadaptive熵为CNN的参数适应。实验结果表明,多尺度扩张CNN训练semiadaptive熵达到明显改善了普通款和CNN噪声和混响声环境。gydF4y2Ba

2。多尺度扩张美国有线电视新闻网gydF4y2Ba

假设只有一个目标,获得双耳信号可以由语音信号卷积和制定head-related脉冲响应(HRIR)在时域gydF4y2Ba (1)gydF4y2Ba ygydF4y2Ba 米gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ⊗gydF4y2Ba hgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba +gydF4y2Ba vgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba ∈gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba rgydF4y2Ba ,gydF4y2Ba 的象征gydF4y2Ba ⊗gydF4y2Ba 代表卷积操作,gydF4y2Ba 米gydF4y2Ba 代表双耳麦克风指数,gydF4y2Ba lgydF4y2Ba 和gydF4y2Ba rgydF4y2Ba 指的是左和右麦克风,gydF4y2Ba ngydF4y2Ba 是时间的指数,gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba 表示语音信号gydF4y2Ba hgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba 表示head-related脉冲响应。为了像人工耳蜗的频率选择性,双耳信号分解成32听觉通道使用四阶Gammatone滤波器组(gydF4y2Ba 23gydF4y2Ba]。Gammatone滤波器的中心频率是对数等距的等效矩形带宽规模在80赫兹和8 kHz。过滤后的双耳信号,左派和右派之间的互相关函数计算信号在每个频率独立副环带。CCF进一步规范化,左派和右派的自相关信号。CCF制定作为时间的函数是延迟gydF4y2Ba τgydF4y2Ba :gydF4y2Ba (2)gydF4y2Ba cgydF4y2Ba cgydF4y2Ba fgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba τgydF4y2Ba =gydF4y2Ba RgydF4y2Ba lgydF4y2Ba rgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba τgydF4y2Ba RgydF4y2Ba lgydF4y2Ba lgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba RgydF4y2Ba rgydF4y2Ba rgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba RgydF4y2Ba lgydF4y2Ba rgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba τgydF4y2Ba 表示左派和右派之间的互相关信号和gydF4y2Ba kgydF4y2Ba 该指数可。gydF4y2Ba RgydF4y2Ba lgydF4y2Ba lgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 和gydF4y2Ba RgydF4y2Ba lgydF4y2Ba lgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 0gydF4y2Ba 表示左和右信号的自相关gydF4y2Ba τgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,分别。一般来说,人工耳朵的仿真头的直径大约是15 - 17厘米。根据声音传播的速度,到达时间可以估计在两个耳朵之间的区别gydF4y2Ba ±gydF4y2Ba 1.1 ms。在现实的条件下,考虑遮蔽效应,最大延时设置为2毫秒。例如,双耳信号的互相关函数采样延迟16千赫范围内的中心gydF4y2Ba ±gydF4y2Ba 2一个矩阵形式CCF女士32的大小gydF4y2Ba ×gydF4y2Ba 65年。其他双耳线索ILD对数双耳信号之间的能量差,这是制定如下:gydF4y2Ba (3)gydF4y2Ba 我gydF4y2Ba lgydF4y2Ba dgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 10gydF4y2Ba 日志gydF4y2Ba 10gydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ygydF4y2Ba rgydF4y2Ba 2gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba ygydF4y2Ba lgydF4y2Ba 2gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 年代gydF4y2Ba ngydF4y2Ba 表示一系列样本指标的集合gydF4y2Ba tgydF4y2Ba 在gydF4y2Ba ngydF4y2Ba thgydF4y2Ba 框架。自双耳信号被陷害到短而稳定的语音信号,会有nonenergy帧。这些nonenergy帧将被忽视。双耳信号的双耳高差形成一个向量ILD和32的大小gydF4y2Ba ×gydF4y2Ba 1在所有频率分解。gydF4y2Ba

2.1。网络体系结构gydF4y2Ba

SSL可以被视为一个方向分类任务基于CNN。通过扩张密度卷积与零内核,扩张CNN可以操作一个粗感受野和显示强劲的性能对于语音活动检测在嘈杂的环境中gydF4y2Ba 24gydF4y2Ba]。因此,扩张CNN被认为是在我们的网络编码健壮的两耳特性。提出了多尺度扩张CNN的示意图如图gydF4y2Ba 1gydF4y2Ba。扩张的两个例子内核,内核大小3所示图右上角的一面gydF4y2Ba 1gydF4y2Ba。零相邻细胞之间的细胞的数量取决于膨胀系数(DF)。黑块表示卷积内核的参数来激活相应的输入细胞,而白色块表示零输入细胞灭活。0两个激活细胞的数量是DF-1。gydF4y2Ba

图1gydF4y2Ba

原理图的多尺度扩张CNN。gydF4y2Ba

在双耳语音源定位,CCF ILD反映时间相关和能源相关的物理信息,分别。在我们的方法中,分离的多尺度扩张CNN是为了更好的捕捉独立双耳的特征根据其物理含义。CCF包括两个并行的分支扩张CNN,其中一个栈两个扩张CNN层与DF = 2(即。,dilation-2 CNN)和其他分支栈两个扩张CNN层与DF = 5(即。,dilation-5 CNN)。这多尺度扩张CNN设计定位的双耳信号方位角额障碍的范围(−90°、90°)。以37另间隔5°的步骤为例,65个样本的时间延迟CCF正是DOAs的数量的两倍。考虑一个信号的DOA估计的最大互相关和周围的值的最大一个内核。在现实中,相邻DOAs内一些角距离也考虑。有鉴于此,我们隐式地包含5°和10°的宽容错误设置膨胀因素2和5。内核与扩张因素2和图5描述的公差范围(0°,10°)。这里,膨胀系数4不包括因为它可以通过移动内核与扩张因素2两次。 The other branch for ILD consists of only one layer of dilated CNN with dilation factor 2. All CNN layers employ 64 kernels to double expand frequency bands and are activated by rectified linear unit activation function and a dropout probability 0.5. The max-pooling layers are added after each dilation-2 CNN to reduce parameters but are excluded in dilation-5 CNN to preserve details. Finally, all interaural representations are fused in a fully connected layer with 128 neurons and followed by an output layer with Softmax activation function. The aforementioned parameters are sufficiently evaluated in experiments.

2.2。Semiadaptive熵gydF4y2Ba

如前所述,相邻的另一些公差内可以被认为是正确的。此外,由于说话的间歇,weak-speech框架不可避免地由噪音。在本节中,我们提出一个semiadaptive训练多尺度熵扩张CNN。在大多数回归任务,Kullback-Leibler散度(KLD)被广泛用于测量两个概率分布之间的相似性。摘要概率分布是指真正的DOA和双耳语音源DOA估计本地化。的KLD可以制定为一笔“真相”熵和软crossentropy:gydF4y2Ba (4)gydF4y2Ba DgydF4y2Ba KgydF4y2Ba lgydF4y2Ba 问gydF4y2Ba |gydF4y2Ba |gydF4y2Ba pgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba ⋅gydF4y2Ba 日志gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba −gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba ⋅gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba 和gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba 表示真正的DOA和估计的概率gydF4y2Ba 我gydF4y2Ba thgydF4y2Ba 分别方位。无声的DOA概率或noise-dominant帧被认为是均匀分布gydF4y2Ba 我gydF4y2Ba 另。这种假设,“真相”KLD由统一替换熵熵。此外,一个学习的因素gydF4y2Ba λgydF4y2Ba 应用于平衡crossentropy统一熵:gydF4y2Ba (5)gydF4y2Ba JgydF4y2Ba =gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba λgydF4y2Ba EgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba 问gydF4y2Ba 我gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba λgydF4y2Ba EgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba 我gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba EgydF4y2Ba ⋅gydF4y2Ba 意味着在训练样本平均。方向约束下gydF4y2Ba λgydF4y2Ba ≠gydF4y2Ba 1gydF4y2Ba ,网络能够调整参数在不同的声学条件下。ADADELTA [gydF4y2Ba 25gydF4y2Ba)算法用于最小化损失函数。训练过程会低停止如果没有错误出现在验证设置在最后3时代。方位概率gydF4y2Ba PgydF4y2Ba θgydF4y2Ba 收到的信号块组成的上下文框架是由平均概率框架水准仪方位。通过最大化目标DOA估计gydF4y2Ba PgydF4y2Ba θgydF4y2Ba 。gydF4y2Ba

3所示。实验和讨论gydF4y2Ba 3.1。实验装置gydF4y2Ba

该方法评估使用双耳设置模拟声学条件,包括信噪比(信噪比),噪声类型和混响时间。声学条件总结表gydF4y2Ba 1gydF4y2Ba。说来源之间的额平面定位−90°和90°的步骤5°,即。37岁的方向,他们的高度是一样的接收者。基于双耳信号配方,head-related脉冲响应(HRIR) KEMAR数据集(gydF4y2Ba 26gydF4y2Ba]从TIMIT卷积的演讲录音数据集[gydF4y2Ba 27gydF4y2Ba]。模拟噪声条件下,六种常见的噪音从noisex - 92数据集gydF4y2Ba 28gydF4y2Ba)正确地截断和添加到每个麦克风信号基于相同的信噪比。每个散射噪声的噪声处理总结所有的定向卷积噪声和HRIR 37所产生的噪声不相关的方向。模拟反射的条件,(10的外壳gydF4y2Ba ×gydF4y2Ba 6gydF4y2Ba ×gydF4y2Ba 3)m是模拟使用Roomsim工具箱(gydF4y2Ba 29日gydF4y2Ba)基于图像方法(gydF4y2Ba 30.gydF4y2Ba]。这个房间里的所有表面都同样混响。一个虚拟的头被Subject_021从CIPIC数据集gydF4y2Ba 31日gydF4y2Ba放置在中心位置。source-to-sensor距离是1.5米。这种回响的设置带来的双耳的房间脉冲响应卷积测试演讲录音来生成一个混响数据集。所有16岁双耳语音混合采样kHz和一个汉明窗结构转变的512个样本256个样本。一块信号包含20个上下文框架,相当于一段时间336毫秒。定位性能是衡量在定位精度方面,认为估计DOA是正确的如果DOA估计在5°远离真正的DOA。gydF4y2Ba

表1gydF4y2Ba

训练集和测试集的配置。gydF4y2Ba

	训练集gydF4y2Ba	测试组gydF4y2Ba
KEMAR HRIRsgydF4y2Ba	消声HRIRsgydF4y2Ba	消声HRIRs耳机AKGK271 MK IIgydF4y2Ba
TIMIT演讲录音gydF4y2Ba	10男性和女性gydF4y2Ba	其他3男性和女性gydF4y2Ba
Source-to-sensor距离gydF4y2Ba	0.5米,1米,2米,3米gydF4y2Ba	1米、1.5米gydF4y2Ba
噪声类型gydF4y2Ba	胡言乱语,destroyerops factory1gydF4y2Ba	白色,m109和f16gydF4y2Ba
信噪比gydF4y2Ba	−20 dB: 15: 25分贝gydF4y2Ba	−10 dB: 10: 30 dBgydF4y2Ba
混响时间gydF4y2Ba RgydF4y2Ba TgydF4y2Ba ¯gydF4y2Ba 60gydF4y2Ba	没有一个gydF4y2Ba	0.1,0.3,0.5gydF4y2Ba
Direct-to-reverberant比(DRR)gydF4y2Ba	没有一个gydF4y2Ba	−1.44 dB,−2.02 dB,−2.58 dBgydF4y2Ba
双耳的混合物gydF4y2Ba	5819 52369无噪声的噪声信号和验证集gydF4y2Ba	各种噪声和信噪比,936和1221年混响信号gydF4y2Ba

3.2。影响学习的因素gydF4y2Ba

我们的网络是影响学习的适应性因素,这样的价值gydF4y2Ba λgydF4y2Ba 需要评估最大的适应性。注意,semiadaptive熵缺乏方向信息gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ;因此,最大的价值gydF4y2Ba λgydF4y2Ba 设置为0.999。的最小值gydF4y2Ba λgydF4y2Ba 设置为0;因此,semiadaptive熵变得crossentropy。在实验中,我们的网络与不同的学习训练因素从0到0.999gydF4y2Ba λgydF4y2Ba 是由评估验证设置在噪声条件下的定位精度与−20 dB信噪比。图gydF4y2Ba 2(一个)gydF4y2Ba展示了定位性能不同gydF4y2Ba λgydF4y2Ba 。有三个局部极大值图gydF4y2Ba 2(一个)gydF4y2Ba与不同的学习因素gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.5gydF4y2Ba ,gydF4y2Ba 0.9gydF4y2Ba 和gydF4y2Ba 0.99gydF4y2Ba ,分别。在ADADELTA [gydF4y2Ba 25gydF4y2Ba)更新算法,使用渐变积累学习速率是自动更新:gydF4y2Ba (6)gydF4y2Ba EgydF4y2Ba ΔgydF4y2Ba xgydF4y2Ba 2gydF4y2Ba tgydF4y2Ba =gydF4y2Ba ρgydF4y2Ba EgydF4y2Ba ΔgydF4y2Ba xgydF4y2Ba 2gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ρgydF4y2Ba ΔgydF4y2Ba xgydF4y2Ba tgydF4y2Ba 2gydF4y2Ba 。gydF4y2Ba

图2gydF4y2Ba

(一)评估学习的因素gydF4y2Ba λgydF4y2Ba 。(b) DOA概率noise-dominant帧定位在60°。gydF4y2Ba

(一)gydF4y2Ba (b)gydF4y2Ba

制定我们的semiadaptive熵也看起来像这个渐变积累的形式。每一项的梯度semiadaptive熵可以分开计算,累计梯度gydF4y2Ba (7)gydF4y2Ba EgydF4y2Ba ggydF4y2Ba 2gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba λgydF4y2Ba ρgydF4y2Ba EgydF4y2Ba ggydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba λgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ρgydF4y2Ba ggydF4y2Ba 1gydF4y2Ba tgydF4y2Ba 2gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ρgydF4y2Ba EgydF4y2Ba ggydF4y2Ba 2gydF4y2Ba 2gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba λgydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ρgydF4y2Ba ggydF4y2Ba 2gydF4y2Ba tgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ggydF4y2Ba 1gydF4y2Ba tgydF4y2Ba 和gydF4y2Ba ggydF4y2Ba 2gydF4y2Ba tgydF4y2Ba 代表的梯度crossentropy和统一的熵,分别。在这里,gydF4y2Ba λgydF4y2Ba 也是一个hyperparameter作为动力因素控制学习速率。因此,该模型可以分为不同的局部极大值或鞍点在更新迭代。通过足够的验证gydF4y2Ba λgydF4y2Ba 与最佳性能设置为0.9,表明在嘈杂的环境中相对较高的适应性的网络。DOA概率-10分贝的双耳信号信噪比条件如图gydF4y2Ba 2 (b)gydF4y2Ba。信号的DOA 60°,但它被错误的DOA 65°时,网络是训练有素的gydF4y2Ba λgydF4y2Ba = 0。红色曲线显示了错误的DOA概率降低训练网络时gydF4y2Ba λgydF4y2Ba = 0.9。此外,由于统一的熵的影响,远离真正的DOA方位角》可能有非零概率。这是证明semiadaptive熵能有效提高网络的适应性。gydF4y2Ba

3.3。双耳SSL的评价gydF4y2Ba

我们的方法是与两个基线网络方法相比,即。多层感知器(MLP) (gydF4y2Ba 8gydF4y2Ba和频率相关款gydF4y2Ba 19gydF4y2Ba),网络体系结构也消融研究评估:gydF4y2Ba

常规CNN:常规CNN是用于我们的架构,而不是扩张CNNgydF4y2Ba

Dilation-2 CNN: CCF和ILD被送入不同的分支扩张CNN在拟议的架构,但CCF分支只栈两层Dilation-2 CNNgydF4y2Ba

Dilation-5 CNN: CCF和ILD被送入不同的分支扩张CNN在拟议的架构,但CCF分支只栈两层Dilation-5 CNNgydF4y2Ba

级联DCNN: dilation-2 CNN和dilation-5 CNN在CCF分支而不是并行级联。gydF4y2Ba

这些方法的定位精度如表所示gydF4y2Ba 2gydF4y2Ba(在吵闹的场景)和表gydF4y2Ba 3gydF4y2Ba(噪声和混响场景)。在表gydF4y2Ba 3gydF4y2Ba,象征“- / -”意味着没有加性噪声。在嘈杂的情况下,MLP优于低信噪比条件下的频率相关款,这是因为ITD和ILD估计在整个信号块而不是短帧。同款的结果相比,CNN-based方法精度平均提高2%到6%。原因在于,相邻频带可以提供相互的信息而不是独立的频带。在混响情况下,dilation-5 CNN优于其他人因为远程信息同样重要的互信息交叉分解后,远程信息包括两耳的功能直接路径,早期和晚期混响。相对较大的扩张CNN接受字段可以捕获更多的远程信息。由于不同扩张内核的互补,多尺度扩张CNN训练gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.9gydF4y2Ba 表现良好在嘈杂的环境但略逊于dilation-5 CNN回响的条件。有意义的融合多尺度扩张CNN学习自动之间的权衡小型和大型扩张内核噪声和混响条件。此外,我们也展示semiadaptive熵的重要性。与crossentropy相比,网络训练与semiadaptive熵,从而提高定位精度平均近10%强烈喧闹的场景和4.62%在回响的场景。gydF4y2Ba

表2gydF4y2Ba

定位精度(%)在加性噪声环境中不同的方法。gydF4y2Ba

信噪比gydF4y2Ba	- - - - - -gydF4y2Ba	−10 dBgydF4y2Ba			0分贝gydF4y2Ba			10 dBgydF4y2Ba			20 dBgydF4y2Ba			30 dBgydF4y2Ba
噪音gydF4y2Ba	Avg。gydF4y2Ba	白色的gydF4y2Ba	F16gydF4y2Ba	M109gydF4y2Ba	白色的gydF4y2Ba	F16gydF4y2Ba	M109gydF4y2Ba	白色的gydF4y2Ba	F16gydF4y2Ba	M109gydF4y2Ba	白色的gydF4y2Ba	F16gydF4y2Ba	M109gydF4y2Ba	白色的gydF4y2Ba	F16gydF4y2Ba	M109gydF4y2Ba
延时(gydF4y2Ba 8gydF4y2Ba]gydF4y2Ba	83.77gydF4y2Ba	62.93gydF4y2Ba	53.21gydF4y2Ba	67.41gydF4y2Ba	72.65gydF4y2Ba	71.37gydF4y2Ba	82.37gydF4y2Ba	81.62gydF4y2Ba	86.75gydF4y2Ba	95.51gydF4y2Ba	89.42gydF4y2Ba	96.26gydF4y2Ba	99.15gydF4y2Ba	98.18gydF4y2Ba	99.89gydF4y2Ba	99.89gydF4y2Ba
款(gydF4y2Ba 19gydF4y2Ba]gydF4y2Ba	82.56gydF4y2Ba	43.16gydF4y2Ba	38.25gydF4y2Ba	53.42gydF4y2Ba	70.30gydF4y2Ba	57.16gydF4y2Ba	86.32gydF4y2Ba	97.65gydF4y2Ba	92.31gydF4y2Ba	100.0gydF4y2Ba	99.89gydF4y2Ba	99.89gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba
常规的美国有线电视新闻网gydF4y2Ba	84.65gydF4y2Ba	54.38gydF4y2Ba	41.99gydF4y2Ba	65.60gydF4y2Ba	73.61gydF4y2Ba	69.76gydF4y2Ba	86.43gydF4y2Ba	89.96gydF4y2Ba	90.81gydF4y2Ba	99.04gydF4y2Ba	98.72gydF4y2Ba	99.79gydF4y2Ba	99.79gydF4y2Ba	99.89gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba
Dilation-2 CNNgydF4y2Ba	87.46gydF4y2Ba	45.30gydF4y2Ba	54.17gydF4y2Ba	75.75gydF4y2Ba	70.94gydF4y2Ba	77.67gydF4y2Ba	97.76gydF4y2Ba	97.33gydF4y2Ba	93.59gydF4y2Ba	99.68gydF4y2Ba	99.89gydF4y2Ba	99.89gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba
Dilation-5 CNNgydF4y2Ba	90.14gydF4y2Ba	62.61gydF4y2Ba	54.17gydF4y2Ba	80.34gydF4y2Ba	83.55gydF4y2Ba	75.85gydF4y2Ba	99.15gydF4y2Ba	97.86gydF4y2Ba	98.61gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba
级联DCNNgydF4y2Ba	89.62gydF4y2Ba	57.05gydF4y2Ba	54.38gydF4y2Ba	87.61gydF4y2Ba	76.92gydF4y2Ba	76.50gydF4y2Ba	99.25gydF4y2Ba	95.51gydF4y2Ba	97.22gydF4y2Ba	100.0gydF4y2Ba	99.79gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba	89.34gydF4y2Ba	59.83gydF4y2Ba	47.54gydF4y2Ba	78.63gydF4y2Ba	84.19gydF4y2Ba	74.47gydF4y2Ba	98.61gydF4y2Ba	98.40gydF4y2Ba	98.50gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.9gydF4y2Ba	91.85gydF4y2Ba	68.16gydF4y2Ba	56.62gydF4y2Ba	90.06gydF4y2Ba	86.00gydF4y2Ba	80.24gydF4y2Ba	99.36gydF4y2Ba	98.61gydF4y2Ba	98.72gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba	100.0gydF4y2Ba

表3gydF4y2Ba

定位精度(%)的不同的方法在噪声和混响的场景。gydF4y2Ba

RTgydF4y2Ba_60gydF4y2Ba/ DRRgydF4y2Ba	- - - - - -gydF4y2Ba	0.1 s /−1.44 dBgydF4y2Ba		0.3 s /−2.02 dBgydF4y2Ba		0.5 s /−2.58 dBgydF4y2Ba
噪声和信噪比gydF4y2Ba	Avg。gydF4y2Ba	- / -gydF4y2Ba	白色/ 15分贝gydF4y2Ba	- / -gydF4y2Ba	白色/ 15分贝gydF4y2Ba	- / -gydF4y2Ba	白色/ 15分贝gydF4y2Ba
延时(gydF4y2Ba 8gydF4y2Ba]gydF4y2Ba	28.87gydF4y2Ba	43.24gydF4y2Ba	24.46gydF4y2Ba	33.42gydF4y2Ba	24.19gydF4y2Ba	23.84gydF4y2Ba	24.05gydF4y2Ba
款(gydF4y2Ba 19gydF4y2Ba]gydF4y2Ba	67.69gydF4y2Ba	92.14gydF4y2Ba	78.11gydF4y2Ba	74.94gydF4y2Ba	53.51gydF4y2Ba	63.81gydF4y2Ba	43.65gydF4y2Ba
常规的美国有线电视新闻网gydF4y2Ba	61.40gydF4y2Ba	85.26gydF4y2Ba	79.73gydF4y2Ba	58.23gydF4y2Ba	52.16gydF4y2Ba	49.40gydF4y2Ba	43.65gydF4y2Ba
Dilation-2 CNNgydF4y2Ba	57.69gydF4y2Ba	77.15gydF4y2Ba	75.41gydF4y2Ba	56.02gydF4y2Ba	50.14gydF4y2Ba	43.74gydF4y2Ba	43.65gydF4y2Ba
Dilation-5 CNNgydF4y2Ba	84.03gydF4y2Ba	94.59gydF4y2Ba	89.46gydF4y2Ba	92.14gydF4y2Ba	75.95gydF4y2Ba	86.62gydF4y2Ba	65.41gydF4y2Ba
级联DCNNgydF4y2Ba	73.16gydF4y2Ba	91.15gydF4y2Ba	77.84gydF4y2Ba	84.52gydF4y2Ba	56.62gydF4y2Ba	79.25gydF4y2Ba	49.59gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba	78.86gydF4y2Ba	93.12gydF4y2Ba	87.97gydF4y2Ba	83.78gydF4y2Ba	71.08gydF4y2Ba	76.50gydF4y2Ba	60.68gydF4y2Ba
我们的gydF4y2Ba λgydF4y2Ba =gydF4y2Ba 0.9gydF4y2Ba	83.48gydF4y2Ba	94.59gydF4y2Ba	89.05gydF4y2Ba	90.66gydF4y2Ba	77.70gydF4y2Ba	85.08gydF4y2Ba	63.81gydF4y2Ba

4所示。结论gydF4y2Ba

在这项工作中,我们提出了一个基于多尺度自适应双耳SSL方法扩张CNN。CCF的单独的扩张CNN可以编码区别的表示和ILD特性。通过同步操作输入,dilation-2 CNN和dilation-5 CNN在噪声和混响条件相互补充。另外,我们得到的熵semiadaptive Kullback-Leibler散度自适应训练方向约束下的网络。培训的高价值的学习因子、多尺度扩张CNN可以概括在前所未有的场景。实验结果证明了这种方法的优越性与其他相比基线方法和single-scale网络不良场景。gydF4y2Ba

数据可用性gydF4y2Ba

所有的数据是开放和它的来源已经在我们的论文。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

确认gydF4y2Ba

这项工作是由中国国家自然科学基金(61673030号和U1613209)和国家自然科学基金深圳(没有。JCYJ20190808182209321)。gydF4y2Ba

1gydF4y2Ba

BlauertgydF4y2Ba

J。gydF4y2Ba

空间听觉:人类声音的心理物理学本地化gydF4y2Ba 1997年gydF4y2Ba

美国剑桥,马gydF4y2Ba

麻省理工学院出版社gydF4y2Ba

2gydF4y2Ba

克纳普gydF4y2Ba

C。gydF4y2Ba

卡特gydF4y2Ba

G。gydF4y2Ba

广义相关时延估计方法gydF4y2Ba

IEEE声学,演讲,和信号处理gydF4y2Ba 1976年gydF4y2Ba 24gydF4y2Ba 4gydF4y2Ba 320年gydF4y2Ba 327年gydF4y2Ba

10.1109 / tassp.1976.1162830gydF4y2Ba

2 - s2.0 - 0016990291gydF4y2Ba

3gydF4y2Ba

吴gydF4y2Ba

X。gydF4y2Ba

TalagalagydF4y2Ba

D。gydF4y2Ba

张gydF4y2Ba

W。gydF4y2Ba

AbhayapalagydF4y2Ba

T。gydF4y2Ba

空间特性为强劲的双耳声源定位学习使用一个复合的特征向量gydF4y2Ba

学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba

2016年3月gydF4y2Ba

中国上海gydF4y2Ba

6320年gydF4y2Ba 6324年gydF4y2Ba

4gydF4y2Ba

伍德乐夫gydF4y2Ba

J。gydF4y2Ba

王gydF4y2Ba

D。gydF4y2Ba

双耳定位多个来源的混响和嘈杂的环境gydF4y2Ba

IEEE音频、语音和语言处理gydF4y2Ba 2012年gydF4y2Ba 20.gydF4y2Ba 5gydF4y2Ba 1503年gydF4y2Ba 1512年gydF4y2Ba

10.1109 / tasl.2012.2183869gydF4y2Ba

2 - s2.0 - 84872299752gydF4y2Ba

5gydF4y2Ba

ZohouriangydF4y2Ba

M。gydF4y2Ba

马丁gydF4y2Ba

R。gydF4y2Ba

MadhugydF4y2Ba

N。gydF4y2Ba

新见解头半径在基于模型的双耳演讲者的角色定位gydF4y2Ba

学报IEEE欧洲信号处理的会议gydF4y2Ba

2017年8月gydF4y2Ba

希腊科斯岛gydF4y2Ba

221年gydF4y2Ba 225年gydF4y2Ba

6gydF4y2Ba

比尔gydF4y2Ba

G。gydF4y2Ba

电火花冲激的测量KEMAR人工头麦克风gydF4y2Ba

米尔媒体实验室,知觉Computing-Technical报告gydF4y2Ba 1994年gydF4y2Ba 280年gydF4y2Ba 1gydF4y2Ba 7gydF4y2Ba

7gydF4y2Ba

可能gydF4y2Ba

T。gydF4y2Ba

van de不相上下gydF4y2Ba

年代。gydF4y2Ba

科尔劳施gydF4y2Ba

一个。gydF4y2Ba

强大的本地化的概率模型基于双耳听觉前端gydF4y2Ba

IEEE音频、语音和语言处理gydF4y2Ba 2011年gydF4y2Ba 19gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 13gydF4y2Ba

10.1109 / tasl.2010.2042128gydF4y2Ba

2 - s2.0 - 77957729908gydF4y2Ba

8gydF4y2Ba

优素福gydF4y2Ba

K。gydF4y2Ba

ArgentierigydF4y2Ba

年代。gydF4y2Ba

ZaradergydF4y2Ba

J。gydF4y2Ba

双耳声源定位方法使用耳朵的线索和愿景gydF4y2Ba

学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba

2012年3月gydF4y2Ba

日本京都gydF4y2Ba

217年gydF4y2Ba 220年gydF4y2Ba

9gydF4y2Ba

马gydF4y2Ba

N。gydF4y2Ba

布朗gydF4y2Ba

G。gydF4y2Ba

冈萨雷斯gydF4y2Ba

J。gydF4y2Ba

利用自上而下的源模型来提高双耳本地化混响环境中多个来源gydF4y2Ba

学报》国际言语交际协会年会(INTERSPEECH)gydF4y2Ba

2015年9月gydF4y2Ba

德国德累斯顿gydF4y2Ba

160年gydF4y2Ba 164年gydF4y2Ba

10gydF4y2Ba

张gydF4y2Ba

J。gydF4y2Ba

刘gydF4y2Ba

H。gydF4y2Ba

健壮的声学定位通过时滞补偿和双耳匹配滤波器gydF4y2Ba

IEEE信号处理gydF4y2Ba 2015年gydF4y2Ba 63年gydF4y2Ba 18gydF4y2Ba 4771年gydF4y2Ba 4783年gydF4y2Ba

10.1109 / tsp.2015.2447496gydF4y2Ba

2 - s2.0 - 84939786729gydF4y2Ba

11gydF4y2Ba

庞gydF4y2Ba

C。gydF4y2Ba

刘gydF4y2Ba

H。gydF4y2Ba

张gydF4y2Ba

J。gydF4y2Ba

李gydF4y2Ba

X。gydF4y2Ba

双耳声定位基于混响权重和广义参数映射gydF4y2Ba

IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2017年gydF4y2Ba 25gydF4y2Ba 8gydF4y2Ba 1618年gydF4y2Ba 1632年gydF4y2Ba

10.1109 / taslp.2017.2703650gydF4y2Ba

2 - s2.0 - 85028427960gydF4y2Ba

12gydF4y2Ba

黄gydF4y2Ba

J。gydF4y2Ba

吴建gydF4y2Ba

N。gydF4y2Ba

SugiegydF4y2Ba

N。gydF4y2Ba

声音定位在混响环境下基于优先级的模型效果gydF4y2Ba

IEEE仪表和测量gydF4y2Ba 1997年gydF4y2Ba 46gydF4y2Ba 4gydF4y2Ba 842年gydF4y2Ba 846年gydF4y2Ba

10.1109/19.650785gydF4y2Ba

2 - s2.0 - 0031199145gydF4y2Ba

13gydF4y2Ba

杰弗里斯gydF4y2Ba

lgydF4y2Ba

一个地方的声音定位理论gydF4y2Ba

IEEE比较和生理心理学杂志》上gydF4y2Ba 1947年gydF4y2Ba 61年gydF4y2Ba 468年gydF4y2Ba 486年gydF4y2Ba

14gydF4y2Ba

恋人gydF4y2Ba

g·R。gydF4y2Ba

戈什gydF4y2Ba

p K。gydF4y2Ba

双耳语音源定位使用模板匹配的双耳时间差模式gydF4y2Ba

学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba

2018年4月gydF4y2Ba

加拿大卡尔加里gydF4y2Ba

5164年gydF4y2Ba 5168年gydF4y2Ba

15gydF4y2Ba

克里斯坦森gydF4y2Ba

H。gydF4y2Ba

马gydF4y2Ba

N。gydF4y2Ba

箭牌gydF4y2Ba

s . N。gydF4y2Ba

巴克gydF4y2Ba

J。gydF4y2Ba

演讲片段licalising多个扬声器在混响环境的方法gydF4y2Ba

点火的IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba

2009年4月gydF4y2Ba

台北,台湾gydF4y2Ba

4593年gydF4y2Ba 4596年gydF4y2Ba

16gydF4y2Ba

王gydF4y2Ba

Z.-Q。gydF4y2Ba

张gydF4y2Ba

X。gydF4y2Ba

王gydF4y2Ba

D。gydF4y2Ba

基于健壮的扬声器定位指导下深学习时频掩蔽gydF4y2Ba

IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2019年gydF4y2Ba 27gydF4y2Ba 1gydF4y2Ba 178年gydF4y2Ba 188年gydF4y2Ba

10.1109 / taslp.2018.2876169gydF4y2Ba

2 - s2.0 - 85055049949gydF4y2Ba

17gydF4y2Ba

ChakrabartygydF4y2Ba

年代。gydF4y2Ba

HabetsgydF4y2Ba

E。gydF4y2Ba

宽带DOA估计使用卷积神经网络训练和噪声信号gydF4y2Ba

IEEE学报》研讨会上的应用信号处理音频和声学(WASPAA)gydF4y2Ba

2017年10月gydF4y2Ba

美国纽约(纽柏兹gydF4y2Ba

136年gydF4y2Ba 140年gydF4y2Ba

18gydF4y2Ba

他gydF4y2Ba

W。gydF4y2Ba

MotlicekgydF4y2Ba

P。gydF4y2Ba

OdobezgydF4y2Ba

人类。gydF4y2Ba

联合多个声音源定位和分类使用神经网络多任务gydF4y2Ba

学报》国际言语交际协会年会(INTERSPEECH)gydF4y2Ba

2018年9月gydF4y2Ba

建邦者海德拉巴,纳gydF4y2Ba

312年gydF4y2Ba 316年gydF4y2Ba

19gydF4y2Ba

马gydF4y2Ba

N。gydF4y2Ba

可能gydF4y2Ba

T。gydF4y2Ba

布朗gydF4y2Ba

g . J。gydF4y2Ba

利用神经网络和头部动作的健壮的双耳定位在混响环境中多个来源gydF4y2Ba

IEEE / ACM交易音频、语音和语言处理gydF4y2Ba 2017年gydF4y2Ba 25gydF4y2Ba 12gydF4y2Ba 2444年gydF4y2Ba 2453年gydF4y2Ba

10.1109 / taslp.2017.2750760gydF4y2Ba

2 - s2.0 - 85032733582gydF4y2Ba

20.gydF4y2Ba

武田gydF4y2Ba

R。gydF4y2Ba

KomatanigydF4y2Ba

K。gydF4y2Ba

无监督的改编深层神经网络使用熵最小化进行声源定位gydF4y2Ba

学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba

2017年3月gydF4y2Ba

新奥尔良,洛杉矶,美国gydF4y2Ba

2217年gydF4y2Ba 2221年gydF4y2Ba

21gydF4y2Ba

王gydF4y2Ba

J。gydF4y2Ba

王gydF4y2Ba

J。gydF4y2Ba

钱gydF4y2Ba

K。gydF4y2Ba

双耳声定位基于深层神经网络和亲和力传播集群状况不匹配的电火花冲激gydF4y2Ba

EURASIP杂志在音频、语音和音乐的处理gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 4gydF4y2Ba

10.1186 / s13636 - 020 - 0171 - ygydF4y2Ba

22gydF4y2Ba

丁gydF4y2Ba

J。gydF4y2Ba

李gydF4y2Ba

J。gydF4y2Ba

郑gydF4y2Ba

C。gydF4y2Ba

李gydF4y2Ba

X。gydF4y2Ba

宽带稀疏贝叶斯学习网的双耳声源定位gydF4y2Ba

信号处理(SP)gydF4y2Ba 2019年gydF4y2Ba 166年gydF4y2Ba

107250年gydF4y2Ba

10.1016 / j.sigpro.2019.107250gydF4y2Ba

23gydF4y2Ba

王gydF4y2Ba

D。gydF4y2Ba

布朗gydF4y2Ba

G。gydF4y2Ba

计算听觉场景分析:原理、算法和应用程序gydF4y2Ba 2006年gydF4y2Ba

美国新泽西州皮斯卡塔韦gydF4y2Ba

Wiley-IEEE新闻gydF4y2Ba

24gydF4y2Ba

常gydF4y2Ba

S.-Y。gydF4y2Ba

李gydF4y2Ba

B。gydF4y2Ba

SimkogydF4y2Ba

G。gydF4y2Ba

使用扩张卷积和浇注voice-activity-detection时序建模gydF4y2Ba

学报IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba

2018年4月gydF4y2Ba

加拿大卡尔加里gydF4y2Ba

5549年gydF4y2Ba 5553年gydF4y2Ba

25gydF4y2Ba

ZeilergydF4y2Ba

m D。gydF4y2Ba

“ADADELTA:一个自适应学习速率法”,gydF4y2Ba 2012年gydF4y2Ba arXiv预印本arXiv: 1212.5701gydF4y2Ba

26gydF4y2Ba

WierstorfgydF4y2Ba

H。gydF4y2Ba

现gydF4y2Ba

M。gydF4y2Ba

设想gydF4y2Ba

年代。gydF4y2Ba

免费的数据库head-related脉冲响应测量的水平面与多个距离gydF4y2Ba

音频工程学会学报公约(AES)gydF4y2Ba

2011年5月gydF4y2Ba

英国伦敦gydF4y2Ba

27gydF4y2Ba

GarofologydF4y2Ba

J。gydF4y2Ba

薄层gydF4y2Ba

lgydF4y2Ba

费雪gydF4y2Ba

W。gydF4y2Ba

FiscusgydF4y2Ba

J。gydF4y2Ba

PallettgydF4y2Ba

D。gydF4y2Ba

美国国防部高级研究计划局TIMIT acoustic-phonetic连续语音语料库cd - rom。NIST演讲光盘1 - 1.1gydF4y2Ba

1993年gydF4y2Ba

美国华盛顿特区gydF4y2Ba

美国航天局STI /侦察gydF4y2Ba

技术报告93年gydF4y2Ba

28gydF4y2Ba

巴尔加gydF4y2Ba

一个。gydF4y2Ba

SteenekengydF4y2Ba

h·j·M。gydF4y2Ba

评估自动语音识别:II。noisex - 92:一个数据库和一个实验来研究添加剂噪声对语音识别系统的影响gydF4y2Ba

言语交际gydF4y2Ba 1993年gydF4y2Ba 12gydF4y2Ba 3gydF4y2Ba 247年gydF4y2Ba 251年gydF4y2Ba

10.1016 / 0167 - 6393 (93)90095 - 3gydF4y2Ba

2 - s2.0 - 0027623210gydF4y2Ba

29日gydF4y2Ba

坎贝尔gydF4y2Ba

D。gydF4y2Ba

PalomakigydF4y2Ba

K。gydF4y2Ba

布朗gydF4y2Ba

G。gydF4y2Ba

“鞋盒”室内声学的MATLAB仿真研究和教学使用gydF4y2Ba

计算和信息系统(CIS)gydF4y2Ba 2005年gydF4y2Ba 9gydF4y2Ba 3gydF4y2Ba 48gydF4y2Ba 51gydF4y2Ba

30.gydF4y2Ba

艾伦gydF4y2Ba

j·B。gydF4y2Ba

伯克利gydF4y2Ba

d . A。gydF4y2Ba

图像的方法有效地模拟小房间声学gydF4y2Ba

《美国声学学会杂志》上gydF4y2Ba 1979年gydF4y2Ba 65年gydF4y2Ba 4gydF4y2Ba 943年gydF4y2Ba 950年gydF4y2Ba

10.1121/1.382599gydF4y2Ba

2 - s2.0 - 0018455820gydF4y2Ba

31日gydF4y2Ba

AlgazigydF4y2Ba

V。gydF4y2Ba

杜达gydF4y2Ba

R。gydF4y2Ba

汤普森gydF4y2Ba

D。gydF4y2Ba

阿根廷gydF4y2Ba

C。gydF4y2Ba

的CIPIC电火花冲激数据库gydF4y2Ba

IEEE学报》研讨会上的应用信号处理音频和声学(WASPAA)gydF4y2Ba

2001年10月gydF4y2Ba

美国纽约(纽柏兹gydF4y2Ba

99年gydF4y2Ba 102年gydF4y2Ba