1。介绍gydF4y2Ba
语音源定位(SSL)吸引了越来越多的关注在过去几十年。它广泛应用于人机交互系统和视频会议系统。双耳语音源定位子任务的语音源定位,针对估计到达方向(DOA)的一次演讲中源利用音频信号记录的双耳麦克风安装在人造耳朵仿真头(gydF4y2Ba
1gydF4y2Ba ]。双耳语音源的管道定位包含两个步骤。首先,提取双耳线索,即。,我nteraural time differences (ITD) and interaural level differences (ILD) from received binaural signals [
2gydF4y2Ba - - - - - -gydF4y2Ba
4gydF4y2Ba ]。包含的假头,空间信号的频率相关特性可以被head-related传递函数(电火花冲激)[gydF4y2Ba
5gydF4y2Ba ,gydF4y2Ba
6gydF4y2Ba ]。这个频率依赖激励为双耳信号时频表示的使用。一个典型的双耳信号时频表示是基于Gammatone过滤器通常用于模拟人类听觉系统的外围处理(gydF4y2Ba
7gydF4y2Ba - - - - - -gydF4y2Ba
9gydF4y2Ba ]。第二步对DOA估计是应用几何分析技术(gydF4y2Ba
1gydF4y2Ba )或离线模型(gydF4y2Ba
4gydF4y2Ba ,gydF4y2Ba
7gydF4y2Ba 双耳线索映射到声源DOA。多年来,大多数方法提出了从两个方面提高双耳SSL的性能:估计健壮的双耳线索和改善上优于模型的泛化。gydF4y2Ba
双耳时间差的最大值对应的时间延迟左右麦克风信号的互相关函数。耳间水平差异是对数的区别左派和右派之间的电能麦克风信号。然而,在噪声和混响环境,会有额外的山峰在互相关函数和权力目标语音源的能量损失。额外的峰值和能量损失将导致不可靠的双耳信号估计。为了改善这些不可靠的双耳线索,提出了时滞补偿方法使ILD和ITDgydF4y2Ba
10gydF4y2Ba ),混响加权法提出了抑制早期和晚期混响(gydF4y2Ba
11gydF4y2Ba ),无回声发作检测方法提出了检测直接路径信号(gydF4y2Ba
12gydF4y2Ba ]。因为ITD是更健壮的频率较低(低于1.5 kHz)和ILD是更可靠的高频率gydF4y2Ba
13gydF4y2Ba ),Gammatone过滤器通常用于过滤低和高频率。恋人和Ghosh Gammatone过滤器用于预处理的双耳信号和频率相关ITD另使用ITD-azimuth模板映射(gydF4y2Ba
14gydF4y2Ba ]。可能等人建模ITD和ILD分解为每个源方向使用高斯混合模型(gmm) [gydF4y2Ba
7gydF4y2Ba ]。场景中与多个激活语音来源,双耳信号的时频(TF)表示也能够区分噪声和语音源在不同的片段。克里斯腾森等人研究了不同的TF重量估算方法对双耳线索(gydF4y2Ba
15gydF4y2Ba ]。最近,深层神经网络言论显示显著的性能对噪声和混响源定位,包括时频掩蔽估计(gydF4y2Ba
16gydF4y2Ba 和多源定位gydF4y2Ba
17gydF4y2Ba ]。卷积神经网络(CNN)可以用来估计宽带到达方向(DOA)的语音源使用阶段组件(gydF4y2Ba
17gydF4y2Ba )和共同定位和多个语音源的分类gydF4y2Ba
18gydF4y2Ba ]。频率相关深层神经网络(款)和头部动作可以被利用来检测多个DOAs和识别正反面混淆(gydF4y2Ba
19gydF4y2Ba ]。然而,培训这样一个健壮的、好地实现模型需要大量的各种声学条件。很少有研究提出了改进模型的适应性前所未有的条件。武田和Komatani提出培训计划无监督自熵和参数适应款参数使用的选择(gydF4y2Ba
20.gydF4y2Ba ,王等人提出了一个基于款data-efficient方法和集群来提高双耳定位性能的不匹配的电火花冲激条件(gydF4y2Ba
21gydF4y2Ba ),但定位性能仍然保持贫穷。为了解决网的问题,一个离网BSSL方法基于一个离网宽带稀疏贝叶斯学习算法,它只比最先进的HRTF-based BSSL方法(gydF4y2Ba
22gydF4y2Ba ]。它仍然是具有挑战性的如何推广上优于模型,使其自适应定位双耳信号在以前看不见的和不利的声学环境。gydF4y2Ba
在这里,我们提出一种多尺度扩张CNN-based进一步解决这些问题的方法。互相关函数(CCF)和耳间水平差异(ILD)中提取的双耳信号作为输入功能。为了保存详细的空间信息,CCF和ILD分别在不同扩张cnn预处理与特定的扩张的因素。后来,CCF的两耳编码表示和ILD都学习crossdomain信息融合。crossdomain信息编码的多尺度扩张cnn提供之间的权衡的接受域大小CCF和ILD特性更好的推广网络在不同声学条件。在这个网络中,剩下的问题是如何适应网络参数看不见的声学条件。利用无监督的研究适应网络参数(gydF4y2Ba
20.gydF4y2Ba ),我们还提出一个semiadaptive熵作为目标函数。不同于自熵,熵semiadaptive包括crossentropy部分提高定位的性能。除此之外,一个学习的因素是用于体重crossentropy的注意和自熵。gydF4y2Ba
总之,我们的贡献如下:gydF4y2Ba
(我)gydF4y2Ba
我们提出一种多尺度扩张CNN双耳语音源定位框架,有效地编码互相关函数和双耳水平差异特性从不同膨胀的因素。gydF4y2Ba
(2)gydF4y2Ba
我们提出一个semiadaptive熵为CNN的参数适应。实验结果表明,多尺度扩张CNN训练semiadaptive熵达到明显改善了普通款和CNN噪声和混响声环境。gydF4y2Ba
2。多尺度扩张美国有线电视新闻网gydF4y2Ba
假设只有一个目标,获得双耳信号可以由语音信号卷积和制定head-related脉冲响应(HRIR)在时域gydF4y2Ba
(1)gydF4y2Ba
ygydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
年代gydF4y2Ba
ngydF4y2Ba
⊗gydF4y2Ba
hgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
+gydF4y2Ba
vgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
米gydF4y2Ba
∈gydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
rgydF4y2Ba
,gydF4y2Ba
的象征gydF4y2Ba
⊗gydF4y2Ba
代表卷积操作,gydF4y2Ba
米gydF4y2Ba
代表双耳麦克风指数,gydF4y2Ba
lgydF4y2Ba
和gydF4y2Ba
rgydF4y2Ba
指的是左和右麦克风,gydF4y2Ba
ngydF4y2Ba
是时间的指数,gydF4y2Ba
年代gydF4y2Ba
ngydF4y2Ba
表示语音信号gydF4y2Ba
hgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
表示head-related脉冲响应。为了像人工耳蜗的频率选择性,双耳信号分解成32听觉通道使用四阶Gammatone滤波器组(gydF4y2Ba
23gydF4y2Ba ]。Gammatone滤波器的中心频率是对数等距的等效矩形带宽规模在80赫兹和8 kHz。过滤后的双耳信号,左派和右派之间的互相关函数计算信号在每个频率独立副环带。CCF进一步规范化,左派和右派的自相关信号。CCF制定作为时间的函数是延迟gydF4y2Ba
τgydF4y2Ba
:gydF4y2Ba
(2)gydF4y2Ba
cgydF4y2Ba
cgydF4y2Ba
fgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
τgydF4y2Ba
=gydF4y2Ba
RgydF4y2Ba
lgydF4y2Ba
rgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
RgydF4y2Ba
lgydF4y2Ba
lgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
RgydF4y2Ba
rgydF4y2Ba
rgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
RgydF4y2Ba
lgydF4y2Ba
rgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
表示左派和右派之间的互相关信号和gydF4y2Ba
kgydF4y2Ba
该指数可。gydF4y2Ba
RgydF4y2Ba
lgydF4y2Ba
lgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
和gydF4y2Ba
RgydF4y2Ba
lgydF4y2Ba
lgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
0gydF4y2Ba
表示左和右信号的自相关gydF4y2Ba
τgydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,分别。一般来说,人工耳朵的仿真头的直径大约是15 - 17厘米。根据声音传播的速度,到达时间可以估计在两个耳朵之间的区别gydF4y2Ba
±gydF4y2Ba
1.1 ms。在现实的条件下,考虑遮蔽效应,最大延时设置为2毫秒。例如,双耳信号的互相关函数采样延迟16千赫范围内的中心gydF4y2Ba
±gydF4y2Ba
2一个矩阵形式CCF女士32的大小gydF4y2Ba
×gydF4y2Ba
65年。其他双耳线索ILD对数双耳信号之间的能量差,这是制定如下:gydF4y2Ba
(3)gydF4y2Ba
我gydF4y2Ba
lgydF4y2Ba
dgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
10gydF4y2Ba
日志gydF4y2Ba
10gydF4y2Ba
∑gydF4y2Ba
tgydF4y2Ba
∈gydF4y2Ba
年代gydF4y2Ba
ngydF4y2Ba
ygydF4y2Ba
rgydF4y2Ba
2gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
tgydF4y2Ba
∑gydF4y2Ba
tgydF4y2Ba
∈gydF4y2Ba
年代gydF4y2Ba
ngydF4y2Ba
ygydF4y2Ba
lgydF4y2Ba
2gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
tgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
年代gydF4y2Ba
ngydF4y2Ba
表示一系列样本指标的集合gydF4y2Ba
tgydF4y2Ba
在gydF4y2Ba
ngydF4y2Ba
thgydF4y2Ba
框架。自双耳信号被陷害到短而稳定的语音信号,会有nonenergy帧。这些nonenergy帧将被忽视。双耳信号的双耳高差形成一个向量ILD和32的大小gydF4y2Ba
×gydF4y2Ba
1在所有频率分解。gydF4y2Ba
2.1。网络体系结构gydF4y2Ba
SSL可以被视为一个方向分类任务基于CNN。通过扩张密度卷积与零内核,扩张CNN可以操作一个粗感受野和显示强劲的性能对于语音活动检测在嘈杂的环境中gydF4y2Ba
24gydF4y2Ba ]。因此,扩张CNN被认为是在我们的网络编码健壮的两耳特性。提出了多尺度扩张CNN的示意图如图gydF4y2Ba
1gydF4y2Ba 。扩张的两个例子内核,内核大小3所示图右上角的一面gydF4y2Ba
1gydF4y2Ba 。零相邻细胞之间的细胞的数量取决于膨胀系数(DF)。黑块表示卷积内核的参数来激活相应的输入细胞,而白色块表示零输入细胞灭活。0两个激活细胞的数量是DF-1。gydF4y2Ba
图1gydF4y2Ba
原理图的多尺度扩张CNN。gydF4y2Ba
在双耳语音源定位,CCF ILD反映时间相关和能源相关的物理信息,分别。在我们的方法中,分离的多尺度扩张CNN是为了更好的捕捉独立双耳的特征根据其物理含义。CCF包括两个并行的分支扩张CNN,其中一个栈两个扩张CNN层与DF = 2(即。,dilation-2 CNN)和其他分支栈两个扩张CNN层与DF = 5(即。,dilation-5 CNN)。这多尺度扩张CNN设计定位的双耳信号方位角额障碍的范围(−90°、90°)。以37另间隔5°的步骤为例,65个样本的时间延迟CCF正是DOAs的数量的两倍。考虑一个信号的DOA估计的最大互相关和周围的值的最大一个内核。在现实中,相邻DOAs内一些角距离也考虑。有鉴于此,我们隐式地包含5°和10°的宽容错误设置膨胀因素2和5。内核与扩张因素2和图5描述的公差范围(0°,10°)。这里,膨胀系数4不包括因为它可以通过移动内核与扩张因素2两次。 The other branch for ILD consists of only one layer of dilated CNN with dilation factor 2. All CNN layers employ 64 kernels to double expand frequency bands and are activated by rectified linear unit activation function and a dropout probability 0.5. The max-pooling layers are added after each dilation-2 CNN to reduce parameters but are excluded in dilation-5 CNN to preserve details. Finally, all interaural representations are fused in a fully connected layer with 128 neurons and followed by an output layer with Softmax activation function. The aforementioned parameters are sufficiently evaluated in experiments.
2.2。Semiadaptive熵gydF4y2Ba
如前所述,相邻的另一些公差内可以被认为是正确的。此外,由于说话的间歇,weak-speech框架不可避免地由噪音。在本节中,我们提出一个semiadaptive训练多尺度熵扩张CNN。在大多数回归任务,Kullback-Leibler散度(KLD)被广泛用于测量两个概率分布之间的相似性。摘要概率分布是指真正的DOA和双耳语音源DOA估计本地化。的KLD可以制定为一笔“真相”熵和软crossentropy:gydF4y2Ba
(4)gydF4y2Ba
DgydF4y2Ba
KgydF4y2Ba
lgydF4y2Ba
问gydF4y2Ba
|gydF4y2Ba
|gydF4y2Ba
pgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
⋅gydF4y2Ba
日志gydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
−gydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
⋅gydF4y2Ba
日志gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
和gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
表示真正的DOA和估计的概率gydF4y2Ba
我gydF4y2Ba
thgydF4y2Ba
分别方位。无声的DOA概率或noise-dominant帧被认为是均匀分布gydF4y2Ba
我gydF4y2Ba
另。这种假设,“真相”KLD由统一替换熵熵。此外,一个学习的因素gydF4y2Ba
λgydF4y2Ba
应用于平衡crossentropy统一熵:gydF4y2Ba
(5)gydF4y2Ba
JgydF4y2Ba
=gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
λgydF4y2Ba
EgydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
问gydF4y2Ba
我gydF4y2Ba
日志gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
−gydF4y2Ba
λgydF4y2Ba
EgydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
1gydF4y2Ba
我gydF4y2Ba
日志gydF4y2Ba
pgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
EgydF4y2Ba
⋅gydF4y2Ba
意味着在训练样本平均。方向约束下gydF4y2Ba
λgydF4y2Ba
≠gydF4y2Ba
1gydF4y2Ba
,网络能够调整参数在不同的声学条件下。ADADELTA [gydF4y2Ba
25gydF4y2Ba )算法用于最小化损失函数。训练过程会低停止如果没有错误出现在验证设置在最后3时代。方位概率gydF4y2Ba
PgydF4y2Ba
θgydF4y2Ba
收到的信号块组成的上下文框架是由平均概率框架水准仪方位。通过最大化目标DOA估计gydF4y2Ba
PgydF4y2Ba
θgydF4y2Ba
。gydF4y2Ba
3所示。实验和讨论gydF4y2Ba
3.1。实验装置gydF4y2Ba
该方法评估使用双耳设置模拟声学条件,包括信噪比(信噪比),噪声类型和混响时间。声学条件总结表gydF4y2Ba
1gydF4y2Ba 。说来源之间的额平面定位−90°和90°的步骤5°,即。37岁的方向,他们的高度是一样的接收者。基于双耳信号配方,head-related脉冲响应(HRIR) KEMAR数据集(gydF4y2Ba
26gydF4y2Ba ]从TIMIT卷积的演讲录音数据集[gydF4y2Ba
27gydF4y2Ba ]。模拟噪声条件下,六种常见的噪音从noisex - 92数据集gydF4y2Ba
28gydF4y2Ba )正确地截断和添加到每个麦克风信号基于相同的信噪比。每个散射噪声的噪声处理总结所有的定向卷积噪声和HRIR 37所产生的噪声不相关的方向。模拟反射的条件,(10的外壳gydF4y2Ba
×gydF4y2Ba
6gydF4y2Ba
×gydF4y2Ba
3)m是模拟使用Roomsim工具箱(gydF4y2Ba
29日gydF4y2Ba )基于图像方法(gydF4y2Ba
30.gydF4y2Ba ]。这个房间里的所有表面都同样混响。一个虚拟的头被Subject_021从CIPIC数据集gydF4y2Ba
31日gydF4y2Ba 放置在中心位置。source-to-sensor距离是1.5米。这种回响的设置带来的双耳的房间脉冲响应卷积测试演讲录音来生成一个混响数据集。所有16岁双耳语音混合采样kHz和一个汉明窗结构转变的512个样本256个样本。一块信号包含20个上下文框架,相当于一段时间336毫秒。定位性能是衡量在定位精度方面,认为估计DOA是正确的如果DOA估计在5°远离真正的DOA。gydF4y2Ba
表1gydF4y2Ba
训练集和测试集的配置。gydF4y2Ba
训练集gydF4y2Ba
测试组gydF4y2Ba
KEMAR HRIRsgydF4y2Ba
消声HRIRsgydF4y2Ba
消声HRIRs耳机AKGK271 MK IIgydF4y2Ba
TIMIT演讲录音gydF4y2Ba
10男性和女性gydF4y2Ba
其他3男性和女性gydF4y2Ba
Source-to-sensor距离gydF4y2Ba
0.5米,1米,2米,3米gydF4y2Ba
1米、1.5米gydF4y2Ba
噪声类型gydF4y2Ba
胡言乱语,destroyerops factory1gydF4y2Ba
白色,m109和f16gydF4y2Ba
信噪比gydF4y2Ba
−20 dB: 15: 25分贝gydF4y2Ba
−10 dB: 10: 30 dBgydF4y2Ba
混响时间gydF4y2Ba
RgydF4y2Ba
TgydF4y2Ba
¯gydF4y2Ba
60gydF4y2Ba
没有一个gydF4y2Ba
0.1,0.3,0.5gydF4y2Ba
Direct-to-reverberant比(DRR)gydF4y2Ba
没有一个gydF4y2Ba
−1.44 dB,−2.02 dB,−2.58 dBgydF4y2Ba
双耳的混合物gydF4y2Ba
5819 52369无噪声的噪声信号和验证集gydF4y2Ba
各种噪声和信噪比,936和1221年混响信号gydF4y2Ba
3.2。影响学习的因素gydF4y2Ba
我们的网络是影响学习的适应性因素,这样的价值gydF4y2Ba
λgydF4y2Ba
需要评估最大的适应性。注意,semiadaptive熵缺乏方向信息gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
;因此,最大的价值gydF4y2Ba
λgydF4y2Ba
设置为0.999。的最小值gydF4y2Ba
λgydF4y2Ba
设置为0;因此,semiadaptive熵变得crossentropy。在实验中,我们的网络与不同的学习训练因素从0到0.999gydF4y2Ba
λgydF4y2Ba
是由评估验证设置在噪声条件下的定位精度与−20 dB信噪比。图gydF4y2Ba
2(一个)gydF4y2Ba 展示了定位性能不同gydF4y2Ba
λgydF4y2Ba
。有三个局部极大值图gydF4y2Ba
2(一个)gydF4y2Ba 与不同的学习因素gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
0.5gydF4y2Ba
,gydF4y2Ba
0.9gydF4y2Ba
和gydF4y2Ba
0.99gydF4y2Ba
,分别。在ADADELTA [gydF4y2Ba
25gydF4y2Ba )更新算法,使用渐变积累学习速率是自动更新:gydF4y2Ba
(6)gydF4y2Ba
EgydF4y2Ba
ΔgydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
ρgydF4y2Ba
EgydF4y2Ba
ΔgydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
ρgydF4y2Ba
ΔgydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
图2gydF4y2Ba
(一)评估学习的因素gydF4y2Ba
λgydF4y2Ba
。(b) DOA概率noise-dominant帧定位在60°。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
制定我们的semiadaptive熵也看起来像这个渐变积累的形式。每一项的梯度semiadaptive熵可以分开计算,累计梯度gydF4y2Ba
(7)gydF4y2Ba
EgydF4y2Ba
ggydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
λgydF4y2Ba
ρgydF4y2Ba
EgydF4y2Ba
ggydF4y2Ba
1gydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
λgydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
ρgydF4y2Ba
ggydF4y2Ba
1gydF4y2Ba
tgydF4y2Ba
2gydF4y2Ba
+gydF4y2Ba
λgydF4y2Ba
ρgydF4y2Ba
EgydF4y2Ba
ggydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
λgydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
ρgydF4y2Ba
ggydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
ggydF4y2Ba
1gydF4y2Ba
tgydF4y2Ba
和gydF4y2Ba
ggydF4y2Ba
2gydF4y2Ba
tgydF4y2Ba
代表的梯度crossentropy和统一的熵,分别。在这里,gydF4y2Ba
λgydF4y2Ba
也是一个hyperparameter作为动力因素控制学习速率。因此,该模型可以分为不同的局部极大值或鞍点在更新迭代。通过足够的验证gydF4y2Ba
λgydF4y2Ba
与最佳性能设置为0.9,表明在嘈杂的环境中相对较高的适应性的网络。DOA概率-10分贝的双耳信号信噪比条件如图gydF4y2Ba
2 (b)gydF4y2Ba 。信号的DOA 60°,但它被错误的DOA 65°时,网络是训练有素的gydF4y2Ba
λgydF4y2Ba
= 0。红色曲线显示了错误的DOA概率降低训练网络时gydF4y2Ba
λgydF4y2Ba
= 0.9。此外,由于统一的熵的影响,远离真正的DOA方位角》可能有非零概率。这是证明semiadaptive熵能有效提高网络的适应性。gydF4y2Ba
3.3。双耳SSL的评价gydF4y2Ba
我们的方法是与两个基线网络方法相比,即。多层感知器(MLP) (gydF4y2Ba
8gydF4y2Ba 和频率相关款gydF4y2Ba
19gydF4y2Ba ),网络体系结构也消融研究评估:gydF4y2Ba
常规CNN:常规CNN是用于我们的架构,而不是扩张CNNgydF4y2Ba
Dilation-2 CNN: CCF和ILD被送入不同的分支扩张CNN在拟议的架构,但CCF分支只栈两层Dilation-2 CNNgydF4y2Ba
Dilation-5 CNN: CCF和ILD被送入不同的分支扩张CNN在拟议的架构,但CCF分支只栈两层Dilation-5 CNNgydF4y2Ba
级联DCNN: dilation-2 CNN和dilation-5 CNN在CCF分支而不是并行级联。gydF4y2Ba
这些方法的定位精度如表所示gydF4y2Ba
2gydF4y2Ba (在吵闹的场景)和表gydF4y2Ba
3gydF4y2Ba (噪声和混响场景)。在表gydF4y2Ba
3gydF4y2Ba ,象征“- / -”意味着没有加性噪声。在嘈杂的情况下,MLP优于低信噪比条件下的频率相关款,这是因为ITD和ILD估计在整个信号块而不是短帧。同款的结果相比,CNN-based方法精度平均提高2%到6%。原因在于,相邻频带可以提供相互的信息而不是独立的频带。在混响情况下,dilation-5 CNN优于其他人因为远程信息同样重要的互信息交叉分解后,远程信息包括两耳的功能直接路径,早期和晚期混响。相对较大的扩张CNN接受字段可以捕获更多的远程信息。由于不同扩张内核的互补,多尺度扩张CNN训练gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
0.9gydF4y2Ba
表现良好在嘈杂的环境但略逊于dilation-5 CNN回响的条件。有意义的融合多尺度扩张CNN学习自动之间的权衡小型和大型扩张内核噪声和混响条件。此外,我们也展示semiadaptive熵的重要性。与crossentropy相比,网络训练与semiadaptive熵,从而提高定位精度平均近10%强烈喧闹的场景和4.62%在回响的场景。gydF4y2Ba
表2gydF4y2Ba
定位精度(%)在加性噪声环境中不同的方法。gydF4y2Ba
信噪比gydF4y2Ba
- - - - - -gydF4y2Ba
−10 dBgydF4y2Ba
0分贝gydF4y2Ba
10 dBgydF4y2Ba
20 dBgydF4y2Ba
30 dBgydF4y2Ba
噪音gydF4y2Ba
Avg。gydF4y2Ba
白色的gydF4y2Ba
F16gydF4y2Ba
M109gydF4y2Ba
白色的gydF4y2Ba
F16gydF4y2Ba
M109gydF4y2Ba
白色的gydF4y2Ba
F16gydF4y2Ba
M109gydF4y2Ba
白色的gydF4y2Ba
F16gydF4y2Ba
M109gydF4y2Ba
白色的gydF4y2Ba
F16gydF4y2Ba
M109gydF4y2Ba
延时(gydF4y2Ba
8gydF4y2Ba ]gydF4y2Ba
83.77gydF4y2Ba
62.93gydF4y2Ba
53.21gydF4y2Ba
67.41gydF4y2Ba
72.65gydF4y2Ba
71.37gydF4y2Ba
82.37gydF4y2Ba
81.62gydF4y2Ba
86.75gydF4y2Ba
95.51gydF4y2Ba
89.42gydF4y2Ba
96.26gydF4y2Ba
99.15gydF4y2Ba
98.18gydF4y2Ba
99.89gydF4y2Ba
99.89gydF4y2Ba
款(gydF4y2Ba
19gydF4y2Ba ]gydF4y2Ba
82.56gydF4y2Ba
43.16gydF4y2Ba
38.25gydF4y2Ba
53.42gydF4y2Ba
70.30gydF4y2Ba
57.16gydF4y2Ba
86.32gydF4y2Ba
97.65gydF4y2Ba
92.31gydF4y2Ba
100.0gydF4y2Ba
99.89gydF4y2Ba
99.89gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
常规的美国有线电视新闻网gydF4y2Ba
84.65gydF4y2Ba
54.38gydF4y2Ba
41.99gydF4y2Ba
65.60gydF4y2Ba
73.61gydF4y2Ba
69.76gydF4y2Ba
86.43gydF4y2Ba
89.96gydF4y2Ba
90.81gydF4y2Ba
99.04gydF4y2Ba
98.72gydF4y2Ba
99.79gydF4y2Ba
99.79gydF4y2Ba
99.89gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
Dilation-2 CNNgydF4y2Ba
87.46gydF4y2Ba
45.30gydF4y2Ba
54.17gydF4y2Ba
75.75gydF4y2Ba
70.94gydF4y2Ba
77.67gydF4y2Ba
97.76gydF4y2Ba
97.33gydF4y2Ba
93.59gydF4y2Ba
99.68gydF4y2Ba
99.89gydF4y2Ba
99.89gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
Dilation-5 CNNgydF4y2Ba
90.14gydF4y2Ba
62.61gydF4y2Ba
54.17gydF4y2Ba
80.34gydF4y2Ba
83.55gydF4y2Ba
75.85gydF4y2Ba
99.15gydF4y2Ba
97.86gydF4y2Ba
98.61gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
级联DCNNgydF4y2Ba
89.62gydF4y2Ba
57.05gydF4y2Ba
54.38gydF4y2Ba
87.61gydF4y2Ba
76.92gydF4y2Ba
76.50gydF4y2Ba
99.25gydF4y2Ba
95.51gydF4y2Ba
97.22gydF4y2Ba
100.0gydF4y2Ba
99.79gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
我们的gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
89.34gydF4y2Ba
59.83gydF4y2Ba
47.54gydF4y2Ba
78.63gydF4y2Ba
84.19gydF4y2Ba
74.47gydF4y2Ba
98.61gydF4y2Ba
98.40gydF4y2Ba
98.50gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
我们的gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
0.9gydF4y2Ba
91.85gydF4y2Ba
68.16gydF4y2Ba
56.62gydF4y2Ba
90.06gydF4y2Ba
86.00gydF4y2Ba
80.24gydF4y2Ba
99.36gydF4y2Ba
98.61gydF4y2Ba
98.72gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
100.0gydF4y2Ba
表3gydF4y2Ba
定位精度(%)的不同的方法在噪声和混响的场景。gydF4y2Ba
RTgydF4y2Ba60gydF4y2Ba / DRRgydF4y2Ba
- - - - - -gydF4y2Ba
0.1 s /−1.44 dBgydF4y2Ba
0.3 s /−2.02 dBgydF4y2Ba
0.5 s /−2.58 dBgydF4y2Ba
噪声和信噪比gydF4y2Ba
Avg。gydF4y2Ba
- / -gydF4y2Ba
白色/ 15分贝gydF4y2Ba
- / -gydF4y2Ba
白色/ 15分贝gydF4y2Ba
- / -gydF4y2Ba
白色/ 15分贝gydF4y2Ba
延时(gydF4y2Ba
8gydF4y2Ba ]gydF4y2Ba
28.87gydF4y2Ba
43.24gydF4y2Ba
24.46gydF4y2Ba
33.42gydF4y2Ba
24.19gydF4y2Ba
23.84gydF4y2Ba
24.05gydF4y2Ba
款(gydF4y2Ba
19gydF4y2Ba ]gydF4y2Ba
67.69gydF4y2Ba
92.14gydF4y2Ba
78.11gydF4y2Ba
74.94gydF4y2Ba
53.51gydF4y2Ba
63.81gydF4y2Ba
43.65gydF4y2Ba
常规的美国有线电视新闻网gydF4y2Ba
61.40gydF4y2Ba
85.26gydF4y2Ba
79.73gydF4y2Ba
58.23gydF4y2Ba
52.16gydF4y2Ba
49.40gydF4y2Ba
43.65gydF4y2Ba
Dilation-2 CNNgydF4y2Ba
57.69gydF4y2Ba
77.15gydF4y2Ba
75.41gydF4y2Ba
56.02gydF4y2Ba
50.14gydF4y2Ba
43.74gydF4y2Ba
43.65gydF4y2Ba
Dilation-5 CNNgydF4y2Ba
84.03gydF4y2Ba
94.59gydF4y2Ba
89.46gydF4y2Ba
92.14gydF4y2Ba
75.95gydF4y2Ba
86.62gydF4y2Ba
65.41gydF4y2Ba
级联DCNNgydF4y2Ba
73.16gydF4y2Ba
91.15gydF4y2Ba
77.84gydF4y2Ba
84.52gydF4y2Ba
56.62gydF4y2Ba
79.25gydF4y2Ba
49.59gydF4y2Ba
我们的gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
78.86gydF4y2Ba
93.12gydF4y2Ba
87.97gydF4y2Ba
83.78gydF4y2Ba
71.08gydF4y2Ba
76.50gydF4y2Ba
60.68gydF4y2Ba
我们的gydF4y2Ba
λgydF4y2Ba
=gydF4y2Ba
0.9gydF4y2Ba
83.48gydF4y2Ba
94.59gydF4y2Ba
89.05gydF4y2Ba
90.66gydF4y2Ba
77.70gydF4y2Ba
85.08gydF4y2Ba
63.81gydF4y2Ba