多通道管弦乐录音Score-Informed源分离

文摘

本文提出了一个系统score-informed音频源分离多通道管弦乐队的录音。管弦乐音乐曲目的存在依赖于分数。因此,一个可靠的分离需要一个良好的对齐的评分的音频性能。程度,自动评分一致性方法是可靠的,当允许公差窗口周围的实际发病和偏移量。此外,几个因素增加我们的困难的任务:高反射的形象,大乐团拥有丰富的复调音乐,和各种各样的仪器记录在一个distant-microphone设置。要解决这些问题,我们设计特定于上下文的方法如score-following输出的改进以获得一个更精确的定位。此外,我们扩展close-microphone分离框架处理distant-microphone管弦乐录音。然后,我们提出第一个开放评价数据集在这音乐背景下,包括注释指出由多个管弦乐合奏的乐器。评价旨在分析分离的重要部分的交互框架分离的质量。结果表明,我们能够使原始分数与性能和分离的音频源仪器对应部分。

1。介绍

西方古典音乐是一个悠久的传统传统上由完善的实践。例如,大型管弦乐团通常绑定到一个物理关闭的地方,音乐厅。此外,西方古典音乐有界建立了海关相关类型的乐器演奏,一个分数,导体的美学指导,成分生成大量的时间框架。我们是在PHENICX项目(内进行工作1),旨在通过技术经验丰富的音乐会。具体地说,本文旨在适应和扩展score-informed音频源分离固有的复杂性管弦乐。这个场景涉及到挑战动力学和节奏的变化,各种各样的乐器,同时高reverberance,旋律线还有机会多通道记录。

Score-informed源分离系统不同部分的准确性取决于不一定是集成在同一参数模型。例如,他们依靠分数定位框架,产生了一个粗对齐的分数(2- - - - - -5),或者在多通道的情况下,他们计算平移矩阵来评估每个仪器的重量在每个通道6,7]。考虑到这一点,我们调整和改进的部分系统在复杂场景中管弦乐。此外,我们感兴趣的是建立一个为未来的研究方法这一任务,我们提出一个数据集,以客观评估的每个部分的贡献分离框架分离的质量。

1.1。与以前的工作

音频源分离是一项具有挑战性的任务当源对应不同的仪器部分在时间和频率有关8]。没有任何以前的知识,很难发挥独立的两个部分,例如,辅音同时指出。解决这个问题的方法之一是引入到分离框架信息信号的特征如良好结合分数(2- - - - - -5,9,10]。此外,先前的研究涉及的准确性校准源分离的质量(4,11]。西方古典音乐,正确地对齐得分收益率确切的时间,每个乐器演奏。因此,score-informed源分离的重要一步是获得正确对齐的分数,可以自动完成audio-to-score校准系统。

Audio-to-score对齐处理符号表征的对齐等分数的音频引渡。在生活场景中,这个任务处理后乐谱听现场表演的时候,它被称为score-following。据我们所知,除了[12),audio-to-score对齐系统没有严格测试了管弦乐的上下文中。对古典音乐,然而,有限的实验场景包括巴赫合唱团由四个工具一直在讨论(4,13]。此外,在[14),RWC古典音乐数据库的一个子集(15)用于训练和测试,但没有给出细节关于工具的复杂性。此外,贝多芬交响乐作品从相同的数据库测试(16),获得较低的精度比其他评价部分。这些结果指出一个管弦乐场景的复杂性,强调在12]。尤其是大量的仪器,同时许多乐器演奏不同的旋律线17),被证明是一个更困难的问题跟踪数量有限的仪器如流行音乐或者,例如,弦乐四重奏和钢琴作品。尽管如此,在这篇文章中,我们提出一个新的系统,管弦乐audio-to-score对齐,任务本身是一个复杂和广泛,我们感兴趣的任务和质量之间的关系的分析score-informed源分离在这样一个复杂的场景。

除了得分之外,最先进的源分离方法考虑到音频信号的特征可以集成到系统中,从而实现更好的结果。例如,系统可以学习音色模型为每个工具(7,18]。此外,它可以依赖的假设的家庭特色乐器,和它们的光谱特征是有用的区分不同部分同时玩,当谐波指出重叠。在更困难的情况下,当比分和乐器的音色是可用的,时间连续性和频率稀疏(19)帮助分布在音乐上有意义的方式之间的能量来源。此外,一个初始的基音检测可以提高结果(6,20.- - - - - -22),如果该方法假定一个主要来源。然而,我们的场景假设多通道与遥远的麦克风录音,相比之下close-microphone方法(6),我们不能认为是主要来源。事实上,以前的方法处理有限的例子:少量的谐波之间的分离仪器或钢琴3,4,6,18],管弦乐的情况下作为一个开放的问题。在本文中,我们研究一个场景的特点是大混响大厅(23),大量的音乐家在每个部分中,一个大型仪器的多样性,突然节奏变化,和许多并发的旋律线,往往在同一仪器部分。

关于技术用于源分离、矩阵分解已经越来越受欢迎的源分离近年来(2,3,6,18- - - - - -20.]。非负矩阵分解(NMF)是一种特殊情况下的分解限制因子矩阵的值是负的。第一因子矩阵代表频谱模板可以被看作是一个字典。对于音频信号,字典是学习的来源和存储在基础矩阵的谱模板。第二因素矩阵的时间激活或模板的重量。然后,计算光谱图生成的映像模板向量的线性组合的权重向量形成激活矩阵。这个表示允许source-filter模型等参数的模型(3,18,20.)或multiexcitation模型(9],它可以很容易地获取重要的谐波特征工具和帮助它们之间的不同,因为它与管弦乐。multiexcitation模型一直在限制的情况下评估巴赫合唱团由四(4),为这个特定的数据库的范围已经扩展close-microphone录音(6和score-informed源分离11]。从源分离的观点,在本文中,我们扩展和评估工作6,11,18对管弦乐音乐)。

为了获得一个更好的分离与任何NMF参数模型,所得的稀疏矩阵是增加了初始化它的时间和频率信息获得分数(3- - - - - -5,24]。时间框架之间的值,注意模板不是激活设置为0,这样仍将在分解过程中,允许重新分配能量的光谱图之间的笔记和间隔的工具实际上在玩。更好的对齐导致更好的初始化和更好的分离。尽管如此,audio-to-score对齐主要修复全球失调,这是由于节奏变化,并且不应对当地失调(21]。占当地失调,score-informed源分离系统包括发病到参数模型和偏移量信息(3,5,24)或使用图像处理以完善收益矩阵,使其匹配的实际时间和频率边界打笔记(11]。相反,当地的失调可以显式地修复(25- - - - - -27]。据我们所知,这些技术已经探索了管弦乐,虽然有测试其效用的范围,如果我们考虑几个因素作为音乐家的同步在大型乐团,并发的旋律线,和混响。此外,对准系统是单耳的。然而,在我们的案例中,分离是多通道上进行录音和来源和麦克风之间的延迟可能产生局部失调。因此,朝着一个更好的分离和更精确的定位,我们提出一个健壮的方法完善评分一致性的输出系统对每个音频通道的多通道音频。

在拟议的distant-microphone场景中,我们通常没有麦克风接近特定工具或独奏者,而且,在一个欠定的情况下,资源的数量超过麦克风的数量。因此,记录整个部分还捕获的声音干扰其他乐器和混响的音乐厅。程度上,我们的任务是不同的干扰减少close-microphone录音(6,7,23为流行音乐会[],这些方法的评价23)或四重奏(6]。另外,我们不针对盲源分离与前面的系统(6,7,23]。随后,我们调整和改进的系统(6,11),通过使用信息的通道,类似于[平行因子分析(PARAFAC)28,29日]。

关于评估,据我们所知,这是第一次score-informed源分离是客观地评估在这样一个复杂的场景。客观评价提供了一种更精确的估计框架的每个部分的贡献,对分离的影响。此外,它建立了一个为未来的研究方法和简化了研究再现性。我们注释数据库提出了30.),由四块管弦乐记录在消声室,为了获得一个分数与消声录音是完全一致的。然后,使用Roomsim软件[31日),我们模拟一个音乐厅为了获得现实的多声道录音。

1.2。应用程序

拟议的框架score-informed源分离已经被用于单独录音由不同的乐队。录音自动处理和存储在多通道库Repovizz [32]。数据存储库是通过多个应用程序的API。第一个应用程序称为仪器重点或乐团焦点和允许强调一个特定的仪器在整个乐团。第二个应用程序涉及到空间化的音乐来源分离在虚拟现实场景的情况下,它通常被称为声呈现。第三,我们提出一个应用程序来估计空间位置的仪器在舞台上。所有的三个应用程序的详细部分7。

1.3。大纲

我们介绍的架构框架的主要部分2。然后,在节3,我们给一个基准源分离系统的轮廓。此外,我们现在基线系统的扩展:初始化所得的分数信息(部分4),注意改进(部分4.1)。此外,提出了扩展的多通道情况介绍部分5。我们目前的数据集和评价过程和结果讨论部分6。描述的演示和应用程序部分7。

2。建议的方法概述

拟议的框架的图呈现在图1。基线系统依赖于培训频谱模板工具我们的目标是独立的(部分3所示。3)。然后,我们计算与多通道音频相关的谱图。声音随着分数的用于对齐音频的分数。从一致的评分,我们获得收益矩阵作为一个输入的NMF参数估计阶段(部分4),以及学会了频谱模板。此外,收益和光谱图是用来计算一个平移矩阵(部分3所示。1),收益率的贡献在每个通道仪器。参数估计后阶段(部分3所示。2),收益是精制为了提高分离(部分4.1)。然后,分离谱图的来源使用维纳滤波估计(部分3所示。5)。

分数的校准步骤,我们使用系统13),会选择麦克风的分数,取得最好的结果在灭蚁灵score-following挑战(http://www.music-ir.org/mirex/wiki/2015 Real-time_Audio_to_Score_Alignment_ _Results (a.k.a._Score_Following))。然而,其他最先进的定位系统可以使用在这个步骤中,因为我们的最终目标是完善一个给定分数对每个通道,为了最小化错误(部分分离5。2)。会计,我们提出的扩展模型6)和收益优化的单声道的录音(11]score-informed多通道的源分离管弦乐在更复杂的场景中。

3所示。基线多道源分离方法

根据基线模型(6),短期内复杂的傅里叶变换)在时间框架和频率为通道,在那里渠道的总数,表示为在哪里代表了估计复杂的STFT计算价值的来源,的总数。注意,在这篇文章中,我们考虑一个源或乐器,一个或多个相同类型的工具(例如,一段小提琴)。此外,是一个混合矩阵的大小占源的贡献将。此外,我们表示级光谱图和实值平移矩阵。

在[NMF模型描述18),每个源分解为两个矩阵的乘积:,矩阵相对应的收益或激活的基函数在框架,,矩阵拥有基地,被定义为乐器的音高范围吗。因此,源被建模为

每个源的模型代表一个音高作为一个单独的模板存储在基础矩阵。模板的时间激活(例如,发病和抵消时间注意)是使用收益矩阵建模。在调和性约束下(18),NMF模型矩阵被定义为基础在哪里谐波的数量,谐波的振幅吗的注意和仪器,是基频有什么要注意的吗,是窗口的大小谱函数,在频率谐波分量的谱吗是近似的。

考虑到模型中给出(3),初始方程(2)计算级谱图的来源表示为和(1)级谱图分解的通道是重写为

3.1。平移矩阵估计

每个仪器的平移矩阵给出了贡献在每个通道和见(1)直接影响分离的来源。平移矩阵估计通过计算一个重叠的面具,歧视来源的泛音的时频区域不重叠与其他来源的泛音。使用重叠的面具,一双平移系数是计算为每个资源在每个通道。基线的估计算法框架中描述(6]。

3.2。增强NMF进行参数估计

根据(33),NMF模型的参数估计通过最小化代价函数,观察之间的重建误差的措施和估计。灵活性的原因,我们使用beta-divergence [34成本函数,允许建模流行的成本函数为不同的值,比如欧几里得距离(EUC) (),Kullback-Leibler(吉隆坡)散度(),Itakura-Saito(是)散度()。

最小化过程确保之间的距离和不会增加每次迭代,因此会计的nonnegativity基础和收益。通过这些方式,幅度谱图源的解释完全由添加剂重建。

3.3。Timbre-Informed信号模型

谐波模型的一个优势是,模板可以学习各种乐器,如果适当的训练数据是可用的。RWC仪器数据库(15)提供的录音独奏乐器演奏孤立指出所有相应的音高范围。该方法在6)使用这些录音以及地面实况注释学仪器谱模板为每个每个仪表的注意。更多细节在训练过程中可以找到原始文献[6]。

一旦基函数光谱对应模板,使用它们在分解阶段在任何管弦乐设置包含有针对性的工具。因此,训练后的基础保持固定,而收益估计在分解过程。

3.4。收益估算

分解过程估计收益考虑前面计算平移矩阵和学习基础从培训阶段。因此,我们有以下更新规则:

3.5。从估计收益分离信号

重建的来源是通过估算每个时频的复振幅垃圾箱。在二元分离的情况下,一个细胞是完全与单一来源有关。然而,当有许多仪器在管弦乐,更有利于分配能源比例对所有的维纳滤波方法(23]。

这个模型允许估计每个分离源从混合物使用广义时频维纳滤波器在短时傅里叶变换(STFT)域(3,34]。

让维纳滤波器的来源,代表的相对能量的贡献主要来源对多通道混合信号的能量在通道:

然后,相应的谱图源估计是

估计源计算与逆交叠相加STFT的。

估计源级谱图计算使用收益估计节3所示。4和固定的基函数在部分3所示。3:。然后,如果我们取代与如果我们考虑混合矩阵系数计算部分3所示。1,我们可以计算出维纳面具(7):

使用(8维纳面具),我们可以应用到多通道信号谱图,从而获得,估计主要源光谱图。最后,我们使用原始混合信号的相位信息,通过逆交叠相加STFT,得到估计的主要来源。

4所示。收益与分数信息初始化

在基线方法(6),收益是转录后初始化阶段。在我们的例子中,自动校准系统产生分数提供了一个类似的表示获得的转录。程度上,对齐的输出初始化收益用于基于NMF的score-informed源分离的方法。

虽然对齐算法旨在解决全球失调,它不占地方失调。在score-informed源分离的情况下,有一个更好的对齐的分数会导致更好的分离(11),因为它增加收益的稀疏矩阵通过设置为零的激活时间,注意不是玩(例如,相应的频谱模板注意的基础矩阵不激活这一次边界以外)。然而,在实际情况的情况下,初始化的收益来源于MIDI分数必须考虑当地的失调。这是传统上通过设置一个宽容窗口周围的发作和偏移量(3,5,24]或精炼后的收益然后重新估计收益(NMF的迭代次数11]。前者将注意细化到参数模型,后者获得使用图像处理启发式检测轮廓,显式地将它们与有意义的实体记录。在本文中,我们提出了两种注意改进的方法:在部分4.1,我们详细的方法11)这是为我们的框架和作为基线,在部分5。2我们调整和改进这个基线,多通道情况。

在这些方面,如果我们占错误帧audio-to-score对齐,我们需要增加发病的时间间隔和抵消MIDI注意当我们初始化收益。因此,的值对仪器和音高对应于MIDI音符设置为1的帧播放MIDI音符,以及邻近的吗帧。的其他值设置为0,不改变在计算,而值设置为1根据仪器之间的能量分布的演变。

初始化的收益后,古典增强NMF分解应用于估算每个源对应的收益的混合物。算法的详细过程1。

(1)初始化价值学的部分3所示。3。
(2)初始化收益与得分信息。
(3)初始化混合矩阵价值学的部分3所示。1。
(4)更新收益使用方程(6)。
(5)重复步骤(2),直至算法收敛(或达到最大迭代次数)。

4.1。注意改进

注意改进方法(11)旨在关联矩阵中的值收益与笔记。因此,应用后一定数量的迭代算法1,当收益矩阵收益率有意义的分布之间的能量工具。

方法分别应用于每个音符,精炼的范围与目标相关的收益。收益矩阵可以被理解为一个灰度图,矩阵中的每个元素代表一个像素的图像。部署一套图像处理启发式检测形状和轮廓图像通常被称为blob (35,p . 248]。因此,每个团与一个注意,让发病和抵消时间注意频率和它的轮廓。这种表示方法进一步提高了稀疏的收益,产生更少的干扰和更好的分离。

见图2,该方法认为一个图像块的像素对应的音高的注意和发病和抵消的注意调整阶段,加上额外的帧占当地的失调。事实上,使用相同的子矩阵的方法这是根据相应的MIDI设置为1注意在获得初始化阶段,部分中解释吗3所示。4。因此,对于一个给定的注意,我们处理的子矩阵的收益矩阵,在那里仪器记录的总数吗。

该方法的步骤(11),图像预处理、二值化和blob选择,在部分解释4.1.2,以下4.4.1,4.1.3。

以下4.4.1。图像预处理

预处理阶段确保通过平滑,没有能量不连续图像补丁。此外,它使更多的重量的像素位置靠近中央本团为了消除干扰邻近的笔记(在时间和频率接近),但仍保留颤音或笔记之间的转换。

首先,我们用卷积平滑高斯滤波器(35,p . 86]子矩阵的每一行。我们选择一维高斯滤波器: 在哪里时间轴和吗标准偏差。因此,每个行向量是卷积,结果被截断为了保持初始矩阵的维度通过删除镜像画框。

其次,我们在惩罚值远离中央的本乘以这个矩阵中的每一个列向量与一维高斯集中在中央频率本由向量: 在哪里是频率轴,中心频率的位置本,标准偏差。上述参数的值给出了部分6.4。2作为评估的一部分设置。

4.1.2。图像二值化

图像二值化设置为零矩阵的元素低于一个阈值,超过阈值的元素。这包括推导子矩阵,请注意:

4.1.3。Blob选择

首先,我们发现气泡在每个二进制子矩阵使用连接规则中描述(35,p . 248]和[27]。其次,从发现blob候选人,我们决定最好的blob每个音符以类似的方式(11]。我们每个团赋值,根据其区域和相邻音重叠与相对应的斑点,这将帮助我们惩罚blob相邻音符之间的重叠。

作为第一步,我们惩罚部分重叠的blob及时与其他气泡从不同的笔记。这是通过权重每个元素与因素,这取决于数量的重叠与相邻的气泡笔记。结果得分矩阵有以下表达式: 在哪里是一个区间值。

然后,我们为每个注意计算得分对于每个团的注意,通过总结评分矩阵中的元素这被认为是一个blob的一部分。最好的blob候选人是最高的分数,进一步;相关的注意,其边界注意发病和补偿。

4.2。收益仅和重新计算

与每个音符有关联的一个blob(部分4.1.3从收益),我们丢弃突兀的能量矩阵通过消除相对应的像素集合,没有选择,使矩阵稀疏的。此外,能量排除仪器的收益分配给其他工具,有助于更好的源分离。因此,获得的收益的信息进行初始化从相应的斑点,我们可以重复分解算法1重新计算。注意,能量由注意排除细化设置为零在分解和仍将是零。

为了优化收益,我们定义一组矩阵来自矩阵对应于最好的斑点含有只有最好的blob和相关的元素否则。我们重建的收益矩阵子矩阵的集合。对相应的垃圾箱和时间框架值得注意的,我们初始化值的值。然后,我们重申的收益估计算法1。此外,我们获得的谱图分离来源部分中描述的方法3所示。5。

5。PARAFAC模型多通道收益估计

平行因子分析方法(PARAFAC) (28,29日)主要用于在非负张量分解模式。通过这些方式,NMF模型扩展到处理3-valence张量,其中每个片传感器表示一个通道的光谱图。另一种方法是为每个通道堆积色在一个矩阵(36)和执行联合估计的谱图的来源渠道。因此,我们扩展了NMF模型部分3共同估计的收益矩阵所有的频道。

5.1。多通道收益估算

中描述的算法部分3估计收益为源对单通道确定相应的行,列平移矩阵的元素具有最大的价值。然而,我们认为,可以受益于一个更好的估计在所有渠道的信息。在这个程度上,我们可以进一步包括更新规则等其他参数的混合矩阵否则保持固定的部分3,因为分解算法估计参数共同所有的频道。

我们建议整合各渠道的信息连接相应的谱图矩阵在时间轴上,如

我们有兴趣共同估计的收益的源在所有的通道。因此,我们将每个通道对应的收益为,在那里渠道的总数,见(15)。新的收益从对齐获得相同的分数信息初始化阶段。然而,在评估收益的通道,新的收获发展因此,考虑相应的谱图。此外,在细化阶段,每个获得精制分别对每个通道:

在(5),我们描述估计谱图分解模型,考虑到混合矩阵,基础和收益。因为我们估计一组收益为每个源,这将导致估计的谱图对应的所有通道,如

每个迭代分解算法产生的额外的信息关于能源的分布之间的每个仪器和每个通道。因此,我们可以包括分解更新规则的混合矩阵在(17)。通过更新混合参数在每个分解步骤中,我们可以获得一个更好的估计:

考虑到以上,新规则中描述的参数估计算法2。

(1)初始化价值学的部分3所示。3。
(2)初始化收益与得分信息。
(3)初始化平移矩阵价值学的部分3所示。1。
(4)更新收益使用方程(6)。
(5)更新平移矩阵使用方程(17)。
(6)重复步骤(2),直至算法收敛(或达到最大迭代次数)。

注意,当前模型并不估计每个通道的阶段。为了重建源节中,该模型3利用信号的相对应的通道它的最大值在平移矩阵,节中描述3所示。5。因此,为了重建原始信号,我们可以仅仅依靠单通道的收益估计基线以类似的方式,方法。

5.2。多通道获得细化

提出了在部分5。1对于一个给定的源,我们获得一个估计每个通道对应的收益。因此,我们可以将注意改进启发式在类似的方式应用到部分4.1的收益。然后,我们可以平均估计通道,使斑点检测更健壮的通道之间的差异:

计算平均超过所有渠道(18),为每一个音符,我们处理的子矩阵的新收益矩阵,在那里笔记的总数是一个工具吗。具体来说,我们应用相同的步骤:预处理(部分以下4.4.1),二值化(部分4.1.2)和blob选择(部分4.1.3),每个矩阵我们获得一个二进制矩阵在1 s元素的对应最好的blob, 0。

我们的假设是,平均收益之间所有渠道使斑点检测更健壮。然而,当执行平均,我们不占通道之间的延迟。为了计算延迟对于一个给定的通道,我们可以计算最好的团分别与方法部分4.1(矩阵),并比较其与一个计算平均估计()。这一步是相当于比较的两个最好的斑点的发病时间两个估计。减去这些发病时间,得到平均估计之间的延迟和获得一个频道,我们可以纠正这个矩阵。因此,我们在开始的对应的零延迟,或者我们删除负面的尾随零延迟。

6。材料和评估

6.1。数据集

的音频材料用于评估Patynen et al。30.),由四个段落交响音乐的古典和浪漫的时期。这项工作提出了一组无回声的录音的仪器,然后它们之间的同步,这样他们以后可以结合的乐团。音乐家在一个消声室,为了是同步与其他乐器,他们跟着视频指挥和钢琴家演奏的四个部分。注意的好处有孤立的录音为代价的忽略音乐家通常影响语调之间的交互和时间同步37]。

四块不同的仪器/仪表类的数量,风格,动力学,和大小。第一段是唐娜·埃尔韦拉从歌剧的女高音咏叹调唐乔凡尼由w·a·莫扎特(1756 - 1791),对应于古典时期,传统上由一小群音乐家。第二段从l . van贝多芬(1770 - 1827)交响曲。7,大和弦和字符串高潮。的和弦和停顿使混响尾巴音乐厅清晰可闻。第三段是布鲁克纳(1824 - 1896)的交响曲8,代表了浪漫晚期。以大型动力学和管弦乐队的大小。最后,g·马勒的交响乐。1,还配有大乐团,是晚期浪漫主义的另一个例子。 The piece has a more complex texture than the one by Bruckner. Furthermore, according to the musicians which recorded the dataset, the last two pieces were also more difficult to play and record [30.]。

为了保证评价设置四块之间的一致,我们专注在接下来的乐器:小提琴,中提琴,大提琴,低音提琴,双簧管、长笛、单簧管、角、喇叭、低音管。跟踪从单个仪器都加入到一个跟踪的每个部分。

对于选择的工具,我们列出四块在表之间的差异1。注意,在小提琴的原始数据集分为两组。然而,简洁的评价,因为在我们分离框架我们不考虑资源共享相同的工具模板,我们决定将小提琴合并到一个组。注意,马勒和布鲁克纳的作品有一个分部在小提琴的群体,这意味着更多的乐器同时扮演不同的旋律线。这个结果在一个场景中对源分离是更具挑战性。


一块	持续时间	期	仪表部分	数量的跟踪	Max。跟踪/仪器

莫扎特	3分钟47秒	经典	8	10	2
贝多芬	3分钟11秒	经典	10	20.	4
马勒	2分钟12秒	浪漫的	10	30.	4
布鲁克纳	1分27秒	浪漫的	10	39	12

我们创建了一个地面实况得分,手工注释笔记的工具。为了促进这个过程,我们首先聚集MIDI格式的分数,并自动计算全球audio-score对齐,从[使用方法13),赢得了灭蚁灵score-following挑战过去一年了。然后,我们每个仪表手动校正对齐的笔记本地适合音频的发作和偏移量。这是使用声波Visualiser执行,谱图的指导和单声道音高估计(38)计算每个孤立的工具。注释是由两个作者,反复核对同行的工作。注意,这个数据集和拟议的注释不仅是有用的对我们的特定任务,也对多个音高估计和自动转录的评估算法在大型管弦乐的设置,一个上下文没有被认为是到目前为止的文献。注释可以在相关的页面(http://mtg.upf.edu/download/datasets/phenicx-anechoic)。

在录音过程中详细(30.),话筒放大器的增益固定为整个生产过程相同的值,减少了动态范围的安静的录音工具。这导致了吵着录音的仪器。节6.2我们描述score-informed去噪过程应用到每个轨道。从去噪孤立的录音,我们然后Roomsim用来创建一个多通道图像,作为详细的部分6.3。所需的步骤通过消声录音到多通道数据集在图表示3。原文件可以从声学小组获得阿尔托大学(http://research.cs.aalto.fi/acoustics/)。的去噪算法,请参考http://mtg.upf.edu/download/datasets/phenicx-anechoic。

6.2。数据去噪

噪声数据集的相关问题提出了在30.]。我们消除噪音的录音score-informed方法(39],它依赖于噪声谱模式学习。主要的区别在于,我们依靠手工注释得分,而在(39分数被认为是不一致的,因此进一步规范化包括确保只有某些注意组合在比分发生。

带注释的分数收益率的时间间隔不玩乐器。因此,噪声模式只在得知区间。通过这种方式,该方法确保所需的噪音,这是一个实际仪器的声音的一部分,在去噪记录保存。

给定的算法需要每个消声记录仪器的时间间隔,消除了噪音乐器演奏,同时设置为零的帧不玩乐器。

6.3。数据空间化

模拟一个大回响的大厅,我们使用软件Roomsim [31日]。我们定义一个配置文件指定了大厅的特点,为每个麦克风,他们的位置相对于每一个来源。模拟房间有类似的尺寸在阿姆斯特丹皇家Concertgebouw音乐厅,PHENICX项目的合作伙伴之一,代表了我们测试框架的设置。模拟房间的宽度、长度和高度28米,40米和12米。表中指定的吸收系数2。


标准测量频率(赫兹)	125年	250年	500年	1000年	2000年	4000年

吸收的墙飞机	0.4	0.3	0.3	0.3	0.2	0.1
吸收的墙飞机	0.4	0.45	0.35	0.35	0.45	0.3
吸收的墙飞机	0.4	0.45	0.35	0.35	0.45	0.3
吸收的墙飞机	0.4	0.45	0.35	0.35	0.45	0.3
吸收层,飞机	0.5	0.6	0.7	0.8	0.8	0.9
的吸收上限,飞机	0.4	0.45	0.35	0.35	0.45	0.3

来源和麦克风的位置在房间里很常见的管弦乐音乐会(图4)。创建一个配置文件为每个麦克风包含它的坐标(例如,()为中心的麦克风)。然后,每个源通过极坐标定义相对于麦克风(例如,()半径、方位角和仰角的巴松管相对于中心麦克风)。我们选择所有的麦克风是心形,为了匹配的现实设置Concertgebouw音乐厅大厅。

使用配置文件和无回声的音频文件对应于孤立的来源,Roomsim生成音频文件为每个麦克风以及脉冲响应为每一对仪器和麦克风。使用脉冲响应和无回声的信号在评价获得的地面真值空间形象来源在相应的麦克风。此外,我们把Roomsim混响时间RT60 [31日整个频率图)5。

我们需要适应地面实况注释与Roomsim生成的音频,与原始注释是在孤立的音频文件。Roomsim创建一个给定卷积每个麦克风的音频来源与相应的脉冲响应,然后总结卷积的结果。我们计算延迟每一对麦克风和仪器通过最大值的位置相关的脉冲响应向量。然后,我们生成一个得分为每个对通过添加相应的延迟发作。此外,自补偿时间的频率取决于混响和笔记,我们添加0.8秒每个音符抵消占混响,除了增加了延迟。

6.4。评价方法

6.4.1。参数选择

在本文中,我们使用一个低级的音频数据的谱表示,从窗口FFT信号的生成。我们使用汉宁窗92 ms的大小和跳11女士的大小。这里,采用对数频率离散化。此外,使用了两种时频分辨率。首先,估算模型和工具平移矩阵,一个半音程决议提出。特别是,我们通过整合实现时频表示的STFT箱子对应相同的半音程。其次,对于分离任务,更高的分辨率使用半音程,已经被证明取得更好的分离结果(6]。时频表示获得的积分对应的STFT垃圾箱半音程。注意,在分离阶段,学习基础的功能都适应了半音程决议通过复制4乘以每个半音程的基础上的的样品半音程的决议,属于这个半音程。图像二值化,我们选择第一个高斯的标准差和第二个高斯作为中央频率本和的位置标准偏差,对应于一个半音程。

我们选择NMF的迭代,我们设置beta-divergence失真,,如(6,11]。

6.4.2。评价设置

我们执行三个不同的评价:audio-to-score对齐,平移矩阵估计,score-informed源分离。注意,对齐,我们评估的最先进的系统13]。这种方法不一致指出但笔记在得分(a.k.的组合。州)。这里,执行对齐对单个音频通道,对应于麦克风位于舞台的中心。另一方面,补偿估计通过将原始分数(每个音符的持续时间13)或指定偏移量作为下一个状态的发病时间。我们这两个病例为INT或NEX表示。

关于分离的初始化框架,我们可以使用的原始输出校准系统。然而,如前所述4和[3,5,24),一个更好的选择是延长发作沿着公差补偿窗口占的错误定位系统和中心之间的延迟通道(执行对齐的)和其他渠道和对齐本身可能的错误。因此,我们测试两个假设关于宽容窗口可能的错误。在第一种情况下,我们用0.3扩展边界发作0.6年代的偏移量(T1)和第二0.6发作1年代补偿(T2)。注意发病乘以0.3 s的值不是任意的,而是发作通常的阈值在灭蚁灵score-following评价实时score-following [40]。两个不同的公差windows测试占这本小说场景的复杂性。宽容窗口为补偿由于混响时间和略大,因为结局的注意并不清楚其发病。分数的摘要信息用来初始化表中的源分离框架3。


宽容窗口大小	偏移量估算

T1:发作,0.3年代;偏移量,0.6秒	INT:插值偏移量的时间
T2:发作,0.6年代;偏移量,0.9秒	NEX:抵消的开始下一个注意

我们的标签相对应的测试用例初始化的原始输出校准系统作为阿里。相反,测试用例对应宽容窗口初始化贴上Ext。此外,在宽容的窗口,我们可以改进注意发作和补偿方法4.1(Ref1)和部分5。2(Ref2),导致其他两个测试用例。因为方法Ref1只能细化分单通道,结果仅对计算,通道。多通道优化Ref2,我们报告每个仪器的校准的结果对每个麦克风。图形的初始化框架与上面列出的四个测试用例(阿里,Ext, Ref1 Ref2),连同地面真理得分初始化(GT),在图7,我们现在这些情况下的源分离的结果。

为了评估平移矩阵评估阶段,我们计算一个理想的平移矩阵基础上所产生的脉冲响应Roomsim在多声道音频的创建(见部分6.3)。的理想平移矩阵给出了理想贡献计算每个工具在每个通道,通过搜索的最大脉冲响应向量对应于每一对instrument-channel,如在哪里脉冲响应的来源吗在通道。通过比较估计矩阵理想的一个,我们可以确定分离的算法选择一个错误的渠道。

6.4.3。评价指标

评分一致性,我们感兴趣的衡量与源分离和占正确检测到的音频帧,而非对齐每个注意发作率计算,(中13]。因此,我们评估框架的一致性级别而不是在一份报告中。类似的推理的评价分数排列在[4]。

我们认为0.011秒的时间粒度测量和一个框架的大小。然后,音符的帧被认为是一个真正的正面的()如果是发现在地面实况分数和对齐的分数在准确的时间界限。相同的框架是贴上假阳性()如果发现只有在分数和一个假阴性()如果是发现真理只有在地上得分。由于收益与分数信息初始化完成(见部分4)、丢失帧(召回)和错误检测到帧(精密)影响源分离算法的性能,精度定义为和回忆。此外,我们调和平均数的计算精度和召回来获得测量,。

源分离评价框架和指标采用了(41,42]。相应地,我们使用源失真率(SDR),源干扰比(爵士)源构件比(SAR)。尽管SDR措施的总体质量分离和ISR源的空间重建,爵士拒绝干扰和特别行政区有关禁止扭曲和工件的缺失。

源分离的评价是一个计算密集型的过程。此外,过程漫长的音频文件的数据集需要大内存执行矩阵计算。减少内存需求,30年代的评估执行块1 s重叠,以便延续。

6.5。结果

6.5.1。分数对齐

我们评估对齐阿里的输出,注意偏移的估计:INT和NEX测量(见部分6.4。3)、精度和召回,从来。此外,我们评估的最优规模扩展注意边界沿发作和偏移量,T1和T2,细化方法,Ref1 Ref2,基线,Ext。由于块之间有很多差异,我们报告单独每首歌曲在表的结果4。


			莫扎特			贝多芬			马勒			布鲁克纳


		阿里	0.69	0.93	0.55	0.56	0.95	0.39	0.61	0.85	0.47	0.60	0.94	0.32
INT	T1	Ref1	0.77	0.77	0.76	0.79	0.81	0.77	0.63	0.74	0.54	0.72	0.73	0.70
		Ref2	0.83	0.79	0.88	0.82	0.82	0.81	0.67	0.77	0.60	0.81	0.77	0.85
		Ext	0.82	0.73	0.94	0.84	0.84	0.84	0.77	0.69	0.87	0.86	0.78	0.96
	T2	Ref1	0.77	0.77	0.76	0.76	0.75	0.77	0.63	0.74	0.54	0.72	0.70	0.71
		Ref2	0.83	0.78	0.88	0.82	0.76	0.87	0.67	0.77	0.59	0.79	0.73	0.86
		Ext	0.72	0.57	0.97	0.79	0.70	0.92	0.69	0.55	0.93	0.77	0.63	0.98

		阿里	0.49	0.94	0.33	0.51	0.89	0.36	0.42	0.90	0.27	0.48	0.96	0.44
NEX	T1	Ref1	0.70	0.77	0.64	0.72	0.79	0.66	0.63	0.74	0.54	0.68	0.72	0.64
		Ref2	0.73	0.79	0.68	0.71	0.79	0.65	0.66	0.77	0.58	0.73	0.74	0.72
		Ext	0.73	0.77	0.68	0.71	0.80	0.65	0.69	0.75	0.64	0.76	0.79	0.72
	T2	Ref1	0.74	0.78	0.71	0.72	0.74	0.70	0.63	0.74	0.54	0.72	0.79	0.72
		Ref2	0.80	0.80	0.80	0综合成绩	0.75	0.75	0.67	0.77	0.59	0.79	0.73	0.86
		Ext	0.73	0.65	0.85	0.73	0.69	0.77	0.72	0.64	0.82	0.79	0.69	0.91

方法Ref1 Ref2取决于二值化阈值决定了有多少能量被设置为零。较低的阈值将导致较大的气泡的合并blob检测。在[11),此阈值设置为数据集的单声道的巴赫合唱团由四个仪器的录音。然而,我们正面临一个多通道场景,捕捉混响是很重要的,尤其是当我们认为补偿和低能量阈值注释。因此,我们感兴趣的是失去最少的能源,我们将降低阈值:和。因此,在分析结果时,较低的阈值方面达到更好的性能测量Ref1 (和Ref2)和(和)。

根据表4,注意补偿(NEX),而不是插值(INT),使低召回所有碎片,和方法导致失去更多的帧无法恢复甚至通过扩展抵消次T2: NEX T2收益率总是低召回相比,INT T2(例如,相比莫扎特)。

校准系统的输出阿里不是一个好的选择初始化源分离系统的收益。它具有很高的精度和很低的召回事件(例如,INT阿里和相对于INT的Ext和贝多芬)。贝多芬的情况下,输出是特别可怜的比其他碎片。然而,通过扩展边界(Ext)和应用注意细化(Ref1或Ref2),我们能够增加召回和匹配性能的其他作品。

当比较宽容的大小窗口发作和偏移量,我们观察到,定位更加准确,检测发作在0.3 s和偏移量在0.6 s。在表4比T2, T1达到更好的结果(例如,为T1相比对T2,马勒)。依靠一个大窗口检索更多框架也大大损害精度。然而,当考虑到源分离我们可能要失去尽可能少的信息。在这种特殊情况下,细化方法Ref1 Ref2显示其重要性。当面对更大的时间界限T2, Ref1特别是Ref2能够减少错误,实现更好的精度与回忆的最少的损失。

细化Ref1比Ref2性能下降,多通道优化(例如,相比布鲁克纳,INT T1)。注意,在原始版本(11],Ref1假设源内单声道是测试的简单例子Bach10数据集(4]。在那种程度上,它是依赖图计算确定最佳斑点的分布。然而,由于增加的复调音乐中乐器(如小提琴演奏分部),同时与旋律线,我们禁用此功能,在这种情况下Ref1有较低的回忆,它就失去了更多的帧。另一方面,Ref2更加健壮,因为它计算一个blob估计每通道。平均这些估计会产生更好的效果。

细化工作更糟糕的是对于更复杂的块(马勒和布鲁克纳)比简单的块(莫扎特和贝多芬)。增加了复调在源和工具的数量,有许多交叉旋律线条,稀疏的分数较低,也使得任务更困难。

6.5.2。平移矩阵

正确估计平移矩阵方法是重要的一步,因为维纳滤波进行仪器最能量的通道。如果这个步骤的算法选择一个不同的频道,在分离的音频文件我们可以找到更多的乐器之间的干扰。

节中描述3所示。1平移矩阵的估计的数量取决于不重叠的泛音的笔记中发现分数和对齐的音频。程度上,越不重叠的泛音,估计更健壮。

最初,我们试着计算平移矩阵分别为每个块。布鲁克纳的作品实在太短,还有几个不重叠的泛音,收益率估计,导致错误的平移矩阵。自仪器安装是相同的布鲁克纳,贝多芬和马勒作品(10来源相同的位置在舞台上),我们决定联合估计的矩阵连接音频作品和相关的分数。我们表示设置1作为莫扎特作品由8来源和设置2贝多芬,马勒,布鲁克纳片由10来源。

由于平移矩阵是计算使用得分,不同的分数信息可以产生非常不同的平移矩阵的估计。的影响程度,我们评估audio-to-score对齐,即案件INT, NEX,阿里,T1, T2,和初始化与地面真理评分信息,GT。

在表5,我们的仪器列表算法选错了通道。注意,在房间里设置生成Roomsim,大部分的工具表5放置接近其他来源来自同一家族的工具:例如,大提琴和低音提琴,长笛和单簧管,巴松管,双簧管。在这种情况下,该算法更错误执行源分离在选择正确的通道。


⁢	GT	INT			NEX
⁢	GT	阿里	T1	T2	阿里	T1	T2

设置1	单簧管	单簧管,低音提琴	单簧管,长笛	单簧管,长笛,喇叭	单簧管,低音提琴		单簧管,长笛
设置2	大提琴	大提琴,长笛	大提琴,长笛	大提琴,长笛	巴松管	长笛	大提琴,长笛

在表的列GT5,我们可以看到,有一个完全一致的分数收益率估计平移矩阵时更少的错误。相反,在一个真实的场景中,我们不能依赖手带注释的分数。在这种情况下,对表的所有列5排除GT,最好的估计是通过NEX的组合和T1:以抵消时间为下一个音符的发作和然后用一个小窗口扩大比分。

此外,我们计算特别提款权仪器表的值5列GT(单簧管和大提琴),如果分离是在正确的通道或估计通道。设置1,英吉利海峡单簧管是错误的错误的“全球词典”(木管乐器左)的正确WWR(木管乐器吧),当我们有一个完美的分数(GT)保持一致。“全球词典”然而,麦克风和WWR非常接近(见图4),他们不捕获重要的能源来自其他仪器部分和特别提款权差异小于0.01分贝。然而,在设置2,大提琴是错误的在“全球词典”通道分离,特别提款权区别这个音频和音频分离在正确的通道是−11 dB的三部分。

6.5.3。源分离

我们使用部分中描述的评价指标6.4。3。因为有很多四块之间的可变性,它更有意义的结果每件而不是聚集他们。

首先,我们分析分离结果/仪器在一个理想的情况。我们假设score-informed源分离得到的最好的结果完全一致的情况下得分(GT)。此外,对于这种情况,我们计算正确的分离通道的所有仪器,因为,在部分6.5.2我们可以看到,选择一个错误的通道可能是有害的。我们现在的结果为条形图在图6。

节中描述6.1和表1,四块不同层次的复杂性。在图6,我们可以看到,越复杂,越难达到很好的分离。例如,注意,大提琴,单簧管,长笛,低音提琴实现好的结果的特别提款权在莫扎特块但明显恶化的结果在其他三部分(例如,4.5 dB的大提琴莫扎特,而马勒−5 dB)。大提琴和低音提琴在两个接近的设置,同样为单簧管和长笛,我们预计它们之间的干扰。此外,这些工具通常共享相同的频率范围会导致额外的干扰。低音提琴先生这是在较低的值(5.5 dB先生莫扎特,但−1.8−0.1−0.2 dB先生为他人)和长笛。

分离的问题是空间重建,由ISR指标来衡量的。见(9),应用维纳面具时,多通道光谱图与平移矩阵的乘积。因此,错误的值在这个矩阵可以产生错误的振幅值产生的信号。

这是小号的情况,分配一个关闭麦克风在当前的设置中,为此我们期待一个好的分离。然而,小号达到一个贫穷的ISR (5.5, 1,−1 dB)但有很好的分离先生和特别行政区。同样,其他仪器大提琴、低音提琴、长笛、中提琴面临同样的问题,特别是对马勒的作品。因此,一个好的平移矩阵的估计对一个好的ISR是至关重要的。

获得较低的特别提款权的马勒与穷人对齐获得这一块。见表4对于INT情况,测量低近8%在马勒比其他作品,主要是因为糟糕的精度。

低音提琴的结果是大大恶化越复杂的贝多芬(−9.1 dB特别提款权),马勒(−8.5 dB SDR),和布鲁克纳(−4.7 dB特别提款权),进行进一步的分析,我们认为这是一个异类,我们从分析排除它。

第二,我们要注意细化在源分离的有效性进行评估。见部分4分离,NMF的收益与分数信息初始化或精分节中描述4.2。摘要不同的初始化选项,如图7。相应地,我们评估收益的五个不同的初始化:完美的初始化与地面真理注释(图7(GT)),比分对齐的直接输出系统(图7(Ali)), NMF的共同实践获得初始化在先进的score-informed源分离3,5,24)(图7(Ext)),改进方法(图7(Ref1和Ref2))。注意,Ref1细化的方法部分4.1与多通道Ref2部分中描述的方法5。2。

我们测试二值化阈值之间的差异和,用于提纯方法Ref1和Ref2。单向方差分析对特别提款权结果和,它显示了两种二值化阈值之间没有显著差异。

五个初始化结果,GT, Ref1, Ref2, Ext,阿里,呈现在图8每一个四块。注意,Ref1 Ref2, Ext,我们在所有可能的聚合信息输出的一致性:INT, NEX, T1和T2。分析结果后,我们注意,越复杂,越难之间的独立工具,马勒的作品有更糟糕的结果,和布鲁克纳的一块大方差误差。这两个件,其他因素作为源内增加的复调,仪器的数量(例如,12小提琴和4小提琴在一组),和我们描述的同步问题部分6.1可以增加分离的困难点,Ref1 Ref2, Ext最小的改进。程度,对布鲁克纳的作品,扩展的边界笔记(Ext)没有达到更好的结果比原始对齐(Ali)的输出。

见图8,拥有一个地面实况对齐(GT)帮助提高分离,提高特别提款权为1 - 1.5 dB以上所有的测试用例。此外,细化方法Ref1和Ref2提高特别提款权的大部分作品除了马勒的作品。这是由于增加了先生和减少干扰的信号。例如,在莫扎特的作品,Ref1 Ref2提高特别提款权和1 dB相比Ext。对于这一块,爵士的差异大约是2 dB。对贝多芬,Ref1 Ref2增加0.5 dB的特别提款权相比Ext和1.5 dB先生。布鲁克纳,仅仅Ref2有更高的特别提款权;然而增加1.5 dB Ref1和Ref2爵士。注意,不仅Ref1 Ref2精炼时间界限的笔记,而且细化发生的频率,因为与气泡的轮廓初始化完成,见图7。这也会导致更高的先生。

第三,我们看看注意偏移估计的影响:INT, NEX和宽容窗口大小,T1和T2,占错误对齐。注意,对于这种情况我们不包括细化的结果,我们只评估Ext,当我们离开了细化为了隔离T1和T2的影响。结果呈现在图9和显示,最好的结果是获得的插值补偿INT。这与部分中给出的结果6.5.1。同样关于细化分析,结果更糟糕的马勒的作品和布鲁克纳,我们不能得出结论为初始化策略更好,作为地面真理的误差线重叠的的测试用例。

第四,我们分析的区别PARAFAC模型对多通道收益估计提出了部分5。1,相比之下,单一信道估计的收益部分3所示。4。我们对特别提款权进行单向方差分析获得和一个。因此,之间没有显著差异单通道和多通道增益估计,当我们不使用晶粒细化执行后处理的收益。然而,尽管新的更新规则不帮助,多通道的情况下,我们能够更好地完善收益。在这种情况下,我们在聚合信息渠道,甚至blob检测更健壮,二值化阈值的变化。占,布鲁克纳的作品,Ref2优于Ref1特别提款权和先生。此外,见表4比Ref1 Ref2对齐总是更好的。

音频摘录数据集用于评估,以及追踪分离与地面真理注释可用分数(http://repovizz.upf.edu/phenicx/anechoic_multi/)。

7所示。应用程序

7.1。仪器重点

第一个应用程序的多通道score-informed源分离方法仪器重点,其目的是在处理多声道的管弦乐录音。一旦我们有追踪分离,它允许强调一个特定的仪器在整个乐团downmix录音。我们在处理工作流由多通道管弦乐乐谱的记录是可用的。舞台设置的多声道录音了一个典型的音乐厅,在多个麦克风放置在舞台上在一定距离的来源。其他部分的目标是减少泄漏,获得增强的信号选择的工具。

在系统集成方面,这个应用程序有两个部分。前端负责与用户交互媒体上传的内容和结果呈现给用户。后端负责管理音频数据不同的信号处理组件之间的工作流程。我们在批处理音频文件估计信号分解为完整的长度。长音频文件,如交响乐录音的情况下,内存需求可以要求即使是服务器基础设施。因此,为了克服这种局限性,音频文件分割成块。已经完成分离后,块与每个仪器连接,导致分离的踪迹。分离质量不是退化,如果块有足够的时间。在我们的例子中,我们设置了阻止持续时间1分钟。这个应用程序的例子有发现在线(http://repovizz.upf.edu/phenicx/)和集成到PHENICX原型(http://phenicx.com/)。

7.2。声呈现

第二个应用程序分离材料的增强或虚拟现实场景中,我们应用一个空间化的音乐来源分离。声呈现旨在重建听觉上记录的性能从特定的位置和方向,听可控性格的乐器在舞台上和侦听器。

我们已经考虑了双耳合成最合适的空间音频技术对于这个应用程序。人类定位方向的声音基于一些线索:根据角度和侦听器和源之间的距离,声音会在不同的时间不同的强度和实例两只耳朵。双耳合成背后的想法是人工生成这些线索能够创建一个错觉声源的指向性当复制耳机(43,44]。迅速融入虚拟现实原型,我们使用了非商业插件提供的双耳合成Unity3D 3 dception (https://twobigears.com/index.php)。

具体地说,这个应用程序打开新的可能性领域的虚拟现实(VR),视频公司已经生产管弦乐演出专门为虚拟现实的体验(例如,记录公司WeMakeVR与伦敦交响乐团、柏林爱乐乐团合作https://www.youtube.com/watch?v=ts4oXFmpacA)。使用虚拟现实耳机和耳机,音响呈现应用程序能够执行一个声放大效应当指向给定的仪器或部分。

7.3。源定位

第三个应用程序旨在估计乐器在舞台上的空间位置。这个应用程序是用于录音,乐团布局是未知的(例如,小合奏表演)工具可视化和声学呈现上述用例介绍。

至于输入源定位方法我们需要多通道录音麦克风在舞台上的近似位置。在音乐厅,录音设置通常由一个网格结构的麦克风挂开销。因此开销麦克风的位置作为元数据的性能记录。

自动声源定位(SSL)方法利用麦克风阵列和复杂的信号处理技术;然而,不良反应如声反射和噪声使这个过程困难,在声学信号处理(目前热门的任务45]。

我们的方法是一种新型的到达时差(辐射源脉冲)方法基于note-onset延迟估计。需要获得的精制分数排列信号分离(见前一节4.1)。它遵循两个步骤:首先,对于每个工具源码,各种麦克风的相对时间延迟对评估,,然后,找到源位置两个一组的交集half-hyperboloids围绕不同的麦克风对。每个half-hyperboloid决定一个声源的位置可能基于到达时间差的测量两个麦克风之间的特定的乐器。

确定每个仪器和麦克风的时间延迟,我们评估时间延迟的列表值对应于所有注意发作在分数和最大的直方图。在我们的实验中,我们有一个时间分辨率为2.8毫秒,对应的傅里叶变换大小。注意,这种方法不需要时间间隔在哪个来源孤立SRP-PHAT [45),可用于复杂的场景。

8。前景

在本文中,我们提出了一个框架,用于score-informed distant-microphone场景中分离的多通道交响乐唱片。此外,我们提出了一个数据集,允许调整的客观评价和分离(部分6.1),为未来的研究提出了一种方法来理解的贡献的不同步骤框架(部分6.5)。然后,我们介绍了几个应用程序框架(部分7)。据我们所知,这是第一次管弦乐的复杂场景中多通道记录是客观评估score-informed源分离的任务。

我们的框架依赖audio-to-score对准系统的准确性。因此,我们评估了分离的质量一致性的影响。此外,我们提出和评估方法改进调整,改善了分离三四块的数据集,相比其他两个初始化选项,我们的框架:分数的原始输出校准和校准依赖宽容窗口。

评估表明,平移矩阵的估计是一个重要的步骤。平移矩阵中的错误会导致更多的干涉音频分离,或者问题恢复信号的振幅。自从方法依赖于找到不重叠的泛音,估计在一个更大的时间框架更健壮。进一步改进确定正确的渠道乐器可以利用我们的方法部分的源定位7,方法是足够可靠的本地化大量的仪器。程度上,单独的一个来源是最好的麦克风最近一个由定位法。

当观察分离的仪器,中提琴,大提琴,低音提琴更多的问题在更复杂的部分。事实上,分离的质量在我们的实验中不同部分和工具,在这个问题上,未来的研究可以提供更多的信息。注意,增加程度的调和与一个更困难的情况下为源分离(17]。因此,我们可以期待一个更糟糕的是分离仪器协调或附带的其他部分,在中提琴,大提琴,低音提琴在一些碎片。未来的研究可以找到更多有关作品的音乐特征之间的关系(例如,色调和纹理)和源分离质量。

评价是在节中给出的数据集进行的6.1。数据集的创建是一个非常艰苦的任务,涉及注解约12000双的发作和偏移量,去噪的原始记录和测试不同的房间配置,以创建多通道记录。程度上,注释帮助我们消除干扰音频文件,可以用于score-informed源分离实验。此外,注释允许其他任务中测试这个具有挑战性的场景,如仪器检测,或转录。

提出了框架的最后,我们给出了几个应用程序相关的仪器重点或声呈现,其中一些已经在功能性产品的阶段。

相互竞争的利益

作者宣称没有利益冲突。

确认

作者要感谢所有的合作伙伴PHENICX财团很富有成效的合作。特别是,他们要感谢奥古斯汀•Martorell音乐学方面见解和纠正关于Repovizz分数和奥斯卡市长对他的帮助和他的贡献在应用程序。这项工作是支持的部分西班牙经济和竞争力在卡萨斯项目(tin2015 - 70816 r)。

引用

e·戈麦斯m . Grachten a Hanjalic et al .,“PHENICX:表现为高纯度和交互式音乐会的经历,”SMAC斯德哥尔摩音乐声学学报》2013年和SMC的声音和音乐计算会议会议,2013年。视图:谷歌学术搜索
Ewert和m·穆勒”使用score-informed约束NMF-based源分离”IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 12)《京都议定书》,页129 - 132年,日本,2012年3月。视图:出版商的网站|谷歌学术搜索
j·弗里奇和m . d . Plumbley”分数通知音频源分离使用约束非负矩阵分解和合成,”学报》第38届IEEE国际会议音响、演讲,和信号处理(ICASSP 13)891年,页888 -温哥华,加拿大,2013年5月。视图:出版商的网站|谷歌学术搜索
z段和b Pardo Soundprism:在线系统score-informed源分离的音乐音频,”IEEE杂志在信号处理所选主题,5卷,不。6,1205 - 1215年,2011页。视图:出版商的网站|谷歌学术搜索
r·亨内昆、b大卫和r . Badeau”分数通知音频源分离使用非负的参数模型谱图,”《第36 IEEE国际会议音响,演讲,和信号处理(ICASSP 11)2011年5月,页45-48,。视图:出版商的网站|谷歌学术搜索
j . j . Carabias-Orti m . Cobos p . Vera-Candeas和f . j . Rodriguez-Serrano“非负信号分解与学乐器的声源分离模型close-microphone录音,”EURASIP在信号处理的发展》杂志上第184条,卷。2013年,2013年。视图:出版商的网站|谷歌学术搜索
t . Pratzlich r . m . Bittner a . Liutkus和m·穆勒”内核添加剂为干扰建模减少多渠道音乐录音,”40 IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 15),页584 - 588,布里斯班,澳大利亚,2014年4月。视图:出版商的网站|谷歌学术搜索
s . Ewert b·帕尔多·m·穆勒和m . d . Plumbley”Score-informed源分离为音乐录音:概述,“IEEE信号处理杂志没有,卷。31日。3、116 - 124年,2014页。视图:出版商的网站|谷歌学术搜索
f . j . Rodriguez-Serrano z段,p . Vera-Candeas b·帕尔多和j·j . Carabias-Orti”与自适应仪器模型在线score-informed源分离”,新音乐研究》杂志上,44卷,不。2、83 - 96年,2015页。视图:出版商的网站|谷歌学术搜索
f . j . Rodriguez-Serrano s Ewert p . Vera-Candeas m·桑德勒,”一个score-informed移不变的扩展复杂的矩阵分解为提高分离重叠泛音在音乐录音,”《IEEE国际会议音响、演讲和信号处理(ICASSP 16),第65 - 61页,上海,中国,2016。视图:谷歌学术搜索
m . miron2005 j。j Carabias, j .简”改善score-informed源分离通过注意改进,为古典音乐”学报》第16届国际社会对音乐信息检索(ISMIR 15)2015年10月,西班牙马拉加。视图:谷歌学术搜索
答:医生,h . Frostel t . Gadermaier m .天然气井,m . Grachten和g . Widmer“人工智能在阿姆斯特丹音乐厅,”《24日国际人工智能联合会议,页165 - 176,布宜诺斯艾利斯,阿根廷,2015。视图:谷歌学术搜索
j . j . Carabias-Orti f . j . Rodriguez-Serrano p . Vera-Candeas n . Ruiz-Reyes和f . j . Canadas-Quesada”音频得分对齐框架使用光谱分解和动态时间扭曲,”学报》第16届国际社会对音乐信息检索(ISMIR 15)2015年,马拉加、西班牙。视图:谷歌学术搜索
O。Izmirli和r·丹嫩贝格”理解的特性和距离函数对音乐序列比对,”学报》第11届国际社会对音乐信息检索会议(ISMIR 10)乌特勒支,页411 - 416年,荷兰,2010年。视图:谷歌学术搜索
m .转到“RWC音乐数据库的发展”18国际国会声学学报(ICA的04)《京都议定书》,页553 - 556年,日本,2004年4月。视图:谷歌学术搜索
s . Ewert m·穆勒,p . Grosche“高清晰度音频同步使用浓度发病特征,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 09)IEEE,页1869 - 1872年,台北,台湾,2009年4月。视图:出版商的网站|谷歌学术搜索
j . j .钻从稀疏模型音色学习:音乐源分离新方法[博士。论文),2008年。
f . j . Rodriguez-Serrano j . j . Carabias-Orti p . Vera-Candeas t·维尔塔宁和n . Ruiz-Reyes”多个仪器混合物源分离评价使用instrument-dependent NMF模型”学报第十届国际会议上潜变量分析和信号分离(LVA / ICA ' 12),页380 - 387,特拉维夫,以色列,2012年3月。视图:谷歌学术搜索
a . Klapuri t·维尔塔宁,t . Heittola”声源分离单耳的音乐信号使用excitation-filter模型和EM算法,”IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 10)2010年3月,页5510 - 5513。视图:出版商的网站|谷歌学术搜索
J.-L。Durrieu, a . Ozerov c . Fevotte g·理查德,和b大卫,“主要仪器与立体声音频信号分离使用源/过滤模型,”17世纪欧洲信号处理研讨会论文集(EUSIPCO ' 09)英国格拉斯哥,页15 - 19,2009年8月。视图:谷歌学术搜索
j·j·博世,k .近藤r·马克思和j .简”Score-informed和音色独立领导仪器分离在实际场景中,”20欧洲信号处理研讨会论文集(EUSIPCO 12)2012年8月,页2417 - 2421。视图:谷歌学术搜索
p . s .黄m . Hasegawa-Johnson m . Kim和p . Smaragdis”歌声分离使用深度递归神经网络,从单声道的录音”《国际社会对音乐信息检索会议(ISMIR 14),台北,台湾,2014年10月。视图:谷歌学术搜索
e . k . Kokkinis和j . Mourjopoulos”分离实际混响声来源close-microphone应用程序环境中,“音频工程协会杂志》上,卷。58岁的没有。11日,第922 - 907页,2010年。视图:谷歌学术搜索
美国Ewert和m·穆勒”Score-informed语音分离钢琴录音,”学报》第12届国际社会对音乐信息检索会议(ISMIR 11)250年,页245 -迈阿密,佛罗里达州,美国,2011年10月。视图:谷歌学术搜索
他们,准确audio-to-score alignment-data收购的上下文中计算音乐学博士。论文)开普勒大学林茨、林茨,奥地利,2012年。
s . s . Wang Ewert, s·迪克森,“补偿异步音乐之声score-performance之间对齐,”40 IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 15)2014年4月,页589 - 593。视图:出版商的网站|谷歌学术搜索
m·米隆、j . Carabias和j .简”Audio-to-score对齐管弦乐队的录音,注意水平的”学报》第15届国际社会对音乐信息检索会议(ISMIR 14),台北,台湾,2014。视图:谷歌学术搜索
d·菲茨杰拉德,m . Cranitch和e . Coyle“非负张量factorisation声源分离。音响、语音信号处理,”学报2006年IEEE国际会议音响、演讲,和信号(ICASSP 06年),图卢兹,法国,2006年。视图:谷歌学术搜索
c . Fevotte和a . Ozerov”笔记非负张量分解的音频源分离谱图:统计的见解和对self-clustering空间线索,”探索音乐内容:第七届国际研讨会,2010年CMMR,西班牙,2010年6月21 - 24日,马拉加。修改后的论文卷,6684在计算机科学的课堂讲稿施普林格,页102 - 115年,柏林,德国,2011年。视图:出版商的网站|谷歌学术搜索
j . Patynen诉Pulkki, t . Lokki“交响乐团、消声记录系统”声学学报与Acustica曼联,卷94,不。6,856 - 865年,2008页。视图:出版商的网站|谷歌学术搜索
d·坎贝尔,k . Palomaki g·布朗,“鞋盒的Matlab仿真室内声学用于研究和教学,“计算和信息系统,9卷,不。3,48页,2005年。视图:谷歌学术搜索
o .市长问:Llimona, m .出面协调,p . Papiotis和e . Maestre”RepoVizz:一个框架,用于远程存储、浏览、注释、多模式数据的交易,”21 ACM国际会议的程序多媒体(13毫米的)西班牙巴塞罗那,页415 - 416,,2013年10月。视图:出版商的网站|谷歌学术搜索
d·d·李和h . s . Seung“学习对象的部分非负矩阵分解,“自然,卷401,不。6755年,第791 - 788页,1999年。视图:出版商的网站|谷歌学术搜索
c . Fevotte:贝尔坦公司,J.-L。Durrieu”,非负矩阵分解Itakura-Saito分歧:音乐与应用程序分析,“神经计算,21卷,不。3、793 - 830年,2009页。视图:出版商的网站|谷歌学术搜索
m·尼克松特征提取和图像处理爱思唯尔科学,2002。
r·帕里和艾萨,”估计在音频频谱组件的空间位置,”独立分量分析和盲信号分离:6日国际会议,ICA 2006年,查尔斯顿SC,美国,2006年3月5 - 8日。诉讼,j . Rosca d . Erdogmus j·c·普林西比和美国微积分,Eds。卷,3889在计算机科学的课堂讲稿施普林格,页666 - 673年,柏林,德国,2006年。视图:出版商的网站|谷歌学术搜索
p . Papiotis m .出面协调,a . Perez-Carrillo和e . Maestre”测量在弦乐四重奏乐团相互依赖通过多维分析性能数据,”心理学领域5卷,第963条,2014年。视图:出版商的网站|谷歌学术搜索
m . Mauch和s·迪克森,“脓素:使用概率阈值分布,基频估计量”IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 14)663年,页659 -佛罗伦萨,意大利,2014年5月。视图:出版商的网站|谷歌学术搜索
f . j . Canadas-Quesada p . Vera-Candeas d . Martinez-Munoz n . Ruiz-Reyes j . j . Carabias-Orti和p . Cabanas-Molero”约束非负矩阵分解为score-informed钢琴音乐恢复,”数字信号处理,50卷,第257 - 240页,2016年。视图:出版商的网站|谷歌学术搜索
a . Cont d·施瓦兹:施耐尔,c .拉斐尔“实时audio-to-score对齐,评价”《第八届国际会议上音乐信息检索(ISMIR ' 07),第316 - 315页,维也纳,奥地利,2007年9月。视图:谷歌学术搜索
e·文森特·r·Gribonval, c . Fevotte“盲音频源分离性能测量,”IEEE音频、语音和语言处理,14卷,不。4、1462 - 1469年,2006页。视图:出版商的网站|谷歌学术搜索
诉Emiya e·文森特·n·哈兰德,诉Hohmann,“主观和客观质量评估的音频源分离,“IEEE音频、语音和语言处理,19卷,不。7,2046 - 2057年,2011页。视图:出版商的网站|谷歌学术搜索
d . r . Begault和e·m·文策尔”耳机本地化的言论。”人为因素,35卷,不。2、361 - 376年,1993页。视图:谷歌学术搜索
g·s·肯德尔,“3 d声音底漆:定向听力和立体声繁殖,”电脑音乐杂志,19卷,不。4,23-46,1995页。视图:谷歌学术搜索
a·马蒂Guerola多通道音频处理议长本地化,分离和增强2013年,大学为瓦伦西亚。视图:出版商的网站

电气和计算机工程杂志》上

现实生活中的通信信号处理平台和算法和听数字音频

文摘