最近,移不变的张量factorisation算法已经提出了声源定位乐器分离的目的。然而,在实践中,现有的算法需要使用对数频率谱图允许频率移不变性导致问题试图resynthesise分离来源。此外,很难调和性约束恢复基础功能。本文提出了一种新的添加剂合成方法,允许使用线性频率谱图以及严格谐波限制,导致一种改进的模型。此外,这些额外的约束允许添加源滤波器模型factorisation框架,和一个扩展模型,该模型能够同时分离混合物的定位和敲击乐器。
使用factorisation-based方法分离的音乐声音来源可以追溯到1980年代初当Stautner用主成分分析(PCA)分离不同的手鼓中风
Factorisation-based方法最初是应用于单通道分离的音乐来源(
将移不变性的概念factorisation算法介绍了声源分离的convolutive factorisation Smaragdis提出的算法(
移不变性在频基函数后来开发的克服问题的分组频率基函数的来源,特别是在情况发生不同的笔记由相同的仪器的光谱图(
合并时移不变性在频基函数,假定所有笔记由一个搭仪器由单一频率基函数的翻译版本。这一仪器基函数被认为代表了典型的频率特性的仪器。这是一个简化的实际情况,在实践中,给定的乐器的音色改变音高(
到目前为止,移不变性的公司所需的频率基函数的使用对数频率分辨率的谱图,如常数<我nl我ne-formula>
如果对数频率变换的频率分辨率设置,以便提高乐队的中心频率<我nl我ne-formula>
在本文的上下文中,翻译的基函数是通过翻译进行张量,虽然其他剂型,如转移算子Smaragdis提出的方法( 研究还对允许更一般形式的不变性,如艾格特等等。在变换不变的NMF [ 所有的算法将移不变性可以看作是特殊情况的更一般的模型,将二维非负张量factorisation (SNTF)提出的菲茨杰拉德( 总结使用张量,尺寸,功能,各种移不变的factorisation模型包含在本文中。张量发生在多个模型不重复。
使用SNTF时,给定定位仪器是仪器光谱图建模的翻译上下的频率给不同的音符演奏的乐器。然后使用增益参数位置的仪器在音响领域正确的位置。的谱图<我nl我ne-formula>
如前所述,从对数频率线性频域的映射是一个近似的映射,这可以在声音质量有不利影响的再合成。各种方法来执行这种映射和获得一个逆CQT调查( 为了克服这些问题再合成,施密特等等。提出使用色恢复到创建面具,然后用来refilter原始光谱图(
SNTF
信号谱图
近似的<我nl我ne-formula>
仪器收益
翻译张量(频率)。
仪器基函数
注意激活
翻译张量(时间)
SSNTF
谐波的字典
谐波的重量
SF-SSNTF
共振峰的过滤器
SF-SSNTF + N
噪音乐器收益
噪声的基函数
噪音激活
噪音翻译张量
虽然SNTF已被证明是能够分离混合物的谐波定位仪器(
问题的另一种方法对基函数是调和性约束注意窗口的正弦信号的幅度谱可以直接计算出在封闭的转移和扩展版本窗口的频率响应 对于一个给定的音高和给定的谐波,个人的光谱级正弦曲线可以存储在一个矩阵的大小<我nl我ne-formula>
也可以考虑inharmonicity定位的泛音通过使用inharmonicity因素。例如,在仪器中包含字符串,<我nl我ne-formula>
这些更新方程SNTF类似,只是取代<我nl我ne-formula>
SSNTF的一个优势是,分离的问题是现在完全制定在线性频域,从而避免了使用一个近似对数线性频域的映射算法在任何时候,它消除了潜在的再合成构件由于映射。再合成的分离时域波形可以以类似的方式进行SNTF,或者,一个可以利用的使用添加剂合成模型重建使用加法合成分离信号。
SSNTF算法在Matlab实现使用张量工具箱可以从[ 作为一个例子SSNTF可以提供的改进后的重建,人物 光谱的长笛,原始,SNTF SSNTF,分别。
图 谱图的钢琴和长笛的混合物。
长笛的谱图信号,原始纯粹的(a), (b) SNTF, (c)再过滤SNTF, (d) SSNTF, (e) source-filter SSNTF。
钢琴谱图信号,原始纯粹的(a), (b) SNTF, (c)再过滤SNTF, (d) SSNTF, (e) source-filter SSNTF。
还应该指出的是,除了谐波的限制强加限制返回的解决方案,可以factorisation算法。这是相当大的好处将额外的参数纳入模型时,将在以下部分中看到。
如前所述
当应用于转移仪器基函数的上下文中,仪器基函数代表一个谐波激励模式,可以上下移动的频率来生成不同的音高。单个固定滤波器应用于这些翻译激励模式,与代表乐器的共振结构的滤波器。这个结果在一个乐器音色的系统随音高,导致一个更现实的模型。仪器共振峰过滤器可以被纳入了张量factorisation框架通过共振峰滤波器张量<我nl我ne-formula>
不幸的是,试图source-filter模型合并到SNTF框架,但均没有成功。合成算法有太多的参数优化和很难获得良好的分离效果。然而,额外的限制SSNTF被发现使问题容易处理。合成模型可以描述为 再次使用普遍Kullback-Lieber散度作为一个成本函数,以下更新方程推导出: 过滤器返回长笛在使用source-filter SSNTF。
听的再合成,显著改善音质的长笛与SSNTF相比,用更少的高频能量。钢琴的再合成也有所改善,尽管那么的长笛。数据 作为进一步的例子source-filter SSNTF,图 谱图的原始笛谱图(a), (b)谱图恢复使用source-filter SSNTF,并使用SSNTF (c)谱图恢复。
过滤器返回独奏长笛在图示例 上面的示例演示使用source-filter方法的效用的提高SSNTF模型的准确性。这是境界的提高再合成分离的来源。
音乐信号,尤其是流行音乐,通常包含音高工具,如鼓声除了定位工具。同时允许移不变性在两个频率和时间适用于分离混合物的定位仪器,它是不适合处理打击乐器如陷阱和踢鼓,或其他形式的噪音。这些打击乐器可以成功地捕捉到算法只允许移不变性时间不使用频移不变性。为了处理音乐信号包含定位和敲击乐器或包含额外的噪音,需要有一个算法处理这两种情况下。这可以通过简单地增加两个模型在一起。这曾是由维尔塔宁的上下文中矩阵factorisation算法(
扩展概念的情况下张量factorisation技术导致了普遍的张量factorisation模型分离的定位和敲击乐器,它仍然允许使用source-filter模型定位工具。模型可以描述的 作为一个例子使用的组合模型,图 混合色的钢琴、长笛、小号、陷阱,踩镲,踢鼓。
原始谱图(a)的钢琴,(b)长笛、小号(c), (f)陷阱(g)踩镲,(h)踢鼓。
分离谱图(a)的钢琴,(b)长笛、小号(c), (f)陷阱(g)踩镲和底鼓(h)。
SNTF的表演,SNTF使用refiltering SSNTF, source-filter SSNTF,和source-filter SSNTF与噪声基函数的上下文中造型的混合物搭仪器比较使用一组40测试混合物。对于source-filter SSNTF噪声基函数,两个噪声基函数学习为了帮助消除噪音和工件的谐波源。4秒40测试信号的持续时间和含有混合的旋律由不同的仪器和由使用一个大型图书馆的管弦乐的样品(
40测试信号由20个单通道的混合物2仪器和20立体声3仪器的混合物,这些混合物是由单独的单通道仪器的线性混合信号。在单通道的混合物中,源信号混合单位增益,和音响的混合物,混合是根据完成的 谱图得到的混合物,使用短时傅里叶变换的损害窗口4096个样本,用hopsize帧之间的1024个样本。随机变量被初始化,除了SNTF-based频率基函数的分离,这是初始化与谐波基函数的频率最低的注意了每个工具在每一个例子。这样做是为了把平等SNTF SSNTF-based算法,每个源的音高最低的注意。最大许用笔记的数量设置为乐器的音高范围覆盖测试信号和谐波的数量用于SSNTF被设置为12。运行了300次迭代算法,分离源谱图被进行简约的张量乘法估计张片与一个单独的源。恢复源色再合成使用混合色的相位信息。阶段的通道在源是最强的立体混合的情况下使用。
使用原始信号作为参考,不同算法的性能进行评估使用常用的指标,即signal-to-distortion比率(SDR),它提供了一个总体衡量源分离的声音质量,信号干扰比(先生),措施的其他来源的分离的声音,和signal-to-artifacts比率(SAR),衡量工件中恢复信号分离和再合成。这些指标的详细信息可以在找到 许多不同的测试来确定信号持续时间的影响算法的性能,并确定使用不同数量的允许变化的影响。测试信号的持续时间、混合信号截短长度的1,2,3,4秒的长度,时间变化的数量设置为5,和算法的性能评估。总结的结果如图所示 圆SNTF绩效评估(固体),再过滤SNTF(钻石固体),SSNTF(平方dash-dotted) source-filter SSNTF(三角形固体)和source-filter SSNTF(星冲)噪声基函数对各种信号的持续时间。
在算法中加入源过滤性能改善与提高信号持续时间。先生这是特别明显的指标。这表明长信号持续时间为每个工具必须正确地捕捉过滤器。这是可以预料到的音符数增加了每个工具提供更多关于学习的信息过滤器,而谐波模型参数较少培训不需要尽可能多的信息。应该注意的是,这种趋势不太明显的音响比mono混合物,混合物表明来源在音响领域的空间定位可能影响学习能力源过滤器。这可能是测试通过测量在不同来源的分离混合系数,是一个地区未来的调查。尽管如此,可以看出在source-filter方法优于SSNTF更长时间,与基本source-filter模型执行更好的特别提款权和特别行政区,虽然source-filter +噪声方法性能更好的先生。
测试结果的时间变化的影响来源如图的分离 圆SNTF绩效评估(固体),再过滤SNTF(钻石固体),SSNTF(平方dash-dotted) Source-Filter SSNTF(三角形固体)和Source-Filter SSNTF(星冲)噪声基函数为各种容许时间的变化。
在听源分离,SSNTF-based方法明显优于SNTF。应该注意的是,在某些情况下,使用refiltering SNTF导致音频质量与SSNTF-based方法,然而这只是在少数的例子。在大多数情况下增加SSNTF source-filter改善的结果。在比较source-filter source-filter +噪声模型,方法是观察到的结果不同混合物混合,再合成的相当大的改进质量的来源和减少在其他情况下,在大量的测试结果可以听到没有重大差异。这表明,在许多情况下对清洁的混合信号定位仪器,没有必要将噪声基函数。然而,噪声基函数的使用仍然有用的噪音或打击乐器。还应该指出,在一半的测试混合物SNTF没有管理正确独立的来源,这与失真由于频率的拖尾箱由于从日志映射到线性频率,很好地解释了负特别提款权和爵士的分数。虽然SNTF使用refiltering导致改善的情况下,再合成来源得到了正确的分离,它也遭受底层SNTF技术的可靠性问题,这是所有指标反映在可怜的分数。这表明SSNTF-based技术比SNTF-based更健壮的技术。 分离源通过一个加法合成的方法,也可以再合成和倾听,获得的结果与那些从spectrogram-based获得再合成。然而,随着添加剂合成方法使用不同阶段信息比spectrogram-based再合成,结果没有可比性使用本文中使用的度量。这凸显了需要开发一套perceptually-based声源分离和度量是一个为未来的研究领域。
还研究了模型的拟合优度原始谱图数据,以成本函数。这是观察到的结果SSNTF SNTF小于平均64%,尽管SSNTF较小数量的自由参数,随着谐波的数量远远小于频率垃圾箱用于恒定的数量<我nl我ne-formula>
总体上可以看出,本文提出的方法提供了一个相当大的改进使用SNTF先前的分离方法。大的改进中可以看到过去SNTF性能指标的方法,还可以看到,该模型导致一种改进的适合原始数据。
使用移不变的张量factorisations韵源分离的目的,特别强调定位仪器,讨论,与现有的算法问题突出。分组消息人士指出的问题是可以克服的,通过融合频率移不变性成factorisation框架,但代价就是需要使用对数频率表示。这造成相当大的问题,当试图resynthesise分离由于没有确切来源映射可供地图对数频率表示频率线性表示,导致相当大的退化的音质分离来源。虽然refiltering可以解决这个问题在某种程度上,再合成仍有问题。
也显示出另一个问题与现有的技术,特别是缺乏严格的谐波恢复频率基础上约束功能。以前曾试图对调和性使用一个特别的约束,没有谐波基函数零在地区活动预计。虽然这并保证不会有活动在这些地区,它并不保证基函数将一个正弦曲线的形状恢复如果出现在这些地区。
正弦转二维非负张量factorisation当时提出的同时克服这两个问题。它利用的一个封闭形式的解决方案存在计算已知频率的正弦信号的频谱,并使用一个加法合成的启发方法建模定位仪器,其中每个注意由乐器被建模为固定数量的加权之和在谐波正弦曲线关系。这些权重的改变被认为是不变的,所以每个音符是模仿使用相同的权重不管。个人的频谱谐波线性频域计算,消除任何时候需要使用对数频率表示的算法,和调和性约束是显式地使用字典谐波正弦信号的光谱信号。结果表明,使用这个信号模型结果适合原混合物光谱图比算法包含一个对数频率表示的使用,从而证明能够执行的好处仅仅在线性频域优化。
然而,应该指出的是,该模型也不是没有缺点。特别是,最好的结果,如果音高最低的注意每个搭仪器提供的算法。在大多数情况下,这些信息不容易获得,这需要使用标准的二维非负张量转移factorisation算法来估计这些球在使用正弦模型。研究目前正在进行的其他方法来克服这一问题,但尽管如此,它是觉得新算法的优点超过超过这个缺点。
使用相同的谐波权重或仪器基函数无论向现实世界只是一个近似情况下乐器的音色和音调变化。为了克服这个限制,source-filter模型整合到张量factorisation框架以前提出的。不幸的是,在声源分离的背景下,人们发现很难获得好的结果使用这种方法,有太多的参数优化。然而,严格的调和性约束提出了发现限制的范围足够使问题变得易于处理的解决方案。
此前发现的谐波限制被要求创建一个系统,可以同时处理音调和冲击的设备。但是,先前的尝试这种系统遭受由于使用对数频率表示,缺乏严格的谐波限制。这里介绍的组合模型扩展了此早期作品从单通道、多通道信号,克服了这些问题,使用正弦约束应用于线性频域,以及将源滤波器模型纳入系统,因此代表了一个更一般的模型比以前提出的。
在测试中使用常见的源分离性能指标,发现提出的扩展算法明显优于现有的张量factorisation算法,大大减少信号失真和工件的再合成。扩展的算法也比SNTF-based更可靠的方法。
总之,它已被证明,使用基于加法合成的方法建模工具在factorisation框架克服了问题与以前的方法,以及允许扩展现有的模型。未来的工作将集中在提出的改进模型,在提高通用性和改进分离来源的再合成,以及调查分离的混合系数的影响。也提出了调查的使用频域性能指标的增加源分离的知觉相关性度量。
这项研究是爱尔兰IMAAS项目由企业的一部分。作者要感谢米克尔Gainza,马修·哈特和丹·巴里对他们有用的讨论和评论在本文的准备。作者也要感谢那些评论家的有用的评论导致大大改善了纸。