音乐声源分离的非负张量分解模型

摘要

近年来，移不变张量分解算法被提出用于音高乐器的声源分离。然而，在实践中，现有的算法需要使用对数频率谱图来允许频率的移位不变性，这在试图重新合成分离的源时造成了问题。此外，很难对恢复的基函数施加和声约束。本文提出了一种新的基于加法合成的方法，该方法允许使用线性频率谱图，并施加严格的谐波约束，从而得到一个改进的模型。此外，这些额外的限制允许在分解框架中添加一个源过滤器模型，以及一个能够同时分离音调和撞击乐器混合物的扩展模型。

1.介绍

使用基于因子分解的方法分离音乐声源可以追溯到20世纪80年代早期，当时Stautner使用主成分分析(PCA)分离不同的手鼓笔画[1］．但是，直到开发独立组分分析（ICA）[2]以及稀疏编码等技术[3.，4]和非负矩阵分解（NMF）[5，6]，基于因子分解的方法在音乐音频信号的分析和分离方面受到了广泛关注[7- - - - - -11.］．

基于因子分解的方法最初应用于音乐源的单通道分离[7- - - - - -10.，对输入信号进行时频分析，得到谱图的大小．然后对这个谱图进行因子分解，得到一个简化的秩近似在哪里的大小和的大小，和不到和．在这个例子中，列包含频率基函数，而对应的行包含振幅基函数，描述当频率基函数是活动的。通常，这是在一个幅度或功率谱图上完成的，这种方法假设由基函数对生成的谱图相加生成混合谱图。当谱图相加时，这没有考虑相位的影响，在幅度谱图的情况下，只有当源在时间和频率上不重叠时，这一假设才成立，而对于功率谱图，这一假设平均成立。不同的技术的不同之处在于如何实现因数分解。凯西和韦斯特纳[7]使用PCA实现尺寸减少，然后在保留的主要组件上执行ICA以实现独立的基础功能，而最近的工作已经集中在与合适的成本函数结合使用非承诺约束[8，9］．

常用的成本函数是Lee和Seung提出的广义Kullback-Leibler分歧[5]：这相当于假设数据采用泊松噪声模型[12.］．这种成本函数，由于被广泛用于其易于实施的，缺乏的参数，并且已经发现给在很多情况下，合理的结果[事实13.，14.］．还可以在这个成本函数中添加一个稀疏约束，并可以为这些成本函数推导出确保非负性的乘法更新方程[15.］．已经开发了其他成本函数，用于音频谱图的分解，如Abdallah和Plumbley的音频谱图，其中假设功率谱图中的乘性伽玛分布噪声[16.］．Parry和Issa最近提出了一个类似的成本函数，试图通过使用概率阶段模型将阶段纳入因子分解[17.，18.］．已提出参数化成本函数族，例如贝塔发散[19.]和Csiszar的分歧[20.］．O’grady研究了使用β发散来分离语音信号[21.]，谁还提出了感知的基于噪声掩蔽比作为成本函数。

不管所使用的成本函数的，所得到的分解是线性的，并且作为结果每个基函数对通常对应于一个单一的音符或和弦由给定的音调乐器演奏。因此，为了实现声源分离，一些方法需要按源或乐器的基函数。不同的分组方法已经被提出7，8]，但在实践中很难获得正确的聚类，原因见[22.］．

1.1. 张量表示法

在处理张量符号时，我们使用[23.］．张量用大写字母表示，例如．而不是使用下标来表示张量或矩阵中的元素的下标，例如，元素的索引是指的．在处理合同的产品乘法时，如果张量是大小的吗和张量是大小的吗，然后沿着第一个张量将两个张量的乘积缩并模态由其中要被乘在被包含在尖括号中的下标所指定的模式。

基本的乘法和除法用和，外积乘法表示为. 此外，为了简化符号，除非另有说明，我们使用表示与相关的张量切片源文件，单例维度包含在片的大小中。

1．2．张量Factorisation

最近，上述矩阵分子化技术已经扩展到张量分子模型，以通过Fitzgerald Etal处理立体声或多通道信号。[24.]和Parry和伊萨[25.］．信号模型可以表示为在哪里是一个包含光谱图的张量渠道,是一个矩阵含有收益的每个频道的基础函数，矩阵的大小是多少含一组频率的基函数，并且矩阵的大小是多少包含振幅基函数。在这种情况下,用来表示给定矩阵的第Th列。

作为第一个近似，许多商业立体声录音可以被认为是通过获得每一种乐器单独的单声道录音，然后将这些录音相加并在两个声道上分发，结果是，对于任何给定的乐器，两个通道的唯一区别在于仪器的增益[26.］．张量分解模型为这种情况提供了一个很好的近似。张量分解的扩展也提供了另一个信息源，可以用来聚类基函数，即属于同一信息源的基函数应该有相似的增益。然而，随着基函数数量的增加，由于基函数在源之间共享，使用这些信息获得良好的聚类变得更加困难。

2.移不变的Factorisation算法

在Smaragdis提出的卷积因子分解算法中，引入了在用于声源分离的因子分解算法中加入平移不变性的概念[27]和Virtanen的[28］．这样做是为了解决标准分解技术的一个特定缺陷，即单个频率基函数无法成功捕捉到频率内容随时间变化的声音，如语音和鼓声。为了克服这一限制，振幅基函数被允许随时间移位，每次移位捕获一个不同的频率基函数。当这些频率基函数被组合在一起时，就得到了一个给定源的声谱图，它捕获了声源频率特性的时间演变。

在频率的基函数的平移不变性后来发展作为克服分组的频率基本函数的来源，特别是在的情况下的问题的一种手段，其中通过相同的乐器演奏不同的音符发生在谱图的过程[14.，29］．Vincent和Rodet使用非线性ISA方法解决了这个缺点[30.，但这种技术需要在分离前对源先验进行预先训练。

当在频率基函数中加入移不变性时，我们假设由单一音调乐器演奏的所有音符都由单一频率基函数的翻译版本组成。然后假定这个仪器基函数代表该仪器的典型频率特性。这是对实际情况的简化，在实践中，给定乐器的音色确实随着音高而变化[31］．尽管这样，假设确实代表在有限的音域有效的近似，并且这种假设在许多商业音乐采样器和合成器，其中预先录制的音符给定的间距被用来生成其他票据接近间距原来的被使用笔记。在频率的基函数使用移不变性的主要优点是，代替具有其必须被分组到它们各自的源之前，可能会发生分离，如在标准NMF基函数，频移不变模型允许单个仪器或来源被建模明确地与要被估计具有张量的单个切片中的每一源。

到目前为止，在频率基础函数移不变性的掺入需要使用频谱的使用日志频分辨率，如恒定变换（CQT）32］．或者，对数频率变换可以用线性频率谱图箱的加权求和来近似，例如从短时傅里叶变换中得到的。这可以表示为在哪里是一个线性频率频谱与频率和时间框架。频率加权矩阵的大小这地图线性频率箱到对数频率垃圾箱,和是大小的对数频率频谱．可以看出是矩形矩阵，所以没有真正的逆矩阵存在，使得从对数频率分辨率以线性频率分辨率仅近似映射任何映射回去。

如果设定对数频率变换的频率分辨率，使频带的中心频率为在哪里的中心频率th乐队,和是一个参考频率，那么乐队的间距将与西方音乐中使用的等温音阶相匹配。一个音箱的上升或下降对应一个半音的音高变化。

在本文中，基函数的平移是通过平移张量来实现的，尽管其他的公式，如Smaragdis提出的移位算子方法[27可以使用。将一个向量,一个需要平移矩阵。这可以通过排列单位矩阵的列来生成。例如，将一个基函数向上移动1，可以得到平移矩阵式中单位矩阵表示为列的顺序包含在方括号中表示是排列中的第一个元素，后面跟着的元素吗．为了允许的平移，这些平移矩阵然后被分组成一个大小的平移张量．

对于允许更一般形式的不变性，如Eggert等，也进行了研究。关于转换不变NMF [33]，其中诸如平移和旋转各种形式的变换是通过变换矩阵的装置处理。然而，他们的模型只被证明对翻译或平移不变性。此外，虽然变换矩阵可能被用来允许通过使用拉伸所述频谱矩阵的使用线性频率分辨率的，已经在别处指出的是，这种拉伸是困难的使用离散线性频率表示[以执行13.］．

2．1.移位的二维非负张量分解

所有包含位移不变性的算法都可以看作是菲茨杰拉德[34]，并分别由[35］．SNTF模型可以描述为在哪里张量是大小的吗含有幅度频谱图的信号的每个信道的。张量是大小的吗，包含了每一个的收益来源在每个频道。是一个平移张量，它把仪器基函数平移进去向上或在频率，其中向下是频率上的转换数，从而近似于给定源演奏的不同音符。张量是大小的吗，在哪里是跨越时间的翻译数量。张量是大小的吗包含激活的翻译当一个给定的音符被一个给定的乐器演奏时，它就会显示出来，从而产生信号的转录。是一个平移张量，平移包含的时间激活函数跨越时间，从而允许时间变化的源或仪器频谱。这些张量，它们的维数和函数在表中总结1为了便于参考，后续模型中使用的所有张量也是如此。如果通道数设置为，以及允许的频率平移也设为1，那么该模型就崩溃为Virtanen在[28］．同样,设置结果在模型中[建议36]，而这两个设置和的结果是(4）。在 [34]，广义相对熵被用作成本函数，并导出了乘法更新方程，,．


SNTF.			信号谱图
			近似的
			仪器收益
			翻译张量(频率)。
			仪器基函数
			注意激活
			翻译张量(时间)

SSNTF			谐波的字典
SSNTF			谐波的重量

SF-SSNTF			共振峰的过滤器

SF-SSNTF + N			噪音乐器收益
			噪声的基函数
			噪音激活
			噪音翻译张量

当使用SNTF时，一个给定的音调乐器是由一个乐器谱图来模拟的，它在频率上被上下转换，以给出乐器演奏的不同音符。然后利用增益参数将仪器定位在立体场中的正确位置。光谱图分离的源可以从(6）仅使用与之相关的张量切片源。然后，可以通过重用原始混合信号的相位信息，或使用Slaney提出的技术生成一组相位信息，将该谱图反转为时域波形[37］．此外，还可以利用恢复的谱图生成维纳型滤波器，用于原始复短时间傅里叶变换。

如前所述，从对数频率线性频域的映射是一个近似映射，这可以对再合成的声音质量产生不利影响。用于执行这种映射，并获得逆CQT的各种方法进行了研究[38，39］．然而，克服这个问题的一个更简单的方法是将映射合并到模型中。这可以通过替换来实现在(6),，在哪里是近似从图日志以线性域。这个映射可以简单地的转，用于（5）。移不变性在日志频域仍然实现，但成本函数现在在线性频域测量。这类似于使用噪声掩蔽比作为成本函数当由奥格雷迪提出的方法[21.]. O'Grady在他的算法中包含了从线性到树皮域的映射，因为成本函数需要在树皮尺度域中测量。有人指出，这导致了震级谱图域中的能量扩散。在改进的SNTF算法中，相反的情况适用，我们希望在线性幅度谱图域中测量成本函数，而不是对数频率域，并且映射的合并导致常数中频率基函数中的能量扩散更少领域。它还具有在将发生到时域的最终反转的域中执行优化的优点。尽管如此，使用近似映射仍然对重新合成质量产生不利影响。

为了克服这些再合成问题，施密特等。建议使用恢复的谱图创建掩模，然后用于重新过滤原始谱图[40］．施密特等等。使用二进制掩蔽方法，将垃圾箱分配给在那个垃圾箱中功率最高的源。在本文中，我们使用了一种重新滤波的方法，将恢复的源谱图与原始混合谱图相乘，发现这种方法比之前描述的方法有更好的结果。

3.正弦位移二维非负张量分解

而SNTF已被证明能够分离调和音调乐器的混合物[34，这种方法的一个潜在问题是，不能保证基函数是调和的。维尔塔宁提出了一种谐波约束形式，根据这种形式，基函数只允许在与完美谐波声音相对应的区域有非零值[13.]然后raczynski etal。[11.[谁用它用于多点估计的目的。然而，利用这种技术，没有保证基本函数的谐波区域返回的值将对应于正弦曲线的实际形状，如果存在。raczynski还注意到使用该约束时返回的结构可能并不总是纯粹的谐波，因为峰值可能在不在谐波区域的中心的点处发生。

的另一种方法在基函数施加谐约束的问题是要注意，窗口化正弦曲线的幅度频谱可以直接在封闭形式被计算为位移和缩放窗口的频率响应的版本[41］．例如，使用汉恩窗，频率正弦信号的幅度谱，在哪里为频率，单位为Hz，采样频率是Hz，和是所希望的FFT，由下式给出在哪里和的中心频率个FFT bin和地方被定义为和和然后，建议使用加性合成类型模型，其中每个音符都被建模为正弦波的整数倍的音符的基本频率的和，与正弦波的相对强度给出音符的音色。这种谱域方法以前被用于进行加法合成，特别是Freed etal的逆FFT方法。[42］．

对于给定的音调和给定的谐波数，单个正弦波的幅值谱可以存储在一个大小矩阵中在哪里是频谱中的存储箱数，以及是谐波的数量。这可以为每个允许的人重复得到一个大小张量．实际上，该张量是由与每个允许票据的部分相关的单个正弦曲线的幅度谱组成的信号字典。再次拍摄Hann窗口作为示例，然后可以将张量定义为在哪里和，最低允许音和的频率是以赫兹为单位的吗如前面章节中所定义的2．这里假设有等量调优，但也可以使用其他调优系统。

还可以通过使用Inhagnicity因子来考虑部分在部分的定位中的InhArmonicity。例如，在包含拉伸串的仪器的情况下，可以计算为在哪里是讨论仪器的单谐波因素[43］．实际上，除了附近的区域外，星等谱将接近于零，因此，通常只需计算对任方十箱让剩下的箱子值为0。此外，最低音符的最低部分和最高音符的最高部分的频率限制了将要建模的谱图区域，因此可以丢弃这些范围之外的谱图频率箱。如果需要少量的谐波，这可以大大减少所需的计算次数，从而加快算法的速度。

包含具有相同增益的谐波偏微分集。为了近似不同乐器的音色，这些分音必须按不同的比例加权。这些权值可以存储在一个大小的张量中在哪里仪器的数量是多少是跨越时间的平动次数，因此允许谐波权值随时间变化。把权张量标记为，模型可以描述为利用广义Kullback-Leibler散度作为代价函数，可导出乘法更新方程为在哪里和是一个全1张量具有相同的尺寸，所有部门都被视为元素。

这些更新方程与SNTF的相似，只是替换和与正弦信号的字典，和一组谐波权重,分别。提出了一种新的算法正弦位移二维非负张量分解(SSNTF)，因为它明确地将信号建模为加权谐波相关正弦波的和，实际上将一个加性综合模型纳入张量分解框架。SSNTF仍然可以被认为是频移不变的，因为谐波权值不变于频谱中音符出现的位置。

SSNTF的一个优势是,分离的问题是现在完全制定在线性频域,从而避免了使用一个近似对数线性频域的映射算法在任何时候,它消除了潜在的再合成构件由于映射。分离的时域波形的重新合成可以以类似于SNTF的方式进行，或者，可以利用加性合成模型来利用加性合成重建分离的信号。

该SSNTF算法使用可从[张量工具箱在Matlab中实现44，以及本文所描述的所有后续算法。每次迭代，代价函数总是减小。然而，在运行SSNTF时，我们发现当算法估计出每个源存在的频率区域时，得到的结果最好。这通常是通过估算每个源的最低音的音高来完成的。对于分数辅助分离，如[45]，这些资料将很容易获得。在大多数情况下，合并这些信息还可以确定源的顺序。在没有分数可用的情况下，可以先运行SNTF，并在运行SSNTF之前从恢复的基函数中确定基音信息来获得估计。目前，正在进行研究，以设计克服这一问题的替代方法。

作为SSNTF可以提供的改进重建的示例，图1显示从长笛和钢琴的单一通道中分离出来的长笛音符的频谱。在这个例子上进行了SNTF和SSNTF，使用频率上的9个平移和时间上的5个平移。所有其他参数的设置将在本节后面描述6．第一个频谱是原始未混合长笛波形中提取的长笛音符的频谱，第二个频谱是使用SNTF恢复的长笛音符的频谱，模型中包含从对数域到线性域的映射，第三个频谱是SSNTF返回的频谱。可以看出，SSNTF返回的频谱比SNTF返回的频谱更接近于原始的频谱。这证明了使用一种在线性频域内表述的方法的效用。

（一种）

（b）

(c)

数字2为钢琴和长笛的原始混合谱图，图图3（a）显示纯长笛声谱图，并附有图表3（b），图3（c）,3 (d)分别显示了sntf分离笛子谱图、再滤波sntf分离笛子谱图和ssntf分离笛子谱图。数字4(一)显示未混合钢琴声谱图，并附图4 (b)，4 (c),4 (d)分别显示了sntf分离的钢琴谱图、再滤波得到的sntf分离的钢琴谱图和ssntf分离的谱图。可以看出，使用SSNTF恢复的谱图比直接从SNTF恢复的谱图更接近于原始谱图，其中由于对数域到线性域的近似映射而造成的涂抹非常明显。与直接使用SNTF获得的信号相比，在回放分离的SSNTF信号时也注意到大大改善了源的恢复。与其他方法相比，使用SNTF结合重滤波获得的光谱图也可以看出相当接近于原始光谱图。但是，在听的时候，音质仍然不如使用SSNTF获得的音质。此外，正如稍后将看到的，基于sntf的方法不如基于ssntf的方法健壮。

（一种）

（b）

(c)

(d)

(e)

（一种）

（b）

(c)

(d)

(e)

还应该注意的是，谐波约束的添加对可由分解算法返回的解施加了限制。当将额外的参数合并到模型中时，这是相当有好处的，如下面的部分将会看到。

4.Source-Filter造型

如前面章节所述2，使用单个移位仪器基础函数来模拟由仪器播放的不同笔记是简化的。在实践中，由给定仪器播放的音符的TimBre与音高变化，这限制了移位分子模型的有用性。最近，Virtanen和Klapuri建议在分子化方法中加入源过滤模型方法，作为克服这个问题的手段[46]. 在用于声音产生的源滤波器框架中，源通常是振动对象，例如小提琴弦，并且滤波器考虑乐器的共振结构，例如小提琴体，其改变并过滤振动对象产生的声音。这种方法以前曾用于声音合成和语音编码[47，48，但不是在因式分解框架下。

当在移动仪器基本函数的环境中应用，该仪器的基函数表示可以上下移动在频率，以产生不同的间距的高次谐波激励模式。然后，单个固定滤波器被应用到这些被翻译的激励模式，与代表仪器的谐振结构的过滤器。这导致在仪器的音色与距变化，带来了更现实的模型系统。该仪器共振峰滤波器可以结合到经移位的张量因式分解框架通过一个共振峰滤波器张量的大小．在这种情况下th片是一个对角矩阵，仪器共振峰滤波器系数包含在对角线上。

不幸的是，尝试将信号源滤波器模型到SNTF框架是不成功的。得到的算法有太多的参数进行优化，这是很难获得良好的分离效果。然而，发现由SSNTF强加的额外限制，使问题变得易于处理。然后将所得的模型可以被描述为在哪里和．

再次使用广义的Kullback-利伯发散作为成本函数，下面的更新方程导出：数字5显示从本节前面讨论的示例中恢复的槽的过滤器3.．可以看到，恢复滤波器由一系列峰组成，而不是平滑的类峰滤波器。这是由于两个因素的组合，一是原始信号中播放的不同音符数量少，二是SSNTF施加的谐波约束。这导致了一种情况，即大部分频谱将有很少或没有能量，因此滤波器将这些区域建模为有很少或没有能量。

在收听重新合作时，与SSNTF相比，长笛的音质显着改善，具有较少的高频能量。钢琴的再合成也改善了，但略低于长笛。数字3 (e)和4 (e)显示了分别用源滤波器SSNTF恢复的长笛和钢琴的声谱图。可以观察到长笛谱图比SNTF或SSNTF更接近于原始，没有涂抹，与SSNTF相比，高次谐波的存在减少了，这与在听重合成时观察到的是一致的。与SNTF和重滤波方法相比，源滤波SSNTF保留了更多的高频信息，可以看出更接近于原始谱图。在钢琴的情况下，再过滤谱图比源滤波SSNTF方法包含更多的高频信息，更接近于原始的钢琴谱图。在监听时，源-过滤SSNTF方法也优于再过滤的SNTF方法。

作为源滤波器SSNTF的进一步例子，如图6（a）图中显示了由16个音符组成的笛子信号的谱图，其中一个半音分开，按升序演奏6（b）和6（c）显示使用源滤波器SSNTF和SSNTF恢复的频谱图。可以看出，源滤波器方法已经返回更靠近原件的频谱图，而不是SSNTF的高频率信息。数字7显示与图关联的源筛选器6（b）．可以看到，在这种情况下，当连续播放16个音符时，源滤波器变得更平滑，就像预期的类共振峰滤波器一样，但随着谐波越来越远，峰值的证据类似于图中所示5变得更加明显。

（一种）

（b）

(c)

以上例子说明了使用源滤波方法作为提高SSNTF模型准确性的一种方法的实用性。这在分离源的改进的再合成中得到了证实。

5.音高和非音高乐器的分离

音乐信号，尤其是流行音乐，除了音调乐器外，通常还包含非音调乐器，如鼓声。虽然允许频率和时间的平移不变性适用于分离音调乐器的混合物，但不适用于处理打击乐乐器，如响弦鼓和踢踏鼓，或其他形式的一般噪音。这些打击乐器可以通过算法成功捕获，该算法只允许时间上的平移不变性，而无需使用频率平移不变性。为了处理同时包含音调和打击乐器的音乐信号，或者包含额外的噪声，必须有一个处理这两种情况的算法。这可以通过简单地将两个模型相加来实现。这以前是由Virtanen在矩阵分解算法的上下文中完成的[13.他还指出，如果不添加额外的约束条件，得出的模型太复杂，无法获得良好的结果。特别地，和声约束的使用是必需的，尽管在这种情况下，它是基于零仪器基函数的区域，没有谐波活动是预期的，而不是在本文中提出的基于加法合成的技术。

将该概念扩展到张量因子化技术的情况下导致广义张量分子模型用于分离俯仰和打击仪器，这仍然允许使用用于俯仰仪器的源滤波器模型。该模型可以描述在哪里张量是大小的吗，其中包含各的收益敲击的来源,张量是大小的吗在哪里对于冲击源允许时间的移位数，张量是大小的吗和是大小的翻译张量．然后可以为这些附加参数导出基于广义kullback-leibler发散的乘法更新方程，而所有其他参数的更新方程则如部分所给出的4．给出了附加更新方程单个源可以像以前一样分离，但算法也可以用来分离有音调的乐器和无音调的打击乐器，或者通过重新合成模型的相关部分来分离有音调的乐器和无音调的打击乐器。它还可以作为一种“垃圾收集器”，在某些情况下可以提高重新合成的质量，从而消除音调乐器的混合噪声。它也可以被看作类似于Serra[所描述的加性加剩余正弦分析技术[49[它允许信号的俯仰或正弦部分与信号的噪声部分分开重新交替。

作为组合模型的一个例子，数字8显示了从一个包含三种音调乐器，钢琴，长笛和小号，和三种打击乐器，小军鼓，hi-hats，和踢鼓的立体声混合物获得的混合光谱图，而图9显示这些源的原始解密频谱图。钢琴，圈套和踢鼓全部被淘汰到中心，用高帽子和长笛牛仔队和喇叭中央喇叭。数字10.显示了使用组合模型得到的分离谱图。可以看出，虽然在光谱图中可以看到其他来源的痕迹，但这些来源已经恢复得很好，每个单独的仪器都可以识别。这是最明显的痕迹，hi-hat是可见的痕迹在圈套谱图，但圈套明显占主导地位。从结果来看，长笛的痕迹也可以在钢琴信号中听到，乐器的音色也被改变了，但仍然可以识别出是问题乐器。这个例子还突出了张量分解模型的另一个优点，即能够分离在立体场中具有相同位置的仪器。这与address和DUET等算法相反，它们只能在源在立体场中占据不同位置时分离源[26.，50］．

（一种）

（b）

（一种）

（b）

(c)

(d)

(e)

(f)

（一种）

（b）

(c)

(d)

(e)

(f)

6.绩效评估

使用一组40个测试混合物，比较了SNTF、使用再滤波的SNTF、SSNTF、源滤波器SSNTF和使用噪声基函数的源滤波器SSNTF的性能。在带噪声基函数的信源滤波SSNTF中，为了消除谐波源的噪声和伪影，学习了两个噪声基函数。这40个测试信号持续时间为4秒，包含了由不同乐器演奏的混合旋律，并使用了大量管弦乐样本库[51］．总共使用了15种不同管弦乐乐器的样本。音高范围很广，从87赫兹到1.5千赫，每个测试信号中单个乐器演奏的旋律都是和谐的。这样做是为了确保测试信号包含广泛的谐波重叠，因为这发生在大多数现实世界的音乐信号。在许多情况下，一种乐器演奏的音符与另一种乐器演奏的音符重叠，以测试算法是否能够区分不同乐器演奏的相同音调的音符。

40个测试信号由2个文书20个单通道混合物和3个仪器20分立体声的混合物，以及由单独的单通道仪器信号的线性混合中创建这些的混合物。在单信道的混合物的情况下，源信号分别具有单位增益混合，并在立体声混合物的情况下，混合是根据完成在哪里和立体声的左右声道是否混合和代表第一单通道仪器信号等。

利用短时间傅里叶变换获得了混合物的光谱图，Hann窗口为4096个样本，帧间跳跃大小为1024个样本。所有变量都是随机初始化的，除了基于sntf分离的频率基函数，它是在每个例子中每个乐器演奏的最低音符的频率上用和声基函数初始化的。这样做是为了让SNTF与基于ssntf的算法处于同等地位，其中提供了每个源的最低音的音调。允许的音符数设置为测试信号中仪器所覆盖的最大音高范围，SSNTF中使用的谐波数设置为12。该算法运行了300次迭代，并通过对与单个源相关的张量切片进行收缩张量乘法来估计分离的源光谱图。利用混合谱图中的相位信息对回收的源谱图进行了再合成。在立体声混合的情况下，使用声源最强的声道相位。

使用原始源信号作为基准，对不同算法的性能使用常用的指标，即该信号失真比（SDR），其提供源分离的声音质量的总体度量进行评估，信号-to干扰比（SIR），其测量在分离的声音其他来源的存在，并且所述信号与伪影比（SAR），该伪像存在于其中的措施恢复的信号由于分离和再合成。这些指标的详细信息可以在中找到。52]和Matlab工具箱，可从[53］．如前面章节所述3.，对于所有基于ssntf的算法，提供每个源的最低音高就足以确定正确的源顺序。在基于sntf的算法中，源的排序是通过将分离的源与原始源关联来确定的，从而获得最佳的SIR评分。然后手动检查这个匹配过程，以确保没有发生错误。

运行了许多不同的测试，以确定信号持续时间对算法性能的影响，并确定使用不同数量的允许时间偏移的影响。在信号持续时间测试中，将混合信号截断为1、2、3、4秒长度，设置时移数为5，评估算法的性能。得到的结果汇总如图所示11.．结果是通过平均每个分离源获得的指标，以给出每个测试混合物的总体得分。然后对每种混合物的结果取平均，得到如图所示的数据。可以看出，在所有情况下，基于ssntf的算法都明显优于基于SNTF的方法，尽管使用重过滤确实提高了SNTF的性能。还可以看出，信号持续时间对SSNTF得到的结果影响不大，结果与信号持续时间保持相对不变，说明即使在信号持续时间较短的情况下，SSNTF也能捕获谐波源。

（一种）

（b）

(c)

在采用信源滤波的算法中，性能随着信号持续时间的增加而提高。这在SIR度量的情况下尤其明显。这表明，要正确地捕获每个仪器的滤波器，需要更长的信号持续时间。这是可以预期的，因为每一种乐器演奏的音符数量的增加提供了更多的信息来学习滤波器，而参数更少的谐波模型不需要太多的信息来训练。值得注意的是，这种趋势在立体声混合中比在单声源混合中不那么明显，这表明在立体声场中源的空间定位可能会影响源滤波器的学习能力。这可以通过测量源的分离而改变混合系数来测试，这是未来研究的一个领域。然而，可以看到，在较长的持续时间下，源滤波器方法优于SSNTF，基本源滤波器模型在SDR和SAR方面表现更好，而源滤波器加噪声方法在SIR方面表现更好。

从测试源的分离时，测试时间效果的结果如图所示12.．这些是使用用于先前测试的相同程序获得。允许换档的数量范围为1至10，其对应于大约0.2秒的最大变换。再次，基于SSNTF的算法明显优于基于SNTF的方法，无论换档如何。但是，可以看出，对于SSNTF和源滤波器加上噪声方法，随着允许换档的数量，性能相对恒定，性能较小，直到7次偏移，超出这种性能略有下降。在源过滤器SSNTF的情况下，当从一到两个班次进行时，有一个明显的改进，但超越这几乎没有或没有变化，性能随着偏移量增加而变化。在调查中，发现在立体声混合物中主要是显而易见的，随着单声道混合物的性能仍然存在相对恒定，再次突出了研究不同混合系数下算法的性能的需要。总的来说，可以看出，算法的性能符合不同信号持续时间观察到的那样，在SIR方面，源过滤器加上噪声方法最佳，而源过滤器SSNTF在SDR方面表现更好sar。此外，结果表明，在许多情况下，单一的谐波重量可用于表征沥青仪器，而无需将时间变化与时间结合在一起。

（一种）

（b）

(c)

在听分离的来源，基于ssntf的方法明显优于SNTF。值得注意的是，在某些情况下，使用重过滤的SNTF产生的音频质量与基于ssntf的方法相当，但这只是在少数例子中。在大多数情况下，源滤波器的添加改善了SSNTF获得的结果。在比较source-filter source-filter +噪声模型,方法是观察到的结果不同混合物混合,再合成的相当大的改进质量的来源和减少在其他情况下,在大量的测试结果可以听到没有重大差异。这表明，在许多情况下，对于高音乐器的纯混合信号，不需要加入噪声基函数。然而，噪声基函数的使用在噪音或打击乐器存在的情况下仍然有用。还应该指出,在一半的测试混合物SNTF没有管理正确独立的来源,这与失真由于频率的拖尾箱由于从日志映射到线性频率,很好地解释了负特别提款权和爵士的分数。虽然SNTF使用重过滤在源被正确分离的情况下导致了改进的再合成，但它也遭受了底层SNTF技术的可靠性问题，这反映在所有指标的糟糕得分上。这表明基于ssntf的技术比基于sntf的技术更加健壮。

分离的源也可以通过加性合成方法进行再合成，在听的时候，得到的结果可以与基于谱图的再合成的结果相媲美。然而，由于加性合成方法使用的相位信息与基于谱图的再合成方法不同，因此使用本文中使用的度量指标无法对结果进行比较。这突出了开发一套基于感知的声源分离指标的必要性，这是未来研究的一个领域。

研究了模型与原始谱图数据的拟合优度，以成本函数衡量。我们观察到，SSNTF的结果平均比SNTF的结果小64%，尽管SSNTF的自由参数数量更少，因为谐波的数量远远小于常数中使用的频率箱的数量SNTF声谱图。这突出了使用一种仅在线性频域内表述的方法的好处。使用源过滤器SSNTF，加上附加的与SSNTF相比，SSNTF的参数导致成本函数的平均降低76％，与SSNTF相比，减少33％。

综上所述，本文提出的方法相对于以往使用SNTF的分离方法有很大的改进。与以前的SNTF方法相比，性能指标有了很大的改进，而且可以看到，所提出的模型与原始数据的拟合得到了改善。

7.结论

本文讨论了移不变张量分解在音乐声源分离中的应用，特别强调了音高乐器，并着重讨论了现有算法存在的问题。将笔记分组到源的问题可以通过在分解框架中加入频率的移位不变性来克服，但代价是需要使用对数频率表示。当试图重新合成分离的声源时，这将导致相当大的问题，因为没有精确的映射，可以从对数频率表示映射回线性频率表示，这导致分离的声源的声音质量相当大的退化。虽然重过滤可以在一定程度上克服这一问题，但仍存在重合成的问题。

还强调了现有技术的另一个问题，特别是对恢复的频率基函数缺乏严格的谐波约束。以前施加和谐性的尝试使用了一种特殊的约束，即在预期不存在和谐活动的区域将基函数归零。虽然这确实保证了这些区域中不会有活动，但并不保证恢复的基函数具有正弦曲线在这些区域中出现时所具有的形状。

正弦移位然后2D非负张量因式分解提议作为同时克服这两个问题的手段。它需要的，一个封闭形式的解存在用于计算已知频率的正弦曲线的频谱中的事实的优点，并且使用添加剂的合成启发的方法用于建模投仪器，其中由仪器播放的每个音符被建模为一个的总和固定数量的谐波相对于彼此加权正弦曲线。这些权重被认为是不变的音高变化，所以每个音符使用相同的权重来建模，无论间距。各个谐波的频谱是线性频率域中计算，无需在该算法在任何点使用日志频表示，并且谐约束通过使用谐波正弦曲线光谱的信号字典明确规定。结果表明，采用在一个更好的拟合到原始混合物谱图比涉及使用日志频表示的，从而证实了能够在所述线性频域仅执行优化的好处算法该信号模式的结果。

然而，应该指出的是，提出的模型并非没有缺点。特别是，如果将每个音调乐器的最低音符的音调提供给算法，则得到了最好的结果。在大多数情况下，这些信息是不容易得到的，这就需要在使用正弦模型之前，使用标准移位2D非负张量分解算法来估计这些音调。目前正在研究其他方法来克服这个问题，但尽管如此，人们认为新算法的优点大于缺点。

使用相同的谐波重量或仪器基函数，无论间距如何只是对真实世界情况的近似值，其中仪器的TimBre与音高变化。为了克服这种限制，将源滤波器模型结合到张量分子框架中，先前已被其他人提出。不幸的是，在声音源分离的背景下，发现使用这种方法难以获得良好的结果，因为有太多的参数来优化。然而，发现本文提出的严格的谐波约束被发现限制了充分的解决方案范围，以使问题变得令人易行。

以前曾观察到，为了建立一个能够同时处理音调和打击乐器的系统，需要增加和声约束。然而，由于使用对数频率表示和缺乏严格的谐波约束，以前在这类系统上的尝试遭受了挫折。这里介绍的组合模型扩展了此早期作品从单通道、多通道信号,克服了这些问题,使用正弦约束应用于线性频域,以及将源滤波器模型纳入系统,因此代表了一个更一般的模型比以前提出的。

在使用常见的源分离性能指标进行测试时，发现所提出的扩展算法显著优于现有的张量分解算法，大大降低了信号失真和重合成中的伪影。扩展算法也被发现比基于sntf的方法更可靠。

总之，已经证明，在分子框架中使用基于添加性合成的方法用于建模仪器克服与先前方法相关的问题，以及允许扩展到现有模型。未来的工作将集中精力改善所提出的模型，无论是增加的一般性，也可以改善分离的来源的重新合成，以及研究混合系数对所获得的分离的影响。还建议调查频域绩效度量的使用作为增加源分离度量的感知相关性的手段。

致谢

这项研究是由爱尔兰企业基金资助的IMAAS项目的一部分。作者希望感谢Mikel Gainza, Matthew Hart和Dan Barry在本文准备过程中所进行的有益的讨论和评论。作者也希望感谢审稿人的有益评论，使这篇论文得到了很大的改进。

工具书类

JP斯塔特纳，利用听觉变换分析和合成音乐[硕士论文]论文)麻省理工学院电子工程和计算机科学系，剑桥，马萨诸塞州，美国，1983。
P. COMON，“独立成分分析，一个新的概念？”信号处理第36卷第2期3，页287 - 314,1994。视图:出版商的网站|谷歌学术搜索
M. S. Lewicki和T. J. Sejnowski，《学习过度完整的表征》神经计算，第12卷，第2期2，页337-365,2000。视图:出版商的网站|谷歌学术搜索
B. A. Olshausen和D. J. Field，《感觉输入的稀疏编码》，神经生物学目前的意见第14卷第2期4, 2004。视图:出版商的网站|谷歌学术搜索
D. Lee和H. Seung，“通过非负矩阵分子学习物体的部分，”自然，卷。401，没有。6755，PP。788-791,999。视图:出版商的网站|谷歌学术搜索
P.Paatero和U. Tapper，“正矩阵分解：一个非负因子模型，具有最佳利用数据值的错误估计，”环境识别，第5卷，第5期。2，页111-126,1994。视图:出版商的网站|谷歌学术搜索
M. Casey和A. Westner，“通过独立子空间分析分离混合音频源”，刊于国际电脑音乐会议论文集（ICMC '00），第154-161页，德国柏林，2000年8月至9月。视图:谷歌学术搜索
T. Virtanen的，在“使用稀疏与时间上的连续性的目标编码，声源分离”国际计算机音乐会议论文集(ICMC '03)，页231-234，新加坡，2003年9月。视图:谷歌学术搜索
P. Smaragdis和J. C.布朗，“非负矩阵分解和弦音乐转录，”在IEEE研讨会关于信号处理应用于音频和声学的研讨会（WASPAA '03），页177-180，新帕尔茨，纽约，美国，2003年10月。视图:谷歌学术搜索
D. FitzGerald, B. Lawlor，和E. Coyle，“鼓转录的子带独立子空间分析”，刊于第五届数字音频效果国际会议论文集(DAFX’02)，第65-69页，德国汉堡，2002年9月。视图:谷歌学术搜索
S. Raczynski, N. Ono，和S. Sagayama，“谐波非负矩阵近似的多音调分析”，刊于第八届国际音乐信息检索会议论文集(ISMIR’07)，第381-386页，奥地利维也纳，2007年9月。视图:谷歌学术搜索
P. Sajda，S. du和L. Parra，“使用非负矩阵分解的组成光谱恢复”小波在信号和图像处理中的应用年第5207卷Spie诉讼程序，页321-331，圣地亚哥，加利福尼亚州，美国，2003年8月。视图:出版商的网站|谷歌学术搜索
T.维尔塔宁，单耳音乐信号中的声源分离论文)，技术，坦佩雷，芬兰，2006年的坦佩雷大学。
D. FitzGerald, M. Cranitch，和E. Coyle，“声源分离的移位非负矩阵分解”，刊于第13届IEEE / SP研讨会统计信号处理的诉讼程序，页1132-1137，波尔多，法国，2005年7月。视图:出版商的网站|谷歌学术搜索
Mørup, L. K. Hansen，和S. M. Arnfred，“稀疏高阶非负矩阵分解”，技术报告IMM2007-04658，丹麦技术大学．视图:谷歌学术搜索
S. A. Abdallah和M. D. Plumbley，“功率谱的非负稀疏编码的多音转录”，在在音乐信息检索的第五届国际会议论文集（ISMIR '04），页318-325，西班牙巴塞罗那，2004年10月。视图:谷歌学术搜索
R. M. Parry和I. Essa，“通过谱图分解结合相位信息进行源分离”，发表于IEEE声学、语音和信号处理国际会议论文集(ICASSP’07)，第2卷，661-664页，檀香山，夏威夷，美国，2007年4月。视图:出版商的网站|谷歌学术搜索
R. M. Parry和I. Essa，“相位感知非负面频谱图分解”第七届独立分量分析与信号分离国际会议论文集(ICA’07)，第4666卷计算机科学讲义，第536-543页，伦敦，英国，2007年9月。视图:出版商的网站|谷歌学术搜索
R.康帕斯，“A广义散度量用于非负矩阵因式分解，”在神经信息学研讨会论文集，波兰托伦，2005年9月。视图:谷歌学术搜索
A. Cichocki, R. Zdunek, S.-I。“Csiszár的非负矩阵分解的发散:新算法家族”，刊于第六届独立分量分析与盲信号分离国际会议论文集(ICA’06)年第3889卷计算机科学讲义，第32-39页，施普林格，美国南卡罗来纳州查尔斯顿，2006年3月。视图:出版商的网站|谷歌学术搜索
P. D. O. Grady，欠定语音混合的稀疏分离[j]。论文)梅努斯，基尔代尔，爱尔兰，2007。
D.菲茨杰拉德，自动滚筒转录和源分离论文)，都柏林理工学院，都柏林，爱尔兰，2004。
BW贝德和T。GKolda，“算法862：快速算法原型的MATLAB张量类，”数学软件学报，第32卷，第2期4，第635-653页，2006。视图:出版商的网站|谷歌学术搜索
D. FitzGerald, M. Cranitch，和E. Coyle，“声源分离的非负张量分解”，刊于爱尔兰信号和系统会议的诉讼程序，页8-12，都柏林，爱尔兰，2005年9月。视图:谷歌学术搜索
R. M. Parry和I. Essa，“估计音频中频谱成分的空间位置”，发表于第六届独立分量分析与盲信号分离国际会议论文集(ICA’06)年第3889卷计算机科学讲义，pp.666-673，美国查尔斯顿，美国，2006年3月。视图:出版商的网站|谷歌学术搜索
D. Barry, B. Lawlor，和E. Coyle，“声源分离:方位辨别和再合成”，发表于第七届数字音频效果国际会议论文集(DAFX '04)2004年10月，意大利那不勒斯。视图:谷歌学术搜索
P. Smaragdis，“非负矩阵因子反褶积;从单音输入中提取多个声源第五届独立分量分析和盲信号分离会议的诉讼程序年第3195卷计算机科学讲义，第494-499页，西班牙格林纳达，2004年9月。视图:出版商的网站|谷歌学术搜索
T. Virtanen，“通过卷积稀疏编码分离声源”ISCA统计和感知音频处理教程和研究研讨会论文集(SAPA '04)，济州，韩国，2004年10月。视图:谷歌学术搜索
MN施密特和M。Mørup，“用于盲单通道源分离的非负矩阵因子二维反褶积”，年第六届独立分量分析与盲信号分离国际会议论文集(ICA’06)年第3889卷计算机科学讲义，第700-707页，查尔斯顿，SC，美国，2006年3月。视图:出版商的网站|谷歌学术搜索
E. Vincent和X. Rodet， " ISA和HMM音乐抄写第五届独立分量分析与盲信号分离国际会议论文集(ICA’04)年第3195卷计算机科学讲义，第1197-1204页，西班牙格拉纳达，2004年9月。视图:出版商的网站|谷歌学术搜索
A. B. Nielsen, S. Sigurdsson, L. K. Hansen, J. Arenas-García，“光谱特征与仪器分类的相关性”，刊于IEEE声学、语音和信号处理国际会议论文集(ICASSP’07)，第二卷，第485-488页，檀香山，夏威夷，美国，2007年4月。视图:出版商的网站|谷歌学术搜索
J. C. Brown，“计算常数Q光谱变换”美国声学学会，卷。89，没有。1，pp。425-434,1991。视图:出版商的网站|谷歌学术搜索
J. Eggert, H. Wersing，和E. Körner，“转换不变表示和NMF”，在IEEE国际性网络联席会议的诉讼程序（IJCNN'04），第4卷，2535-2539页，布达佩斯，匈牙利，2004年7月。视图:出版商的网站|谷歌学术搜索
D. FitzGerald, M. Cranitch，和E. Coyle，“移位的2D非负张量分解”，在爱尔兰信号和系统会议的诉讼程序，页509-513，都柏林，爱尔兰，2006年6月。视图:谷歌学术搜索
M. M. ørup和M. N. Schmidt，“用于多通道时频分析的稀疏非负张量2D反卷积(SNTF2D)”，丹麦技术大学技术代表，哥本哈根，丹麦，2006。视图:谷歌学术搜索
D. FITZGERALD，M. CRANITCH和E. COYLE，“使用移位的非负张量分解的声音源分离，”IEEE声学、语音和信号处理国际会议文集(ICASSP '06)，卷。5，PP。653-656，图卢兹，法国，2006年5月。视图:出版商的网站|谷歌学术搜索
m·斯莱尼，《九十年代模式回放》的作者神经信息处理系统研究进展，麻省理工学院出版社，麻省剑桥，美国，1996。视图:谷歌学术搜索
D. FitzGerald, M. Cranitch，和E. Coyle，“使用非负因子分解方法进行声源分离的再合成方法”，刊于爱尔兰信号和系统会议的诉讼程序2007年9月，爱尔兰德里。视图:谷歌学术搜索
D. FitzGerald, M. Cranitch，和M. Cychowski，“朝向一个反常数Q变换”，在第120届AES公约论文集，巴黎，法国，2006年5月。视图:谷歌学术搜索
MN施密特和M。Mørup，“用于盲单通道源分离的非负矩阵因子二维反褶积”，年第六届独立分量分析与盲信号分离国际会议论文集(ICA’06)年第3889卷计算机科学讲义，第700-707页，查尔斯顿，SC，美国，2006年3月。视图:出版商的网站|谷歌学术搜索
D. DeFatta J. Lucas和W. Hodgkiss，数字信号处理:一种系统设计方法， John Wiley & Sons，纽约，纽约，美国，1988。
a . Freed, X. Rodet，和P. Depalle，“使用FFT-1在台式计算机上的加法合成的性能、合成和控制”第19届国际电脑音乐会议的诉讼程序（ICMC'93），卷。19，PP。98-101，Wasa大学学术信息中心，国际电脑音乐协会，日本东京，1993年9月。视图:谷歌学术搜索
N.F.Fletcher和T. D. Rossing，乐器的物理学，施普林格，纽约，纽约，美国，第二版，1998。
张量工具箱的Matlab，http://csmr.ca.sandia.gov/~tgkolda/TensorToolbox/．
J.香车叶草，B.帕尔多，和R.较大的差别，“再混合立体声音乐与得分知情源分离”，在第七届音乐信息检索国际研讨会论文集(ISMIR’06)2006年10月，加拿大维多利亚。视图:谷歌学术搜索
T. Virtanen和A. Klapuri，“使用源滤波模型和非负矩阵分解分析复音音频”，刊于声学处理模型研究进展，神经信息处理系统研讨会，惠斯勒，加拿大，2006年12月。视图:谷歌学术搜索
V. Välimäki, J. Pakarinen, C. Erkut，和M. Karjalainen，“乐器的离散时间建模”，物理学进展报告，卷。69，没有。1，pp。1-78,2006。视图:出版商的网站|谷歌学术搜索
M. R. Schroeder和B. S.Atal，“Code-Expited线性预测（CELP）：在非常低的比特率下的高质量言论”IEEE声学、语音和信号处理国际会议论文集，第10卷，937-940页，美国佛罗里达州坦帕，1985年4月。视图:谷歌学术搜索
十，塞拉“与正弦波加噪声产生的声音造型”，在音乐信号处理，G. D.波利，A. Picialli，S. T.教皇，和C.道路编辑，Swets＆Zeiltlinger，丽丝，荷兰，1997。视图:谷歌学术搜索
O。Yilmaz和S. Rickard，“通过时频掩蔽的语音混合盲分离”，IEEE信号处理汇刊，卷。52，没有。7，第1830至1847年，2004。视图:出版商的网站|谷歌学术搜索
P. Siedlaczek, Advanced Orchestra Library Set, 1997。
E. Vincent, R. Gribonval，和C. Fevotte，“盲声源分离中的性能测量”，IEEE音频，语音和语言处理汇刊第14卷第2期4, pp. 1462-1469, 2006。视图:出版商的网站|谷歌学术搜索
BSS_Eval工具箱,http://bassdb.gforge.inria.fr/bss_eval．

计算智能与神经科学

非负矩阵和张量分解的研究进展

摘要

1.介绍

1.1. 张量表示法

1．2．张量Factorisation

2.移不变的Factorisation算法

2．1.移位的二维非负张量分解

3.正弦位移二维非负张量分解

4.Source-Filter造型

5.音高和非音高乐器的分离

6.绩效评估

7.结论

致谢

工具书类

版权

更多相关文章

相关文章