概率潜变量模型作为非负分解

文摘

介绍一个家庭的概率潜变量模型,可用于分析非负数据。我们表明,有强大的非负矩阵分解之间的关系和这个家庭,并提供一些简单的扩展可以帮助在处理移不变性,高阶分解和稀疏约束。我们认为通过这些扩展,使用这种方法可以快速发展复杂的统计模型分析非负数据。

1。介绍

技术分析非负数据需要在几个应用,如图像分析、文本语料库和音频谱等等。提出了各种技术等的分析数据,如非负PCA (1),非负ICA (2),非负矩阵分解(NMF) [3),等等。所有这些技术的目的是解释给定的非负数据作为保证的非负线性组合的一组非负“基地”代表现实的“积木”的数据。其中,可能最发达的非负矩阵分解,与最近的研究致力于主题(4- - - - - -6]。所有这些方法把每个数据向量作为一个点维空间和试图确定最好的基地解释数据在空间的分布。为了清晰起见,我们将参考数据代表在任何空间向量点数据。

有点相关,但独立的主题,多年来获得了许多研究的分析多变量数据的直方图。直方图数据代表出现的一系列事件的数量在一个给定的数据集。这里的目的是识别统计影响因素的发生通过这些方面的分析和适当的建模数据分布的底层。这种分析通常需要在文本的分析,行为模式,等等。各种各样的技术,如概率潜在语义分析(7),潜在狄利克雷分配(8)等及其衍生物最近变得相当受欢迎。大部分,如果不是全部,可以是相关类的概率模型,在行为科学社区潜在的类模型(9- - - - - -11),试图解释观察到的直方图是来自一组潜在的类,每个都有自己的分布。为了清晰起见,我们将参考直方图和直方图的集合柱状图数据。

在本文中,我们认为技术用于分析直方图数据同样可以有效地用于非负分解点数据,通过解释后者直方图扩展而不是向量。具体来说,我们表明,该算法用于估计潜在的类模型的参数是数值相当于一种NMF的更新规则。我们也建议替代潜变量模型的直方图分解类似普遍采用在文本的分析,分解点数据也显示,这些NMF的更新规则完全相同。我们将一般指histogram-decomposition技术点的应用程序数据概率分解。(这个不能混淆方法模型的分布向量的集合。在我们的方法中,向量本身是柱状图,或者,或者,按比例缩小的概率分布)。

除了简单的等价NMF、概率分解方法有几个优点,我们解释一下。负的PCA和ICA和NMF主要用于矩阵像二维特征的数据,分析了由并排铺设数据向量的矩阵。他们不自然地扩展到高维张量的表示,这是经常通过隐式展开的张量矩阵。然而,张量的概率矩阵分解自然延伸到任意维度。

通常需要控制的形式或结构学习基地和他们的预测。自学习的过程代表了数据统计的基地,概率分解提供控制的形式通过对先验概率学习基地,我们将展示。如稀疏约束也可以通过这些先验合并。

我们还描述了扩展的基本概率分解框架,允许移不变性以及一个或多个维度(张量)的数据,可以从数据抽象convolutively联合基地。

剩下的纸是组织如下。以后,我们促进概率分解方法在本文中是最类似于非负矩阵分解(NMF)在所有技术,分析非负点数据,我们首先NMF的简短讨论。我们现在的家庭潜变量模型部分3我们将采用概率分解。我们现在的张量在部分概括4.1和convolutive分解部分4.2。节4.3,我们将讨论扩展将稀疏和节等4.4,我们介绍的这些分解的几何解释。

2。非负矩阵分解

介绍了非负矩阵分解,3]找到非负器件表示的数据。给定一个矩阵每一列对应一个数据矢量,NMF近似非负矩阵作为一个产品吗和,也就是说,,在那里是一个矩阵和是一个矩阵。上述近似可以书面列的列,在那里和是列和分别。换句话说,每个数据向量的线性组合来近似的列加权的条目。的列可以被认为是吗基向量,如果再加上适当的混合权重(列的条目),提供的线性近似。

矩阵的最优选择和是由那些非负矩阵之间的重建误差最小化和。提出了不同的误差函数导致不同的更新规则(例如,3,12])。所示是乘法更新规则得到了(3)使用一个误差测量类似Kullback-Leibler分歧: 在哪里代表了价值行和列的矩阵。

3所示。潜变量模型

在最简单的形式中,NMF表达一个数据矩阵非负矩阵的乘积和。这个想法是为了表达的数据向量(列),一组的组合基础组件或潜在的因素(列)。下面,我们显示一个类的概率模型采用潜变量,在社会和行为科学领域潜在的类模型(例如,(9,11,13]),相当于NMF。

让我们代表矩阵的两个维度通过和分别。我们可以考虑非负条目是由一个潜在的概率分布。变量和多项随机变量,在哪里的一组吗在给定的画和值的一组吗值在给定的画。换句话说,一个人可以模型在一行中,条目和列特性的次数和选择在一组从分布重复了吗。与NMF试图描述直接观测数据,潜在的类模型描述潜在的分布。这种细微的差异的解释保留所有NMF的优点,同时克服其局限性提供了一个框架,很容易推广,扩展和解释。

有两种方法建模下面,我们分别考虑。

3.1。对称分解

潜在的类模型使一个属性的观察是由于隐藏或潜在的因素。这些模型的主要特征是有条件independence-multivariate数据建模等属于潜在的类随机变量在一个潜在的类是彼此独立的。模型表达等多元分布作为一个混合的混合物,其中每个组件是一个一维的边际分布的产物。对于二维数据等,该模型可以写数学在(2),是一个潜变量,索引隐藏组件和需要值的设置。这个方程假设当地独立的原则,即潜变量使观察到的变量和独立的。这个模型提出了独立概率潜在的成分分析(PLCA) (14]。模型的目的是描述基础学习如上所示的数据分布参数,以便隐藏在数据结构变得明确。

模型可以表示为一个矩阵分解。代表的参数,和作为矩阵的条目,和分别在哪里(我) 是一个矩阵,对应的概率;(2) 是一个矩阵,对应的概率;和(3) 是一个对角矩阵,对应的概率;你可以写的模型(2以矩阵形式) 在矩阵的条目吗对应于和。图1说明了模型示意图。

可以使用EM算法估计参数。参数的更新方程可以写成

写作上面的更新方程矩阵形式使用和从(3),我们得到上面的方程是相同的NMF更新方程(1)到一个比例因子。这是由于这样的事实,分解的概率模型相当于一个规范化版本的数据文献[14]给出了详细的推导的更新与NMF算法和比较更新方程。这个模型被用于分析图像和音频数据在其他应用程序(例如,14- - - - - -16])。

3.2。不对称分解

潜在的类模型(2)认为每个维度对称分解。二维分布表示为二维的潜在因素,每个因素的混合物是一维的产品边际分布。现在,考虑下面的分解: 在哪里和是一个潜在的变量。这个版本的模型与不对称分解俗称概率潜在语义分析(向量)topic-modeling文献[7]。

不失一般性,我们和。我们可以把上述模型矩阵形式,在那里是一个列向量表示是一个列向量表示,是一个矩阵的吗元素对应。如果需要值,是一个矩阵。连接所有的列向量和作为矩阵和分别,一个可以把模型写成在哪里是一个对角矩阵的对角线元素之和的条目 ,。图2提供了一个模型的图解说明。

给定数据矩阵、参数和估计的迭代方程导出使用吗算法: 写上述方程矩阵形式使用和从(7),我们得到上面的方程组的NMF更新方程完全相同(1)。参见[17,18为更新的详细推导方程。之间的等价NMF和向量也已指出的那样19]。模型已被用于音频光谱的分析(例如,20.)、图像(例如,17,21])和文本语料库(例如,7])。

4所示。模型的扩展

NMF的流行主要来自其经验成功找到有用的组件的数据。一些研究人员指出,NMF有一些重要的局限性,尽管成功。我们已经提出了概率模型,数值密切相关或相同的一个广泛使用的NMF更新算法。尽管数值等价,方法论的不同方法是很重要的。在本节中,我们概述一些优势的使用这个替代概率对NMF的看法。

第一和最直接的使用概率方法的含义是,它提供了一个理论基础技术。更重要的是,概率基础使一个使用的所有工具和机械估计的统计推断。这是该方法的扩展和推广的关键。除了这些明显的优势,下面我们讨论一些具体的例子,利用这种方法更有用。

4.1。张量的分解

NMF引入分析二维数据。然而,有几个领域与非负多维数据的多维关联NMF可能是非常有用的。这个问题已经称为非负张量分解(NTF)。提出了几种扩展的NMF处理多维数据(例如,4- - - - - -6,22])。通常情况下,这些方法平张量矩阵表示,需要进一步分析。从概念上讲,NTF NMF的自然推广,但学习参数的估计算法,但是,不会让自己很容易扩展。几个问题导致这个困难。这里的原因我们不存在由于缺乏空间但可以在详细讨论(6]。

现在,考虑潜变量模型的对称分解的情况下提出了部分3所示。1。这个模型是自然适合推广到多个维度。它的一般形式,模型表达维分布作为一个混合物,其中每个维组件的混合物是一维的边际分布的产物。在数学上,它可以写成在哪里是一个维分布的随机变量。潜变量索引组件和混合吗是一维的边际分布。参数估计的迭代方程导出使用EM算法和它们

在二维情况下,更新方程减少(4)。

说明该算法的输出,考虑下面的玩具例子。输入是左上角图所示的三维分布在图吗3。这个分布也可以被视为一种等级3积极的张量。它显然是由两个组件,每个作为一个各向同性高斯与手段和和方差和分别。块的最后一行显示了派生的使用我们刚刚描述的估计过程。我们可以看到,每个人都是由高斯在预期的位置和与预期的差异。的近似使用这种模式显示在右上角。其他的例子应用程序更复杂的数据和详细的推导的算法可以在14,23]。

(一)

(b)

(c)

(d)

(e)

4.2。Convolutive分解

给定一个二维的数据集,NMF发现隐藏的结构以及一维(columnwise)是整个数据集特征。考虑这样一个场景,现在是局部结构沿着两个维度(行和列),必须从数据中提取。一个示例数据集将是一个声光谱图的人类语言结构频率和时间。传统NMF无法找到结构跨两个维度提出了和几个扩展来处理这样的数据集(例如,24,25])。

潜变量模型可以扩展等数据和参数估计仍然遵循一个简单的EM算法基于最大似然的原则。模型,称为移不变的版本的PLCA,可以数学写成23] 在哪里内核分配 在哪里定义一个局部凸区域的尺寸。类似于简单的模型(2),模型表达作为一个潜在的组件的混合物。而是每个组件的一个简单的一维分布,产品之间的组件分布多维“内核分配”和多维“脉冲分配”。更新方程的参数

详细推导的算法可以在14]。上述模型能够处理张量的数据矩阵数据一样。为了说明这个模型,考虑图左上角的图片4。这个图像是一个等级3张量。我们希望发现底层组件组成。组件是数字1、2、3和出现在不同的空间位置,从而迫使“移不变的”的方法。利用上述算法,得到结果如图4。其他例子的分解在更复杂的数据所示23]。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

上面的示例演示移不变性,但可想而知,“组件”,输入可能发生旋转或缩放等变换除了翻译(变化)。可以扩展这个模型将不变性这样的转换。从上述方法推导遵循自然,但我们在这里省略进一步讨论由于空间限制。

4.3。扩展以先验的形式

NMF更明显的限制之一是提取相关组件的质量。研究人员指出,NMF,李和Seung介绍,并没有一个明确的方式来控制所需的组件的“稀疏”(26]。事实上,无法实施稀疏只是一个具体的例子更一般的限制。NMF没有提供一种方式对已知或假设评估期间的数据结构。

精心制作,让我们考虑稀疏的例子。提出了扩展NMF将稀疏(例如,26- - - - - -28])。这些方法的总体思路是实施成本函数估计中包含一个额外的约束,量化得到的稀疏的因素。而稀疏通常指定为规范派生的因素(29日),考虑使用一个实际的约束规范,自规范中不易于优化过程,主要试图最小化原始数据之间的误差和规范给出的近似估计的因素。在概率公式,稀疏约束的关系到实际的目标函数优化更为直接。我们通过派生的熵稀疏特征因素,按原规定(30.]。稀疏代码被定义为一组基向量,这样任何给定数据点很大程度上可以解释为只有少数基地的设置,这样所需的其他基地贡献数据点是最小的;也就是熵的混合权重基地相结合来解释数据点低。稀疏的代码现在可以得到实施熵的前在混合权重。对于一个给定的分布之前,熵的定义是在哪里是熵。实施前的(积极的)混合权重就意味着我们获得解决方案,混合权重较低的熵更有可能出现的低熵确保向量的几项重要。实施了稀疏潜变量模型,利用熵的之前,可以提供一个更好的描述的数据(17,18,23,31日]。详细的推导和估计算法可以在找到17,18]。注意,先知先觉可以对任何设置的参数估计。

信息理论、熵是衡量信息内容。一个可以考虑的前提供显式的方式来控制大量的“信息内容”所需的组件。我们使用一个简单的shift-invariance说明这个想法。考虑一个图像组成的分散加号字符。这一形象的分析,我们希望内核分配是一个“+”,和脉冲分配一组δ函数将其放置适当的空间。然而,使用前的我们可以从内核分配的信息量分布的冲动,反之亦然。我们在图显示分析的结果5的三个案例,没有之前的使用(左面板),它被用于制造脉冲稀疏(中期板),以及它的使用,使内核稀疏(右面板)。在左面板、信息数据分布在内核(上)和脉冲分布(底部)。在其他两个案例中,我们可以集中所有的信息在内核或脉冲前利用熵的分布。

(一)

(b)

(c)

(d)

(e)

(f)

其他发行版之前,已经使用在各种情况下包括狄利克雷(8,32和对数正态分布分布33)等等。能够利用先验分布在估计提供了一种方法将信息了解这个问题。更重要的是,统计推断技术的概率框架提供了行之有效的方法,可以采用参数估计。我们指出,这些扩展可以处理所有的归纳,提出了在前面的部分。

4.4。几何解释

我们也想简要指出概率模型有时可以提供见解,有利于直观的理解模型的工作原理。

考虑不对称分解的潜变量模型是由(6)。让我们参考数据的归一化列矩阵(通过扩展条目的每一列总和为1),,因为数据分布。它可以表明,学习模型相当于估计参数的模型对于任何数据分布最好的接近它。注意,数据分布、模型近似和组件都是维向量和团结,因此分单纯形。该模型表示点形成的凸壳内的组件。因为它是受限的躺在这个凸包,可以模拟准确地只有后者还在凸包。因此模型估计的目的作为凸包的角落,这样所有的数据分布在撒谎。这是见图6在一家玩具400三维数据分布的数据集。

图6

标准2-Simplex ◊ □ 插图的潜变量模型。面板显示三维数据分布内点给出的。模型数据分布近似点躺在形成的凸壳组件(基向量)。还显示了两个数据点(标记和(职责)及其近似的模型。,所示和)。

并非所有的概率公式提供这样一个干净的几何解释,但在某些情况下如前所述,它可以导致直觉帮助解释。

5。讨论和结论

在本文中,我们提出了一个家庭的潜变量模型和效用的非负数据的分析。我们表明,潜变量模型分解数值相同的NMF算法优化Kullback Leibler度量。与以前报道的结果(34),等价的证明不需要假设的分布数据,或者任何有关数据除了nonnegativity假设。本文给出的算法主要是计算概率分解的非负数据优化分解近似的KL距离和实际数据。我们认为这种方法的使用提供了一个更直接的方法使容易扩展模型。(目前还不清楚,这种方法可以扩展到类似的推导分解优化等师差异metric-this进一步调查的话题。)

为了证明这一点,我们提出了扩展处理张量的数据,移不变性,并利用先验估计。本文的目的不是为了突出这些方法的使用和展示他们彻底,而是证明方法,允许更容易与非负数据分析和实验开放的可能性比以前更为严格和概率建模。一个丰富多样的真实世界的应用程序和派生的这些和其他模型可以发现引用。

承认

Madhusudana Shashanka承认的支持和有益的反馈收到迈克尔层面在火星,Inc .)

引用

m . d . Plumbley和大肠Oja”,一个“非负pca“独立分量分析的算法,IEEE神经网络,15卷,不。1,第76 - 66页,2004。视图:出版商的网站|谷歌学术搜索
m·d·Plumbley“几何非负ICA方法:集合管,李群和托拉尔代数”Neurocomputing卷,67年,第197 - 161页,2005年。视图:出版商的网站|谷歌学术搜索
d·d·李和h . s . Seung“学习对象的部分非负矩阵分解,“自然,卷401,不。6755年,第791 - 788页,1999年。视图:出版商的网站|谷歌学术搜索
m .嗨和c·斯诺“控制稀疏非负张量分解,”进行第九届欧洲计算机视觉大会06年)卷,3951年,页56 - 67,格拉茨,奥地利,2006年5月。视图:出版商的网站|谷歌学术搜索
a . Cichocki r . Zdunek崔s r . Plemmons和美国,“非负张量分解使用α和β分歧,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 07)2007年4月,檀香山,夏威夷,美国。视图:谷歌学术搜索
a . Shashua t .领唱者,“非负张量分解应用统计和计算机视觉,”学报》第二十二届国际会议上机器学习(ICML ' 05)波恩,页793 - 800年,德国,2005年8月。视图:谷歌学术搜索
t·霍夫曼,“无监督学习通过概率潜在语义分析,“机器学习,42卷,不。1 - 2、177 - 196年,2001页。视图:出版商的网站|谷歌学术搜索
布莱d, a Ng和m .乔丹,“潜在狄利克雷分配”机器学习的研究》杂志上,3卷,第1022 - 993页,2003年。视图:谷歌学术搜索
p . Lazarsfeld和n .亨利,潜在的结构分析美国大众,霍顿•米夫林公司,波士顿,1968年。
j·罗斯特和r . Langeheine Eds。潜在特质和潜在的应用在社会科学类模型、j·罗斯特和r . Langeheine Eds。,Waxmann, New York, NY, USA, 1997.
l·a·古德曼”探索潜在的使用可识别和无法辨认的结构分析模型,”生物统计学,卷61,不。2、215 - 231年,1974页。视图:出版商的网站|谷歌学术搜索
d·李和h . Seung”为非负矩阵factorizatio算法学报的第14届年会的进步神经信息处理系统(捏' 01)加拿大,温哥华,公元前2001年12月。视图:谷歌学术搜索
b·f·绿色,Jr .)“潜在的结构分析和因子分析的关系,“美国统计协会杂志》上卷,47号257年,第76 - 71页,1952年。视图:出版商的网站|谷歌学术搜索
p . Smaragdis和b . Raj移不变的概率潜在的成分分析,”出现机器学习研究杂志》上。视图:谷歌学术搜索
p . Smaragdis b . Raj, m . Shashanka”监督和semi-supervised从单通道混合物分离的声音,”学报》第七届国际会议上独立分量分析和盲信号分离(ICA ' 07),页414 - 421,伦敦,英国,2007年9月。视图:谷歌学术搜索
p . Smaragdis b . Raj, m . Shashanka”概率声学建模、潜变量模型”声学学报的发展模型加工车间(捏' 06)加拿大惠斯勒,公元前2006年12月。视图:谷歌学术搜索
m . Shashanka b . Raj, p . Smaragdis“稀疏overcomplete潜变量分解的计算数据,”诉讼21年会上的神经信息处理系统(捏' 07)加拿大,温哥华,公元前2007年12月。视图:谷歌学术搜索
m . Shashanka潜变量的建模框架和分离单通道声来源波士顿,波士顿大学博士论文,质量,美国,2007年。
大肠Gaussier和c . Goutte“查询词与nmf的关系和影响,”学报》第28届年度国际市立图书馆会议在信息检索的研究和开发(SIGIR 05)萨尔瓦多,页601 - 602年,巴西,2005年8月。视图:出版商的网站|谷歌学术搜索
b . Raj和p . Smaragdis潜变量分解为单通道扬声器分离谱图,”IEEE学报》研讨会上的应用信号处理音频和声学(WASPAA 05)新帕,页17日,纽约,2005年10月美国。视图:出版商的网站|谷歌学术搜索
m . Shashanka b . Raj, p . Smaragdis”概率潜变量非负稀疏分解模型数据,”出现IEEE模式分析与机器智能。视图:谷歌学术搜索
m·威林和m·韦伯”积极的张量分解,”模式识别的字母,22卷,不。12日,第1261 - 1255页,2001年。视图:出版商的网站|谷歌学术搜索
p . Smaragdis b . Raj, m . Shashanka“稀疏,从非负数据移不变的特征提取IEEE国际会议上声学学报》,演讲,和信号处理(ICASSP 08年)拉斯维加斯,内华达州,美国,2008年3 - 4月。视图:谷歌学术搜索
p . Smaragdis“非负矩阵因子反褶积;从单声道输入提取多个声音来源,”学报》第五届国际会议上独立分量分析和盲信号分离(ICA的04)卷,3195年,页494 - 499,格拉纳达,西班牙,2004年9月。视图:谷歌学术搜索
p . Smaragdis“Convolutive演讲基地和他们的应用程序分离,监督演讲”IEEE音频、语音和语言处理,15卷,不。1、1 - 12,2007页。视图:出版商的网站|谷歌学术搜索
p·o·霍耶,”与稀疏约束非负矩阵分解,”机器学习的研究》杂志上5卷,第1469 - 1457页,2004年。视图:谷歌学术搜索
m . Morup和m·施密特“稀疏非负矩阵因子二维反褶积,”丹麦技术大学,丹麦,2006年。视图:谷歌学术搜索
j·艾格特和e . Korner“稀疏编码、NMF”《IEEE国际联合会议上神经网络(IJCNN ' 04)4卷,第2533 - 2529页,布达佩斯,匈牙利,2004年7月。视图:出版商的网站|谷歌学术搜索
d . Donoho”大多数大型待定线性方程组最小l1-norm也是稀疏的解决方法,”通信在纯粹和应用数学卷,59号7,903 - 934年,2006页。视图:谷歌学术搜索
b . a . Olshausen和d . j .,“出现简单细胞感受野特性通过学习自然图像的稀疏编码,“自然,卷381,不。6583年,第609 - 607页,1996年。视图:出版商的网站|谷歌学术搜索
m . v . s . Shashanka b . Raj, p . Smaragdis“稀疏overcomplete分解为单通道扬声器分离,”《IEEE国际会议音响、演讲和信号处理(ICASSP ' 07),卷2,页641 - 644,檀香山,夏威夷,美国,2007年4月。视图:出版商的网站|谷歌学术搜索
b . Raj m . v . s . Shashanka, p . Smaragdis“潜在狄利克雷分解为单通道扬声器分离,”《IEEE国际会议音响、演讲和信号处理(ICASSP 06年)5卷,图卢兹,法国,2006年5月。视图:出版商的网站|谷歌学术搜索
布莱博士和j·拉弗蒂“相关主题模型,”诉讼第20届年度会议上的神经信息处理系统(捏06年)加拿大,温哥华,公元前2006年12月。视图:谷歌学术搜索
j .精明的“差距:离散数据的因素模型”学报》第27届国际市立图书馆会议在信息检索的研究和开发(" 04)2004年7月,英国谢菲尔德。视图:谷歌学术搜索

计算智能和神经科学

非负矩阵和张量分解的进步

文摘

1。介绍

2。非负矩阵分解

3所示。潜变量模型

3.1。对称分解

3.2。不对称分解

4所示。模型的扩展

4.1。张量的分解

4.2。Convolutive分解

4.3。扩展以先验的形式

4.4。几何解释

5。讨论和结论

承认

引用

版权

更多相关文章

相关文章