1。介绍gydF4y2Ba
技术分析非负数据需要在几个应用,如图像分析、文本语料库和音频谱等等。提出了各种技术等的分析数据,如非负PCA (gydF4y2Ba
1gydF4y2Ba),非负ICA (gydF4y2Ba
2gydF4y2Ba),非负矩阵分解(NMF) [gydF4y2Ba
3gydF4y2Ba),等等。所有这些技术的目的是解释给定的非负数据作为保证的非负线性组合的一组非负“基地”代表现实的“积木”的数据。其中,可能最发达的非负矩阵分解,与最近的研究致力于主题(gydF4y2Ba
4gydF4y2Ba- - - - - -gydF4y2Ba
6gydF4y2Ba]。所有这些方法把每个数据向量作为一个点gydF4y2Ba
NgydF4y2Ba
维空间和试图确定最好的基地解释数据在空间的分布。为了清晰起见,我们将参考数据代表在任何空间向量gydF4y2Ba
点gydF4y2Ba数据。gydF4y2Ba
有点相关,但独立的主题,多年来获得了许多研究的分析多变量数据的直方图。直方图数据代表出现的一系列事件的数量在一个给定的数据集。这里的目的是识别统计影响因素的发生通过这些方面的分析和适当的建模数据分布的底层。这种分析通常需要在文本的分析,行为模式,等等。各种各样的技术,如概率潜在语义分析(gydF4y2Ba
7gydF4y2Ba),潜在狄利克雷分配(gydF4y2Ba
8gydF4y2Ba)等及其衍生物最近变得相当受欢迎。大部分,如果不是全部,可以是相关类的概率模型,在行为科学社区gydF4y2Ba
潜在的类模型gydF4y2Ba(gydF4y2Ba
9gydF4y2Ba- - - - - -gydF4y2Ba
11gydF4y2Ba),试图解释观察到的直方图是来自一组潜在的类,每个都有自己的分布。为了清晰起见,我们将参考直方图和直方图的集合gydF4y2Ba
柱状图gydF4y2Ba数据。gydF4y2Ba
在本文中,我们认为技术用于分析直方图数据同样可以有效地用于非负分解点数据,通过解释后者直方图扩展而不是向量。具体来说,我们表明,该算法用于估计潜在的类模型的参数是数值相当于一种NMF的更新规则。我们也建议替代潜变量模型的直方图分解类似普遍采用在文本的分析,分解点数据也显示,这些NMF的更新规则完全相同。我们将一般指histogram-decomposition技术点的应用程序数据概率分解。(这个不能混淆方法模型的分布向量的集合。在我们的方法中,向量本身是柱状图,或者,或者,按比例缩小的概率分布)。gydF4y2Ba
除了简单的等价NMF、概率分解方法有几个优点,我们解释一下。负的PCA和ICA和NMF主要用于矩阵像二维特征的数据,分析了由并排铺设数据向量的矩阵。他们不自然地扩展到高维张量的表示,这是经常通过隐式展开的张量矩阵。然而,张量的概率矩阵分解自然延伸到任意维度。gydF4y2Ba
通常需要控制的形式或结构学习基地和他们的预测。自学习的过程代表了数据统计的基地,概率分解提供控制的形式通过对先验概率学习基地,我们将展示。如稀疏约束也可以通过这些先验合并。gydF4y2Ba
我们还描述了扩展的基本概率分解框架,允许移不变性以及一个或多个维度(张量)的数据,可以从数据抽象convolutively联合基地。gydF4y2Ba
剩下的纸是组织如下。以后,我们促进概率分解方法在本文中是最类似于非负矩阵分解(NMF)在所有技术,分析非负点数据,我们首先NMF的简短讨论。我们现在的家庭潜变量模型部分gydF4y2Ba
3gydF4y2Ba我们将采用概率分解。我们现在的张量在部分概括gydF4y2Ba
4.1gydF4y2Ba和convolutive分解部分gydF4y2Ba
4.2gydF4y2Ba。节gydF4y2Ba
4.3gydF4y2Ba,我们将讨论扩展将稀疏和节等gydF4y2Ba
4.4gydF4y2Ba,我们介绍的这些分解的几何解释。gydF4y2Ba
2。非负矩阵分解gydF4y2Ba
介绍了非负矩阵分解,gydF4y2Ba
3gydF4y2Ba]找到非负器件表示的数据。给定一个gydF4y2Ba
米gydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
矩阵gydF4y2Ba
VgydF4y2Ba
,gydF4y2Ba
每一列对应一个数据矢量,NMF近似非负矩阵作为一个产品吗gydF4y2Ba
WgydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
,也就是说,gydF4y2Ba
VgydF4y2Ba
≈gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
,在那里gydF4y2Ba
WgydF4y2Ba
是一个gydF4y2Ba
米gydF4y2Ba
×gydF4y2Ba
KgydF4y2Ba
矩阵和gydF4y2Ba
HgydF4y2Ba
是一个gydF4y2Ba
KgydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
矩阵。上述近似可以书面列的列gydF4y2Ba
vgydF4y2Ba
ngydF4y2Ba
≈gydF4y2Ba
WgydF4y2Ba
hgydF4y2Ba
ngydF4y2Ba
,在那里gydF4y2Ba
vgydF4y2Ba
ngydF4y2Ba
和gydF4y2Ba
hgydF4y2Ba
ngydF4y2Ba
是gydF4y2Ba
ngydF4y2Ba
thgydF4y2Ba
列gydF4y2Ba
VgydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
分别。换句话说,每个数据向量gydF4y2Ba
vgydF4y2Ba
ngydF4y2Ba
的线性组合来近似的列gydF4y2Ba
WgydF4y2Ba
加权的条目gydF4y2Ba
hgydF4y2Ba
ngydF4y2Ba
。的列gydF4y2Ba
WgydF4y2Ba
可以被认为是吗gydF4y2Ba
基向量gydF4y2Ba,如果再加上适当的gydF4y2Ba
混合权重gydF4y2Ba(列的条目gydF4y2Ba
HgydF4y2Ba
),提供的线性近似gydF4y2Ba
VgydF4y2Ba
。gydF4y2Ba
矩阵的最优选择gydF4y2Ba
WgydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
是由那些非负矩阵之间的重建误差最小化gydF4y2Ba
VgydF4y2Ba
和gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
。提出了不同的误差函数导致不同的更新规则(例如,gydF4y2Ba
3gydF4y2Ba,gydF4y2Ba
12gydF4y2Ba])。所示是乘法更新规则得到了(gydF4y2Ba
3gydF4y2Ba)使用一个误差测量类似Kullback-Leibler分歧:gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
⟵gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
ngydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
)gydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
⟵gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
米gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
⟵gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
∑gydF4y2Ba
米gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
)gydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
一个gydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
代表了价值gydF4y2Ba
我gydF4y2Ba
thgydF4y2Ba
行和gydF4y2Ba
jgydF4y2Ba
thgydF4y2Ba
列的矩阵gydF4y2Ba
一个gydF4y2Ba
。gydF4y2Ba
3所示。潜变量模型gydF4y2Ba
在最简单的形式中,NMF表达一个gydF4y2Ba
米gydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
数据矩阵gydF4y2Ba
VgydF4y2Ba
非负矩阵的乘积gydF4y2Ba
WgydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
。这个想法是为了表达的数据向量(列gydF4y2Ba
VgydF4y2Ba
),一组的组合gydF4y2Ba
基础组件gydF4y2Ba或gydF4y2Ba
潜在的因素gydF4y2Ba(列gydF4y2Ba
WgydF4y2Ba
)。下面,我们显示一个类的概率模型采用潜变量,在社会和行为科学领域gydF4y2Ba
潜在的类模型gydF4y2Ba(例如,(gydF4y2Ba
9gydF4y2Ba,gydF4y2Ba
11gydF4y2Ba,gydF4y2Ba
13gydF4y2Ba]),相当于NMF。gydF4y2Ba
让我们代表矩阵的两个维度gydF4y2Ba
VgydF4y2Ba
通过gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
分别。我们可以考虑非负条目gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
是由一个潜在的概率分布gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
。变量gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
多项随机变量,在哪里gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
的一组吗gydF4y2Ba
米gydF4y2Ba
在给定的画和值gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
的一组吗gydF4y2Ba
NgydF4y2Ba
值在给定的画。换句话说,一个人可以模型gydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
在一行中,条目gydF4y2Ba
米gydF4y2Ba
和列gydF4y2Ba
ngydF4y2Ba
特性的次数gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
米gydF4y2Ba
和gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
ngydF4y2Ba
选择在一组从分布重复了吗gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
。与NMF试图描述直接观测数据,潜在的类模型描述潜在的分布gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
。这种细微的差异的解释保留所有NMF的优点,同时克服其局限性提供了一个框架,很容易推广,扩展和解释。gydF4y2Ba
有两种方法建模gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
下面,我们分别考虑。gydF4y2Ba
3.1。对称分解gydF4y2Ba
潜在的类模型使一个属性的观察是由于隐藏或潜在的因素。这些模型的主要特征是有条件independence-multivariate数据建模等属于潜在的类随机变量在一个潜在的类是彼此独立的。模型表达等多元分布gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
作为一个混合的混合物,其中每个组件是一个一维的边际分布的产物。对于二维数据等gydF4y2Ba
VgydF4y2Ba
,该模型可以写数学gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
∈gydF4y2Ba
{gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
}gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
。gydF4y2Ba
在(gydF4y2Ba
2gydF4y2Ba),gydF4y2Ba
zgydF4y2Ba
是一个潜变量,索引隐藏组件和需要值的设置gydF4y2Ba
{gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
}gydF4y2Ba
。这个方程假设gydF4y2Ba
当地独立的原则gydF4y2Ba,即潜变量gydF4y2Ba
zgydF4y2Ba
使观察到的变量gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
独立的。这个模型提出了独立gydF4y2Ba
概率潜在的成分分析gydF4y2Ba(PLCA) (gydF4y2Ba
14gydF4y2Ba]。模型的目的是描述基础学习如上所示的数据分布参数,以便隐藏在数据结构变得明确。gydF4y2Ba
模型可以表示为一个矩阵分解。代表的参数gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
和gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
作为矩阵的条目gydF4y2Ba
WgydF4y2Ba
,gydF4y2Ba
GgydF4y2Ba
,gydF4y2Ba
和gydF4y2Ba
年代gydF4y2Ba
,gydF4y2Ba
分别在哪里gydF4y2Ba
WgydF4y2Ba
是一个gydF4y2Ba
米gydF4y2Ba
×gydF4y2Ba
KgydF4y2Ba
矩阵,gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
对应的概率gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
米gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
=gydF4y2Ba
kgydF4y2Ba
)gydF4y2Ba
;gydF4y2Ba
GgydF4y2Ba
是一个gydF4y2Ba
KgydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
矩阵,gydF4y2Ba
GgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
对应的概率gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
ngydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
=gydF4y2Ba
kgydF4y2Ba
)gydF4y2Ba
;和gydF4y2Ba
年代gydF4y2Ba
是一个gydF4y2Ba
KgydF4y2Ba
×gydF4y2Ba
KgydF4y2Ba
对角矩阵,gydF4y2Ba
年代gydF4y2Ba
kgydF4y2Ba
kgydF4y2Ba
对应的概率gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
=gydF4y2Ba
kgydF4y2Ba
)gydF4y2Ba
;gydF4y2Ba
你可以写的模型(gydF4y2Ba
2gydF4y2Ba以矩阵形式)gydF4y2Ba
PgydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
年代gydF4y2Ba
GgydF4y2Ba
,gydF4y2Ba
或者同样的gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
在矩阵的条目吗gydF4y2Ba
PgydF4y2Ba
对应于gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
=gydF4y2Ba
年代gydF4y2Ba
GgydF4y2Ba
。图gydF4y2Ba
1gydF4y2Ba说明了模型示意图。gydF4y2Ba
潜变量模型(gydF4y2Ba
2gydF4y2Ba),矩阵分解。gydF4y2Ba
可以使用EM算法估计参数。参数的更新方程可以写成gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
jgydF4y2Ba
∈gydF4y2Ba
{gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
}gydF4y2Ba
,gydF4y2Ba
jgydF4y2Ba
≠gydF4y2Ba
我gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
。gydF4y2Ba
写作上面的更新方程矩阵形式使用gydF4y2Ba
WgydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
从(gydF4y2Ba
3gydF4y2Ba),我们得到gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
⟵gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
ngydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
)gydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
⟵gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
米gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
⟵gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
∑gydF4y2Ba
米gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
)gydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
⟵gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
∑gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
ngydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
上面的方程是相同的NMF更新方程(gydF4y2Ba
1gydF4y2Ba)到一个比例因子gydF4y2Ba
HgydF4y2Ba
。这是由于这样的事实,分解的概率模型gydF4y2Ba
PgydF4y2Ba
相当于一个规范化版本的数据gydF4y2Ba
VgydF4y2Ba
。gydF4y2Ba
文献[gydF4y2Ba
14gydF4y2Ba]给出了详细的推导的更新与NMF算法和比较更新方程。这个模型被用于分析图像和音频数据在其他应用程序(例如,gydF4y2Ba
14gydF4y2Ba- - - - - -gydF4y2Ba
16gydF4y2Ba])。gydF4y2Ba
3.2。不对称分解gydF4y2Ba
潜在的类模型(gydF4y2Ba
2gydF4y2Ba)认为每个维度对称分解。二维分布gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
表示为二维的潜在因素,每个因素的混合物是一维的产品边际分布。现在,考虑下面的分解gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
:gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
jgydF4y2Ba
∈gydF4y2Ba
{gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
}gydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
≠gydF4y2Ba
jgydF4y2Ba
和gydF4y2Ba
zgydF4y2Ba
是一个潜在的变量。这个版本的模型与不对称分解俗称gydF4y2Ba
概率潜在语义分析gydF4y2Ba(向量)topic-modeling文献[gydF4y2Ba
7gydF4y2Ba]。gydF4y2Ba
不失一般性,我们gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
2gydF4y2Ba
。我们可以把上述模型矩阵形式gydF4y2Ba
问gydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
,在那里gydF4y2Ba
问gydF4y2Ba
ngydF4y2Ba
是一个列向量表示gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
是一个列向量表示gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
是一个矩阵的吗gydF4y2Ba
(gydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
)gydF4y2Ba
thgydF4y2Ba
元素对应gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
米gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
=gydF4y2Ba
kgydF4y2Ba
)gydF4y2Ba
。如果gydF4y2Ba
zgydF4y2Ba
需要gydF4y2Ba
KgydF4y2Ba
值,gydF4y2Ba
WgydF4y2Ba
是一个gydF4y2Ba
米gydF4y2Ba
×gydF4y2Ba
KgydF4y2Ba
矩阵。连接所有的列向量gydF4y2Ba
问gydF4y2Ba
ngydF4y2Ba
和gydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
作为矩阵gydF4y2Ba
问gydF4y2Ba
和gydF4y2Ba
GgydF4y2Ba
,gydF4y2Ba
分别,一个可以把模型写成gydF4y2Ba
问gydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
GgydF4y2Ba
,gydF4y2Ba
或者同样的gydF4y2Ba
VgydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
GgydF4y2Ba
年代gydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
年代gydF4y2Ba
是一个gydF4y2Ba
NgydF4y2Ba
×gydF4y2Ba
NgydF4y2Ba
对角矩阵的gydF4y2Ba
ngydF4y2Ba
thgydF4y2Ba
对角线元素之和的条目gydF4y2Ba
vgydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
的gydF4y2Ba
ngydF4y2Ba
thgydF4y2Ba
列gydF4y2Ba
的gydF4y2Ba
VgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
=gydF4y2Ba
GgydF4y2Ba
年代gydF4y2Ba
。图gydF4y2Ba
2gydF4y2Ba提供了一个模型的图解说明。gydF4y2Ba
潜变量模型(gydF4y2Ba
6gydF4y2Ba),矩阵分解。gydF4y2Ba
给定数据矩阵gydF4y2Ba
VgydF4y2Ba
、参数gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
和gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
估计的迭代方程导出使用吗gydF4y2Ba
EgydF4y2Ba
米gydF4y2Ba
算法:gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
VgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
。gydF4y2Ba
写上述方程矩阵形式使用gydF4y2Ba
WgydF4y2Ba
和gydF4y2Ba
HgydF4y2Ba
从(gydF4y2Ba
7gydF4y2Ba),我们得到gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
⟵gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
ngydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
)gydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
⟵gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
米gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
⟵gydF4y2Ba
HgydF4y2Ba
kgydF4y2Ba
ngydF4y2Ba
∑gydF4y2Ba
米gydF4y2Ba
WgydF4y2Ba
米gydF4y2Ba
kgydF4y2Ba
VgydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
WgydF4y2Ba
HgydF4y2Ba
)gydF4y2Ba
米gydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
上面的方程组的NMF更新方程完全相同(gydF4y2Ba
1gydF4y2Ba)。参见[gydF4y2Ba
17gydF4y2Ba,gydF4y2Ba
18gydF4y2Ba为更新的详细推导方程。之间的等价NMF和向量也已指出的那样gydF4y2Ba
19gydF4y2Ba]。模型已被用于音频光谱的分析(例如,gydF4y2Ba
20.gydF4y2Ba)、图像(例如,gydF4y2Ba
17gydF4y2Ba,gydF4y2Ba
21gydF4y2Ba])和文本语料库(例如,gydF4y2Ba
7gydF4y2Ba])。gydF4y2Ba
4所示。模型的扩展gydF4y2Ba
NMF的流行主要来自其经验成功找到有用的组件的数据。一些研究人员指出,NMF有一些重要的局限性,尽管成功。我们已经提出了概率模型,数值密切相关或相同的一个广泛使用的NMF更新算法。尽管数值等价,方法论的不同方法是很重要的。在本节中,我们概述一些优势的使用这个替代概率对NMF的看法。gydF4y2Ba
第一和最直接的使用概率方法的含义是,它提供了一个理论基础技术。更重要的是,概率基础使一个使用的所有工具和机械估计的统计推断。这是该方法的扩展和推广的关键。除了这些明显的优势,下面我们讨论一些具体的例子,利用这种方法更有用。gydF4y2Ba
4.1。张量的分解gydF4y2Ba
NMF引入分析二维数据。然而,有几个领域与非负多维数据的多维关联NMF可能是非常有用的。这个问题已经称为非负张量分解(NTF)。提出了几种扩展的NMF处理多维数据(例如,gydF4y2Ba
4gydF4y2Ba- - - - - -gydF4y2Ba
6gydF4y2Ba,gydF4y2Ba
22gydF4y2Ba])。通常情况下,这些方法平张量矩阵表示,需要进一步分析。从概念上讲,NTF NMF的自然推广,但学习参数的估计算法,但是,不会让自己很容易扩展。几个问题导致这个困难。这里的原因我们不存在由于缺乏空间但可以在详细讨论(gydF4y2Ba
6gydF4y2Ba]。gydF4y2Ba
现在,考虑潜变量模型的对称分解的情况下提出了部分gydF4y2Ba
3所示。1gydF4y2Ba。这个模型是自然适合推广到多个维度。它的一般形式,模型表达gydF4y2Ba
KgydF4y2Ba
维分布作为一个混合物,其中每个gydF4y2Ba
KgydF4y2Ba
维组件的混合物是一维的边际分布的产物。在数学上,它可以写成gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∏gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
KgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
是一个gydF4y2Ba
KgydF4y2Ba
维分布的随机变量gydF4y2Ba
xgydF4y2Ba
=gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
KgydF4y2Ba
。gydF4y2Ba
zgydF4y2Ba
潜变量索引组件和混合吗gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
是一维的边际分布。参数估计的迭代方程导出使用EM算法和它们gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∏gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
NgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
)gydF4y2Ba
∏gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
NgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
jgydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
:gydF4y2Ba
我gydF4y2Ba
≠gydF4y2Ba
jgydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
。gydF4y2Ba
在二维情况下,更新方程减少(gydF4y2Ba
4gydF4y2Ba)。gydF4y2Ba
说明该算法的输出,考虑下面的玩具例子。输入gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
是左上角图所示的三维分布在图吗gydF4y2Ba
3gydF4y2Ba。这个分布也可以被视为一种等级3积极的张量。它显然是由两个组件,每个作为一个各向同性高斯与手段gydF4y2Ba
μgydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
11gydF4y2Ba
,gydF4y2Ba
11gydF4y2Ba
,gydF4y2Ba
9gydF4y2Ba
和gydF4y2Ba
μgydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
14gydF4y2Ba
,gydF4y2Ba
14gydF4y2Ba
,gydF4y2Ba
16gydF4y2Ba
和方差gydF4y2Ba
σgydF4y2Ba
1gydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
σgydF4y2Ba
2gydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
/gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
分别。块的最后一行显示了派生的gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
jgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
使用我们刚刚描述的估计过程。我们可以看到,每个人都是由高斯在预期的位置和与预期的差异。的近似gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
使用这种模式显示在右上角。其他的例子应用程序更复杂的数据和详细的推导的算法可以在gydF4y2Ba
14gydF4y2Ba,gydF4y2Ba
23gydF4y2Ba]。gydF4y2Ba
一个高维积极数据分解的一个例子。原始输入的等值面显示在左上角,近似模型(gydF4y2Ba
10gydF4y2Ba)显示在右上角,提取的人(或因素)所示情节越低。gydF4y2Ba
4.2。Convolutive分解gydF4y2Ba
给定一个二维的数据集,NMF发现隐藏的结构以及一维(columnwise)是整个数据集特征。考虑这样一个场景,现在是局部结构沿着两个维度(行和列),必须从数据中提取。一个示例数据集将是一个声光谱图的人类语言结构频率和时间。传统NMF无法找到结构跨两个维度提出了和几个扩展来处理这样的数据集(例如,gydF4y2Ba
24gydF4y2Ba,gydF4y2Ba
25gydF4y2Ba])。gydF4y2Ba
潜变量模型可以扩展等数据和参数估计仍然遵循一个简单的EM算法基于最大似然的原则。模型,称为gydF4y2Ba
移不变的gydF4y2Ba版本的PLCA,可以数学写成gydF4y2Ba
23gydF4y2Ba]gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
(gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∫gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
hgydF4y2Ba
−gydF4y2Ba
τgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
dgydF4y2Ba
τgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
内核分配gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
0gydF4y2Ba
,gydF4y2Ba
∀gydF4y2Ba
τgydF4y2Ba
∉gydF4y2Ba
ℛgydF4y2Ba
在哪里gydF4y2Ba
ℛgydF4y2Ba
定义一个局部凸区域的尺寸gydF4y2Ba
xgydF4y2Ba
。类似于简单的模型(gydF4y2Ba
2gydF4y2Ba),模型表达gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
作为一个潜在的组件的混合物。而是每个组件的一个简单的一维分布,产品之间的组件分布多维“内核分配”和多维“脉冲分配”。更新方程的参数gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
hgydF4y2Ba
−gydF4y2Ba
τgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
∑gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
)gydF4y2Ba
∫gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
”gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
)gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
hgydF4y2Ba
−gydF4y2Ba
τgydF4y2Ba
”gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
′gydF4y2Ba
)gydF4y2Ba
dgydF4y2Ba
τgydF4y2Ba
”gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∫gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
dgydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∫gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
)gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
dgydF4y2Ba
hgydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
hgydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
=gydF4y2Ba
∫gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
+gydF4y2Ba
τgydF4y2Ba
)gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
+gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
dgydF4y2Ba
wgydF4y2Ba
dgydF4y2Ba
τgydF4y2Ba
∫gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
”gydF4y2Ba
+gydF4y2Ba
τgydF4y2Ba
)gydF4y2Ba
RgydF4y2Ba
(gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
”gydF4y2Ba
+gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
τgydF4y2Ba
,gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
dgydF4y2Ba
hgydF4y2Ba
”gydF4y2Ba
dgydF4y2Ba
wgydF4y2Ba
dgydF4y2Ba
τgydF4y2Ba
。gydF4y2Ba
详细推导的算法可以在gydF4y2Ba
14gydF4y2Ba]。上述模型能够处理张量的数据矩阵数据一样。为了说明这个模型,考虑图左上角的图片gydF4y2Ba
4gydF4y2Ba。这个图像是一个等级3张量gydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
,gydF4y2Ba
颜色gydF4y2Ba
)gydF4y2Ba
。我们希望发现底层组件组成。组件是数字1、2、3和出现在不同的空间位置,从而迫使“移不变的”的方法。利用上述算法,得到结果如图gydF4y2Ba
4gydF4y2Ba。其他例子的分解在更复杂的数据所示gydF4y2Ba
23gydF4y2Ba]。gydF4y2Ba
一个高维移不变的正面的例子数据分解。原始输入显示在左上角,近似模型(gydF4y2Ba
12gydF4y2Ba)所示顶部中间,提取的内核和冲动下情节所示。gydF4y2Ba
上面的示例演示移不变性,但可想而知,“组件”,输入可能发生旋转或缩放等变换除了翻译(变化)。可以扩展这个模型将不变性这样的转换。从上述方法推导遵循自然,但我们在这里省略进一步讨论由于空间限制。gydF4y2Ba
4.3。扩展以先验的形式gydF4y2Ba
NMF更明显的限制之一是提取相关组件的质量。研究人员指出,NMF,李和Seung介绍,并没有一个明确的方式来控制所需的组件的“稀疏”(gydF4y2Ba
26gydF4y2Ba]。事实上,无法实施稀疏只是一个具体的例子更一般的限制。NMF没有提供一种方式对已知或假设评估期间的数据结构。gydF4y2Ba
精心制作,让我们考虑稀疏的例子。提出了扩展NMF将稀疏(例如,gydF4y2Ba
26gydF4y2Ba- - - - - -gydF4y2Ba
28gydF4y2Ba])。这些方法的总体思路是实施成本函数估计中包含一个额外的约束,量化得到的稀疏的因素。而稀疏通常指定为gydF4y2Ba
lgydF4y2Ba
0gydF4y2Ba
规范派生的因素(gydF4y2Ba
29日gydF4y2Ba),考虑使用一个实际的约束gydF4y2Ba
lgydF4y2Ba
1gydF4y2Ba
规范,自gydF4y2Ba
lgydF4y2Ba
0gydF4y2Ba
规范中不易于优化过程,主要试图最小化gydF4y2Ba
lgydF4y2Ba
2gydF4y2Ba
原始数据之间的误差和规范给出的近似估计的因素。在概率公式,稀疏约束的关系到实际的目标函数优化更为直接。我们通过派生的熵稀疏特征因素,按原规定(gydF4y2Ba
30.gydF4y2Ba]。稀疏代码被定义为一组基向量,这样任何给定数据点很大程度上可以解释为只有少数基地的设置,这样所需的其他基地贡献数据点是最小的;也就是熵的混合权重基地相结合来解释数据点低。稀疏的代码现在可以得到实施gydF4y2Ba
熵的前gydF4y2Ba在混合权重。对于一个给定的分布gydF4y2Ba
θgydF4y2Ba
之前,熵的定义是gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
θgydF4y2Ba
)gydF4y2Ba
∝gydF4y2Ba
egydF4y2Ba
−gydF4y2Ba
βgydF4y2Ba
ℋgydF4y2Ba
(gydF4y2Ba
θgydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
ℋgydF4y2Ba
(gydF4y2Ba
θgydF4y2Ba
)gydF4y2Ba
是熵。实施前的(积极的gydF4y2Ba
βgydF4y2Ba
)混合权重就意味着我们获得解决方案,混合权重较低的熵更有可能出现的低熵确保向量的几项重要。实施了稀疏潜变量模型,利用熵的之前,可以提供一个更好的描述的数据(gydF4y2Ba
17gydF4y2Ba,gydF4y2Ba
18gydF4y2Ba,gydF4y2Ba
23gydF4y2Ba,gydF4y2Ba
31日gydF4y2Ba]。详细的推导和估计算法可以在找到gydF4y2Ba
17gydF4y2Ba,gydF4y2Ba
18gydF4y2Ba]。注意,先知先觉可以对任何设置的参数估计。gydF4y2Ba
信息理论、熵是衡量信息内容。一个可以考虑的前提供显式的方式来控制大量的“信息内容”所需的组件。我们使用一个简单的shift-invariance说明这个想法。考虑一个图像组成的分散加号字符。这一形象的分析,我们希望内核分配是一个“+”,和脉冲分配一组δ函数将其放置适当的空间。然而,使用前的我们可以从内核分配的信息量分布的冲动,反之亦然。我们在图显示分析的结果gydF4y2Ba
5gydF4y2Ba的三个案例,没有之前的使用(左面板),它被用于制造脉冲稀疏(中期板),以及它的使用,使内核稀疏(右面板)。在左面板、信息数据分布在内核(上)和脉冲分布(底部)。在其他两个案例中,我们可以集中所有的信息在内核或脉冲前利用熵的分布。gydF4y2Ba
之前的例子的影响的一组内核和脉冲分布。如果没有施加约束,信息是均匀分布在两个分布(左列),如果对脉冲分布稀疏,大多数信息是在内核中分配(中间列),反之亦然,如果我们请求一个稀疏的内核分配(右列)。gydF4y2Ba
其他发行版之前,已经使用在各种情况下包括狄利克雷(gydF4y2Ba
8gydF4y2Ba,gydF4y2Ba
32gydF4y2Ba和对数正态分布分布gydF4y2Ba
33gydF4y2Ba)等等。能够利用先验分布在估计提供了一种方法将信息了解这个问题。更重要的是,统计推断技术的概率框架提供了行之有效的方法,可以采用参数估计。我们指出,这些扩展可以处理所有的归纳,提出了在前面的部分。gydF4y2Ba
4.4。几何解释gydF4y2Ba
我们也想简要指出概率模型有时可以提供见解,有利于直观的理解模型的工作原理。gydF4y2Ba
考虑不对称分解的潜变量模型是由(gydF4y2Ba
6gydF4y2Ba)。让我们参考数据的归一化列矩阵gydF4y2Ba
VgydF4y2Ba
(通过扩展条目的每一列总和为1),gydF4y2Ba
vgydF4y2Ba
¯gydF4y2Ba
ngydF4y2Ba
,因为gydF4y2Ba
数据分布gydF4y2Ba。它可以表明,学习模型相当于估计参数的模型gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
对于任何数据分布gydF4y2Ba
vgydF4y2Ba
¯gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
最好的接近它。注意,数据分布gydF4y2Ba
vgydF4y2Ba
¯gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
、模型近似gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
和组件gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
都是gydF4y2Ba
米gydF4y2Ba
维向量和团结,因此分gydF4y2Ba
(gydF4y2Ba
米gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
)gydF4y2Ba
单纯形。该模型表示gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
点形成的凸壳内的组件gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
。因为它是受限的躺在这个凸包,gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
)gydF4y2Ba
可以模拟gydF4y2Ba
vgydF4y2Ba
¯gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
准确地只有后者还在凸包。因此模型估计的目的gydF4y2Ba
PgydF4y2Ba
(gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
|gydF4y2Ba
zgydF4y2Ba
)gydF4y2Ba
作为凸包的角落,这样所有的数据分布在撒谎。这是见图gydF4y2Ba
6gydF4y2Ba在一家玩具400三维数据分布的数据集。gydF4y2Ba
插图的潜变量模型。面板显示三维数据分布内点gydF4y2Ba
标准2-SimplexgydF4y2Ba给出的gydF4y2Ba
{gydF4y2Ba
(gydF4y2Ba
001年gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
010年gydF4y2Ba
)gydF4y2Ba
,gydF4y2Ba
(gydF4y2Ba
One hundred.gydF4y2Ba
)gydF4y2Ba
}gydF4y2Ba
。模型数据分布近似点躺在形成的凸壳组件(基向量)。还显示了两个数据点(标记gydF4y2Ba
+gydF4y2Ba
和gydF4y2Ba
×gydF4y2Ba
(职责)及其近似的模型。,所示gydF4y2Ba
◊gydF4y2Ba和gydF4y2Ba
□gydF4y2Ba)。gydF4y2Ba
并非所有的概率公式提供这样一个干净的几何解释,但在某些情况下如前所述,它可以导致直觉帮助解释。gydF4y2Ba