基因树标签上使用非负矩阵分解生物医学文献

文摘

识别官能团的基因生物应用程序是一个具有挑战性的问题。文本挖掘的方法可用于构建分层集群或树木从生物学文献中的信息。特别是,非负矩阵分解(NMF)检查标签层次树的一种方法。通用标签算法以及评估技术,提出了和不同的NMF的影响参数对收敛性和贴标精度进行了讨论。本研究的主要目标是提供一个定性评估的NMF及其各种参数和初始化,提供了一个自动化的方法来分类生物医学数据,并提供一个方法来评估标记数据假设静态输入树。作为一个副产品,生成的方法黄金标准提出了树。

1。介绍

高通量技术在基因组学、蛋白质组学和相关生物领域产生大量数据,使研究人员能够从全球的角度研究生物系统。然而,不幸的是,信息的绝对质量是压倒性的,比如从DNA微阵列基因表达谱数据分析很难完全理解甚至对领域专家。此外,执行这些实验在实验室里可以是昂贵的时间和金钱。

近年来,生物文学库已成为另一个数据源来检查表型。许多网络文学的来源是手动策划,分配给文章的注释是主观地分配在一个不完美的和容易出错的方式。所需的时间给阅读和一篇文章进行分类,自动的方法可能有助于增加注释率以及改善现有的注释。

最近开发的工具,可以帮助改善基因的注释以及识别官能团是语义基因组织者(SGO)。SGO是基于潜在语义索引(LSI)软件环境,使研究人员视图组基因在全球背景下的分层树或系统树图1]。大规模集成电路提供的低秩近似(原term-to-document协会)暴露潜在的关系,这样产生的分层树只是一个可视化的关系可再生的和容易被生物学家。Homayouni et al。2]表明SGO可以识别组织相关的基因比词同现方法更准确。然而,大规模集成电路是基于奇异值分解(计算)3],因为SGO是一个非负矩阵的输入数据加权词频率,负价值普遍基向量的计算并不容易解释。

另一方面,分解产生的最近流行的非负矩阵分解(NMF)很容易解释。Paatero和攻丝机4)是最早研究人员调查这种分解,和Lee Seung [5)展示了其使用文本挖掘和图像分析。NMF是由一个迭代算法,保留了原文的nonnegativity数据;低秩分解收益率,器件的数据表示。实际上,共同的主题出现在数据可以发现仅仅通过检查因子矩阵。根据解释,分解可以诱导聚类和分类。如果NMF能准确地输入数据模型,它可用于分类数据和执行模式识别任务(6]。SGO的上下文中,这意味着基因在层次树的组可以分配标签识别蛋白质功能的共同属性。

NMF的可解释性,然而,是要付出代价的。即不能保证收敛性和稳定性,提出了许多变体(5),需要不同的参数选择。本研究的目标是(1)提供一个定性评估的NMF及其各种参数,特别适用于生物医学背景,(2)提供了一个自动化的方法来分类生物医学数据,和(3)提供一种方法来评估标记数据假设静态输入树。作为一个副产品,生成的方法提出了“黄金标准”的树。

2。方法

概述(7),可以构造层次树对于一个给定的基因群。一旦这些树木形成技术,标签内部节点的树可以检查。

2.1。非负矩阵分解

给定一个非负矩阵,其中每个条目表示词的重量令牌在基因文档的行代表词向量显示术语是分布在整个集合。同样,的列显示哪些术语存在基因文档中。考虑到term-by-document矩阵在表来自样例文档集合(7)表。这里,log-entropy术语权重(8)是用于定义术语的相对重要性对于文档。具体地说,,在那里令牌的频率在文档,令牌的概率是发生在文档。通过设计,令牌出现较少但更频繁地在一个文档集合将被赋予更高的权重。即区分标记会有更高的权重分配给他们,而更常见的令牌将重量接近零。


	d1	d2	d3	d4	d5	d6	d7	d8	d9

酗酒	- - - - - -	0.4338	- - - - - -	- - - - - -	- - - - - -	0.2737	- - - - - -	0.2737	0.4338
焦虑	0.4745	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -
攻击	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -
自闭症	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.7520	- - - - - -	0.7520
Airth	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -	- - - - - -	0.4745
血	- - - - - -	- - - - - -	- - - - - -	0.3466	0.3466	0.3466	- - - - - -	- - - - - -	- - - - - -
骨	- - - - - -	- - - - - -	0.7520	0.7520	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
癌症	- - - - - -	0.4745	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
细胞	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
孩子们	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -	0.4745
肝硬化	- - - - - -	0.7520	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.7520	- - - - - -
损害	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
缺陷	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.3466	0.3466	- - - - - -	0.3466
失败	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -
高血压	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -
肾脏	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -
白血病	- - - - - -	- - - - - -	1.0986	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
肝	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -
骨髓	- - - - - -	- - - - - -	0.7520	0.7520	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
压力	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.7804	0.4923	- - - - - -	- - - - - -	- - - - - -
疤痕	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -
演讲	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -
压力	0.4923	- - - - - -	- - - - - -	- - - - - -	0.7804	- - - - - -	- - - - - -	- - - - - -	- - - - - -
肺结核	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -


文档	文本

d1	与工作相关的压力可以被认为是一个因素吗焦虑。
d2	肝癌是最常见的与酗酒和肝硬化。众所周知,酗酒可能会导致肝硬化,增加的风险肾功能衰竭。
d3	骨髓移植患者通常需要白血病和其他类型的癌症那损害骨髓。暴露在有毒化学物质是一个风险因素白血病。
d4	不同类型的血细胞存在于骨髓。骨髓程序可以检测肺结核。
d5	不正常的压力或压力可能会导致焦虑发作。继续压力可以提升血压。
d6	酗酒会导致高血压(高血压),增加的风险出生缺陷和肾功能衰竭。
d7	的存在演讲的缺陷在孩子们是一个信号,自闭症。然而,是什么原因导致没有共识自闭症。
d8	酗酒在早期,经常引发环境和遗传倾向等因素,会导致肝硬化。肝硬化是疤痕的肝。
d9	自闭症大约有0.5%的影响孩子们在美国。之间的联系酗酒和出生缺陷是众所周知的;研究人员目前正在研究之间的联系酗酒和自闭症。

如果NMF应用示例文档矩阵表表中给出了一个可能的分解和;mutliplying生成的文档矩阵的近似是在表。top-weighted条款为每个特性展示在表。通过检验,样品收集特性表示白血病,酗酒,焦虑,自闭症。如果每个文档和词是分配给最主要的特性,那么可以重组原始文档矩阵围绕这些特性。重组矩阵通常像一块对角矩阵表中给出。


	f1	f2	f3	f4

酗酒	0.0006	0.3503	- - - - - -	- - - - - -
焦虑	- - - - - -	- - - - - -	0.4454	- - - - - -
攻击	- - - - - -	- - - - - -	0.4913	- - - - - -
自闭症	- - - - - -	0.0030	- - - - - -	0.8563
出生	- - - - - -	0.1111	0.0651	0.2730
血	0.0917	0.0538	0.3143	- - - - - -
骨	0.5220	- - - - - -	0.0064	- - - - - -
癌症	0.1974	0.1906	- - - - - -	- - - - - -
细胞	0.1962	- - - - - -	0.0188	- - - - - -
孩子们	- - - - - -	0.0019	- - - - - -	0.5409
肝硬化	0.0015	0.5328	- - - - - -	- - - - - -
损害	0.2846	- - - - - -	- - - - - -	- - - - - -
缺陷	- - - - - -	0.0662	- - - - - -	0.4161
失败	0.0013	0.2988	- - - - - -	- - - - - -
高血压	- - - - - -	0.1454	0.1106	- - - - - -
肾脏	0.0013	0.2988	- - - - - -	- - - - - -
白血病	0.4513	- - - - - -	- - - - - -	- - - - - -
肝	0.0009	0.3366	- - - - - -	- - - - - -
骨髓	0.5220	- - - - - -	0.0064	- - - - - -
压力	- - - - - -	0.066	0.6376	- - - - - -
疤痕	- - - - - -	0.208	- - - - - -	- - - - - -
演讲	- - - - - -	- - - - - -	- - - - - -	0.4238
压力	- - - - - -	- - - - - -	0.6655	- - - - - -
肺结核	0.1962	- - - - - -	0.0188	- - - - - -


	d1	d2	d3	d4	d5	d6	d7	d8	d9

f1	- - - - - -	0.0409	1.6477	1.1382	0.0001	0.0007	- - - - - -	- - - - - -	- - - - - -
f2	- - - - - -	1.3183	- - - - - -	- - - - - -	0.0049	0.6955	0.0003	0.9728	0.2219
f3	0.3836	- - - - - -	- - - - - -	0.0681	1.1933	0.3327	- - - - - -	- - - - - -	- - - - - -
f4	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.1532	0.9214	- - - - - -	0.799


	d1	d2	d3	d4	d5	d6	d7	d8	d9

酗酒	- - - - - -	0.4618	0.0010	0.0007	0.0017	0.2436	0.0001	0.3408	0.0777
焦虑	0.1708	- - - - - -	- - - - - -	0.0303	0.5315	0.1482	- - - - - -	- - - - - -	- - - - - -
攻击	0.1884	- - - - - -	- - - - - -	0.0334	0.5863	0.1635	- - - - - -	- - - - - -	- - - - - -
自闭症	- - - - - -	0.0040	- - - - - -	- - - - - -	- - - - - -	0.1333	0.7890	0.0029	0.6848
出生	0.0250	0.1464	- - - - - -	0.0044	0.0783	0.1407	0.2516	0.1080	0.2428
血	0.1206	0.0746	0.1511	0.1258	0.3754	0.1420	- - - - - -	0.0523	0.0119
骨	0.0025	0.0214	0.8602	0.5946	0.0077	0.0025	- - - - - -	- - - - - -	- - - - - -
癌症	- - - - - -	0.2593	0.3252	0.2247	0.001	0.1327	0.0001	0.1854	0.0423
细胞	0.0072	0.0080	0.3233	0.2246	0.0224	0.0064	- - - - - -	- - - - - -	- - - - - -
孩子们	- - - - - -	0.0025	- - - - - -	- - - - - -	- - - - - -	0.0842	0.4984	0.0019	0.4326
肝硬化	- - - - - -	0.7025	0.0024	0.0017	0.0026	0.3705	0.0002	0.5183	0.1183
损害	- - - - - -	0.0116	0.4689	0.3239	- - - - - -	0.0002	- - - - - -	- - - - - -	- - - - - -
缺陷	- - - - - -	0.0873	- - - - - -	- - - - - -	0.0003	0.1098	0.3834	0.0644	0.3472
失败	- - - - - -	0.3939	0.0022	0.0015	0.0015	0.2078	0.0001	0.2906	0.0663
高血压	0.0424	0.1916	- - - - - -	0.0075	0.1327	0.1379	- - - - - -	0.1414	0.0323
肾脏	- - - - - -	0.3939	0.0022	0.0015	0.0015	0.2078	0.0001	0.2906	0.0663
白血病	- - - - - -	0.0185	0.7437	0.5137	- - - - - -	0.0003	- - - - - -	- - - - - -	- - - - - -
肝	- - - - - -	0.4437	0.0015	0.0011	0.0017	0.2341	0.0001	0.3274	0.0747
骨髓	0.0025	0.0214	0.8602	0.5946	0.0077	0.0025	- - - - - -	- - - - - -	- - - - - -
压力	0.2445	0.0870	- - - - - -	0.0434	0.7612	0.2580	- - - - - -	0.0642	0.0147
疤痕	- - - - - -	0.2742	- - - - - -	- - - - - -	0.0010	0.1446	0.0001	0.2023	0.0462
演讲	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.0649	0.3905	- - - - - -	0.3386
压力	0.2553	- - - - - -	- - - - - -	0.0453	0.7942	0.2214	- - - - - -	- - - - - -	- - - - - -
肺结核	0.0072	0.0080	0.3233	0.2246	0.0224	0.0064	- - - - - -	- - - - - -	- - - - - -


f1	f2	f3	f4

骨	肝硬化	压力	自闭症
骨髓	酗酒	压力	孩子们
白血病	肝	攻击	演讲
损害	肾脏	焦虑	缺陷
癌症	失败	血	出生


	d3	d4	d2	d6	d8	d1	d5	d7	d9

骨	0.7520	0.7520	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
癌症	0.4745	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
细胞	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
损害	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
白血病	1.0986	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
骨髓	0.7520	0.7520	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
肺结核	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -

酗酒	- - - - - -	- - - - - -	0.4338	0.2737	0.2737	- - - - - -	- - - - - -	- - - - - -	0.4338
肝硬化	- - - - - -	- - - - - -	0.7520	- - - - - -	0.7520	- - - - - -	- - - - - -	- - - - - -	- - - - - -
失败	- - - - - -	- - - - - -	0.4745	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745
高血压	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
肾脏	- - - - - -	- - - - - -	0.4745	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745
肝	- - - - - -	- - - - - -	0.4745	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -
疤痕	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -	- - - - - -	- - - - - -

焦虑	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745	0.4745	- - - - - -	- - - - - -
攻击	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -	- - - - - -
血	- - - - - -	0.3466	- - - - - -	0.3466	- - - - - -	- - - - - -	0.3466	- - - - - -	- - - - - -
压力	- - - - - -	- - - - - -	- - - - - -	0.4923	- - - - - -	- - - - - -	0.7804	- - - - - -	- - - - - -
压力	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4923	0.7804	- - - - - -	- - - - - -

自闭症	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.7520	0.7520
出生	- - - - - -	- - - - - -	- - - - - -	0.4745	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745
孩子们	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.4745	0.4745
缺陷	- - - - - -	- - - - - -	- - - - - -	0.3466	- - - - - -	- - - - - -	- - - - - -	0.3466	0.3466
演讲	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.6931	- - - - - -

NMF的基于迭代技术试图找到两个非负因子矩阵,和,这样在哪里和是和矩阵,分别。通常情况下,选择这。最优的选择problem-dependant [9]。这种分解最小平方欧氏距离目标函数(10]

最小化的目标(或成本)函数是凸的或一起,但不是这两个变量。因此,找到全局最小值问题是unrealistic-however,找到几个局部最小值是合理的。同时,对于每个解决方案,矩阵和并不是唯一的。当检查这个属性是显而易见的对于任何非负矩阵可逆的(11]。

NMF的目标是尽可能准确地近似原始term-by-gene文档空间因子矩阵和。如前所述(12),奇异值分解)产生最优——排名近似的弗罗贝尼乌斯常态。不幸的是,这种最优经常出现在负面元素的成本。NMF的系数矩阵,然而,严格非负可促进直接分解的可解释性。因此,尽管NMF近似可能不是最优从数学的角度来看,这可能是足够的,比圣言会产生更好的洞察数据集对某些应用程序。

在完成NMF因子矩阵和理论上,近似原始矩阵然而,包含一些有价值的信息的数据集的问题。提出了在(10),如果近似接近原始数据,然后因子矩阵可以发现一些底层结构内的数据。为了强化这一点,通常被称为特征矩阵包含特征向量描述数据,同时中固有的主题可以被称为系数矩阵列描述每个文档如何跨越以来每个特性和到什么程度。

目前,许多NMF的实现依赖于非负随机初始化。NMF敏感初始种子,这显然阻碍了生成结果的再现性。Boutsidis和Gallopoulos13)提出了非负双奇异值分解(NNDSVD)计划作为一个可能的补救这个问题。NNDSVD旨在利用奇异值分解的最佳排名近似的。圣言的启发式克服负面元素执行nonnegativity每当遇到和迭代逼近每一对奇异向量的外积。因此,一些属性的数据保存在最初开始矩阵和。一旦这两个矩阵都初始化,他们可以使用乘法规则[更新10]:

2.2。标记算法

潜在语义索引(LSI),基于奇异值分解,可以用来创建一个全球性的图片自动的数据。在这个特殊的背景下,分层树可以由两两距离产生的低秩LSI空间。基于距离的算法如FastME可以创建层次结构,精确地近似距离矩阵时间(14]。一旦建一棵树,一个标签算法可以应用于确定树的分支。最后,“黄金标准”树和一个标准衡量工作表现的评估质量的树标签必须定义和应用。

给定一个层次结构,存在一些行之有效的自动标注方法。将标签应用到层次结构,我们可以将加权的术语列表与每一个分类单元。一旦这些名单已经确定,标记层次结构是简单的递归地继承方面的树从每个子节点;添加权重共同的术语将确保更多的常用术语更可能有一个更大的体重在更高的水平在树上。直观地说,这些术语往往是更一般的描述符。

这个算法是强大的,它可以稍微修改,应用于任何树,排名可以适用于每一个分类单元。例如,通过查询SVD-generated为每个文档向量空间,可以创建方面的排名列表为每个文档树相应的标记。因此,假设初始排名过程是准确的,任何本体论注释可以提高从它所代表的文本。

从NMF创建一个排名列表项,占主导地位的系数在提取文档。相应的功能然后按比例缩小的,并分配给代表文档的分类单元,顶部条款选出的100位宾客代表分类单元。这种方法可以扩展合并分支长度信息,阈值或多个特性。

2.3。召回措施

一旦产生了对于一个给定的分层树的标号,衡量“善良”必须计算,以确定哪些标签就是“最好的。“在处理简单返回列表的文档可以分为相关或不相关的用户的需求,信息检索(IR)方法通常默认使用精度和召回来描述一个给定的检索系统的性能。精度的比率相关物品返回的返回条目的总数,而召回相关的比例是返回项目相关项目的总数。一群单词选择标签是一个实体,单词进行毫无意义的顺序,所以精度在这个应用程序用处有限。当比较生成一个“正确”的标签,召回是一个直观的衡量。

不幸的是在这种背景下,一个标记层次结构必须相对于另一个。令人惊讶的是,相对较少的工作已经完成,解决这个问题。Kiritchenko (15)提出了分级精度和召回措施,表示和,分别。这些措施利用分级一致性与一个数字比较两个的标号。不幸的是,冷凝的所有信息在一个标签树成一个单一的数量失去了一些信息。在NMF的情况下,标签参数对精度的影响对节点深度是感兴趣的,所以不同的测量将会包含更多的信息。一个这样的测量发现的平均召回树中的所有节点在一定的深度。然而,生成非零召回常用术语之间必须存在的标号相比较。不幸的是,许多术语出现在网的标题不是强在文本表示。因此,文本词汇必须映射到网格词汇产生重要的回忆。

2.4。特征向量替换

当使用基因文档,很多情况下存在的术语用于网格内没有找到文档本身的基因。即使健康的比例的精确网方面可能存在语料库,文档矩阵是严重超定的(即。,number of terms is significantly larger than the number of documents) that expecting significant recall values at any level within the tree becomes unreasonable. This is not to imply that the terms produced by NMF are without value. On the contrary, the value in those terms is exactly that they may reveal what was previously unknown. For the purposes of validation, however, some method must be developed that enables a user to discriminate between labelings even though both have little or no recall with the MeSH-labeled hierarchy. In effect, the vocabulary used to label the tree must be controlled for the purposes of validation and evaluation.

产生一个标签映射到网格的词汇,顶部globally-weighted网格为每个文档标题选择;这些网的标题可以从网格中提取metacollection [7]。通过检查,与每个文档相关联的主要特点是选择和分配给该文档。相应的最高网的标题然后自己解析成令牌并适当地分配给一个新的网格特性向量乘以相应的系数。特征向量替换算法在算法1。请注意,是区别自字典网的标题可能会有所不同从原始语料库词典的大小和构成。然而,文档的数量保持不变。

输入:网Term-by-Document矩阵
系数矩阵和原始Term-by-Document矩阵
全球权向量,
阈值数量的网格表示每个文档的标题
输出:网格特征矩阵
为做
选择顶级globally-weighted网的标题th列
确定
为做
解析网标题在令牌
添加每个令牌与指数来,th列
也就是说,
结束了
结束了

一旦全网状特征向量构造,这棵树可以通过中概述的过程[标记7]。由于这种替换,更好的回忆可以预计,具体用词中固有属性网格(或任何其他)可以利用本体。

2.5。选择标签的方法

标签树的另一种方法是改变参数从(2)和节点深度。理论上,更相关、准确的功能将被保留下来,如果集群中固有NMF配合通过圣言会生成树的空间。对于较小的集群和更具体的术语,更高应该是必要的;相反,祖先节点应该需要更小和更普遍的术语,因为他们盖一套较大的基因生成一组更大的话题。遗产继承的条件可以再次执行常见terms-however,上层的阈值可以进行继承。例如,对于所有的子树中的节点由一个节点、高可以使用。如果所有的基因引起的被NMF聚集在一起,那么所有子树中的节点引起的吗将保持相同的标签。的祖先,一个不同的值可以使用。虽然这种方法需要一些人工管理,它可能会产生更准确的标签。

3所示。结果

分解由NMF的评估是重要的,因为没有设置检查基向量的质量标准生产。在几项研究迄今为止,NMF的结果由领域专家评估。例如,Chagoyen et al。16)执行几个NMF独立运行,然后让领域专家解释得到的特征向量。然而,这种方法限制了NMF的实用性,特别是在基于探索基因组研究的领域专家不是现成的。在这里,两个不同的自动化协议NMF进行评价的结果。首先,NMF的数学特性运行检查,然后NMF的应用层次树的准确性是审查。

3.1。输入参数

为了测试NMF,50 tg收集了(2使用了)。这个集合了手动通过选择相关基因已知至少以下类别之一:(1)发展,(2)阿尔茨海默氏症和癌症生物学(3)。每个基因的文档是一个简单的标题和摘要连接MEDLINE引用相互参照的老鼠,老鼠和人类EntrezGene(原名LocusLink)的每一个基因的条目。

两个不同的NMF初始化策略被使用:NNDSVD [17)和随机化。在五个不同的随机试验四人使用NNDSVD方法执行。虽然NNDSVD生成一个静态初始矩阵,不同的方法可以应用于去除零从最初的近似防止他们拿到“锁定”在整个更新过程。初始化,保持原来的零元素就是NNDSVDz来表示的,而NNDSVDa NNDSVDe, NNDSVDme替代所有的元素的平均值,,或分别为零元素;被设置为和明显小于最小的观测值或(通常在),而是机器ε(最小的积极价值计算机可以代表)在约。NNDSVDz和NNDSVDa前面描述的(13),而NNDSVDe和NNDSVDme添加在这个研究自然扩展NNDSVDz不会受到限制的锁零由于乘法更新。的参数被分配的值2、4、6、8、10、15、20、25、30。

每个NMF的迭代,直到它达到1000次迭代或运行两个驻点和。也就是说,在迭代,当和,收敛。的参数被设置为0.01。自收敛不保证在所有约束,如果迭代之间的目标函数增加,分解停下来,以为不收敛。Log-entropy term-weighting方案(见[8])是用于生成原始标记重量为每个集合。

3.2。相对误差和收敛性

圣言会产生任何矩阵的低秩近似的数学最优弗罗贝尼乌斯规范,和所有其他unitarily-invariant矩阵准则。而NMF永远比圣言会产生一个更精确的近似,其靠近相对于圣言可以测量。也就是说,相对误差,计算分解都截断后维度(或因素),可以显示生成的特征向量距离NMF是最佳的基础(18]。

直观地,增加,NMF分解应该更适合。如图1,这正是如此。然而,令人吃惊的是,所有收敛NMF的平均运行相比,相对误差在10%计算,误差趋于上升增加。NMF的距离计算表明,对于这个小数据集,NMF能精确地近似数据。

接下来,几种不同的初始化方法(部分中讨论3所示。1)检查。研究对收敛的影响,必须选择一组NMF参数作为基线,来比较。通过检查NMF没有额外的约束,NNDSVDa初始化方法不断产生最精确的近似NNDSVDe相比,NNDSVDme NNDSVDz,随机初始化(7]。相对误差NNDSVDa生成对大多数的测试值小于1%。不幸的是,NNDSVDa需要几百个迭代收敛。

NNDSVDe执行NNDSVDa相当,相对误差,通常在百分之一的一小部分。对于较小的值,NNDSVDe花费的时间大大收敛比NNDSVDa虽然完全相反的更大价值。NNDSVDz,另一方面,收敛更快,更小的值成本的准确性作为锁零元素有不利影响的最佳解决方案,可以聚合。毫不奇怪,NNDSVDme执行NNDSVDz相当,在许多情况下,然而,它能够实现更精确的近似随着迭代次数的增加。事实上,NNDSVDme相同NNDSVDz在大多数情况下,不会提到今后除非值得注意的行为是观察。随机初始化执行相对NNDSVDa的准确性和良好的速度小,但作为增加,速度和准确性受到影响。一个图表说明时的收敛率描绘在图2。

实际的运行时间,提高性能的NNDSVD不是没有代价的。SGO的上下文中,所花费的时间计算的初始计算的第一步NNDSVD算法假定为零,因为需要计算先验查询目的然而,初始化所需的时间完成NNDSVD当几乎是21秒,而随机初始化的成本相对可以忽略不计。所有在一台机器上进行运行运行Debian Linux 3.0的英特尔奔腾III 1 ghz的处理器,256 mb内存。因为每个每个NMF迭代的成本是近。015秒每(当),执行成本NNDSVD(大约)相当于55 NMF迭代。收敛考虑这个成本是如图3。

3.3。标签回忆

测量召回是一个定量的方法来验证“已知”信息在一个层次结构。在这里,一个方法是测量召回在分层树的不同分支点(部分中描述2.3)。黄金标准用于测量召回包括与基因相关的网格标题摘要。的意思是平均召回(MAR)表示值平均召回在每个水平时达到平均所有的树枝。在这里,一个层次水平指的是所有节点共享相同的距离(边数)从根。本节讨论的参数设置提供了最佳的标号,在当地和全球意义生成的树(2]47内部节点分布在11个水平。

在应用中描述标签算法部分2.2NMF产生的因素,3月生成很低(低于25%)。由于NMF-generated词汇没有重叠网字典,NMF特性映射到网格特征通过算法中概述的过程1最主要特点,代表每个文档只有相应的重量矩阵是大于0.5。同时,排名前十的网状标题被选出来代表每个文档、提取和相对应的前100条款制定每一个新的网格特征向量。因此,生成的网格特征向量产生的标号3月大为增加。

关于标号的准确性,几个趋势存在。作为增加,3月实现增长。这种行为可以预测以来增加功能的数量也会增加有效标记词汇表的大小,从而使一个更健壮的标签。当3月,平均在所有运行大约是68%。

因为NNDSVDa初始化提供了最好的收敛特性,它将作为一个新的基线,来比较。如果没有指定,假设。3月,NNDSVDa结果低于平均水平,NNDSVDe和NNDSVDz始终优于NNDSVDa最值的;NNDSVDe和NNDSVDz达到类似如图3月值4。召回使用NNDSVDa和基线情况节点级别如图所示6。

11个节点的水平50 tg的分层树(2)如图5可以分为三分之二在深度分析的准确性标签树的地区。的3月NNDSVDa每个三分之二的大约58%,63%,和54%,分别。关于树的顶端的第三,任何约束应用于任何NNDSVD初始化平滑应用于NNDSVDa提供了一个改善58% 3月在所有情况下,结果3月至少75%。NNDSVDa表现略低于平均水平在中间第三63%。总的来说,几乎任何约束匹配改进或召回的基本情况对所有三分之二除了执行稀疏表现NNDSVDa底部三分之一的树;所有其他约束达到至少54% 3月倒数第三。

对不同的值,类似的倾向存在超过三分之二。NNDSVDa是最严重的3月除了它在最上面的第三2或4。并没有明显的优势相比NNDSVD初始化随机副本。总的来说,最好的NNDSVD(因此可再生的)3月使用NNDSVDe和实现(也显示在图6)。

3.4。标签评价

尽管相对误差和召回措施,可以自动评估一个标签,最终最后的评估仍然需要一些人工观察和解释。例如,假设给定的树图7与叶节点代表基因簇表,一个可能的标签使用网格从算法生成的标题1是在表,并给出了一个示例NMF-generated标签表。


一个	B	C	D	E

a2m	apoe	dab1	atoh1	cdk5
apba1	应用程序	lrp8	dll1	cdk5r
apbb1	psen1	reln	jag1	cdk5r2
aplp1	psen2	vldlr	notch1	菲英岛
aplp2	- - - - - -	- - - - - -	- - - - - -	mapt
lrp1恰巧	- - - - - -	- - - - - -	- - - - - -	- - - - - -
shc1	- - - - - -	- - - - - -	- - - - - -	- - - - - -


一个	B	C	D	E

新陈代谢	蛋白质	遗传学	遗传学	新陈代谢
遗传学	淀粉样蛋白	分子	蛋白质	蛋白质
蛋白质	β	神经元	新陈代谢	遗传学
蛋白质	遗传学	附着力	膜	τ
受体	新陈代谢	细胞	细胞	蛋白质
相关的	前体	新陈代谢	生理学	淋巴细胞
低密度脂蛋白	化学	蛋白质	细胞学	p56
巨球蛋白	载脂蛋白	细胞外	胚胎学	具体的
α	疾病	矩阵	生物合成	lck
化学	阿尔茨海默	生物合成	抑制剂	酪氨酸


一个	B	C	D	E

含碘	Apoe	reelin	切口	菲英岛
受体相关	ps1	卷取机	notch1	τ
脂蛋白	淀粉样蛋白	dab1	jagged1	cdk5
fe65	β淀粉状蛋白质	vldlr	notch 1	lck
应用程序	Presenilin	apoer2	hes5	sh3
α	ε	定位	边缘	门冬氨酸
说唱	载脂蛋白	Cajal-retzius	hes-1	乙醇
β淀粉状蛋白质	阿尔茨海默	apoe	hes1	磷酸化
β-淀粉样蛋白	广告	载脂蛋白	hash1	酒精
受体	γ分泌酶	脂蛋白	ps1	细胞受体

正如预期的那样,许多网格的术语太一般,也与许多5基因集群,例如,细胞遗传学、蛋白质化学、和。然而,一些网方面确实是有用的在描述基因簇的功能。例如,集群网标签提示LDL和α巨球蛋白受体蛋白质家族;集群B网标签与阿尔茨海默氏症和β淀粉样蛋白代谢相关联;集群C标签与细胞外基质和细胞粘附;集群D标签与胚胎学和inhibotrs;和集群E标签与τ蛋白和淋巴细胞。

与网格标记相比,NMF更具体的文本标签和功能描述。一般来说,前几项(排名最高计算)在每个集群定义基因名称或别名。有趣的是,每个集群还包含功能重要的条款。例如,说唱(集群)是a2m而lrp1恰巧受体的配体。此外,4基因集群C是已知分子信号通路的一部分涉及Cajal-retzius控制神经细胞在大脑中定位在开发过程中。最后,生理效应Notch1集群(D)与激活细胞内转录因子Hes1 Hes5。

重要的是,文本标签的具体性质,NMF允许识别未知功能基因和基因之间的连接。例如,PS1这个词出现在两个集群,集群d。这一发现是非常有趣的,PS1编码一个蛋白质的蛋白酶复合体的一部分被称为γ分泌酶。除了裂开老年蛋白质应用,γ分泌酶已被证明分裂发育重要的缺口蛋白质。因此,这些结果表明,NMF标签提供了一个有用的工具来发现新的功能基因在集群之间的关联以及跨多个基因簇。

4所示。讨论

虽然比较NMF运行时,可以观察到几个趋势对数学性质和召回倾向。首先,正如所料,增加,近似通过奇异值分解对更准确;NMF能提供一个相对较近的近似在大多数情况下,但是,错误也会增加。第二,NNDSVDa提供最快的收敛的迭代次数的最接近的近似。第三,平滑和稀疏等应用附加的约束(7]对收敛和回忆都没有明显的影响,在许多情况下,大大减少将达到平稳点的可能性。最后,生成相对“好”近似误差(5%以内),建议使用NNDSVDa或NNDSVDe约20 - 40迭代初始化时,没有额外的约束相当大(大约一半数量的文档)。对于较小的下,执行大约25迭代随机初始化通常会完成5%的相对误差,与所需的迭代次数减少减少。

同时测量误差准则和收敛是有用的暴露数学性质和结构NMF的倾向,这个应用程序的最终目标是提供一个有用的标签NMF的分层树。在许多情况下,“最好”的标签可能是由一种次优的NMF运行提供。总的来说,更准确的标号是由于更高的值因为更多的特征向量增加的词汇量大小标记字典。一般来说,NNDSVDe、NNDSVDme NNDSVDz方案优于NNDSVDa初始化。总的来说,标号的准确性似乎更多的函数和最初的种子,而不是约束。

许多研究正在进行关于NMF,这项工作检查三种方法基于多重的更新(见部分2.1)。许多其他NMF变化存在和正在开发,所以他们应该应用到生物领域的研究。例如,[19)提出了一种混合最小二乘方法称为GD-CLS解决NMF和克服“锁定”零元素的问题遇到的MM, (20.,21]提出非光滑NMF作为替代方法将稀疏,和[22)提出了一种NMF方法生成三个因子矩阵和显示有前途的聚类结果。NMF已经应用于微阵列数据(23),但需要努力把文本信息和微阵列数据;张量分解的一些变体可能显示随时间变化的关系(24]。

对标记方法,网格标题标签通常是有用的,但提供了一些具体细节的功能基因在集群之间的关系。另一方面,文本标签提供了具体和详细的信息关于基因的功能在一个集群。重要的是,项标签提供了一些特定组织的基因之间的联系并不显而易见。因此,术语标记为发现新的基因之间的关系提供了明显的优势,可以帮助高吞吐量数据的解释。

不管采用的技术,永远是普遍的一个问题关于生物数据的质量和数量。本质上与这个问题相关的领域内建立的标准尤其当他们属于分层数据。努力,如基因本体论(去)正在建立和完善25),但比较结果的标准数据集和明确定义的(并接受)的评估措施可以促进更有意义的比较方法。

SGO的情况下,发展中方法来得出“已知”数据是一个主要问题(甚至不产生一个给定一组基因的“黄金标准”层次结构)。获得更多的数据和其他层次结构将有助于测试方法的鲁棒性,但这仍然是一个固有的问题。一般来说,更在数学上的近似最优并不总是产生“最好”的标签。通常,NMF提供的分解可以被视为“足够好”,最后评价仍将是主观的。最后,如果自动化的方法能够近似主体性,更好地了解更多的数据就会结果。

确认

这项工作是支持的信息技术研究中心和科学大学计算科学联盟倡议田纳西州和由美国国立卫生研究院的资助。HD52472-01。作者要感谢匿名裁判对他们的意见和建议改进手稿。

引用

k·e·海因里希发现功能基因关系使用语义基因组织者(SGO)硕士论文,计算机科学系,田纳西大学诺克斯维尔,田纳西州,美国,2004年。
r . Homayouni k .海因里希·l·魏,m·w·贝瑞”基因的潜在语义索引集群MEDLINE摘要”生物信息学,21卷,不。1,第115 - 104页,2005。视图:出版商的网站|谷歌学术搜索
Golub和c . Van贷款,矩阵计算医学博士,巴尔的摩的约翰·霍普金斯大学出版社,第三版,1996年版。
p . Paatero,攻丝机,“积极的矩阵分解:一个非负因子模型误差的估计数据值的优化利用,”Environmetrics,5卷,不。2、111 - 126年,1994页。视图:出版商的网站|谷歌学术搜索
d·d·李和h . s . Seung“学习对象的部分非负矩阵分解,“自然,卷401,不。6755年,第791 - 788页,1999年。视图:出版商的网站|谷歌学术搜索
l . Weixiang z南宁,y曲波“非负矩阵分解及其在模式识别中的应用,”科学通报,51卷,不。1、7 - 18,2006页。视图:出版商的网站|谷歌学术搜索
k·e·海因里希自动基因分类使用非负矩阵分解在生物医学文献博士论文,计算机科学系,田纳西大学诺克斯维尔,田纳西州,美国,2007年。
m·w·贝瑞和m .布朗,了解搜索引擎:数学建模和文本检索、暹罗、费城,宾夕法尼亚州,美国,1999年。
美国野生、j .咖喱和a·多尔蒂,“激励非负矩阵分解,”学报》第八暹罗会议应用线性代数(LA ' 03)美国弗吉尼亚州威廉斯堡,2003年6月。视图:谷歌学术搜索
d·d·李和h . s . Seung“非负矩阵分解算法,”神经的进步和信息处理系统t·k·利恩,t . g . Dietterich诉Tresp, Eds。,卷。13,pp. 556–562, MIT Press, Cambridge, Mass, USA, 2001.视图:谷歌学术搜索
m·w·贝瑞·m·布朗,a . n . Langville v . p . Pauca和r . j . Plemmons”近似的非负矩阵分解算法和应用程序”,计算统计和数据分析,52卷,不。1,第173 - 155页,2007。视图:出版商的网站|谷歌学术搜索
籍c和g .年轻,”另一个矩阵的低秩逼近,“心理测量学,1卷,不。3、211 - 218年,1936页。视图:出版商的网站|谷歌学术搜索
c . Boutsidis和大肠Gallopoulos SVD-based初始化非负矩阵分解,”科技,众议员HPCLAB-SCG-6/08-05佩特雷大学佩特雷,希腊,2005。视图:谷歌学术搜索
r . Desper o . Gascuel,“快速和准确的发展史重建算法基于minimum-evolution原则,“计算生物学杂志》上,9卷,不。5,687 - 705年,2002页。视图:出版商的网站|谷歌学术搜索
s . Kiritchenko分层文本分类及其应用生物信息学,博士论文,渥太华大学,渥太华,加拿大,2005。
m . Chagoyen p . Carmona-Saez h . Shatkay j . m . Carazo和a . Pascual-Montano”在文献中发现语义特征:建筑的基础功能关联,”BMC生物信息学第四十一条,卷。7日,- 2006页。视图:出版商的网站|谷歌学术搜索
c . Boutsidis和大肠Gallopoulos”,基于奇异值分解的初始化:非负矩阵分解的先机,“科技,众议员HPCLAB-SCG-02/01-07佩特雷大学佩特雷,希腊,2007。视图:谷歌学术搜索
a . Langville c·迈耶,r·奥尔布赖特,非负矩阵分解的初始化,“预印本,2006。视图:谷歌学术搜索
f . Shahnaz m·w·贝瑞v . p . Pauca和r . j . Plemmons“文档聚类使用非负矩阵分解,”信息处理与管理,42卷,不。2、373 - 386年,2006页。视图:出版商的网站|谷歌学术搜索
a . Pascual-Montano j . m . Carazo k .科钦d·莱曼和r Pascual-Marqui,“非光滑非负矩阵分解(nsNMF)”IEEE模式分析与机器智能,28卷,不。3、403 - 415年,2006页。视图:出版商的网站|谷歌学术搜索
p . Carmona-Saez r·d·Pascual-Marqui f . Tirado j . m . Carazo和a . Pascual-Montano”Biclustering基因表达数据的非负矩阵分解,不”BMC生物信息学第78条,卷。7日,队,2006页。视图:出版商的网站|谷歌学术搜索
和w . c .叮,t . Li Peng h .公园,“正交非负矩阵tri-factorizations集群,”第12届ACM SIGKDD国际会议程序知识发现和数据挖掘ACM出版社,页126 - 135年,费城,宾夕法尼亚州,美国,2006年8月。视图:谷歌学术搜索
j。深色,p . Tamayo, t·r·戈卢布,j . p . Mesirov”Metagenes和分子模式发现使用矩阵分解,“美国国家科学院院刊》上的美利坚合众国,卷101,不。12日,第4169 - 4164页,2004年。视图:出版商的网站|谷歌学术搜索
a . Cichocki r . Zdunek崔s r . Plemmons和siv。、“小说多层非负张量分解稀疏约束,”学报》第八届国际会议上自适应和自然计算算法(ICANNGA ' 07)卷,4432在计算机科学的课堂讲稿,页271 - 280,华沙,波兰,2007年4月。视图:出版商的网站|谷歌学术搜索
m . ashburn c a球,j·a·布莱克et al .,“基因本体:工具的统一生物学,”自然遗传学,25卷,不。1、25 - 29,2000页。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学

非负矩阵和张量分解的进步

文摘