文摘
动机。微生物基因组测序允许定义集群共同组成的样本。然而,这种模式不佳占样品的成分的混合物cluster-characterizing的,因此躺在集群中它们之间的空间。本文地址无监督学习的双向集群。它定义了一个混合模型,允许双向集群作业和描述广义的变种k——学习这样一个模型。我们证明适用于微生物16 s rDNA测序数据从人类阴道微生物工程。
1。介绍
微生物分析(1无处不在的基因的测序,最常见的16 s rRNA,是一个标准的和成本效益高的路径来描述微生物样本的构成。标准分析工具便于量化的分数序列读取从每个样品中细菌种类(2]。解释向量组成的一组样本通常依赖于降维之后,集群在lower-dimensionality空间(3]。这允许识别功能意义的微生物群样本的特征子集。人类微生物组计划(4)及其衍生物如人类阴道微生物工程(5)收集并分析大量的样本对阐明微生物群的结构和成分在生理和病理状态。
类似于微生物基因组变异在不同的人类个体,沿着核基因组变异被一小部分维度总结(6]。然而,在微生物样本的对比分析,分析遗传变异条件假设和观察样本分布在连续的下降空间,而不是集群(7]。样品在集群之间的解释为来自中间的地区沿着地理cline [8)或代表不同级别的提供集群范围内的人群之间的混合物。
在这篇文章中,我们正式解决集群的问题,同时允许元素属于两个集群。具体来说,我们将详细描述聚类的模型。我们构建一个模型,概括了k聚类则通过允许数据点被分配到一个点在空间两个指定集群之间的线(9]。每个集群仍与统一建模为高斯球面协方差;关键的区别是存在的一个参数 为每个2-way-assigned数据点确定的比例分配x我两个集群之间的代表。我们首先描述双向模型的输入,参数和输出。然后我们给目标函数,一个算法描述,以及一系列的性能指标。接下来,我们评估上的性能模拟数据,描述为最优性能基准。最后,我们将模型应用于实际数据的16 s rDNA测序从1500年midvaginal细菌性阴道人类微生物组工程样品。
2。方法
2.1。双向k则
混合模型的特征点在哪里从每个采样k混合均匀,球形高斯分布或成对这些高斯函数的加权平均。
在形式上,我们描述一组的生成模型的数据点 。该模式包括 集群。的jth集群是参数化的意思 。模拟,该模型首先选择一双集群指数( )以及一个权重 。来自一个高斯分布的参数吗u我平均三两个代表性的集群。具体地说, 这样 和 是给定的制服,球形的协方差矩阵。
推理的问题涉及到数据的输入和数量的集群,寻找生成模型的输出参数,即向量的作业 和权重 。
2.2。广义k则
给定的输入 和基数 ,k——传统上为我们提供了以下目标: 在哪里 集群的代表。的k——目标可以推广为以下: 在哪里 集群作业和吗 集群的代表。
一个常见的泛化k则是允许的有年代非零(在我们的例子中,我们设置的条目 )。一个算法的广义目标只是持有固定在执行稀疏的回归然后举行固定和使用普通最小二乘法(OLS)。
在我们的案例中,因为我们只允许分躺两个集群代表之间的统一,在给定的两个非零的条目局限于一些 和 。我们的问题是如下: 受
2.3。双向k则算法
我们的目标是找到一个非负2-sparse每个解决方案。为此,我们可以最小化集群代表可能性。这2-sparse解决方案给我们的指标 对应的两个集群代表。这符合以下目的: 受
对于一个给定的和,尽量减少对揭示了全球最低
后对最小化,我们的项目对该地区 。我们设置 如果最小值小于0,集 如果最小值大于1。这使我们能够达到的最小值在域 为。
最小化任务后,然后,我们使用OLS选择最优指定。正式,OLS产生一个向量最小平方剩余误差输入矩阵ΦT和向量。
以梯度和设置等于零收益率以下公式:
因此,我们对所有执行OLS向量用矩阵乘法:
因此,这给了我们代表 之间的残余误差降到最低,集群和数据点代表。然后我们交替过程轮,直到收敛。
2.4。性能指标
我们使用双向k——客观的性能指标测量模型的准确性在无人监督的例子。 在哪里最多有两个非零项值吗 和 。
此外,我们也使用四个不同的错误率来测量双向的准确性k——测试用例。让 和是地面真理实例参数,分别,真正的双向集群作业中心的集群,双向加权之间的集群 。
定义了双向的0 - 1错误率集群的任务:
定义了方偏离最优:
定义了方偏离最优。WLOG,我们假设 ,在那里u变量来自 :
3所示。结果
3.1。为双向运行示例k则
我们发现它照亮演示出入境的性能k则和香草k——在一个卡通的例子。
在图1,我们模拟 数据点在从三个集群,以各自的方式 和协方差矩阵 。数据点被卷入成对集群通过选择两个集群代表不重复从先验概率如下:
我们初始化集群与香草代表k则。香草k——实现结果图2。香草的统计数据k则有如下:
k——预测的双向集群作业点错误由于扭曲集群意味着向中间的图。双向k然而,则极大地提高了错误率。经过十轮双向联络k则,我们实现结果图3。
对于每一个统计,结果显然是一种改善标准k则。的错误率在集群分配仍然存在,因为出入境k——点接近集群代表可能是分配给一个不正确的二级集群。
3.2。基准
3.2.1之上。稀疏(平均10试验,每10轮)
我们的稀疏测试是由先验概率保持集群和集群中心μ常数在不同数据点的数量(的比例意味着 )。从图4,我们看到,算法执行一贯的在各种条件下表现良好,但数据点太少会损害性能在一定程度上。
3.2.2。集群分离(平均10试验,每10轮)
我们测试错误率的欧几里得距离的函数(比意味着 )。从图中的结果5,我们可以看到某个阈值需要适当的算法的性能。这是有道理的,因为当 上,集群几乎彼此,很难区分。此外,随着集群中心之间的距离,移动规范之间的集群代表由集群算法和实际代表增加(但这是可以预料到的)。
3.2.3。方差(平均10试验,每10轮)
我们增加集群的方差,同时修复集群先验概率,数据点和集群中心(的比例意味着 )。从图中的结果6,我们可以看到,大方差伤害适当的算法的性能。类似于集群分离,当 区分,集群太近。
3.3。真实的数据
人类微生物组项目公开可用的序列数据(HMP)研究SRP002462,称为宏基因组测序的16 s rDNA阴道及相关临床样本和双重主题,从NCBI数据库(SRA下载10]。下载的数据对应于两个submission元素:SRA169809(1608/1608样本下载)和SRA273234(34/133样本下载),共1642个样本。
设定触发器文件处理和清洗使用微生物群落分析软件mothur [11454年],基于标准协议开发序列数据处理和质量控制12]。计算样本之间的不同使用Clayton-Yue不同措施。数据子样品每样5000个序列(这一步导致辍学的136个样本,总共不到5000读)500倍生产文件的距离,这是用来计算主要坐标。图7显示的图像PCoA后~ 1500数据点。后实施出入境k则算法(13),我们初始化k则 ,跑出入境k——5轮的数据。
不幸的是,集群将集群之间的非线性拱门代表略外的集群。尽管如此,该算法仍是一种进步k则。我们注意到后k则,双向目标108.0而我们出入境的价值k算法则聚集在一个客观的经过5轮。此外,该算法给出了一个描述的样品躺在两个集群。结果图中可以看到8。
3.4。讨论
我们第一次获得最丰富的操作分类单位(OTU)每个样本(属层面)和最近的集群作业对每个样本。我们使用这个观察每个集群辣子鸡是最常见的。我们能找到最接近的样品通过简单地把每个数据点为每个数据点。
从表1,我们看到,四种集群有一个独特的、最丰富的OTU,而集群c3有多种类型的丰富。除了四大辣子鸡,分离数据离散集群掩盖了如何为其余的辣子鸡。
通过使用每个数据点的cluster-pair作业,我们进一步单独的数据集群。让指定的数据点之间的集群和但接近集群比集群。我们最丰富的辣子鸡、在每个示例集群对每个样本。我们可以为每个集群对找到最丰富的辣子鸡。
表2显示了最丰富的结构OTU类型为每个双向集群之前定义的。再一次,我们发现集群,,,都是由相同的单一OTU之前。然而,观察集群为我们提供了一个更深入的理解不同的集群c3。
有趣的是,我们看到的结构c31日,c32,c34,c35是很不同的。我们立即看到四大主要辣子鸡都包含在集群对主要包括单一集群。此外,我们注意到,与丰富的样本Sneathia1,普氏菌2和非机密的类型主要是包含在c31日。c32包含样本以各种丰富的辣子鸡。乳酸菌3,乳酸菌4,普氏菌1,链球菌1,链球菌2,Bifodobacterium丰富的样品,主要是包含在吗c34。最后,几乎没有样品是集群中的一对c35,除了一些Sneathia1类型。
通过这种方式,双向k——还打开了一个丰富的信息样本之间的关系。特别是,它现在更有意义的样本是在6个不同的集群:c1,c2,c31日,c34,c5。我们也看到,某些集群有复杂的关系,而其他人则几乎没有互动。没有出入境k则,这将不会立即明显。
4所示。结论
微生物种群的复杂性和微生物数据变得越来越能展开。然而,标准方法过于简化微生物成分通过生硬成离散的集群。本文进一步改进模型微生物丰度在样品组。我们允许样本作为两个集群的加权平均,而不是只属于一个。这可能是动力生物,因为样本往往反映了一个混合的两个来源的微生物群,每个代表一个集群。另一种解释是,平均样本代表一个中间,可能临时状态的微生物组成,之间所代表的更稳定的集群。
从技术上讲,我们形式化模型的泛化k则。我们得出一个简单的算法来推断出这样一个结构,验证模拟的基准数据。
将算法应用于实际数据从人类阴道微生物工程为双向模型提供实证支持。我们表明,虽然大多数的样品躺在六个集群:四个定义良好的集群和两个subclusters。此外,虽然以前,相当一部分的样本之间的集群被忽视,双向模型整个分布特点。使用双向k则,我们可以看出大部分先前未聚集的样本,它躺在两个集群之间,包含共享属性。此外,我们发现某些集群有复杂的关系,而其他人则几乎没有互动。
5。进一步的研究
此外,本文留下一些开放式的问题和进一步研究的机会:(我)我们怎样才能有效地描述与nonspherical双向分布的协方差矩阵?(2)我们怎样才能有效地描述k方法分配?(3)我们怎样才能有效地描述与集群之间的非线性路径代表双向分布的?
解决这些问题将进一步帮助我们理解微生物种群的构成。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由美国国家科学基金会支持下CISE急切的批准号1547120。