医疗保健工程

在这一页上

文摘介绍方法结果结论的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2017年| 文章的ID5284145| https://doi.org/10.1155/2017/5284145

双向k——作为微生物的模型样品

韦斯顿j·杰克逊 ,¹ Ipsita阿加瓦尔 ,² 和Itsik Pe怎样 ¹

学术编辑器: 艾哈迈德·p·Tafti

收到了 2017年5月20

接受 2017年7月17日

发表 2017年9月05

文摘

动机。微生物基因组测序允许定义集群共同组成的样本。然而,这种模式不佳占样品的成分的混合物cluster-characterizing的,因此躺在集群中它们之间的空间。本文地址无监督学习的双向集群。它定义了一个混合模型,允许双向集群作业和描述广义的变种k——学习这样一个模型。我们证明适用于微生物16 s rDNA测序数据从人类阴道微生物工程。

1。介绍

微生物分析(1无处不在的基因的测序,最常见的16 s rRNA,是一个标准的和成本效益高的路径来描述微生物样本的构成。标准分析工具便于量化的分数序列读取从每个样品中细菌种类(2]。解释向量组成的一组样本通常依赖于降维之后,集群在lower-dimensionality空间(3]。这允许识别功能意义的微生物群样本的特征子集。人类微生物组计划(4)及其衍生物如人类阴道微生物工程(5)收集并分析大量的样本对阐明微生物群的结构和成分在生理和病理状态。

类似于微生物基因组变异在不同的人类个体,沿着核基因组变异被一小部分维度总结(6]。然而,在微生物样本的对比分析,分析遗传变异条件假设和观察样本分布在连续的下降空间,而不是集群(7]。样品在集群之间的解释为来自中间的地区沿着地理cline [8)或代表不同级别的提供集群范围内的人群之间的混合物。

在这篇文章中,我们正式解决集群的问题,同时允许元素属于两个集群。具体来说,我们将详细描述聚类的模型。我们构建一个模型,概括了k聚类则通过允许数据点被分配到一个点在空间两个指定集群之间的线(9]。每个集群仍与统一建模为高斯球面协方差;关键的区别是存在的一个参数为每个2-way-assigned数据点确定的比例分配x_我两个集群之间的代表。我们首先描述双向模型的输入,参数和输出。然后我们给目标函数,一个算法描述,以及一系列的性能指标。接下来,我们评估上的性能模拟数据,描述为最优性能基准。最后,我们将模型应用于实际数据的16 s rDNA测序从1500年midvaginal细菌性阴道人类微生物组工程样品。

2。方法

2.1。双向k则

混合模型的特征点在哪里从每个采样k混合均匀,球形高斯分布或成对这些高斯函数的加权平均。

在形式上,我们描述一组的生成模型的数据点。该模式包括集群。的jth集群是参数化的意思。模拟,该模型首先选择一双集群指数( )以及一个权重。来自一个高斯分布的参数吗u_我平均三两个代表性的集群。具体地说, 这样和是给定的制服,球形的协方差矩阵。

推理的问题涉及到数据的输入和数量的集群,寻找生成模型的输出参数,即向量的作业和权重。

2.2。广义k则

给定的输入和基数 ,k——传统上为我们提供了以下目标: 在哪里集群的代表。的k——目标可以推广为以下: 在哪里集群作业和吗集群的代表。

一个常见的泛化k则是允许的有年代非零(在我们的例子中,我们设置的条目 )。一个算法的广义目标只是持有固定在执行稀疏的回归然后举行固定和使用普通最小二乘法(OLS)。

在我们的案例中,因为我们只允许分躺两个集群代表之间的统一,在给定的两个非零的条目局限于一些和。我们的问题是如下: 受

2.3。双向k则算法

我们的目标是找到一个非负2-sparse每个解决方案。为此,我们可以最小化集群代表可能性。这2-sparse解决方案给我们的指标对应的两个集群代表。这符合以下目的: 受

对于一个给定的和,尽量减少对揭示了全球最低

后对最小化,我们的项目对该地区。我们设置如果最小值小于0,集如果最小值大于1。这使我们能够达到的最小值在域为。

最小化任务后,然后,我们使用OLS选择最优指定。正式,OLS产生一个向量最小平方剩余误差输入矩阵Φ^T和向量。

以梯度和设置等于零收益率以下公式:

因此,我们对所有执行OLS向量用矩阵乘法:

因此,这给了我们代表之间的残余误差降到最低,集群和数据点代表。然后我们交替过程轮,直到收敛。

2.4。性能指标

我们使用双向k——客观的性能指标测量模型的准确性在无人监督的例子。在哪里最多有两个非零项值吗和。

此外,我们也使用四个不同的错误率来测量双向的准确性k——测试用例。让和是地面真理实例参数,分别,真正的双向集群作业中心的集群,双向加权之间的集群。

定义了双向的0 - 1错误率集群的任务:

定义了方偏离最优:

定义了方偏离最优。WLOG,我们假设 ,在那里u变量来自 :

3所示。结果

3.1。为双向运行示例k则

我们发现它照亮演示出入境的性能k则和香草k——在一个卡通的例子。

在图1,我们模拟数据点在从三个集群,以各自的方式和协方差矩阵。数据点被卷入成对集群通过选择两个集群代表不重复从先验概率如下:

我们初始化集群与香草代表k则。香草k——实现结果图2。香草的统计数据k则有如下:

k——预测的双向集群作业点错误由于扭曲集群意味着向中间的图。双向k然而,则极大地提高了错误率。经过十轮双向联络k则,我们实现结果图3。

对于每一个统计,结果显然是一种改善标准k则。的错误率在集群分配仍然存在,因为出入境k——点接近集群代表可能是分配给一个不正确的二级集群。

3.2。基准

3.2.1之上。稀疏(平均10试验,每10轮)

我们的稀疏测试是由先验概率保持集群和集群中心μ常数在不同数据点的数量(的比例意味着 )。从图4,我们看到,算法执行一贯的在各种条件下表现良好,但数据点太少会损害性能在一定程度上。

3.2.2。集群分离(平均10试验,每10轮)

我们测试错误率的欧几里得距离的函数(比意味着 )。从图中的结果5,我们可以看到某个阈值需要适当的算法的性能。这是有道理的,因为当上,集群几乎彼此,很难区分。此外,随着集群中心之间的距离,移动规范之间的集群代表由集群算法和实际代表增加(但这是可以预料到的)。

3.2.3。方差(平均10试验,每10轮)

我们增加集群的方差,同时修复集群先验概率,数据点和集群中心(的比例意味着 )。从图中的结果6,我们可以看到,大方差伤害适当的算法的性能。类似于集群分离,当区分,集群太近。

3.3。真实的数据

人类微生物组项目公开可用的序列数据(HMP)研究SRP002462,称为宏基因组测序的16 s rDNA阴道及相关临床样本和双重主题,从NCBI数据库(SRA下载10]。下载的数据对应于两个submission元素:SRA169809(1608/1608样本下载)和SRA273234(34/133样本下载),共1642个样本。

设定触发器文件处理和清洗使用微生物群落分析软件mothur [11454年],基于标准协议开发序列数据处理和质量控制12]。计算样本之间的不同使用Clayton-Yue不同措施。数据子样品每样5000个序列(这一步导致辍学的136个样本,总共不到5000读)500倍生产文件的距离,这是用来计算主要坐标。图7显示的图像PCoA后~ 1500数据点。后实施出入境k则算法(13),我们初始化k则 ,跑出入境k——5轮的数据。

不幸的是,集群将集群之间的非线性拱门代表略外的集群。尽管如此,该算法仍是一种进步k则。我们注意到后k则,双向目标108.0而我们出入境的价值k算法则聚集在一个客观的经过5轮。此外,该算法给出了一个描述的样品躺在两个集群。结果图中可以看到8。

3.4。讨论

我们第一次获得最丰富的操作分类单位(OTU)每个样本(属层面)和最近的集群作业对每个样本。我们使用这个观察每个集群辣子鸡是最常见的。我们能找到最接近的样品通过简单地把每个数据点为每个数据点。

从表1,我们看到,四种集群有一个独特的、最丰富的OTU,而集群c₃有多种类型的丰富。除了四大辣子鸡,分离数据离散集群掩盖了如何为其余的辣子鸡。

通过使用每个数据点的cluster-pair作业,我们进一步单独的数据集群。让指定的数据点之间的集群和但接近集群比集群。我们最丰富的辣子鸡、在每个示例集群对每个样本。我们可以为每个集群对找到最丰富的辣子鸡。

表2显示了最丰富的结构OTU类型为每个双向集群之前定义的。再一次,我们发现集群,,,都是由相同的单一OTU之前。然而,观察集群为我们提供了一个更深入的理解不同的集群c₃。

有趣的是,我们看到的结构c_31日,c₃₂,c₃₄,c₃₅是很不同的。我们立即看到四大主要辣子鸡都包含在集群对主要包括单一集群。此外,我们注意到,与丰富的样本Sneathia₁,普氏菌₂和非机密的类型主要是包含在c_31日。c₃₂包含样本以各种丰富的辣子鸡。乳酸菌₃,乳酸菌₄,普氏菌₁,链球菌₁,链球菌₂,Bifodobacterium丰富的样品,主要是包含在吗c₃₄。最后,几乎没有样品是集群中的一对c₃₅,除了一些Sneathia₁类型。

通过这种方式,双向k——还打开了一个丰富的信息样本之间的关系。特别是,它现在更有意义的样本是在6个不同的集群:c₁,c₂,c_31日,c₃₄,c₅。我们也看到,某些集群有复杂的关系,而其他人则几乎没有互动。没有出入境k则,这将不会立即明显。

4所示。结论

微生物种群的复杂性和微生物数据变得越来越能展开。然而,标准方法过于简化微生物成分通过生硬成离散的集群。本文进一步改进模型微生物丰度在样品组。我们允许样本作为两个集群的加权平均,而不是只属于一个。这可能是动力生物,因为样本往往反映了一个混合的两个来源的微生物群,每个代表一个集群。另一种解释是,平均样本代表一个中间,可能临时状态的微生物组成,之间所代表的更稳定的集群。

从技术上讲,我们形式化模型的泛化k则。我们得出一个简单的算法来推断出这样一个结构,验证模拟的基准数据。

将算法应用于实际数据从人类阴道微生物工程为双向模型提供实证支持。我们表明,虽然大多数的样品躺在六个集群:四个定义良好的集群和两个subclusters。此外,虽然以前,相当一部分的样本之间的集群被忽视,双向模型整个分布特点。使用双向k则,我们可以看出大部分先前未聚集的样本,它躺在两个集群之间,包含共享属性。此外,我们发现某些集群有复杂的关系,而其他人则几乎没有互动。

5。进一步的研究

此外,本文留下一些开放式的问题和进一步研究的机会:(我)我们怎样才能有效地描述与nonspherical双向分布的协方差矩阵?(2)我们怎样才能有效地描述k方法分配?(3)我们怎样才能有效地描述与集群之间的非线性路径代表双向分布的?

解决这些问题将进一步帮助我们理解微生物种群的构成。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是由美国国家科学基金会支持下CISE急切的批准号1547120。

引用

人类微生物组项目财团”,结构、功能和健康的人类微生物组的多样性,”自然,卷486,不。7402年,第214 - 207页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
j . r . j .秦Li Raes et al .,“人类肠道微生物基因目录建立了宏基因组测序,”自然,卷464,不。7285年,59 - 65年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
A . Ramette和p . l . Buttigieg”在微生物生态学指导统计分析:一个社区主导型,生活对多元数据分析,“《微生物生态学,卷90,不。3、543 - 550年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
人类微生物组项目财团,“人类微生物组研究的框架。”自然,卷486,不。7402年,第221 - 215页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
j . m . Fettweis j·p·布鲁克斯,m·g·塞拉诺et al。”差异的非裔美国女性和女性阴道微生物欧洲血统,”微生物学第10部分,卷。160年,第2282 - 2272页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
r . Plenge m . Weinblatt n . Shadick a价格,n . Patterson和d帝国,“主成分分析纠正分层在全基因组关联研究,“自然遗传学,38卷,不。8,904 - 909年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
j . 11月d·h·亚历山大·k·兰格,“快速的基于模型的估计血统无关的人。”基因组研究,19卷,不。9日,第1664 - 1655页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
j . 11月t·约翰逊,k . Bryc et al .,“基因镜子地理在欧洲,”自然,卷456,不。7219,274年,页2008。
视图: 出版商的网站 | 谷歌学术搜索
s . p .劳埃德“最小二乘在PCM量子化,”IEEE信息理论,28卷,不。2、129 - 137年,1982页。
视图: 出版商的网站 | 谷歌学术搜索
国家生物技术信息中心,2014年,https://www.ncbi.nlm.nih.gov/sra/?term=SRP002462。
p·d·城堡,s l·威斯克t Ryabin et al .,”引入mothur:开源,独立于平台的,支持的软件描述和微生物群落相比,“应用与环境微生物学,卷75,不。23日,页。7537 - 7541年,2009年,http://aem.asm.org/content/75/23/7537.short?rss=1&ssource=mfc。
视图: 出版商的网站 | 谷歌学术搜索
p·d·城堡,Gevers d, l·威斯克,”减少的影响PCR扩增和测序工件在16 s rRNA-based研究,“《公共科学图书馆•综合》》第六卷,没有。12篇文章e27310 2011。
视图: 出版商的网站 | 谷歌学术搜索
w·j·杰克逊,“双向集群的任务,”2016年,https://github.com/westonjackson/2-Way-Cluster-Assignment。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1221年

下载

732年

引用