通过Dirichlet方法的混合物检测空间簇

摘要

我们提出了一种能够检测具有偏斜或不规则分布的空间簇的方法。使用Dirichlet方法（DP）的混合物来描述空间分布图案。不同批次的数据收集努力的影响也用Dirichlet方法进行了建模。对于集群空间焦点，由于其优势在不同数量的簇之间跳跃而采用出生死亡过程。在贝叶斯框架下绘制包括聚类的参数的推论。模拟用于证明和评估方法。我们将该方法应用于FMRI元分析数据集以识别对应于不同情绪的焦点集群。

1.介绍

这项工作的动机是一项旨在从功能磁共振成像(fMRI)元数据集检测激活病灶中心的研究。总之，fMRI元数据是fMRI研究的集合，这些研究确定了大脑中被刺激显著激活的区域，以检查特定的结果。fmri的成本很高，导致样本量小，因此可以使用元数据来增加样本量和功能。为了识别空间集群，一般采用有限混合模型[1-3.］．表示群集的混合组件通常与包含相应参数的每个组件共享公共参数族[1那2］．每个成分也有一个混合比例或权重，该比例或权重与该成分中数据的频率有关[1］．由于模型的易于实现，这允许各种应用，例如模式识别，计算机视觉，信号和图像分析，以及机器学习列出几个[4.］．

在上述有限混合物中，一个常用的分布是正态分布[1那5.]，欣赏其建立的属性，并在贝叶斯语境中，共轭。然而，当谈到聚类时，假设混合物的每个部分的正常性可能导致可信度，例如，当一个簇通过两个正常分布的混合物形成但具有相当接近的中心时。应该避免这种在许多研究领域的这种过期性;一个例子是从脑成像数据推断的情节焦点，其中一定的情绪被广泛的区域覆盖。

为了推断贝叶斯框架下的集群数量，已经提出了不同的方法。可逆跳跃马尔可夫链蒙特卡罗通常用于推断群集数[6.那7.］．在每次迭代时，将一个簇分成两个，将两个簇与一个或没有移动组合到两个之间的决定。这种方法的一个潜在难度是陷入局部最大的风险。最近，Dirichlet过程（DP）通常用于估计簇的数量[8.那9.］．这个过程具有捕获不规则模式的能力。DP有能力检测集群，而不需要额外的集群参数。然而，这种聚类特性也有一个固有的弱点，即它往往产生更多的聚类，使解释更加困难。

为了克服上述间隙，我们实施了Dirichlet方法（DP）的混合物。这些过程具有描述不规则模式的能力[8.那9.]，通过使用它作为我们共同的参数族，允许模型识别比正态分布能够识别的更复杂的模式。此外，源于我们之前在[10.], we elected to incorporate the birth-death process to statistically determine the number of clusters.与早些时候指出的其他聚类方法相比，出生死亡过程具有快速收敛的优势，并且通过控制出生率，包括产生冗余簇的潜力。

本文的其余部分组织如下。节2，我们介绍模型结构，符号和前瞻和高度，仿真在一节中介绍3.，该模型在fMRI元分析数据集的应用在Section中4.，结论和讨论在一节中5.．

2.方法

2.1。该模型

我们让我们表示三维空间中的空间点坐标，特别是在组（研究）R中的点J，和．我们有那在哪里是观察点的总数。它直截了当代表研究中的所有要点。我们模特作为在哪里表示组的效果那而表示的平均值为了指出调整组效应后，那和表示一些随机错误。通过将随机误差建模为标准多变量正态分布，分布满足和在哪里是协方差矩阵。

2.2。先前和高度分布

我们从先前分配开始．检测底层簇由于相似之处那我们描述的先验作为一种混合分布那．共同选择是正态分布。为了提高灵活性，我们在混合中放宽了这种归一化假设，并假设由DP生成，即: 那在哪里是精密参数和是基数分布和取为．特别是, 那在哪里这样．对于群集k的数量，我们将截断的泊松泊车分配给那那．我们将参数为1的狄利克雷分布赋给那这意味着为k维均匀分布。的先验分布从基地分布被选中那在哪里那已知并设为观测数据变化区间的中点。参数是设置为在哪里那和是每个维度的数据的范围。此先前设置是从[1我们认为这种设置是合理的，因为集群的数量和位置都是未知的。我们让我们和由于观察到的数据的范围很小。对于组效应，那我们假设它很小那在哪里和稍后指定那其中较低和上限定义为数据绝对范围的10％。我们让我们和那和．随机误差的方差分量，那假设遵循相对非信息的逆伽马（Ig）分布，．精度参数和通过最小化偏差信息标准（DIC）来选择[11.那12.］．

2．3．条件后验分布与后验计算

通过GIBBS采样器可以实现它们的后部分布的采样参数估计，其中使用诞生死亡过程建模群集数量的统计推断。出生死亡过程是一种最初介绍的一种连续时间马尔可夫链[13.］．该过程通常用于模拟点过程的实现，因为它们可能难以直接从[1］．这些实现进一步用于模型参数的似然推断[1］．出生-死亡方案允许事件在整个链中随机发生;这些事件要么是“出生”，要么是“死亡”。如果发生出生，组件数量增加1，如果发生死亡，组件数量减少1。

回忆考虑有限混合先验这样一切假设是独立分布的，每一个都是从狄利克雷过程记为那IE。，每一个地方代表一个DP但是是未知的，是配比，和吗是每个DP的组件特定参数。对于群集分配，我们介绍索引变量这表示观测rj和的赋值把价值1拿到．表示那在哪里表示独立和相同分布的离散随机变量的实现用概率质量函数，

关节后验分布与在哪里那是所有可估计参数的矢量。从这里，可以描述出生死亡算法和马尔可夫链用于引入和分配群集：（1）从初始模型开始那让表示混合比例和簇的具体参数为唯一集群。让出生率是．（2）计算每个组成部分的死亡率: （3)计算总死亡率．为了加快融合，我们选择不建模下一步跳跃作为指数的时间，并允许事件发生在马尔可夫链的每个迭代。（4)用各自的概率模拟事件类型，出生或死亡: （5）调整模型通过以下内容反映出生或死亡：（一世）诞生:模拟一个新组件从每个参数的相应（独立）的先前分布，从和从基本分布，模型变成．可以提到它是与参数的测试版分布并且可以很容易地模拟出来和这样．（ii）死亡:根据概率选择要死亡的组件为这样模型变成了（6）给定模型的当前状态那模拟所有剩余参数的值。（7）去一步．

将生灭过程纳入我们的模型中，我们需要进一步定义移除群集的可能性：在哪里．出生死亡过程是必修率的条件，．通过设置这个出生率，它控制新组件“诞生”的频率，等于如建议和在[1[这款计算地允许死亡率缺席的似然比．换句话说，数据的可能性驱动了死亡率，最终是新群集的决定。鉴于该决定是“出生”的新群集参数那 ,从它们的先验分布中取样: 通过将所有电流比例乘以所有电流比例来调整混合比例如果出生发生或除以如果发生死亡。

要模拟所有剩余参数和超参数的值，我们实现了GIBBS采样器。条件后部分布如下。注意 ”表示未列出的数据和其他参数。条件后是在哪里是集群的子集群数量吗那是集群中的焦点数量那和表示单位质点质量，和哪个是DP的分布作为单位点质量和某些群集中的焦点数量那在哪里表示所有的平均值在聚类k中，在哪里是集群中的焦点数量那．条件后从DP再次生成：在哪里是单位点质量。相关Quand参数的条件后验分布是在哪里代表平均群体效应和

最后，抽样分布是

对独特价值的采样和可以使用Neal的算法8 [14.］．它通过介绍介绍独立于其他参数的辅助参数来表示潜在值和[14.］．用于更新群集分配的算法8，表示为那如下：（一世）马尔可夫链的状态由和和表示群集参数，例如，在我们的申请中。反复样本如下：（ii）为那让是鲜明的为那和．标签这些与价值观．如果对于一些那从基本分布独立绘制值对于那些对于那么．如果对所有人那让有标签那从对于那些对于那么．绘制一个新的价值从使用以下概率: 在哪里可能是和观察那那涉及。在我们的情况下，它是那(3)在哪里是为那是等于和是合适的标准化常数。将状态更改为只包含那些现在与一个或多个观察相关联。(iv)对所有那绘制新值这样那或执行其他更新这使得这个分布不变[14.］．

因此，价值对于聚集的焦点和亚殖民可从在哪里是某个聚类中的焦点数吗和亚殖民和表示在调整组效果后观察到的数据的平均值。价值对于组集群中的这些组（研究）（不同的比上面的子轮匠的符号可以从中取样在哪里是群集中的组数和类似的为个体效应调整后的观测数据的平均值。

2．4．确定集群

为了估计聚类的数量、每个聚类的中心和聚类分配，我们采用了[15.]先前在我们的工作中使用[10.]并重申下面。此方法基于一组融合的MCMC迭代绘制群集的推广，并选择一个迭代作为集群和相关参数的最终估计。由于其基于一组独立的融合MCMC迭代估计，因此选择了最终MCMC迭代的最小欧几里德距离。该方法包含MCMC采样过程中的所有聚类信息[15.]：（1）在预设的MCMC老化次数后，让MCMC模拟继续进行另一次迭代。然后创建一个平均的聚类矩阵，记为那并且是一个矩阵与每个块或输入表示焦点多久和（）都在同一个集群中。具体来说,每个条目是两个焦点在同一簇中的W次迭代的比例。（2）让MCMC额外运行迭代，每个迭代，（一种）创建一个矩阵使用指标表示哪个焦点聚集在一起;例如,让如果焦点表示，则表示1 1和在一个集群中，否则为0。（b）使用欧几里德距离来确定该指示符矩阵与平均聚类矩阵之间的相似性．（3)之间迭代，选择迭代和相应的聚类模式，簇数，产生最小欧几里德距离的参数。

3.推断

3.1。仿真设置

仿真结果验证了该方法的有效性。我们假设fMRI元数据研究设置包括50项研究，每个研究包含10个焦点。这些焦点由三个以(x,y,z) talairach坐标为中心的星团集体模拟。那那和分别包含150,150和200个焦点。还假设有一半的数据，250个焦点或来自每个群集的一半，来自一个学习群集剩下的数据来自于第二组研究．这些研究聚类是向聚类中心的线性转移。例如，聚类1中有75个焦点位于(另一半位于中心( ;研究效果从聚集中心向所有三个维度呈线性转移。我们对这个总体设置做了各种修改:（1）正常设置：我们使用上述各个群集的多变量正常模拟数据和方差．这创造了微小变化的球体，我们希望该方法有能力正确识别星团。（2）卡方(倾斜)设置:该方法在出现异常模式时的聚类能力是空间聚类的一个重要因素。对于这个设置，我们对集群1和2应用了与正常设置相同的场景，但是使用具有4个自由度的卡方分布模拟了集群3。（3)大方差设置:最后一个场景是用来评估方法的鲁棒性与集群之间的距离。为此，我们应用了正常设置，但考虑增加级别(涉及large1、large2、large3和large4设置) ：那和那表示星团之间的距离逐渐接近。

对于每个设置，我们实现了网格搜索对单个数据集以估计值和基于DIC的最小化。我们让精密参数值为0.01,0.05,0.1,0.5,1,2和5。基于和通过2500次老化迭代，500次工作迭代来计算确定聚类的概率矩阵，100次额外迭代来推断聚类和单个焦点聚类中心的数量，生成了100个MC数据集。

模型评估包括三个评估：敏感性，特异性和准确性。灵敏度和特异性由它们的通用定义定义，焦点的比例被正确分配给其模拟群集，以及正确地未分配它们的非刺激群集的焦点的比例。准确性被定义为正确聚集的焦点的百分比。请注意，准确性的定义考虑了真正的积极和真实的否定。除了我们的方法论外，我们还应用了一个非常常见的现有聚类方法，用于连续数据，K-means，我们的模拟设置。虽然此方法无法调整其他协变量，但它允许与现有方法进行比较。最后，为了突出使用DPS对现有聚类方法的混合的优势，我们应用了我们的方法，我们的方法的修订版使用多元正常分布而不是DPS的混合，以及kmeans到正常和chi-squared仿真方案．随着重点在于聚类性能，假设群体效果已知为这两个设置。

3.2。仿真结果

表格1总结了三种焦点级聚类识别的结果和所识别聚类的质量。该方法在所有场景下都具有较高的灵敏度和特异性。集群整体作业的准确性高于90%时,数据的变化相对较小,只掉一次集群是足够大的重叠(场景大4)。该方法也被准确识别正确的数量的集群中位数表示的数量的个人和研究集群。相比之下，Kmeans方法的结果显示敏感性和特异性的统计值相对较低(表2)．当数据的变化相对较小时，准确性约为70％。然而，与所提出的方法相比，威尔语方法通常会推断出更高数量的簇，如较大的中位数的簇所示。用于DPS混合的单个数据集的计算时间平均为7-8小时在高性能计算机上（Dell群集，带有88个计算节点，3120总中央处理单元核心，20664个RAM和61440总图形处理单元核心）。


场景( ）	中位数。群集（SD）	群集索引	平均灵敏度(SD)	平均特异性（SD）	平均准确性（％）（SD）

正常（0.1,1.0）	集成电路:3 (0.88)	1	0.96（0.13）	1 (0)	0.96（0.13）
		2	0.96（0.13）	1 (0)
		3.	0.96（0.13）	1 (0)
	SC: 2 (0.32)	1	0.93 (0.26)	1（0.04）	0.96（0.13）
	SC: 2 (0.32)	2	1（0.04）	0.93 (0.26)	0.96（0.13）

卡方(0.05,0.1)	IC：19（2.17）	1	0.94（0.09）	0.91 (0.15)
		2	0.74（0.43）	0.96（0.02）	0.54 (0.13)
		3.	0.09（0.03）	0.94（0.16）	0.54 (0.13)
	SC: 2 (0.56)	1	0.76（0.37）	0.9（0.1）	0.82（0.18）
	SC: 2 (0.56)	2	0.88 (0.11)	0.78（0.36）	0.82（0.18）

大1 (0.05,0.1)	集成电路:3 (0.82)	1	0.96（0.13）	1 (0)	0.96（0.13）
		2	0.96（0.13）	1 (0)
		3.	0.96（0.13）	1 (0)
	SC: 2 (0.29)	1	0.92（0.27）	1 (0)	0.96（0.14）
	SC: 2 (0.29)	2	1 (0)	0.92（0.27）	0.96（0.14）

大2（0.01,0.5）	IC：3（0.77）	1	0.99（0.04）	1 (0)	0.99（0.02）
		2	0.99（0.03）	1 (0)
		3.	1（0.01）	1 (0)
	SC：2（0.14）	1	1（0.02）	1（0.01）	1（0.01）
	SC：2（0.14）	2	1（0.01）	1 (0)	1（0.01）

大3 (0.05,0.05)	集成电路:5 (1.25)	1	0.91（0.13）	1 (0)	0.92（0.07）
		2	0.88 (0.16)	1 (0)
		3.	0.96（0.09）	1 (0)
	SC：2（0.37）	1	0.97（0.06）	0.98 (0.03)	0.97 (0.04)
	SC：2（0.37）	2	0.98 (0.03)	0.98 (0.03)	0.97 (0.04)

大4 (0.01,2.0)	IC：9（1.3）	1	0.66（0.14）	0.99（0.01）	0.62 (0.09)
		2	0.33 (0.08)	0.99（0.01）
		3.	0.8（0.17）	1 (0)
	SC：1（0.36）	1	0.04 (0.17)	0.99（0.05）	0.51 (0.08)
	SC：1（0.36）	2	0.98 (0.07)	0.05（0.18）	0.51 (0.08)

SD: 100个MC重复的标准差;IC:单个焦点簇;SC:研究效应集群。


设想：	中位数。群集（SD）	群集索引	平均灵敏度(SD)	平均特异性（SD）	平均准确性（％）（SD）

普通的	5 (0.95)	1	0.73（0.29）	0.98 (0.09)	0.7（0.12）
		2	0.72（0.3）	0.98 (0.08)
		3.	0.67（0.26）	1 (0)

Chi-Squared.	10（0.5）	1	0.58（0.19）	0.99（0.01）	0.5（0.09）
		2	0.86 (0.28)	0.92（0.03）
		3.	0.16 (0.08)	0.98（0.11）

大1	5（0.98）	1	0.68（0.33）	1（0.04）	0.7（0.13）
		2	0.76 (0.26)	0.96（0.12）
		3.	0.67（0.26）	1 (0)

大2	7 (1.29)	1	0.61（0.27）	0.99（0.06）	0.58（0.11）
		2	0.61（0.27）	0.99（0.06）
		3.	0.54（0.27）	1 (0)

大3	9（0.94）	1	0.49（0.19）	1 (0)	0.46（0.08）
		2	0.47（0.17）	1 (0)
		3.	0.43（0.24）	1 (0)

大4	10（0.57）	1	0.43（0.16）	1（0.01）	0.41 (0.07)
		2	0.42（0.14）	1（0.01）
		3.	0.38 (0.2)	1 (0)

SD: 100个MC重复的标准偏差。

去除研究效果后，DPS混合物与普通和威克斯的混合物之间的比较如预期（表3.)．两种混合物在识别三个正态分布簇方面都表现得非常好，而Kmeans性能足够，总体准确率为80%(相比之下，两种混合物的准确率均为100%)。一旦数据偏离正态，混合正态方法无法区分聚类，导致低准确率(32%)。Kmeans方法的性能类似于混合DPs，这两种方法对第三类具有较低的敏感性，这是倾斜的，但混合DPs可以获得更高的精度。混合DPs能够区分聚类1和2，这表明99%的敏感性和100%的特异性，但倾向于将聚类3“过度聚类”成更小的聚类，这表明中位数较大的聚类、14%的敏感性和100%的特异性。在总体精度方面，当数据是倾斜的时候，DPs混合比正态和k均值混合要好。


设置	方法	中位数。群集（SD）	群集索引	平均灵敏度(SD)	平均特异性（SD）	平均准确性（％）（SD）

普通的	DP.	3 (0)	1	1 (0)	1 (0)	1 (0)
			2	1 (0)	1 (0)
			3.	1 (0)	1 (0)
	混合物	3 (0)	1	1 (0)	1 (0)	1 (0)
			2	1 (0)	1 (0)
			3.	1 (0)	1 (0)
	Kmeans	3（0.6）	1	0.81（0.36）	0.93（0.16）	0.8（0.22）
			2	0.79（0.38）	0.94 (0.15)
			3.	0.79 (0.25)	1 (0)

Chi-Squared.	DP.	16（1.76）	1	0.99（0.01）	0.99（0.01）	0.65（0.01）
			2	0.99（0.01）	0.97 (0.01)
			3.	0.14（0.03）	1 (0)
	混合物	1（0.29）	1	0.06（0.24）	0.98（0.11）	0.32（0.1）
			2	0.95（0.22）	0.06（0.24）
			3.	0.05 (0.21)	1 (0)
	Kmeans	10（0.22）	1	0.99（0.06）	0.98（0.01）	0.62 (0.1)
			2	0.87（0.34）	0.93 (0.03)
			3.	0.16 (0.06)	0.94 (0.17)

SD: 100个MC重复的标准偏差。

4.实际数据应用

对于此应用程序，我们将所提出的方法应用于Meta分析数据集。最初构建在[16.]，该数据包括162篇神经影像学的出版物，其中57篇是PET, 105篇是fMRI。在这162份出版物中，有437份对比或研究。只有那些被他们的研究特定标准认为是显著激活的病灶被纳入了2478个病灶。此数据的汇总统计数据可以在表中看到4.和5.．


	分钟。	第一曲。	中位数	的意思是	第三曲。	最大限度。

每个酒吧的焦点数量。	1.00	5.75	10.00	15.11	17.25	110.00
每项研究的焦点数量	1.00	2．00	4.00	5.67	7.00	47.00
每个酒吧的受试者数量。	4.00	9.00	11.00	12.26	14.00	40.00
每个酒吧的研究数量。	1.000	1.000	2.000	2.67	4.000	12.000

最小值：最低，第1 QU：25％百分位，第3次：75％百分位数，最大值：最大，PUB：发布。


情绪	研究频率	焦点频率
情绪	(占研究总数的百分比)	（占总焦点的百分比）

aff	175（40.05％）	881（35.55％）
愤怒	26 (5.95%)	166例(6.7%)
厌恶	44（10.07％）	337例(13.6%)
恐惧	68（15.56％）	367（14.81％）
幸福	36 (8.24%)	178（7.18％）
混合	41 (9.38%)	195例(7.87%)
悲伤	45（10.3％）	348（14.04％）
惊喜	2 (0.46%)	6（0.24％）

总计	437.	2478

等于off:情感。

与模拟研究一样，网格搜索和DIC用于估计值和．潜在的精密参数值为0.01,0.05,0.1,0.5,1,2,5和7.5。每个组合以超过2,600次迭代，2,000个用于烧伤，500次，用于概率矩阵计算，最终100个以推断单个集群及其中心。为了协助似然计算的幅度，数据被缩小为10。

结果表明，精度参数组合和产生了最小的DIC。根据痕迹图检查了最初2,000个样本的收敛性。基于该方法，我们确定了4个研究聚类和14个个体焦点聚类。在HPC上运行此数据的单个DIC设置平均需要72小时。按中心位置、脑位置、病灶频率和研究频率划分的14个单个病灶组见表6.．14个聚类中每个焦点相关情绪的频率见表7.．情感情绪在所有集群中都在主导，恐惧是在簇1,2,3,11和13中的第二个主导情绪，簇5和14，簇6和10中的悲伤，以及剩余的情绪混合集群。当只关注那些在兴趣的大脑区域内落下的焦点时，如表所示8.，除了情感之外，主导的情感分别是悲伤，恐惧和厌恶。与由空间Cox点处理（53）和kmeans（20）所识别的群集数相比，[10.，我们当前应用程序识别的集群更少。需要指出的是，这一特定数据并不能从视觉上表明不同的簇，而是更接近于在整个大脑中更均匀的分布，这可能导致可识别簇的数量不准确。然而，根据我们之前在[10.[模拟研究中的结果，形成的簇状相当微妙，实际上可能不够明显。


集群中心	布莱恩地区	群集索引	每簇数量的焦点（占总焦点的百分比）	每组的研究数目(占所有研究的百分比)

（-9.11，-14.45,1.4）	颞云	1	1615 (65.17)	386（88.33）
（-0.83，-4.64,0.54）	颞云	2	188（7.59）	139（31.81）
（16.75，-10.63，-11.33）	颞云	3.	148 (5.97)	117（26.77）
(3.48, -5.52, -2.15)	时间INF L.	4.	102 (4.12)	84（19.22）
（2.08，-4.61，-0.14）	颞云	5.	77（3.11）	67（15.33）
(0.87, -7.7, -0.63)	颞杆SUP L	6.	67 (2.7)	59 (13.5)
(0.99, -6.33, 2.62)	Cerebelum 6 R	7.	55 (2.22)	43 (9.84)
(2.3, -5.89, 0.32)	NA.	8.	54 (2.18)	46 (10.53)
（0.43，-6.59,0.6）	中央后L	9.	41（1.65）	36（8.24）
(-0.18, -4.99, 0.11)	Cerebelum 6 R	10.	39 (1.57)	38（8.7）
（1.69，-5.25,1.43）	临时SUP R.	11.	38（1.53）	34（7.78）
（-0.64，-5.93,1.77）	中央后L	12.	22（0.89）	20 (4.58)
(1.29, -5.28, 1.23)	前列r.	13.	18（0.73）	17（3.89）
(0.45, -5.31, -0.87)	枕骨INF R.	14.	14（0.56）	14（3.2）

R:右脑，L:左脑。


聚类指数:聚类中所有的焦点
情绪的情感频率（占总集群焦点的百分比）

集群：1	1615	集群：2	188.	集群：3	148.
aff	562（34.8）	aff	57（30.32）	aff	53（35.81）
愤怒	110（6.81）	愤怒	10（5.32）	愤怒	12（8.11）
厌恶	225（13.93）	厌恶	18 (9.57)	厌恶	22（14.86）
恐惧	234（14.49）	恐惧	35 (18.62)	恐惧	31（20.95）
幸福	121（7.49）	幸福	17 (9.04)	幸福	8 (5.41)
混合	131（8.11）	混合	18 (9.57)	混合	8 (5.41)
悲伤	228（14.12）	悲伤	33 (17.55)	悲伤	13 (8.78)
惊喜	4 (0.25)			惊喜	1 (0.68)

集群：4	102.	集群：5	77.	集群：6	67.
aff	44（43.14）	aff	35（45.45）	aff	22（32.84）
愤怒	6（5.88）	愤怒	3（3.9）	愤怒	4（5.97）
厌恶	15（14.71）	厌恶	13（16.88）	厌恶	5 (7.46)
恐惧	9（8.82）	恐惧	5（6.49）	恐惧	14 (20.9)
幸福	9（8.82）	幸福	5（6.49）	幸福	6 (8.96)
混合	4 (3.92)	混合	7（9.09）	混合	4（5.97）
悲伤	15（14.71）	悲伤	9 (11.69)	悲伤	11（16.42）
				惊喜	1 (1.49)

集群：7	55.	集群：8	54.	集群：9	41.
aff	21（38.18）	aff	19（35.19）	aff	13（31.71）
愤怒	7（12.73）	愤怒	2（3.7）	愤怒	5 (12.2)
厌恶	7（12.73）	厌恶	9（16.67）	厌恶	8（19.51）
恐惧	6（10.91）	恐惧	7（12.96）	恐惧	8（19.51）
幸福	3（5.45）	混合	9（16.67）	幸福	2（4.88）
混合	4（7.27）	伤心	8（14.81）	混合	1 (2.44)
悲伤	7（12.73）			伤心	4 (9.76)

集群:10	39.	集群:11	38.	集群:12	22.
aff	15（38.46）	aff	20（52.63）	aff	9（40.91）
愤怒	2 (5.13)	愤怒	1 (2.63)	愤怒	2（9.09）
厌恶	5（12.82）	厌恶	2（5.26）	厌恶	3（13.64）
恐惧	3（7.69）	恐惧	7（18.42）	恐惧	3（13.64）
幸福	3（7.69）	幸福	2（5.26）	混合	2（9.09）
混合	4（10.26）	伤心	6 (15.79)	伤心	3（13.64）
悲伤	7（17.95）

集群:13	18.	集群:14	14.
aff	5（27.78）	aff	6（42.86）
愤怒	2（11.11）	厌恶	3 (21.43)
厌恶	2（11.11）	幸福	1 (7.14)
恐惧	5（27.78）	混合	2（14.29）
幸福	1（5.56）	伤心	2（14.29）
混合	1（5.56）
悲伤	2（11.11）


聚类指数:聚类中所有的焦点
情绪的情感频率（占总集群焦点的百分比）

集群：1	489.	集群：2	63.	集群：3	54.
aff	217（44.38）	aff	29（46.03）	aff	21（38.89）
愤怒	20（4.09）	愤怒	3（4.76）	愤怒	3（5.56）
厌恶	68（13.91）	厌恶	8（12.7）	厌恶	4（7.41）
恐惧	63（12.88）	恐惧	13（20.63）	恐惧	8（14.81）
幸福	28（5.73）	幸福	2（3.17）	幸福	6（11.11）
混合	22（4.5）	混合	4 (6.35)	混合	5 (9.26)
悲伤	71（14.52）	悲伤	4 (6.35)	悲伤	7（12.96）

集群：4	34.	集群：5	25.	集群：6	20.
aff	15 (44.12)	aff	13（52）	aff	8（40）
愤怒	1（2.94）	愤怒	1（4）	厌恶	1（5）
厌恶	4（11.76）	厌恶	4 (16)	恐惧	4（20）
恐惧	3（8.82）	恐惧	1（4）	幸福	1（5）
幸福	1（2.94）	幸福	2（8）	混合	1（5）
混合	1（2.94）	混合	2（8）	悲伤	5（25）
悲伤	9 (26.47)	悲伤	2（8）

集群：7	19.	集群：8	17.	集群：9	16.
aff	6（31.58）	aff	6（35.29）	aff	9（56.25）
愤怒	1（5.26）	愤怒	2（11.76）	恐惧	3（18.75）
厌恶	4（21.05）	厌恶	3（17.65）	幸福	2 (12.5)
混合	2（10.53）	幸福	1（5.88）	悲伤	2 (12.5)
悲伤	6（31.58）	混合	1（5.88）
		悲伤	4（23.53）

集群:10	15.	集群:11	9.	集群:12	7.
aff	6 (40)	aff	3（33.33）	aff	3（42.86）
愤怒	1（6.67）	愤怒	1 (11.11)	愤怒	1（14.29）
厌恶	2（13.33）	厌恶	2（22.22）	厌恶	1（14.29）
恐惧	2（13.33）	恐惧	1 (11.11)	恐惧	2（28.57）
幸福	1（6.67）	悲伤	2（22.22）
混合	2（13.33）
悲伤	1（6.67）

集群:13	6.	集群:14	5.
aff	3（50）	aff	3 (60)
厌恶	1 (16.67)	幸福	1（20）
悲伤	2（33.33）	悲伤	1（20）

ROI:感兴趣的区域;等于off:情感。

5.结论和讨论

将观察焦点作为研究效应和个体焦点聚类效应与多变量正态随机误差的线性关联建模，是由于空间Cox过程在统计上无法区分聚类和聚类的模式或峰值。研究的总体目标仍然是使用功能磁共振成像(fMRI)基于坐标的元数据来识别大脑中激活的区域。通过以这种方式建模数据，我们希望分布能够在统计上区分集群和集群模式，同时保持灵活性和健壮性来模拟数据的行为。

仿真研究表明，该方法可以拟合来自正态或异常分布的数据。此外，它能够在协变量中识别集群，同时保持识别单个集群的完整性。当聚类较大且重叠时，所提出的方法和Kmeans都不能正确识别聚类，而正态分布和离散点分布的混合在识别严重倾斜的聚类时都表现得很差。

当应用于FMRI Metadataset时，该方法识别出相对较低的簇数。鉴于具有高噪声的模拟研究中的低灵敏度发现，可以得出结论，这种数据具有太广泛的可能性很高。当用空间COX过程分析相同的数据时，结果的差异是极端的。不仅具有大大较少的集群，而且来自所提出的方法中鉴定的群集中心也不贴近第一种方法中识别的那些。值得一提的是，元分析数据没有明显分组，并且在整个大脑中更均匀地分布，也许使用的模型没有提供最合适的。

这种方法的主要优势，除了它的灵活性，是它的能力描述不规则的空间模式和它的抽样设计统计区分集群。由于其适应性本质，该模型还可以调整任何相关的协变量。然而，基于仿真研究和fMRI元数据应用，所提出的方法往往过于不敏感，在数据没有明显区分时难以识别集群。该方法的一个潜在的限制是，每个DP在混合假设具有相同的精度参数。值得注意的是，在模拟研究中，当混合DPs试图拟合卡方模拟(没有研究效果)时，它是过度聚类倾斜的簇。但是，当精度参数越小时，聚类3的识别性就越准确，而聚类1和2的识别性就越不准确。因此，当数据倾斜时，为了进一步提高这种方法的灵活性和准确性，每个DP可能需要自己独特的精度参数。此外，该方法的聚类能力受限于对研究效果的识别，这可能通过实施更强的限制或可能是具有多个DPs的影响而得到改善。我们未来的工作将关注这些问题，允许研究效应是随机的，而不是固定的，并确定模型中大量的DPs是否确实是一个限制。

数据可用性

数据目前尚未公开，但应科罗拉多大学Tor D. Wager教授的要求可获得。

的利益冲突

任何作者都不存在利益冲突。

致谢

康博士的努力得到了批准1R01MH105561的支持。张博士和Ray博士的努力得到了孟菲斯大学提供的开始资金。

参考文献

M. Stephens，“未知组分混合模型的贝叶斯分析——可逆跳跃方法的替代方法，”统计史，卷。28，不。1，pp.40-74,2000。查看在：出版商网站|谷歌学术|Mathscinet.
有限混合模型中的M.Aitkin和R. HEALELY，“假设检测。皇家统计社会杂志，“皇家统计社会杂志。B系列（方法论），pp。67-75,1985。查看在：谷歌学术
G. J. McLachlan和K. E. Basford，混合模型：应用于聚类的应用， Marcel Dekker，纽约，纽约，美国，1988。查看在：Mathscinet.
M. A.T. Tipueiredo和A. K.Jain，“有限混合模型的无监督学习”，IEEE模式分析与机器智能汇刊，卷。24，不。3，第381-396,2002。查看在：出版商网站|谷歌学术
J.-M.马林，K.Mengersen和C.罗伯特，“贝叶斯建模和推理分布混合物，”贝叶斯思维：建模与计算，卷。25集权的手册。，PP。459-507，elestvier / North-Holland，阿姆斯特丹，2005年。查看在：出版商网站|谷歌学术|Mathscinet.
P. J. Green，“可逆跳跃马尔可夫链蒙特卡罗计算和贝叶斯模型决心”Biometrika，卷。82，没有。4，pp。711-732，1995。查看在：出版商网站|谷歌学术|Mathscinet.
P. J. Green和D. I. Hastie，“可逆跳跃MCMC”，遗传学，卷。1550，没有。3，pp。1391-1403,2009。查看在：谷歌学术
M. D. Escobar和M.West，“贝叶斯密度估计和使用混合物的推断”美国统计协会杂志，卷。90，没有。430，pp。577-588,1995。查看在：出版商网站|谷歌学术|Mathscinet.
C. E. Antoniak，“Dirichlet过程的混合及其在贝叶斯非参数问题中的应用”，统计史，卷。2，pp。1152-1174，1974。查看在：出版商网站|谷歌学术|Mathscinet.
M. Ray，J. kang和H.张，“使用FMRI数据识别使用空间Cox点流程的激活中心”，“IEEE计算生物学与生物信息学汇刊，卷。13，不。6，pp。1130-1141,2016。查看在：出版商网站|谷歌学术
P. Congdon，贝叶斯统计学建模，卷。704，John Wiley＆Sons，2007。查看在：出版商网站|Mathscinet.
D. J.Spiegelhalter，N.G. Best，B. P. Carlin和A.Van der Linde，“贝叶斯型措施的模型复杂性和契合”皇家统计社会杂志：B系列（统计方法），卷。64，不。4，pp。583-639,2002。查看在：出版商网站|谷歌学术|Mathscinet.
C. Preston，“空间出生和死亡过程”应用概率的进步，卷。70，否。03，pp.405-408，1975。查看在：谷歌学术|Mathscinet.
R. M. neal，“马尔可夫链条采样方法，用于Dirichlet过程混合物模型”中国计算与图形统计学报，卷。9，不。2，pp。249-265,2000。查看在：出版商网站|谷歌学术|Mathscinet.
D. B. DAHL，“基于模型的表达数据通过Dirichlet过程混合模型，”基因表达和蛋白质组学的贝叶斯推断，pp。201-218，2006。查看在：谷歌学术|Mathscinet.
H. Kober，L. F. Barrett，J.Joseph，E. Bliss-Moreau，K. Lindquist和T. D.赌注，“功能分组和皮质 - 皮质互动情绪：神经影像学研究的荟萃分析”neuroimage.第42卷，第4期。2，页998-1031,2008。查看在：出版商网站|谷歌学术

概率与统计学报

生物统计学的新进展

摘要