文摘

我们调查的影响决定的第二级(即。,over subjects) inferential process in functional magnetic resonance imaging on (1) the balance between false positives and false negatives and on (2) the data-analytical stability, both proxies for the reproducibility of results. Second-level analysis based on a mass univariate approach typically consists of 3 phases. First, one proceeds via a general linear model for a test image that consists of pooled information from different subjects. We evaluate models that take into account first-level (within-subjects) variability and models that do not take into account this variability. Second, one proceeds via inference based on parametrical assumptions or via permutation-based inference. Third, we evaluate 3 commonly used procedures to address the multiple testing problem: familywise error rate correction, False Discovery Rate (FDR) correction, and a two-step procedure with minimal cluster size. Based on a simulation study and real data we find that the two-step procedure with minimal cluster size results in most stable results, followed by the familywise error rate correction. The FDR results in most variable results, for both permutation-based inference and parametrical inference. Modeling the subject-specific variability yields a better balance between false positives and false negatives when using parametric inference.

1。介绍

在认知神经科学中,功能性磁共振成像(fMRI)本地化大脑区域中扮演一个重要的角色,研究这些地区之间的交互(分别地。、功能分离和功能集成;见,例如,(1])的分析功能磁共振成像时间进程在一个主题(一级分析)提供了一些见解与大脑功能虽然集团研究聚合结果在个人(二级分析)产生更多的可归纳的结果。在本文中,我们专注于质量单变量方法的大脑分为体积小单位和体素,尽管存在替代(例如,2])。对于每一个像素点,一般线性模型(GLM)是用来模拟大脑活动,在第一和第二层次3]。然后激活体素水平来判断,而不是基于拓扑特性。选择激活体素可以看作是一系列不同阶段(4]。一级分析,鲤鱼5)展示了大的变化选择在每个不同的阶段影响的结果。在第二级分析,在较小程度上,不同组合的选择也是可能的。我们认为以下组的分析研究阶段: 聚合的数据对象, 推理, 修正为多个测试。

在两个常用软件分析功能磁共振成像数据(即。,SPM和目前5]),预期的激活在各体素建模两步方法(6]。在第一级的分析中,每主题是总结的证据的线性对比参数,必要模型研究设计。这些对比的图片然后传递到二级分析证据的权重在主题。池这个信息在主题,其中可以考虑科目变化构建voxelwise测试统计数据或只依赖于估计的对比而不是考虑这个科目的变化(7]。

池的数据后,进行第二阶段,推理阶段。虽然参数推理提供了封闭空分布的优点,可用于获得 值,这取决于强烈的假设在实践中不容易满足(8和没有详尽的测试9]。另一种方法是使用非参数方法如permutation-based推理创建一个实证零分布条件观察到的样本(9- - - - - -11]。

第三,推理必须纠正的巨大的多个测试质量引起的单变量同时超过100.000测试执行的方法。班尼特et al。(12)和利伯曼,坎宁安(13讨论,(可是)没有黄金标准地址的选择多个测试修正。我们考虑三种不同的多个测试步骤:控制错误发现率(罗斯福),控制familywise错误率(FWE),和一个基于未修正的方法测试集群结合最小大小。虽然罗斯福(14,15)和FWE控制(见,例如,8)有很强的理论背景与重点,分别对假阳性的比例在所有选定的体素和概率至少观察一个假阳性,第三种方法本质上是纯粹的经验(13]。

这三个修正设计来控制多个立体像素级别的测试问题。其他受欢迎的选择,专注于拓扑特性,比如集群大小(即。相邻的体素的集合的大小)或集群存在高度。在最近的一项研究中,吴et al。16提倡反对使用基于集群的推理和证明其问题研究时使用的足够动力。根据定义,它是繁琐的解释研究结果造成“重大集群”,因为这些可能不反映一组重要的构成体素(参见[9])。另一方面,第三种方法(13)类似于基于集群的集群大小测试,而是设定一个阈值基于集群的意义,指定一个固定的阈值最低集群大小设置。出于完整性的考虑,我们也因此延长第三种方法通过选择阈值基于集群的推理。然而,重要的是要指出,我们不打算调查基于集群测试从根本上不同于这里的方法,依赖于不同拓扑的假设。相反,我们专注于voxelwise测试(基于集群的详细调查测试,我们指的是(4])。

3的每个阶段的选择二级分析是至关重要的步骤在fMRI数据和结果可能影响结果的分析。二级分析或一组研究的使用是广泛的6,10,17,18),但不同过程在不同阶段的影响尚未广泛验证。可以区分三种不同方面的评价方法(4]:有效性、可靠性和稳定性。可以评估的有效性验证是否假阳性率控制在一个预定义的,名义水平。此外,第一类错误(假阳性)之间的平衡和II型错误(假阴性)的主要兴趣验证一直是测试程序(例如,[8])。人也承认调查方法的可靠性的重要性(例如,19,20.])。在多大程度上可以测量方法是可靠的通过激活脑区之间的重叠反复的措施,例如,在两次试验法的设置。

数据分析稳定性的概念,最初在遗传学(开发21],最近引入的功能磁共振成像数据分析(4]。这种方法使我们能够量化结果的再现性变化在不同的措施,例如,方差的数量选择压在复制(在模拟研究与一个已知地面真理或通过二次抽样的数据)。稳定的方法的特点是低变异性选择像素点的数量。数据分析的稳定性是一个有用的额外标准区分方法。在本文中,我们评估不同的选择的影响在三个阶段的再现性的结果。我们特此关注假阳性和假阴性之间的平衡和稳定,重现性措施。

2我们给不同的技术的简要概述。接下来,我们描述的细节,我们的模拟研究的结果。节4,我们目前的结果和实际数据的应用程序的细节。在讨论中,我们总结我们的研究结果,最后医生的一些建议。

2。方法

在本节中,我们概述不同的推理技术,我们将考虑在仿真研究和实际数据的例子。首先,我们描述方法在对象池的证据质量的漠视单变量方法在第二级别功能磁共振成像数据。接下来,我们总结不同的多个测试策略中经常利用fMRI文学等方法控制familywise错误率,错误发现率的控制方法,基于一个两步过程未修正的阈值但要求最小集群大小。最后,我们讨论的测试数据在虚假设条件下,依靠参数假设和非参数方法。

2.1。分布全球语言监测方法分析fMRI数据组级别

组级别推理通常通过一个两步过程收益(6]。在第一步中,分析每个主题进行了在体元级别 分别( 感兴趣的),一个适当的对比。在第二个步骤中,这些对比图像结合重量的证据 科目。

2.1.1。一级的分析

为每个主题 大胆的信号采样 时间点在各体素 (与 )在功能磁共振成像实验。每体素 一般线性模型(GLM)用于与体素的时间进程(即。大胆的信号) 预期的大胆的信号在大脑活动在实验设置(设计矩阵 )(见,例如,(22- - - - - -25):

设计矩阵 的产品是刺激发生函数的卷积与血流动力学响应函数(HRF)(例如,(26])。当拟合模型(1),需要占剩余连续时间点之间的相关性。让 代表的variance-covariance矩阵 在模型(1)。处理时间相关,一个矩阵 通常是构建这样的吗 成立。如果 正确指定, 可以通过一个简单的无偏估计的最小二乘方法。依靠“decorrelated增白的结果和预测,也就是说, 自左乘的 ,一个无偏估计量方差的估计量 获得(见,例如,3,27,28])。测试具体差异为体素的激活条件 然后通过测试的适当元素的对比 用对比矢量 ,测试

2.1.2。第二级分析

接下来我们关注组级别分析特定的体素 ( )。为便于符号,我们将体素指数下降 下面的文本。对于感兴趣的对比,让 表示 ,估计对比为第一级科目 。显然,这些对比并不完全知道但估计不精确。现在假设这些对比是已知的和用 的漠视,那么可以使用体重组的证据(例如,18): 在哪里 表示设计矩阵。在最简单的情况下,一个是感兴趣在所有科目是否有激活,设计矩阵 等于一个简单的列组成的矩阵 元素1。另外,在主题之间的存在条件下或团体(例如,一个想知道是否激活不同的男性和女性之间), 可以有更复杂的形式与额外的解释。此外 是一组误差向量, 尺寸的单位矩阵 主客体之间的方差。

然而在实践中 是未知的,不是吗 作为结果: 。自 此前,variance-covariance矩阵 包含两部分的总和:

右边的第一项(4)是固有的不确定性的估计有关 受试变异性,而第二项有关变化的估计 ,即主题之间方差。

在文学综合性功能磁共振成像数据分析,两种方法处理 是经常使用的。下面,我们就将这两种方法称为普通最小二乘法(OLS)方法和加权最小二乘(WLS)方法,分别。

OLS:同方差的情况下。在第一种情况下,福尔摩斯和Friston[中描述17),一个假设试方差不不同主题和残留噪声是同质的所有 科目。假设 简化的形式 (在模型(6)) 这意味着在——和主客体之间的变化是分不开的。

芒福德和尼科尔斯(18)证明 在模型(31470年)(p )可以估计 而剩余误差方差 估计是 。因此,这只是解决正常的简单线性回归方程案例和推理所得像往常一样在全球语言监测机构(28]。这是目前实现(29日下)OLS而在SPM (30.这是标准的实现。在AFNI [31日这是下实现的3 dt + +(参见[32])。

WLS:允许异方差性。WLS方法,或更普遍的广义最小二乘(gl)方法,明确模型的variance-covariance的两个组件 在(6): 更具体地说,一个权重矩阵 构造,这样更多的变量估计 估计的down-weighted吗 。在特殊情况下的设计矩阵 只由一列1,封闭形式的估计量的表达式 = (18] 更普遍的是, = 权重矩阵:

推理的方差成分更为复杂,因为不存在封闭形式的解决方案。已经提出几个(限制)最大似然方法在文献中(见,例如,32])。在实践中,受试方差通常设置为一级方差估计([18),在目前软件包)。

在目前这下实现Flame1而在AFNI这下实现3 dmema(参见[33])。

2.2。处理多个测试问题

众所周知,mass-univariate方法中 ( )压测试同时面临着巨大的多个测试问题,即使是在第二个层次。事实上,如果100.000的测试 是真的同时进行,每一个都在显著性水平的 那么,单靠机会,5000压将宣布活跃。因此,假阳性的数量(FP,见下表1)成为高得令人无法接受。而兴趣在于最小化FPs的数量和假阴性(fn),多个测试程序旨在控制FP利率(错误)。

2.2.1。Familywise错误率(FWE)

FWE是至少一个FP的概率发生在所有测试执行(见,例如,8])。为了控制这个错误率,人需要在最大的零分布的统计 测试数据: 。事实上,假设零(即全球。,the null hypothesis holds for all voxels) holds, we have that

因此,当 选择,这个概率低于或等于什么 ,FWE控制水平 。在功能磁共振成像数据分析,控制FWE最常用的方法是基于随机场理论(RFT,例如,34])。依赖参数的假设,RFT允许一个封闭的形式近似的尾巴的零分布最大的统计。另外,非参数方法等推理permutation-based测试可以使用。在后一种情况下。这将是部分进行更广泛的讨论2.3。2

注意,表达式(12)意味着弱控制FWE的控制只是保证假设零适用于所有体素。尼科尔斯和Hayasaka8,部分 )认为,在成像的弱控制FWE也需要强有力的控制,也就是说,零压控制的任何子集。这是至关重要的本地化个人显著的体素。

进一步指出,古典Bonferroni调整,观察 值乘以一个数量的测试和比较 ,也可以用来控制FWE。独立的潜在假设当使用Bonferroni调整意味着非常保守的结果但在fMRI上下文,使Bonferroni调整相对无用。而纠正依赖存在,这些都是很少使用在神经影像数据的分析8]。

2.2.2。错误发现率(罗斯福)

FWE是一个非常严格的错误率和控制它会导致保守的修正。考虑到一个愿意接受更多的FPs,前提是这个数字很小,相对于选择像素点的总数,一个可以依靠不同的误差测量,错误发现率(罗斯福)。罗斯福= 热那亚et al。15]介绍了过程控制神经影像学的罗斯福。使用Benjamini和业务的过程14),罗斯福是在水平 在这个意义上

算法如下(15]:(1)选择一个级别 (2)订单所有 原始 从最小到最大的值。与 代表 th最小 值,也就是说, ,命令 值如下: (3)定义 这样它是最大的 成立。(4)声明所有体素 是活跃的。

热那亚et al。15)认为,这个过程控制了罗斯福的假设下积极的依赖;也就是说,噪声是高斯和非负相关性。这种假设是合理的,因为平滑图像实施增加相邻像素点之间的依赖关系(因此测试)。

2.2.3。未修正的阈值与最小集群大小

基于仿真研究中,利伯曼和坎宁安(13)提出了一个更特别的两步过程,目的是为更好的FP和FN之间的平衡。在第一步中,测试图像阈值 ,对应于一个未修正的 例如,0.005。在第二步中,只有那些像素点属于集群以最小的集群大小为10。

与测试基于集群的意义。应该注意的是,未修正的阈值的方法与最小集群大小显示表面的相似之处与测试程序基于集群的意义。基于集群的意义测试是一个受欢迎的方法来检测激活(16]。然而从上述过程在本质上完全不同。事实上,它使用拓扑特性而不是纯粹的分布特征,因此依赖于不同的假设。

评论者所显示,我们添加了这个方法对我们比较完整的模拟(见部分3)。更具体地说,我们添加了集群大小( 测试与FWE-corrected FDR-corrected)基础意义 值。这对应于两步过程,但最小集群大小 获得基于集群的意义而不是固定在10。两步过程相似,第一阈值 选择,只有足够大的集群作为重要的保留。没有进入技术细节permutation-based和参量的推理(可以发现,例如,16,35,36),这个过程决定了集群的意义为了获得最低集群大小 。更具体地说,在第一步,之后设置足够高固定第一阈值(例如, ),集群是由cluster-forming算法决定的。在第二个步骤中,为每个这些阈上的集群,集群观察概率的大小 没有激活的零假设下可以确定。这些集群 值可以纠正控制要么FWE(进一步称为cluster-FWE)或罗斯福(进一步称为cluster-FDR)集群级别。

与一个固定的两步过程集群大小为10,第一阈值 可以不同的(经验)。对基于集群的推理另一方面,重要的是要注意,集群的零分布依赖于假设第一(cluster-forming)阈值是固定在一个严格的 层次的,通常的 。这意味着,在模拟,它是最小集群大小 基于集群的方法是多样的经验(通过施加不同的集群统计阈值大小不同FWE或罗斯福)而不是cluster-forming阈值

2.3。推理
2.3.1。参数推理

如果一个愿分布假设检验统计量的兴趣,人们很容易得出推论的阈值决策。我们首先讨论这些参数推理FWE和明年的罗斯福和两步方法。

FWE校正,一个可以依靠随机场论(RFT)获得的零分布 。使用两个基本近似高斯随机场理论(我们不会讨论详细在这里,可以找到更多的细节,例如,(8,34]),我们有 在表达式(17),来近似FWE欧拉示性数的概率 大于0。 基本计算集群的数量在零假设下,也就是说,相邻像素点的集合 成立。如果cluster-forming阈值 设置足够高的概率观察超过1集群是被忽视的,一个可以近似FWE表达式(18)。的期望值 通过使用信息的封闭近似估计图像的平滑度的检验统计量8,34]。该方法不仅考虑通过平滑数据的空间特征,而且其计算效率是一个重要的优势(9]。却是挑战,以满足所需的主要基本假设有效的推理,即正态分布噪声,足够平滑,足够高的阈值(见,例如,34,37])。

罗斯福纠正推理和两步过程中,未修正的 根据通常的值 测试统计数据的分布依赖于正态分布噪声,从OLS和WLS获得方法一样,可以被使用。

2.3.2。Permutation-Based推理

尽管存在一些工具来验证分配基础的假设检验统计量(例如,38),没有广泛的传统检查这些假设在功能磁共振成像数据分析39]。参数null分布确实往往依赖于强大的假设,这是很少完全实现(10]。因此可以或者使用非参数方法(如引导(例如,40- - - - - -42])和排列程序(例如,11,43,44])。利用重采样技术,排列的方法,例如,担保(渐近)有效的推理在名义水平通过创建一个空分布条件观测数据,但这一优势是成本的增加计算工作量。

关注二级分析和场景,一个只是想测试在所有个人(即激活。,设计矩阵 1是一个向量),permutation-based测试款项如下:(1)定义 的数量排列;越高 ,实证零分布的精度就越高。然而,计算负担也增加而增加 (2)计算每个体素 原样品的检验统计量: 每个立体像素。(3)创建 新样品通过随机翻转的一些元素的符号 ;即为随机选择个人1是变成了 (10)(如果个人属于不同的团体或研究设计比较复杂,可以找到更合适的方案,例如,(45])。(4)为每个 (与 )样本计算检验统计量 (5)体元的零分布排列 然后定义为经验分布的 的年代。显然,小的数量排列 ,越离散零分布。在mass-univariate方法,实证 每体素值获得使用 ( ),观察概率检验统计量的零分布排列至少一样大的检验统计量观测样本。罗斯福修正和执行这些两步过程 值。

FWE校正、基于排列的推理所得通过实证最大统计对所有像素点的采样来获得最大的零分布统计。这意味着在步骤 最大的所有体素的检验统计量的计算方法是: ( )。

3所示。模拟

3.1。数据生成

每一个主题( 在三维空间()和每体素 ),我们生成时间序列 信号的第一级使用以下模型: 设计矩阵,由拦截和一列一列的描述预期的信号在一个简单的块设计。 是一样 , 包含一个随机拦截 和随机的斜率 。方差的随机拦截设置为0,而一个随机的斜率 是来自 每一个主题,以便异构的影响 之间的学科。每一个主题,体素,和时间点, 是来自 。在模拟研究中没有时间相关诱导这种不必要的可能影响我们的方差估计和顺向推理(见,例如,46),调查的影响建模fMRI)的时间自相关。我们进一步定义一个信噪比(信噪比)的最大振幅( )/ 和专注于一个简单的对比

主题之间的标准差, 是这样,信噪比= 1(低信号强度)或信噪比= 2.5。方差 要么是常数或不同 科目。来保证两个场景之间的可比性的平均总数量的变化,方差 不变的情况下将不同场景下所有值的平均值。

我们使用neuRosim R包(47)和规范HRF设置第一级激活(26)(19)。总共有1934个活跃的体素,分布在两个集群,89191不活跃的体素 卷( 的体素)。噪声图像添加到激活图像平滑为了符合最小RFT的基本假设(3,34,39]。

总共1000模拟执行所有数据生成机制(2信噪比和常数和不同 )。

3.2。分析和评价细节
3.2.1之上。分析

我们关注的OLS和WLS方法结合个人的证据 科目。目前(5.0.7版本,29日]),其中最常用的软件包功能磁共振成像数据分析(5),有两种方法实现。首先,估计 (见(1)获得和明年用于二级分析。在WLS方法中,每一个主题 估计(见(6),然后使用每个主题中概述(重量的证据11)。参量的推理的OLS案例中,推理是基于 分布与 的自由度。WLS方法使用一种内在的贝叶斯过程考虑科目的变化和变化的估计 。进一步通过back-transformation推理所得的后验概率 ( )(见(3)和(7)) 地图。

OLS和WLS我们使用基于置换技术sign-flipping;参见2.3。2。命令行工具随机允许基于OLS的排列方法。WLS方法我们遵循了同样的协议,但通过一个内部R脚本测试统计的(9)。零分布排列是基于5000年排列。标准笔记本电脑的计算时间OLS排列还不到10分钟相比,WLS排列在大约40分钟。我们注意,而目前实现内部脚本没有完全优化的加速计算时间。

3.2.2。评价

不同的技术组合的性能评估是基于接收操作特征(ROC)曲线。ROC曲线显示真正的阳性(TP)率函数的假阳性(FP)率,与FPs定义为体素中宣布活跃但不是真正的激活区域和TPs的体素中宣布主动和真正的激活区域。

roc曲线提供了一种方式来调查FP和TP率之间的平衡;然而,偏见可能不平衡数据的介绍。在fMRI,通常有更多的真正的活动比真正活跃的体素;我们还提供Matthews相关系数(48]。这种方法考虑了四细胞显示在表中1因此更全面的衡量质量的测试标准,即使对不平衡数据(见,例如,49),创始的上下文的应用程序)。马修斯相关系数(MCC)计算如下: 值接近1表明更正确的决定,值接近于0表示随机决定,和值接近−1表明更多的错误的决定。

而且我们研究稳定通过正确选择像素点的数量变化。稳定方法是方法不太引起变化的数量选择压。最后,从上面的,都应该清楚,措施中定义的分布方式。

3.3。结果

在图1我们提出的ROC曲线下的四个数据生成机制(低和高信噪比在左和右面板中,平等与不平等的 在上部和下部面板)。总共12 ROC曲线,每个的一个 的组合选择过程(OLS和WLS、参数和非参数推断FWE与罗斯福与两步过程)。下面我们总结最重要的发现。

首先,我们发现在所有场景的两步过程Bonferroni-like第一阈值和最小的集群大小为10(进一步表示BCL)有更好的权衡FP和TP比FWE-control或FDR-control之间。

第二,在高和低信号强度下,中华民国的permutation-based方法和参数推理有非常相似的形状几乎相同的高度关注OLS方法。当考虑WLS方法,发现中华民国曲线更高permutation-based推理而非参数推断两种信噪比(无论哪一类型的控制)。

第三,在几乎所有的面板图1我们找到一个好的WLS与OLS方法下的性能参数的方法,不管多重性控制的类型。当permutation-based推理使用类似的OLS和WLS时观察到的信噪比很低,但WLS似乎执行比OLS当信噪比高。应该注意的是,这是由于permutation-based推理的不连续性,信号强时大部分是明显的。

在图2分别,MCC描绘,低和高信号强度对选择像素点的总数(FP + FN)。虽然研究结果基于ROC-curve大多是确认的模式在这些数字,高信噪比下的差异不太明显。这可能表明,在高信噪比的情况下决策偏离小于低信噪比时的相同数量的选择压。

3显示选定压在正确的比例 设在及其相应标准偏差 设在。4的数据生成机制,我们发现罗斯福修正多个测试结果的变化比其他两个程序对多个测试。我们还发现FWE校正结果变量结果略高于基于BCL的修正。此外,这种模式没有改变选择permutation-based推理或参数推理。一个例外是观察。事实上,我们发现,WLS过程,在高信噪比下,BCL过程变得比FWE过程变量。我们属性,排列方法的离散性和高信号出现在了这一仿真。

4描绘了对比BCL过程和基于纯集群大小的推理在ROC-curve模拟没有剩余的主客体之间差异变化。结果的情况不同的受试可变性和稳定的结果情节和MCC在附录B。我们注意到,由于纯基于集群的第一固定阈值测试,选择压的最大数量是有限的。roc曲线和稳定我们发现离散模式。这些都是我们的仿真设置的逻辑结果,两个相对较大的集群是活跃。基于我们之间找到一个折衷的ROC-curve FP和TP基于集群的推理时,信噪比高,但当信噪比低。稳定,很难得出结论根据观察到的结果由于上述局限性。

最后注意,根据信号强度最低,我们找到一个峰值的变化WLS方法结合罗斯福修正。进一步的检查 值WLS方法表明,这是由于更多的离散性最高 值比OLS过程(图5)。

4所示。真实数据的例子

4.1。人类连接体工程数据集

检查实际数据仿真研究的结果,我们使用数据从人类连接体项目(HCP, (50])。这些数据在第一个层面上,分析了使用标准协议其他地方描述(51]。模拟一个典型的功能磁共振成像研究约有15个主题,我们选择第一个15个主题(主题标识符可以在附件中找到一个)从HCP数据集关注对比4,需要数学任务的区别和讲故事的任务。

4.2。选中的体素的稳定性

HCP数据,我们确定不同的稳定性提出了方法引导对象从原始样本,即绘画主题更换与原样品。总共有100引导样品。活动确定体素在2级的数量在每一个引导数据集,使用12种上述推理第二层次的组合。稳定的数量选择压在引导进一步评估考虑到样品重新选择率特定的体素,这是引导样本的比例,体素的宣布活跃。

4.3。结果

在图6,我们发现同样的模式在模拟使用参数推理时,也就是说,罗斯福修正多个测试结果的可变性基于选定的像素点的数量。同时,我们发现FWE和BCL修正导致类似的变化。这一发现适用于WLS和OLS方法。然而与仿真研究中,我们发现,WLS方法变量总是低于OLS方法为给定类型的多样性控制。

permutation-based推断我们发现,当选择像素点的数量相对较低(小于±5%的±200.000压)的罗斯福校正OLS远比所有其他变量的组合。我们再次注意,WLS遭受的不连续性 值permutation-based推理罗斯福校正时使用。由于这种不连续性,几个小原创 值转换为只有一个纠正 价值,导致直线从原点到第一点。两步的过程中,有一个类似的工件使用WLS时。这可以归因于较低的事实 值不发生在集群大于10,直到这些达到某一阈值,导致大量的激活。如果超过5%的选择压,结果更变量如果使用FWE修正多个测试,相比其他方法。

基于图610.000,我们下一个确定的阈值选择压平均在100年引导样品。然后使用这些阈值确定每个特定的重新选择率体素在100年引导样品。图7描述了直方图的重新选择率大于50%。每个直方图显示的标题选择压的百分比在90%以上的样本。

从图7我们发现当使用FWE或重新选择率最高BCL(即多样性控制参数推理框架。6上面板直方图)。(即permutation-based推理的框架。,the 6 lower panel histograms), we find that the FDR achieves higher reselection rates than the FWE if the OLS approach is used, but the highest reselection rates are found with the BCL multiplicity control with both the OLS and the WLS approach.

考虑到经常选择的像素点的定位,我们还构建大脑图像如图8,我们发现所有体素的重新选择率至少75%。虽然我们承认片描述只是模范,显然证实了上述趋势。

4.4。两次试验法的对应

所显示的一个评论者,稳定的方法使用不同的实际样品应该反映更多的类似的结果。这个研究目的,我们使用一个额外的运行的每个15 HCP数据。我们的演示这两次试验法的相似参量的分析。我们匹配选择的数量每图像体素FWE /罗斯福方法各自的数字使用两步BCL发现过程。实际上,当选择 体素的 最小的 值,FWE和罗斯福方法结果是相同的。这个匹配的数量选择压是出于仿真发现更多的选择压导致更高的MCC。在两次试验法的环境中,世纪挑战帐户集团恰逢两个二进制图像之间的相关性(选择/ nonselected像素点)。在图9我们确实看到,BCL优于罗斯福/ FWE, WLS优于OLS。然而,我们指出,这种方法有一个主要的缺陷,因为它不允许我们计算这些数字的变化,它需要一个样品。

5。讨论

在这项研究中我们调查真阳性之间的平衡(TP),真正的底片(TN),假阳性(FP),和假阴性(FN)和数据分析稳定的方法论选择二级功能磁共振成像数据分析。在fMRI文学传统的评估技术,我们首先集中在FP和TP之间的平衡,使用roc曲线,马修斯相关系数(MCC),考虑所有可能的决策。瞄准可再生的脑成像研究,然而,我们相信,数据分析的稳定性也是一个重要的标准,提供了一个额外的独特视角的行为方法。而研究使用稀疏数据分析稳定性的判据,主要集中在一级推理决策(例如,4,52),分别地。,a focus on mass univariate inference and topological inference), this study filled this gap through considering data-analytical stability of different methods at the second-level analysis. Unlike the NPAIRS framework [53,54),允许探索整体稳定性,我们进一步关注选择体素,通过阈值图像获得的,并且在评估数据分析时的稳定性。

更具体地说,我们在本文的影响评估三种不同的选择,研究者必须在分析fMRI数据第二层次: 应该使用WLS-approach或一个OLS-approach, 应该依靠参数假设检验统计量或依赖于一个非参数的框架,比如permutation-based推论,然后呢 哪种类型的控制应该使用限制多样性问题。这些选择的影响从roc曲线评价,MCC,数据分析稳定性的视角。

平衡的决策背景下,基于roc曲线和MCC,结果很明显,当参数推理。不管选择的多个测试修正,我们发现WLS-method收益率FP和TP的平衡比OLS-method时使用。虽然结果的监控化学品证实大多数roc曲线的基础上,他们发现差异更明显的低信噪比时。根据信号强度高,决策环境的平衡方法之间的分化不明显。这些发现在《外交政策》之间的平衡和TP符合芒福德和尼科尔斯(18),尽管WLS之间的差异的大小和OLS是更加明显,roc曲线的基础上,在我们的模拟研究。当使用permutation-based推理时,几乎没有OLS和WLS之间的差异。然而,我们发现,有一些离散性的影响当permutation-based推理和WLS结合使用。在仿真环境中这是与高信噪比下的模式由于大幅跳跃选择的像素点的数量。还真实数据的应用程序中,我们发现了一些证据不连续性的WLS统计激活跳跃时发生。当比较的参数与非参数方法,我们发现蒂里翁与et al。43)没有证据的更好的性能基于排列的推理。但是要注意,在我们所有的仿真环境参数推理的基本假设是满意(高斯噪声和足够平滑)。在检查roc曲线中我们还发现两步过程模拟研究,而忽略了多重性但需要一个最小的集群大小,优于传统FWE-control FDR-control。

从数据分析稳定的角度来看,这三种方法之间存在很大差异,我们考虑多个测试修正。符合先前的发现第一层次的分析(21,52),FDR-based修正为多个测试导致更多的变量选择。仿真研究和实际数据的应用程序,我们发现基于FWE修正多个测试中出现的问题和一个两步过程更稳定的结果,评估的变化选择像素点的数量。罗斯福的这弱性能是观察,无论WLS-approach与OLS-approach或参数与非参数推断的框架。有趣的是,当我们专注于特定的体素的重新选择率数据的应用程序中,我们还发现性能优越的两步过程。如上所述的评论者,增加稳定FWE和两步过程依靠参量的推理可能归因于这样一个事实:这些方法利用拓扑特性的数据与罗斯福。

虽然分布推断只有一个方法来控制多个测试,存在一些替代品。基于集群的推理(见,例如,35,36])是一个非常流行的选择,明确依赖于拓扑特性,比如集群大小和一直提倡因为增加的潜在力量。然而,吸引et al。16]表明,常用的两步过程基于集群的推断是nonrobust当太自由第一次阈值是在体元级别使用,这导致不切实际的大型集群研究足够动力。这个复杂的解释结果集群可能成为一样大半球的一半。同样,吸引et al。16)和尼科尔斯(9)认为,概念的定义“重大集群”是复杂的,它是一个随机大小的体素的集合只能宣称至少有一些意义重大。我们同意尼科尔斯(9和吸引et al。16]voxel-wise推理仍然是一个有用的替代,因此选择了一个广泛的评价常用分布推理技术。

FP利率只有在评估仿真研究。虽然这可能缺乏生物有效性,这个过程允许我们有严格的控制在地面上真理和顺向TN和TP的决心。一个详尽的仿真研究(2信噪比和不同受试可变性的假设),我们已经介绍了一些属性出现在真实的数据。任何仿真研究是自然与这些设置的随意性。然而,使用真实的数据来确定FP利率相比,仿真研究中的优势,排除不必要的工件程序来确定TP、TN(见,例如,55),对于不同的测试误差的基础上,设计)或其基本假设。

收集所有上述证据,我们建议使用的脑成像研究WLS第二层次结合两步程序,特此依靠参数推理框架。注意,在整个论文中,我们假定所有图片在第一级正确归一化,这样个人完全coregistered。应该强调,进一步探索惩治侵犯的参数假设是必要的。然而,本文提出的策略来评估不同的方法在实际的数据分析稳定性数据可以用于未来的任何应用程序,最终从数据分析稳定性的角度揭示的最佳选择。这种验证真实数据也可能产生进一步了解的适当性,而临时但常用BCL-approach缺乏推论的理由。

附录

其他细节HCP数据集

人类所提供的数据连接体项目,WU-Minn联盟(组长:大卫·范·埃森和卡米尔Ugurbil;1 u54mh091657)由16个国家卫生研究院资助的机构和中心支持美国国家卫生研究院的神经科学研究的蓝图和麦克唐奈系统神经科学中心的华盛顿大学。

对象标识符的列表中使用真实的数据应用本研究中可以找到

受试者来自80年主题无关的数据集,释放 3 (50]。

b .额外的数据基于集群的推理之间的关系和以最小的集群大小的阈值方法

本节包含的额外数据BCL程序相比,基于集群的推理过程。以下的图片以下使用缩写: 信噪比= 1:信号强度低,信噪比= 2.5:高信号强度; 基于集群大小推断cluster-FWE: familywise纠错,cluster-FDR:基于集群大小推断错误发现率校正,和BCL:两步过程与Bonferroni-like第一阈值和最小的集群大小为10; OLS:普通最小二乘方法和WLS:加权最小二乘方法; 不平等:不同科目的可变性,等于:相同科目的变化。

责任。roc曲线

在数据1011分布的roc曲线进行描述。

B.2。稳定TPs的百分比

在数据1213分布稳定地块进行描述。

B.3。世纪挑战集团

在数据1415分布稳定地块进行描述。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

计算资源(方式超级计算机基础设施)和服务提供的用于这项工作是VSC(佛兰德超级计算机中心),由根特大学大力神基金会和弗拉芒政府部门EWI。