扫描检测高方差的统计数据集群

文摘

扫描数据大多是用来探测空间区域或时间间隔中给定变量的平均水平更重要。有时,当这个变量是连续的,有兴趣寻找集群的可变性更重要。本文介绍了两个扫描统计识别集群的价值观表现出更高的方差。像许多古典扫描统计,第一个依靠广义似然比检验,而第二个是基于经验的比率差异。这些方法是很有用的识别空间区域或时间间隔中给定的变量的变化是更重要的。在应用程序的新方法,我寻找地理集群高可变性的收入在法国,然后对残差表现出更高的方差线性回归上下文。

1。介绍

集群检测已成为一个非常富有成果的研究课题自nau的早期工作1)寻找一个不同寻常的集群随机点在直线上。之后,扩展到确定时间间隔或给定随机变量的空间观测的地方比其他地方是不同的。这些方法是现在非常流行的疾病监测疾病的检测集群,他们也使用在许多其他领域,如林业、天文学和犯罪学。一次彻底的审查是由Glaz et al。2]。

大多数集群检测方法用于计算数据,也就是说,点过程的随机的坐标事件中观察到有限的子集:我们的目标是识别,如果他们存在,地区的事件是异常高的浓度。根据Cressie[文章3),扫描统计量表示的最大浓度观察收集潜在的集群。最初,所有潜在的集群的大小必须是相同的,所以扫描统计只是事件的最大数量在一个窗口的大小,被固定的先验。这主要缺点消失当Kulldorff [4]介绍了扫描统计基于广义似然比伯努利泊松模型或模型。这个定义扫描统计分析过程与二进制标记点,如案例/控制数据。后来,Kulldorff et al。5]介绍了高斯模型扫描统计量使分析过程与连续标记点。

这种扫描方法检测high-mean集群是有用的,也就是说,标志的地区明显高于其他地方。然而,当分析收入的不平等,例如,它可能是有用的寻找高方差的集群:在这些领域,不平等现象更明显,这可能会生成更多的暴力和犯罪。因此,现有扫描方法需要修改为了检测这样的集群。

在本文中,我将介绍两个扫描检测高方差的统计数据集群。部分2描述了扫描统计和计算方面的标记点的框架流程。他们的表演节通过仿真比较研究3。节4,它们适用于两个真实数据集:第一个,它描述了收入的空间分布在法国,高方差扫描统计数据直接应用;第二个,这说明了公立学校支出与人均收入之间的关系,线性回归模型拟合及其残差通过高方差分析扫描数据。本文的结论与讨论。

2。两个高方差扫描数据

让表示标记点的实现过程,事件和的位置吗相关的标志。该地区是观察域和地点可以是一维()或空间(或)。我们的目标是检测区域标志的表现出方差显著高于其他地方。

从现在开始,让我们考虑空间位置。一维位置的设置将在处理部分4.2。大部分的空间集群之间依靠似然比检测方法两个假设取决于潜在的集群:扫描统计只不过是所有这些可能性的最大比率。因此两个问题回答如何选择潜在的集群和似然比应该使用哪一个?

关于潜在的集群,我将专注于循环集群,例如Kulldorff [4]。用一组潜在的集群套光盘(如果(如果)或球)集中在一个位置和通过另一个: 在哪里盘(或球)集中在吗并通过:潜在集群的数量。

2.1。广义似然比扫描统计量

在介绍说,Kulldorff et al。5]介绍了Gaussian-based扫描统计量检测意味着集群表现出高于其他地方。他们的浓度指数是基于两个假设之间的似然比。为了检测高方差集群而不是high-mean集群,我决定修改他们的备择假设。

让表示随机变量相关的标志,这是被认为是独立的。在虚假设条件下,对应于没有任何集群的情况下,都是来自相同的高斯分布: 在哪里最大似然(ML)估计与此相关分布;也就是说, 的密度函数与高斯分布的均值和方差。

让空间区域是一个潜在的集群和它的补充。在备择假设下,对应于一个高方差的集群,是来自与平等意味着混合高斯分布,但不同的差异: 在哪里与这相关的ML估计混合分布;也就是说, 这两个ML估计已经关闭表单。让分别表示的数量和平均标志和广场的标志的意思。下的ML估计是向量包含均值和方差(偏见)经验的标志在整个域。如附件所示,ML估计满足和是一立方的根源功能可以使用,例如,Cardano的方法(6]。零假设下的对数似和一个备择假设下这两种假设都减少之间的对数似然比下一步是只在这对数似然比的最大化潜在集群之前定义的集合。广义似然比(GLR)高方差扫描统计量和这个最大的潜在的集群, 被称为最可能的集群。

一旦扫描统计量计算,我需要评估其重要性。不幸的是,空的分布untractable是因为对数似比率之间的依赖:的确,对数似比率和与两个潜在的集群和是独立的前提。另一个解决方案,选择Kulldorff [4),将模拟随机数据集下的零假设。然而,通过随机选择这种方式,正确的α水平将不会保持如果是不真的来自正态分布。因此我决定运行使用的一种技术Kulldorff et al。5)被称为随机标签:一个模拟数据集随机获得的关联空间位置的标志。让表示数量的模拟数据集和让相关的观察扫描统计这些数据集:必须相比,这些模拟扫描数据扫描统计观察,根据Dwass[真正的数据集。7),基于蒙特卡洛扫描数据的价值是,在那里的排名是在样本。请注意,这价值是公正的,在零假设下,观察的概率值小于或等于正是。根据经典测试理论,最可能的集群如果相关的据说是重要的值小于第一类误差。

2.2。一个广义方差比扫描统计量

即使基于可能性扫描统计数据是广泛使用,Cucala [8)提出,在不同的情况下,另一个扫描统计显示更好的结果比基于似然比:功率略高,如检测小集群的能力。在这里我提出一个方法来构建一个高方差扫描统计量不依赖于似然比。

一个经典测试之间的差异是平等的而在,通常被称为以及,依赖的比率(公正)经验差异在哪里注意,因为的被认为是独立的,经验差异和也是独立的。此外,方差的高斯分布假设下,平等的标志和确保是,根据定义,费舍尔分布如前所述,Saporta [9]。让我来介绍一下高方差指数潜在的集群在哪里费舍尔表示累积分布函数与分布。如果方差相等的分布是均匀的和没有了依靠:这种方法称为概率积分变换(10]。此外,的值接近显示方差明显大于在吗。因此,广义方差比(GVR)扫描统计量

我评估的意义是完全类似的方法吗。

3所示。一个模拟研究

我决定运行一个模拟研究为了比较测试结果基于扫描数据之前,和。我生成人工数据集根据三个不同的模型。无论模型,地理位置是94年法国部门的位置。注意,与各部门相关的位置是其首都的位置。真正的集群中,调用在巴黎,是一组八个部门叫巴黎大区:在这个领域,标志的方差比其它地方大。在第一个模型中,用齐次高斯模型,相关的标志是独立和遵循一个高斯分布以同样的手段和不同的差异: 在第二个模型中,用指数模型,相关的标志是独立的和来自与不同速度参数指数分布的随机变量,,在那里这意味着都等于0。在第三个模型中,用异构高斯模型,相关的标志是独立和遵循一个高斯分布有不同的方式和不同的差异: 注意,对于每个模型,参数之间的比率是集群内的方差和方差在集群:我应该称之为集群强度。第三模型参数,这表示的差异意味着集群的集群内部和外部,称为意味着落后。

对于每个模型和集群的每个值强度,我生成模拟数据集。高方差扫描数据和计算,使用循环节中描述潜在的集群的设置吗2,他们的值估计的基础上排列。在这两种方法,最可能的集群如果相关的据说是重要的值小于。

当应用到这样的数据集展示一个真正的集群,扫描方法是有用的管理同时识别时,有一个重要的集群和尽可能精确地恢复真正的集群。因此,为了比较不同的扫描方法,我计算三种不同的标准。第一个是力量的方法,也就是说,数据集的比例表现出显著的集群。第二个是真阳性的平均数(TP)部门,即部门包括在最可能的集群和真正的集群。第三个是假阳性(FP)部门的平均数,即部门包括在最可能的集群但不是真正的集群。注意,TP的总和和FP的平均数是部门最可能的集群。表1与齐次高斯模型,给出了结果表2获得的结果与指数模型和表3与异构高斯模型获得的结果。


集群强度		以下的结果
集群强度

1.5	权力	0.080	0.118
	TP	0.567	0.741
	《外交政策》	3.702	3.590

2.0	权力	0.265	0.322
	TP	1.723	2.009
	《外交政策》	3.998	3.400

2.5	权力	0.528	0.553
	TP	3.492	3.500
	《外交政策》	2.844	2.118


集群强度		以下的结果
集群强度

1.5	权力	0.056	0.057
	TP	0.191	0.352
	《外交政策》	1.441	2.384

2.0	权力	0.070	0.071
	TP	0.349	0.472
	《外交政策》	1.806	2.195

2.5	权力	0.074	0.093
	TP	0.332	0.659
	《外交政策》	1.538	2.987


集群强度	意思是滞后		以下的结果
集群强度	意思是滞后

1.0	1.0	权力	0.082	0.075
		TP	0.612	0.504
		《外交政策》	5.499	3.480

1.5	1.0	权力	0.168	0.135
		TP	1.196	0.960
		《外交政策》	4.548	4.236

2.0	1.0	权力	0.390	0.345
		TP	2.597	2.317
		《外交政策》	4.822	4.712

2.5	1.0	权力	0.603	0.571
		TP	3.970	3.800
		《外交政策》	2.618	3.354

大胆的值在每个过程是最好的结果。正如所料,方法增加集群的力量强度。齐次高斯模型下,GVR方法总是比GLR更强大,无论集群强度。这些结果非常类似的通过Cucala [8)称,检测集群的计算数据,GLR并不总是最强大的方法。然而,尽管这些权力的结果相当满意的齐次高斯模型,他们很穷,是指数分布:即使方差倍的集群中,这两种方法都很难探测到。结果在表3还透露,即使这些扫描检测高方差的统计设计集群,都是敏感的差异意味着。事实上,集群强度不变的情况下,这两种方法的权力增加时意味着落后。最后,看着FP的结果,我也认为GLR方法往往表现出更大的比GVR显著的集群,从而导致更多的错误所展现出来的部门。

4所示。应用程序

4.1。应用程序的经济数据

多年以来,收入不平等的空间分析是许多经济学家的一个有趣的方案;例如,Shelnutt和姚11)调查了不同县的阿肯色州的收入不平等与经济增长互动,而Atems [12]分析了收入的基尼系数在3109年美国的县。其中,Deutsch et al。13)相比,犯罪的空间分布和经济不平等在美国,发现相关性。这些研究证实,知道精确的地理区域不平等更重要的是极大的兴趣。然而,这个搜索是通常用的方式。在本节中,我展示了高方差扫描方法引入之后可能是有用的对于这样一个目的。我将扫描的方法应用到一个法国研究所提供的经济数据集l 'Institut国家de la Statistique et des练习曲资本再生产14]。94年为每个部门在法国,2009年的平均收入计算和图1说明了结果。

这个数字明显表现出一群富裕的部门在法国的北部,在巴黎(其位置是由光广场),其意义已经被Cucala评估(15使用古典Gaussian-based扫描统计量)。然而,我们可能想知道是否有高方差集群,启发一个部门之间的不平等是重要的地区。要回答这个问题,我运用高方差扫描统计这个数据集,再次使用的圆形潜在集群中描述的部分2。相关的值也估计基于交换样品。最可能的集群由图给出2。注意,为了方便起见,我强调的集群这个数字不是圆形区域表现出的扫描方法,但是部门的设置的省会城市都包含在这些圆形区域。

(一)

(b)

最可能的GLR扫描统计量所展现出来的集群正是巴黎被称为巴黎周围地区。这并不奇怪,因为它包括7富有部门部门也叫做Seine-Saint-Denis是法国部门之一的收入要低得多。这个集群以来很重要值=:没有9999基于可能性扫描统计计算从交换样品比基于可能性从观察到的样本扫描统计量计算。集群通过GVR扫描统计展出有点不那么重要:它值=。它包含7部门在巴黎还6周边部门的收入要低得多。

4.2。应用残差分析

即使高方差扫描数据介绍了在空间环境中,它们也可以适应数据与一维位置,像high-mean扫描数据。这包括数据索引时间还沿着一个轴任何类型的数据索引。为了说明这一点,我高方差扫描方法应用于一组回归残差的框架。

我使用的数据集的结果在美国公立学校支出的调查:51观察的样本包括人均支出公立学校和人均收入为每一个州和哥伦比亚特区的1979年(16]。所推荐的格林(17),线性回归模型拟合解释支出:解释变量平方的收入和收入。古典的方式检查方差齐性的假设,也就是说,所有观测误差方差是常数,是studentized剩余工资的情节的分析与解释变量之一,或者拟合值。在图3,studentized残差绘制和收入。注意,由于模型的其他解释变量是平方收入,残差的情节与这解释变量或与拟合值会非常类似,因为订购的残差是完全相同的。

残差的方差是常数,除了收入的较大值。介绍了一些方法,以检查残差方差相等:Breusch-Pagan [18)测试和白色测试(19)都是强大的这样做,但他们没有提到的残差表现出更高的方差。高方差扫描方法的使用极大的兴趣获取这类信息。

让表示studentized残差,命令等对应于观察收入按升序。对于任何一维集群检测方法,潜在的集群是所有组的观测,。这里,因为需要估计的方差是内部和外部潜在的集群中,包含一个观察(间隔)或观察()被排除在外。我计算高方差扫描统计这些数据。最可能的集群的对应的四个去年剩余工资,实线在图3。最可能的集群的只包含两个最后的残差,从图中虚线3。这匹配仿真研究的结论:在这个特定的数据集,最可能的集群基于可能性展出的扫描统计量小于展出的方差比扫描统计量。基于交换样本,他们值分别和:这显然表明,回归模型是无效的,当收入克服一定水平。注意,Breusch-Pagan测试和白色的测试给了相同的结论。

5。讨论

扫描数据介绍了允许一个标记点过程中检测高方差集群没有任何参数设置。根据仿真研究,GVR扫描统计量是更强大的比GLR反对任何均匀聚类选择:这个结果证实了GLR扫描统计数据并不总是最有效,即使标志的分布是已知的。似乎也,如回归残差分析,GLR扫描统计量几乎没有检测到集群包含很少的观察。注意,GLR扫描方法比较比率的可能性,在零假设下,不是均匀分布的,但才渐近趋于无穷时,如上所述,威尔(20.]。另一方面,GVR扫描方法比较的零假设下是均匀分布的。因此,我应该建议使用GVR扫描统计量而不是GLR。

节4,我给了两个真实的例子通过高方差扫描统计数据分析:寻找热点不平等在经济数据和回归残差方差齐性检验过程。在第一个示例中,扫描数据明确显示显著高方差集群,这并不奇怪,但也恰恰表明社会项目应该专注于以减少不平等。还请注意,细分析可以使用在每个城市平均收入,而不是每个部门。在第二个例子中,一个新的可能性是由高方差扫描方法分析回归残差:他们导致拒绝同方差性假说和关注的人似乎nonvalid的线性回归模型。我提到,另一个应用程序可能是年降雨量等气象时间序列的分析记录在一个特定的车站。事实上,高方差扫描测试可以确定降雨的振幅增加在过去的几十年里,由于全球变暖,在某些地区,导致更高的频率非常干燥和潮湿的年。

GVR扫描统计我介绍最著名的测试是基于差异的平等以及。然而,许多其他的测试都有相同的目的,如前所述,加特(21]。例如,扫描数据来源于平方等级测试引入的科诺菲尔(22)可以设置,类似于Mann-Whitney扫描统计high-mean集群定义为Cucala [23]。它可能更适合的标志不是高斯分布。

随机化过程用来估计高方差的意义扫描统计是最基本的,也就是说,随机的标签。我关注这个过程,因为它是唯一的错误仍然等于不管底层数据的分布。由于GVR扫描统计本身也是传播变为免费,这个选择听起来自然。然而,如果标签空间autocorrelated,这可能会导致高估发现集群的重要性。注意同样的问题与其他基于GLR扫描统计意义时估计通过蒙特卡洛模拟。如前所述,海宁(24),限制随机化程序考虑这空间自相关通常用于全球如里普利的集群测试和推导方法。另一方面,为当地集群检测测试扫描等统计数据,这种方法不太频繁,除了几篇文章包括Loh和朱(25和Zhang et al。26]。因为他们介绍的方法是设计用于high-mean集群检测,它可能是有趣的来适应高方差集群检测:这可能是未来工作的主题。

在过去的几年里,有越来越多的文件处理时空集群检测,如祝et al。27]。应该注意的是,高方差扫描统计数据也可以被应用到时空数据使用由Demattei引入时空距离和Cucala [28]。

在这工作我只专注于最有可能的集群,但是检测提出的二级集群使用方法简单Zhang et al。29日]:一旦发现一个重要的集群,删除的数据包括在集群并重新启动分析。

最后,我应该强调,高方差扫描测试可以调整任何连续协变量调整提出的克拉森et al。30.),如一个潜在的人口的年龄。这可能是由建模的回归函数是根据协变量调整后,然后分析相应的残差。

附录

计算下的ML估计替代假说

下的ML估计的值是最大化对数似当是固定的,值吗最大化是相同的结果适用于。因此,插入这些表达式在对数似函数中,的值是最大化的函数这个函数的导数在哪里 Cardano后的方法(6),这个立方函数的三个根源可以计算。因此,要么是唯一真正的根(如果两人是复杂的)或一个函数的三根是最大化(如果三根是真实的)。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

j . nautica集群随机分线和飞机[博士。论文)美国罗格斯大学新布伦瑞克,新泽西州,1963。
j . Glaz j . nautica,华伦斯坦,扫描数据施普林格,纽约,纽约,美国,2001年。视图:出版商的网站|MathSciNet
n . Cressie”的一些性质圆和线扫描统计量,”《应用概率,14卷,不。2、272 - 283年,1977页。视图:出版商的网站|谷歌学术搜索|MathSciNet
m . Kulldorff“空间扫描统计量”,通信数据。理论和方法,26卷,不。6,1481 - 1496年,1997页。视图:出版商的网站|谷歌学术搜索|MathSciNet
黄m . Kulldorff l . k . Konty,“扫描统计量连续数据基于正态概率模型,”国际健康地理杂志》上第五十八条,卷。8日,2009年。视图:出版商的网站|谷歌学术搜索
n .雅各布森基本的代数,2009年多佛。
m . Dwass”修改为非参数随机化测试假说,”《数理统计28卷,第187 - 181页,1957年。视图:出版商的网站|谷歌学术搜索|MathSciNet
l . Cucala“hypothesis-free多个扫描统计变量窗口,“生物统计学杂志》,50卷,不。2、299 - 310年,2008页。视图:出版商的网站|谷歌学术搜索|MathSciNet
g . Saporta概率,分析des数据等Statistique,德,巴黎,法国,2011年。
y躲避,牛津字典的统计术语,牛津大学出版社,2003年。视图:MathSciNet
j . Shelnutt诉姚明,“收入不平等在阿肯色州的空间分析县级:证据从税收和交通数据,”区域经济发展,卷1,52 - 65年,2005页。视图:谷歌学术搜索
b . Atems”,注意在微分地区收入不平等的影响:使用美国县级数据经验证据,”区域科学杂志》,53卷,不。4、656 - 671年,2013页。视图:出版商的网站|谷歌学术搜索
j·多伊奇,明镜,j . Templeman“犯罪和收入不平等:一个经济的方法,”大西洋经济杂志,20卷,不。4,46 - 54岁,1992页。视图:出版商的网站|谷歌学术搜索
国家研究所de la Statistique et des练习曲资本再生产,http://www.insee.fr/。
l . Cucala”传播变为免费空间扫描统计量为标记点的过程,”空间统计,10卷,第125 - 117页,2014年。视图:出版商的网站|谷歌学术搜索|MathSciNet
美国商务部,美国统计文摘美国政府印刷局,华盛顿,美国,1979年。
w•格林计量经济学分析麦克米伦出版公司,纽约,纽约,美国,第二版,1993年版。
t . s . Breusch和A。r .异教徒”,一个简单的测试对异方差性和随机系数变化,“费雪卷,47号5,1287 - 1294年,1979页。视图:出版商的网站|谷歌学术搜索|MathSciNet
h .白色,“heteroskedasticity-consistent协方差矩阵估计量和异方差性的直接测试,”费雪,48卷,不。4、817 - 838年,1980页。视图:出版商的网站|谷歌学术搜索|MathSciNet
威尔克斯,”的大样本分布的似然比检测复合假说,”数理统计年鉴中,9卷,不。1、60 - 62、1938页。视图:出版商的网站|谷歌学术搜索
p·s·加特”的研究方法,比较几种方差,”美国统计协会杂志》上,卷67,不。338年,第346 - 342页,1972年。视图:出版商的网站|谷歌学术搜索
w·科诺菲尔实际的非参数统计威利,纽约,纽约,美国,1980年。
l . Cucala“Mann-Whitney扫描连续数据,统计”通信数据。理论和方法在出版社。视图:谷歌学术搜索
r·海宁空间数据分析:理论和实践》,剑桥大学出版社,2003年。视图:出版商的网站
j . m . Loh和z朱会计扫描数据的空间相关性,”应用统计学的史册,1卷,不。2、560 - 584年,2007页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学|MathSciNet
t·张,张z和g .林”与overdispersion空间扫描统计”,医学统计没有,卷。31日。8,762 - 774年,2012页。视图:出版商的网站|谷歌学术搜索|MathSciNet
肯尼迪。祝您:小花,f . Mauny”空间和时空扫描统计检测低性别比例的集群,”环境和生态的统计数据,12卷,不。3、289 - 299年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
c . Demattei和l . Cucala”多个时空集群检测案例事件数据:一个ordering-based方法,”通信数据。理论和方法,40卷,不。2、358 - 372年,2011页。视图:出版商的网站|谷歌学术搜索|MathSciNet
>,m . Kulldorff和r . Assuncao“空间扫描统计调整多个集群,”概率论与数理统计》杂志上ID 642379条,卷。2010年,11页,2010年。视图:出版商的网站|谷歌学术搜索
a·c·克拉森,m . Kulldorff和f . Curriero“地理集群在诊断前列腺癌的品位和阶段,前后调整风险因素,”国际健康地理杂志》上第一条,卷。4日,2005年。视图:出版商的网站|谷歌学术搜索

概率论与数理统计》杂志上

文摘

1。介绍

2。两个高方差扫描数据

2.1。广义似然比扫描统计量

2.2。一个广义方差比扫描统计量

3所示。一个模拟研究

4所示。应用程序

4.1。应用程序的经济数据

4.2。应用残差分析

5。讨论

附录

计算下的ML估计替代假说

利益冲突

引用

版权

相关文章

概率论与数理统计》杂志上

扫描检测高方差的统计数据集群

文摘

1。介绍

2。两个高方差扫描数据

2.1。广义似然比扫描统计量

2.2。一个广义方差比扫描统计量

3所示。一个模拟研究

4所示。应用程序

4.1。应用程序的经济数据

4.2。应用残差分析

5。讨论

附录

计算下的ML估计替代假说

利益冲突

引用

版权

更多相关文章

相关文章