AHEP 高能物理的发展 1687 - 7365 1687 - 7357 Hindawi出版公司 162986年 10.1155 / 2013/162986 162986年 研究文章 非参数峰值查找算法及其在寻找新的物理学中的应用 Chekanov s V。 1 埃里克森 M。 1、2 Bektasoglu 穆罕默德 1 消息灵通的部门 阿贡国家实验室 美国卡斯大街9700号 阿贡 伊尔60439 美国 anl.gov 2 物理系 新泽西的大学 彭宁顿路2000号 尤因,新泽西州08628 - 0718 美国 tcnj.edu 2013年 29日 12 2013年 2013年 13 09年 2013年 06 12 2013年 2013年 版权©2013美国诉Chekanov和m·埃里克森。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

我们已经开发出一种算法的非参数拟合和提取显著峰值统计和系统不确定性的存在。应用该算法对高能碰撞数据的分析进行了讨论。特别是,我们说明了如何使用该算法一般搜索不变质量光谱使用的新物理 p p 蒙特卡罗模拟。

1。介绍

寻找峰值在粒子谱是一个任务变得越来越流行在大型强子对撞机,关注新物理学TeV-scale之外。撞搜索可以在单粒子(如被执行 p T 分布)或不变质量光谱。例如,搜索新粒子衰变成一个双体最终状态(jet-jet、伽马伽马等)和多体衰变通常通过检查不变的质量最终状态对象(飞机、轻子失踪的横向动量,等等)。例如,假设七确定粒子(飞机、光子、电子、μ介子τ, Z 玻色子,失踪 p T ),搜索可以为父粒子衰变成2、3或4女儿粒子。这导致322独特的女儿组。因此,分析这样的不变质量组合的任务就变得相当繁琐,很难处理。考虑一个“盲人”分析技术扫描很多频道( 1),任何减少变异增加渠道的数量需要调查。最后,类似的挑战存在自动搜索新强子共振结合跟踪( 2]。

发现肿块是最终的任务相关的任务确定一个正确的背景使用理论或已知的横截面形状。然而,一个理论可以在感兴趣的区域,而不确定,难以用于背景模拟,或完全不存在的。即使是一个简单的jet-jet不变的质量,找到一个分析背景函数符合QCD-driven背景横跨许多订单大小和可用于提取可能超过事件由于新物理学需要仔细检查。试图讨论了适合双喷嘴和喷嘴不变的群众在CMS ( 3, 4)和阿特拉斯( 5]论文;虽然实验达到必要的精度等适合使用初始低统计数据,用于分析功能,而不同,有许多自由参数。这个任务变得更加困难考虑多个通道(不变质量分布)和各种削减或detector-selection标准(如 b 标签)。每一个这样的频道需要仔细选择的分析功能背景适应和调整的初始值收敛的非线性回归而确定一个期待地平稳背景形状。一个完全自动化的方法来寻找新的物理讨论其他地方( 6]。

一个技术上有吸引力的方法是找到一种非参数方法来提取显著峰值 先天的假设背景形状。这样的方法在许多地区很受欢迎,从图像处理的研究金融市场,一个典型的峰鉴别任务是减少数据平滑,以创建一个函数,近似的背景。可以通过使用平滑移动平均线( 7),洛斯( 8),和样条函数 9)算法。统计上显著偏离平滑分布可以认为是山峰。这样的峰值提取技术肯定是足够的,但它不追求的目标峰鉴别正确治疗的统计(或系统)的不确定性。以后可以是不对称的。

最接近peak-search方法为研究高能物理的应用程序开发 γ 光光谱通常感兴趣的特性在哪里photo-peaks的能量和强度。一些技术已经开发出来,如那些基于最小二乘( 10与最小二乘拟合[],第二个差异 11),傅里叶变换( 12,马尔可夫链 13),和卷积 14),(只命名一些)。尽管这种方法非常适合计数方式可见,他们通常专注于狭窄的小山峰上,常常flat-shaped背景。

例如,根分析框架( 15包含TS)用于高能物理 pectrum包基于平滑方法开发 γ 光光谱( 14]。后者通常有狭窄的山峰在光滑的背景。这个算法是高效的找到感染高峰,而宽峰的检测需要一个视觉检查数据来调整一些自由参数的工具。因此这种方法并不适合一个完全自动的峰值搜索。此外,系统不确定性数据点不容易把这种方法。

在高能碰撞,一个典型的标准模型背景分布下降形状生成许多数量级的事件数量。一个典型的例子是jet-jet不变的质量(用于新粒子搜索 3, 5]。等光谱,最有趣的地区的反面是指数增长新高——抑制分布 p T 物理可能出现。这意味着应该有相当不同的阈值统计噪声,根据相空间区域,因此,一个正确的治疗统计和系统的不确定性是必修课。不像 γ 光光谱峰值在哪里,而常见的各种分类技术和主题,在高能碰撞达到顶峰是相当罕见的。因此,相对较少的进展发展高能物理的非参数拟合技术应用的观察高峰通常是寻找新的物理主题而不是peak-classification目的。

上述讨论导致需要背景估计的非参数方法的峰值提取机制,可以适合高能碰撞分布,如质量不变。算法应该能够考虑输入分布的离散特性与他们的不确定性。该算法不太模糊平滑方法相比(例如,用于根( 14, 15),因为它只使用一个免费的参数。此外,它可以考虑系统的不确定性数据点(不对称),从而可以估计可能的山峰的存在统计学意义系统的不确定性。

2。非参数峰值查找算法

由于上述原因,项目叫做非参数仪峰值(NPFinder)是使用一个数值,开发迭代方法来检测事件计数分布的统计上显著的山峰。简而言之,NPFinder遍历输入直方图和垃圾箱,只使用一个敏感性参数,确定可能的峰值位置和统计学意义。与已知的平滑算法,该方法的重点不是如何平滑数据,然后提取山峰,而是如何提取峰值通过比较相邻点,然后调用遗留“是什么背景。“下面我们讨论该算法的主要元素,然后说明并讨论其局限性和可能的改进。

对于每个点 在直方图中,一阶导数 α 发现考虑可能的(统计或/和系统)的不确定性。这是通过计算两个点之间的斜率包括实验的不确定性:如果点 + 1 低于点 上面的错误使用,而如果点 + 1 比点 ,则使用低误差的不确定性。这样做是为了永远在一个保守的身边,同时减少统计噪音。在数学上,这可以写成 (1) α = y + 1 + δ y + 1 - - - - - - y x + 1 - - - - - - x , 的不确定性 δ y + 1 是用负号 y + 1 > y 和积极的迹象。不确定性可能不需要对称的,但为了简单起见我们假设他们是对称的,这通常是统计性质的不确定性。衍生品是平均计算平均为任何给定的运行位置 N : (2) α - - - - - - N = 1 N = 0 N α 算法触发的开始如果当地衍生品满足峰值 (3) δ α N + 1 = α N + 1 - - - - - - α - - - - - - N > Δ , δ α N + 2 = α N + 2 - - - - - - α - - - - - - N > Δ , 在哪里 Δ 是一个免费的积极的参数,反映了峰值(未知)的斜率。这个参数应该发现经验,我们将在下面讨论其价值的可能范围。当上述条件为真时,NPFinder寄存器可能峰值并开始分类下点的峰值。正在运行的平均方程( 2)不是累积的分属于可能的高峰。 Δ 是唯一的自由参数,指定了敏感性山顶发现。这个参数应该减少与增加的敏感性的山峰(和可能会增加对统计波动)。

NPFinder继续走过去数据点到 δ α N + 1 δ α N + 2 都是负的,意味着最大的峰值。双条件( 3)用于加强peak-search鲁棒性。当这个条件满足,NPFinder退出并添加同等数量的峰值点峰中心的右边。有相同数量的点的需求意味着高峰预计将是对称的,这是最常见的情况。急剧下降的分布,如transverse-momenta光谱或特约质量分布,这个假设通常意味着我们有点低估了峰值的意义。图 1说明了NPFinder算法不变质量下降分布。每个点的分布可以上下统计(或系统)的不确定性。

NPFinder图解积分法的算法。每个数据点的特征是一个坐标 ( x , y ) (可选),上部和下部的不确定性 y 值。看到( 1山坡上的定义 α

检测所有峰候选人后,NPFinder遍历列表可能的山峰为了每个峰形成的背景。这是通过执行一个线性回归点之间的第一个和最后一个点的峰值,即应用功能 y = x + b ,在那里 b 的斜率和截距是线性回归,在本例中是微不足道的,因为它是通过执行两个点。应该注意的是,线性回归也考虑执行的不确定性: (4) = ( y 2 + δ y 2 ) - - - - - - ( y 1 + δ y 1 ) x 2 - - - - - - x 1 , 在哪里 y 1 是第一个峰值点, y 2 是高峰的最后一点, δ y 1 δ y 2 分别是他们的统计不确定性。在这里添加统计不确定性为了永远保守估计的背景下的峰值水平。然后拦截参数 b = y 1 + δ y 1 - - - - - - x 1

应该是上面提到的技术高峰发现认为有点类似的讨论 γ 射线的应用程序( 11]。但有几个重要的差异NPFinder相比,该算法:NPFinder不仅可以检测任意形状的山峰(高斯峰的( 11]),没有使用合适的或平滑过程,统计和系统不确定性的数据点都包含在peak-finding过程。该算法( 11]以来没有测试源代码不公开。

最后,NPFinder使用背景点来计算每个峰值在给定的直方图的统计显著性。这是通过总结差异 r 原始点的峰值相对于背景点,然后计算这个值除以自己的平方根。对于给定的高峰,它可以近似 (5) σ = r r , 运行在所有点的峰值。算法运行在一个输入直方图或图,构建一系列的山峰,估计他们的统计学意义。一个典型的方法有统计上显著的峰 σ > 5 - - - - - - 7 。第一个峰值通常被忽略,因为它对应于运动背景分布的峰值。

下面我们举例说明上述方法通过生成完全包容 p p 使用皮提亚生成器(碰撞事件 16]。集成所需的亮度是200 pb−1。飞机与反重建 k T 算法( 17)使用切割距离参数为0.6 p T > One hundred. GeV。然后,特约不变质量分布计算和应用NPFinder仪使用参数 Δ = 1 。正如所料,没有山峰 σ > 5 被发现。

接下来,几假峰使用高斯分布和生成不同的峰值位置和宽度。山峰被添加到原始背景直方图。图 2显示了一个示例3峰在1000 GeV生成(20 GeV宽度,200000事件),1500 GeV (50 GeV宽度,30000事件),和2800 GeV (40 GeV宽度,1200事件)。算法发现所有三个山峰,给正确的估计,宽度,并使用输入参数近似统计显著性 Δ = 1

不变的两架飞机的质量与皮提亚蒙特卡罗模型生成。几个山峰中看到这个数字增加了使用高斯分布和不同的宽度和峰值值(参见文本)。山峰被发现使用NPFinder算法还估计他们的统计显著性值作为讨论的文本。

比较,相同的分布是用来测试TS pectrum根项目的方案讨论的介绍。发现TS pectrum也可以发现这样的高峰,但几次迭代的视觉检查数据需要调整该算法的自由参数, σ (峰值搜索的有效σ),预期的振幅峰值。在第一次TS pectrum通过,一个额外的分析符合要求来确定每个峰的统计学意义。这种方法被发现很难实现完全自动峰值搜索。

应该注意,拟议中的非参数方法的峰值统计学意义可能小于计算使用更传统的方法,如基于 χ 2 最小化以适当的背景和信号功能。这可能是由于假设的对称形式提取的山峰,山峰下的线性近似的背景,和不确定性的方式纳入peak-significance计算。一个实验性的分辨率也可以是一个问题的影响( 18),只能通过正确识别信号和背景处理功能。这样的缺点是特别好见过最高的质量峰图所示 2在右边的统计涨落峰把背景水平比预期下降的形状。鉴于近似自然的统计学意义的计算只会引发关注的分析需要更详细地研究发现山峰,算法的性能是合理的。

应该注意的是,有一个峰值宽度和输入参数之间的相关性 Δ :广泛的检测峰值通常需要一个更小的值 Δ (可低至0.2)。

总之,峰值检测算法开发了可用于提取显著峰值在考虑事件计数分布统计(和潜在的系统)的不确定性。物理方法可用于新搜索在高能粒子实验正确治疗的不确定性是最重要的问题之一。非参数峰值查找器只有一个自由参数相当独立的输入背景分布。该算法进行了测试,发现表现良好。Python编程语言的代码实现的图形输出使用根(c++) [ 15]或SCaVis (Java) [ 19]。可供下载的示例代码( 20.]。

确认

作者要感谢j . Proudfoot讨论和评论。提交的论文已经由UChicago贡,LLC运营商阿贡国家实验室(阿贡)。美国能源部科学办公室阿贡实验室操作号合同下。DE-AC02-06CH11357。

Choudalakis G。 模型独立寻找新的物理学tevatron[博士。论文) 2008年 http://arxiv.org/abs/0805.3954 Chekanov 年代。 一个c++框架自动搜索和识别的共鸣 《赫拉和大型强子对撞机:LHC物理研讨会赫拉的含义,B部分 2005年 624年 desyproc cern - 2005 - 014 - 2005 - 01 Khachatryan V。 Sirunyan a . M。 Tumasyan 一个。 寻找特约7 TeV的共鸣在CMS碰撞 物理评论快报 2010年 105年 21 14 211801年 10.1103 / PhysRevLett.105.211801 Chatrchyan 年代。 Khachatryan V。 Sirunyan a . M。 寻找喷嘴共振碰撞在 年代 = 7 TeV 物理评论快报 2011年 107年 10 15 101801年 10.1103 / PhysRevLett.107.101801 油气地质 G。 阿伯特 B。 阿卜杜拉 J。 寻找新物理特约质量和角分布在pp碰撞 年代 = 7 TeV ATLAS探测器测量 新物理学杂志 2011年 13 5 053044年 10.1088 / 1367 - 2630/13/5/053044 Aaltonen T。 阿德尔曼 J。 Akimoto T。 全球寻找新物理2.0 fb−1在提供 物理评论D 2009年 79年 1 9 011101 (R) 10.1103 / PhysRevD.79.011101 肯尼 大肠。 数学统计 1962年 3日 第1部分 克利夫兰 w·S。 健壮的局部加权回归和平滑散点图 美国统计协会杂志》上 1979年 74年 368年 829年 836年 MR556476 10.1080 / 01621459.1979.10481038 ZBL0423.62029 勋伯格 J。 贡献的问题近似等距数据分析功能,A和B部分 季度的应用数学 1946年 4 45 - 99,112 141年 f·c·P。 奥斯曼 c . H。 俄斐勒 t·R。 线形光谱分析获得与通用电气(李)探测器 核仪器及方法 1969年 68年 1 141年 148年 2 - s2.0 - 49849120030 Mariscotti M。 峰的自动识别方法存在的背景及其频谱分析中的应用 核仪器及方法 1967年 50 2 309年 320年 10.1016 / 0029 - 554 x (67) 90058 - 4 Blinowska k·J。 Wessner e . F。 在线光谱的方法评估通过一个小的电脑使用傅里叶变换 核仪器及方法 1974年 118年 2 597年 604年 2 - s2.0 - 34250780214 Silagadze z K。 自动光峰搜索的新算法 核仪器和方法在物理学研究 1996年 376年 3 451年 454年 10.1016 / 0168 - 9002 (96)00230 - 6 Morhač M。 Kliman J。 Matoušek V。 Veselsky M。 Turzo 我。 识别的山峰多维巧合 γ光光谱 核仪器和方法在物理学研究 2000年 443年 1 108年 125年 10.1016 / s0168 - 9002 (99) 01005 - 0 Antcheva 我。 Ballintijn M。 Bellenot B。 根c++框架拍字节数据存储、统计分析和可视化 计算机物理通信 2009年 180年 12 2499年 2512年 10.1016 / j.cpc.2009.08.005 Sjostrand T。 Mrenna 年代。 Skands p . Z。 皮提亚6.4物理和手册 高能物理学杂志》上 2006年 2006年 5日,第二十六条 10.1088 / 1126 - 6708/2006/05/026 Cacciari M。 萨拉姆 g . P。 Soyez G。 kt飞机聚类算法 高能物理学杂志》上 2008年 2008年 4、第63条 10.1088 / 1126 - 6708/2008/04/063 Chekanov s V。 Levchenko B . B。 实验的影响分辨率的统计学意义信号:暗示pentaquark搜索 物理评论D 2007年 76年 7 7 074025年 10.1103 / PhysRevD.76.074025 Chekanov 年代。 科学数据分析使用Jython脚本和Java 2010年 英国伦敦 施普林格 http://jwork.org/scavis/ 埃里克森 M。 Chekanov 年代。 非参数峰值查找算法 http://atlaswww.hep.anl.gov/asc/packages/NPFinder/