文摘
地震事件的歧视和核爆炸是一个复杂的非线性系统。非线性方法包括随机森林(RF),支持向量机(SVM)和朴素贝叶斯分类器(NBC)应用于判别地震事件。二十地震和27爆炸9比率的能量中包含预先确定的“速度”窗口,用于鉴别器计算距离。基于一个交叉验证,ROC曲线,计算准确性的训练和测试样本,射频识别性能,支持向量机,NBC进行了讨论和比较。射频方法的结果清楚地显示了最好的预测力最大的中华民国在射频下面积0.975,支持向量机,NBC。射频的判别精度、支持向量机和NBC测试样本是92.86%,85.71%,和92.86%,分别。已经证明了RF模型不仅可以自动识别地震精度高,但也可以根据计算的权重值判别指标。
1。介绍
震源位置和标识的问题是两个最重要的和基本的问题在地震监测中,微地震监测、活跃的构造分析,评估地震灾害(1- - - - - -4]。
地震分析师识别地震信号的爆炸或爆炸地震记录的目视检查,通过计算一些特征。记录采石场爆炸或者核爆炸可以误导科学家解释活跃的构造,导致错误的结果分析该地区的地震灾害;事件分类的任务是地震信号处理中重要的一步。这样的任务分析数据,以找到每个记录事件属于哪个阶级。
这样的工作假设地震分析的大量的工作量。因此,一个自动分类的工具是必要的开发大大减少这个艰巨的任务,把可靠的分类,以及删除错误与乏味的评估和人员上的变化。
最歧视方法是专为特定的来源地区和特定记录站从震中的距离5]。其中一些严重依赖的异质性的地壳在某种意义上,他们可能是有效的只有对于一个给定的地区。
广泛使用的方法来鉴别器包括模拟爆炸光谱为了预测光谱细节表明爆炸,而不是地震或单事件爆炸(6,7];检查挤压和横波比率(振幅和光谱)之间的所有类型的爆炸和地震,为了应用的基本物理结论爆炸激发比地震纵波与横波(8- - - - - -11];高频S-to-P比率差异所有类型的爆炸和地震(12- - - - - -14];分析观察到光谱ripple-fired爆炸,瞬间爆炸、地震和对比长期有效的调节,路径独立调节,光谱比率,光谱的斜坡,谱最大值和最小值15- - - - - -17];并检查各种波的能量比率的差异量windows (18,19]。
然而,大多数上面开发的方法是基于单一指数或线性判别方法。和方法似乎未能捕获不连续,非线性和高复杂性的波系列。
随机森林(RFs)、支持向量机(svm)和朴素贝叶斯分类器(NBC)提供足够的学习能力,更容易捕捉复杂的非线性模型,广泛应用于自然科学领域,包括医学、农业、和土工技术。
到目前为止,据我们所知,RFs和svm用于地震分类。RFs的性能,支持向量机,NBC在这种类型的应用程序还没有彻底的比较。
在现在的工作中,射频、支持向量机和NBC是用于区分地震和核爆炸。和基于交叉验证,ROC曲线和测试精度,识别性能进行了讨论和比较。
2。材料和方法
2.1。材料
测量或参数包括比率的“高能量”包含在预先确定的“速度”窗口震动图(18]。速度的选择窗口指导的假设震源机制是延长时间和空间和能量生成一个更大的部分横波相比爆炸源机制。
不同的一波又一波的“速度”窗口列出如下:(我) :首先到达4.6公里/秒;(2) :到达4.6到2.5公里/秒;(3) :首先到达4.9公里/秒;(iv) :到达4.9到2.0公里/秒;(v) :到达6.2到4.9公里/秒;(vi) :到达4.9到3.6公里/秒;(七) :到达3.6到3.2公里/秒;(八) :到达3.2到2.8公里/秒;和(第九) :2.8到2.5公里/秒。
因素,包括比率,,,,,,,,以及平均距离,表示为比1,比2,比3,比4,比5,比6,比7,比8,比9,比10,广告,分别。
9比率的能量包括在一定速度windows已经计算了二十27核爆炸地震和布克和Mitronovas [18]。震动图都是由船帆座记录统一LRSM网络短周期贝尼奥夫仪器(18]。比1,比2,比3,比4,比5,比6,比7,比8,比9,广告被选为判别指标。分数标准化变量用于这项工作。首先,意思是减去价值的每种情况下,导致平均为零。然后,个人得分之间的差异和意思是除以标准差,从而导致一个标准差。如果我们从一个变量并生成一个变量,这个过程
在哪里的意思是和的标准偏差。分数的比例和距离地震和核地震被列在表中1和2,分别。
箱线图绘制在图的能量比和距离数据1和2,分别。每组都被表示为一个盒子的顶部和底部是低级和高级质量,小广场中间。因此,盒子包含中间一半的分数分布。垂直的线框外扩展到最大的和最小的观察在1.5四分位范围。我们得出这样的结论:比1,比2,比3,比4,比5,比6,比7,比8,比9,比10,广告地震和核地震是显然不同的。等它是合理选择十个因素判别指标。
2.2。方法
第一个70%地震和核地震数据集用于建立判别模型和其他30%的数据集被用来测试模型。
2.2.1。随机森林的概述
随机森林(RF), metalearner由许多单独的树木,在1995年首次由锡锦Ho,后来在2001年提高了Breiman。发达在大型数据集快速操作,通过使用随机样本构建多样化的每棵树在森林里。每棵树的值取决于一个随机向量独立采样和分布相同的树在森林里。森林的树分类器的泛化误差取决于个人的力量的树在森林里和它们之间的相关性20.]。全面审查的应用程序提供的随机森林已经Rodriguez-Galiano et al ., (21),Granitto et al。22),膝et al。23]。同时,许多研究相比其他的性能在不同的数据挖掘技术和随机森林问题[23- - - - - -26]。射频理论总结如下(20.]。
随机森林是一个树状结构分类器组成的分类器集合,那里的是独立同分布随机向量,每棵树投下一个单位在输入投票选出最受欢迎的课吗(18]。
给定一个分类器和训练集的随机分布的随机向量,利润函数定义为 在哪里指标函数。保证金的措施的程度的平均数量的选票正确的类超过任何其他类的平均投票。幅度越大,分类更有信心。泛化误差是由 其中下标表明的概率是空间。在随机森林,。大量的树木,它遵循强大数定律和下面的树结构。
随着树的数量增加,几乎可以肯定所有序列收敛于
随机森林的边缘函数 和分类器的集合的力量是 假设,Chebychev不等式 更暴露的方差的表达式推导出在以下。让 所以
原始的利润函数 因此,的期望是关于。对于任何函数的身份 持有,是独立的具有相同的分布,暗示 使用(12)给 在哪里之间的相关性和持有固定的,的标准偏差持有固定的。然后, 在哪里相关的平均值;也就是说, 写
在这项工作中,射频识别模型建立与自然地震地震和核之间的最优5000元树和8个变量骑。开发了射频模型,计算的加权值比1,比2,比3,比4,比5,比6,比7,比8,比9,广告1.2713,0.1034,0.0759,0.3093,0.3432,0.1782,0.2536,0.0943,0.2463,和0.1512,分别。
2.2.2。支持向量机算法
最初的支持向量机算法是弗拉基米尔·n·Vapnik和发明的当前标准的化身(软保证金)是1995年科尔特斯和Vapnik提出的(27]。
SVM模型最初是为线性可分的分类定义类的对象。对于任何原始分离的两对象集SVM能够找到最优超平面,将提供更大的两个超平面之间的边缘区域。此外他们还可以用于单独的类,是不可分割的一个线性分类器。
预计每个对象的特征空间是一个高维空间中可以分离两类线性分类器。支持向量机的有效性取决于选择的内核,内核的参数,和软边缘参数。
在目前的工作我们使用径向基函数(RBF)作为支持向量机的核函数模型,因为它的效率提供很高的性能分类结果。最优RBF参数和伽马是9和0.6,分别,让模型并不适合。
2.2.3。朴素贝叶斯面前
朴素贝叶斯面前产生一个非常有效的概率估计基于一个简单的结构,需要少量的训练数据来估计分类所需的参数。它的建设依赖于两个主要假设:独立性的特点和没有隐藏的或潜在的属性。
朴素贝叶斯的一个优势是,它只需要少量的训练数据来估计参数(均值和方差的变量)分类的必要条件。因为独立变量是假定,只有差异变量为每个类的需要决定的,而不是整个协方差矩阵。
NBC的目的,与其他分类器,是分配一个对象一组离散的类别之一根据其可观测的属性。全国广播公司计算的概率属于每个类别,空调在观察到的属性;通常是分配给最大的类别概率。这种分类器是天真的,它使得强大的属性是相互条件独立假设;的条件概率属于一个特定类的一些属性的值是独立的所有其他属性的值。尽管如此不切实际的假设,实证研究证明这种假设不需要显著影响预测的准确性,和nbc被用于各种各样的应用程序,包括文档分类(28),医学诊断(29日,30.),系统性能管理(31日],岩爆的可能性分类[32),和其他领域。多明戈和Pazzani33]证明最优的NBC在一定条件下,即使条件独立性假设是违反了。
摘要天然地震和核的先验概率地震计算根据数据的大小。地震和核地震的先验概率是0.424和0.576,分别。
地震和核的区分功能 如果,地震记录,否则一个核事件。
2.2.4。分类性能
中华民国是一个图形化情节说明了二元分类器的性能系统作为其歧视阈值是不同的34]。它是由策划真阳性的分数的阳性(TPR = true积极率)与假阳性的阴性的分数(玻璃钢=假阳性),在不同的阈值设置。
可能ROC分析提供了工具来选择最优模型和抛弃理想的独立于上下文或成本(和之前指定)类分布。ROC分析相关的直接的、自然的方式诊断决策的成本/收益分析。
在这项研究中,地震和核爆炸视为两种预测问题(二进制分类),结果被标记为正(、事件)或负面(爆炸)。从二元分类器有四种可能的结果。如果预测的结果也和实际价值,那么它被称为真阳性(TP);然而,如果实际的值然后据说是假阳性(FP)。相反,一个真正的负面(TN)发生在预测结果和实际值和假阴性(FN)预测的结果是,而实际价值。
一个实验从积极和例如,负面的定义。四个结果可以制定一个2×2列联表或混淆矩阵,如下表3。
特异性或真阴性率(TNR)被定义为地震记录的百分比是正确确定为爆炸: 1-specificity数量是假阳性率(玻璃钢)和地震记录的比例是错误的认为是爆炸。灵敏度或真阳性率(TPR)被定义为地震记录的百分比是正确识别作为事件: 准确性(ACC)可以表示为
3所示。结果和讨论
回测分类训练样本建立计算模型。射频的回测精度、支持向量机和NBC是100%,100%,和96.97%的训练样本,分别。一个交叉验证方法被用来验证方法。结果表明,射频的精度,SVM (RBF),支持向量机(衬套),和美国全国广播公司(NBC)是100%,96.97%,和84.88%,分别。
中华民国曲线也用于验证和建立模型的识别性能进行比较。建立了射频模型,支持向量机模型,和NBC模型应用于训练和测试样本。ROC曲线如图3。曲线下的面积是列在表中4。测试样本的分类结果展示在表中使用所有发达模型5。
在图3从列联表,结果越接近左上角,更好的预测,但距离随机猜测线方向或曲线下的面积是多少的最佳指标预测能力的方法。
如图3和表4射频方法的结果清楚地显示,最好的预测力最大0.975在射频领域,支持向量机,NBC。支持向量机的结果(面积:0.963)优于NBC(面积:0.956)。
根据表5,我们可以得到的判别精度射频,支持向量机,和NBC为测试样本;他们的精度是92.86%、85.71%和92.86%,分别。从测试结果,交叉验证,中华民国,和测试结果,我们得到的结论是,射频判别模型的准确性和判别能力最好。同时,根据射频的加权值,最重要的因素比1,紧随其后的是比5,比4,比7,比9,比6,广告,比2,比8,比3。
4所示。结论
射频、支持向量机和美国全国广播公司(NBC)被应用于地震事件识别。歧视的彻底调查能力的技术进行使用震动图从20地震和27核爆炸。比率,,,,,,,,在一定速度的窗户,以及平均距离,被选为判别指标。
射频的分类性能,支持向量机和NBC分析和基于训练样本的测试相比,一个交叉验证,ROC曲线。射频方法的结果清楚地显示了最好的预测力最大ROC面积0.975在射频、支持向量机和NBC。支持向量机的结果(面积:0.963)优于NBC(面积:0.956)。试验结果表明射频的判别精度,支持向量机,和美国全国广播公司(NBC)是92.86%,分别为85.71%和92.86%。
从回测结果,交叉验证,ROC曲线,和测试结果,我们得到的结论是,射频判别模型的准确性和最好的判别能力。射频判别方法不仅可以应用于地震识别精度高,但也可以给加权的判别指标。在这项研究中,最重要的因素比1,紧随其后的是比5,比4,比7,比9,比6,广告,比2,比8,比3。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者欣然承认金融支持中国国家自然科学基金(50934006和50934006),中国国家基础研究(973)计划(2010 cb732004),中国学术委员会(CSC)奖学金奖优秀博士生来自中国教育部的(105501010),为培养和支持项目的中南大学优秀博士论文。