文摘

为了解决南水北调工程安全预警问题,基于机器学习的智能合作预警方法的框架下提出了智能信息处理。由于南水北调工程的监测数据,单一传感器研究了在典型的场景,和安全阈值预测了沿垂直轴的时候,首先。支持的数据相关性计算,典型场景的传感器是智能分组,研究目标是变成传感器分组,其次。然后,单一传感器和多传感器之间的非线性回归模型是建立在横截面,和动态模型被用来计算安全阈值电流传感器的第二次。最后,在智能信息处理的框架,提出了一种双重验证机制来支持智能预警方法的建设南水北调工程的安全。本文收集了监测数据从2015年11月到2016年9月在典型的场景。实验结果表明,该方法建立在报纸上可以能够识别数据的异常原因突然跳有效预警,给不同的水平。方法为进一步人工调查工作提供了强有力的理论支持。

1。研究背景

南水北调工程中线的转移水从丹江口水库到河南,河北,天津,北京。项目的长度是1432公里。复杂的地质和气象条件以及项目南水北调工程面临着严重的挑战。工程安全指的是安全问题的南水北调工程中线工程主要包括建筑、通道和重要的工程设施。在实际监测过程中,传感器的数量是非常大的;与此同时,大量的传感器通常是安装在底部的运河或嵌入在通道项目,所以这些传感器的日常维修和维护工作非常难以实现。监控数据异常时,我们不能判断数据异常是由于传感器或通道工程失败;因此,员工不能把握大局的通道安全。针对这一问题,驱动下的南水北调工程的安全监测数据,本文认为一个传感器为研究对象,并预测安全阈值沿时间轴通过卡尔曼滤波方法基于历史监测数据,首先;然后,本文扩大研究对象从单一传感器传感器利用分组数据相关性分析方法,可减少计算复杂度和提高预测算法的准确性。 Secondly, the nonlinear regression model between single sensor and sensor grouping was built to predict and check the sensor’s data on the time cross section. Finally, the intelligent prewarning method was constructed under the framework of intelligent information processing, which provided scientific theoretical support and effective decision-making for the emergency troubleshooting and emergency countermeasures.

论文的第一部分介绍了研究背景。第二部分介绍了几种典型的机器学习方法的基本原理。第三部分介绍了数据预测基于机器学习的方法。第四部分介绍了智能预警方法的基本原理和处理流程。在第五部分,算法验证和结果进行了分析。

2。机器学习方法的原则

2.1。屏蔽罩的森林(RF)的基本原则

随机森林算法(RF)是一种机器学习模型提出的2001年狮子座Breiman [1,2]。射频方法产生了大量的分类树通过随机使用属性(列)和数据(行)的样本集,最后总结了这些分类树,形成最终的随机森林。在射频是一个二叉树,每棵树及其生成遵循自顶向下的递归分割原则;换句话说,训练集划分从根节点。二叉树的根节点包含的所有训练数据,分为左节点和节点包含训练数据的一个子集,按照最小节点纯度的原则。然后,左和右节点继续按照同样的规则分割,直到停止规则很满意。如果分类数据在一个节点上 所有来自同一个类,那么这个节点的纯度 。射频的具体实现过程如下:(我)原始训练集 ,射频方法随机抽取 新样品和构造 分类树通过引导方法;每次提取的样本并不会形成的数据集。(2)假设有 变量。 变量被随机提取分类树,每个节点的选择和最强大的变量 阈值的变量分类是通过检查每个分类点决定的。(3)每棵树会成长为最大的没有任何修剪。(iv)最后,随机森林是由产生的决策树(一个),和新数据被随机森林分类器识别和分类。分类的结果取决于数量的选票的树分类器。

2.2。Ada-Boost的基本原则

Ada-Boost是“适应性提高”的缩写英文介绍1995年罗伯特Schapire [3,4]。它适应是由以前的基本分类器分类不准确的样品将会加强。然后,整个样本将被再次使用训练下一个基本分类器。与此同时,一个新的弱分类器将被添加到分类器设置每个圆直到达成预定的小错误率或迭代事先指定的最大数量。

Ada-Boost算法实现过程如下:(1)初始化每个训练样本的重量;总训练实例的数量 初始化的计算公式(1): (2)米圈算法训练;m的学习过程如下:(一)使用训练样本的重量分布 基分类器 (b)计算获得的基分类器的错误率在前面的步骤: (c)计算前的权重因子 : (d)更新了训练样本的权重系数: (e)重复(a) (d)获得一系列重量参数 和基本分类器 (3)在上一步获得的基分类器将根据重量参数线性组合来获得最终的分类器:

有四个机器学习算法在论文的第三部分。除了Ada-Boost方法和随机森林方法,装袋算法和支持向量机(SVR)方法被用作对比的方法。由于空间的限制,他们在这里不再详细吧。的基本原理及应用方法在文献中可以看到[5- - - - - -7]。

2.3。SVR的基本原则

SVR是一种机器学习方法,可用于时间序列预测。通过一个非线性核函数,多维输入映射到更高维度的特征空间,然后回归操作执行获得产出指数的非线性映射关系。由于空间限制,实现细节的SVR方法见文献[8]。

3所示。基于机器学习的数据预测

3.1。K-Fold交叉验证

交叉验证是一个统计分析方法来验证该算法的性能。交叉验证的基本思想是,原始数据被分为两个子集在某种意义上,一个被用作训练集的子集(训练集),和另一个子集是验证(验证集)。训练集用于训练模型,然后验证设置用于测试的性能模型获得的第一步。

K倍交叉验证是最常用的方法之一,在交叉验证数据验证。原始数据被分成 一般组(平等);每个子集的数据是一个验证集,和其余的 子集数据作为训练集的过程 倍交叉验证,如下所示。

步骤1。整个样本集 被划分为 不相交的子集,假设样本的数量 ;然后每个子集 训练样本,和相应的子集

步骤2。每个子集 将挑选出作为测试集,和其他 作为训练集。

步骤3。获得根据训练集模型或假说。

步骤4。训练模型被用来测试集上的分类,分类的准确性和计算。

第5步。正确分类率的平均值计算 次被用作模型的正确分类率或假定的功能。

3.2。数据预测倍交叉验证下

电流传感器的监测数据异常时,该方法将计算的数量的传感器监测数据是异常的那一刻。合作预警算法将发出一个工程红色警告意味着这个项目是危险,如果传感器在同一组传感器的数量高于60%。如果比例不到60%,电流传感器之间的非线性回归模型和剩余传感器在同一集团将建立的模型被用来预测电流传感器监测数据时间截面上的第二次。本文使用倍交叉验证方法,随机选择样本总数的16%作为测试样本,剩下的84%的样本作为训练样本。纸的机器学习算法研究包括装袋,支持向量机,Ada-Boost,随机森林。由于有限的空间,只显示传感器R1_4的预测结果。在预测过程中,装袋算法,Ada-Boosting算法和随机森林方法都使用回归树的基本模式,和回归树的数量是50,深度是30。常数 γ= 1在SVR算法。

1显示传感器的预测结果曲线R1_4四种机器学习方法。监控数据的传感器R1_4的总体趋势是相对稳定的,正如我们可以看到Ada-Boosting, SVR和随机森林方法显示良好的跟踪性能。当监测数据突然跳,Ada-Boost方法的预测曲线显示良好的收敛性和及时跳可以跟踪数据。同时,SVR方法的预测结果显示一个大的波动,和预测曲线有明显的偏差。从数据预测曲线,我们可以看到,SVR算法数据波动太敏感。图6显示传感器R1_4在各种方法的预测误差曲线。从误差曲线,我们可以看到,在预测过程中传感器R1_4, SVR方法具有良好的预测精度,当数据是静止的。当数据略有波动,SVR预测产生更大的预测偏差。从整个预测过程可以看到,Ada-Boost方法在预测精度和算法稳定性更好的性能。图2显示的行均值属于每个方法的预测误差。我们可以看到,SVR的错误行出现突然跳当传感器的监测数据R1_4有较大的变化。

每个算法的预测误差见表1。可以看出误差平均值的数据预测的准确性Ada-Boost算法典型场景下是最好的,和最糟糕的准确性是装袋算法。的统计结果数据与曲线的预测是一致的结果;他们有同样的结论。同时,每个算法的误差方差和标准偏差显示Ada-Boost方法的误差方差和标准偏差是最小的。Ada-Boost方法和随机森林方法有更好的预测精度和预测数据预测的稳定。因此,它们被用来构建智能预警方法对南水北调工程。

4所示。设计的智能预警方法

本节主要关注如何构建时空合作智能预警信息处理方法的基础上,利用机器学习算法。监控数据异常时,该方法会在时间和判断过程是否异常造成的异常数据传感器故障或由工程本身的缺点。然后,该方法可以发出不同级别预警消息根据异常。论文的第三部分是在第四部分的基础。智能预警方法使用预测结果属于第三部分;与此同时,它可以动态地生成安全范围。这是一个标准来判断数据是否异常。

为了解决正确的异常预警数据,本文采用时空合作基于机器学习的方法来预测和验证方法验证传感器的监测数据从时间和空间维度,分别。一般来说,传感器监测数据变化线性模式在相对较短的一段时间。在这里,本文使用传统的卡尔曼滤波方法(8- - - - - -10]预测单一传感器监测数据历史监控数据,同时,生成的安全间隔监测数据的基础上预测结果。整个处理过程如图3

步骤1。基于卡尔曼滤波器,目前的监测数据是通过使用历史数据预测单个传感器在给定时间片。然后使用所产生的时域安全范围预测数据点。如果当前监测数据是在安全的范围内,我们会认为这是一个正常的数据和记录下来;否则,该方法将跳转到步骤2。

步骤2。得到了传感器组电流传感器位于的地方。

步骤3。计算传感器的数量发生异常电流传感器组。如果传感器组的异常比率大于predecision阈值,高水平的红色预警信息将进行;否则,跳转到步骤4。

步骤4。之间的非线性回归模型电流传感器和其他传感器传感器分组是建立基于机器学习的方法,模型被用来预测和检查当前的传感器监测数据。

第5步。安全范围的数据生成步骤4的预测结果。如果监测值的电流传感器在新的安全范围,即使数据超过安全范围由卡尔曼滤波在步骤1中,它将被视为正常的数据。否则,传感器水位报警器会发出,起诉该电流传感器是错误的。建议这个设备应该被忽略的监测数据;否则,后续的整体判断项目的安全会受到影响。

介绍了“步骤2”,传感器组根据皮尔逊相关系数结果。皮尔森相关系数是一个线性相关系数,它是用来反映两个变量的线性相关。相关系数是用r,这是一个1和−1之间的值,1表明,变量是完全积极的,0是独立的,和−1意味着完全负相关。皮尔森相关系数计算公式所示(6)。

与传感器R1_4 R1_7、R1_8 R1_16, R1_18, R1_19,两个传感器之间的相关系数计算。表2显示传感器的实时分组结果集。在表中,传感器组,并有很强的相关性与R1_4包含 1 _7 R1_18 R1_1 ,与传感器组的安排与R1_4根据其相关性。

5。实验和分析

5.1。典型场景的描述

安全监测数据的通道是南水北调工程建设管理。南水北调工程的典型场景是显示在图4,大量的钢筋( ~ )定期嵌入到项目中。他们的具体位置如图4,运河工程的安全参数实时监控。在研究的过程中,监控数据收集从2014年10月到2015年10月的一年。钢筋的原始监测数据的典型场景是显示在图5。R1_4的监测数据为例。有335个批次数据,和温度的平均值−13.06摄氏度。压力的平均值为23.90 MPa,压力的方差为3.51,最小值为17.11 MPa,最大值为29.45 MPa,中位数为23.76 MPa,四分位值为20.43 MPa。

电脑配置如下:CPU处理器是英特尔酷睿i5 - 6500, 3.20 GHz CPU频率;记忆是4.00 GB;操作系统是Windows 10(64位);编程语言是Python 3.5.2(64位);集成开发环境是Pycharm Community Edition。

5.2。合作智能预警方法的实现

6显示钢筋的预警结果等 。智能合作产生的预警结果的南水北调工程的安全预警方法,构造了基于Ada-Boost法和随机森林方法。在图中,横轴是监测时间,纵轴是钢筋的监控数据从2014年10月到2015年10月。同时,预警点通道的工程安全生产的智能也标志着合作的预警方法。深蓝色的” ”项目级别预警点。项目级别预警点意味着通道项目本身可能会有安全风险。有必要立即组织有关人员到现场进行进一步的安全调查。绿色“•”传感器基于随机森林方法级别预警点,和黄色的“•”传感器水平基于Ada-Boost预警点方法。这些传感器水平预警点意味着数据异常是由于传感器故障和通道工程无关。为了了解大局通道安全准确的后续工作,电流传感器的数据可以暂时忽略,以减少干扰智能预警数据处理的结果。

6。结论

沿着中线工程南水北调工程,地质条件复杂,传感器的数量大,位置很特别。因此,这些传感器的定期维修和日常维护困难。监控数据异常时,是不可能判断传感器的错造成的异常数据或通道工程的质量。为了解决这个问题,本文跳出传统的水利工程和理论研究建立了智能预警方法,从数据的角度研究。同时,使用的方法是南水北调工程的典型场景。

在这种方法中,数据相关性分析方法应用于实现传感器的动态分组。然后,一种双重检查机制的异常数据,从而检查监控数据和时间轴的横截面。最后,在智能信息处理的框架,数据分析和机器学习方法有机地结合起来建立一个完整的数据处理过程和工程安全预警机制。实验结果表明,该方法是可行的和有效的方法在南水北调工程异常数据处理。

信息披露

这篇文章是原创的第一作者。它不包含任何冲突与其他文章或项目(项目编号:51509090,项目名称:紧急的发现和反演地下水污染物基于序列挖掘和智能计算;项目数量:16 hastit034;项目名称:智能计算研究方法对大规模空间时间序列数据)。

的利益冲突

作者宣称没有利益冲突的相关工作。

确认

本文的研究在一定程度上是由美国国家科学基金会赞助的中国(在拨款51509090号和U1604152)和程序为科技创新人才的学院和大学在河南(批准号16 hastit034)。