文摘

针对解决网络延迟造成的大量工业物联网中的数据,基于边缘的数据压缩算法计算是创造性地提出。传感器采集的数据需要提前处理,然后由不同处理单一的数据包数量K和误差阈值e为多个组比较实验,大大减少传输的数据量的前提下确保数据的瞬时性和有效性。的基础上压缩处理,局外人检测算法提出了基于孤立的森林,可以准确地识别渐变和突变引起的异常和控制和调整设备的作用,为了满足控制要求。实验仿真表明,孤立的森林算法优于基于分区盒图和k - means聚类算法基于距离的异常检测,验证前的可行性和优势在数据压缩和检测精度。

1。介绍

的快速开发和集成物联网和云计算技术(物联网),我们已经逐渐进入了时代的“物联网、全面感知”[1]。与此同时,大量的传感器设备被广泛使用在各个领域包括生物医药、石油化工、公共交通、环境保护、电力、制造业和工业。尽管兴奋,物联网传感器技术仍然面临着巨大的挑战和不确定性的真实性、及时性、可靠性和安全性。传感器设备的广泛使用,人们的生活方式改变了很多;与此同时,大量的时间序列数据生成过程中应用。据互联网数据中心(IDC) [2),到2020年,全球. data预计将超过40 zb。波音787每秒产生超过5 GB的数据,以及飞机和卫星之间的带宽并不足以支持实时传输(3]。为了实时获取道路信息,传感器和摄像机安装在无人机将产生每秒大约1 GB的数据。IHS称,到2035年,将有5400万世界上无人驾驶车辆4]。

通常,传感器收集数据在一定频率和发送数据到云上。然后云收到严格的观测数据序列。这些数据被称为“时间序列数据”准确地记录某些参数的实时变化在某种程度上,如速度、力量,和温度。他们可以反映数据变化在某些参数的调节,这是后续的数据分析和挖掘的前提。在实际场景中,总有一些异常数据偏离正常的知觉过程中的数据采集和传输;因此,很难获得高质量的数据通过传感器。此外,错误总是不可预测的发生。如今,大部分的异常检测算法都是基于统计,集群、相似性度量,约束规则和神经网络5- - - - - -9]。统计方法通常知道序列的分布。通过保持滑动窗口和计算统计特征指标,可以准确地检测到异常部分。这种方法适用于检测离散和突然的价值序列中的异常,但是很难有效地识别连续异常间隔序列。聚类方法量化异常和正常集群之间的距离来判断离群值。计算不同的聚类模型的复杂性差异非常大,检测结果取决于聚类的质量。基于相似性度量的方法可以判断是否有异常数据通过计算标准化序列之间的相似性。然而,这种方法需要花很长时间。在基于规则的方法,研究人员提出了序列依赖性和速度限制,可有效修复使用时间序列中的特征高度异常数据。然而,这种方法很难满足序列异常检测的需要与变量模式(10]。Yu et al。11]提出物联网监测系统基于边缘计算的框架,并使用self-encoding神经网络的异常检测方法。根据时间序列数据的特殊性和数据组成的差别,文献[12)建议,在时间序列数据,大多数异常检测方法是基于模式识别和聚类。在[13),一个新的时间序列数据的异常检测算法,提出构建一个分布式递归计算策略,再快速选择策略。Qi et al。14)提出了一种实时传感数据的异常检测算法基于边缘计算。通过分析遥感数据之间的连续性和相关性的时间序列,该算法建立了一个基于边缘的分布式传感数据的异常检测模型计算,有效地检测异常实时传感数据。目前,大多数现有的时间序列异常检测方法的异常识别一维周期性或简单时间序列模式。很多判断失误和遗漏可能发生在这个过程中,导致性能下降的异常检测方法。虽然各种异常检测方法提出了在文献中,仍然很难准确地检测异常数据和模式的一维时间序列变量模式。

此外,如今云物联网数据处理,和云计算可以提供一个高效的大数据处理计算平台。然而,随着网络带宽的增长速度远远落后的数据,数据传输延迟和云数据中心的能耗有显著增加,导致云计算的瓶颈。作为一种新的计算模式,计算边缘的核心是将分解计算任务迁移到边缘节点进行处理,从而实现数据的预处理之前进入云服务器,并减少云计算数据中心的计算负载。它已经被应用于许多领域,比如网上购物,智能家居,智能城市、智能交通、安全监控等。1,15]。为了提供一个更好的计算平台物联网,云计算中心和强大的计算能力和海量存储,本文提出了一种边缘协作云架构的帮助下边缘设备处理大量数据和私人数据计算边缘。在此基础上,数据压缩的算法和基于边缘计算产生的异常检测。传感器收集的数据预处理减少传输的数据量,从而大大降低了云计算负载。从时间序列数据的角度分析,异常的传感器数据可以有效地识别,传感器数据和正常数据波动完全保留。

本文的主要内容如下:部分2轮廓边缘的应用在物联网和先进的算法计算传感器异常值检测。部分34描述了与世隔绝的森林算法的基本原理和结构。节5压缩算法的评价指标和异常检测算法进行了讨论,和算法的性能评估实验使用实际数据。节6总结了整个研究想法。

2.1。物联网

物联网,也被称为“互联网连接产品,“是一位杰出的实用信息网络发展的结果在第三科技革命。物联网已经渗透到各个领域,包括交通、公共安全、环境保护、电力、智能家居、医疗卫生,受到各界的广泛关注。物联网是指任何对象的连接通过信息传感设备与网络根据商定的协议。对象交换信息通过媒体,以实现智能化识别、定位、跟踪、监督等功能。物联网,顾名思义,是在互联网的基础上开发的。简单地说,它是互联网的延伸。客户端扩展的信息交换和共享之间的通信的事情. .物联网形成当一切都连接在任何时间,任何地方,任何人之间。

与互联网相比,物联网覆盖更广泛。它并不需要直接参与的人。人工智能的对象进行分析和管理的问题。它包含大量的传感器应用。传感器是物联网的大规模数据的来源,更丰富的数据类型和处理多样化。它主要使用无线技术连接。它可以进行实时信息交互和数据传输,以及信息处理。它可以集成存储,处理和分析功能的事情的一端,实时数据处理和反馈来提高用户响应效率和用户体验16]。

随着信息和通讯技术的发展,许多物品和设备可以连接到网络,例如,文章携带无线电频率识别代码,和大多数设备在工业控制、环境控制和流量控制。因此,物联网技术可以使事情更聪明。物联网的应用已覆盖整个互联网领域。物联网体系结构可分为感知层、网络层和应用程序层。感知层是数据的来源和识别事物的来源和收集信息在互联网上的东西。主要由大量的传感器、射频识别标签,相机,和其他感应传感器,它是基本层支持整个物联网系统。网络层是物联网的中心,负责数据传输。它连接应用程序层和感知层和实现之间的关系通过无线通信交换设备和传输设备。通过这种方式,用户终端分布在不同位置相连形成一个完整的信息传输路径。应用程序层是直接面向用户的界面,通过它用户与对象(17]。

物联网技术的快速发展,一系列的国家战略,其中包括2025年在中国制造,美国先进制造业伙伴计划,和德国工业4.0,提出和实施。工业物联网(IIoT)应运而生,已成为全球工业系统的智能转换的重要推动力(起源于中国电子技术标准化研究所)。IIoT,尖端产业的巨大的商业价值,是广泛应用于设计、生产、管理和服务(16]。原材料IIoT实现灵活的分配、执行生产过程的需求,合理优化生产过程通过网络互连和快速适应生产环境,和数据交换和系统互操作性的工业资源,实现资源高效利用,为了建立一个新的服务驱动工业生态系统(18,19]。物联网(物联网)相当于物理对象信息(传感器、机器、汽车、建筑和其他对象),这使得这些对象之间的互动与合作,实现共同的目标。它有助于实现远程监控和智能维护工业设备的应用场景,和远程监控、设备预防性维护和性能优化分析(20.]。所谓IIoT是一种先进的生产方式,使用云平台升级传统产业智能行业。

2.2。边缘计算

是实现物联网的关键技术,边缘计算广泛应用于许多领域,如智能城市、智能制造、智能交通、智能家居、隐私保护(21],救灾[22- - - - - -25],等等方面的智能城市,边缘计算能满足三大数据量的要求,低延迟,和实时位置识别的智能城市建设。它可以有效地处理大规模的数据在各个领域包括公共安全、健康数据,公共设施,交通信息。它可以减少数据传输时间和处理用户的隐私数据和相关机构更安全。在智能制造方面,边缘计算可以有效地实现信息的交互与合作智能制造系统的每个部分,确保智能过程中实时数据处理。它可以赔偿处理结果上传到云计算,然后下载到控制器的操作,以减少沟通成本,提高加工效率。在智能交通方面,系统分析了摄像机和传感器实时采集的数据通过计算边缘和做出相应的决策,从而解决带宽浪费和延迟,提高智能交通安全,延长它的适用性,并提供一个更好的用户体验。在智能家居方面,边缘计算系统运行在边缘网关内部的家里,将智能家居设备集成到系统。和数据生成的本地设备可以处理和麻木了,可有效减少数据传输延迟和更好地保护用户的隐私。在救灾方面,智能消防的关键过程,分析和预测所获得的数据来自多个数据源,并有效地传输结果救援人员,这需要很高的计算能力和及时响应。通过边计算,数据可以通过边缘传输到基站设备,然后到云基础设施。 In transmission, the edge computing and storage resources will be used nearby to realize the partial processing, analysis, and prediction of the data, reduce the number of data transmissions, and shorten the bandwidth and response time.

云计算和边缘计算是实现物联网的关键技术。作为计算模型,云计算访问计算资源、网络资源和存储资源的数据中心通过网络,为应用程序提供可伸缩的分布式计算能力(26]。与大型服务器的特点,可靠性高,可扩展性强,云计算和虚拟化,它被越来越多的企业和组织来部署应用程序。但是在云计算模式,计算任务都由云处理中心。服务提供者提供的数据上传到云计算中心和客户终端发送请求到云的中心。云计算中心响应相关的请求,并将相关数据发送到终端客户。终端客户总是扮演着消费者的角色。边缘计算是一种新的计算模式来执行计算在网络的边缘,哪些地方应该被处理的数据在云中心附近的数据源。边缘之间的对比计算和云计算如表所示1

从表可以看出1与云计算相比,边缘计算具有以下明显的优势:首先,它可以提高数据中心的安全;第三,它可以提高数据的安全性。但是边缘计算代替不了云计算。这是云计算的扩展,为物联网提供更好的计算平台。边缘计算模型需要强大的计算能力和大规模存储支持云计算中心。云计算也需要大量数据的处理和边缘设备私有数据的边缘计算以满足实时的要求,满足隐私保护的需求。因此,设备边缘云架构模型可以提供一个更好的配置方案。

3所示。基于边缘计算数据压缩预处理

针对云计算的问题延迟造成的大规模物联网数据传输和反馈,一个有效的方法是为了更好的过程大量的传感器时间序列数据。一般来说,增加数据冗余可以提高系统的稳定性。从某种意义上说,低数据冗余和高数据可靠性是矛盾的,这意味着它很难找到最优解的最小冗余和最大数据的可靠性。处理时间越短越好进行压缩处理的前提是原始数据特征传感器和数据的真实反映都没有改变。

本文中使用的方法需要设置数量k和误差阈值e每组的数据包。当时间序列数据t上传结束,所有的吗k温度数据上传。当时间序列数据的平均值T(+k),它的第一个k时间序列数据小于阈值的错误e,输出将不会执行,所以周期T(+2k−1)和T(+ 2k−1]仍然符合上述条件。我们取平均值T(+ 2k−1)和第一k−1数据,上传数据并将它们存储在out2。三种,+k在out1.txt。如果时间序列数据T(+k似乎和第一次的平均值k时间序列数据组中不小于阈值的错误e,然后T(+k是直接上传和存储在out2。三种,+k存储在着干活。txt to reduce the amount of data transmission and subsequent data processing. Among them,T(是第i个时间序列数据收集,并着干活。txt和out2。txt are edge storage files. The implementation of sensing data compression algorithm is shown in Algorithm1

输入:数据。txt sensor dataT处理的数据包数量在一个集团K,误差阈值E
输出:着干活。txt, out2.txt。
(1) = 1,N
(2) 从“测试读取数据。txt”, and write them to “data.txt”
(3) 如果e“用法”
(4) 打破
(5) 如果
(6) = 1,N
(7) 从“数据读取的数据。txt”T(+ 1)
(8) 断言=总和(T)/+ 1;
(9) 结束
(10) 如果(断言< 0)
(11) = 1,k
(12) 断言<断言+T(]
(13) 断言<断言/k
(14) 结束
(15) 其他的
(16) = 2n
(17) 临时<断言
(18) j= 0k−1
(19) 如果+j≥=n
(20) 临时<−1
(21) 断言<断言+T(+j]
(22) 如果
(23) 结束
(24) 如果
(25) 结束
(26) 如果
(27) 断言<断言/k
(28) 如果| aver-temp | > =e
(29) +j−1“out1.txt”
(30) T(+j−1]“out2.txt”
(31) 如果
(32) 返回“out1.txt”、“out2.txt”

4所示。异常检测算法基于孤立的森林

隔离森林算法是一种基于随机二叉树的无监督异常检测方法,适合连续数据[28]。在与世隔绝的森林,异常被定义为“异常值很容易孤立”,也就是说,点稀疏分布和远离高密度人口。在特征空间中,稀疏分布区域表明事件发生在该地区的概率是非常低的,所以判断数据分布稀疏的地区是不正常的。适用于时间序列数据的异常检测。

森林隔离算法详细描述:(我)定义1,t是一个二叉树N的节点T。如果N是一个叶节点,它被称为外部节点;如果N是一个节点有两个孩子,它被称为一个内部节点。定义2在iTree;边的数据从根节点到外节点称为路径长度,表示为H(年代)。

施工过程的单个iTree如下:从数据集中随机选择一个点年代={年代1,年代2,年代3··Sn}生成减少P随机。切割点P最大值和最小值之间生成指定维度在当前节点的数据,然后每个数据划分。的选择切割点生成一个超平面,哪些地方点小于P在当前节点的左分支和点大于或等于P正确的当前节点的分支。左和右分支构造递归直到只有一个数据集或树的叶节点已经设定的高度。遍历每个iTree找到美国的最终路径长度自切割过程是完全随机的,我们需要使用合奏的方法使收敛的结果;反复开始削减从一开始,然后计算每个分割结果的平均值,即H(年代)。数据的原理图遍历iTree如图1

H(年代)是节点的深度年代在iTree。E(。)年代的平均值tiTrees。c(一个)是一个点的平均长度二分搜索的树。 , 欧拉常数。越接近年代(年代)是1,越有可能是异常数据;和越接近为0,越有可能是一个正常的点。当年代(年代)的大部分数据是0.5,没有异常值的数据。

孤立的森林与聚类算法不同,盒子图,和其他算法;它不需要计算距离,密度,和其他指标;它可以大大提高计算速度,减少系统开销。在培训的过程中,每个iTree独立随机选择和生成。它加速部署大规模分布式系统的操作。基于整体方法,iTrees越多,更稳定的算法。

5。实验仿真

本文中使用的温度数据采集的环境数据集上传实验云平台的物联网。时间拦截从8:00 5月1日,2019年,7:15,2019年5月17日。数据上传时间间隔是30年代,共有45989温度传感数据,数据精度为0.1°C。图2显示了一个散点图温度时间序列变化趋势的数据集,包括10倍渐变或突变引起的异常。

硬件环境:所有实验进行Windows 7操作系统,CPU是英特尔酷睿i5 4200 u,显卡是AMD Radeon HD 8670米,4 GB内存,python是用于模拟平台。

孤立的森林算法用于检测压缩的原始温度数据集和四组数据集评估异常值检测的性能。参数如下:iTree的数量t= 100;测试样品的数量一个= 256;路径的长度H(年代)= 15。如图3iForest算法的测试结果,原始数据集显示有10个异常数据检测,检测到所有这些没有误判。数据4- - - - - -7分别显示四组数据的异常检测结果基于iForest算法。在第一组,10异常数据检测到,但有一个正常的数据被误判为异常数据,和一个不正常的数据没有发现;九个异常数据中发现第二组没有误判,一个异常数据并没有检测到;第三组发现10异常数据,但是有2的错误判断,和2异常数据没有发现;在第四组10异常数据检测,没有误判。

为了验证异常检测的比较和分析精度的三个算法,保证结果的可靠性和公正,不同算法的异常检测结果的原始数据和压缩数据表中列出2(注:前的原始数据是处理和处理后的数据)。

在,表2计算的精度正确分类样本的数量比样品的总数,正确预测的精度比积极的所有预测样本的比例,和召回率的比例是正确的预测到积极的所有积极的样品比例,这可以被理解为发现数量和总数量之间的比例。

不难发现从表2iForest算法的准确率和召回率通常高于其他两种算法的异常检测原始数据集和压缩数据集。在不同的数据集的比较相同的算法,由于大量的原始数据,异常检测准确性、准确性,和原始数据的召回率明显高于压缩数据,而其他压缩数据不偏离改变原始数据的跟踪。当数据是平的,压缩数据可以代替原始数据较少的值;当数据变得不同,原始数据可以被压缩数据在正常时间,和压缩数据可以保持局外人的异常数据检测,可有效防止异常数据错过。在算法执行时间方面,k - means聚类算法的执行时间永远是最短的,但只有0.19年代短于iForest算法,在实际应用没有影响。因此,基于分区iForest算法优于盒图和k - means聚类算法基于距离的异常检测的性能。异常检测方面的执行时间的压缩处理,之前和之后的盒子图算法缩短了11.35年代,由8.02 k - means聚类算法,iForest算法11.07 s。数据压缩可以显著缩短异常检测的时间。基于数据压缩所需的时间,时间消耗在整个数据处理仍在一定程度上减少。因此,边缘计算的优势最终验证。

6。结论

在本文中,为了解决云计算的问题,传输和反馈当前大规模物联网数据造成的延迟,提出了一种基于边缘的冷链监测管理方法计算的研究和分析冷链物联网监测系统。实时传感数据压缩,以确保的原始特征和真实反映传感数据保持不变,和云计算中心的数据量可以减少,以及传输延迟和响应延迟。基于数据压缩处理,过滤数据的异常检测,检测精度高,可及时发现异常并提醒用户。

在未来的工作中,我们将率先调整数据压缩的压缩条件下实现选择性数据压缩。其次,为了减少损失的过程中异常修复在不久的将来,我们试图在后续工作中添加一个或多个预测机制合理优化异常检测方法。基于相关性的考虑数据文件和类似文件的时间间隔被访问,缓存替换策略将得到改善。

数据可用性

根据这项工作的资助政策,数据不能共享或公开融资合同。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究是由黑龙江省教育部基础研究项目(批准号:2018 - kyywf - 0942)和黑龙江省教育部科技创新团队建设项目(2019 - kyywf - 1335)