文摘
物联网,物联网,已被广泛公认为一个新的认知范式数字世界和物理之间的相互作用。作为物联网的接口和组成部分,传感器嵌入到网络收集未加工数据的主成分,这些传感器通常部署在无人值守,敌意,或恶劣的地区,这不可避免地使传感器读数容易错误甚至异常。因此,传感器读数的质量最终会影响各种面向数据的物联网服务的质量,和传感器数据是影响系统的性能至关重要。然而,物联网数据异常检测是一项重要的任务,因为传感器通常与有限的计算资源受限的设备上,沟通,和能力。因此,一个有效的和轻量级的检测方法需要满足要求。在这项研究中,我们处理异常数据检测源传感器节点通过结合当地异常因素和时间序列的方法。仿真表明,该方法能有效地检测异常数据,提供了一个更好的正常数据率。
1。介绍
物联网,物联网,在过去的几年里受到了人们的广泛关注,研究社区拥有的进步计算和实时数据和设备之间的连接和被用在许多应用领域,如智能家居/办公室,汽车,和医疗援助来解决实际问题1- - - - - -3]。物联网未来描绘了一个计算场景中日常物理对象将连接到互联网和证明自己的身份4]。如今,物联网已经成为一个越来越重要的基础设施组件,由于物联网设备的异构性,物联网传感器和各种应用程序之间的数据交换实现快速增长。
然而,随着物联网的广泛应用,安全威胁也越来越突出(5- - - - - -8]。物联网是容易受到攻击的沟通渠道,已成为一种常见的安全问题(9]。物联网传感器故障可能中断系统控制(10),从而打断物联网系统所提供的服务。物联网传感器的分布式部署使网络更方便,但也带来了更多困难的风险(11]。此外,许多物联网应用程序异构组件(如不同的传感器、服务协议、通信技术和无线个域网一样,WiFi,蓝牙,生成网络管理的复杂性(12]。因此,异常数据产生伴随着威胁、攻击,风险,异构技术的集成,以及各种物联网应用程序。
领域的数据挖掘和统计,异常通常被称为偏差者或离群值(13]。异常数据的定义中给出(14)是异常数据的数据点,表现非常不同于他人或符合一些预定义的异常行为。异常的定义中给出(15),它是一个观察别人的偏离太多产生的不确定性。根据(16),异常数据的主要原因有两个方面:(1)内部故障。、噪声和故障引起的传感器硬件和软件故障;(2)外部影响。,specific events occur in the places where nodes are deployed. Essentially, anomaly-based detection is an intrusion detection mechanism, it can be used to perceive important network mode attacks [17,异常检测是指识别可疑的数据项,事件,或观察明显不同于其他数据18]。异常检测的应用可以使某些贡献物联网数据保护(19),资源友好提供更广泛的检测,这是非常适合物联网传感器网络应用程序(20.]。
不过,物联网的异常数据检测是一项重要的任务。物联网节点通常与低成本的嵌入式系统资源受限的传感器(21,传统的异常检测解决方案不能直接应用于物联网(22]。出于这个原因,重要的是,一个折衷的解决方案被发现的问题的准确性同时将最低开销。
本研究旨在检测物联网环境下的传感器数据异常。不同于其他作品,重点分析传感器数据通过一定的规则和评价分析的结果,根据物联网网络的动态特性,我们提出的方法试图跟踪和识别的源节点产生或导致的异常数据,并通过识别和确认可疑节点,最终异常数据可以从网络中删除。本研究使用结合当地异常因素和时间序列的方法。地方离群因子应用于检查异常数据,怀疑一个标签相关的传感器节点。由于物联网网络的动态变化的环境中,节点可能受到暂时的错误或通信干扰导致被标记为可疑节点。因此时间序列方法用于评估,进一步证实了这些潜在的可疑节点从时间窗口的角度。
这个工作的主要贡献是提供一个轻量级但有效的方法对异常数据检测在物联网传感器网络,由于传感器在物联网通常的计算资源受限的设备上,沟通,和能力。为此,本研究中使用的方法都是容易计算的。具体地说,当地的异常因素是density-based检测算法简单,不是特别挑剔的分布数据集。相比之下,大多数其他的异常检测算法都是基于统计方法或借一些聚类算法对于异常识别;此外,数据集服从特定的概率分布假设。进一步,在时间序列,而不是直接使用传统方法,切比雪夫多项式近似的应用时间序列特别是在比较两个时间序列的相似性,这也是轻量级计算,可以通过相关的多项式系数。
本研究的其余部分组织如下。部分2介绍了相关工作的异常检测传感器数据和相关的定义和分类。部分3介绍了局部离群因子和时间序列的方法,我们的方法是基于。模拟给出部分4,部分5总结这项工作。
2。相关的工作
异常检测是数据挖掘和统计领域,和它建立了一个标准模型来判断相关的数据匹配模型。根据(23),传感器数据的异常检测算法分为三个方面,即(1)统计方法,分类异常通过测量的测量数据的概率相对于模型;(2)附近方法,它依赖于距离测量数据正确区分异常数据和数据;(3)prediction-based方法,过去的测量数据用于训练模型,它能预测下一个测量值的传感器数据。
基于机器学习的异常检测方法得到了太多的关注研究社区。使用机器学习算法对感兴趣的数据通过模式提取和培训相关的模型(24),基于异常检测的使用机器学习技术来检测异常行为在网络流量包25]。帕沙克et al。4)应用监督和非监督机器学习解决贿赂问题的传感器在物联网。在[4),交通模式的实时视图是基于孤立训练非监督机器学习方法森林异常检测;它创建标签根据交通模式,使用决策树监督方法监测物联网网关的流量,并将警报发送给管理员在检测到异常时。
金等。13]提供了一个方法,实时检测和异常条件的通知通过机器学习为学习生成合成数据集实时数据异常检测算法和基于封闭测试模型的递归单位和长期和短期记忆预测时间序列数据异常。金等。13检测和通知异常情况通过传感器数据在工作环境中。方法是基于prediction-based异常检测方法和神经网络评估使用合成生成的数据从时间序列趋势,季节,和噪声分量。金等。13)进一步解释了如何使用神经网络来检测异常以及如何评估模型。基于机器学习的结合和可视化数据分析,瓦西里•et al。26)提出了一个无线传感器网络异常检测方法。水管理系统作为一个例子,该方法测试,和必要的数据集是由使用软件测试异常检测模型。
不同于其他的作品主要集中在网络层和应用程序层,提出了一种自适应环境敏感异常检测方法(10)中心的物联网传感器系统的物理特性和识别异常事件环境中系统的性能。这个方法使用一个传感器关联算法可以生成指纹传感器,集群这些指纹,提取系统的上下文。然后,根据上下文信息和通过长期短期记忆神经网络和高斯估计量,系统中的异常源一起可被检测到。
通过区分敌对活动的交通模式的分布式智能空间编排系统,Reddy et al。9]提出了一种异常检测系统特性检查。Reddy et al。9)使用一个方法基于监督元算法叫做装袋(这是一个合奏元估计学习技术(27),考虑多个预测计算聚合预测)分类和处理恶意操作和训练classifier-based异常检测建立澄清模型根据入侵数据和预测系统通过识别当系统处于异常状态。
作者在16]研究了传感器故障和外部事件检测方案在无线传感器网络中。基于时空融合,陈等人。16)提出了一种分布式无线传感器网络异常检测方法基于看到下面成了quarter-spherical支持向量机(QSSVM)。在这种方法中,QSSVM模型训练来获取相关参数,然后训练模型用于网络的流数据进行分类,然后确定异常数据类型分为噪音,错误,和事件。通过将非监督时间序列数据转换为监督形式,Das et al。28)提出了一个有效的物联网传感器数据异常检测方法。为了确保数据不受固有噪声的影响,该方法执行Holt-Winters指数平滑法(29日)的数据集,然后火车的长期记忆神经网络异常检测。区块链是一个分布式网络等一些独特的功能分散,透明度和自治系统(30.),可以提高网络的物联网安全与合作。
3所示。预赛
在这个研究中,我们提出的方法主要由两部分组成,即。,local outlier factor and Chebyshev polynomials-based time series, and as mentioned previously, both the components or methods are lightweight in computing and are applicable to resource-constrained IoT sensor nodes when dealing with anomaly data. They are introduced as follows.
局部离群值的因素,或LOF,是一个最近邻算法。属性错误或异常分数每个传感器的阅读数量的基础上测量的数量再邻国和测量传感器读数。传感器读数高分数标记为异常(31日]。异常数据或异常值被视为传感器数据流,明显不同于正常行为数据,和异常值检测可以检测高概率的错误读取或数据损坏,从而确保收集的数据的质量传感器(32]。
LOF是density-based孤立点检测的一个基本假设nonoutlier对象周围的密度应该类似于社区周围的密度,而密度在一个离群值对象应该显著不同,在其附近。通过将每个数据点局外人因素取决于社区密度,然后评估数据点是否是个例外。数据的异常因素越大,越有可能是异常的数据。LOF的优点是,它给出了一个数据点的程度是一个离群值(33]。
LOF算法是基于两个主要组件,即可以到达的距离和当地可获得的密度(34- - - - - -36]。基于对象之间的距离和每一个点邻居,被定义为可及的距离
根据每个数据对象的平均距离在附近,可以获得密度参数,称本地访问密度定义为
通过平均值的当地可及密度的比值当地可获得的最近的密度k邻居,当地的异常因素被定义为
LOF算法背后的想法是计算离群值,画一个圆圈围绕任何但特定的数据点 ,所以至少数据点在圆,看看周围的邻居是(33]。
物联网传感器产生的数据的一个特征是由于观察到的变化的本质现象,数据分布在网络生命周期,可能会改变和异常检测技术必须能够适应非平稳的数据分布达到最佳性能(37]。为此,应用时间序列方法在我们提出的方法。
正如前面提到的,而不是直接使用传统时间序列方法,应用切比雪夫多项式近似时间序列是一个轻量级的方法特别是在比较两个时间序列的相似性,它不需要计算所有多项式,和相似之处可以观察到通过比较相关的切比雪夫系数(38]。在[39),让是一个多项式与学位和 ,在哪里 。因为 , 可以改写成递归关系,也就是说, ,在哪里 。由于切比雪夫多项式的特点,对任意函数 ,它可以近似 ,在哪里 表示切比雪夫多项式的系数。此外,根据Gauss-Chebyshev公式(40),系数被定义为
方程(4)只适用于区间函数并不能直接应用于时间序列的系数计算。离散序列需要扩展到区间函数。假设 是一个时间序列在哪里 和时间是归一化(−1,1)导致分工的间隔(−1,1)不相交的个子区间如下(39]。
地图为一个区间函数用 在哪里 。被扩展到区间函数,定义的时间序列 在哪里 , , 子区间的长度是 ,和权函数定义为 (39]。现在的切比雪夫系数时间序列计算如下,和上述计算步骤的细节可以称为(39]。
4所示。模拟
一种物联网传感器集群形成的氧含量一定的车间。一个普通的车间环境中的氧含量18%∼21%,否则应采取通风措施如果不是在这个范围内。每个传感器将相关数据转发到一个基站(BS)。集群包含80个节点,其中20恶意节点和60是正常的节点。假设正常的传感器节点正确意义和转发数据,而恶意节点选择性伪造或修改正常氧含量数据范围而不是18%∼21%以破坏系统。除此之外,其他几个假设也:(1)所有节点形成一个明星拓扑和均匀分布在一个圆形的区域集中在一个基站;(2)每个节点都有一个惟一的ID,和每个数据包的报头包含源节点ID、数据包长度,和包序列号;(3)传感器节点通信错误和1%直接每个传感器节点和基站之间的通信也假定。
基站定期将氧含量请求发送到网络中传感器节点。请求结束时,b节点首先使用LOF算法分析从网络接收到的数据,检查异常数据和标签对应的发送方节点的怀疑。其次,时间序列方法用于跟踪和分析可疑节点对其后续数据在接下来的请求。当分析结果大于给定的阈值,这些节点被证实是恶意的。然后,BS不会接受这些恶意节点的数据。
假设和是两个时间序列的数据,让和相应的切比雪夫系数向量 和 。通过比较对应的切比雪夫系数,可以获得两个时间序列的相似性。考虑到计算简单和节点节能,应用欧几里得距离这里,它被定义为
一个阈值设置在该方法测量距离,例如,如果 建立,它表明时间序列比较的结果是不正常,和相关的传感器节点被认为是恶意,应该独立于网络。
在数据1- - - - - -3我们测试正常的数据速率,或NDR。NDR的比例是正常的数据量接收到基站应该接受正常的数据量。米是切比雪夫的数量相似系数µ是阈值的计算。len表示时间序列的长度,使其等于一定数量的查询由b在不同的测试。我们把模拟分成三组来测试这三个参数对NDR的影响,分别。
在图1基站查询数量的增加,NDR值比较三组的参数继续增加,其中(米= 4,μ= 0.9,len = 10)是紧随其后的是最快的(米= 3,μ= 0.9,len = 10)和(米= 2,μ= 0.9,len = 10),相对最慢。例如,对于100查询、NDR的三组值约为0.85,0.84,和0.82,分别。这是因为时间序列和相关相似性计算有助于扩大异常节点的异常模式,有效地识别它们。它也可以注意到在图1这对NDR不同的系数有不同的影响。例如,NDR米= 4显著高于米= 2。但增加的米意味着需要更多的系数这肯定会使计算更加复杂。可以看出,NDR米= 4类似于NDR米= 3。因此,本研究建议米= 3。
使相似度的计算更加严格,不同的阈值μ设置在图2。5所示测试,更多的异常节点被识别,导致更高的NDR。例如,100查询,NDR的三组值约为0.91,0.90,和0.86,分别。请注意,μ应该适当减少;否则,正常的节点将被误判为异常节点。这是因为正常节点不能保证100%无故障运行的通信错误甚至死电池。从图可以看出2,NDR的区别μ= 0.7和NDRμ= 0.6很小,所以μ建议= 0.7。类似的测试结果趋势也可以看到在图3,设置不同的len值。例如,仍然为100查询,NDR len = 25大约是0.96,比其他的要高得多。len值越大表示更大的时间窗口和len值越高,NDR的效果就越好。然而,len的增加也会增加计算的复杂性,所以它应该是明智的选择。
5。结论
传感器节点收集的数据质量受到异常等异常事件和恶意攻击,当异常数据进入系统,整个系统的性能会影响使系统不可靠。因此,异常检测是一个必要的过程,以确保质量的传感器数据之前,用于分析和决策。在物联网领域,异常检测的目标是一个持续的研究领域提供保护,以防止异常的传感器读数。此外,由于其低廉的价格和商业吸引力,安全没有得到优先。因此,有必要保护物联网设备和智能家居从潜在破坏性的异常数据和相关源传感器节点。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者想表达自己的感激之情的CAFUC民航信息技术研究中心的支持和帮助。本研究部分支持的科学项目CAFUC格兰特JG2022-06和j2022 - 042号下,中央大学教学改革项目批准号。E2020044 E2021038,民航专业项目批准号。0252109和MHJY2022038,和四川科技项目批准号。2022年yfg0190和2022 jdr0116。