文摘

物联网(物联网)应用程序已使用在各种各样的领域包括智能家居、医疗、智能能源和工业4.0。而物联网带来的好处包括方便和效率,它还介绍了一些新兴的威胁。物联网设备的数量可能是连接,随着这种系统的临时性质,往往加剧了情况。安全和隐私已成为重大挑战管理物联网。最近的工作表明,深度学习算法是非常有效的物联网系统进行安全分析和与其他方法相比有很多优点。本文旨在提供一个全面的调查与深度学习应用在物联网的安全与隐私问题。我们的主要重点是深度学习加强物联网安全。首先,从系统架构的角度和使用的方法,我们研究深度学习在物联网中的应用安全。其次,物联网系统的从安全的角度来看,我们分析深度学习的适应性提高安全性。最后,我们评估深度学习在物联网系统安全的性能。

1。介绍

网络理论的进步和建筑符合传感器和微处理器的发展物联网铺平了道路,和应用程序等智能家居和智能城市现在越来越广泛的采用。据Gartner的数据,58亿年端点将部署2020年,比2019年增长了21% (1]。物联网的市场价值1900亿美元,2018年预计将达到1.1026万亿美元,到2026年,表现出24.7%的复合年增长率(CAGR)在预测期2]。银行和金融服务具有最大的市场份额,其次是信息技术和电信。医疗和政府应用也占整个物联网市场的一大部分。物联网的爆炸性增长提供了潜在的数十亿美元的设备连接并为各种应用程序交换数据。物联网提供的独特的特点也带来了一系列新的安全和隐私威胁,是一个主要关注物联网采用的可持续增长。

据报道,通常,物联网设备漏洞由于其有限的资源,可以让他们的攻击目标。数十亿的设备互连,许多和其他连接设备发起了一项有针对性的攻击在域名提供商动力学(3),造成拒绝服务(DoS)攻击GitHub等许多流行的网站,Twitter等等。许多的设备用于Mirai这种攻击的僵尸网络是使用默认的用户名和密码。连接自动车辆(骑士)是一个独特的物联网形式,然而攻击已经被证明是展示一个上网工具可以通过漏洞远程控制媒体的控制系统,可能导致严重的人身伤害(4]。高效、轻便的部署,许多物联网应用程序运行在嵌入式cpu与内存和电池容量有限。很多物联网系统设计突出了限制在计算效率作为一个潜在的攻击载体安全与隐私问题。物联网设备的广泛应用为核心控制器的关键基础设施,他们传达有价值的信息。Stuxnet [5)是一种证据确凿的恶意电脑蠕虫病毒,针对特定的工业控制系统(铀浓缩工厂),而暂停了伊朗核武器计划的进展。物联网技术发挥着至关重要的作用在增强现实的应用程序中,如医疗、智能家居、监视。

鉴于发展物联网系统集成的复杂性,这可能提供了一个广泛的攻击对手的表面。像Mirai僵尸网络,设备有弱身份验证的需求很容易妥协和控制作为攻击的一部分;随着连接设备数量的增加,这种攻击表面继续增长。

在本文中,我们研究如何使用深度学习加强物联网的安全与隐私的时代。首先,我们回顾在物联网系统安全和隐私问题。然后我们调查深上优于物联网安全和隐私应用程序和开发一个分类来考虑这些作品从深入学习算法的角度使用和物联网安全问题的解决。最后,我们提出未来的研究趋势和挑战,我们已经确定了。本文的主要贡献总结如下:(1)我们最近的工作的总结,并提供一个分类使用深度学习,加强物联网系统的安全和隐私属性以及深度学习如何帮助构建一个安全的物联网系统(2)我们确定在当前仍然存在的弱点研究之间的差异这些弱点和物联网的要求设置(3)我们调查了未来可能的研究方向转向深度学习加强物联网安全

2。背景

密涅瓦等人介绍了一个物联网系统的体系结构和突出特征的集合,一个系统必须具备为了被认为是一个物联网系统(6]。主要功能包括以下:(1)互连的事情。在这里,“事情”是指智能对象,可以收集、创建、过程,和存储数据从用户或应用程序的角度来看。(2)连接。物联网提供互联网连接的对象系统,包括设备、应用程序和关键物联网基础设施。(3)事情的唯一标识。物联网设备的唯一标识。(4)无处不在。物联网系统能够为用户提供服务,在任何时候任何地方。(5)传感/驱动能力。作为重要组成部分的感官环境,智能传感器可以从环境和收集数据传输到物联网系统。一个执行机构可以进行特定操作从物联网系统根据接收到的命令。(6)嵌入式智能。人工智能的发展物联网系统嵌入到边缘。(7)可互操作的通信能力。一个物联网系统应该能够使用标准和互操作通信协议进行通信。(8)Self-Configurability。因为有很多不同类地连接设备的物联网系统,它是自然的,物联网设备可能需要管理和配置,可以从软件和硬件资源分配管理。(9)可编程性或软件定义。物理设备的物联网系统可以很容易地定制用户的命令或软件定义函数不需要物理变化。

在我们之前的作品中,我们定义了一个面向服务的体系结构(SoA)为广大物联网(7),如图1。本文扩展了先前的作品详细感知层,网络层,服务层、接口层。传感层与可用的硬件集成对象感知事物的状态。网络层是基础设施,以支持无线或有线事物之间的联系。此体系结构的核心是服务层,包括服务发现、服务组合、服务管理和服务接口。服务层允许开发人员以满足最终用户的要求以最小的工作量。界面层包含与用户或应用程序的交互方法。我们采用这种架构的其余部分。

3所示。行为建模和分析物联网使用深度学习

深度学习(DL)被认为是现代人工智能的创始支柱(8]。DL已广泛应用于计算机视觉、语音识别,机器人技术,和许多其他应用领域。与传统的机器学习技术相比,深度学习有一些关键的优势。(1)使用许多隐藏层内的神经网络结构意味着深度学习可以适应复杂非线性属性之间的关系。(2)流行的架构如卷积神经网络(cnn)和长期短期记忆(LSTM)网络有能力直接从原始数据中提取和识别有用的特性(例如,autoencoders)而不是依靠手工统计特性表现在传统机器学习。(3)深度学习尤其适合处理大数据的挑战[9]。

数十亿的设备互连在一起感觉和共享信息在世界范围内,物联网系统自然产生一个巨大的数据量。深度学习拥有巨大的潜力来帮助用户分析(事件,应用程序)复杂的物联网系统的行为。此外,深度学习可以使物联网设备更有效地去学习复杂的行为模式比传统的学习技巧。

物联网是一个完整的生态系统,其中包含各种各样的设备和连接,一个巨大的用户数量,大量的数据。识别潜在的漏洞,存在于一个物联网系统,有必要看看整个物联网生态系统和行为表现,而不是专注于单个设备或层。在这项工作中,我们关注以下三个问题:(1)确定每一个物联网设备的唯一性分类、培训、和提取设备物联网设备的指纹;(2)研究物联网的网络行为;和(3)模型数据在物联网环境中滥用。

3.1。使用DL识别物联网设备的唯一性

每个设备的物联网系统经常会有一些固定的特性,如物理特性和它提供的服务。基于这些特性,我们可以从其他配置文件来唯一地标识设备物联网设备在同一系统。

例如,一个物联网数码相机可以用来拍照和记录音频/视频,甚至可能与社交网络数据源是否允许访问。CCD传感器的数码相机有一个独特的传感器模式噪声(SPN),可以用来创建一个独特的指纹设备的。这样的物联网设备的指纹也可以识别设备用户的基础上,可进一步分析使用技术,如深度学习。指纹一个物联网设备的一种手段,特别是物联网设备产生的数据(而不是仅仅依靠序列号,IMEI号码,等等)会特别有益的应该有一个需要识别恶意使用的设备在一个复杂的相互关联的物联网系统。同样,这个概念还可以使用指纹作为身份验证和连接设备之间的信任:(1)设备标识使用DL。设备标识的传统方法可能使用序列号,IMEI码,或其他静态标识符;然而,这些可能被欺骗或被攻击者。深度学习有可能确定类之间的细微差别,当考虑一个大特性集来描述数据,因此可以有效的设备标识如前面所讨论的。深度学习方法可以从信号中提取特征或产生的交通设备为了识别和识别设备。这方面的一个例子相机模型识别,目标是确定捕获图像提供的设备。工作(10)提出了使用深cnn自动提取特征的方法来识别捕获设备。他们通过减去计算残余噪声在图像去噪的图像的图像。然后使用剩余噪声作为CNN的输入模型提取和识别不同的特性从不同的设备类型。工作(11)使用一个CNN提取model-related特征,然后使用支持向量机(SVM)预测摄像机模型。在这两种情况下,深度学习的作用是主要的特征提取器。类似的例子也已经申请了音频设备标识(12]。电台指纹也一直在研究设备在哪里被他们的无线电设备属性。在[13使用部分),玉等人提出一个解决方案stacking-based卷积DAE通过重建high-SNR信号设备进行分类。基于射频指纹识别技术,巴赛等人提出了一个框架来检测未经证实的智能设备与深度学习14]。首先,他们用卷积神经网络自动提取高层从射频痕迹特征;然后,他们进行降维和深解相关特性。最后,他们使用聚类技术对物联网设备进行分类。(2)服务使用DL指纹提取。由于物联网网络的动态特性,很难保持静态指纹设备,因为它们是连接或从网络中删除。因此,建立一个动态行为基线是至关重要的。指纹识别物联网设备也可以是一个挑战由于物联网设备的异构特性,协议和命令接口。服务指纹识别物联网设备根据他们提供的服务,然后生成一个配置文件,可以用来识别设备的类型,它可能是。通常情况下,这是通过使用系统日志和网络流量作为输入来提取行为指纹。以前,研究人员采用机器学习解决的挑战在物联网15- - - - - -17]。Meidan等人提出一种物联网设备分类框架基于HTTP数据包分析(15]。他们执行这个双行程分类首先区分物联网设备和non-IoT设备,然后执行一个精密分类模型区分9个不同的物联网设备。在[16],作者提出近似模型物联网使用的通信协议的集合行为,和请求和响应的流量序列观察,从设备功能从网络流量中提取。最后,特点是聚合使用统计模型作为基本概要文件设备标识。在[17),该方案从每个数据包,提取到23特性,他们形成一个指纹矩阵,并使用一个随机森林分类模型。最近,深度学习已经采用了物联网行为指纹。文献[18)建议使用信息从网络数据包识别设备。他们观察到包interarrival时间(IAT)设备中是独一无二的。他们提取和情节的IAT图形包,每个图包含100 IAT。然后,他们使用CNN学习特性从设备图和区分不同的设备。另一项研究(19]试图自动识别设备的语义类型分析其网络流量。首先,他们定义一组从原始流量识别特性,这些特性是用来描述设备的属性。然后,他们使用LSTM-CNN模型推断出语义类型的设备。由于各种各样的设备和制造商在物联网环境下,其他研究人员(20.)认为,传统的入侵检测方法不能适当检测泄漏物联网设备的规模设备监控。他们建议DI¨OT,自学分布式anomaly-based入侵检测系统,身份损害设备。DI¨OT能有效建立device-type-specific行为概要文件以最少的人类的努力。联合学习利用DI¨OT有效聚合行为在不同设备。描述的作品与传统机器学习相比,使用深度学习,往往从原始设备自动提取交通特性。(3)设备完整性测试基于DL。硬件木马是一个主要的安全问题,硬件可以访问不受信任的第三方。基于信任的可用性(即。,golden) chips, hardware Trojan detection methods can be split into methods that utilise golden chips and alternative approaches. Traditional methods include one-class anomaly detection, two-class classification, clustering, and outlier-based, utilising training data such as on-chip sensor data and on-chip traffic data.

研究的主题深度上优于硬件木马检测方法是有限的但提高,与许多目前基于简单的神经网络作为一个异常探测器。在[等工作21),他们使用能耗数据作为模型的输入。为了减少噪声数据采集,使用小波变换。神经网络是用来区分正常芯片功耗和芯片性能的偏差可能存在木马的地方。温家宝et al。(22使用自组织映射(索姆)硬件木马检测。他们雇佣热点运行集成电路的稳态热图。然后,一个二维主成分分析(PCA)用于从热图中提取特征。使用SOM自动区分Trojan-infected芯片。这两种方法能够有效地检测硬件木马。莱西玛·et al。23)认为,存在一个大型intercluster正常节点和木马感染节点之间的距离,尤其是在可控性和转移概率。他们从芯片使用autoencoders提取特征,利用k - means找到木马节点。工作(24提出了从网络列表中提取特征;对于每一个网表,他们得到11特性。然后,深多层神经网络用于找出恶意网表。然而,他们扮演的角色是作为一个异常探测器与预定义的功能。建议进一步研究的深度学习在这个应用程序中仍然是必需的。

3.2。物联网的网络行为

在这里,我们专注于网络行为的造型由于物联网设备,包括设备的访问控制,connection-related活动,固件升级,远程访问和控制设备。特别是,它将有利于开发一个模型,可以确定通过网络恶意行为以阻止远程访问。以下网络活动将被认为是:网络不法活动/滥用,窃听拦截/劫持,停机,损害/损失和失败/故障。由于物联网设备通常是限制的计算资源,探测器被设计成操作设备将因此需要轻量级和维护效率。僵尸网络和DDoS是两个主要威胁一直在观察到的物联网网络在最近一段时间,比如Mirai僵尸网络,成功地访问和控制数以百万计的低级的设备。连接物联网设备数量的增加,将攻击的本质,试图利用这些进行大规模的DDoS操作。深度学习最近被用来试图识别这种攻击。Meidan et al。25)使用深autoencoders建立正常行为概要文件为每个设备。他们提取统计流量特性和火车autoencoders良性的交通特性。当应用于新的交通观测新物联网设备,存在一个更大的重建误差的训练autoencoder可以用来表明该设备可能被破坏。类似的方法用于Kitsune [26)使用autoencoders总体识别异常Mirai等物联网。上面的两个方法是假设正常交通活动大约可以重建,而异常会导致巨大的重建误差。虽然许多检测方法借鉴传统入侵检测和异常检测方法,上述两种方法考虑物联网环境中的异构和资源的限制。

其他方法使用CNN在物联网自动识别恶意流量。在[27),他们将流量包的有效载荷转化为十六进制格式想象成一个二维的图像。然后,他们使用一个轻量级的CNN框架,称为MobileNet从交通图像中提取特征和恶意软件分类。处理所需的体积流量分析在DDoS设置,在28),他们提出一个深度学习轻量级DDoS检测系统称为清醒。他们利用CNN重量共享属性分类的流量,使它有效部署在资源受限的硬件。有效地提取从网络流量特征,作者在29日)采用阻尼增量统计为基本特征。然后他们使用三角形区域地图(tam)的多元相关分析(MCA)生成灰度图像作为训练数据归一化交通特性。然后使用这些作为输入来检测异常的CNN学习模型。

3.3。在物联网环境中模型数据滥用

物联网网络收集的数据可以很有价值的,和滥用这些数据会导致严重的后果,例如,对—剑桥。因此,关键是物联网设备管理数据负责。生成的数据泄漏可能发生数据,使用数据和传输/存储在物联网的数据网络。例如,数据收集,智能电表将反映电力使用模式,气体或水,如果泄露会使攻击者的信息时,房子是否被占领。同样,这些信息可能暴露于其他智能设备如厨房和娱乐设备。智能物联网服务自然会旨在收集个人信息提供进一步的通知服务,个性化是视为丰富用户体验。五个上下文参数相关的物联网数据隐私是提出的30.]:位置(“”),收集信息的类型(“什么”),代理(“谁”),目的(“原因”)和频率(“持久化”)。在本节中,我们简要回顾相关工作数据隐私和数据的完整性。(1)数据隐私与深度学习物联网。在[31日),他们研究视觉物联网中的隐私设置。与低端物联网摄像头,他们提出了一个方法,构建隐私保护和forgery-proof高帧频视频。他们部署软件原型在三个不同的物联网设置:现场,车辆和空中监视。在[32),作者提出一个深和私法学习框架称为深私法器(DPFE)。基于信息理论的约束,他们训练深度模型,允许用户防止敏感信息共享与服务提供者,同时允许服务提供者使用训练模型提取批准信息。类似的工作在33)提出了一种特征学习框架,利用双重投影深度计算模型(DPDCM)。有别于传统的深度学习框架,他们使用双重投影层取代隐藏层,这可以从大数据学习互动功能。此外,他们设计训练算法适应DPDCM模型。提高学习效率,使用云计算。他们还提出保护隐私DPDCM基于BGV加密保护个人数据。(2)联合学习。最近,有很多兴趣发展中方法一个集体的设备可以提供对全局共享模型,同时维护隐私的本地存储在每个设备上的数据。这是适合在设置那里是一个人口众多的设备,将受益于集体知识但没有权利或设备来控制数据的所有权。智能手机设备受益于联邦学习改善预测服务的目的(例如,预测文本和位置建议)而不披露其他手机用户的信息。智能电表和其他物联网设备将以类似的方式中受益。的作品(34]表明,分散联合学习可以提高数据隐私和安全,同时降低经济成本。在[工作35)集成深度强化学习算法和联邦学习框架为一个计算系统物联网优势。他们工作的重点是提高边缘移动计算系统的效率。他们设计一个框架称为“边缘》中人工智能”设备和边缘节点之间的协作效率最大化。用这个框架,学习参数可以有效地交换更好的训练和推理。他们的框架可以减少不必要的系统通信,同时进行动态系统级优化和应用级的提高。王等人研究了广泛的机器学习模型优化的梯度下降算法(36]。他们的研究首先分析分布式梯度下降算法的收敛约束。然后,他们提出了一个算法达到最好的局部和全局参数之间的权衡学习而给定的有限的资源预算。(3)数据完整性与深度学习物联网。在物联网环境下,坚持诚信是至关重要的,以确保实际之间存在一致性,物理观测和传输数据或信号,表示这个活动。假数据注入(FDI)是一个攻击cyber-physical系统由传感器数据的修改,其中可能包括SCADA(监控和数据采集)系统广泛应用于国家关键基础设施部门支持。例如,FDI攻击一个发动机传感器可能会导致错误的传感器输出会导致严重影响身体的维护算法。同样,臭名昭著的Stuxnet攻击(5)涉及FDI伪造离心机的行为,然后导致物理破坏的前提。

最近,深度学习一直在使用假数据注入检测在互联网和物联网。在[工作37]运用深度学习算法学习从历史传感器数据和行为特征模型采用了实时模型推断出外国直接投资行为。王等人提出的类似工作。WangH2018使用两级稀疏的基于场景的攻击模型检测攻击在智能电网不完整的网络信息。有效地检测建立了网络攻击,他们开发一个基于区间状态模型的防御机制。在他们的模型中,他们用双重优化方法模型的上下边界状态参数,将最大化系统的变化区间变量。最后,他们采用深度学习模型正确学习非线性和非平稳的行为特性从历史电力使用数据。

3.4。深度学习物联网安全的方法

在本节中,我们将总结的方法使用深度学习技术来提高物联网安全。在此基础上,我们提出的方法,可以扩展对提高物联网安全。

3.4.1。功能的学习过程

传统上,特征提取由数据采集、数据预处理和特征提取。为了我们的工作,我们将单独出来进一步考虑四个步骤:数据收集、数据编码,功能定义和特征提取。图2显示了使用多层分层贝叶斯网络行为分析,分为安全特性的静态特性,动态特性和因果特性基于现有特征提取从物联网安全行为数据库。

在数据收集阶段,原始数据如射频信号、设备特性,热图,收集原始网络数据包。原始数据通常可以很大,混合数据类型,并可以包含许多不相关的记录,因此有必要建立如何管理这些信息。数据编码的过程定义基本包含在输入感兴趣的元素,如单个像素在一个给定的图像或单个数据包在网络通信流。在这里,我们将每个元素表示为x。功能定义阶段,数据组织这样一个连贯的理解可以分析的数据对象。通常情况下,输入元素可以组织为一个分布,一个序列,一个矩阵,或最近在深度学习,一个张量。数据编码后,原始输入可以转换为一种格式,可以作为输入深度学习模型。在这里,我们定义特性定义过程D后,然后数据可以表示成特征定义 在哪里D过程基本元素组织到预定义的命令。基于特征的定义,从输入特性。方法如统计方法、序列分析、频率分析、或使用机器学习从组织中提取特征数据元素。在这里,我们定义的特征提取 在哪里F用于表示特征提取方法。通常,特征提取的输出特性与固定长度的向量 在这项工作中,两步数据预处理阶段介绍:(1)一个数据编码过程,可用于从混合原料输入和提取合适的特征(2)特性定义过程提供了我们的数据的结构。

3.4.2。深度学习的设备特征提取

物联网网络可以包含大量的连接设备,指的是识别一个特定的设备在一个网络变得具有挑战性。在这里,我们专注于技术来提取特征,可以识别特定的物联网设备。

深度学习中最强大的一个方面是能够自动从原始输入学习有用的特性,例如,autoencoders。设备标识,深度学习设备特征提取方法可分为基于他们使用的原始数据。信息,如传感器噪声模式,无线电频率特性,或能源消耗可以反映设备的唯一性。使用深度学习,更高层次的特性可以被提取出来,甚至可以发现设备非常微妙的差异。在相机识别情况就是这样,生用相机捕捉到的图像可以聚集。在这里,我们首先定义设置为原始图像然后从图像中提取模式噪声,这被认为是独特的对于一个给定的设备。通常,噪音模式可以计算如下: 在哪里包含原始的原始图像噪声和吗F()去噪的版本。剩余噪声N被称为信号噪声通常是独特的对于一个给定的设备。从图像中提取信号噪声模式,统计方法治疗残余噪声作为一个二维分布和提取等特性的意思是,马克斯,偏态和峰态。使用频率表示,噪音信号可以被视为一个二维信号,然后方法如小波变换和傅里叶变换可以用来识别噪声的频率。不同于上面的方法,深度学习方法如(10)为信号噪声矩阵直接向CNN,旨在以最小的人工干预自动从噪声中提取特征。

使用深度学习,在11),他们学习信号噪声与信号模式噪声提取步骤。为每一个颜色图片,相机模型l作者提取K不重叠的补丁Pkk∈[1K),每个大小为64×64像素。为了避免选择不提供信息的图像的区域(例如,黑暗或饱和像素),他们排除了所有地区的平均像素值是接近一半的图像动态范围。他们使用CNN提取噪声特性表征区域。在这一组N(N−1)/2线性二进制svm训练来识别不同的摄像机模型的区别。

类似的工作已经进行了射频指纹识别(13,38]。在[38),射频信号(智商)收集来自多个设备。他们认为无线个域网设备基带作为一个复杂的时间序列表示如下: 在哪里n(t)代表了噪音。这里使用的训练数据是历史同步和正交(I和Q)数据从六个无线个域网传输设备(0)−1,10−−−5日15 dBm。16他们实验使用不同的窗口大小,32岁,64年、128年和256年,代表的数量输入序列转换成深度学习模型。最后,他们利用不同深度学习架构评估他们如何执行分类无线个域网设备。

从能耗的角度,一个热图的设备可以制定一个正常设备模板。通过这种方式,恶意修改的硬件能被检测出来。在工作22),作者芯片拆分成几个相等大小的网格。然后,他们使用一个随机生成的”激励向量“喂芯片运行。最后,对于每一个网格,他们测量稳态温度。二维主成分分析用于识别特征映射从原始热图。

培训设备识别模型,首先必须从设备收集的数据。然后,数据必须转换为提供特性,可以作为深入学习模型的输入。典型的输入可以依赖于深度学习框架,基于或statistical-based。然后,深度学习的帮助下,一个正常的模板可以制定的设备。

传统ML方法依赖于人类的努力来提取特征可能不容易规模当考虑物联网设备(39]。手动策划功能也可以容易受到攻击或可能被攻击。使用深度学习技术,如autoencoders代表功能可以自动识别,可用于指纹识别设备。

3.4.3。网络行为建模与深度学习

的基本元素,通常被认为是网络行为建模是包,流动和通信实体之间的对话。与其他数据,数据异构的网络流量。网络流量的基本输入可以分为三个部分:时间戳,连接标识符和数据描述。一个包可以被表示成p=<时间、标题、内容>。网络行为可以被正式定义为通信节点之间的数据包序列运行: 数据包分类是基于时间戳的地方。

鉴于异构网络捕获的本质,它可以挑战直接从数据包中提取特征序列。通常,统计特性计算在一些短时间间隔通知功能表示。特性,比如interarrival时间、包长度、包数,字节发送和字节收到可以提取。这些信息可以反映网络行为属性,如通信频率,交通量和连通性。此外,这些特征可以反映缓冲区大小和计算能力,也反映一个设备提供的服务。这个过程可以定义如下: 在哪里 可以表示成数据包的顺序下降时间窗口。通常,研究人员可能会从时间中提取不相关的统计特性,连接,和内容。

深度学习在网络行为建模中扮演两个角色:(1)自动提取高层从网络流量特征,(2)跨功能维度自动识别相应的特性。行为建模基于深度学习可以被定义为 在哪里H代表了黑盒,非线性函数用于深度学习。后一个固定长度的行为向量来表示网络行为可以实现。

如前所述,特性,比如interarrival时间和数据包长度可以通知设备属性,如缓冲区大小,计算能力,和设备提供的服务。CNN, LSTM等深度学习方法,可以提取出复杂的服务模式。比如工作(18),他们用interarrival时间(IAT)功能来生成一个图的IAT 100包。图被视为图像,图像转换为一个大小为150×150,让他们再给作为神经网络的输入来确定设备的行为模式。的研究(19)考虑网络流量设备包的序列。他们第一次交通分割成子流与固定时间间隔T。对于每个子消息流,特性相关的数据包数量,包长度统计,和协议相关的特征提取。然后,LSTM-CNN级联模型用于提取整个流的高级特性。两个(25,26)使用autoencoders获取物联网设备的正常配置文件。他们两人提取数据包大小,包数,包抖动,并从流的数据包,数据包大小,然后使用autoencoder重建原始输入中发现设备出现偏差行为。

3.4.4。建议的方法

(1)语义上有意义的设备建模。尽管深度学习方法在设备标识可能实现更大的精度,在语义上有意义的设备造型依然缺乏。因为每天可能的物联网设备的范围增加,基于签名的方法将无法识别新的设备类型和提供准确的设备属性的记录。在这里,我们提出一个框架语义上有意义的设备标识。解耦特性的主要概念是学习过程和设备识别过程通过一个中间空区的震动从来么的过程称为服务标识或功能鉴定。例如,一个功能集合可能包含以下活动:{捕获图像,录制视频,分享照片,让电话,播放音乐}。我们可以代表一个摄像头和一个智能电话如下:(1)相机(1,1,1,0,0)(2)智能手机(1,1,1,1,- 1)从上面的例子中,我们可以推断,将更健壮的语义表示设备造型。即使设备可能会经常更新,这些设备提供的基本功能会改变速度慢得多。使用深度学习,三步设备识别框架可以介绍:(1)使用深度学习,可以提取设备的基本特征;(2)从特征提取、功能或行为模型可以构造,和这一步的输出设备提供的功能或服务;和(3)使用推断服务类型来识别设备。正式框架的训练过程可以描述如下:步骤1。从设备包括信号噪声中提取数据模式,网络流量、设备热图和其他相关属性。这些数据被转换为张量的输入深度学习模型。我们定义的原始数据th设备d训练数据集D=dd2,···dn的设备类型th设备y,培训设备的标签Y=y1y2,···yn和函数的一组设备一个=一个1,一个2,···,一个k在哪里k是大小的函数集。步骤2。使用深度学习从原始数据中提取特征,在特征提取过程可以被定义为Φ,和提取特征被定义为f=Φ(d),f是向量的维度m。特征提取过程可以看作是一个非线性映射n维原始数据空间维的特征空间。步骤3。找到的特性和属性之间的映射。这里,映射可以是线性或非线性的决定,甚至基于决策树。这里的映射定义为Ψ,地图的输入尺寸为k维二进制向量,例如,(1,0,1,0,0)。步骤4。基于属性,使用贝叶斯定理计算最可能的设备类型。对之前的深度学习方法相比,我们的方法明确地分离特征学习和设备类型识别使用一个中间层。虽然功能的设备类型可能会改变迅速,服务功能可能会改变慢得多,所以通过使用功能(或服务)层,我们可以开发一个更健壮的设备标识的框架。(2)通过多层分层贝叶斯网络行为分析。与传统方法相比,深度学习可以学会从一组基本统计信息自动提取功能。一个优势是,深度学习可以找到高级复杂功能,这可能很难确定一个统计设置。同样,作为特征提取可以用于设备识别、网络行为建模使用深度学习可以被认为是使用相同的方法,主要区别是深层学习模式的产物。在物联网网络行为分析,深度学习的目的是确定在网络行为模式。使用这种网络行为模型,恶意行为可以识别在网络层。

然而,重要的是要注意,深度学习模型可能无法捕捉交通特性和交通行为之间的因果关系。因此,内部功能之间的关系和行为可能被忽视的训练过程,这显然是一个至关重要的方面在检查网络特征。在这里,我们在以前的工作遵循的方法(40),如图3同时,可以使用三种方法提取的特征:统计,与时间相关的,volume-related。

然后,使用一个三层贝叶斯网络,我们可以捕捉这些不同特性表征之间的相互作用。

4所示。评价

评估DL-based方法的性能,我们需要一组性能的措施,我们需要一些基准数据集验证深度学习框架。

4.1。评价指标

精度是最常见的一种措施用于机器学习。精确定义为真阳性的数量超过总数的预测积极预测(真或假)。在入侵检测系统中,fp将假警报的数量。 在哪里tp代表的数量分为积极的例子和正确的情况下fp代表的数量不正确的情况下,分为积极的。另一个常见的性能测量是召回(也称为敏感性)。回忆被定义为真阳性的数量在所有积极的实例预测。回忆可以定义如下: 在哪里fn积极的实例的数量是不正确归类为负(假阴性)。在入侵检测系统中,fn将攻击的数量未被发现。通常,有一个逆精度和回忆之间的关系,可以增加一个减少为代价的。

在二进制分类,通常F1得分(也称为F-Measure或f值)是用来测量精度。它结合了精度和召回同时计算出最后得分。F1的分数被定义为调和平均数的精度和召回。F1分数定义如下:

F1度量的最高得分是1,在本质上都完美的精度和完美的回忆都实现了。

接受者操作特征曲线(ROC)是一个图形化的情节,可以帮助我们找到一个二进制的歧视阈值分类系统。这是一个图形化的情节由显示的是真阳性和相应的假阳性率与不同的阈值设置。曲线下的面积(AUC)是用于分类系统的性能指标与不同的阈值设置。AUC代表ROC曲线下面积的大小,它可以被视为一种分离性的测量。它可以给我们多少信息的学习模式能够区分类。AUC越高,越好分类器可以预测结果与所提供的标签相匹配。从本质上讲,AUC越高,模型越高的分类能力。

4.2。评估数据集

(1)设备标识。比赛当天艳阳高照et al。17]介绍了捕捉_物联网哨兵数据集。他们收集网络流量在设置阶段31智能家居物联网设备的27个不同设备类型(4各类型由2设备)。他们重复收集过程为每个设备类型的20倍。IEEE信号处理学会(39]提供了一个相机模型识别数据集,图片展览噪音模式的相机模型。他们使用10个不同的摄像机模型来产生图像训练集。对每个摄像机模型(一个设备/相机模型),他们把275年完整的图像。他们使用相同的相机模型来创建一个测试集,但使用不同的设备。测试数据的每个实例包含一个512×512像素图像裁剪的图像的中心用相机拍摄的具体设备。(2)入侵检测和异常检测。Bot-IoT数据集(41)是由研究人员在堪培拉新南威尔士大学网络。他们模拟包括DDoS攻击,DoS操作系统和服务扫描,keylogging和数据漏出攻击在指定实际的网络环境。数据集包含了两者的结合正常和恶意流量。数据集提供了各种数据格式,如原始pcap文件,生成的Argus文件,并提取特征csv格式。协助标签过程中,他们单独的数据基于攻击类别和子类别。IoT-23 [42)是一种数据集由平流层实验室的研究人员从物联网设备模型实际网络流量行为。数据集包含23个捕获,3捕捉代表良性的物联网交通和20代表恶意流量捕获。对于每一个恶意数据包捕获,他们执行一个特定的恶意软件样本覆盆子π,与每一个恶意软件使用几个协议执行各种操作。样本数据集包含原始pcap文件和兄弟生成的json文件。他们独立的数据集到不同的文件夹提供标签。AWID [43)是一种数据集创建无线网络入侵检测。它包含交通来自现实世界的WiFi交通。Kolias et al。43)一些传统监督机器学习方法应用于对AWID执行入侵检测数据集。他们用互信息来选择排名前20位的信息最丰富的特性,然后火车8分类器。结果表明,他们的框架可以实现整体精度从89.43%到96.2%不等。在原始AWID数据集,每个数据实例包括155标签特性以及相应的培训。(3)数据隐私。李等人研究了14个物联网方案(30.)随机结构五个上下文参数创建物联网场景描述。他们要求用户使用自由文本字段来描述他们的观点。然后用聚类分析来推断出这五个上下文参数如何影响人们在物联网环境下的反应。一个聚合电子信号的数据集,即REDD (44),来推断成立设备在智能电表,它也被称为能量解集的任务。REDD计划数据集包括推动整体住房改造和电路/特定于设备的用电量的真正的房子几个月的时间。利用这些数据,研究人员能够识别设备和用电之间的通信。

5.1。研究挑战

(1)效率。物联网设备的资源约束仍对部署深度学习模型的一个重要障碍。记忆效率和时间效率将在实现深度学习的两个核心问题在实际物联网系统。尽管深度学习模型可以离线训练,如何部署模型仍然是一个问题。深度学习的力量来源于大量的非线性模型,堆放神经元用于深度学习架构。深度学习模型使用原始数据,通过分层神经元通知决定。如何减少存储和计算所需执行的深度学习模型在资源约束应用程序是一个持续的挑战。随着深度学习方法的发展,各种新架构超越最先进的性能。然而,许多人不一定是为物联网开发设置。完全这些算法适应物联网环境肯定会有助于改善性能的最近的研究(45,46]。(2)自适应。设备和应用程序在物联网生态系统进化的每一天,所以深学习必须适应以同样的方式。在现实的网络中,零日攻击会发生。随后新设备引入物联网系统。另外,网络流量的分布或信号频率可能会改变新设备加入网络。一个静态模型很难适应不断变化的条件和训练,所以可能导致假阳性和假阴性的增加。另一个请求从最终用户不断变化的元素。这些变化带来新的挑战深度学习应用在物联网设置。深入学习算法必须应对飞速发展环境从宏观和micro-perspective。另一个考虑因素是,许多物联网设备可能部署在广泛领域。部署环境中,物联网的属性可能会有所不同。再培训一个深学习模式为每个设置不仅花费大量的时间,而且需要进一步标记的训练数据。(3)异构数据。物联网设备产生大量的数据与不同类型和规模,如信号频率和网络流量的数据,尽管他们可能源自相同的设备,他们会有不同的格式。即使在规模相同类型的数据可能有所不同,如包数和字节数。尽管他们都属于网络特性,他们使用不同的规模。如何处理这些异构的数据是一个持续存在的问题(47,48]。

5.2。研究趋势

(1)资源高效的深度学习。这里有两种方式对资源有效的深度学习:(1)修改深度学习模型本身,压缩或修剪原始深度学习模型和(2)结果缓存,防止重复计算设备之间通过共享结果。前照明研究神经网络专注于压缩密度参数矩阵为稀疏矩阵。一个可能的方法来降低模型复杂度将参数转化为一组小密度矩阵。一个小稠密矩阵不需要额外的存储优化元素指标和有效地进行处理。深度学习模型的最终目标是提供信息的决定。一个问题是,如果需要为每个事件决策系统。一个观察表明,与更多的计算能力将传达更丰富的服务设备,而计算有限的设备将倾向于做一组有限的就业机会。所以,可以缓存结果,而不是重复计算相同的决定?类似的想法已经被广泛应用于计算机体系结构和操作系统的设计。方法等最新最近使用(LRU)长期以来一直使用的操作系统,以避免重复存储访问,可以减少大量的不必要的计算。(2)终身学习。人类和动物有能力很快适应新环境;他们可以不断获取、调整和转移知识和技能在他们的寿命。这种能力,即终身学习的能力,是由一组丰富的神经认知机制,有助于发展和专业化我们一起感觉运动技能以及长期记忆的巩固和检索。因此,终身学习能力是至关重要的交互学习系统和自主计算代理在现实世界和处理连续流的信息。在物联网环境中,不断变化的环境和低功率设备,终生学习是需要创造更多的智能和高效的代理。然而,在机器学习终身学习仍然是一个长期的挑战。终身学习中最常见的现象,用传统的机器学习算法叫做灾难性的遗忘,这意味着通过不断收购逐步从未知的非平稳数据分布可用数据会降低学习算法的性能。这打破了深度学习或其他机器学习的基本假设,需要一个固定的数据分布在训练数据。改进缩放深度学习算法在物联网环境下,终生学习是需要配合信息增量可用。

6。结论

在这个调查中,发现整个物联网设置深度学习提供了巨大的潜力。本调查主要集中在深度学习技术的使用调查设备物联网背景下的安全特性。具体来说,基于深度学习设备全面讨论分析和指纹。语义上有意义的设备建模的方法提出了使用功能层来改善功能为设备标识映射。最后,我们讨论了挑战和研究趋势,我们打算在我们未来的研究探索。

数据可用性

没有数据可以公开共享。

的利益冲突

作者宣称没有利益冲突。