研究文章|开放获取
振鹏,南苏、谊文秦Jiahuan,大李, ”一个随机森林深处引发网络入侵检测模型”,移动信息系统我>, 卷。2020年, 文章的ID6633252, 16 页面, 2020年。 https://doi.org/10.1155/2020/6633252
一个随机森林深处引发网络入侵检测模型
文摘
本文重点是网络安全的一个重要研究问题。作为一种主动防御技术,入侵检测领域的网络安全中起着重要的作用。传统的入侵检测技术问题,如低精度,检测效率低,耗费时间。机器学习的浅层结构一直未能及时回应。要解决这些问题,基于深度学习方法研究了改善入侵检测。深度学习的优点是有很强的学习能力的特性和能处理非常复杂的数据。因此,我们提出一个深随机与森林有关的网络入侵检测模型。第一阶段使用滑动窗口来段原始特征分成许多小块,然后训练随机森林生成rerepresentation连接类向量。向量将用于训练多级串联并行随机森林在第二阶段。最后,原始数据的分类是由级联的最后一层后投票策略。 Meanwhile, the model is deployed in Spark environment and optimizes cache replacement strategy of RDDs by efficiency sorting and partition integrity check. The experiment results indicate that the proposed method can effectively detect anomaly network behaviors, with high F1-measure scores and high accuracy. The results also show that it can cut down the average execution time on different scaled clusters.
1。介绍
云计算的快速发展,边缘计算,和5 g技术已经广泛渗透到我们的政治、经济、文化和生活的其他方面。每天产生的大量数据从这些场景将促进更有价值从大数据输出;同时,这些广泛应用的前景可以让大数据复杂和不安全。考虑到复杂性、高维度、异质性和处理大量数据的速度,潜在风险不仅存在于系统架构也在数据本身。大多数传统保护解决方案不能满足需求在大数据环境下,因为分布式数据源很难定义数据集的边界,这将威胁到被分析的数据的真实性。
离群值也被称为异常或偏差者在数据挖掘和统计分析。在网络空间安全、孤立点检测是一个过程来分析犯罪嫌疑人的键值或行为模式是明显不同于正常的对象。检测算法识别异常,然后清洁确认数据,确保数据安全。异常值检测目前在学术界和业界的一个热门话题。例如,异常斑点出现在磁共振成像或其他类型的医学诊断设备通常表明疾病条件下,从不同寻常的地点和离群值记录在产品支付或频繁的大型交易将有助于发现在金融情况下信用卡欺诈。在社会媒体和其他的例子是谣言检测拥塞检测在城市交通管理(1- - - - - -3]。在这些挑战中,网络入侵检测是网络安全的关键4]。网络入侵检测技术的设计和配置,以确保计算机系统的安全,可以检测计算机网络中违反安全策略的行为。软件和硬件相结合的入侵检测是一个入侵检测系统(IDS)。入侵检测系统(IDS)的目的是分析网络流量或一台机器的活动为了发现nonauthorized活动。这些活动可以是恶意软件或相关的人类攻击(在本地或远程操作5]。已经有许多机器学习算法被广泛用于识别异常值在网络6- - - - - -8]。但最传统的方法主要是有限的和不可接受的精度检测当网络数据往往是复杂和高维的,如反向传播(BP)、支持向量机(SVM)和随机森林(RF) (9];的准确性UNSW-NB15数据集不超过91%10]。的浅层结构显示,机器学习已经脆弱的回应。尽管入侵检测是一个关键问题,研究方法,结合深入学习和研究机器学习仍不足(11]。虽然深层神经网络是强大的,他们是非常复杂和hyperparameters太多,和学习性能严重依赖于这些hyperparameters仔细调优,所以培训成本是巨大的。上面的场景通常使深层神经网络的训练非常努力;有时,它就像一门艺术而不是工程。这启发我们探讨网络异常检测的其他深度学习结构。
整体学习是机器学习的一个重要方法,和随机森林是整体学习的经典算法之一。它适合高维数据,只有几个参数,和RF的训练并不复杂。所以,我们考虑使用森林作为一个层来代替我们深的神经元网络结构。除此之外,每一个决策树的训练随机森林是独立的,这是自然的并行部署。每一层的森林深处结构可以并行部署加快培训过程。
为了减少造成的障碍众多参数目前的入侵检测和基于深度学习方法进一步提高分类精度和可扩展性,提出了一种基于特征检测模型分割和深层结构的并行随机森林(FS-DPRF)。本文的主要贡献如下。(1)提出了一种级联结构的随机森林深处,每一层是并行提高准确性和可伸缩性和适合大规模数据检测任务。可分为各种类型的攻击。(2)介绍了滑动窗口将高维特征分割成小尺寸特征向量训练,这可以减少每个计算的计算量,保持原始信息的完整性。(3)与经典的平行随机森林引发相比,优化替代抽样的方法在内存中加载效率排序和分区完整性检查,可提高集群任务执行效率。
验证该模型的性能,与其他算法相比,在四个网络入侵数据集,和实验结果充分证明了该模型在网络异常检测的有效性。
本文的其余部分组织如下。部分2评审的相关工作。节3,我们说明用于入侵检测的检测模型。部分4介绍了并行内存优化设计模型。评价模型与一系列的实验部分5。最后,提出了本文的结论部分6。
2。相关工作
目前,许多学者研究了入侵检测问题。最近的一项调查Buczak和Guven12)做了一个全面审查当前的入侵检测的数据挖掘和机器学习方法;调查描述算法的优点和缺点,提供了一个明确的未来的工作前景。经典的算法可以分为人工神经网络13,14),clustering-based,整体学习贝叶斯网络,15],基于svm [16,隐马尔可夫模型(摘要)。Khalvati et al。17)提出了支持向量机的混合学习(距离sum-based SVM, DSSVM)方法。DSSVM,距离总和计算基于每个数据样本之间的相关性和获得的聚类特征维度的数据集,然后使用支持向量机分类及检出率高。Vinayakumar et al。18)卷积神经网络(CNN)用于网络入侵检测,研究模型的网络流量时间序列,然后使用监督学习方法模型TCP / IP协议数据包在一个预定义的时间范围。这种网络结构在入侵检测的有效性证明KDD99数据集。Potluri和Diedrich19]提出了加速深层神经网络(A-DNN)结构,并用于识别异常网络数据和处理一个加速器的平台。实验结果表明,该方法是可行的和有效的在NSL-KDD。高et al。20.]介绍了深层的信念网络异常检测的领域。多层玻耳兹曼机是用来形成一个神经网络分类器。当使用深层信念网络KDD99数据集与支持向量机相比,前者显示了更好的性能。Dominguez et al。21)评估无监督算法从不同的研究领域通过大量的对比实验和无监督特征学习工作在大多数情况下,但仍然缺乏可解释性和需要手工分析。Hundman et al。22基于LSTM)提出了一个模型和一种新的动态阈值的方法。模型不依赖于稀缺的标签或错误的参数假设处理时间序列数据和实现精度高具有良好的解释能力。Manzoor et al。23]介绍了density-based合奏feature-evolving流方法问题,衡量异常值在多尺度或粒度,特别是在高噪声环境下工作。
近年来,叠加方法(24]在整体学习和提高的方法已经成为流行。刘等人。25)提出了隔离森林算法建立一个异常指数的基础上,从叶节点到根节点的路径长度。全球离群值的检测效果很好,但它是弱在当地处理稀疏的点。梯度提高决策树(GBDT)弗里德曼提出的26)生成一个预测模型的一组基本的学习者和结合了基本学习者变成一个强大的学习者通过迭代。每次建立模型,模型的损失函数的梯度下降方向将会成立。在连续的迭代中,剩余不断减少产生垂直深化树。它有高的预测精度和鲁棒性强的优点离群值。陈和Guestrin [27)提出了一个可伸缩的树增加系统(XGBoost);其主要思想也促进根据损失函数的负梯度方向。最大的区别在于经验误差是由二阶泰勒展开,扩大和一些常规的条目被添加,使损失函数可伸缩、有很高的精度和很好的拟合效果。但是有太多hyperparameters使分类相当依赖于优化结果。苏et al。28)提出了一个入侵检测方法使用XGBoost算法在不平衡数据集;它使用改进的击杀算法oversample少数样本和downsample多数样本。方法是基于的前提下,改变原来的特性分布的数据,这不仅增加了模型的计算负担,也容易失去一些重要的信息在样例并影响最终的检测性能。Farnaaz和贾巴8)提出了使用随机森林算法来检测各种类型的攻击和NSL-KDD数据验证模型。结果证明DOS的检测精度,探测器,U2R R2L是改善,但功能处理的能力弱。在最新的研究中,罗伯特·et al。5)提出了一个probabilistic-driven合奏模型(PDE),使用逻辑回归算法评估整体学习分类器的影响。模型不包括较低的预测概率的分类过程,结合最有效的算法通过加权概率标准。NSL-KDD数据集上的实验表明,PDE的高性能检测入侵。周et al。29日)提出了一个新颖的整体系统基于修改的演算法与曲线下的面积(M-AdaBoost-A)算法。诸如SMV的策略和算法应用于多个M-AdaBoost-A建立分类器相结合。它显示了更好的表演两种入侵检测问题:802.11无线网络和传统的企业网络,但它缺乏时间消耗的评估模型。汗等。30.)提出了一种深度学习模型(TSDL)基于堆叠autoencoder soft-max分类器。他们的深度学习模式以级联方式工作;模型使用一个概率评分值作为附加的功能最终决定阶段为了检测正常状态和其他类的攻击。TSDL取得了令人印象深刻的成果在UNSW-NB15多级检测的准确性和KDD99。
深度学习模型通常具有良好的性能,但它有太多复杂的hyperparameters调整。在大多数情况下,似乎很难有一个好的表现较低复杂性。模型来解决这个问题,我们提出了一个滑动窗口和深层结构在随机森林,提高决策树的多样性,从而提高集成学习的泛化能力和网络入侵检测的准确性,也少得多的参数。与此同时,我们的方法优化了数据缓存替换的抽样火花集群和减少检测任务的执行时间。
2.1。算法选择标准
算法的选择需要参阅IDS的体系结构,可以分为集中式结构和分布式结构。
大多数IDS算法使用一个单机集中式结构,也就是说,一个主机上执行数据收集和分析。该方法基于主机审计数据进行检测。集中式结构具有结构简单,容易实现。缺点是处理时间是缓慢的。因此,适用于小型网络系统。
分布式结构包括层次结构和协作结构。层次结构是树类型分层系统,本文提出的模型,它结合了一个集中的结构的简化和分布式结构的鲁棒性。分布式结构也使得检测时间更快,适合大规模网络系统。
3所示。模型描述
提出了检测模型被描述为功能细分,并行随机森林深处,和投票策略。特征线段模型的第一阶段,这段原始特性来降低高维数据的计算量在一个计算并生成一个连接类向量作为新表示。在第二阶段,连接类向量将用于火车深并行随机森林预测原始数据类型的一个概率分布。最后,投票策略后级联的最后一层将确认异常。图1显示了FS-DPRF模型的概述。
3.1。功能段
第一阶段模型中简化了原始数据的特性,如图2通过使用滑动窗口部分功能分解成许多相同大小的特征向量;每个特征向量的数据维数小于原来的特性,和它减少了计算量在每一个计算随机森林。假设一个线性特征向量的长度<我>n我>,窗口功能片的长度<我>米,我>每一次幻灯片1单位长度,<我>n我>−<我>米我>+ 1<我>米我>维特征向量生成。假设有一个包含检测任务<我>c我>类别、特征处理后的线性特征向量的长度<我>n我>将生成一个新的特征向量的长度<我>c我>(<我>n我>−<我>米我>+ 1)。类似地,对于一个图像数据,功能段将生成一个新的特征向量的长度<我>c我>(<我>n我>−<我>米我>+ 1)2。例如,有一个入侵示例数据包括40特性和有四种类型的攻击如DOS(拒绝服务),R2L(远程到本地),U2R根(用户),和探针(监测和调查)。和片窗口大小设置为10。然后,会有一个共有31个特征向量,其中每个十维。
之后,每个特性向量顺序将放到一个单层随机森林,然后,类概率向量(31日将生成。类的生成过程的详细解释概率向量是描绘在图3。
的熵特征向量计算的基尼系数在节点分裂。基尼指数模型计算熵定义在以下方程。 在哪里<我>t我>是目标分割节点,然后呢代表节点的概率<我>t我>属于类<我>C我>k我>。
派生类的概率是集团的价值观,最终落在叶子节点,然后平均的预测决策树在森林里,得到输出类向量。31日特征向量之前将转变成31类向量的每一个是四维的。最后,如图2,所有类向量将连接形成rerepresented特征向量作为增强表示对应于原始数据的功能。和新功能将被用作输入训练随机森林瀑布下一阶段。
3.2。并行随机森林深处
并行随机森林层叠堆积的森林深处的结构形式。每个新层的级联结构连接rerepresented特征向量和上一层的类向量作为输入。具体地说,每一层的级联编码脉冲计数输入样本上的所有决策树的预测结果并生成不同的类的概率分布,为类向量。随后,类概率向量转换功能,将连接是由功能分割训练下一层。例如,rerepresented将输入特征向量在第一阶段训练随机森林瀑布。第一层的级联将输出一个四维类向量根据前面的假设;然后,它将与输入特征向量训练下一层等等。并行随机森林深处的结构如图4。与并行随机森林相比,级联编码脉冲可以提高整体学习的泛化能力。值得注意的是,每一次新的级联层扩展,将随机抽取80%的级联结构的训练集,其余20%的速度增长作为验证集的验证新的级联层的性能。性能改进是低于阈值时,将自动终止训练过程和级联编码脉冲数层将是最终决定。
3.3。投票策略
在整体学习,个体学习者将输出后的最终预测通过投票方法结合独立判断。对于一个实际的孤立点检测的任务,它可以简化为一个异常分类任务,识别异常值通过投票策略。最后一层的预测在级联编码脉冲将最终结果输出类决策树的最后一层,然后,决定通过投票策略基于概率分布。多数投票是用于异常检测任务与高可靠性需求。如果样品收到一半以上的选票,这是预测作为一个局外人,否则它将被拒绝。预测结果是必要的,但是,如果任务多数投票的多数表决方法将退化方法;在这种情况下,如果许多预测结果得到相同的选票时,人会被选中。绝大多数投票和多数投票被定义为 在哪里<我>h我>我我>代表了决策树我我>,<我>T我>代表了决策树在森林的数量。<我>N我>是概率向量的维数。<我>c我>j我>是一个类的标签集合{<我>c我>1我>c我>2我>c我>3我>c…我>N我>}。基本的学习者<我>h我>我我>将预测属于类标签的集合{<我>c我>1我>c我>2我>c我>3我>c…我>N我>},的概率分布<我>h我>我我>对样本<我>x我>是一个<我>N我>维向量 ,在哪里的输出的概率是多少<我>h我>我我>类标签<我>c我>j我>。
介绍了FS-DPRF算法的详细步骤1。
|
4所示。并行化在火花
火花是一个分布式计算框架由加州大学伯克利分校的AMP实验室。火花支持多种方式结合其他大数据平台,使他们能够有效地处理大规模的数据。基于内存的弹性分布式数据集(抽样)机制允许在中间数据缓存在内存中(32),节约了大量的I / O操作开销,和很适合迭代和合奏算法。框架处理中具有独特的优势。每个决策树建立射频是彼此独立的,和决策树的每个节点独立也存在分歧。FS-DPRF的结构模型和基于决策树的森林使计算任务有天然的并行性33]。然而,训练数据并行随机森林里生成过程需要多个迭代,和大量的抽样数据块需要重用的迭代,直到满足收敛。火花的默认最近最少使用置换算法(LRU)无法应付我们的模型重用的要求抽样数据块,因为它可以很容易地交换high-reuse块缓存,导致低效率的工作执行(34]。基于这些事实,缓存层次替换优化为抽样对象,这可以有效地提高集群构建FS-DPRF过程中执行效率。
4.1。高重用缓存
首先,火花的缓存机制分配一个缓存管理器每个工人管理抽样和计算缓存大小。抽样数据需要存储大小不大于剩余的内存。否则,更换将会实现。 在哪里<我>年代我>我我>代表所有抽样的总大小我我>分区,<我>年代我>ij我>分区的大小吗<我>j我>的抽样我我>。抽样分区之间的计算成本是另一个非常重要的因素,这被定义为 在哪里<我>圣我>ij我>开始时间,<我>等我>ij我>是每个抽样分区的结束时间;两者都是通过分区机制引发的依赖。请注意,<我>CT我>ij我>已经包括了通信开销。因此,我们可以得到每个抽样的重量,定义如下:
在这里,<我>W我>(<我>R我>ij我>)是分区的重量<我>j我>的抽样我我>,我>和<我>W我>(<我>R我>我我>)是抽样的重量我我>。<我>μ我>是一个影响因子定义为一个不同的工作环境。<我>f我>(<我>R我>ij我>)代表分区的使用次数<我>j我>的抽样我我>。
第二,处理时间是线性相关的数据块的大小。的执行时间抽样可以用百分比抽样大小占据内存大小的火花集群环境。 在哪里<我>T我>(<我>R我>ij我>)代表分区的执行时间<我>R我>ij我>。<我>年代我>ij我>的分区大小<我>R我>ij我>,<我>年代我>缓存集群的记忆中。因为每个分区并行执行任务集下的抽样,抽样的总执行时间是所有分区中最长的。最后,执行效率的抽样可以量化为体重的比例随机数字拨号改为执行时间的价值,和<我>ε我>(<我>R我>我我>)是用来表示每个抽样的执行效率,这是定义在以下方程:
有向无环图(DAG)的火花将生成抽样的抽样阶段,结构树;然后计算每个抽样和缓存的执行效率高重用抽样的地图cacheList抽样我我>,<我>ε我>)。高重用缓存方法的步骤描述算法2。
|
4.2。分层的替换
分层更换是第二步的并行优化。它分类抽样的目标在更换之前,优先处理不完整的抽样。因为它是图所示5,我们设计IntegrityCheck验证抽样函数,函数将检查分区和记下标记的完整集合中的记录分区状态。如果抽样的分区是不完整的,它将被标记为错误和被取代;否则,它将被标记为真实的。然后,抽样效率较低根据地图将被替换cacheList抽样我我>,<我>ε我>)。分层的过程替代提出了算法3。
|
5。初步假设和假设
有三个初步假设性能优良的深度学习模型:(我)层一层的处理(2)功能转换(3)足够的模型复杂性
传统的机器学习方法如决策树一层一层地处理,但他们缺乏足够的复杂性。合奏的方法可以增加的复杂性,如随机森林,但它仍然是不够复杂,因为没有功能转换过程,和执行的处理总是在同一个特征空间。因此,我们的主要假设是,功能分割和级联结构可以使随机森林增加功能转换能力和足够的复杂性在原来的基础上,从而提高泛化能力。的另一个假设是,优化spark-based抽样缓存替换策略可以降低该模型的训练和检测时间。实验需要角色的转换特性数值特征训练模型。结果和分析下面的证明假说声称。
6。实验
6.1。数据集和预处理
为了评估该模型和实验结果报告,四个选择入侵数据集,即。,NSL-KDD [35],UNSW-NB15 [36],CICIDS2017, CICIDS2018 [37]。
NSL-KDD KDD 99数据集的改进是一个收集从一个模拟网络环境美国空军在9周。训练集不包含冗余记录。此外,没有重复的记录在测试集,使检测率更准确。每一块数据包含43特性包括一个标签。标签分为5类,包括攻击和正常。的攻击类型分为四类:DOS(拒绝服务攻击),R2L(未经授权的访问从远程主),U2R(本地超级用户特权的未经授权的访问),和探针(端口监控或扫描)。正常是正常数据。
第二个实验中使用的数据集是UNSW-NB15。数据收集在2015年澳大利亚的真实网络环境下网络安全中心(ACCS)。网络流量记录包含真正的正常活动和攻击行为。的网络记录该数据集包含49个网络特性包括一个类标签,并有10种网络包括正常行为和异常9入侵攻击。CICIDS2017和CICIDS2018数据集是最近的数据集,是由加拿大学院的网络安全。这两个数据集是接近真实的网络环境。CICIDS2017包含83原始功能。我们已经删除了一些特性,比如源和目标IP、ID、和时间戳,因为使用这个信息可能导致过度训练。最后,我们得到了一个包含80的特性和选择2515416样本数据集实验。CICIDS2018相似,我们也删除一些不必要的特性和选择一个公正的原始数据集的子集。 All datasets details are shown in Tables1- - - - - -5。
|
||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
四个数据集的特点是由许多数值特性和几个字符的特性字符不能直接用于拟议的入侵检测模型,和实验使用一个炎热的编码方法将从性格到号码。例如,第二列的NSL-KDD数据集“protcol_type”包含三个不同的价值观:“tcp、udp,”和“icmp,”和编码代表他们[0,0,1],(0,1,0),(1,0,0)。编码后,数据规范化,避免值之间的大小关系会影响训练的结果,和所有的特征值映射到区间[0,1]。 在哪里<我>y我>我我>代表了价值特征归一化后,<我>x我>我我>代表了特征值和最小值(<我>x我>)和马克斯(<我>x我>)表示的最小值和最大值范围内的特性值,分别。
实验集群部署在河北大学高性能计算中心,这50由一个主节点和从节点。每个奴隶节点的硬件条件是2英特尔至强2680 e5 v2(常春藤桥| 10 c | 2.8 GHz), 64 GB的DDR3 ECC 1866 MHz四通道内存。此外,主节点配备4Intel Xeon e7 - 4850 (Ivy Bridge | 10 c | 2.0 GHz)和512 GB DDR3 REG 1333内存。内部连接的带宽是56 Gbps IB和芯片传输延迟100 ns。所有节点的系统设置是centos - 7 - genericcloud - 1503。Scala-2.10.5 qcow2, Hadoop 2.6.3,引发1.6.1。
6.2。Hyperparameter设置
在本部分中,NSL-KDD为例的数据集的影响来说明hyperparameters提出模型和演示的过程参数调优。
方程(11)解释,大约1/3的样本集合中不会出现设置只要引导,叫做out-of-bag (OOB)数据。
这些数据将不参与决策树的建立,可以代替验证集的验证模型。
OOB误码率计算来评估不同的滑动窗口大小对模型的影响。从图可以看出6,当窗口大小<我>d /我>4,平均错误率最低,平均OOB出错率是最高的<我>d /我>16,<我>d我>是长度的原始特征。这个结果解释,更细粒度的窗口大小不一定是更好的在提高模型的泛化性能。与决策树的增加,错误率开始收敛在0.06左右。所以,最后建议<我>d我>/ 4是合适的大小。
然后,通过使用10倍交叉验证其余的参数调整。例如,n_estimators是决策树的数量。一般来说,更多的树木使模型更加健壮和更好的性能。考虑一个更广泛的可用性,我们搜索的范围(0,500]步长50和比较结果后10倍交叉验证最优值。最后,表6总结了hyperparameters FS-DPRF设置。
|
||||||||||||||||||||||||||||||
6.3。模型评价
在本节中,我们比较FS-DPRF和并行随机森林(脉冲),DSSVM [17],A-DNN [19]。分类性能测量的精度,精度和召回F1,检出率(博士),和假警报率(远)。F1的分数是一个评价指标,综合考虑召回率和精度,及其定义见方程(13)。F1的分数越高价值意味着更好的算法的分类性能。评价指标定义如下: 其中TP表示真正的攻击数量预测攻击类型,FN代表真正的攻击预测正常数量,《外交政策》代表了真正的正常预测攻击类型,数量和TN代表正常正常数量的预测。比较结果的平均值得到十个实验在不同的数据集。为了验证模型的性能在两个分类:正常和攻击。在本部分中,所有攻击类型被视为异常类型。我们所有的数据标记为两种类型:正常和异常。表7显示了正常和异常的比较结果在给定的数据集。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在NSL-KDD数据集比较算法的准确性超过90%,和深层神经网络取得了98%的好成绩,但它仍然是比FS-DPRF低了1%。同样,精度和召回反映,我们的模型确认正常网络行为的能力是最好的。UNSW-NB15数据集,浅机器学习算法开始执行薄弱,只有80%的准确率-85%。这两种方法基于深度学习携带高准确率在94.2%和97.7%以上。FS-DPRF比神经网络。数据变得越来越复杂和更接近真实的网络环境,浅的平均精度算法的两个数据集CICIDS2017 CICIDS2018已经低于90%。精度和召回也失去了竞争力。A-DNN的准确率和FS-DPRF CICIDS2017数据集达到96.5%和97.4%,分别。虽然A-DNN的精度较高,FS-DPRF领先1%,召回率较高。召回率越高,攻击是预测的概率越高,这意味着FS-DPRF对CICIDS2017有更好的攻击检测能力。 The last group of data is the result of the CICDIS2018. The accuracy of FS-DPRF is 3% higher than that of A-DNN, and the precision and recall rate are also higher than A-DNN by 1.3% and 2.4%, respectively.
图7显示FS-DPRF的比较结果,平行随机森林,DSSVM,深层神经网络在F1指数。NSL-KDD数据集上的新方法的得分高于浅机器学习,3% - -5%的一个优势,这也是比A-DNN高出1%。UNSW-NB15数据集上的结果表明,有一个深的性能差距上优于方法和脉冲重复频率和DSSVM。基于深度学习方法有更好的表现,和FS-DPRF的得分是3%高于深层神经网络。CICIDS2017和CICIDS2018 F1分数的四个方法略低于前两组的实验数据,但是基于深层学习方法仍然保持领先脉冲重复频率和DSSVM。F1的FS-DPRF A-DNN CICIDS2017比这高出1%,和F1得分FS-DPRF CICIDS2018 A-DNN高出1.9%。F1的分数指数这四个数据集显示与森林有关的深度学习网络在正常/异常两类分类实验比肤浅的机器学习方法和与深层神经网络相比具有竞争力。
为了验证模型的检测能力在multiclassification,我们做了另一组实验数据集NSL-KDD。根据原来的标签,所有数据分为五类,如表所示8。数据预处理和参数设置是一样的前面的部分,和十个实验进行平均。值得注意的是,考虑到支持向量机的二叉分类限制,我们花了很多标签博士测试工作,在“一定的攻击/其他”分开。从实验结果可以看出表8本文的方法提高了检出率5类标签,和FR相对较低。尽管U2R攻击类型的检测结果不是特别理想,这也是相关类别的分布不平衡的数据集。总之,本文中的方法显示多级最好的力量攻击和正常的分类实验。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
然后我们测试平均执行时间和加速我们的模型,用于衡量并行集群的可伸缩性。加速被定义为 在哪里<我>p我>cpu的数量,<我>T我>1指的是顺序执行算法的执行时间<我>T我>p我>代表的执行时间<我>p我>节点并行算法。从图可以看出8,从节点的增加,模型在四个给定数据集的平均执行时间是减少。执行时间的下降趋势在不同的数据集是不完全相同的由于数据大小。集群节点的平均执行时间和数量在所有情况下都表现出很强的相关性,这表明该方法具有良好的可伸缩性。
加速实验测试该模型在不同数量的奴隶节点。如图9,每个数据集所有的加速增加经常当节点数的增加,从1到25和倾向于慢下来的节点数量从25到50。结果表明,该模型具有良好的加速性能数据集不同的数量和尺寸。但是,它不显示一个完美的线性增长与上面所示的定义一样,它可以被通信开销和任务调度成本将成为更大的集群规模增加。
最后,我们设置20从节点之间的缓存性能实验和比较火花的默认FS-DPRF LRU算法和优化方法。从图可以看出10FS-DPRF已经减少执行时间,时间在NSL-KDD减少8.8%和8.9%相比,UNSW-NB15 LRU。的执行时间FS-DPRF CICIDS2017和CICIDS2018也减少了7.2%和13.3%,分别与LRU相比。列图表显示缓存替换策略提出了可以减少成功异常检测任务的执行时间。即使效率排序和分区完整性检查在替换牺牲内存的一部分,如图11,FS-DPRF有点高于LRU算法在内存占用率,和可接受的实时入侵检测性能更重要。因此,优化并行化成功提高了任务执行的效率提出了入侵检测模型。
7所示。研究的局限性
研究的局限性是,模型将消耗大量的内存,所以得到一个训练有素的入侵检测模型需要强大的计算设备。虽然本文提出的模型的训练,取得了满意的效果cpu在火花的分布式环境中,不幸的是,目前的结构是自然不适合gpu。这使得模型暂时无法更好的加速在gpu上像一个深层神经网络。
8。结论和未来的工作
从前辈的工作,整体上优于方法已经显示出令人信服的表演具有挑战性的任务,可以抽象地理解为分类问题。的主要科学贡献本文提出一个基于整体决策树的深度学习模型。灵感来自深层神经网络中,我们使用层组成的随机森林模仿隐藏层和完全连接层神经网络建立级联模型的随机森林。该模型利用滑动窗口来细分成许多小块样品特性,可以减少计算量的高维度数据为每个计算并保持原始功能的完整性。级联结构提高泛化能力,更高的准确率。模型只有少数hyperparameters而实现良好的泛化能力。另一部分的贡献在于,提出一个缓存替换策略引发环境并确定抽样的抽样加载的优先级顺序通过计算权重和完整性。它有效地降低了入侵检测任务的平均执行时间在分布式集群。四个数据集的实验结果表明,本文提出的模型执行比F1-measure并行随机森林和支持向量机的性能和准确性,实现竞争力的最先进的方法相比,神经网络。虽然该模型降低了平均执行时间,它增加了内存消耗和暂时不支持GPU加速。 Therefore, the model is more suitable for deployment on a distributed cluster with sufficient memory, which also reflects the limitations of our model. In the future, the work will focus more on the optimization processes of the features of training data to improve the prediction accuracy and will further research on the issue of unbalanced data distribution in the intrusion detection task.
数据可用性
可用的数据集https://www.unb.ca/cic/datasets/index.html澳大利亚中心,网络范围的实验室网络安全(ACCS) (https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-NB15-Datasets/),和加拿大的网络安全研究所(https://www.unb.ca/cic/datasets/ids - 2017. - html https://www.unb.ca/cic/datasets/ids - 2018. - html)。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是河北省自然科学基金的支持下,中国(F2019201427)和中国教育部基金项目(2017 a20004)。
引用
- m·艾哈迈德·A·n·马哈茂德和m . r .伊斯兰教”的调查异常检测技术在金融领域,“<我>未来一代计算机系统我>,55卷,第288 - 278页,2016年。视图:出版商的网站|谷歌学术搜索
- r . Yu, x, y,“高兴:集团在社会媒体分析,异常检测”<我>ACM交易数据的知识发现我>,10卷,不。18日,22页,2015页。视图:出版商的网站|谷歌学术搜索
- y Djenouri和a . Zimek“城市交通数据中的异常值检测,”<我>学报》国际会议网络情报,采矿和语义我>,没有。3,页1 - 12,诺维萨德,塞尔维亚,2018年6月。视图:谷歌学术搜索
- k . Sequeira和m .扎基”承认:anomaly-based数据挖掘在入侵,”<我>第八届ACM SIGKDD学报》国际会议上知识发现和数据挖掘我>2002年7月,埃德蒙顿,加拿大,。视图:谷歌学术搜索
- s .罗伯特·s .的法令,d . r . Recupero”probabilistic-driven合奏执行事件分类方法在入侵检测系统中,”<我>学报第十届国际联合会议上的知识发现、知识工程与知识管理我>塞维利亚,页139 - 146年,西班牙,2018年6月。视图:谷歌学术搜索
- m . s .佩尔韦兹·d·m·法”特征选择和入侵99数据集采用支持向量机分类NSL-KDD杯,”<我>学报》第八届国际会议软件,知识,信息管理和应用程序(SKIMA)我>,页1 - 6、吉隆坡、马来西亚,2014年12月。视图:谷歌学术搜索
- s . Vishwakarma诉沙玛,a .女子“入侵检测系统使用KNN-ACO算法,”<我>国际期刊的计算机应用程序我>,卷171,不。10、18 - 23,2017页。视图:出版商的网站|谷歌学术搜索
- n Farnaaz m a -贾巴尔,“网络入侵检测系统,随机森林模型”<我>Procedia计算机科学我>卷,89年,第217 - 213页,2016年。视图:出版商的网站|谷歌学术搜索
- l . Breiman“随机森林”,<我>机器学习我>,45卷,不。1,5-32,2001页。视图:谷歌学术搜索
- r·k·Malaiya d . Kwon s . c . Suh h·金,金,和j·金,“实证评价网络异常检测的深度学习”<我>IEEE访问我>7卷,第140817 - 140806页,2019年。视图:出版商的网站|谷歌学术搜索
- j·d·Kwon h . Kim金姆,s . c . Suh金,金和k . j .,“深上优于网络异常检测的调查。”<我>集群计算我>,22卷,不。3,1-13,2019页。视图:出版商的网站|谷歌学术搜索
- A . l . Buczak和e . Guven”的调查数据挖掘和机器学习网络安全入侵检测方法,”<我>IEEE通信调查和教程我>18卷,第1176 - 1153页,2016年。视图:出版商的网站|谷歌学术搜索
- b . Kolosnjaji g . Eraisha g·韦伯斯特,a . Zarras和c·埃克特,“授权卷积网络恶意软件分类和分析,”<我>学报》国际神经网络(IJCNN)联席会议我>安克雷奇,页3838 - 3845年,正义与发展党,美国,2017年5月。视图:谷歌学术搜索
- j . d, d . Chen吴作栋,s . Ng”与生成对抗的网络异常检测多元时间序列,”2019年,http://arxiv.org/abs/1809.04758。视图:谷歌学术搜索
- j . Chen s•萨瑟c Aggarwal, d . Turaga“异常检测与autoencoder乐团,”<我>学报2017年暹罗国际会议数据挖掘我>,页90 - 98,休斯顿,德克萨斯州,美国,2017年4月。视图:出版商的网站|谷歌学术搜索
- s . m . Erfani s Rajasegarar s Karunasekera和c . Leckie“高维和大规模异常检测与深度学习支持向量机,使用一个线性看到下面成了“<我>模式识别我>58卷,第134 - 121页,2016年。视图:谷歌学术搜索
- l . Khalvati m . Keshtgary, n . Rikhtegar”入侵检测基于新颖的混合学习方法,“<我>《人工智能和数据挖掘我>》第六卷,没有。1,第162 - 157页,2018。视图:谷歌学术搜索
- r . Vinayakumar k . p .索曼,p . Poornachandran“卷积神经网络申请网络入侵检测,”<我>程序计算国际会议上提出的通信和信息(ICACCI)我>Udupi,页1222 - 1228年,印度,2017年9月。视图:谷歌学术搜索
- Potluri和c . Diedrich“加速深层神经网络,增强入侵检测系统”<我>《IEEE 21新兴技术和工厂自动化国际会议上(ETFA)我>,页1 - 8,柏林,德国,2016年9月。视图:谷歌学术搜索
- 高n, l .高、问:高和h . Wang”基于深层信念网络入侵检测模型,”<我>《2014年第二次国际会议上先进的云计算和大数据我>黄山,页247 - 252年,中国,2014年11月。视图:谷歌学术搜索
- r . domingue m . Filippone p Michiardi, j . Zouaoui“孤立点检测算法的比较评价:实验和分析,“<我>模式识别我>2月,74卷,第421 - 406页,2018年。视图:出版商的网站|谷歌学术搜索
- k . Hundman诉Constantinou, c . Laporte l . Colwell和t . Soderstrom”探测航天器异常使用LSTMs和非参数动态阈值”<我>《24日ACM SIGKDD国际会议上知识发现和数据挖掘我>,页387 - 395,伦敦,英国,2018年8月。视图:谷歌学术搜索
- 大肠Manzoor、h·兰和l . Akoglu”xStream: feature-evolving数据流异常检测,”<我>《24日ACM SIGKDD国际会议上知识发现和数据挖掘我>,页1963 - 1972,伦敦,英国,2018年8月。视图:谷歌学术搜索
- 杨h .郑张y l . et al .,“整体学习一个新的3 d生物医学图像分割框架”<我>人工智能学报AAAI会议我>33卷,第5916 - 5909页,火奴鲁鲁,嗨,美国,2019年2月。视图:出版商的网站|谷歌学术搜索
- f·t·刘,k . m . Ting, z h .周“Isolation-based异常检测,”<我>ACM交易数据的知识发现我>3月,6卷,没有。3,1-39,2012页。视图:出版商的网站|谷歌学术搜索
- j·h·弗里德曼,“贪婪的近似函数:一个梯度增加机器,”<我>统计年报我>卷,29号5,1189 - 1232年,2001页。视图:出版商的网站|谷歌学术搜索
- t·陈和c . Guestrin“XGBoost:一个可伸缩的树增加系统”<我>22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘我>,页785 - 794年,旧金山,美国,2016年8月。视图:谷歌学术搜索
- p . Su、刘y和x的歌,“研究基于改进的击杀和XGBOOST,入侵检测方法”<我>《第八届国际会议上沟通和网络安全我>,页37-41、青岛,中国,2018年11月。视图:谷歌学术搜索
- y周、t . a . Mazzuchi和s . Sarkani”M-AdaBoost-a合奏网络入侵检测系统,”<我>专家系统与应用程序我>,第162卷,第113864页,2020年。视图:出版商的网站|谷歌学术搜索
- f·a·汗,a . Gumaei a . Derhab和a·侯赛因”TSDL:两级深度学习高效的网络入侵检测模型,”<我>IEEE访问我>7卷,第30385 - 30373页,2019年。视图:出版商的网站|谷歌学术搜索
- j·高和p .谭”,通过孤立点检测算法的输出分数转化成概率估计,”<我>数据挖掘学报第六届国际会议(ICDM)我>,页212 - 221,香港,中国,2006年12月。视图:谷歌学术搜索
- m . Zaharia“弹性分布式数据集:内存中的集群计算的容错抽象,”<我>网络系统设计和实现的会议(NSDI)我>页,15-28圣何塞、钙、美国,2012年4月。视图:谷歌学术搜索
- j·陈,“大数据的并行随机森林算法在火花云计算环境中,“<我>IEEE并行和分布式系统我>,28卷,不。4、919 - 933年,2017页。视图:谷歌学术搜索
- m·m·汗·m·a·阿拉姆,a·k·纳和w . Yu”探索抽样缓存内存杂交的火花,”<我>诉讼的ACM SIGPLAN内存管理国际研讨会(ISMM)我>页41-52,凤凰城,阿兹,美国,2019年6月。视图:谷歌学术搜索
- m . Tavallaee大肠阿訇,w . Lu和A . A . Ghorbani”KDD 99杯的详细分析的数据集,”<我>学报2009年IEEE计算智能安全研讨会上和国防应用程序我>渥太华,页1 - 6,2009年7月,美国。视图:谷歌学术搜索
- n·穆斯塔法和j .杀”UNSW-NB15:一个全面的数据集对网络入侵检测系统(UNSW-NB15网络数据集)”<我>IEEE军事通信和信息系统研讨会论文集,MilCIS 2015我>,页1 - 6,堪培拉,澳大利亚,2015年11月。视图:谷歌学术搜索
- Sharafaldin, a . h . Lashkari, a . a . Ghorbani”向生成新的入侵检测数据集和入侵交通特征,”<我>诉讼的第四届国际会议在信息系统安全和隐私我>丰沙尔,页108 - 116年,葡萄牙,2018年6月。视图:出版商的网站|谷歌学术搜索
版权
版权©2020振鹏刘et al。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。