文摘

由于最近的发展物联网(物联网)和云计算技术,越来越多的设备连接到互联网,安全和隐私问题是重要的解决和保护数据和计算机网络。提供安全、网络数据的实时监控和资源是必要的。入侵检测系统用于监控,实时检测和预警入侵事件。最近,入侵检测系统(IDS)合并几个机器学习(ML)技术。的一种技术是决策树,可以采取可靠的网络措施和做出正确的决定通过增加检测速度和精度。在本文中,我们提出一个可靠的网络入侵检测方法使用决策树和提高数据质量。具体地说,网络数据进行预处理和熵决策特征选择对提高数据质量和相关培训;这时,一个决策树分类器建立可靠的入侵检测。在两个数据集的实验研究表明,该模型能达到强健的结果。实际上,我们的模型精度与NSL-KDD CICIDS2017数据集达到99.42%和98.80%,分别。 The novel approach gives many advantages compared to the other models in term of accuracy (ACC), detection rate (DR), and false alarm rate (FAR).

1。介绍

计算机安全威胁也变得相当具有挑战性的增长能力的敌人,影响数据通信和网络的可靠性。最近的云计算和物联网技术的发展使新的攻击点的对手,甚至更容易攻击(1- - - - - -3]。物联网应用程序启用攻击不仅聚焦偷窃数据,也可以影响人类的生活。例如,砍回家实用智能加热器可用于自动增加温度和间接影响人类生活在家里(4,5]。因此,安全的主要目标是提供完整性、机密性和可用性通过实现各种安全工具和政策可以保护数据和检测目标物联网的攻击。(4,6]。入侵试图违反安全目标和感染系统之一。因此,许多工具和方法,比如id、安全的网络和系统的开发从入侵7- - - - - -9]。因此,入侵检测是一组技术实现检测不良活动分类数据活动到正常或入侵(6,8]。入侵检测技术检测和阻止入侵外或在一个监控网络。

出于这个原因,可以使用两个基本检测方法。第一个叫做误用检测;它是基于一个已知的攻击特征来检测入侵。第二个是叫异常检测或行为检测,基于偏离正常模式1,8,10]。混合异常检测和误用检测方法结合优势,旨在提高IDS的检测速度和精度(9,11,12]。一个相当大的区别是由网络id (NIDS)和主机id (HIDS) [1,8]。形式上,一个id可以软件或硬件检测到恶意流量,使准确自动决定,和中断实时入侵快速自动响应(6,8]。

尽管他们效率,id受到数量的限制,实时分析和检测等,生成的警报,和数据质量,可以降低检出率和准确性表演(6,8]。因此,入侵检测仍然是一个有效的和动态的研究领域。

最近,毫升方法集成来提高入侵检测和加强计算机安全。众多研究贡献探索如何将ML技术在入侵检测获取可靠的id,并准确的表现通过提高数据质量和培训(13- - - - - -20.]。决策树是一种归纳算法已用于分类在许多问题。它是基于分裂特性和测试每一个人的价值。分裂过程一直持续到每个分支可以与一个分类标签(21,22]。决策树比等效表示训练集。因此,它可用于预测其他实例的值不在训练集,决策树被广泛用作意味着生成分类规则,因为存在一个简单但非常强大的算法称为自上而下的决策树归纳(TDIDT)。保证给决策树是正确对应的数据所提供的两个最著名的ID3和C4.5 [22]。

另一方面,获得的数据并不总是以结构化的形式。相关分析,非结构化数据预处理。这个操作是一个重要的阶段,提高数据质量和执行做出准确的决策。数据质量技术实施前培训和分类过程(17,23,24]。此外,特征选择是一个可取的过程目标选择有用的特性减少建模的计算成本和提高性能的预测模型13,24]。

在本文中,我们提出一种新颖的基于决策树方法的网络入侵检测方法培训和建立一个二进制分类器模型,并做出准确的决策。特性的工程技术被用来提高数据质量。NSL-KDD数据集实验结果和CICIDS2017数据表明,我们建议的方法提供了良好的表演和博士的准确性。有两种主要的贡献验证研究工作。首先,我们使用熵决策实现特征选择技术来提高数据质量。其次,我们建立一个基于决策树算法的分类器模型,实现有效的网络入侵检测方法。

本文的其余部分组织如下。部分2介绍入侵检测相关工作,特别是综合毫升技术改善IDS表演。部分3详细描述了该解决方案的新方法。节4,我们将讨论实验结果,提出了模型的性能,及其与其他模型进行比较。最后,结论和未来的工作提出了部分4

在过去的十年中,入侵检测是采用一组的贡献(8,10,11,17,21,25,26),以确保计算机安全目标。入侵检测的研究是面向自动反应增加有效性和IDS的功能(6]。因此,为了获得可靠的IDS,假阳性(FP)和假阴性(FN)率要低,但同时,真阳性(TP)和真阴性(TN)率要高。此外,包括毫升技术在入侵检测成为一个兴奋的研究领域13- - - - - -20.]。因此,入侵检测分类任务旨在基于ML检测入侵使用标签数据通过构建一个分类器能够区分正常的和异常的活动(11,16,21,27,28]。几毫升的技术,如决策树(21),随机森林29日),最近的邻居30.],朴素贝叶斯[26,27),支持向量机(17),模糊聚类(15),基于强化学习(19),和深刻的学习方法1,6,14,18,25,26,31日,32)已经被发现知识综合提高IDS(入侵检测数据集9,31日,33,34]。更多的改进,工程技术一组特性,如特征选择,提高数据质量。他们允许过程相关数据训练和建立有效的分类器13,17,23,25,35,36]。

2018年,Karami [37)提出了一个使用模糊SOM方法anomaly-based入侵检测系统。2020年,Tabash et al。26)提出了一个入侵检测模型,该模型综合NB和DL技术。该模型实现遗传算法对一个好的特征选择。2015年,Ghazali et al。27)提出了一个入侵检测模型的沟通。这五个分类技术研究工作测试:SimpleCart, NB, BFTree,一部分,Ridor。性能的措施NSL-KDD数据集演示ACC 96.7%,博士95.5%,和4.7%。2017年,Kevric et al。28)提出了一个结合使用树算法对网络入侵检测分类器的方法。数据集模型评估NSL-KDD ACC 89.24%。2018年,哈迪(29日)提出了一个基于随机森林算法模型选择一个重要的特性。该模型使用NSL-KDD评估。该模型的结果ACC 99.33%, TP博士0.993%,0.001% FP。2019年,顾et al。17)提出了一个基于svm入侵检测模型与LMDRT变换是一种有效的方法来提高数据质量。CICIDS2017表演的结果数据集ACC 93.64%,博士97.56%,和20.28%。2020年,Elmasry et al。32)建立了一个DL模型使用一个双PSO metaheuristic网络入侵检测。模型评估在CICIDS2017数据集,ACC 92.92%,博士92.38%,到3.24%。2019年,Prasard et al。36)拟议的新工作特性的子集的IDS使用概率统计方法提取显著特征。br方法实现对样本进行分类为正常,中介,基于粗糙集和异常类别。在CICIDS2017模型训练和测试数据集和演示了ACC 97.6%,博士96.38%,到3.00%。2019年,Ahmim et al。21IDS)提出了一个混合模型,该模型结合了基于决策树的分类器模型,代表树,JRIP算法,和森林。小说的表现模型评估使用CICIDS2017数据集和ACC 96.66%,博士94.475%,到4.47%。

从先进的文献调查,证明,学习方法和数据质量是两个有用的任务确定IDS的鲁棒性(6,17,26- - - - - -29日,32,36,37]。这些研究工作实现技术的高质量的数据,不仅减少和选择特性,还构建改进分类器更好的分类数据的活动。

3所示。新颖的网络入侵检测方法

在本节中,我们描述了我们的方法和提出的解决方案目标实现和验证新方法。通过加强工程特点和分类技术,我们获得可靠的IDS与准确的表现。

3.1。我们建议的模型

如图1该模型包括三个主要组件,包括数据质量组件,构建分类器组件和入侵检测部署组件。这三个组件的细节在下面给出。第1部分:数据质量的过程。这个组件的主要目的是收集和预处理数据。因此,系统执行的过程,可以从网络收集和积累必要的数据。一旦收集到的数据,具体的数据预处理是进行网络流量。数据预处理部分评估数据,而忽略了不兼容的数据类型。此外,数据是消毒和保存结果数据。此外,网络数据集的数据转换和功能完成。我们使用了熵决策技术选择的特性。第2部分:构建的分类器。一旦完成了第一部分,第二个是开始。一般来说,第二部分的目标,作为它的名字很明显,就是要建立一个分类器模型。这里的输入是转换后的数据质量过程中获得的数据部分。分类器的构建部分,我们可以区分两个主要阶段:模型训练阶段和模型验证阶段。在第一阶段,三个部分的数据用于训练决策树分类器在我们建议的方法实现。然后,在第二阶段,其余的数据被用来验证我们的模型。第3部分:网络入侵检测的部署。在构建的分类器模型,第三部分是用于部署网络入侵检测。在这一点上,实际测试是提高可靠的IDS的性能所必需的。因此,我们在资质检查其分类活动在正常或异常的能力。因此,根据分类结果,IDS可以准确。

3.2。被提议的解决方案的描述

正如我们上面提到的,这是由我们的方法的第一步是收集和转换数据特征选择根据需求分析和检测。数据质量是一个重要的和必要的任务训练和构建一个精确的入侵检测模型。因此,这一步的目的是准备数据进行分析和做出准确的决定。我们开始第一次使用熵与数据转换运用特征选择决定原始流量收集在网络流量来获得一个好的训练集。事实上,这是一个关键步骤旨在改进我们的方法的准确性。它也旨在克服训练通过减少复杂性分析数据,得到一个伟大的榜样与表现最好的精度,检测率,和实时检测。特定应用预处理前收集网络流量分析的步骤。数据标准化执行。为此,我们建议和实现特定的编码枚举特性值,建立一个活动的模式促进活动之间的区别。特征提取的目的是减少数量的功能从网络收集数据。它旨在总结大多数原始数据中包含的信息通过创建新特性。 The feature selection aims instead to choose the important existing features in the original data and discard less important ones. For this reason, we use entropy decision technique for feature selection. The implementation of components that constitute our approach is described in Figure2

我们获得一个转换后的数据通过实现技术,提出了数据质量计划增加我们的方法的准确性。这允许训练和验证有效的基于决策树的入侵检测模型实时做出相关决策。此外,入侵检测是一个分类的任务目标分类的传入流量在正常活动或入侵。因此,这部分的主要目的是预测一个二进制值来验证分类器能够回答的问题有一个肯定的是或不是的答复。因此,我们在数值变量编码两类:+ 1为正常活动和−1入侵。我们记住的数量特性必须提前固定。对于模型的验证步骤,有各种策略用于将数据分为训练集和测试集。在这种情况下,我们使用效率和推荐,k倍(1]。

根据标准组件的id(中提到8,29日),我们的方法是由四个部分组成:数据采集部分,预处理部分,决策部分和响应的部分。该方法着重于预处理部分通过改善数据质量技术用于培训和建立一个精确的分类器能够在交通网络中发现入侵。它也关注提高决策部分通过集成决策树分类器。一组研究工作已经在6,13,24)改善IDS的其他部分,如数据收集、维数减少,和实时响应不考虑在这个研究工作。

4所示。实验结果和讨论

4.1。数据集描述

数据集的评估起着至关重要的作用在入侵检测方法的验证。因此,评估任何id使用毫升技术,可以选择所需的数据集之一大量的适当的和可用的数据集。例如,许多公共数据集是可用的(9,31日,33,34),可以使用免费评估提议的方法的能力。在我们的例子中,我们选择了两种类型的数据集包括NSL-KDD和CICIDS2017,用于训练和表演的评价和验证的方法。

NSL-KDD数据集创建从KDD cup 99数据集9,27]。它包含125973条记录的训练集和22544测试集,22训练实例的攻击和41特性在其中21描述连接本身和19自然同一主机的连接(33,38]。的新颖性和实例的体积NSL-KDD数据集非常实用。相反,CICIDS2017数据集是从加拿大研究所创建的网络安全。它旨在克服的局限性的实际数据集和现在的一个有效的入侵检测数据集。标签数据集,包括行为和新的恶意软件攻击和由2830743文件包含实例。CICIDS2017数据集80年集成特性的网络流了2017年7月从网络流量使用CICFlowMeter工具9]。

这两个数据集用于这项研究工作,NSL-KDD数据集和CICIDS2017数据集,在[39,40),分别。

4.2。实验环境

实验设置我们的研究工作是在计算机上执行和评估酷睿i7 2700 k CPU@ 2.50 GHz和32 GB的DDR3运行windows 7专业64位。熵的特征选择和决策树模型训练使用python版本3.8.0实现。

来验证我们提出的入侵检测模型,我们使用10倍交叉验证技术来获得训练集和测试集。因此,我们将随机数据集分成十个部分具有相同的大小。九个部分中使用的培训和测试步骤的最后一部分。最后,给出了模型的性能通过重复这个过程的十倍。

4.3。数据转换

在实施步骤中,我们建议提取的样本数据集,以避免一些缺陷如处理和大的数据量。从每个数据集是用于数据提取表1

特征选择是一种相关技术包括通过我们的网络入侵检测方法。是实现和合并为可靠的检测和决策选择有用的特性。为此,我们实现熵决策技术。

的编码步骤执行分配数值分类特征进行相关处理。为了避免不良影响高权重的问题,我们连续特性值正常化。方程(1)是用于查找新值。因此,我们让每个特性的值从0到1。如果一个给定的最小值的功能x最小和最高的价值最大,我们将每个值的x

此外,所有连续特性在区间[0,1]。

4.4。指标评估和讨论

表现最明显的标准用于估计分类器的预测精度。一组看不见的情况下,它的比例正确分类。数值表现的评估模型,提出以下指标使用。

这些指标的表现并不依赖于训练和测试集的大小,可以真正帮助评估整个模型的性能。基于混淆矩阵(表2),表演的指标计算。

从方程(ACC获得2)。这是正常比例正确预测的实例或攻击的整体测试集的实例数量:

计算使用方程(博士3)和显示正确的实例的数量比列为袭击的总数攻击实例中测试设置:

远从方程(4)和代表的比例实例分为攻击正常行为的总体数量的实例:

在本研究工作中,我们开始对比检测评估的模型仅供新方法和决策树模型。结果如图34证明这种比较根据ACC,博士,NSL-KDD数据集和CICIDS2017数据集。

数据3(一个)4(一)表明该模型的准确性是比仅基于决策树模型。数据3 (b)4 (b)演示的博士id。提出了IDS模型的验证,博士高于id基于决策树只有NSL-KDD数据集和CICIDS2017数据集。

总结了以上结果证明表34。他们表明,我们的模型可以达到显著的表现比决策树。NSL-KDD数据集,我们建议的模型的ACC达到99.42%,而决策树只有超过89%。博士和到目前为止,我们建议的模型获得98.2%和2.64%,分别,而决策树只有博士提出了88.5%和3.5%。CICIDS2017数据集,我们的模型表明高性能的ACC 98.8%,博士97.3%,到3.10%。此外,决策树只给ACC 92%,博士86.7%,到4.6%。

获得的结果验证我们的方法给伟大的检测能力的ACC,博士,太远了。具体来说,他们证明了我们提出的模型的性能的指标更高o但是低CICIDS2017数据集NSL-KDD数据集。根据评估表现,我们建议的IDS模型能达到伟大的表演。与模型,使用决策树的比较只表明我们的网络入侵检测方法的有效性。

具体地说,我们提出入侵检测模型是由高性能的ACC指定,博士,太远了。此外,我们执行一个对比我们的id和其他最近的入侵检测方法基于NSL-KDD数据集和CICIDS2017数据集。通常,集成的近期作品毫升技术树算法,射频,DTRM EnSVM、br、和DL。比较研究的结果发表在表56

从获得的结果,我们得出结论,我们提出id的方法是相关的,实现重要的表演,并给予相关培训通过实现快速数据质量技术。使用NSL-KDD数据集和CICIDS2017数据集,它是证明我们的方法是可靠的,与其他模型相比,达到良好的结果。小说的方法可以集成和使用安全等环境物联网和云计算环境。

5。结论和未来的工作

入侵检测是一组增强技术实现了监控系统和数据更加安全。在本文中,我们提出了一个基于决策树分类器的可靠的网络入侵检测方法技术和工程特性。根据异构的数据预处理阶段设置提高IDS的检测速度和精度。同时,基于熵的特征选择技术决策树方法建立模型前处理对高数据质量。新方法的验证是通过提出解决方案,保证一个有效的准确性。性能评估在两个数据集:NSL-KDD CICIDS2017。因此,这部小说提出了网络入侵检测方法提出了许多优点并提供高精度与其他模型相比。未来的工作将整合等高效的ML技术深度学习在各个部分授权检出率和我们的方法的准确性。

数据可用性

评估和实验结果,获得了使用水蟒3 IDE,可用https://sites.google.com/umi.ac.ma/azrour

的利益冲突

作者宣称没有利益冲突。