提高网络入侵检测的准确性与因果机器学习

文摘

近年来,机器学习(ML)已获批准有效的入侵检测算法。然而,随着ML算法主要应用于评估网络的异常,检测精度与多种类型的网络攻击不能充分保障。现有的网络入侵检测算法基于ML或特征选择的基础上的相关性特性和网络攻击,导致错误的分类。为了解决上述问题,本研究旨在建立一个新的网络入侵检测系统(NIDS)基于因果毫升。该系统开始与噪声特性的识别因果干预,而只有与网络攻击有因果关系的特点是保留。然后,ML算法被用来做一个初步的分类来选择最相关类型的网络攻击。因此,独特的标记可以反事实的检测算法检测到的网络攻击。除了一个相对稳定的精度,也可以有效地减少网络攻击检测的复杂性,最大限度的减少94%的培训功能。此外,在几种类型的网络攻击的可用性的情况下,检测精度显著提高较ML算法。

1。介绍

网络攻击(<一个href="#B1">1)是指进攻行动改变,破坏、欺骗,降解,或破坏计算机系统,网络,信息,在这些系统或程序。近年来,高频率的网络攻击造成严重威胁网络安全,甚至影响国家安全,导致网络性能大幅下降和服务中断。因此,大量的保护机制(<一个href="#B2">2,<一个href="#B3">3)已经提出和部署,如防火墙、防病毒、恶意软件检测软件。然而,这些对策已经证明不足以提供一个完整的防范网络攻击的现代网络环境。

虽然防火墙可以提供基于规则的网络保护,更智能的机制需要先进的网络入侵检测大容量的交通数据。为此,一些网络入侵检测系统(nids) [<一个href="#B4">4- - - - - -<一个href="#B6">6使用毫升方法)设计。NIDS可以提供实时的网络流量数据和发送即时报警或阻止可疑活动如果检测到网络攻击。毫升方法广泛应用于网络入侵检测系统来检测网络流量数据的异常主要是通过提取特征。

虽然ML-based nids显示在实时交通监控、健壮的其准确性和有效性仍受到不精确的特点,极大地依赖于人的经验。与此同时,一个固定的特性集可能不适合检测不同类型的网络入侵,一些特性可能是冗余或不相关的,这可能会减缓毫升的过程。因此,有必要探索最好的特性(<一个href="#B7">7增加一个检测系统的准确性。

克服上述障碍,应用因果nids毫升方法提出。流量特性可分为两类:因果特性和噪声特性。因果特性是这些功能,网络入侵的因果关系。也就是说,这些特性是由网络攻击造成的。当发起网络攻击时,这些功能变得异常。在网络攻击停止,这些特性变得正常。传统分布式拒绝服务(DDoS)攻击排气带宽,中央处理单元(CPU)的权力,或内存洪水受害者主机的压倒性的数据包数量从成千上万的破坏电脑(僵尸)拒绝合法的流动。最常见的DDoS攻击主要包括大量的洪水流量数据和使用网络资源,如带宽、路由器缓冲区空间,CPU和复苏周期的目标服务器。噪声特性与网络攻击没有因果关系,尽管他们可能有statistical-based相关性(<一个href="#B8">8]。噪声特性会降低检测性能,因为他们可能破坏检测系统在实际部署。

区分噪声特性和因果nids的特性,我们提出两个因果毫升nids的方法,包括因果干预和反事实的推理。

本文的主要贡献包括(我)我们提出一个新颖的因果ML-based NIDS。之间建立因果关系网络攻击和交通特性通过因果干预,嘈杂的特性可以被识别和移除。(2)制作检测算法基于贝叶斯网络(BN)是开发基于因果网络攻击特征进行分类。(3)因果ML-based NIDS的性能评估使用CICIDS19 UNSW-NB15, NSL-KDD数据集。实验结果证实了该方法的有效性。

本文组织如下。

部分<一个href="#sec2">2简要讨论nids及其局限性,现有的相关研究以及总结本研究的贡献。部分<一个href="#sec3">3提出了一个详细讨论理论和控制方程的不同的部署技术。部分<一个href="#sec4">4提出了一种新颖的因果ML-based NIDS。部分<一个href="#sec5">5主要论述了实验结果。而且,部分<一个href="#sec6">6总结了本研究的主要成果。

2。文献综述

作为计算机科学的一个重要地区和网络安全、入侵检测基于ML (<一个href="#B9">9- - - - - -<一个href="#B11">11)是一个热点。很多学者(<一个href="#B12">12- - - - - -<一个href="#B15">15)已经进行了各种探索这个话题。唐et al。<一个href="#B16">16)建立了深厚nids的神经网络模型,并由NSL-KDD模型训练数据集。他们的模型显示基于流的异常检测软件定义网络的鲁棒性(SDN)。亚都et al。<一个href="#B17">17]提出BotChase,时履行基于机器人检测系统,利用无监督和监督毫升。第一阶段削减可能有的良性的主机,而第二阶段实现机器人检测精度高。文献[<一个href="#B18">18在NSL-KDD数据集整体学习旨在提出一种自适应模型开发multitree算法的准确性达84.2%。

大小的报道之前,优化培训功能值得调查。重要的,无关紧要的功能在一个数据集可能会破坏模型的精度,增加培训时间要求建立一个模型。因此,确定最佳培训规模,许多已经进行了探索。特征选择(<一个href="#B11">11,<一个href="#B19">19- - - - - -<一个href="#B22">22),选择最相关的过程特性通过手动或算法,已被用来减少模型建设的时间和空间复杂性。Hadeel et al。<一个href="#B23">23)提出了一个包装的入侵检测特征选择算法。这种方法使用dove-inspired优化器来实现特征选择,和binarizing算法提出了余弦相似性方法表现出更快的收敛速度和精度高于c形的方法。另一个研究[<一个href="#B24">24)建立了一个特征选择模型,结合算法ID3分类器算法和蜜蜂。在这个模型中,蜜蜂算法用于生成所需的特征子集。钟,瓦希德(<一个href="#B25">25)引入了一个新的特征选择粒子群优化的简化版本,构成一个局部搜索策略加快特征选择的过程找到附近最优解决方案。该算法可以减少用于表示网络流量行为的特性在KDDCUP99数据集从41到只有6,和准确性达到93.3%。然而,上述方法只能基于相关性,选择功能和一些嘈杂的特性可能影响检测精度。

除了培训功能的大小,正确分类的网络攻击在现有的研究中也非常重要。nids的现有算法基于ML或特征选择都是相关性特性和网络攻击的基础上实现分类。这种相关性会导致一些错误的分类由于存在大量的虚假的相关性(<一个href="#B26">26]。为了解决这个问题,因果推理(<一个href="#B27">27- - - - - -<一个href="#B32">32)经常被用来解决虚假的相关性。目前,因果推理主要采用两种模型(<一个href="#B33">33]:sStructural因果模型(SCM) (<一个href="#B34">34)和潜在后果模型(POM) (<一个href="#B35">35]。SCM是由内生(清单)和外生变量(潜在的)。POM提供因果效应(<一个href="#B36">36通过数学定义。然而,进行随机试验(<一个href="#B37">37SCM和POM是昂贵,耗时,有时不道德的。此外,其精度较低,由于考虑不足的影响外生变量(变量之外的网络攻击模型,影响网络攻击模型但不受网络攻击模型)(<一个href="#B26">26)和噪声因素对因果特性。

基于上述算法的不足,本文从相关的解耦特性和类型的网络攻击的分类在反事实的情况下实现高精度检测的网络攻击。反事实的模型是基于BN,可以数以百计的网络攻击和功能之间的关系模型。首先,相关的功能是通过因果解耦干预,和嘈杂的功能,删除不影响检测结果。其次,基于因果特性,保留最相关类型的标签被选中,然后,实现反事实的检测算法找出独特的标签。例如,给出证据<我>ε=e和一些假设的干预,我们观察到一个不同的结果的可能性<我>ε=e”通过计算反事实的检测算法。然后,预期数量的异常特性计算识别网络攻击的可能性最高的反事实的情况(<一个href="#B26">26]。

3所示。预赛

在本节中,我们提出一个简短的介绍因果推理。

3.1。强大的虚假的相关性

传统ML是由协会,很难达到一致的预测未知的测试数据集。传统ML会发现因果关联挖掘(噪音)特性等风险因素和异常特征之间的关系,和如此强烈的虚假的相关性将用于预测。

例如,风险因素<我>R将导致DDoS攻击图吗<一个href="//www.newsama.com/journals/scn/2021/8986243/fig1/" target="_blank">1例如,<我>X₁,<我>X₂,<我>X₃,<我>X₁和<我>X₂会导致异常的流量特性<我>Y₁和<我>Y₂。如果<我>X₁和<我>X₂没有观察到或统计数据之前,风险因素<我>R将不可避免地导致的外观吗<我>X₃,<我>Y₁,<我>Y₂。如果只是基于相关算法,计算的结论<我>X₃的原因是<我>Y₁和<我>Y₂可能是完全错误的。

图1

伪相关特性。

一个典型的新英格兰医学论文巧克力和诺贝尔奖(<一个href="#B38">38解释了如此强烈的虚假的相关性。根据本文,巧克力一个国家消耗越多,更多的诺贝尔奖会赢。这个结论非常荒谬的乍一看,但基于相关事实的结论有什么问题吗?统计分析的数据显示,确实有一个线性关系一个国家的巧克力销售并赢得了诺贝尔奖的数量。然而,因果分析表明,巧克力之间只有一个强大的伪相关销售和诺贝尔奖的数量。

3.2。定义

据推测<我>Y= {<我>C,<我>V}是交通特性集,<我>C是一个因果特性集和<我>V表明一个嘈杂的特性集(<我>V=<我>Y \ C)。<我>X∈{0,<我>N}表示一个网络攻击。

噪声特性与网络入侵,没有因果关系条件概率<我>P(<我>X|<我>Y)满足以下条件<一个href="#B8">8]:

尽管之间没有因果关系<我>X和<我>V,他们可能会表现出很强的相关性的统计数据(图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig2/" target="_blank">2 (b))。如果虚假关系没有区别因果关系,它可能会导致错误在现实世界的数据分布,即使毫升模型训练。

(一)

(b)

图2

网络攻击和提取特征之间的关系。(一)<我>X V。(b)<我>X⟶<我>V。

来定义因果关系,如果其他条件不变,改变<我>X会引起的变化<我>Y;因此,之间存在因果关系<我>X和<我>Y。如果<我>X和<我>Y可以测量,那么的因果关系<我>X和<我>Y可以通过改变计算的值<我>X和<我>Y。如果因果关系的大小<我>X₁和<我>Y比那间吗<我>X₂和<我>Y,它认为<我>X₁原因<我>Y。

一般来说,网络攻击导致数据流量的异常特性,如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig3/" target="_blank">3。为了简化分析,外生变量将被忽略。正如前面提到的,如果其他条件不变,改变{<我>Y₁,<我>Y₂、…<我>Y_n}可能导致的变化<我>X,这表明{之间有因果关系<我>Y₁,<我>Y₂、…<我>Y_n},<我>X。与此同时,它相当于这一事实<我>X是原因,{<我>Y₁,<我>Y₂、…<我>Y_n}的效果。

图3

网络攻击和提取特征之间的因果关系。

3.3。供应链管理

检测模型将用于我们的实验是BN模型显示之间的关系网络攻击,危险因素,和交通特性。bn日益流行的造型技术在网络安全(<一个href="#B39">39),特别是由于其能力来克服数据约束(学习变量之间的因果关系是不可能的)。bn的概率解释为一定程度的信心。如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig4/" target="_blank">43 - layer BN模型,相应交通特性受到网络攻击,<我>Z网络被攻击的风险因素,<我>X表示类型的网络攻击<我>Y代表了交通特性。在noisy-OR模型中,<我>Y= (<我>X₁∨<我>X₂∨、…、∨<我>X_n),只要有一个攻击类型<我>X_我= 1,然后<我>Y= 1。这种模式(图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig4/" target="_blank">4)可以进一步扩展到复杂网络模型层。

图4

scm的图解说明。

在因果推论,BN取而代之的是一个更基本的SCM。现有的bn可以表示为一个单片机<一个href="#B40">40,<一个href="#B41">41]。这种供应链管理包含三个组件(<一个href="#B42">42):一个图形化的模型,结构方程和反事实的和干预逻辑。

scm的关键特征是,他们将每个变量表示为确定性函数的直接原因与一个未被注意的外生的“噪音”,它本身代表了我们的模型以外的各种原因。例如,在一个没有网络攻击的网络,一些交通特性可能异常,这是由于难以察觉的外生变量。如果一个难以察觉的外生变量<我>u={<我>u₁,<我>u₂、…<我>u_n指定},因果马尔科夫毯(完整的随机变量和一个给定的一组变量和 ,如果 ,最小变量集MB能满足上面的条件是一个马尔科夫毯 )条件(<一个href="#B26">26,<一个href="#B42">42,<一个href="#B43">43)将得到满足。

假设1。假定观察到的变量<我>Y= {<我>Y₁,<我>Y₂、…<我>Y_n}SCM的有向无环图(<一个href="#B42">42];其母变量可以被视为<我>uv pa (<我>Y);因此,<我>Y=<我>f{pa (<我>Y),<我>u可以实现}。为每一个变量<我>Y,父母变量<我>X(例如,<我>X= pa (<我>Y)在模型中有一个噪声项一个未知的分布 ,这样

假设2。noisy-OR模型(<一个href="#B39">39),假定任何变量的概率<我>Y可能表现为正常的(<我>Y= 0)由于网络攻击(嘈杂的变量<我>X_我= 1) 。假设的变量<我>Y是相互独立的,然后, 例如,网络设备安装杀毒软件和防火墙;因此,一些交通特性将不会产生异常。

3.4。因果关系的干预

因果检测问题(因果关系的大小,特征选择,未被注意的外生变量,和嘈杂的变量)可以通过因果干预来解决,叫做“进行操作”。

定义1(进行操作)。产生的postintervention分布操作(<我>Y=<我>y)是由方程(<一个href="#EEq4">4)[<一个href="#B40">40]: 因果干预的do-operator意味着我们正在处理一个干预,而不是一个被动的观察。下标<我>米用于表示修改后的概率分布。从概率分布的角度来看,<我>P(<我>X=<我>x|<我>Y=<我>y)代表的概率<我>X=x相应的部分<我>Y在所有的值<我>Y=y,<我>P(<我>X=<我>x| (<我>Y=<我>y)代表的概率<我>Y是固定的,<我>y然后<我>X=x。干预改变原始数据的分布,条件变量不改变原始数据的分布。

3.5。反事实的检测(<一个href="#B26">26]

反设事实使我们能够量化网络攻击(例如,如何<我>X= 1)解释了异常特征通过确定的可能性提供的功能可能不是在干预,从而切换到网络攻击通过设置(<我>X= 0),由反事实的概率<我>P(<我>Y=0 |<我>Y=1,(<我>X=0))。如果概率是高,<我>X=1是一个很好的因果解释的异常特征。应该注意的是,这个概率是指两个互相矛盾的<我>Y,因此,它不能被表示为一个标准的后验概率。

反事实的发现网络攻击的原理如下(<一个href="#B26">26,<一个href="#B37">37]:(1)网络攻击会导致一个异常特性的可能性应该成正比后攻击的可能性(2)一个网络攻击<我>X不能引起异常特性,不能构成特点和攻击之间的因果关系(3)一种网络攻击,导致更多的异常特性,应该更有可能有因果关系这些特性

4所示。一个新颖的因果ML-Based NIDS

在本节中,因果ML-based NIDS (CMLN)框架和时间复杂度将被引入。

4.1。框架

本研究旨在开发一种新型的因果ML-based NIDS。如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig5/" target="_blank">5拟议的框架分为四个主要阶段。第一阶段是数据预处理,组成的<我>Z分数、Min-Max和删除不正确的行数据集和模糊。这一步的目的是提高训练模型的性能和降低类不平衡问题<一个href="#B26">26),通常出现在网络流量数据。因此,数据应该开始编码<我>Z分数将任何分类特性转换成数字的。然后,正常功能的价值等于0,异常的特征是一个正整数(<一个href="#B37">37,<一个href="#B40">40在因果推理);因此,它需要归一化到一个自然数。最后,应该删除不正确的数据集和模糊行减少训练数据集的大小,提高验证数据的准确性。

图5

拟议中的因果ML-based NIDS的框架。

第二阶段的框架选择的处理功能,这减少了所需数量的特性毫升模型和反事实的检测算法。首先,虽然吵闹的特性可能与因果关联特性,他们没有因果影响分类结果。之间的因果关系的特性和网络攻击可以通过因果关系确定干预。然后,吵闹的删除功能,只有一些功能可以保留。这不仅减少了模型分类所需的时间,也减少了培训所需的时间在不牺牲其他功能。

两个相关变量的因果关系,而两个不相关的变量没有因果关系。ML算法涉及到第三阶段的框架选择几类标签。选择最大的标签相关的参考标签第四阶段,这也可以减少反事实的检测算法的复杂性。因此,有必要对反事实的检测算法来计算预期的异常特征<我>K网络攻击,没有计算预期的异常特征<我>米网络攻击(<我>K包括参考标签的ML算法,<我>米涵盖了所有标签网络攻击)。

在第四阶段,根据因果关系,它可以决定反事实的检测算法的结果是否会改变与否当某些先决条件改变,然后提供反事实的判断的基础根据因果效应的大小。考虑到证据<我>ε=<我>e和一个干预网络攻击都将除外<我>X_一个在反事实的。接下来,预期数量的异常特征<我>E(<我>X_k,<我>ε(计算)<我>X_一个属于<我>X_k和<我>X_k包括参考标签的ML算法)。最后,获得的最大价值<我>E(<我>X_k,<我>ε),最可能的网络攻击<我>X_k。

这四个阶段的联合行动,因果ML-based NIDS能确保高精度检测的异常特征类型的网络攻击时增加。

4.2。数据预处理

执行数据标准化使用<我>Z分数,积极使用Min-Max integerization正常化,和删除错误和模糊的行数据集都包含在数据预处理阶段。

4.2.1。准备<我>Z分数归一化

Z分数归一化(<一个href="#B44">44,<一个href="#B45">45最初进行的数据。最常见的标准化方法<我>Z分数标准化,这也被称为标准差标准化。的主要目的<我>Z分数是不同震级的特性转换成相同的大小和测量与计算功能<我>Z得分值,以确保可比性。这种方法提供了原始数据的平均值和标准偏差进行数据标准化。处理过的数据符合标准正态分布,也就是说,均值为0,标准差是1,转换函数在哪里<我>Y_本月初始化功能价值,<我>U表示的意思是特征向量,标准偏差。

4.2.2。Min-Max正常化

Min-Max正常化(<一个href="#B46">46),也被称为偏差正常化,是一个线性变换的原始数据,最大的最大和最小最小的样本数据。反事实的检测算法,一个正常的价值功能是0和异常的特征是一个正整数;因此,它需要归一化到一个自然数。数据规范化是一个必要的步骤,每个值需要扩展到一个适当的范围内。这个过程有助于消除大偏差特点: 在哪里表明的归一化值<我>Y_ij的范围<我>0来<我>N以整数形式,最小值(<我>Y_j)代表的最小值<我>jth特性和马克斯(<我>Y_j)是最大的价值<我>jth特性。

4.2.3。删除不正确的行集和模糊

有功能空值的行功能或特性的标签对应于这一行不依赖于普通攻击入侵检测数据集的类别。因此,这一行是一个无效的或不正确的行集。另外,特性的行是对应于多种类型的网络攻击(如功能(0,1,1,1)对应于两种类型的网络攻击,DDos,并利用);因此,这一行是一组模糊行(<一个href="#B47">47]。错误和模糊集无法标注的ML算法。因此,错误和模糊集需要被删除的数据预处理阶段,剩下的,只有某些子集,行特性和标签的有一对一的对应的特性(例如,行(0,1,1,1)是惟一地对应于DDoS),以提高因果ML-based NIDS的鲁棒性。

4.3。特征选择

如果某些特性无关的网络攻击,他们没有因果影响分类结果(<一个href="#B26">26),这些特性因此噪声特性。通常情况下,手动匹配功能可以直接使用,消除噪声特性产生的影响的分类结果。然而,当涉及到培训的ML算法,分类器将不断适应这些特性,导致一个假的噪声特性和网络攻击之间的相关性。最终,分类器的性能可能会受损。这主要涉及因果关系对每个特性的影响,计算评估进行因果关系的影响。因此,聒噪的功能是有区别的,删除基于因果关系的影响。因此,causality-based特征的最佳组合。

4.3.1。识别噪声特性

如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig6/" target="_blank">6,有各种网络攻击之间的关系<我>X和特性<我>Y在一般的事实。如果这两个参数之间的因果关系和方向不明确,判断类型的网络攻击可能的影响。作为显示在图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig6/" target="_blank">6 (b),它是假定<我>Y_我和<我>Y_j有一个相互的因果关系,一个特性的异常将导致其他的异常。因此,可能有一个错误的结论,如果异常特征<我>Y_j被认为是由网络攻击造成的吗<我>X。

(一)

(b)

(c)

图6

简化的例子对网络攻击的影响特性。

根据这一假说,逆转的因果方向之间的网络攻击<我>X和特性<我>Y如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig6/" target="_blank">6 (c)。因此,功能<我>Y可以干扰,因果关系<我>Y和<我>X可以根据变化了的期望值<我>X,这是制定(<一个href="#B48">48]

如果条件之间<我>Y和<我>X分别满足以下规则,方程(<一个href="#EEq7">7)可以写成(<一个href="#EEq8">8)- (<一个href="#EEq20">15)[<一个href="#B43">43]。

规则1。如果<我>Y_我和<我>Y_j是独立的,那么

证明。在统计模型中,联合分布的计算公式根据马尔科夫毯(<一个href="#B26">26,<一个href="#B43">43),在一个有向无环图,考虑到父节点<我>X,<我>X独立于nonchild其母的节点。因此,上述公式可以简化为 Pa (<我>x_我)代表的父节点<我>x_我。这个公式也代表了十亿年。如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig6/" target="_blank">6 (c),它可以简化如下: 根据截断因子分解, 被边缘化的<我>y_j: 因此,

规则2。如果<我>Y_我和<我>X是独立的,那么

规则3。如果<我>Y_我是独立于<我>Y_j和<我>X,因此, 因果效应(<一个href="#B49">49可以通过测量计算<我>E的<我>X和<我>Y:

定义2(噪声特性)。至于因果特性,如果E / N (N是训练数据集)的大小小于阈值<我>δ(<我>δ≤0.01),就没有因果关系(<一个href="#B50">50)之间的<我>X和<我>Y。因此,这些特性可以被视为噪声特性,他们应该被删除的数据集。

4.3.2。去除噪声特性

因果关系的干预措施进行所有功能,如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig7/" target="_blank">7。特征选择的过程中,只有那些特性有一个因果关系的标记攻击将被选中。如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig7/" target="_blank">7特性之间的相关性是隐藏的。

图7

干预过程。

如果没有因果关系{<我>Y₁,<我>Y₃、…<我>Y_n−1},<我>X和其他特性,方程(<一个href="#EEq15">15)可以转化为方程(<一个href="#EEq17">17)根据<一个href="#rulee3">3如下:

如果方程(<一个href="#EEq17">17)持有,那么案件的因果关系可以恢复基于事实的因果方向之间的网络攻击和异常特性,如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig8/" target="_blank">8。

图8

事实因果关系一个网络攻击和特性。

根据方程(<一个href="#EEq17">17),如果干预了<我>Y₁,<我>Y_3,…,<我>Y_n−<我>1,然后之间的因果效应的强度<我>Y₁,<我>Y₃、…<我>Y_n−1和<我>X_k是在哪里<我>l是1,3,…<我>N−1 ;因此,网络攻击的BN和特性可以简化(图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig9/" target="_blank">9)。

图9

事实因果关系在多个网络攻击和特性。

作为显示在图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig9/" target="_blank">9、特点<我>y₁,<我>y₃,<我>y_n−1可以删除时,根据上述数据预处理方法,因果关系是简化为

4.3.3。特征选择的过程

基于上述方法,所有噪声特性令人满意的定义<一个href="#deff2">2将被删除。只有因果功能保留,所示的选择过程的算法<一个href="//www.newsama.com/journals/scn/2021/8986243/alg1/" target="_blank">1。

输入: ,并设置<我>P代表的特性集,其中包含<我>N特性

输出: ,和是一个因果特性集,其中包含吗特性

(1) / /代表最大的删除功能

(2) / /代表的特性集已被删除从我_th功能设置<我>P

(3) 为<我>我从<我>1来<我>N

(4) 为<我>j从<我>我来<我>N+<我>张

(5)

(6) 如果

(7) 删除功能

(8) / /数据存储在噪声特性集

(9) 如果

(10) 结束了

(11) 结束了

(12) 数= [];它代表一组噪声特性

(13) 为<我>我从<我>1来<我>N/ /。比较功能的设置<我>坎昆[我]并分配最多的组将噪声特性<我>数

(14) 如果

(15) 然后

(16) 如果

(17) 结束了

(18) 为<我>我从0到len (<我>数)

(19) 删除所有噪声特性在坎昆[我]集合;

(20) 结束了

(21) 输出因果特性集<我>C。

算法1

因果reasoning-based特征选择(crf)。

4.4。网络攻击分类

虽然因果关系简化特征选择后,如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig9/" target="_blank">9,仍然有一个多对多关系网络攻击和交通特性。反事实的检测算法的关键是如何选择最适当的标记攻击的因果关系来解释功能。根据因果推论,它可以假设的可能性的变化反事实的检测结果与某些先决条件的变化联系在一起;因此,它可以提供因果关系判断的基础根据因果关系的大小。例如,为了量化引起的异常特性的因果关系网络攻击NIDS,反事实的检测可用于推理。

如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig10/" target="_blank">10左边的是图,右边是反事实的图。所有变量的撇号反事实的条件等于没有撇号的事实条件变量。假设,在给定的条件下的证据<我>ε=e和干预,集<我>X0的值,可以计算的反事实的可能性<我>p(<我>ε=e”|ε=e,(<我>X=0))。因此,通过反事实的调查,一个正式的语言可以提供量化的概率反事实的异常特征<我>e”=1当它只是假定攻击<我>X=0。

图10

双网络反事实的检测。

定义3(预期的充分性<一个href="#B26">26])。预期的充足的网络攻击<我>X_一个是异常的数量特征,希望坚持如果干预给关掉所有其他可能的异常特性的原因: 在哪里<我>X_一个表示类型的网络攻击<我>一个,<我>Y₊显示异常特征在事实的情况下,巴勒斯坦权力机构(<我>Y₊)表示的父节点<我>Y₊代表所有的网络攻击可能导致异常特性<我>YPa (<我>Y₊)\<我>X_一个的父节点是吗<我>Y₊除了<我>X_一个,代表了异常特征在反事实的情况下,和<我>ε代表所有事实证据的特性。如果<我>E(<我>X_一个,<我>ε)是最大的设置<我>E(<我>X,<我>ε),网络攻击类型<我>X_一个将是一个因果解释给定证据<我>ε。

推论1。根据方程(<一个href="#EEq19">19)和单片机(<一个href="#B26">26,<一个href="#B51">51),预期的充足的网络攻击<我>X_一个是由在哪里<我>Y_表示正常功能的集合所有事实证据的特性。它主要是非常复杂和繁琐的解决噪声和外生变量,而解决这些方程中的变量是不必要的(<一个href="#EEq20">20.)。与此同时,的价值<我>l可以根据之前的数据计算。因此,方程(<一个href="#EEq20">20.)通过反事实的推理极大地简化了网络攻击和交通特性之间的因果关系。

4.5。时间复杂度

确定的时间复杂度提出因果ML-based NIDS,应确定每个阶段中的每个算法的复杂性。不同算法在不同阶段的表现相比,总体时间复杂度是由算法,产生最高的整体复杂性。假设数据集组成的<我>米样品和<我>N特性。一般来说,<我>米≫<我>N。

从数据预处理阶段的复杂性<我>Z分数和Min-Max正常化<我>O(<我>N)。因为它是所有的样品需要规范化<我>N特性在数据集内,删除不正确的复杂性和模糊行集<我>O(<我>米)。因此,第一阶段的整体复杂性<我>O(<我>米)。

第二阶段的时间复杂度<我>O(<我>N²)。首先,这一阶段介入的所有特性,只有<我>N措施并与(<我>N−1)/ 2的特性。在第三阶段,然而,分类器的复杂性可以被估计为<我>O(<我>米_l∗<我>K)[<一个href="#B9">9),和随机森林的时间复杂度<我>O(<我>米_l∗<我>K∗D),<我>K(<我>K<<我>N)是特征选择后的尺寸,<我>米_l表示数量的样品后删除错误和模糊行集,和<我>D树的深度。第四阶段的时间复杂度<我>O(<我>T∗米_l∗<我>K),在那里<我>T(<我>T<米和<我>T<D)代表网络攻击的类型选择在第三阶段。

基于上述讨论,提出框架的整体复杂性<我>O(<我>米_l∗∗K D)。数据预处理和特征选择的时间复杂度<我>O(<我>米+<我>N²)。作为<我>米≫<我>N,数据预处理和特征选择的时间复杂度约等于<我>O(<我>米),这个时间复杂度远低于时间复杂度<我>O(<我>米∗<我>N²特征选择的),包括MOMBNF [<一个href="#B9">9]。发现整个时间复杂度是非常关键的,因为模型通常会接受再培训,学习新模式的网络攻击。

5。绩效评估

5.1。实验设置

CICIDS19数据集于2019年由加拿大网络安全研究所和它包含良性的和最新的常见的网络攻击,这是类似于现实世界的数据共有87特性(<一个href="#B47">47]。这个数据集包含11个类型的攻击:DRDOS_MSSQL DRDOS_SNMP, SYN, DRDOS_NTP, TFTP, UDP-LAG, DRDOS_NETBIOS, DRDOS_DNS, DRDOS_UDP DRDOS_LDAP, DRDOS_SSDP。如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab1/" target="_blank">1,它还包括网络流量特性的结果基于时间戳,源和目标ip,源和目标端口,协议和攻击令牌流。

功能名称描述

流ID 流ID

年代的IP 源Ip

年代港源端口号

D IP 目的地IP

D端口目的港

协议表示数量的协议

时间戳时间戳

流持续时间在微秒时间流的

TFwd包总包的前进方向

结核病的数据包总包向后方向

TL的前轮驱动包总包在前进方向的大小

TL Bwd包向后方向总大小的包

Fwd PL马克斯最大大小的数据包在向前的方向

Fwd PL敏最小尺寸的包在前进方向

表1

CICIDS19数据集描述的特性。

原始网络数据包UNSW_NB15 [<一个href="#B52">52)是由澳大利亚网络安全中心,它是一组全面的网络攻击流量数据。与其他数据集相比,这两个数据集更适合对网络入侵检测系统的研究。UNSW_NB15数据集有九个类型的网络攻击,包括fuzz、分析,后门,DoS,利用,通用的,侦察、Shellcode和蠕虫。如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab2/" target="_blank">2使用,工具,如Argus UNSW-NB15生成共有49特性相似的标签。

功能名称描述

流ID 流id

Srcip 源Ip

体育运动源端口号

Dstip 目的IP地址

Dsport 目的端口号

原型表示数量的协议

大调的记录总时间

Spkts 源到目标包数

Dpkts 目的地源包数

Sjit 源抖动(毫秒)

Sintpkt 源interpacket到达时间(毫秒)

Ct_ftp_cmd 不流动的ftp会话的命令

Tcprtt “synack”和“ackdat”之和的TCP

Ltime 记录最后一次

表2

UNSW_NB15数据集描述的特性。

NSL-KDD [<一个href="#B53">53,<一个href="#B54">54)包含7大类的攻击,如ipsweep,海王星,nmap, portsweep,撒旦,蓝精灵,泪珠。NSL-KDD消除冗余记录在训练集分类器是无偏向更频繁的记录。训练集和测试集包含一个合理数量的情况下,这可以作为一个有效的基准数据集来帮助研究人员比较不同的入侵检测方法。如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab3/" target="_blank">3,有41 NSL-KDD维特性。

功能名称描述

协议类型类型的协议(TCP, UDP……)

源字节不。B从来源到目的地

错误的片段不。错误的片段

紧急的不。紧急的数据包

出错率 % SYN错误的连接

失败的登录不。不成功的尝试登录

登录如果登录,1 /如果登录失败,0

同样的srv率 %的连接到相同的服务

数不。连接到同一个主机作为当前连接在给定的时间间隔

Dst主机srv率 %的连接不同的主机在同一系统

#根不。的根访问

#贝壳不。活跃的命令解释器

Dst主机srv serror率 %连接到指定的主机和服务的S0错误

表3

NSL-KDD数据集描述的特性。

模糊逻辑系统(FLS) [<一个href="#B47">47)是用来评估质量的现实主义CICIDS19, UNSW-NB15, NSL-KDD数据集。FLS的基于Sugeno模糊模型(<一个href="#B55">55]调查现实主义IDS的数据集的质量。CICIDS19, UNSW-NB15, NSL-KDD数据集包含一组网络入侵攻击,反映现实世界的标准。生成过程充分考虑网络入侵攻击的特点和网络的动力学。

为了更有效地使用各种算法,使用python来实现我们的模型。总结了硬件和软件的规格表<一个href="//www.newsama.com/journals/scn/2021/8986243/tab4/" target="_blank">4。

硬件规格软件规格说明

处理器:英特尔(R)的核心(TM) i5 - 8265 u的CPU 操作系统:Windows 10

记忆:8.00 GB 编程语言:Python 3.8

开发工具:PyCharm 2019

显卡:NVIDIA Geforce MX250 包:熊猫,numpy sklearn

表4

软件和硬件规格。

5.2。实验的结果

本节给出了三组实验来验证提出的因果ML-based NIDS的有效性。

5.2.1。在训练样本数据预处理的影响

有关数据预处理的影响在训练样本的大小,训练精度和交叉验证准确性的学习曲线的变化可以得到训练样本的大小。因为在数据集的数据量足够大,约10%的数据可以作为测试开始工作,所以挺分裂用于规范化。正常化后,使用90/10%分割标准,这两个数据集随机分为训练集和测试数据集。

(1)数据预处理的影响在训练样本的大小。在这项研究中,<我>Z分数,打<一个href="#B56">56- - - - - -<一个href="#B58">58),慢性疲劳综合症(<一个href="#B9">9,<一个href="#B59">59- - - - - -<一个href="#B61">61年),控(因果reasoning-based特征选择)被用于做比较。杀算法用于打样品几类数据处理后<我>Z分数和CFS选择特性数据处理后击杀。摘要控方法,因果reasoning-based特征选择在部分<一个href="#sec4.3">4所示。3数据处理后使用<我>Z分数。不同数据集的交叉验证曲线在不同类型的网络攻击数据处理后上述四种方法的数据所示<一个href="//www.newsama.com/journals/scn/2021/8986243/fig11/" target="_blank">11- - - - - -<一个href="//www.newsama.com/journals/scn/2021/8986243/fig12/" target="_blank">12。

(一)

(b)

(c)

(d)

图11

学习曲线比较精度和训练样本的数量所需的四种方法(单一的网络攻击)。(一)<我>Z分数。(b)击杀。慢性疲劳综合症(c)。(d)控。

(一)

(b)

(c)

(d)

图12

的准确性和训练样本的数量所需的四种方法(有多种类型的网络攻击)。(一)<我>Z分数。(b)击杀。慢性疲劳综合症(c)。(d)控。

图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig11/" target="_blank">11比较的准确性与训练样本的数量所需的四种方法(认为只有一种类型的网络攻击,所有的网络攻击被视为一种类型的网络攻击,和它的名字是“不正常”)。如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig11/" target="_blank">11收敛,训练精度和交叉验证准确性,所需训练样本的数量<我>Z分数,击杀16000多,CFS在10000;然而,crf所需训练样本的数量仅为5000年,显著低于<我>Z打分数,慢性疲劳综合症,它可以确保同样的训练精度。

的准确性和训练样本的数量所需的四种方法(认为这里有多种类型的网络攻击)比较(图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig12/" target="_blank">12)。如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig12/" target="_blank">12,为了收敛训练精度和交叉验证准确性,训练样本的数量所需的z分数和击杀接近10000。CFS所需训练样本的数量是在5000年,和训练样本的数量需要CRFS接近4000,下降了60%,60%,和20%相比<我>Z分别打分数,慢性疲劳综合症。同时,训练精度达到最高,显著提高了约10%,最高的训练精度通过击杀。

如图<一个href="//www.newsama.com/journals/scn/2021/8986243/fig11/" target="_blank">11和<一个href="//www.newsama.com/journals/scn/2021/8986243/fig12/" target="_blank">12类型的网络攻击的增加,所需训练样本的数量<我>Z打分数,CFS显著增加,而训练精度明显下降。至于控所需训练样本的数量,它基本上仍低于5000年样本和训练精度略有下降。这强调了利用控技术的积极影响,因为它可以极大地减少所需的训练样本的大小在不牺牲检测性能。

(2)数据预处理的影响所需的时间进行训练。为了进一步突出数据预处理阶段的影响,表<一个href="//www.newsama.com/journals/scn/2021/8986243/tab5/" target="_blank">5总结了不同的方法来构建所需的时间学习曲线在不同类型的网络攻击。例如,当有两种类型的网络攻击,近483年代z分数建立所需的学习曲线,这是减少到370年代后加工处理后被杀和154年代的慢性疲劳综合症。然而,所需的时间构造控的学习曲线处理后只有90年代,81.4%,75.7%,和41.6%低于z分数,击杀,分别和慢性疲劳综合症。

许多类型的网络攻击算法

Z分数 击杀慢性疲劳综合症控

1 483年 370年 154年 90年

11 679年 671年 431年 314年

表5

所需的时间构建的学习曲线。

这表明crf不仅可以保证检测的准确性,也有效地减少所需的时间进行训练。证明中提到的部分<一个href="#sec4.5">4所示。5验证本文提出的特征选择算法比其它算法有较低的时间复杂度。控,吵闹的功能是删除的ML算法只需要符合因果特性。后续步骤的准确性可以保证,培训可以减少所需的时间复杂度。

5.2.2。的影响特征选择方法所需的特性

在这个实验中,三组控制实验,和功能和数据处理后的训练精度的击杀,CFS, Min-Max比较。控算法被用来进一步选择功能。击杀,CFS和Min-Max添加在表(做)<一个href="//www.newsama.com/journals/scn/2021/8986243/tab6/" target="_blank">6- - - - - -<一个href="//www.newsama.com/journals/scn/2021/8986243/tab17/" target="_blank">17表明crf方法可以应用到过程并选择数据处理后的数据通过这些方法。

攻击的数量特征选择方法(所需的数量特性)

击杀击杀(做) 慢性疲劳综合症慢性疲劳综合症(做) Min-max Min-max(做)

1 70年 5 9 4 70年 4

3 70年 6 8 3 70年 5

7 70年 6 13 6 70年 5

11 70年 8 16 7 70年 14

表6

的数量特性选择不同的特征选择方法在CICIDS19数据集。

特征选择方法精度在不同类型的网络攻击(1、3、7、11)

1 3 7 11

击杀 0.9995 0.9962 0.9109 0.8758

击杀(做) 0.9995 0.9894 0.9042 0.8716

百分比 1 0.9932 0.9926 0.9952

表7

比较击打和crf CICIDS19数据集之间的精度。

特征选择方法精度在不同类型的网络攻击(1、3、7、11)

1 3 7 11

KNN-CFS 0.9985 0.9953 0.9735 0.8917

KNN-CFS(做) 0.9981 0.9953 0.9715 0.8895

百分比 0.9995 1 0.9979 0.9975

表8

比较慢性疲劳综合症之间的精度和crf CICIDS19数据集。

特征选择方法精度在不同类型的网络攻击(1、3、7、11)

1 3 7 11

Min-max 0.9995 0.9953 0.8470 0.8420

Min-max(做) 0.9995 0.9891 0.8359 0.8302

百分比 1 0.9938 0.9869 0.9860

表9

比较min-max之间的精度和crf CICIDS19数据集。

许多类型的网络攻击特征选择方法(所需数量的特性)

击杀击杀(做) 慢性疲劳综合症慢性疲劳综合症(做) Min-max Min-max(做)

1 40 7 6 6 40 19

9 40 7 11 5 40 20.

表10

的数量特征提取不同的特征选择方法在UNSW-NB15数据集。

特征选择方法精度在不同类型的网络攻击(9)

1 9

击杀 0.9357 0.8147

击杀(做) 0.9337 0.7499

百分比 0.9979 0.9205

表11

比较击打和crf UNSW-NB15数据集之间的精度。

特征选择方法精度在不同类型的网络攻击(9)

1 9

KNN-CFS 0.9213 0.7869

KNN-CFS(做) 0.9213 0.7326

百分比 1 0.931

表12

比较慢性疲劳综合症之间的精度和crf UNSW-NB15数据集。

特征选择方法精度在不同类型的网络攻击(9)

1 9

Min-max 0.9435 0.8496

Min-max(做) 0.9455 0.8448

百分比 1.002 0.9944

表13

比较min-max之间的精度和crf UNSW-NB15数据集。

攻击的数量特征选择方法(所需的数量特性)

击杀击杀(做) 慢性疲劳综合症慢性疲劳综合症(做) Min-max Min-max(做)

1 36 8 8 7 36 10

7 36 8 12 7 36 10

表14

的数量特征提取不同的特征选择方法在NSL-KDD数据集。

特征选择方法精度在不同类型的网络攻击(7)

1 7

击杀 0.9951 0.9714

击杀(做) 0.9907 0.9701

百分比 0.9956 0.9987

表15

比较击打和crf NSL-KDD数据集之间的精度。

特征选择方法精度在不同类型的网络攻击(7)

1 7

KNN-CFS 0.9835 0.9681

KNN-CFS(做) 0.9835 0.9624

百分比 1 0.9960

表16

比较慢性疲劳综合症之间的精度和crf NSL-KDD数据集。

特征选择方法精度在不同类型的网络攻击(7)

1 7

Min-max 0.9971 0.9751

Min-max(做) 0.9979 0.9748

百分比 1.0008 0.9997

表17

比较min-max之间的精度和crf NSL-KDD数据集。

特征的数量不同的算法处理后的CICIDS19数据集在不同类型的网络攻击如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab6/" target="_blank">6。控算法处理后,训练所需特性的数量下降了超过50%的最大最小值和94%相比之前处理。此外,功能由控算法处理的数量明显低于CFS计算的算法。这可能与crf基于因果推理只选择网络特性与网络攻击有因果关系,它消除了伪相关的特性。CFS是基于高度相关的特征选择方法,可以大大减少的数量特征。然而,这种方法也选择一些因果与伪相关特性,导致更多的功能比控。

击杀和控之间的检测精度,CFS和crf之间和min-max与crf CICIDS19数据集,分别如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab7/" target="_blank">7- - - - - -<一个href="//www.newsama.com/journals/scn/2021/8986243/tab9/" target="_blank">9。如上述表格所示,尽管训练所需特性的数量明显下降后控数据处理的算法,其训练精度仍保持约99%的原始算法的准确性,和减少可能与大量的压缩功能相比几乎可以忽略不计。结果表明,控算法不仅可以有效地减少加工所需训练样本的数量也确保训练样本的准确性相对稳定的水平。这是因为控算法可以识别真正的网络攻击和特性之间的因果关系,而消除功能只是伪相关的特点,略影响精度。

的数量特征留在UNSW-NB15数据集数据处理后不同算法在不同类型的网络攻击如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab10/" target="_blank">10。特性的进一步处理后控算法,最小和最大数量的减少所需功能训练是> 50%和> 82.5%,前处理。当有几个类型的网络攻击,运用因果关系的影响到数据处理的CFS发现压缩功能显著降低。由于强烈的相关性和因果关系强,UNSW-NB15 CFS的数据处理后是一致的。然而,当有几种类型的网络攻击,减少也重要,高达54.5%,进一步处理后控算法。

击杀和控之间的检测精度,CFS和crf之间和min-max与crf UNSW-NB15数据集,分别如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab11/" target="_blank">11- - - - - -<一个href="//www.newsama.com/journals/scn/2021/8986243/tab13/" target="_blank">13。上述表中给出,当有几个类型的网络攻击,虽然培训所需特性的数量被控算法处理后明显减少,培训基本上保持不变和效果的准确性是显而易见的。

NSL-KDD数据集,进一步处理后控特性的算法,最大数量的减少所需功能训练是> 82.5%。如上述所示数据集,训练所需特性的数量明显减少了NSL-KDD控算法处理后的数据集。

总而言之,控算法可以有效地减少所需的训练样本的数量CICIDS19, UNSW-NB15, NSL-KDD数据集,也可以保证训练样本的准确性与可接受的相对稳定。尤其是在小数量的网络攻击的情况下,大大减少在时间和计算复杂性,训练精度基本不变。这是证明因果特性不仅可以完成NIDS的检测任务,还保证准确率的稳定性。选中的因果特性可能在未来预防治疗提供有针对性的帮助。

5.2.3。对检测性能的影响,不同类型的网络攻击

评估不同的分类器的性能和研究的影响不同的优化方法,它可以指的是评价指标的测试数据(ACC)的准确性。随机搜索(RS)和树形结构Parzen估计量(TPE)是两种最优参数调整方法精度最高的资讯和随机森林MOMBNF [<一个href="#B9">9]。CMLN因果ML-based NIDS。

不同分类器的性能CICIDS19、UNSW-NB15 NSL-KDD数据集在不同类型的网络攻击是比较表<一个href="//www.newsama.com/journals/scn/2021/8986243/tab18/" target="_blank">18- - - - - -<一个href="//www.newsama.com/journals/scn/2021/8986243/tab20/" target="_blank">20.。如表所示<一个href="//www.newsama.com/journals/scn/2021/8986243/tab18/" target="_blank">18CICIDS19数据集,以增加类型的网络攻击,检测精度MOMBNF显著下降。有11个类型的网络攻击时,所有的参数优化方法的检测精度MOMBNF低于90%,尤其是测试集的准确性低于30%,游戏内数据处理。然而,经过CMLN训练,测试的准确性将稳定在98.5%以上,这是最优RS-KNN-CFS高出9%的方法。从表可以看出<一个href="//www.newsama.com/journals/scn/2021/8986243/tab18/" target="_blank">18- - - - - -<一个href="//www.newsama.com/journals/scn/2021/8986243/tab20/" target="_blank">20.无论数据集的构成,CMLN测试集的准确性高于MOMBNF和br (<一个href="#B47">47),尤其是当有几种类型的网络攻击。CMLN的检出率高于MOMBNF。

算法检测精度在不同类型的网络攻击(1、3、7、11)

1 3 7 11

RS-KNN-CFS 0.9985 0.9953 0.9735 0.8917

TPE-KNN-CFS 0.9954 0.9942 0.9687 0.8793

RS-KNN-IGBS 0.9938 0.4577 0.4157 0.2887

TPE-KNN-IGBS 0.9864 0.3633 0.3024 0.2697

RS-RF-CFS 0.9986 0.9948 0.9676 0.8951

TPE-RF-CFS 0.9987 0.9947 0.9529 0.8921

RS-RF-IGBS 0.9928 0.4561 0.4170 0.2963

TPE-RF-IGBS 0.9883 0.4534 0.4033 0.2965

BRS 0.9985 0.9461 0.7869 0.7732

CMLN 0.9995 0.9993 0.9856 0.9852

表18

不同分类器的性能CICIDS19数据集在不同类型的网络攻击。

算法检测精度在不同类型的网络攻击(9)

1 9

RS-KNN-CFS 0.9283 0.7869

TPE-KNN-CFS 0.9168 0.7654

RS-KNN-IGBS 0.9501 0.7869

TPE-KNN-IGBS 0.9450 0.7073

RS-RF-CFS 0.9209 0.7806

TPE-RF-CFS 0.9274 0.7915

RS-RF-IGBS 0.9198 0.7253

TPE-RF-IGBS 0.9198 0.7367

BRS 0.8717 0.8082

CMLN 0.9926 0.9229

表19

不同分类器的性能UNSW-NB15数据集在不同类型的网络攻击。

算法检测精度在不同类型的网络攻击(7)

1 7

RS-KNN-CFS 0.9886 0.9795

TPE-KNN-CFS 0.9850 0.9778

RS-KNN-IGBS 0.9911 0.9797

TPE-KNN-IGBS 0.9919 0.9812

RS-RF-CFS 0.9877 0.9671

TPE-RF-CFS 0.9837 0.9698

RS-RF-IGBS 0.9939 0.9821

TPE-RF-IGBS 0.9923 0.9810

BRS 0.9959 0.9538

CMLN 0.9983 0.9933

表20

不同分类器的性能NSL-KDD数据集在不同类型的网络攻击。

6。结论

尽管毫升旨在促进异常的检测,重要的是要首先了解检测是如何执行的,以及清晰地定义所需的输出我们的算法。当传统ML算法不能解耦相关性和因果关系,很难达到一个稳定的预测(<一个href="#B8">8]。因此,本文提出了一个新颖的因果ML-based NIDS。首先,通过建立网络攻击之间的因果关系和功能通过因果干预,吵闹的特性可以被删除,可以确定培训功能的最小大小。然后,毫升和反事实的检测算法被用来找出独特的标签。最后,CICIDS19 UNSW-NB15, NSL-KDD数据集被用来评估提出了检测方法的性能。

实验结果表明,该控方法提出了可以减少训练样本的大小和训练时间至少40%。同时,功能训练是大大减少所需的数量后控数据处理的算法,同时也确保训练的准确性与可接受的相对稳定。这是证明了删除噪声特性并不影响检测的准确性。结果表明,与其他优化技术相比,CMLN检测精度最高(有11个类型的网络攻击时,精度提高了近9%,最优RS-KNN-CFS方法)。这是证实了反事实的检测算法能有效地识别特性和网络攻击的类型之间的因果关系。

目前,新的网络安全威胁越来越严重,无法根据现有的分类方法分类。因此,如何有效地结合无监督学习和因果毫升新建NIDs检测新的网络安全威胁可能是一个新的方向进行调查。

数据可用性

使用的数据来支持本研究的发现可以从访问<一个href="https://www.unb.ca/cic/datasets/index.html" target="_blank">https://www.unb.ca/cic/datasets/index.html,<一个href="https://ieee-dataport.org/documents/unswnb15-dataset" target="_blank">https://ieee-dataport.org/documents/unswnb15-dataset,<一个href="https://www.unb.ca/cic/datasets/nsl.html" target="_blank">https://www.unb.ca/cic/datasets/nsl.html。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国自然科学基金会(不支持。61972412)和国家重点研发项目中国没有。2018 yfb0204301)。

引用

a . Kozowski”比较分析网络攻击的爱沙尼亚,格鲁吉亚和吉尔吉斯斯坦,”<我>欧洲科学杂志,3卷,2020年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Comparative%20analysis%20of%20cyberattacks%20on%20Estonia,%20Georgia%20and%20Kyrgyzstan&author=A. Kozowski&publication_year=2020" target="_blank">谷歌学术搜索

m·李·d·汉,x阴et al .,“网络流量异常检测模型的设计和实现积分时间和空间特性,”<我>安全性和通信网络卷,2021篇文章ID 7045823, 15页,2021年。视图:<一个href="https://doi.org/10.1155/2021/7045823">出版商的网站|谷歌学术搜索

s . Moualla k Khorzom, a的魔法师,“基于机器学习的网络入侵检测系统的性能改善UNSW-NB15数据集,“<我>计算智能和神经科学ID 5557577条,卷。2021年,13页,2021。视图:<一个href="https://doi.org/10.1155/2021/5557577">出版商的网站|谷歌学术搜索

e . k . Viegas a . o . Santin诉阿伯,“机器学习的入侵检测在大数据时代:一个多目标方法模型寿命更长,”<我>IEEE网络科学与工程,8卷,不。1,2020。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Machine%20learning%20intrusion%20detection%20in%20big%20data%20era:%20a%20multi-objective%20approach%20for%20longer%20model%20lifespans&author=E. K. Viegas&author=A. O. Santin&author=&author=V. Abreu&_year=2020" target="_blank">谷歌学术搜索

z卡米尔,r·尤索夫:巴哈马,m·a . Salama和f·m·f·Cik“基准测试的机器学习cicids2017数据集,基于异常的入侵检测系统”<我>IEEE访问,9卷,2017年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Benchmarking%20of%20machine%20learning%20for%20anomaly%20based%20intrusion%20detection%20systems%20in%20the%20cicids2017%20dataset&author=Z. Kamil&author=R. Yusof&author=N. Bahaman&author=M. A. Salama&author=&author=F. M. F. Cik&publication_year=2017" target="_blank">谷歌学术搜索

大肠Tsukerman,<我>设计一个机器学习的入侵检测系统:保护你的网络从网络安全威胁2020年,然后,纽约,美国。

张j . m . Zulkernine”异常与无监督异常值检测、基于网络入侵检测”<我>2006年ICC06学报》上。IEEE国际会议交流IEEE,页2388 - 2393年,伊斯坦布尔,土耳其,2006年6月。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Anomaly%20based%20network%20intrusion%20detection%20with%20unsupervised%20outlier%20detection&author=J. Zhang &author=M. Zulkernine" target="_blank">谷歌学术搜索

k .旷b·李·崔j .道f .壮族和f·吴,“通过利用种子稳定预测变量,”2020年,<一个target="_blank" href="https://arxiv.org/abs/2006.05076">https://arxiv.org/abs/2006.05076。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Stable%20Prediction%20Via%20Leveraging%20Seed%20Variable&author=K. Kuang&author=B. Li&author=P. Cui&author=J. Tao&author=F. Zhuang&author=&author=F. Wu&publication_year=2020" target="_blank">谷歌学术搜索

m . n . Injadat a . Moubayed a·b·约瑟夫和a . Shami“多级优化的网络入侵检测的机器学习框架,“<我>IEEE网络和服务管理,18卷,不。2、2020。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Multi-stage%20optimized%20machine%20learning%20framework%20for%20network%20intrusion%20detection&author=M. N. Injadat&author=A. Moubayed&author=A. B. Nassif&author=&author=A. Shami&publication_year=2020" target="_blank">谷歌学术搜索

f .旷,w .徐和美国,“小说与ga混合kpca和支持向量机的入侵检测模型,”<我>应用软计算18卷,第184 - 178页,2014年。视图:<一个href="https://doi.org/10.1016/j.asoc.2014.01.028">出版商的网站|谷歌学术搜索

A . s . Eesa, z .•A . m . A . Brifcani”一种新颖的基于墨鱼优化算法的特征选择方法对于入侵检测系统,”<我>专家系统与应用程序,42卷,不。5,2670 - 2679年,2015页。视图:<一个href="https://doi.org/10.1016/j.eswa.2014.11.009">出版商的网站|谷歌学术搜索

m . Wazid和a . k . Das,”一个高效的混合动力异常检测方案为无线传感器网络使用k - means聚类,“<我>无线个人通信,卷90,不。4、1971 - 2000年,2016页。视图:<一个href="https://doi.org/10.1007/s11277-016-3433-3">出版商的网站|谷歌学术搜索

a . Moubayed m . Injadat a.b.约瑟夫,l·哈难和a . Shami“电子学习:挑战和研究机会使用机器学习数据分析,“<我>IEEE访问》第六卷,第139 - 117页,2018年。视图:<一个href="https://doi.org/10.1109/access.2018.2851790">出版商的网站|谷歌学术搜索

美国Aliawarneh、m . Aldwairi和m . b . Yassein”Anomaly-based入侵检测系统通过特征选择分析和构建混合效率模型,”<我>计算机科学期刊,25卷,2017年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Anomaly-based%20intrusion%20detection%20system%20through%20feature%20selection%20analysis%20and%20building%20hybrid%20efficient%20model&author=S. Aliawarneh&author=M. Aldwairi&author=&author=M. B. Yassein&publication_year=2017" target="_blank">谷歌学术搜索

太阳x, j·戴,p .刘:安普,和美国约翰,“使用贝叶斯网络的概率识别零日攻击路径,”<我>IEEE取证和安全信息,13卷,不。10日,2018年。视图:<一个href="https://doi.org/10.1109/tifs.2018.2821095">出版商的网站|谷歌学术搜索

t·a·唐、l . Mhamdi和d . Mclernon“深度学习的方法对网络入侵检测软件定义网络,”<我>《国际会议上无线网络和移动通讯2016年10月,IEEE,土耳其毡帽,摩洛哥,。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Deep%20Learning%20Approach%20for%20Network%20Intrusion%20Detection%20in%20Software%20Defined%20Networking&author=T. A. Tang&author=L. Mhamdi&author=&author=D. Mclernon" target="_blank">谷歌学术搜索

答:a .亚都m·a·萨拉赫丁n . Limam和r . Boutaba”BotChase:基于机器人检测使用机器学习,”<我>IEEE网络和服务管理,17卷,不。1、15 - 29,2020页。视图:<一个href="https://doi.org/10.1109/tnsm.2020.2972405">出版商的网站|谷歌学术搜索

x高,c, c . Hu z妞妞,z . Liu,“一种适应性整体机器学习的入侵检测模型,”<我>IEEE访问ID 82512条,卷。7日,2019年。视图:<一个href="https://doi.org/10.1109/access.2019.2923640">出版商的网站|谷歌学术搜索

a . Mahindru和a . Sangal“SemiDroid:行为恶意软件探测器基于非监督机器学习技术的使用特征选择方法,”<我>国际期刊的机器学习和控制论,12卷,2021年。视图:<一个href="https://doi.org/10.1007/s13042-020-01238-9">出版商的网站|谷歌学术搜索

h·刘和z赵”,操作数据和降维方法:特征选择,”<我>计算复杂度施普林格,r·迈耶斯Ed,纽约,美国,2012年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Manipulating%20Data%20And%20Dimension%20Reduction%20Methods:%20Feature%20Selection&author=H. Liu &author=Z. Zhao&publication_year=2012" target="_blank">谷歌学术搜索

h·刘,<我>特征选择对知识发现和数据挖掘Kluwer学术出版商,多德雷赫特,荷兰,1998年。

x赵、j .阮和h . Tang”Multi-compositional MRI评价膝关节骨关节炎软骨修复的治疗人类脂肪间充质祖细胞同种异体,”<我>干细胞研究与治疗,10卷,不。1,2019。视图:<一个href="https://doi.org/10.1186/s13287-019-1406-7">出版商的网站|谷歌学术搜索

A . Hadeel s·艾哈迈德,s . k . Eddin”特征选择算法基于鸽子的入侵检测系统优化器的启发,“<我>专家系统与应用程序文章ID 113249卷,148年,2020年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=A%20feature%20selection%20algorithm%20for%20intrusion%20detection%20system%20based%20on%20Pigeon%20Inspired%20Optimizer&author=A. Hadeel&author=S. Ahmad&author=&author=S. K. Eddin&publication_year=2020" target="_blank">谷歌学术搜索

A . e . Sabry z•, m·A·Adnan”一个新的特征选择模型基于id3和蜜蜂的入侵检测系统的算法,”<我>土耳其的电气工程和计算机科学杂志》上,23卷,不。2、2015。视图:<一个href="https://scholar.google.com/scholar_lookup?title=A%20new%20feature%20selection%20model%20based%20on%20id3%20and%20bee’s%20algorithm%20for%20intrusion%20detection%20system&author=A. E. Sabry&author=Z. Orman&author=&author=M. A. Adnan&publication_year=2015" target="_blank">谷歌学术搜索

y y涌和n .瓦希德“混合网络入侵检测系统使用简化的群优化(SSO),“<我>应用软计算,12卷,不。9日,第3022 - 3014页,2012年。视图:<一个href="https://doi.org/10.1016/j.asoc.2012.04.020">出版商的网站|谷歌学术搜索

j·g .所得,m . Ciaran和s·j·李,“提高医疗诊断的准确性和因果机器学习,”<我>自然通讯,11卷,不。1,2020。视图:<一个href="https://doi.org/10.1038/s41467-020-17419-7">出版商的网站|谷歌学术搜索

z . j . Lim s . k .吴作栋,Dhief,“因果的影响参数对着陆跑道占用时间使用因果的机器学习模型”<我>计算情报学报2020年IEEE研讨会系列(1)堪培拉,澳大利亚,2020年12月。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Causal%20effects%20of%20landing%20parameters%20on%20runway%20occupancy%20time%20using%20causal%20machine%20learning%20models&author=Z. J. Lim&author=S. K. Goh&author=&author=I. Dhief" target="_blank">谷歌学术搜索

a >“因果关系和统计学习。”<我>美国社会学杂志》,卷117,不。3、955 - 966年,2011页。视图:<一个href="https://doi.org/10.1086/662659">出版商的网站|谷歌学术搜索

j .珍珠,“因果推论统计:概述,“<我>统计调查,3卷,第146 - 96页,2009年。视图:<一个href="https://doi.org/10.1214/09-ss057">出版商的网站|谷歌学术搜索

l .姚明,“因果推论的一项调查,2020年,<一个target="_blank" href="https://arxiv.org/abs/2002.02770">https://arxiv.org/abs/2002.02770。视图:<一个href="https://scholar.google.com/scholar_lookup?title=A%20survey%20on%20the%20causal%20inference&author=L. Yao&publication_year=2020" target="_blank">谷歌学术搜索

b . Scholkopf”,为机器学习因果关系”,2019年,<一个target="_blank" href="https://arxiv.org/abs/1911.10500">https://arxiv.org/abs/1911.10500。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Causality%20for%20machine%20learning&author=B. Schölkopf&publication_year=2019" target="_blank">谷歌学术搜索

b . Schlkopf f . Locatello美国鲍尔et al .,“对因果表示学习,”2021年,<一个target="_blank" href="https://arxiv.org/abs/2102.11107">https://arxiv.org/abs/2102.11107。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Towards%20causal%20representation%20learning&author=B. Schlkopf&author=F. Locatello&author=S. Bauer et al.&publication_year=2021" target="_blank">谷歌学术搜索

c . m . Wang刘,g .智<我>为因果推论统计方法2018年,Scientia中央研究院数学。

j .珠儿,”概率推理的智能系统:似是而非的推理网络(犹太珍珠),“<我>人工智能,48卷,不。8,117 - 124年,1990页。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Probabilistic%20reasoning%20in%20intelligent%20systems:%20networks%20of%20plausible%20inference%20(judea%20pearl)&author=J. Pearl&publication_year=1990" target="_blank">谷歌学术搜索

谢瑞尔,r·w·普拉特r . j . Steele et al .,“估计因果效应的治疗在随机试验中一些参与者只是部分遵循时,“<我>流行病学卷,29号1,2017。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Estimating%20causal%20effects%20of%20treatment%20in%20a%20randomized%20trial%20when%20some%20participants%20only%20partially%20adhere&author=I. Shrier&author=R. W. Platt&author=R. J. Steele et al.&publication_year=2017" target="_blank">谷歌学术搜索

朱,即Ng, z陈,“因果因果与强化学习发现,”2019年,<一个target="_blank" href="https://arxiv.org/abs/1906.04477">https://arxiv.org/abs/1906.04477。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Causal%20and%20causal%20discovery%20with%20reinforcement%20learning&author=S. Zhu&author=I. Ng&author=&author=Z. Chen&publication_year=2019" target="_blank">谷歌学术搜索

j·m·罗宾斯,t·s·理查森和Shpitser,“中介的干涉主义分析,”2020年,<一个target="_blank" href="https://arxiv.org/abs/2008.06019">https://arxiv.org/abs/2008.06019。视图:<一个href="https://scholar.google.com/scholar_lookup?title=An%20interventionist%20approach%20to%20mediation%20analysis&author=J. M. Robins&author=T. S. Richardson&author=&author=I. Shpitser&publication_year=2020" target="_blank">谷歌学术搜索

p.h. Messerli”吃巧克力、认知功能和诺贝尔奖获得者,“<我>新英格兰医学杂志》上,卷367,不。16,1562 - 1564年,2012页。视图:<一个href="https://doi.org/10.1056/nejmon1211064">出版商的网站|谷歌学术搜索

彼得s Chockalingam w ., a .特谢拉和g . Van”网络安全的贝叶斯网络模型:系统回顾,”<我>学报》22日北欧会议确保IT系统(NordSec 2017)施普林格,页105 - 122年,塔尔图,爱沙尼亚,2017年11月。视图:<一个href="https://doi.org/10.1007/978-3-319-70290-2_7">出版商的网站|谷歌学术搜索

d·安格斯和皮克,“早期目标导向治疗脓毒症的治疗:应对Jaehne等人的言论,”<我>重症监护医学,41岁,第1730 - 1729页,2015年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Early%20goal-directed%20therapy%20in%20the%20treatment%20of%20sepsis:%20response%20to%20comments%20by%20Jaehne%20et%20al&author=D. Angus &author=S. Peake&publication_year=2015" target="_blank">谷歌学术搜索

诉Didelez、i Pigeot和p .犹太“因果关系:模型、推理和推理,”<我>Politische Vierteljahresschrift,42卷,不。2、313 - 315年,2001页。视图:<一个href="https://doi.org/10.1007/s11615-001-0048-3">出版商的网站|谷歌学术搜索

s . g .西部和t·科赫”恢复因果分析因果关系的结构方程建模审查:模型、推理,推理,通过犹太珠儿,”<我>结构方程建模多学科杂志,21卷,不。1,第498 - 484页,2014。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Restoring%20causal%20analysis%20to%20structural%20equation%20modeling%20review%20of%20causality:%20models,%20reasoning,%20and%20inference,%20by%20Judea%20Pearl&author=S. G. West &author=T. Koch&publication_year=2014" target="_blank">谷歌学术搜索

d·盖革,t . Verma和j .珠儿,”维分离:从定理算法。”<我>机器智能和模式识别北荷兰,卷。10日,1990年。视图:<一个href="https://doi.org/10.1016/b978-0-444-88738-2.50018-x">出版商的网站|谷歌学术搜索

m·哈达,”阿里alheeti克劳斯McDonald-maier,“智能入侵检测外部通信系统自主车辆,”<我>系统科学与控制工程》第六卷,没有。1,2018。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Ali%20alheeti,%20klaus%20McDonald-maier,%20“intelligent%20intrusion%20detection%20in%20external%20communication%20systems%20for%20autonomous%20vehicles&author=M. Khattab&publication_year=2018" target="_blank">谷歌学术搜索

>、y . Cheng和n . c .刘”比较mean-based方法和z分数的影响领域标准化的科学引文网络层面的主题类别,“<我>科学计量学,卷101,不。3、1679 - 1693年,2014页。视图:<一个href="https://doi.org/10.1007/s11192-014-1294-7">出版商的网站|谷歌学术搜索

Patro和k . k . Sahu“正常化:预处理阶段,”2015年,<一个target="_blank" href="https://arxiv.org/abs/1503.06462">https://arxiv.org/abs/1503.06462。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Normalization:%20A%20preprocessing%20stage&author=S. Patro &author=K. K. Sahu&publication_year=2015" target="_blank">谷歌学术搜索

m·普拉萨德,美国特里帕西和k .达“一个有效的特征选取贝叶斯粗糙集方法对入侵检测,”<我>应用软计算文章ID 105980卷,87年,2020年。视图:<一个href="https://doi.org/10.1016/j.asoc.2019.105980">出版商的网站|谷歌学术搜索

r·r·Tucci”介绍犹太珍珠做微积分”,2013年,<一个target="_blank" href="https://arxiv.org/abs/1305.5506">https://arxiv.org/abs/1305.5506。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Introduction%20to%20judea%20pearl’s%20do-calculus&author=R. R. Tucci&publication_year=2013" target="_blank">谷歌学术搜索

李z l .姚明,朱棣文,美国“因果推论的一项调查,”2020年,<一个target="_blank" href="https://arxiv.org/abs/2002.02770">https://arxiv.org/abs/2002.02770。视图:<一个href="https://scholar.google.com/scholar_lookup?title=A%20survey%20on%20causal%20inference&author=L. Yao&author=Z. Chu&author=&author=S. Li&publication_year=2020" target="_blank">谷歌学术搜索

耿w .苗族,c·c·刘,z,“因果推论统计方法(在中国),“<我>Sci罪数学48卷,第1778 - 1753页,2018年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Statistical%20approaches%20for%20causal%20inference%20(in%20Chinese)&author=W. Miao&author=C. C. Liu&author=&author=Z. Geng&publication_year=2018" target="_blank">谷歌学术搜索

m . Waldmann“因果推理的牛津手册”,牛津大学出版社,牛津大学,英国,2017年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=The%20oxford%20handbook%20of%20causal%20reasoning&author=M. Waldmann&publication_year=2017" target="_blank">谷歌学术搜索

f . j . Zhang l . Yu Xingbing, x, x, z .瑞,”的入侵检测系统模型的基础上,集成的时空特性,”<我>电脑与安全,89卷,2020年。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Model%20of%20the%20intrusion%20detection%20system%20based%20on%20the%20integration%20of%20spatial-temporal%20features&author=J. Zhang&author=L. Yu&author=F. Xingbing&author=X. Yang&author=X. Gang&author=&author=Z. Rui&publication_year=2020" target="_blank">谷歌学术搜索

m·a·Hawawreh:穆斯塔法,e . Sitnikova“工业物联网识别恶意活动的深度学习模型的基础上,“<我>《信息安全与应用程序41卷,1 - 11,2018页。视图:<一个href="https://doi.org/10.1016/j.jisa.2018.05.002">出版商的网站|谷歌学术搜索

m·a·Ferrag l . Maglaras s Moschoyiannis et al .,“深度学习网络安全入侵检测:方法,数据集,和比较研究,“<我>《信息安全与应用程序50卷ID 102419条,2020年。视图:<一个href="https://doi.org/10.1016/j.jisa.2019.102419">出版商的网站|谷歌学术搜索

w·海德尔j . Hu j .杀b·特恩布尔和y .谢,”数据集生成实际的入侵检测系统基于模糊定性建模、”<我>网络和计算机应用》杂志上卷,87年,第192 - 185页,2017年。视图:<一个href="https://doi.org/10.1016/j.jnca.2017.03.018">出版商的网站|谷歌学术搜索

陈z,燕,h·汉et al .,“基于机器学习的移动恶意软件检测使用高度不平衡网络流量,”<我>信息科学卷,433年,第364 - 346页,2018年。视图:<一个href="https://doi.org/10.1016/j.ins.2017.04.044">出版商的网站|谷歌学术搜索

n . v .拉k·w·鲍耶l . o .大厅et al .,“杀:少数over-sampling合成技术,”<我>人工智能研究杂志》上》16卷,第357 - 321页,2002年。视图:<一个href="https://doi.org/10.1613/jair.953">出版商的网站|谷歌学术搜索

x, s .苏黄z . et al .,“基于无线传感器网络入侵检测的击杀和随机森林算法,”<我>传感器,19卷,不。1,2019。视图:<一个href="https://doi.org/10.3390/s19010203">出版商的网站|谷歌学术搜索

s . k . j . Li Cheng王et al .,“功能选择:数据的角度来看,“<我>ACM计算调查,50卷,不。6,94年,页2018。视图:<一个href="https://doi.org/10.1145/3136625">出版商的网站|谷歌学术搜索

m·a·霍尔,”Correlation-based机器学习的特征选择,“怀卡托大学汉密尔顿,汉密尔顿,新西兰,1999年博士论文。视图:<一个href="https://scholar.google.com/scholar_lookup?title=Correlation-based%20feature%20selection%20for%20machine%20learning&author=M. A. Hall&publication_year=1999" target="_blank">谷歌学术搜索

a . Moubayed m . Injadat a Shami et al .,“学生参与和表现之间的关系e使用关联规则的学习环境,”<我>学报2018年IEEE世界工程Educati会议(EDUNINE),页1 - 6,布宜诺斯艾利斯,阿根廷,2018年3月。视图:<一个href="https://doi.org/10.1109/edunine.2018.8451005">出版商的网站|谷歌学术搜索

版权

版权©2021 Zengri曾庆红等。这是一个开放的分布式下文章<一个rel="license" href="http://creativecommons.org/licenses/by/4.0/">知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。

安全性和通信网络

文摘

1。介绍

2。文献综述

3所示。预赛

3.1。强大的虚假的相关性

3.2。定义

3.3。供应链管理

3.4。因果关系的干预

3.5。反事实的检测(<一个href="#B26">26]

4所示。一个新颖的因果ML-Based NIDS

4.1。框架

4.2。数据预处理

4.2.1。准备<我>Z分数归一化

4.2.2。Min-Max正常化

4.2.3。删除不正确的行集和模糊

4.3。特征选择

4.3.1。识别噪声特性

4.3.2。去除噪声特性

4.3.3。特征选择的过程

4.4。网络攻击分类

4.5。时间复杂度

5。绩效评估

5.1。实验设置

5.2。实验的结果

5.2.1。在训练样本数据预处理的影响

5.2.2。的影响特征选择方法所需的特性

5.2.3。对检测性能的影响,不同类型的网络攻击

6。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章