改善TLBO-JAYA子集算法特征选择和参数优化在入侵检测系统中

文摘

许多optimisation-based入侵检测算法开发并广泛用于入侵识别。这种情况是由于越来越多的审计数据的特性和减少人性化智能入侵检测系统的性能对分类准确性、误警率和分类。特征选择和分类器参数优化是重要的因素,影响入侵检测系统的性能。本文提出了一种改进的多级分类的入侵检测算法,详细讨论。该方法改进的teaching-learning-based优化(ITLBO)算法相结合,提高并行JAYA (IPJAYA)算法和支持向量机。ITLBO监督机器学习(ML)技术用于特征子集选择(FSS)。选择最少的功能不会造成影响结果准确性fs是一个多目标优化问题。这项工作提出了ITLBO FSS机制,及其algorithm-specific无参数概念(不需要参数调优在优化)。IPJAYA在这项研究被用来更新C和γ参数的支持向量机(SVM)。几个实验进行突出的入侵毫升数据集,在显著增强观察与建议ITLBO-IPJAYA-SVM算法与经典TLBO和JAYA算法相比。

1。介绍

最近的进步和网络的普及和信息技术增加了网络信息安全的重要性。与传统的网络防御机制相比,人性化智能入侵检测系统(ids)可以拦截或网络入侵的警告。然而,大多数研究信息安全的方法都集中在提高智能网络IDSs的有效性。智能IDSs的使用是一种有效的网络安全解决方案,它可以防止攻击。尽管如此,机器学习(ML)方法和优化算法通常用于入侵检测,因为现有IDSs的检出率很低在面对审计数据,有很高的开销(1]。

执行时间有时会大幅增加,当一个人试图提高检测精度。执行时间也可以显著降低,但降低成本的准确性。因此,特征子集选择问题(FSS)可以被认为是一个多目标优化问题;它有多个解决方案,最好的可能选择。解决方案,提供优越的精度是由顾客优先选择精度。其他客户选择的解决方案,提供减少执行时间,最好的解决方案,尽管精度在一定程度上妥协。

teaching-learning-based优化算法(TLBO),小说metaheuristic,最近大量成功应用于各种棘手的优化问题。TLBO优于其他算法,如遗传算法(气)、粒子群、蚁群。此外,TLBO需要更少的参数调优与其他算法相比,在执行期间。因此,改进的多目标的组合TLBO框架与监督毫升技术提出了在目前的研究对FSS在多类分类问题(兆赫)入侵检测。选择最少的功能不会造成影响结果准确性fs是一个多目标优化问题。第一个目标是功能的数量,第二个是检测精度。TLBO显著优于其他metaheuristic算法。因此,ITLBO和一组监督支持向量机被部署在这项研究中选择最优的特征子集。JAYA饶是提出的一种新的metaheuristic优化算法(2016),这是最近在几个棘手的优化部署问题。JAYA不同于其他优化算法不需要参数调优(2]。它已被用来作为基准函数约束和无约束情况下,尽管无参数和TLBO一样,它不需要学习阶段,使它不同于TLBO [3]。JAYA的原则是建立倾斜对问题的解决方案的最佳结果,从坏的一个。这个运动取决于某些控制参数如设计变量的数目,一代又一代的最大数量,人口的规模。它不需要可调控制参数在计算阶段。因此,IPJAYA用于优化支持向量机的参数。为了提高特征选择和支持向量机参数优化过程,在本文中,我们提出一种改进的特征子集选择算法使用一个增强TLBO算法。它使用一个额外的阶段TLBO增加老师和学生之间的信息交换。支持向量机参数优化是基于改进的并行JAYA算法,它使用并行处理增加的速度参数调优。该算法被称为ITLBO-IPJAYA-SVM。

本文的其余部分以以下的方式呈现。部分2评论与此相关的研究工作,介绍了FSS的问题3。讨论了ITLBO部分4,部分5解释与ITLBO毫升应用。部分6比较的结果ITLBO和TLBO算法。最后,部分7本研究的结论。

入侵检测是一个普遍的安全基础设施的话题在大数据的时代。组合不同的ML方法和优化算法已被开发出来并应用于id区分正常的网络访问和攻击。现有组合包括模糊逻辑、墨鱼优化算法,再邻居,人工神经网络、粒子群算法、支持向量机(SVM),和人工免疫系统方法(4]。大多数毫升与优化算法相结合的方法比传统的分类方法。许多研究人员还提出毫升和optimisation-based ids (5]。Louvieris et al。6)提出了一个新颖的联合技术(k - means聚类,朴素贝叶斯(NB),克鲁斯卡尔-沃利斯(千瓦),和C4.5),发现攻击与高精度即使在异常混乱和矛盾cyber-network环境。此外,NB的包含在此方法中,特征选择和千瓦测试促进统计上显著的分类及相关特性集,包括统计基准方法的有效性,而SQL注入的检测方法仍然很低。De la Hoz et al。7NIDS)提出了一个方法,是基于自组织映射(索姆)和主成分分析(PCA)。噪声数据集内和低温度差的特性过滤通过PCA和Fisher判别率。这个过程使用最歧视的预测基于特征向量的方差解释道。原型生成的自组织过程是由高斯模型,d是SOM的数量单位。因此,这个系统必须被训练只有一次;然而,这项工作的主要限制是检出率仍然很低。Bamakan et al。8)提出了一个chaos-particle群优化方法提供一个新的ML id基于两个传统分类器:多重准则线性规划和支持向量机。

该方法已应用于同时设置这些分类器的参数,并提供最优特征子集。这项工作的主要缺点是所需训练时间长。因此,即使这些组合可以提高ids的性能方面的学习速度和检出率与传统算法相比,需要进一步改善。大多数IDSs的性能影响分类精度和训练时间的增加数量的审计数据的特性。本文提出使用TLBO技术解决这个问题通过快速、准确的供应优化过程,可以提高IDS的能力找到最优检测模型中基于ML。TLBO Rao提出的算法等。9),机械设计问题的优化过程不需要任何用户定义的参数。这部小说的技术在不同的基准测试函数,结果表明发达TLBO优于粒子群进化优化,人工蜂群(ABC)和文化德。Das和Padhy [10]研究小说TLBO算法应用到的可能性的选择最佳的自由参数的支持向量机回归模型的金融时间序列数据通过使用multicommodity期货指数数据从multicut交叉检索(MCX)。他们的实验结果表明,该混合SVM-TLBO模型成功地确定了最优参数,并取得了更好的预测相比,传统的支持向量机。Das et al。11]提出的扩展混合SVM-TLBO模型通过引入降维技术,输入变量的数量可以减少使用PCA,核主成分分析(KPCA),和独立分量分析(ICA)(三种常见的降维方法)。本研究也检验了该模型的可行性从MCX使用multicommodity期货指数数据检索。Rao et al。12]证实模型相比的优越性population-inspired优化框架。饶和帕特尔13]调查样本的大小和数量的影响一代又一代对算法性能和得出结论,该算法可以很容易地应用于优化的几种情况。C^ˇrepinšek et al。14)解决提出的问题(9,12通过使用TLBO]。Nayak et al。15)开发了一种多目标TLBO矩阵的解决方案是为每个目标。老师在TLBO选择过程主要是基于最好的解决方案空间中提出的解决方案,和学习者仅仅被教导要最大限度地实现这一目标。所有可用的解决方案在解决方案空间排序生成最优解的集合。徐et al。16]提出的多目标TLBO基于不同的教学技巧。他们使用了交叉算子(而不是一个标量函数)的解决方案之间的教学和学习阶段。Kiziloz et al。17]建议三个多目标TLBO fs算法的二进制分类(FSS-BCP)。的方法,提出一种多目标TLBO与标量转换被发现最快的算法,但它提供了一个有限数量的nondominated解决方案。多目标TLBO nondominated选择(MTLBO-NS)探索解空间,产生一组nondominated解决方案,但是需要很长的执行时间。多目标TLBO与最小距离(MTLBO-MD)生成的解决方案类似于MTLBO-NS但在明显短时间。提出的多目标TLBO算法评估使用LR的性能,支持向量机,和极端学习机(ELM)。王等人提出一种新型“酗酒识别方法从健康控制基于计算机视觉的方法。“(18)这种方法依赖于三个组件(提出小波熵Renyi前馈神经网络,提出了three-segment JAYA编码算法。结果显示该方法表现出良好的敏感性,但精度仍然需要改进;Migallon et al。19)开发并行算法,提出了详细的分析。他们开发了一种混合算法,利用固有并行性在两个不同的水平。低水平利用并行共享内存平台,而上层利用分布式共享内存平台。两种算法的结果是好的,尤其是在可伸缩性。因此,该混合算法成功应用的流程与近乎完美的效率。实验表明,该方法使用约60过程实现接近理想的效率,分析了30无约束函数。龚(20.建议”小说E-JAYA算法的性能增强原始JAYA算法。“建议的E-JAYA使用好坏组的平均值,获得最佳的解决方案。提供的解决方案提出E-JAYA最好比原始JAYA的准确性。蜂群的行为被认为是E-JAYA而不是考虑最好和最差的个人行为。12日E-JAYA的性能评估基准不同维数的函数。

另一项研究中提出了一个有效的需求管理方案住宅褶(21]。创造高峰预防系统提出了减少电费。本研究应用JAYA,小企业管理局和埃德意识到其目标;它还为电费计算部署电价定价模式。从结果,JAYA充分减少电费和票面价值,从而实现顾客满意。此外,SBA优于JAYA和埃德在实现用户舒适相关负面电费。Yu et al。22)开发改进JAYA (IJAYA)稳定和准确的光伏模型参数估计,通过融合的自适应权重调整的倾向达到最好的解决方案,避免搜索时糟糕的解决方案。重量有助于确保框架实现可能的搜索区域早期和执行本地搜索。此外,该算法包含一个学习策略来源于其他个人的经验,这是随机用于人口分集改善。表1显示了id的缺乏和局限性的研究中提到的相关工作。


Ref。	限制

(6]	探测SQL注入低
(7]	检出率很低
(8]	训练时间长

3所示。特征子集选择问题

本节解释的代表性问题的特性和选择最好的特征子集。fs是指特征子集的选择从一个更大的特性集。FSS降低了数据集的特性,从而防止复杂计算和提高分类器的速度和性能。在文献[fs存在的几个定义23];一些定义处理的减少大小选择的子集,而另一些人则专注于预测精度的提高。fs本质上是一个过程,构建一个有效的表示中包含的信息子集的数据集通过消除冗余和不相关的功能。FSS主要旨在寻找最少的特性没有显著影响分类精度。由于复杂的本质特征提取最佳子集,以及不存在多项式时间算法来解决它,FSS[已被分类为一种的np困难问题24]。在典型的FSS(有四个步骤23];第一步包括候选人的选择特性,将构成子集,而第二步是这些子集的评价和比较。第三步,检查终止条件的满意度;否则,会重复第一和第二步骤。最后一步检查是否最优特征子集建立了基于先验知识。与这两个主要目标,FSS可以被认为是一个多目标问题。寻找最优解的正式定义的满意度这两个目标在以下方程: 在哪里k是原始数据集的子集K优化f1,f2(目标)。

建立最好的解决方案或决定改善条件的新个体在一个多目标优化的过程是一个复杂的任务。这是由于在一个目标的可能性增强,导致减少。

4所示。改进TLBO算法

ITLBO算法fs阶段在本研究中被处决。ITLBO算法初始化随机生成的初始种群,即教师和一组学生代表的解决方案。代表ITLBO算法的特性,ITLBO借来的交叉和变异算子的遗传算法,将特征表示为染色体(GA的属性)。更新这条染色体,交叉和变异算子。人群中(称为教室),每个解决方案是作为一个单独的/染色体(图1)。一个功能基因的染色体1的值被认为是被选中,而值0表示。图1显示了一个示例数据集;关于图2,A, B, C, D, E, I, K和L选择(他们的值是1),而特性F, G, H,和J(它们的值是0)。TLBO算法通过迭代的老师是最好的个体人口和其他个人成为学生。选择老师,ITLBO工作分三个阶段:老师,最好的同学(学习者第1阶段),学习者第二阶段。老师在教师阶段,提高每个学生的知识与他们分享知识,但最好的同学阶段,两个最好的学生是选择和分配与其他学生交流的任务。在学习阶段,有一个随机的学生之间的互动,以提高他们的知识水平。生成新的染色体的提议ITLBO使用“half-uniform交叉和bit-flip变异算子”特殊的交叉算子(数字3和4)。双亲染色体(可能是一个老师,一个学生,或两个学生)需要交叉算子。交叉算子依赖于双亲染色体的信息;如果双亲特性相同的基因,基因,但是每当有不同功能的基因在父母,父母的基因是随机选择的。只有一个从这个操作生成新的染色体。“bit-flip突变”在一个染色体上工作时试图操纵基于概率比单个基因。如果基因有一个零值,它将被更新,反之亦然。在提出ITLBO算法,nondominated排序和选择。一个人对另一个人的主导地位是严格的基础上决定是否至少其目标之一是优于其他的同时保持所有其他目标一样。

nondominated场景出现在没有一个人被另一个占据的可能性。前线的解集是由nondominated个人。那些最接近理想点选择在前线的教师。所有的老师都教所有学生离散的老师,最好的同学,和学习阶段。ITLBO算法给出的细节数据5和6。ITLBO的详细步骤如下:(我)步骤1:初始化种群随机每个群体都有一组不同的功能从1到最大数量的功能在NSL-KDD (41)。这一步是在第2行图5。(2)步骤2:选择最好的个体作为一个老师。选择老师分别与其他个体,和交叉与每一个应用,然后突变是适用于所有由此产生的个人。使用的运营商是half-uniform交叉和bit-flip变异操作符(在4 - 5行图表示5)。(3)步骤3:检查人口(染色体),交叉和变异的结果;如果新的染色体比旧的好,那么新的一个保存;否则,旧的被保留。上述所有步骤方法统称为阶段,因为所有的个人学习最好的老师(老师)。这一步是在6 - 13行图表示5。(iv)步骤4:在那之后,学习者第一阶段或从最好的同学是开始学习。这一阶段开始的第五步是选择最好的两个个体作为学生和应用它们之间的交叉变异。如果新的一个比前面的两个学生,然后更新选择保存;否则,年长的最佳选择。这个过程重复与所有其他个人(学生)。在这一点上,学习者第一阶段终止(从14 - 27行图5)。(v)第五步:这一步是学习者第二阶段涉及随机选择两个个体之间的(学生)谁的交叉应用,后跟一个变异的新个体。如果新的个人比旧的两个学生,那么新的一个保存;否则,最好的旧是保留。与所有其他学生重复这个步骤。此时,ITLBO的主要三个阶段已经完成,并应进行检查是否终止条件已经满足。如果终止条件满足,继续下一步;否则,最主要的三个阶段是重复的(老师第一阶段阶段,学习者,学习者阶段2)。这一步是用线条表示在图28 - 405。(vi)第六步:最后一步是nondominated排序结果的应用。Nondominated排序意味着没有结果(个人)比所有其他个人。这一步可以在43行图5。

5。参数优化

在选择最优特征子集,几将优化支持向量机参数。支持向量机参数的优化问题可以确定算法的性能。径向基函数(RBF)、支持向量机的核函数,采用完全不可分的问题转化为一个可分离的或近似的分离状态。RBF内核参数γ表明数据分布到一个新的特征空间,而参数C显示处罚的水平线性不可分的分类错误的情况。方程(2)和(3)分别代表了成本和γ。在下一节中,两个参数(C和γ)被使用IPJAYA算法调优。

6。改进的并行JAYA算法

JAYA算法需要改进来更好地工作。观察JAYA算法之一是,如果我们把数量从最好到最差和把他们分成两组,最好的和最糟糕的解决方案。显然,最优解位于最佳解决方案集团(2]。在此基础上观察,JAYA算法进行了改进;而不是选择最好和最坏情况下的整体解决方案,这让最糟糕的解决方案进一步从最好的解决方案,提高迭代需要达到最优的解决方案,解决方案分为两组。最好的解决方案是选择最好的解决方案集团作为“最好”,从最糟糕的解决方案组最好的解决方案是“最差。“这个过程保留人口的多元化,使解决方案从一个点开始接近最优解,减少所需的迭代次数达到最优解。在拟议的工作中,JAYA算法改进的同时优化两个参数的支持向量机分类器。图7显示了IPJAYA的流程图,图8显示了IPJAYA算法紧随其后IPJAYA的详细步骤。IPJAYA的详细步骤如下所示:(我)步骤1:选择人口规模和设计变量的数目,以及初始化终止条件。详细解释的参数优化,我们假设以下场景:人口规模= 3,设计变量= 2,迭代终止准则= 2。的值参数的值是C和人口γ;在这个场景中,每一个有3个值。这些值初始化随机C 0.001至100和γ在64到0.0001之间。表2显示了C和的值γ。(2)步骤2:支持向量机需要三件事任何标签数据进行分类,即:,特征选择,价值C参数,和价值的γ参数。这一步可以查看2的图8。(3)步骤3:下一步是C和评估每个值γ分别利用支持向量机和应用后的第一个学生从学习者第二阶段交叉和变异,如表所示3。继续优化过程中,人口是安排从最好到最差和分成两组(最好和最差组)如表所示4。重复相同的步骤γ参数,这一次,C是在默认情况下,和新价值γ是11.006。(iv)表5和6显示的细节γ参数。(v)步骤4:结果将被认为是对C和目标函数γ然后与其他人群相比,继续,直到满足终止条件。这一步可以在第7行图8。


C	γ

20.	10
1	2
10	0.7
0.1	1


C	γ	特征子集	准确性(目标函数)

20.	默认的	固定	0.97
1	默认的	固定	0.899
10	默认的	固定	0.994
0.1	默认的	固定	0.99


C	γ	特征子集	准确性(目标函数)

10	默认的	固定	0.994最好的最好的	最好的组
0.1	默认的	固定	0.99	最好的组
20.	默认的	固定	0.97最好的最差	坏的组织
1	默认的	固定	0.899	坏的组织


C	γ	特征子集	准确性(目标函数)

20.	默认的	固定	0.97
1	默认的	固定	0.899
10	默认的	固定	0.994
0.1	默认的	固定	0.99


C	γ	特征子集	准确性(目标函数)

默认的	0.7	固定	0.9941最好的最好的	最好的组
默认的	1	固定	0.99	最好的组
默认的	2	固定	0.98最好的最差	坏的组织
默认的	10	固定	0.97	坏的组织

这两个新的C和价值观γ会同时使用相同的特征子集评价如表所示7。这一步可以查看图5到6行8。


C	γ	特征子集	准确性(目标函数)

14。2	11.006	固定	结果

7所示。该方法

本节描述了三种不同算法的组合。每个算法都有不同的任务,这些任务完成的工作模型。第一个算法是ITLBO其任务是选择最优特征子集的整体特性。第二种算法是IPJAYA算法,其任务是优化支持向量机的参数。第三个算法支持向量机分类器的前两种算法的结果来确定处理交通入侵或正常交通。图9显示了该方法的流程图。图10显示了该方法的伪代码,而图11细节的建议步骤IPJAYA-ITLBO-SVM方法。ITLBO-IPJAYA-SVM的详细步骤如下:(我)步骤1:初始化人口随机。每个人一组不同的特性从1到的最大数量的特性在NSL-KDD (41)。这一步可以查看2的图10。(2)步骤2:计算每个个体的加权平均人口。这一步可以在图3号线10。(3)步骤3:选择最好的个体作为一个老师。选择老师分别与其他个体。与每一个应用交叉,然后应用突变导致个人。交叉使用称为half-uniform交叉和bit-flip变异算子。这一步可以在图4 - 5行10。(iv)步骤4:检查人口(染色体)产生的交叉和变异;如果新的比旧的好,保持新;否则,保留旧的。最好的和最差的数量指的是在分类精确度。上述所有步骤被称为老师阶段因为所有个人学习最好的一个(老师)。启动之后,学习者第一阶段。这一步可以在6 - 13行图10。(v)第五步:选择最好的两个个体作为学生,并应用这两个学生之间的交叉。然后,应用新的突变。如果新的比旧的两个学生,保持新;否则,保持最好的旧,并应用与所有其他个人(学生)。学生们选择一次,不会再被选中。在这一点上,学习者第一阶段已经结束。这一步可以查看图14 - 27行10。(vi)第六步:学习者第二阶段启动两个目标;一个是优化支持向量机参数,另一个是使学生互相学习。这个阶段开始随机选择两个个体(学生),然后应用这两个学生之间的交叉和应用新的个体变异。之后在分类过程开始之前,检查新学生比旧的两个学生。支持向量机参数优化使用IPJAYA启动;这个过程始于29^th一步初始化种群规模,设计变量的数目,IPJAYA和终止条件。人口规模可以设置在执行之前,每个人口是随机生成的。设计变量的两个参数需要优化的支持向量机。终止条件可以迭代的数量;之后,每个人分别为每个参数是评价)(一个具有更高的精度,后跟一个平行轮询每个参数,排序的人口从最好到最差(最佳精度最差的准确性),并将他们分成两组(最好和最差组)。最好最好的人口集团选为最好,最好的最严重的人口集团选为最差。然后,人口是基于方程图修改8和更新,如果新的比旧的好。IPJAYA重复,直到满足终止条件。IPJAYA的最后一步是提供最好的价值所使用的两个参数的支持向量机。在这一点上,参数优化已经结束,和学习者第二阶段继续下一步。这一步可以在28日至39行图10。(七)第七步:评估个人(染色体)通过使用IPJAYA的结果。如果新的个人比旧的两个学生,保持新;否则,保持最好的旧。这个步骤适用于所有其他的学生。在这一步中,主要的三个阶段ITLBO已经完成了。下一步是检查终止条件的满意度;如果满意,继续下一步。否则,最主要的三个阶段是重复的。这一步可以在40至48的图线10。(八)第八步:最后一步是应用nondominated排序的结果。Nondominated排序意味着没有结果(个人)比所有其他的人。这一步可以在49行图10。

8。评价指标

度量标准,措施,验证过程中使用的评估实验数据在本节进行了综述。文献综述表明,大多数研究使用总体精度作为ID系统的主要性能指标。然而,其他指标和验证措施也被提到。一些作品详细信息检测和错过的检测都是有用的系统性能评估的措施。以下部分详细分析基于标准指标的客观评价结果通过各种分类方法。使用一些标准对系统的性能评估基于NSL-KDD和CICIDS 2017数据集。详细描述的学习性能的措施已经被辛格等人提供和Sokolova佬[25,26),而Phoungphol et al。27详细的不平衡数据集的问题。这些指标之一是精度如下方程给出:

精度的能力分类器预测实际的类;这里,TP = true积极、TN = true负,FP =假阳性,FN =假阴性。

混淆矩阵的几个指标可以计算。假阳性率(玻璃钢)是另一个指标;这是样品的比例不正确积极的预测分类器。它是计算通过使用以下方程:

假阴性率(FNR)错误分类的数据分类器的比例为负。它是计算通过使用以下方程:

检出率(博士)的比例是样本正确分类的分类器正确的类。它是计算通过使用以下方程:

召回量化的数量正确积极的预测做的一切积极的预测。它是计算通过使用以下方程:

F-Measure提供了一种方法结合检出率和回忆都成一个单一的措施,抓住了这两个属性。它是计算通过使用以下方程:

结果验证了利用k-fold交叉验证技术(27- - - - - -30.]。这种技术需要一个随机数据的分区k选择不同的部分,一个部分从每个迭代作为测试数据,而另一方(k−1)部分被认为是作为训练数据集。所有的连接记录最终用于训练和测试。对所有实验的价值k作为10确保偏差低、方差,过度拟合低,和良好的误差估计(28]。

9。数据集预处理和分区

整个数据集预处理在这个阶段。它包括两个步骤,即。、缩放和正常化。在扩展步骤中,数据集被转换从一个字符串表示一个数值表示。例如,标签数据集的类包含两个不同的类别,“正常”和“攻击。”实现这一步后,标签改为“1”和“0”,“1”指的是正常情况下,而“0”意味着攻击。第二步是正常化(31日]。正常化过程中噪声的数据集之间的差异范围,减少功能。在这部作品中,Max-Max正常化方法见以下方程: 在哪里Fi表示当前功能,需要规范化的和最小我和马克斯我代表的最大值和最小值的特性,分别。目标函数代表了SVM时评估的准确性验证。验证集是一个训练集的一部分。为了使验证更加公平,K可以使用倍验证。的值K是10。NSL-KDD CICIDS 2017数据集被用来评估该模型的性能。

10。NSL-KDD数据集

在这项研究中,NSL-KDD数据集被用来评估该方法。这个数据集是在2009年由Tavallaee et al。32)由于KDD CUP99的缺点。NSL-KDD KDD杯的一个变种99数据集的冗余实例被丢弃后数据集结构的调整(29日]。NSL-KDD数据集通常用于评估新的ID方法的性能,特别是anomaly-based网络ID。有合理数量的NSL-KDD测试和培训记录。训练集(KDDTrain +)包含125973条记录,而测试集(KDDTest +)包含22544条记录。在这个数据集,每个流量记录有41的特性(六个符号和35连续)和一个类标签(表7)。分为基本的功能、内容和流量类型(表8)。NSL-KDD攻击分类是基于功能特征(33]。NSL-KDD数据集可以从下载https://www.unb.ca/cic/datasets/nsl.html。


攻击类	22日的攻击类型	不。的实例

正常的		67343年
DoS	smurt,海王星,豆荚,泪珠,土地,	45927年
R2L	公积金、ftp-write imap,多次反射,warezclient warezmaster,间谍,猜密码	995年
U2R	perl、loadmodule缓冲区溢出,rootkit	52
探索	portsweep ipsweep,撒旦,nmap	11656年

11。CICIDS 2017数据集

CICIDS 2017数据集由良性和目前最常见的攻击,模仿现实世界的数据(PCAPs)。它还包含一个网络流量分析的结果通过使用CICFlowMeter;流是基于时间戳标记,源和目的地港口,源和目标ip协议和攻击。CICIDS 2017数据集满足11不可或缺的有效的id数据集的特点,也就是说,匿名性,可用协议特性集,攻击多样性,完成捕获、完整的交互,完成网络配置,完成交通、元数据、异构性,和标签34]。有2830540行2017年CICIDS设计八文件每一行包含79的特性。在2017年CICIDS贴上良性或每一行作为一个14攻击类型。总结不同的攻击类型和分布的良性行提出了表9。


攻击类	14个类型的攻击	不。的实例

良性的(正常)		2359087年
DOS	DDoS, slowloris Heratbleed,绿巨人,白颊鸭,Slowhttptest	294506年
端口搜索	端口搜索	158930年
机器人	机器人	1966年
蛮力	FTP-Patator, SSH-Patator	13835年
网络攻击	网络攻击XSS,网络攻击SQL注入、Web蛮力攻击	2180年
渗透	渗透	36

12。ITLBO-IPJAYA vs ITLBO和ITLBO-JAYA的结果

本节提供改进的基于方法的ITLBO-IPJAYA算法的结果。该方法选择最好的特性和更新SVM参数的值。这项工作提出了“并行执行”的理念更新支持向量机参数。ITLBO的参数、ITLBO-JAYA ITLBO-IPJAYA方法在本研究中如表所示10。


参数	价值

人口规模对ITLBO	40
ITLBO数代	60
人口规模对JAYA	40
JAYA的后代数量	60
人口规模对IPJAYA	40
IPJAYA数代	60
人口规模对ITLBO	40
IPJAYA数代	60
交叉型	Half-uniform
突变类型	Bit-flip

NSL-KDD数据集被用来评估的三种方法,和使用的评价指标是最大的精确度(Max。Acc),平均精度(AVR。Acc),检出率(DT)、误警率(远),假阴性率(FNR) F-measure (F-M)回忆,错误率(ER)。表11在ITLBO显示比较结果,ITLBO-JAYA, ITLBO-IPJAYA。


不。的特性	方法	MAX。Acc	AVR。Acc	博士	远	FNR	F-M	回忆	呃

16	TLBO	0.9639	0.9630	0.9612	0.0449	0.0282	0.9664	0.9717	0.036
	ITLBO	0.9680	0.9678	0.9671	0.0379	0.0268	0.9701	0.9731	0.032
	ITLBO-JAYA	0.9688	0.9685	0.9676	0.0373	0.0258	0.971	0.9741	0.0312
	ITLBO-IPJAYA	0.9708	0.9705	0.9712	0.0331	0.0256	0.9727	0.9742	0.0292

18	TLBO	0.9713	0.971	0.9739	0.0299	0.0275	0.9731	0.9724	0.0286
	ITLBO	0.9718	0.9713	0.9744	0.0292	0.0273	0.9736	0.9726	0.0282
	ITLBO-JAYA	0.9735	0.9733	0.9752	0.0285	0.0247	0.9752	0.9752	0.0265
	ITLBO-IPJAYA	0.9747	0.9746	0.9753	0.0280	0.0221	0.9764	0.9779	0.0252

19	TLBO	0.9738	0.9735	0.9727	0.0313	0.0225	0.9755	0.9774	0.0261
	ITLBO	0.9751	0.9745	0.9737	0.0305	0.0189	0.9769	0.9811	0.0248
	ITLBO-JAYA	0.9759	0.9758	0.9758	0.0278	0.0178	0.9775	0.9791	0.0241
	ITLBO-IPJAYA	0.9772	0.9770	0.9786	0.0245	0.0162	0.9787	0.9787	0.0228

21	TLBO	0.9782	0.9780	0.9742	0.0299	0.0145	0.9797	0.9844	0.0217
	ITLBO	0.9787	0.9784	0.9756	0.0279	0.0144	0.981	0.9846	0.0212
	ITLBO-JAYA	0.9793	0.979	0.9789	0.0273	0.0132	0.9811	0.9867	0.0207
	ITLBO-IPJAYA	0.9802	0.980	0.9792	0.0263	0.0123	0.9812	0.9716	0.0198

22	TLBO	0.9801	0.979	0.9755	0.0284	0.0131	0.9814	0.9868	0.0199
	ITLBO	0.981	0.9805	0.9758	0.0277	0.0117	0.9823	0.989	0.0191
	ITLBO-JAYA	0.9816	0.9814	0.9794	0.0265	0.0114	0.9829	0.989	0.0183
	ITLBO-IPJAYA	0 -.9823	0.9821	0.9798	0.0262	0.0102	0.9835	0.9898	0.0177

结果表明,ITLBO-IPJAYA执行比ITLBO和ITLBO-JAYA指标。图11显示了比较的结果基于ITLBO的准确性,ITLBO-JAYA, ITLBO-IPJAYA。

图12显示了一个比较ITLBO-JAYA和ITLBO-IPJAYA基于迭代的数量。这表明ITLBO-IPJAYA执行比ITLBO-JAYA甚至更少的迭代次数。率的增加ITLBO-IPJAYA高于ITLBO-JAYA的准确性。图显示ITLBO-IPJAYA 20迭代执行比ITLBO-JAYA 30迭代和ITLBO-IPJAYA执行比ITLBO-JAYA更少的迭代次数。这意味着有更少的复杂性和ITLBO-IPJAYA执行时间。图13显示了三种方法的平均远,表明ITLBO-IPJAYA执行比ITLBO ITLBO-JAYA甚至更少数量的特性,在ITLBO-IPJAYA 19特性执行比TLBO和ITLBO-JAYA 21和22的特性,分别。所示的改进部分4和6减少对ITLBO-IPJAYA / ITLBO-JAYA执行时间。独立的并行处理每个支持向量机参数的主要因素,减少了执行时间ITLBO-IPJAYA ITLBO-JAYA,如图14。

CICIDS 2017数据集的结果如表所示12。


不。的特性	方法	MAX。Acc	AVR。Acc	博士	远	FNR	F-M	回忆	呃

12	ITLBO	0.9634	0.9631	0.9661	0.0389	0.0268	0.970	0.9721	0.0323
	ITLBO-JAYA	0.9685	0.9683	0.9682	0.0360	0.0267	0.9713	0.9722	0.0315
	ITLBO-IPJAYA	0.9704	0.9702	0.9701	0.0310	0.0265	0.9725	0.9724	0.0298

13	ITLBO	0.9712	0.9710	0.9724	0.0298	0.0273	0.9736	0.9726	0.0282
	ITLBO-JAYA	0.9745	0.9744	0.9728	0.0290	0.0264	0.9741	0.9794	0.0272
	ITLBO-IPJAYA	0.9768	0.9767	0.9732	0.0285	0.0260	0.9752	0.9787	0.0264

14	ITLBO	0.9776	0.9775	0.9737	0.0280	0.0189	0.9769	0.9811	0.0258
	ITLBO-JAYA	0.9789	0.9787	0.9742	0.0270	0.0174	0.978	0.986	0.0235
	ITLBO-IPJAYA	0.9801	0.980	0.9749	0.0265	0.0134	0.981	0.987	0.0210

16	ITLBO	0.9804	0.9803	0.9755	0.0271	0.011	0.9821	0.989	0.0190
	ITLBO-JAYA	0.981	0.9808	0.9773	0.0266	0.0109	0.9825	0.989	0.0183
	ITLBO-IPJAYA	0.9817	0.9815	0.9782	0.0264	0.0105	0.9831	0.9896	0.0170

最后,统计显著性测试(T以及),T以及对值的分布在这两个样品,显示他们的显著差异,这使我们拒绝零假设H0。测试在JAYA-ITLBO-SVM sh2ows IPJAYA-ITLBO-SVM的优越性。的价值观和T值如表所示13;小值表明,IPJAYA-ITLBO-SVM方法(1/2 MV1)是非常重要的。


	NSL-KDD	CICIDS 2017

P价值	0.0156	0.0068
T价值	3.174	4.044

13。提议的方法的比较

来说明我们提出id的方法的有效性,提出方法的性能与六最近开发的异常检测技术。表14演示结果通过该方法与其他方法相比NSL-KDD数据集测试的检测率和误警率。非常清楚的是,我们提出的方法(ITLBO-JAYA和ITLBO-IPJAYA)与0.9823精度,获得最好的结果0.9798检出率,和0.0102假警报率ITLBO-IPJAYA模型和精度0.9816,0.9794检出率,和0.0114 ITLBO-JAYA误警率的方法,如表所示11。然而,表15结果表明通过该方法相对于其他方法测试2017年CICIDS数据集的检测率和误警率。


Ref。	方法	数据集	Acc。	博士	远

(35]	两级分类器	NSL-KDD	96.38	N.G	N.G
(36]	Hypergraph-based遗传算法和支持向量机	NSL-KDD	0.975	0.9714	0.83
(8]	算法和支持向量机	NSL-KDD	0.9784	0.9723	0.87
(37]	卡方和支持向量机	NSL-KDD	0.98	N.G	0.13
(38]	支持向量机和混合算法	NSL-KDD	0.7341	0.6628	2.81
(39]	支持向量机和特征选择	NSL-KDD	0.90	N.G	N.G
(40]	支持向量机和遗传算法	NSL-KDD	0.975	N.G	N.G
TLBO-SVM	TLBO和支持向量机	NSL-KDD	0.9801	0.9755	0.0284
ITLBO-SVM	改善TLBO和支持向量机	NSL-KDD	0.981	0.9758	0.0277
ITLBO-JAYA-SVM	TLBO改善,改善JAYA和支持向量机	NSL-KDD	0.9816	0.9794	0.0265
ITLBO-IPJAYA-SVM	TLBO改善,改善JAYA和支持向量机	NSL-KDD	0.9823	0.9798	0.0262


Ref。	方法	数据集	Acc。	博士	远

(41]	混合模型	CICIDS	89.76	N.G	N.G
(42]	Wrapper-based特征选择	CICIDS	97.68	N.G	N.G
(43]	特征选择技术和支持向量机	CICIDS	0.9803	N.G	N.G
TLBO-SVM	TLBO和支持向量机	CICIDS	0.9794	0.9745	0.0274
ITLBO-SVM	改善TLBO和支持向量机	CICIDS	0.9804	0.9755	0.0271
ITLBO-JAYA-SVM	TLBO改善,改善JAYA和支持向量机	CICIDS	0.981	0.9773	0.0266
ITLBO-IPJAYA-SVM	TLBO改善,改善JAYA和支持向量机	CICIDS	0.9817	0.9782	0.0264

14。讨论

这项工作一般包含4部分基于该方法。此外,所有方法提出了基于NSL-KDD进行评估工作,CICIDS 2017数据集。

首先,提出ITLBO-IPJAYA基于网络入侵检测和方法结果与TLBO相比,ITLBO, ITLBO-JAYA如表所示11和12。此外,表显示了三种算法的不同特点进行调查的影响特性对性能的提高,代表一个不同的算法结构。ITLBO-IPJAYA结果显示更高的稳定性和精度比ITLBO和ITLBO-JAYA算法。

此外,图13表明ITLBO-JAYA需要60迭代达到50 0.9816当ITLBO-IPJAYA算法迭代精度达到更高的精度。因此,ITLBO-IPJAYA达到更好的检测率和较低的假警报率较低复杂度的迭代。其次,与所有的改善ITLBO-SVM上面所提到的,随机选择的主要算法的支持向量机参数被认为是一个限制,可能无法提供最佳参数值,从负面影响模型的准确性。

上述结果表明,ITLBO-IPJAYA性能改进基本的支持向量机性能通过提供最佳参数值如ITLBO-IPJAYA框图,如图所示11。最后,ITLBO-IPJAYA价值减少的性能选择随机参数的影响。

由于不同的算法结构,ITLBO结构包含三个阶段应该防止算法陷入局部和全局的最适条件。同时,教师不仅教学习者(学生),但也教其他老师。相反,TLBO结构只包含两个阶段,老师只教学生。

此外,ITLBO算法实现精度高于TLBO因为知识以来ITLBO汇率高老师教学生和其他教师。因此,ITLBO达到更好的检测率和较低的假警报率较低复杂度的迭代。

IPJAYA算法的解决方案划分成两组,选择最佳解决方案的最佳解决方案集团作为“最佳”从最糟糕的解决方案和最佳的解决方案集团“最差”导致IPJAYA迭代需要低于JAYA达到更好的解决方案,如图13。这也导致改善准确性和检出率。

JAYA的并行改进了算法减少了所需的时间执行,因此减少了总执行时间为ITLBO-IPJAYA-SVM模型如图15。

数据可用性

使用的数据来支持本研究的发现在网上是可得到的https://www.unb.ca/cic/datasets/nsl.html。

的利益冲突

作者宣称没有利益冲突。

确认

特殊的升值是由于马来西亚彭亨大学赞助的这项研究批准的高等教育(邻蒙古)基础研究资助计划(德意志联邦共和国)和电话投票。RDU190113。

引用

a . Sultana m -贾巴尔,“智能网络入侵检测系统使用数据挖掘技术,”学报》2016年第2应用和理论计算和通信技术国际会议(iCATccT)IEEE,页329 - 333年,班加罗尔,印度,2016年7月。视图:出版商的网站|谷歌学术搜索
r . Rao,“Jaya:一个简单的和新的优化算法求解约束和无约束opti - mization问题,“国际期刊的工业工程计算,7卷,不。1,19-34,2016页。视图:谷歌学术搜索
m . Alsajri m·A·伊斯梅尔,s . Abdul-Baqi”回顾最近Jaya优化算法的应用,”学报》2018年第1届国际会议信息和科学(aici)施普林格,页129 - 132年,Al-Fallujah,伊拉克,2018年11月。视图:谷歌学术搜索
p .道、z太阳和z的太阳,“一种改进的基于遗传算法和支持向量机的入侵检测算法,”IEEE访问》第六卷,第13631 - 13624页,2018年。视图:出版商的网站|谷歌学术搜索
A . s . Eesa, z .•A . m . A . Brifcani”小说特征选择ap -友善基于墨鱼优化算法对于入侵检测系统,”专家系统与应用程序,42卷,不。5,2670 - 2679年,2015页。视图:出版商的网站|谷歌学术搜索
p . Louvieris: Clewley,刘x“Effects-based特性识别网络入侵检测,”Neurocomputing卷,121年,第273 - 265页,2013年。视图:出版商的网站|谷歌学术搜索
e . De la Hoz a·奥尔蒂斯j .奥尔特加和b -普列托,“主成分分析筛选和概率SOM网络入侵检测,”Neurocomputing卷,164年,第81 - 71页,2015年。视图:出版商的网站|谷歌学术搜索
s Mojtaba h . Bamakan h . Wang y, y史,“一个有效的入侵检测框架基于MCLP /由时变混沌粒子群优化支持向量机优化”Neurocomputing卷,199年,第102 - 90页,2016年。视图:出版商的网站|谷歌学术搜索
v . j . Savsani r . v . Rao, d . p . Vakharia”Teaching-learning-based优化:限制机械设计优化问题的新方法”,“计算机辅助设计,43卷,不。3、303 - 315年,2011页。视图:出版商的网站|谷歌学术搜索
s . p . Das和s . Padhy”一种新的混合模型使用teaching-learning-based优化和商品期货指数预测的支持向量机,”国际期刊的机器学习和控制论,9卷,不。1,第111 - 97页,2018。视图:谷歌学术搜索
s p Das、n s Achary和s . Padhy”小说混合SVM-TLBO预测模型将降维技术,”应用智能,45卷,不。4、1148 - 1165年,2016页。视图:出版商的网站|谷歌学术搜索
r . v . Rao, v . j . Savsani和j . Balic”Teaching-learning-based无约束优化算法和约束实参的优化问题”,“工程优化,44卷,不。12日,第1462 - 1447页,2012年。视图:出版商的网站|谷歌学术搜索
r . v . Rao诉Patel,“一种改进teaching-learning-based优化算法求解优化问题多数——紧张,”Scientia Iranica,20卷,不。3、710 - 720年,2013页。视图:谷歌学术搜索
m .Črepinšek工程学系。刘,l . Mernik“注意teaching-learning-based优化算法——rithm。”信息科学卷,212年,第93 - 79页,2012年。视图:出版商的网站|谷歌学术搜索
m·r·Nayak c . k . Nayak, p . k .溃败,“基于多目标教学学习的优化算法应用于最优功率流的问题,“Procedia技术》第六卷,第264 - 255页,2012年。视图:出版商的网站|谷歌学术搜索
y徐,S.-Y l . Wang。王,m .刘”的有效teaching-learning-based优化算法与模糊柔性作业车间调度问题处理时间,“Neurocomputing卷,148年,第268 - 260页,2015年。视图:出版商的网站|谷歌学术搜索
h·e·Kiziloz a . Deniz t . Dokeroglu和a . Cosar”小说多目标TLBO算法的特征子集选择问题,“Neurocomputing卷,306年,第107 - 94页,2018年。视图:出版商的网站|谷歌学术搜索
k . s . H Wang穆罕默德,y Lv et al .,“识别基于小波的酗酒Renyi熵和three-segment Jaya编码算法,”复杂性ID 3198184条,卷。2018年,13页,2018。视图:出版商的网站|谷歌学术搜索
h . Migallon a Jimeno-Morenilla, J.-L。Sanchez-Romero”平行Jaya优化算法的改进,”应用科学,8卷,不。5,819年,页2018。视图:出版商的网站|谷歌学术搜索
c .锣”,一个增强Jaya算法两组适应,”国际期刊的计算智能系统,10卷,不。1,第1115 - 1102页,2017。视图:谷歌学术搜索
o·塞缪尔:Javaid、美国Aslam和m . h . Rahim”JAYA优化基于对智能电网能量管理控制器:JAYA优化能量管理控制器为基础,”《2018年国际会议上计算、数学和工程技术(iCoMET)IEEE苏库尔,巴基斯坦,2018年3月。视图:出版商的网站|谷歌学术搜索
j . j . k . Yu梁,b . y、x,和h·王,“光伏模型的参数识别使用一种改进的JAYA优化算法,”能量转换和管理卷,150年,第753 - 742页,2017年。视图:出版商的网站|谷歌学术搜索
m .破折号和h . Liu”为分类特征选择,”智能数据分析,1卷,不。1 - 4、131 - 156年,1997页。视图:出版商的网站|谷歌学术搜索
杜,j·普拉特,d . Heckerman和m . Sahami”归纳学习算法和文本分类的表征,”《第七management-CIKM 98年国际会议上的信息和知识ACM,华盛顿,美国,1998年11月。视图:出版商的网站|谷歌学术搜索
r·辛格·h·库马尔,r·k·Singla”入侵检测系统使用网络流量分析和在线连续极端的学习机器,”专家系统与应用程序,42卷,不。22日,第8624 - 8609页,2015年。视图:出版商的网站|谷歌学术搜索
m . Sokolova和l的家伙,”绩效指标的系统分析分类任务,”信息处理与管理,45卷,不。4、427 - 437年,2009页。视图:出版商的网站|谷歌学术搜索
赵张p . Phoungphol y, y,“健壮的多级分类从不平衡学习生物医学数据,”清华科技,17卷,不。6,619 - 628年,2012页。视图:谷歌学术搜索
A .贾汗f·穆斯塔法·m·y·伊斯梅尔·m·Sapuan和m . Bahraminasab“材料选择、综合VIKOR法”材料和设计,32卷,不。3、1215 - 1221年,2011页。视图:出版商的网站|谷歌学术搜索
L Aljarah和s . a .路德维希”Mapreduce入侵检测系统基于粒子群优化聚类算法,”《2013年IEEE国会在进化计算IEEE,页955 - 962年,2013年6月墨西哥坎昆。视图:出版商的网站|谷歌学术搜索
k . Khaleel m·a·伊斯梅尔,云南,和美国Kasim,”综述入侵检测系统的目标检测系统的基础上,“国际期刊的综合工程,10卷,不。6、2018。视图:出版商的网站|谷歌学术搜索
j·d·罗德里格斯,a·佩雷斯,j . a . Lozano”灵敏度分析k-Fold交叉验证的预测误差估计,“IEEE模式分析与机器智能,32卷,不。3、569 - 575年,2010页。视图:出版商的网站|谷歌学术搜索
m . Tavallaee大肠阿訇,w . Lu和A . A . Ghorbani”KDD 99杯的详细分析的数据集,”学报2009年IEEE研讨会上计算情报安全与国防应用IEEE,页1 - 6,渥太华,加拿大,2009年7月。视图:出版商的网站|谷歌学术搜索
m . Al-Qatf y Lasheng、m . Al-Habib和k . Al-Sabahi“深度学习方法与支持向量机结合稀疏autoencoder网络入侵检测,”IEEE访问》第六卷,第52856 - 52843页,2018年。视图:出版商的网站|谷歌学术搜索
r . Vinayakumar m . Alazab k . p .索曼p . Poornachandran a . Al-Nemrat和美国万卡特拉曼·莱马克里斯,“深度学习智能入侵检测系统的方法。”IEEE访问7卷,第41550 - 41525页,2019年。视图:谷歌学术搜索
文学士学位名叫阿玉,m . Comuzzi K.-H。Rhee“TSE-IDS:两级分类器整体智能anomaly-based入侵检测系统,”IEEE访问7卷,第94507 - 94497页,2019年。视图:出版商的网站|谷歌学术搜索
m·r·Gauthama喇曼n . Somu k . Kannan r . Liscano和v . s . Shankar·“高效的基于超图的入侵检测系统——遗传算法对支持向量机参数优化和特征选择”,“以知识为基础的系统卷,134年,页1 - 12,2017。视图:出版商的网站|谷歌学术搜索
i s Thaseen和c Aswani Kumar“入侵检测模型使用气的融合——广场功能选择和多类支持向量机,”沙特国王大学-计算机和信息科学杂志》上卷,29号4、462 - 472年,2017页。视图:出版商的网站|谷歌学术搜索
李y s . Yu j .呗,x Cheng”对有效的网络入侵检测:基尼系数和GBDT PSO混合模型集成,”杂志上的传感器卷,2018篇文章ID 1578314、9页,2018。视图:出版商的网站|谷歌学术搜索
A . A . Aburomman和m . b . i Reaz”,一种新的加权支持向量机多类分类器基于微分进化为入侵检测系统,”信息科学卷,414年,第246 - 225页,2017年。视图:出版商的网站|谷歌学术搜索
j . Esmaily和j . Ghasemi”一种新的入侵检测系统基于遗传algorithms-suggested特性的不同排列的标签”命令,国际工程杂志,30卷,不。10日,1494 - 1502年,2017页。视图:谷歌学术搜索
美国Aljawarneh、m . Aldwairi和m . b . Yassein”Anomaly-based入侵检测系统通过特征选择分析和构建混合效率模型,”计算机科学期刊25卷,第160 - 152页,2018年。视图:出版商的网站|谷歌学术搜索
y, z H田,j·l . Wang t b, c .年轻,“构建轻量级入侵检测系统使用wrapper-based特征选择机制,“电脑与安全,28卷,不。6,466 - 475年,2009页。视图:谷歌学术搜索
美国1月,美国Ahmed诉Shakhov和古,“对一个轻量级入侵检测系统物联网,”IEEE访问7卷,第42471 - 42450页,2019年。视图:出版商的网站|谷歌学术搜索