raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

视交叉上核

安全性和通信网络

1939 - 0122 1939 - 0114

Hindawi

10.1155 / 2021/6638134

6638134

研究文章

Representativeness-Based实例选择入侵检测

https://orcid.org/0000 - 0003 - 1585 - 3439

赵

范

https://orcid.org/0000 - 0002 - 9706 - 3950

鑫

杨

¹ ² 张

凯

¹ 妞妞

鑫鑫

¹ ² 罗

Entao

国家工程实验室的灾难备份和恢复

信息安全中心

学校的网络空间安全

北京邮电大学

北京100876年

中国

bupt.edu.cn

贵州省级重点实验室的公共大数据

贵州大学

贵阳550025

中国

gzu.edu.cn

2021年

13 3 2021年

2021年 26 11 2020年 24 1 2021年 26 2 2021年 13 3 2021年

2021年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

随着计算机网络技术的不断发展,入侵检测系统需要人脸检测效率和在处理大型数据存储需求。选择合理的解决该问题的方法是实例,可以减少存储空间,提高入侵检测效率通过选择具有代表性的实例。一个实例代表不仅在它的类,也在不同的类。这种代表性反映了一个实例的重要性。因为现有的实例选择算法没有考虑上述情况,选择一些实例消除了冗余的和一些重要的实例,增加存储空间,降低效率。因此,提出了一种新的代表性的实例,认为不仅同一类的所有实例的影响所选实例上的影响也不同的类的实例所选择的实例上。此外,它认为的影响不同的类的实例作为一个有利的因素。基于这一代表性,两个实例选择算法提出了处理平衡和不平衡对入侵检测数据问题。一个是业务代表实例选择平衡数据,名叫分打点,选择相同的比例从每一个类的实例。另一个是业务代表实例选择不平衡数据,这是叫RBIS-IM并选择重要的大多数实例根据少数类的实例的数量。 Compared with other algorithms on the benchmark data sets of intrusion detection, experimental results verify the effectiveness of the proposed RBIS and RBIS-IM algorithms and demonstrate that the proposed algorithms can achieve a better balance between accuracy and reduction rate or between balanced accuracy and reduction rate.

中国国家重点研发项目

2017年yfb0802300

贵州省重大科技专项项目

20183001

贵州省级重点实验室的基础的公共大数据

2018年bdkfjj008

2018年bdkfjj020

全国统计科学研究项目

2018年ly61

2019年ly82

1。介绍

随着网络技术的不断发展和5 g,智能系统正在变得越来越普遍在人类生活的各个领域,如金融、农业、和教育。然而,智能系统已经成为许多新攻击的目标,不仅造成重大经济损失和个人信息泄漏,还在实践中阻碍智能系统的大规模部署。入侵检测技术可以有效地保护智能系统和检测到攻击,入侵检测技术的发展引起了世界各国的关注( 1, 2]。从分类的角度,主要目标是构建一个入侵检测系统(IDS)是训练一个分类器,可以区分正常和侵入性的数据从原来的网络数据集。

id基于机器学习已经成为一个重要组成部分的id ( 3),直接使用大量的网络数据检测攻击。这些网络数据会导致浪费时间和存储空间id。此外,这些数据的冗余数据和噪声会影响IDS的性能。但是,选择用于IDS实例选择重要的数据从原始数据来实现两个目标。一个是减少所需的实例id在训练阶段,从而节省时间和减少训练分类器的计算量;另一个是通过有效的情况下,训练可以有效提高分类器的性能( 4- - - - - - 6]。

近年来,许多实例选择技术提出了提高IDS的性能( 7- - - - - - 15]。然而,在实例选择的因素和应用领域,主要有四个问题在现有实例选择算法。

首先,只有部分实例的影响考虑选择实例( 7- - - - - - 9]。例如,基于分区实例选择算法和集群中心(时) 7)选择代表性实例通过考虑K最近邻相同类的实例;二进制树最近邻算法(BNNT) ( 8)和最近的约束neighbor-based实例减少算法(CNNIR) [ 9)选择代表性实例的K最近邻选择实例的实例。随着这些实例选择算法只考虑的影响实例和忽略的一部分剩余的影响情况下,不选择一些重要的实例。

其次,不同的类的实例的影响被认为是一个不利因素选择实例。同一类的实例,实例选择算法基于排名过程(ISAR) ( 10)和排名实例中选择算法(RIS) [ 11)只有选择实例代表相同的类和删除代表不同的类的实例。因为一些选定的实例并不代表不同的类的实例的影响被认为是一个不利因素。

第三,一些实例选择算法使用抽样选择实例。实例选择算法基于分层数据拓扑结构( 12)使用分层抽样处理大规模数据集的问题。该算法结合了随机子集选择(RSS)架构的选择(TBS)选择重要的情况下,这是一个子集的原始实例。由于抽样是用于选择实例,一些重要的实例仍然删除,其中包含的信息或原始实例。

最后,在入侵检测领域中,只有少数算法用于处理不平衡数据,和大多数的实例选择算法用于平衡数据的处理这个问题 13- - - - - - 15]。数据不平衡被称为实例不平衡。的二元分类问题,在正常情况下,积极的和消极的实例的比例应该相对较近,和许多现有分类模型是基于这样的假设。然而,在一些特定的情况下,积极的和消极的比例大大实例可能不同,这样可以减少少数类的准确性,较小的实例。因此,实例选择算法,处理不平衡数据,需要加强。

鉴于上述四个问题,例如选择考虑的因素包括:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;(3)的影响,不同类型的实例是一个有利因素;和(4)实例选择算法应用到入侵检测的平衡和不平衡的域。作为现有实例选择算法没有考虑以上四个因素,选择一些实例冗余和一些重要的实例中,增加存储空间,降低效率。因此,前三个因素,我们提出一个新概念的代表性实例。这个概念是用来表达实例的重要性。考虑到第四个因素,我们提出两个选择representativeness-based实例,分打点,RBIS-IM命名。分打点算法用于处理平衡数据和从每个类选择同样比例的实例。和RBIS-IM算法用于处理不平衡数据,选择重要的大多数实例根据少数类的实例的数量。 Finally, the experimental results verify the effectiveness of proposed algorithms. Two algorithms can reduce the size of the training set while maintaining or even increasing accuracy (ACC) and balanced accuracy (BA).

本文的主要贡献如下: (1)

代表性实例的一个新概念,提出了代表一个实例的重要性。代表性的实例,我们不仅考虑的代表性实例在其类也不同类别内代表性的实例。两个代表性有利因素;

(2)

处理平衡数据问题,分打点算法,基于代表性实例,旨在选择同样比例的正常实例和攻击实例来提高入侵检测效率。与其他算法相比,在入侵检测的基准数据集,分打点算法可以实现更好的准确性和还原速度之间的平衡。

(3)

处理数据不平衡问题,RBIS-IM算法,基于代表性实例,旨在选择相同数量的正常实例和攻击实例。与其他算法相比,在入侵检测的基准数据集,RBIS-IM算法可以实现更好的平衡精度和还原速度之间的平衡。

本文的结构如下。节 2,我们引入实例选择技术的基本概念。部分 3报告一个新的概念实例代表性和两个representativeness-based实例选择的算法,使用平衡和不平衡问题,分别。实验结果与两个业务代表实例选择算法部分所示 4。最后,结论和讨论部分提出了未来的工作 5。

2。实例选择技术

在本节中,介绍了实例选择技术的基本概念。实例的选择是选择重要的实例和消除冗余实例从原始数据。这些选择的实例可以包含原始数据的有效信息。假设 X 代表原始数据; 年代表示选择的实例;所以年代的子集 X ,也就是说, 年代 ⊂ X 和年代 ≪ X 型实例子集年代为IDS可以提高检测效率,减少存储需求。根据实例的分配和选择策略,实例与不同位置的分类过程中扮演不同的角色。一般来说,这些算法分为三类:冷凝,版,和混合。

凝聚算法认为实例接近边界分类过程中扮演着重要的角色,就像支持向量机。它保留边界实例通过删除内部每一个类的实例( 16- - - - - - 18]。在入侵检测领域,产品表面实例选择技术(nii) [ 19)和实例选择技术基于布谷鸟搜索和蝙蝠算法(CSBAIS) [ 20.)提出了改进支持向量机的训练速度和准确度(支持向量机)。nii算法适用于较低的轮询算法和社会蜘蛛算法选择实例在边界附近。CSBAIS使用布谷鸟搜索算法和蝙蝠算法选择实例在边界附近。但这些算法删除一些重要的内部实例。

凝结的版算法相反的算法。它倾向于光滑边界通过删除边界的类实例( 21- - - - - - 23]。实例选择算法基于k - means和再(KMKNNIS) [ 24提出了选择重要内部实例。这些边界附近的实例删除。penalty-reward-based实例选择方法( 25是选择实例通过消除噪声和边界实例。这些算法可以忽略一些关键边界实例。

最后,混合算法结合了凝聚算法版本的算法来获得一个更小的子集和测试设置中可接受的精度 9, 26- - - - - - 28]。时( 7]算法适用于分区和集群中心选择实例。首先,算法只考虑的影响 k同一类的实例所选择的实例,不考虑同一类的所有实例的影响。其次,算法只使用不同的类的类中心实例和不使用不同的类的所有实例的信息。第三,不同的类的实例信息被认为是不良信息。测量( 10)和RIS ( 11算法选择重要排序实例的实例。排序实例的过程中,虽然不同的类的所有实例的影响是,它被认为是不良信息。BNNT算法使用二进制树最近邻选择实例( 8]。该算法只考虑了 k最近邻选择实例的实例,不考虑剩余的影响实例。此外,该算法需要删除内部实例选择实例。CNNIR算法使用约束最近邻选择实例( 9]。该算法没有考虑剩余的影响实例。

总之,主要有四个因素的实例选择过程:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;(3)的影响,不同类型的实例是一个有利因素;和(4)实例选择算法应用到入侵检测的平衡和不平衡的域。从上述四个因素没有考虑在现有实例选择算法,选择一些实例冗余和一些重要的实例中,增加存储空间,降低效率。因此,我们提出算法选择两个重要实例没有删除内部实例,可以处理平衡和不平衡数据的问题。不仅与此同时,该算法考虑的影响,同一类的所有实例的选择实例的影响也不同的类的实例,并采取不同的类的实例作为一个有利的影响因素。

3所示。提出了算法

在本节中,我们介绍了提出representativeness-based实例选择算法。在第一小节中,我们引入一个新实例的代表性。在接下来的两个部分,两个representativeness-based算法,介绍了用于处理平衡和不平衡数据的问题。

3.1。提出的代表性实例

实例选择的关键因素是决定哪些实例代表,使所选子集代表性实例的原始数据。选择具有代表性的实例,我们不仅应该考虑选择的代表性实例的类别也不同类别的代表性。换句话说,实例选择类别和不同类别的信息。的影响和不同类别的实例被看作是一个有利因素。

假设 X 是一组训练实例包含正常和攻击类别, X = x 1 , c 1 , … , x n , c 2 。 X 有 n 实例; x 我是采用实例; c 表达的类的实例 c = c 1 , c 2 ; c 1 是正常的类实例 X n 和 c 2 类的攻击实例吗 X 一个 ; X 是由 X n 和 X 一个。

任何实例的表示 x 我在训练集 X 如下: (1) R x 我 , c = 问 x 我 , c r ∗ 问 x 我 , c p 。

上半年的公式( 1)代表的代表性实例 x 我在其类别;下半年的代表性实例 x 我在不同的类别; c r , c p ⊂ c 1 , c 2 和 r ≠ p ; c r 代表类别的实例 x 我 ; c p 从实例是一个不同的类别 x 我。

意识到问 x 我 , c r 或问 x 我 , c p 在公式( 1),欧氏距离 d x 我 , x j 可以用来表示两个实例之间的关系。类和实例之间的代表性是成反比的欧几里得距离的总和实例和剩余的同一类的实例。不同类别的实例和代表性。

因此,公式( 1)转换成下面的形式: (2) R x 我 , c = 1 ∑ c 我 = c j , j = 1 n 我 d x 我 , x j ∗ 1 ∑ c 我 ≠ c j , j = 1 n j d x 我 , x j , 在哪里 n 我在同一类别实例的数量吗 x 我 ; n j 实例的数量在一个不同的类别的 x 我。表达式 c 我显示类别的实例 x 我 ;表达式 c 我 = c j 实例表明, x 我和 x j 是相同的类别;表达式 c 我 ≠ c j 实例表明, x 我和 x j 不同类别;如果 x 我和 x j 是相同的类, 我 ≠ j 。

代表性的计算实例 R x 我 , c ,三个因素被认为:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;和(3)的影响,不同类型的实例作为一个有利的因素。拟议中的代表性实例反映了实例的重要性。节 4.3与其他算法相比,在入侵检测的基准数据集实验结果验证的有效性的代表性实例 R x 我 , c 。

3.2。Representativeness-Based实例选择平衡数据

处理平衡数据问题,representativeness-based实例选择算法选择具有代表性的实例,这叫做分打点,提高准确性(ACC)和降低还原速度(RR) id。通过分打点算法,同样比例的选择为每个类实例。算法 1显示了分打点算法的伪代码。

<大胆>算法1:< /大胆>分打点。

输入: X :训练数据集; t :通过交叉验证选择实例的比率或验证组; X n :正常实例的设置; X 一个 :攻击实例的集合。

输出: 年代 = 年代 n ∪ 年代一个 ; 年代 :组选择的实例 X ; 年代 n :正常组选择实例 X n ; 年代一个来自:组选择攻击实例 X 一个

(1)

正常化 X

(2)

初始化年代 , 年代 n , 年代一个 ,根据 X _, X n , X 一个

(3)

为每一个 x 我在 X

(4)

计算 R x 我 , c 由公式( 2)

(5)

结束了

(6)

R x 我 , c , 我 ⟵ sortdesc R x 我 , c

(7)

X ⟵ sortIdx X , 我

(8)

获得年代 n 和年代一个 ;换句话说,根据 R x 我 , c , 年代 n 和年代一个按降序排序

(9)

选择最好的 t 达到最好的精度使用1-NN分类器通过交叉验证或验证集

(10)

获得年代 n ⟵ 年代 n ∗ t 和年代一个 ⟵ 年代一个 ∗ t 选择第一个年代 n ∗ t 实例中年代 n 和第一年代一个 ∗ t 实例中年代一个

(11)

获得年代 ⟵ 年代 n ∪ 年代一个

在算法 1,原始实例 X 是由正常的实例吗 X n 和攻击实例 X 一个。年代是选择的实例从原始实例的集合 X ; 年代 n 是选择正常实例的集合 X ; 年代一个是一组选定的攻击实例 X ;的参数 t 选择的比例是通过交叉验证或验证实例集。首先,在3 - 5行算法 1计算,每个实例的代表性。根据正常的情况下 X n 和攻击实例 X 一个 , 年代 n 和年代一个正在初始化。其次,根据代表性 R x 我 , c ,代表性 R x 我 , c 和训练集 X 按降序排序(6和7行)。与此同时, 年代 n 和年代一个按降序排序。第三,从第8行到第11行,根据交叉验证或验证数据,1-NN作为分类器。的参数 t 精度最好的选择和参数的范围 t 是[0,1]。节 4.3选择过程的参数 t 通过数据显示 1和 2。根据参数 t ,第一个年代 n ∗ t 第一个实例年代一个 ∗ t 实例中选择年代 n 和年代一个 ,分别。最后,根据年代 n 和年代一个 , 年代是确定的。

图1

ACC和参数之间的关系 t在DoS数据集。(a) t= (0.1,0.2,…,1);(b) t= (0.001,0.002,…,0.01)。

(一) (b)

图2

ACC和参数之间的关系 t2016年DDoS数据集。(a) t= (0.1,0.2,…,1);(b) t= (0.0721,0.0722,…,0.0730)。

(一) (b)

图 3与二维用于演示实例分打点算法的选择过程。图 3(一个)显示了两种类型的原始数据,它是正常的和攻击实例。圆圈是“一班”,它代表了正常的实例;广场是“二班”,这代表了攻击实例。还有10正常实例和攻击实例。根据他们的代表性,每个类的实例是排名在图 3 (b)。周围的数字图像显示实例的表示的程度。数字越小,越具有代表性的实例。例如,在正常情况下,数字“1”最具代表性,“10”数量最少的代表。在图 3 (c)根据参数 t 选择,同样比例的实例在每个类。当参数 t 是0.6,前六选择每一个类的实例。

图3

分打点选择关键平衡数据中所有的类的实例。(一)原始数据。(b)根据其代表性的实例。(c)选择同样比例的实例根据参数( t)。

(一) (b) (c)

分打点的算法是基于代表性 R x 我 , c 的实例。所选的实例分打点算法包含原始数据的信息。分打点算法的效率与准确性(ACC)和还原速度(RR)。与其他算法相比,在入侵检测的基准数据集实验结果,部分所示 4.3证明分打点,算法是有效的,达到一个更好的准确性和还原速度之间的平衡。为每个类的相同比例的实例被选中时,分打点的算法可以处理平衡数据的问题。

根据算法 1和公式( 2),该算法的时间复杂度是主要相关的计算实例相同的和不同的类之间的距离。因此,算法的时间复杂度 O N 2 + O 米 ,在那里 N 代表的训练实例和总数米代表的数量分类器在选择实验的参数 t 。作为 O 米远低于 O N 2 的时间复杂度分打点 O N 2 。

3.3。Representativeness-Based实例选择对不平衡数据

为了解决不平衡数据问题,representativeness-based实例选择算法,叫做RBIS-IM。通过RBIS-IM算法,为每个类是相同数量的实例选择提高平衡精度(BA)和减少减速率(RR) id。

算法 2显示了RBIS-IM算法的伪代码。像算法 1、算法 2基于实例的代表性。原始实例 X 是由正常的实例吗 X n 和攻击实例 X 一个。 X n 和 X 一个被称为多数类和少数类,分别。数量之间的差异 X n 和 X 一个是巨大的。年代是选择的实例从原始实例的集合 X ; 年代 n 是选择正常实例的集合 X ; 年代一个是一组选定的攻击实例 X ;的参数 t 选择实例的比例是通过交叉验证或验证集。

<大胆>算法2:< /大胆> RBIS-IM。

输入: X :训练数据集; t :通过交叉验证选择实例的比率或验证组; X n :正常实例的集合称为多数类; X 一个 :攻击实例的集合称为少数类。

输出: 年代 = 年代 n ∪ 年代一个 ; 年代 :组选择的实例 X ; 年代 n :正常组选择实例 X n ; 年代一个来自:组选择攻击实例 X 一个

(1)

正常化 X

(2)

初始化年代 , 年代 n , 年代一个 ,根据 X , X n , X 一个

(3)

为每一个 x 我在 X

(4)

计算 R x 我 , c 由公式( 2)

(5)

结束了

(6)

R x 我 , c , 我 ⟵ sortdesc R x 我 , c

(7)

X ⟵ sortIdx X , 我

(8)

获得年代 n 和年代一个 ;换句话说,根据 R x 我 , c , 年代 n 和年代一个按降序排序。

(9)

选择最好的 t 达到最好的平衡精度使用1-NN分类器通过交叉验证或验证集

(10)

获得年代一个 ⟵ 年代一个 ∗ t 和年代 n ⟵ 年代一个 ∗ t 选择第一个年代一个 ∗ t 实例中年代 n 和第一年代一个 ∗ t 实例中年代一个

(11)

获得年代 ⟵ 年代 n ∪ 年代一个

实例的过程中选择,选择的多数类的实例的数量不仅取决于少数类的实例的数量也是一样的少数类的选择。首先,在3 - 5行算法 2计算,每个实例的代表性。根据 X n 和 X 一个 , 年代 n 和年代一个正在初始化。其次,根据代表性,代表性 R x 我 , c 和训练集 X 按降序排序(6和7行)。与此同时, 年代 n 和年代一个也在降序排序。第三,从第8行到第11行,根据交叉验证或验证数据,1-NN作为分类器;的参数 t 选择最好的平衡精度(BA)和参数的范围 t 是[0,1]。节 4.3选择过程的参数 t 通过数据显示 4- - - - - - 6。根据所选的参数 t ,选择第一个年代一个 ∗ t 第一个实例年代一个 ∗ t 从实例年代 n 和年代一个 ,分别。最后,根据年代 n 和年代一个 , 年代是确定的。

图4

英航和参数之间的关系 t在调查数据集。(一) t= (0.1,0.2,…,1);(b) t= (0.71,0.72,…,0.80)。

(一) (b)

图5

英航和参数之间的关系 t在U2R数据集。

图 7两个维度是用来解释实例RBIS-IM算法的选择过程。图 7(一)显示了两种类型的原始数据,其中圆表示多数类和少数广场表达类。在多数类中,有8个实例和有4个实例在少数类。根据他们的代表性,每个类的实例是排名在图 7 (b)。类似地,周围的数字图像显示实例的表示的程度。数字越小,越具有代表性的实例。在图 7 (c)当参数 t 是1,第一个四个选择少数类的实例。由于选择的多数类的实例的数量取决于少数类的实例的数量是一样的,选择的少数类的,前四多数类的实例也选择。

图6

英航的关系和参数t R2L数据集。

同样,由于RBIS-IM算法是基于实例的代表性 R x 我 , c ,选择的实例可以包含原始数据的所有信息。和RBIS-IM算法的有效性评估平衡精度(BA)和还原速度(RR)。节 4.3与其它算法相比,入侵检测的基准数据集上,实验结果表明,该RBIS-IM算法是有效的,可以在英航和RR之间实现更好的平衡。因为相同的选择为每个类的实例数量,提高入侵检测效率,RBIS-IM算法可以处理数据不平衡的问题。RBIS-IM算法的时间复杂度是一样的分打点的算法,该算法的时间复杂度 O N 2 。

RBIS-IM和分打点算法之间的差异主要体现在三个方面。首先,这两个算法解决的问题是不同的。RBIS-IM算法是解决数据不平衡问题,是指正常的实例的数量巨大的差异和攻击实例;分打点算法是处理平衡数据的问题,这意味着正常的实例的数量和攻击实例非常接近或相等。其次,选择了两种算法的实例的方法是不同的。在RBIS-IM算法,多数类的实例的选择是由选定的少数类的实例。选择两个类的实例的数量是一样的。分打点的算法,每一个类的实例的数量。分打点的算法,同样比例的选择对于每一个类实例。因此,选择正常的数量和攻击实例非常接近。 Thirdly, the evaluation criteria of the two algorithms are different, which are shown in Section 4.2。评估分打点的ACC和RR RBIS-IM英航和RR有关。

4所示。实验

在本节中,实验是为了证明该算法的有效性。部分分为三个部分。在第一小节,两组实验数据。在第二节,介绍了评估标准。在最后一个小节,分打点,RBIS-IM算法验证平衡和不平衡的数据集。

4.1。实验数据集

在本文中,我们使用两个数据集,是知识发现和数据挖掘(KDD)杯1999数据集和DDoS 2016数据集。尽管KDD 99数据集有一些缺点,它仍然是广泛使用作为IDS的基准评价( 29日- - - - - - 31日]。在KDD 99数据集,10% KDD训练数据和数据库知识发现(KDD)正确的数据作为训练数据和测试数据,分别。这些数据的分布如表所示 1。在KDD Cup 99数据集,数据包括正常类的标签和攻击类,分为四组:的remote-to-login (R2L)拒绝服务(DoS),该user-to-root (U2R),和探针。

表1

数据库知识发现(KDD) 99年的数据的分布。

类	10%的知识发现(KDD)训练数据	数据库知识发现(KDD)正确的数据
正常的	97278年	60593年
DoS	391458年	229853年
U2R	52	228年
探针	4107年	4166年
R2L	1126年	16189年
总	494021年	311029年

在KDD Cup 99数据集,每个网络连接代表一个数据记录,由41特性和一个标签指定这个记录的状态。每条记录包含41个特性:3非数字特征,和38数值特性。在数据预处理,这些非数字功能,协议类型,服务,和旗帜,必须转换成数值型数据。协议类型有三种类型:tcp、udp和icmp。根据不同类型,“协议类型”功能转换成三个特性。“服务”功能有70种不同类型,并将大量增加维度,这一功能并不是用于我们的实验。非数字特性转换表所示 2。

表2

非数字特性转换在数据库知识发现(KDD) 99年的数据。

功能名称	类型设置1	类型设置2
tcp协议类型=	tcp = 1	别人= 0
协议类型= udp	udp = 1	别人= 0
协议类型= icmp	icmp = 1	别人= 0
国旗	科幻小说= 1	别人= 0

DDoS 2016数据集于2016年出版,这是创建使用网络仿真器NS2 [ 32, 33]。有210万个数据记录的数据集。每条记录包含28个特点:5非数字特征,和23个数值特性。这些非数字特性需要被转换成数值。正常数据和数据集包含四种类型的DDoS攻击,UDP洪水,蓝精灵,HTTP洪水和SIDDOS。在本节中,数据集,使用正常数据和UDP洪水,是用来评估提出的算法的性能。

根据平衡和不平衡的领域,知识发现和数据挖掘(KDD)杯1999年和2016年DDoS分为平衡数据集和不平衡的数据集,数据集的描述如表所示 3和 4。

表3

平衡数据集。

类型	属性	类	正常/攻击在训练数据	正常/攻击测试数据
正常和DoS数据在数据库知识发现(KDD) 99数据集	42	2	10000/10000	10000/10000
DDoS 2016数据集	28	2	10000/10000	10000/10000

表4

不平衡的数据集。

99年数据库知识发现(KDD)数据集	属性	类	正常/攻击在训练数据	正常/攻击测试数据
正常和U2R数据	42	2	10000/30	200/20
正常和调查数据	42	2	10000/1550	10000/1000
正常和R2L数据	42	2	10000/1000	10000/1000

4.2。评估标准

评估的有效性和性能提出的算法,使用混淆矩阵。混淆矩阵如表所示 5。根据混淆矩阵,应用四个性能指标:检测率(博士,也被称为真阳性),真阴性率(TNR,也称为特异性或选择性),平衡精度(BA)和准确性(ACC)。与此同时,还原速度(RR)也适用。

表5

混淆矩阵。

类	预测消极类	预测积极类
实际负类	真阴性(TN)	假阳性(FP)
实际的积极类	假阴性(FN)	真阳性(TP)

在平衡数据,ACC和RR用于评估算法的性能提出了分打点。平等对待少数和多数实例,选择英航RBIS-IM算法的评价标准的不平衡问题。

博士的比例是正确预测攻击的攻击实例测试数据集;它是一个重要的指标反映了攻击检测模型的识别能力和被描述为攻击实例 (3) 博士 = TP P = TP TP + FN 。

TNR的比例正常实例中正确预测正常的测试数据集,它是一个重要的指标反映了检测模型的识别能力正常的实例和可以写成 (4) TNR = TN N = TN TN + 《外交政策》。

英航和TNR博士的平均;它可以是一个领先指标不平衡数据集;它可以作为一个模型的整体性能指标。 (5) 英航 = 博士 + TNR 2 。

ACC的比率是在测试数据集的实例数量正确预测实例的总数。,它可以反映的能力检测模型来区分正常和攻击实例和被定义为 (6) ACC = TN + TP P + N = TN + TP TN + TP + FN + 《外交政策》。

RR选择实例的数量的比例是在训练数据集的总数实例;它可以显示实例的能力选择模型来选择最佳实例和可以写成 (7) RR = 年代 X ∗ One hundred. % 。

4.3。实验结果和分析

在本节中,我们使用选择的子集实例提出实例选择算法来验证实例表示和算法的有效性。实验是在平衡和不平衡的数据集进行的。所有的实验结果都通过计算100次实验的平均值。

分打点,RBIS-IM算法参数 t 这是用来确定子集选择实例的数量。在训练阶段,参数 t 是由网格搜索交叉确认或验证集。算法在分打点,ACC选择的参数是最好的。RBIS-IM算法,选择相关参数是最好的英国航空公司。

数据 1和 2显示ACC和参数之间的关系 t 在平衡的数据集。此外,数据 1和 2反映参数的选择过程 t 2016年分打点算法在DOS和DDOS数据集。数据 1(一)和 2(一个)显示ACC时参数的变化 t 是在一个大区间[0.1,1]。数据 1 (b)和 2 (b)显示ACC时参数的变化 t 是在一个小的区间[0.001,0.01]和[0.0721,0.0730]。图 1 (b)基于图 1(一)。同样,图 2 (b)基于图 2(一个)。从图 1(一)时,最好的ACC是实现参数 t 需要0.1的区间(0.1,1)。因此,参数的范围 t 在图 1 (b)在区间[0,0.1]。通过实验中,参数的范围 t在图 1 (b)在区间[0.001,0.01]。在图 1 (b)据最好的ACC,参数 t 是0.3%。

像图 1,图 2(一个)说明最好的ACC时获得的参数 t 需要0.1的区间(0.1,1)。因此,参数的范围 t 在图 2 (b)在区间[0,0.1]。通过实验中,参数的范围 t在图 2 (b)在区间[0.0721,0.0730]。在图 2 (b)据最好的ACC,参数 t 是7.25%。

数据 4- - - - - - 6显示英航和参数之间的关系 t 在不平衡数据集。当参数 t 在区间[0.1,1]和[0.71,0.80],英航的变化探测数据集数据所示 4(一)和 4 (b)。数据 5和 6英航变动U2R和R2L参数时的数据集 t在区间[0.1,1]。与此同时,数据 4- - - - - - 6反映参数的选择过程 t 在RBIS-IM算法。数据 4(一)英航时参数的变化 t 是在一个大区间[0.1,1]。数据 4 (b)表明BA时参数的变化 t 是在一个小区间[0.71,0.80]。图 4 (b)基于图 4(一)。从图 4(一)时,最好的英航是获得参数 t 需要0.8的区间(0.1,1)。因此,参数的范围 t 在图 4 (b)在区间[0,0.8]。通过实验中,参数的范围 t 在图 4 (b)在区间[0.71,0.80]。在图 4 (b)据最好的英航,参数 t 是0.76。从数据 5和 6很明显,参数 t 设置为1的条件下,英航获得最好的两个数据集。此外,相关实验进行区间[0.9,1]。实验结果表明,英航时获得最佳参数 t 是1。

图7

RBIS-IM选择关键的所有类的实例在不平衡数据。(一)原始数据。(b)根据其代表性的实例。(c)选择根据参数相同数量的实例 t。

(一) (b) (c)

表 6表明,在平衡的数据集,这三个常见的分类器,1-NN,支持向量机,和演算法,使用整个训练集和实例子集选择获得ACC, RR,分别和平均精度。99年DoS数据集KDD杯,三个分类的准确性大大提高了使用选择的实例子集算法分打点。2016年DDoS的数据集,这三个分类器通过使用实例子集也达到良好的精度。SVM的准确性和演算法使用实例子集略低于整个训练集,但分打点算法只使用7.25%的实例来获得良好的准确性(94.682%或94.668%)。这表明分打点算法可以减少RR在保持精度。两个平衡的数据集,使用实例1-NN子集的准确性高于整个训练集。这是因为选择的实例子集选择算法和1-NN提出实例。除了良好的ACC, RR的三个分类器和实例是非常小的子集,分别是0.3%和7.25%。这可以证明分打点算法可以实现更好的平衡ACC和RR。另一方面,从平均ACC的角度来看,很明显,平均ACC的实例子集远远高于在DoS整个训练集数据集。与此同时,2016年DDoS的数据集,平均ACC子集的实例仅略高于整个训练集得到的。这表明分打点算法可以选择最佳的改善ACC和减少RR为IDS实例。

表6

分打点的效率与1-NN算法,支持向量机,验证演算法在均衡数据集。

数据集	实例的大小	分类器	ACC (%)	RR	平均ACC (%)
DoS	20000年	1-NN	61.000	One hundred.	63.692
		支持向量机	65.044
		演算法	65.033
	60	1-NN	99.913	0.3	93.362
		支持向量机	99.910
		演算法	80.263

DDoS 2016	20000年	1-NN	90.823	One hundred.	93.653
		支持向量机	95.059
		演算法	95.077
	1450年	1-NN	94.916	7.25	94.755
		支持向量机	94.682
		演算法	94.668

在表 6,实验结果表明,该分打点算法是有效的,可以处理平衡数据问题。分打点的算法是有效的,因为它是基于代表性新实例,所示部分 3所示。1。通过选择代表性实例,实例拥有整个实例的信息,有助于提高ACC和减少RR为id。

如表所示 7不平衡数据集,三种常见的分类器,1-NN,支持向量机,和演算法,可以获得BA, RR,平均英航使用整个训练集和子集的实例。三个不平衡数据集KDD Cup 99。调查数据集,使用实例子集,这三个分类器精度很好。相比之下,整个训练集,英航的1-NN分类器使用实例子集是略低,而婴儿SVM和演算法更好。U2R和R2L数据集,而使用三种常见的整个训练集英航子集分类器使用实例更好。实验结果证明RBIS-IM算法可以在英航和RR之间实现更好的平衡。

表7

与1-NN RBIS-IM算法的效率,支持向量机,验证演算法在不平衡数据集。

数据集	实例的大小	分类器	BA (%)	RR (%)	平均BA (%)
探针	11550年	1-NN	98.825	One hundred.	98.096
		支持向量机	99.104
		演算法	96.359
	2356年	1-NN	97.887	20.398	98.148
		支持向量机	99.544
		演算法	97.013

U2R	10030年	1-NN	49.970	One hundred.	50.079
		支持向量机	49.998
		演算法	50.270
	60	1-NN	61.580	0.598	61.632
		支持向量机	61.565
		演算法	61.750

R2L	11000年	1-NN	80.465	One hundred.	74.860
		支持向量机	67.665
		演算法	76.449
	2000年	1-NN	96.068	18.182	91.445
		支持向量机	87.859
		演算法	90.407

除此之外,从平均英航的角度,调查数据集,使用实例子集平均英航是略高于整个训练集,使用。U2R和R2L数据集,而平均英航使用整个训练集,英航平均使用实例子集是大大提高了。因此,不平衡数据集上的实验结果表明,RBIS-IM算法是有效的,可以获得良好的RR同时提高英航。这是因为RBIS-IM算法也是基于代表性新实例,所示部分 3所示。1。通过代表性实例,选择最优情况下提高英航和减少对IDS RR。和实验结果显示,RBIS-IM算法可以处理不平衡数据的问题。

表 8和 9显示ACC和RR与6实例选择算法在均衡数据集。拟议中的5分打点算法相比,算法:最近邻(新奥集团)[编辑 22),测量( 10],BNNT [ 8],CNNIR [ 9),和RIS 1 ( 11]。对于测量和RIS 1,他们选择算法只使用实例。在两个平衡的数据集,与其他5算法相比,该算法分打点ACC在桌子上达到最好的实验结果 8。分打点算法达到第二RR在两个平衡数据集表 9。平均表现而言,很明显分打点算法达到最好的实验结果在ACC和RR。这表明分打点的算法可以实现更好的平衡ACC和RR。它可以解决平衡数据问题。同样,它证明了分打点算法是有效的。换句话说,所选实例优化,包含整个实例的信息。这是因为实例选择过程被认为是四个因素,这部分所示 3所示。1。

表8

新奥集团,精度测量、BNNT CNNIR RIS 1,分打点,平衡的数据集。

数据集	新奥集团	测量	BNNT	CNNIR	RIS 1	分打点
DoS	65.173	99.904	65.070	65.142	99.906	99.913
DDoS 2016	84.589	70.533	72.089	73.584	70.520	94.916
的意思是	74.881	85.219	68.580	69.633	85.213	97.415

表9

减少新奥集团,测量、BNNT CNNIR RIS 1,分打点,平衡的数据集。

数据集	新奥集团	测量	BNNT	CNNIR	RIS 1	分打点(%)
DoS	99.995	50.005	0.065	9.780	49.785	0.300
DDoS 2016	87.255	53.435	9.135	4.820	13.335	7.250
的意思是	93.625	51.720	4.600	7.300	31.560	3.775

表 10显示6 BA实例选择算法在不平衡数据集。调查数据集,新奥集团的英航,测量,RIS 1, RBIS-IM算法很近,它们之间的最大差距小于1%。这将显示RBIS-IM算法有能力区分正常和攻击实例。U2R和R2L数据集,英航RBIS-IM算法是最好的。与其他算法相比,最小差距至少10%。从平均英航,新奥集团的平均英航,测量,和RIS 1算法非常接近,而英航的RBIS-IM算法是最好的表 10。实验结果证明代表实例选择RBIS-IM算法包含整个实例的信息和RBIS-IM算法可以选择增加英航代表实例id。此外,实验结果证明RBIS-IM算法可以处理数据不平衡问题。

表10

英航的新奥集团,测量、BNNT CNNIR, RIS 1, RBIS-IM不平衡数据集。

数据集	新奥集团	测量	BNNT	CNNIR	RIS 1	RBIS-IM
探针	98.789	98.059	70.510	87.175	98.059	97.887
U2R	49.980	49.592	50.755	50.000	49.642	61.580
R2L	80.434	79.956	53.797	63.592	85.238	96.068
的意思是	76.401	75.869	58.354	66.922	77.646	85.178

表 11礼物6实例选择的RR算法在不平衡数据集。调查数据集,测量获得的RR, CNNIR, RIS 1算法很近。但是,新奥集团,其他算法相比有很大的差距。U2R数据集,除了新奥集团算法,其他算法的RR很近,不到1%。R2L数据,有一个小的RR区别三个算法,测量,CNNIR, RIS 1算法。从平均RR BNNT的RR算法是最好的。但是,很明显,新奥集团得到可怜的RR(例如99.879%)。由于新奥集团是基于最近的邻居,新奥集团只删除实例边界附近和删除限制多数类的实例。此外,新奥集团不能处理数据不平衡问题。提出RBIS-IM算法具有良好的RR(例如13.059%)。这显示RBIS-IM算法可以选择小减少RR和代表性的实例。 And the experimental results show that the RBIS-IM algorithm can deal with imbalanced data problem.

表11

新奥集团,减少测量、BNNT CNNIR, RIS 1, RBIS-IM不平衡数据集。

数据集	新奥集团(%)	测量(%)	BNNT (%)	CNNIR (%)	RIS 1 (%)	RBIS-IM (%)
探针	99.896	13.680	0.537	10.312	13.680	20.398
U2R	99.950	0.489	0.578	0.680	0.160	0.598
R2L	99.791	9.455	0.945	6.327	9.000	18.182
的意思是	99.879	7.875	0.687	5.773	7.613	13.059

6例选择算法的时间复杂度是出现在桌子上 12。 N 代表原始实例的数量。根据表 12的时间复杂度6算法分为两种类型。一个是 O N 日志 N 新奥集团,BNNT, CNNIR算法。另一种是 O N 2 、这是ISAR RIS 1分打点,RBIS-IM算法。

表12

六个算法的时间复杂度。

ID	算法	时间复杂度
1	新奥集团	O( N日志 N)
2	测量	O( N²)
3	BNNT	O( N日志 N)
4	CNNIR	O( N日志 N)
5	RIS 1	O( N²)
6	分打点/ RBIS-IM	O( N²)

图 8显示的关系平均ACC和平均7 RR算法平衡数据集和基于表 6, 8, 9。1-NN算法使用整个训练实例,另6算法使用实例通过实例子集选择算法。平衡的数据集,分打点算法达到最好的ACC和RR。图 8表明分打点算法可以选择最佳的改善ACC和减少RR为IDS实例。这些优化实例为整个实例的信息。

图8

平均ACC和平均RR的关系。

图 9基于表 7, 10, 11显示的关系平均英航和平均7 RR算法在不平衡数据集。很明显,平均英航RBIS-IM是最好的。和图 9表明RBIS-IM算法可以选择最优增加英航和减少RR为IDS实例。尽管RBIS-IM算法的平均RR不是最低,RBIS-IM算法可以达到平均英航和平均RR之间良好的平衡。此外,它是发现RBIS-IM算法可以处理数据不平衡的问题。

图9

平均英航和平均RR的关系。

5。结论

本文在分析实例选择算法及其在入侵检测的缺陷,我们提出一个新的代表性的实例来确定一个实例的重要性。计算实例的代表性,我们不仅考虑代表性实例的类别,但也在不同类别的代表性实例。这两个代表性也同样重要。此外,不同的类的实例的影响选择的实例上被视为一种优势因素。处理平衡和不平衡数据的问题,我们建议分打点,RBIS-IM算法,分别。选择过程中的实例,该算法不需要删除内部噪音实例和实例。与其他算法相比,入侵检测的基准数据集上,实验结果表明,这两个算法是有效的。分打点算法可以实现更好的准确性(ACC)和还原速度之间的平衡(RR)。类似地,RBIS-IM算法可以实现更好的平衡精度(BA)和还原速度之间的平衡(RR)。此外,也验证了提出的代表性的实例是正确的和有效的。

在未来的工作中,我们打算研究如何自动获得适当的参数 t 建议的方法,这将减少训练时间的算法。此外,获得参数 t 自动可以改善和提高算法的有效性和适用性。

数据可用性

在本文中,两个数据集用于入侵检测。他们是公开的,这是知识发现和数据挖掘(KDD)杯1999数据集和DDoS 2016数据集。相应的url,分别 http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html和 https://www.researchgate.net/publication/292967044_Dataset_Detecting_Distributed_Denial_of_Service_Attacks_Using_Data_Mining_Techniques。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持下由中国国家重点研发项目批准号2017 yfb0802300,部分由贵州省重大科技专项项目批准号20183001下,部分由贵州省级重点实验室的基础下的大数据批准号。2018 bdkfjj008和2018 bdkfjj020,和部分由中国全国统计科研项目批准号。2018 ly61和2019 ly82。

港区

T。

蔡

P。

1月

T。

香港

X。

使用机器学习技术的网络入侵检测

学报2020年国际会议上新兴的趋势在信息技术和工程(ic-ETITE)

2020年2月

Vellore、印度

1 7

Hindy

H。

Brosset

D。

Bayne

E。

一个分类的网络威胁和当前数据集对入侵检测系统的影响

IEEE访问 2020年 8 104650年 104675年

10.1109 / access.2020.3000179

Adeleke

O。

入侵检测:问题,问题和解决方案

诉讼第三国际会议信息和计算机技术(ICICT)

2020年3月

美国加利福尼亚州圣何塞

397年 402年

Nalepa

J。

Kawulok

M。

选择支持向量机训练集:审查

人工智能审查 2019年 52 857年 900年

朱

z H。

王

Z。

李

D D。

杜

w . L。

NearCount:选择重要的实例引用计数的基础上最近的邻居

以知识为基础的系统 2020年 190年

10.1016 / j.knosys.2019.105196

Haro-Garcia

答:D。

Cerruela-Garcia

G。

Garcia-Pedrajas

N。

实例选择基于提高基于实例的学习者

模式识别 2019年 96年

郭

C。

周

Y.-J。

平

Y。

罗

s。

赖

Y.-P。

张

Z.-K。

高效的入侵检测使用代表实例

电脑与安全 2013年 39 255年 267年

10.1016 / j.cose.2013.08.003

2 - s2.0 - 84888882172

李

J。

王

Y。

一种新的快速还原技术基于二进制树最近邻

Neurocomputing 2015年 149年 1647年 1657年

10.1016 / j.neucom.2014.08.028

2 - s2.0 - 84912573184

杨

朱

Q。

黄

J。

吴

Q。

程

D。

在香港

X。

约束最近邻例如减少

软计算 2019年 23 24 13235年 13245年

10.1007 / s00500 - 019 - 03865 - z

2 - s2.0 - 85064150267

佩雷拉

c·d·S。

卡瓦尔康蒂

g . d . C。

根据排名过程实例选择算法

《2011国际神经网络联合会议

2011年7月

美国加利福尼亚州圣何塞

2409年 2416年

卡瓦尔康蒂

g . d . C。

苏亚雷斯

r . j . O。

排名实例中选择进行模式分类

专家系统与应用程序 2020年 150年

10.1016 / j.eswa.2020.113269

Hmida

H。

Hamida

美国B。

Borgi

一个。

Rukoz

M。

基于分层数据拓扑的选择大规模的学习

学报2016年国际IEEE会议无处不在的智能和计算、先进、可信计算、可伸缩的计算和通信、云计算和大数据计算,互联网的人,聪明的世界大会(UIC / ATC / ScalCom / CBDCom / IoP / SmartWorld)

2016年7月

图卢兹,法国

1221年 1226年

Hamidzadeh

J。

Kashefi

N。

Moradi

M。

结合加权多目标优化器例如减少两种不平衡数据的问题

人工智能技术的工程应用 2020年 90年

李

赵

k . Y。

太阳

r . Z。

Parameter-free极端不平衡分类学习机器

神经处理信件 2020年 52 3 1927年 1944年

10.1007 / s11063 - 020 - 10282 - z

郭

h . X。

李

y . J。

商

J。

学习从class-imbalanced数据:复习的方法和应用

专家系统与应用程序 2017年 73年 220年 239年

周

学术界。

郭

B.-H。

常

F。

广义压缩最近邻规则作为数据还原法

《18国际会议模式识别

2006年8月

中国香港

556年 559年

法耶德

h·A。

Atiya

答:F。

一种新型模板再还原方法的方法

IEEE神经网络 2009年 20. 5 890年 896年

10.1109 / tnn.2009.2018547

2 - s2.0 - 67349169047

阿图罗Olvera-Lopez

J。

阿里尔Carrasco-Ochoa

J。

旧金山Martinez-Trinidad

J。

一个新的快速原型基于集群的选择方法

模式分析与应用 2010年 13 2 131年 141年

10.1007 / s10044 - 008 - 0142 - x

2 - s2.0 - 77951767444

Akinyelu

答:一个。

Ezugwu

答:E。

来自大自然的灵感实例选择支持向量机速度优化的技术

IEEE访问 2019年 7 154581年 154599年

10.1109 / access.2019.2949238

20.

Akinyelu

一个。

Adewumi

a . O。

基于布谷鸟搜索和蝙蝠算法性能的实例选择支持向量机技术与应用程序因网络速度优化检测

KSII交易网络和信息系统 2018年 12 3 1348年 1375年

10.3837 / tiis.2018.03.021

2 - s2.0 - 85044834013

Brodley

c, E。

递归自动偏向选择分类器结构

机器学习 1995年 20. 63年 94年

10.1007 / bf00993475

Tomek

我。

一个实验以编辑的近邻规则

IEEE系统,人与控制论 1976年 6 448年 452年

扬科夫斯基

N。

Grochowski

M。

比较选择算法。算法的实例调查

人工智能国际会议和软计算 2004年 10 937年 942年

王

问:Y。

欧阳

x Q。

张ydF4y2Ba

j . C。

基于数据聚类和数据分类算法减少了入侵检测系统在大数据

KSII交易网络和信息系统 2019年 13 3714年 3732年

戈什

P。

萨哈

一个。

Phadikar

年代。

基于Penalty-reward实例选择方法在云环境中使用最近邻的概念

Procedia计算机科学 2016年 89年 82年 89年

10.1016 / j.procs.2016.06.012

2 - s2.0 - 84986601871

杨

朱

Q。

黄

J。

程

D。

自适应编辑自然邻居算法

Neurocomputing 2017年 230年 427年 433年

10.1016 / j.neucom.2016.12.040

2 - s2.0 - 85009513586

Garcia-Pedrajas

N。

罗梅罗德尔卡斯蒂略

j . A。

Ortiz-Boyer

D。

合作共同进化算法例如选择基于实例的学习

机器学习 2010年 78年 3 381年 420年

10.1007 / s10994 - 009 - 5161 - 3

2 - s2.0 - 76549132784

李

J。

朱

Q。

吴

Q。

parameter-free混合实例选择算法基于当地集与自然的邻居

应用智能 2020年 50 5 1527年 1541年

10.1007 / s10489 - 019 - 01598 - y

29日

贾

B。

梁

Y。

Anti-D链:轻量级DDoS攻击检测方案基于异构集成学习区块链

中国通信 2020年 17 9 11 24

10.23919 / jcc.2020.09.002

30.

郭

C。

平

Y。

刘

N。

罗

美国年代。

两级混合入侵检测方法

Neurocomputing 2016年 214年

31日

加州大学信息与计算机科学

KDD Cup 99入侵检测数据集任务描述 1999年

美国加利福尼亚州伯克利

加州大学信息与计算机科学

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

Alkasassbeh

M。

Al-Naymat

G。

艾哈迈德

b。

Almseidin

M。

使用数据挖掘技术检测分布式拒绝服务攻击

国际期刊《先进的计算机科学和应用程序 2016年 7 1

10.14569 / ijacsa.2016.070159

环

M。

Wunderlich

年代。

Scheuring

D。

兰德斯

D。

Hotho

一个。

基于网络的入侵检测数据集的调查

电脑与安全 2019年 86年 147年 167年

10.1016 / j.cose.2019.06.005

2 - s2.0 - 85067555653