Representativeness-Based实例选择入侵检测

文摘

随着计算机网络技术的不断发展,入侵检测系统需要人脸检测效率和在处理大型数据存储需求。选择合理的解决该问题的方法是实例,可以减少存储空间,提高入侵检测效率通过选择具有代表性的实例。一个实例代表不仅在它的类,也在不同的类。这种代表性反映了一个实例的重要性。因为现有的实例选择算法没有考虑上述情况,选择一些实例消除了冗余的和一些重要的实例,增加存储空间,降低效率。因此,提出了一种新的代表性的实例,认为不仅同一类的所有实例的影响所选实例上的影响也不同的类的实例所选择的实例上。此外,它认为的影响不同的类的实例作为一个有利的因素。基于这一代表性,两个实例选择算法提出了处理平衡和不平衡对入侵检测数据问题。一个是业务代表实例选择平衡数据,名叫分打点,选择相同的比例从每一个类的实例。另一个是业务代表实例选择不平衡数据,这是叫RBIS-IM并选择重要的大多数实例根据少数类的实例的数量。 Compared with other algorithms on the benchmark data sets of intrusion detection, experimental results verify the effectiveness of the proposed RBIS and RBIS-IM algorithms and demonstrate that the proposed algorithms can achieve a better balance between accuracy and reduction rate or between balanced accuracy and reduction rate.

1。介绍

随着网络技术的不断发展和5 g,智能系统正在变得越来越普遍在人类生活的各个领域,如金融、农业、和教育。然而,智能系统已经成为许多新攻击的目标,不仅造成重大经济损失和个人信息泄漏,还在实践中阻碍智能系统的大规模部署。入侵检测技术可以有效地保护智能系统和检测到攻击,入侵检测技术的发展引起了世界各国的关注(1,2]。从分类的角度,主要目标是构建一个入侵检测系统(IDS)是训练一个分类器,可以区分正常和侵入性的数据从原来的网络数据集。

id基于机器学习已经成为一个重要组成部分的id (3),直接使用大量的网络数据检测攻击。这些网络数据会导致浪费时间和存储空间id。此外,这些数据的冗余数据和噪声会影响IDS的性能。但是,选择用于IDS实例选择重要的数据从原始数据来实现两个目标。一个是减少所需的实例id在训练阶段,从而节省时间和减少训练分类器的计算量;另一个是通过有效的情况下,训练可以有效提高分类器的性能(4- - - - - -6]。

近年来,许多实例选择技术提出了提高IDS的性能(7- - - - - -15]。然而,在实例选择的因素和应用领域,主要有四个问题在现有实例选择算法。

首先,只有部分实例的影响考虑选择实例(7- - - - - -9]。例如,基于分区实例选择算法和集群中心(时)7)选择代表性实例通过考虑K最近邻相同类的实例;二进制树最近邻算法(BNNT) (8)和最近的约束neighbor-based实例减少算法(CNNIR) [9)选择代表性实例的K最近邻选择实例的实例。随着这些实例选择算法只考虑的影响实例和忽略的一部分剩余的影响情况下,不选择一些重要的实例。

其次,不同的类的实例的影响被认为是一个不利因素选择实例。同一类的实例,实例选择算法基于排名过程(ISAR) (10)和排名实例中选择算法(RIS) [11)只有选择实例代表相同的类和删除代表不同的类的实例。因为一些选定的实例并不代表不同的类的实例的影响被认为是一个不利因素。

第三,一些实例选择算法使用抽样选择实例。实例选择算法基于分层数据拓扑结构(12)使用分层抽样处理大规模数据集的问题。该算法结合了随机子集选择(RSS)架构的选择(TBS)选择重要的情况下,这是一个子集的原始实例。由于抽样是用于选择实例,一些重要的实例仍然删除,其中包含的信息或原始实例。

最后,在入侵检测领域中,只有少数算法用于处理不平衡数据,和大多数的实例选择算法用于平衡数据的处理这个问题13- - - - - -15]。数据不平衡被称为实例不平衡。的二元分类问题,在正常情况下,积极的和消极的实例的比例应该相对较近,和许多现有分类模型是基于这样的假设。然而,在一些特定的情况下,积极的和消极的比例大大实例可能不同,这样可以减少少数类的准确性,较小的实例。因此,实例选择算法,处理不平衡数据,需要加强。

鉴于上述四个问题,例如选择考虑的因素包括:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;(3)的影响,不同类型的实例是一个有利因素;和(4)实例选择算法应用到入侵检测的平衡和不平衡的域。作为现有实例选择算法没有考虑以上四个因素,选择一些实例冗余和一些重要的实例中,增加存储空间,降低效率。因此,前三个因素,我们提出一个新概念的代表性实例。这个概念是用来表达实例的重要性。考虑到第四个因素,我们提出两个选择representativeness-based实例,分打点,RBIS-IM命名。分打点算法用于处理平衡数据和从每个类选择同样比例的实例。和RBIS-IM算法用于处理不平衡数据,选择重要的大多数实例根据少数类的实例的数量。 Finally, the experimental results verify the effectiveness of proposed algorithms. Two algorithms can reduce the size of the training set while maintaining or even increasing accuracy (ACC) and balanced accuracy (BA).

本文的主要贡献如下:(1)代表性实例的一个新概念,提出了代表一个实例的重要性。代表性的实例,我们不仅考虑的代表性实例在其类也不同类别内代表性的实例。两个代表性有利因素;(2)处理平衡数据问题,分打点算法,基于代表性实例,旨在选择同样比例的正常实例和攻击实例来提高入侵检测效率。与其他算法相比,在入侵检测的基准数据集,分打点算法可以实现更好的准确性和还原速度之间的平衡。(3)处理数据不平衡问题,RBIS-IM算法,基于代表性实例,旨在选择相同数量的正常实例和攻击实例。与其他算法相比,在入侵检测的基准数据集,RBIS-IM算法可以实现更好的平衡精度和还原速度之间的平衡。

本文的结构如下。节2,我们引入实例选择技术的基本概念。部分3报告一个新的概念实例代表性和两个representativeness-based实例选择的算法,使用平衡和不平衡问题,分别。实验结果与两个业务代表实例选择算法部分所示4。最后,结论和讨论部分提出了未来的工作5。

2。实例选择技术

在本节中,介绍了实例选择技术的基本概念。实例的选择是选择重要的实例和消除冗余实例从原始数据。这些选择的实例可以包含原始数据的有效信息。假设代表原始数据;表示选择的实例;所以的子集 ,也就是说, 和型实例子集为IDS可以提高检测效率,减少存储需求。根据实例的分配和选择策略,实例与不同位置的分类过程中扮演不同的角色。一般来说,这些算法分为三类:冷凝,版,和混合。

凝聚算法认为实例接近边界分类过程中扮演着重要的角色,就像支持向量机。它保留边界实例通过删除内部每一个类的实例(16- - - - - -18]。在入侵检测领域,产品表面实例选择技术(nii) [19)和实例选择技术基于布谷鸟搜索和蝙蝠算法(CSBAIS) [20.)提出了改进支持向量机的训练速度和准确度(支持向量机)。nii算法适用于较低的轮询算法和社会蜘蛛算法选择实例在边界附近。CSBAIS使用布谷鸟搜索算法和蝙蝠算法选择实例在边界附近。但这些算法删除一些重要的内部实例。

凝结的版算法相反的算法。它倾向于光滑边界通过删除边界的类实例(21- - - - - -23]。实例选择算法基于k - means和再(KMKNNIS) [24提出了选择重要内部实例。这些边界附近的实例删除。penalty-reward-based实例选择方法(25是选择实例通过消除噪声和边界实例。这些算法可以忽略一些关键边界实例。

最后,混合算法结合了凝聚算法版本的算法来获得一个更小的子集和测试设置中可接受的精度9,26- - - - - -28]。时(7]算法适用于分区和集群中心选择实例。首先,算法只考虑的影响k同一类的实例所选择的实例,不考虑同一类的所有实例的影响。其次,算法只使用不同的类的类中心实例和不使用不同的类的所有实例的信息。第三,不同的类的实例信息被认为是不良信息。测量(10)和RIS (11算法选择重要排序实例的实例。排序实例的过程中,虽然不同的类的所有实例的影响是,它被认为是不良信息。BNNT算法使用二进制树最近邻选择实例(8]。该算法只考虑了k最近邻选择实例的实例,不考虑剩余的影响实例。此外,该算法需要删除内部实例选择实例。CNNIR算法使用约束最近邻选择实例(9]。该算法没有考虑剩余的影响实例。

总之,主要有四个因素的实例选择过程:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;(3)的影响,不同类型的实例是一个有利因素;和(4)实例选择算法应用到入侵检测的平衡和不平衡的域。从上述四个因素没有考虑在现有实例选择算法,选择一些实例冗余和一些重要的实例中,增加存储空间,降低效率。因此,我们提出算法选择两个重要实例没有删除内部实例,可以处理平衡和不平衡数据的问题。不仅与此同时,该算法考虑的影响,同一类的所有实例的选择实例的影响也不同的类的实例,并采取不同的类的实例作为一个有利的影响因素。

3所示。提出了算法

在本节中,我们介绍了提出representativeness-based实例选择算法。在第一小节中,我们引入一个新实例的代表性。在接下来的两个部分,两个representativeness-based算法,介绍了用于处理平衡和不平衡数据的问题。

3.1。提出的代表性实例

实例选择的关键因素是决定哪些实例代表,使所选子集代表性实例的原始数据。选择具有代表性的实例,我们不仅应该考虑选择的代表性实例的类别也不同类别的代表性。换句话说,实例选择类别和不同类别的信息。的影响和不同类别的实例被看作是一个有利因素。

假设是一组训练实例包含正常和攻击类别, 。有实例;是采用实例;表达的类的实例 ; 是正常的类实例和类的攻击实例吗 ; 是由和。

任何实例的表示在训练集如下:

上半年的公式(1)代表的代表性实例在其类别;下半年的代表性实例在不同的类别; 和 ; 代表类别的实例 ; 从实例是一个不同的类别。

意识到或在公式(1),欧氏距离可以用来表示两个实例之间的关系。类和实例之间的代表性是成反比的欧几里得距离的总和实例和剩余的同一类的实例。不同类别的实例和代表性。

因此,公式(1)转换成下面的形式: 在哪里在同一类别实例的数量吗 ; 实例的数量在一个不同的类别的。表达式显示类别的实例 ;表达式实例表明,和是相同的类别;表达式实例表明,和不同类别;如果和是相同的类, 。

代表性的计算实例 ,三个因素被认为是:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;和(3)的影响,不同类型的实例作为一个有利的因素。拟议中的代表性实例反映了实例的重要性。节4.3与其他算法相比,在入侵检测的基准数据集实验结果验证的有效性的代表性实例。

3.2。Representativeness-Based实例选择平衡数据

处理平衡数据问题,representativeness-based实例选择算法选择具有代表性的实例,这叫做分打点,提高准确性(ACC)和降低还原速度(RR) id。通过分打点算法,同样比例的选择为每个类实例。算法1显示了分打点算法的伪代码。

	输入: :训练数据集; :的比例选择实例通过交叉验证或验证组; :正常情况下的设置; :的攻击实例。
	输出: ; :组选择的实例 ; :组选择正常的实例 ; :组选择的攻击实例
(1)	正常化
(2)	初始化 , , ,根据_, ,和
(3)	为每一个在
(4)	计算由公式(2)
(5)	结束了
(6)
(7)
(8)	获得和 ;换句话说,根据 , 和按降序排序
(9)	选择最好的达到最好的精度使用1-NN分类器通过交叉验证或验证集
(10)	获得和 ,选择第一个实例中和第一实例中
(11)	获得

在算法1,原始实例是由正常的实例吗和攻击实例。是选择的实例从原始实例的集合 ; 是选择正常实例的集合 ; 是一组选定的攻击实例 ;的参数选择的比例是通过交叉验证或验证实例集。首先,在3 - 5行算法1计算,每个实例的代表性。根据正常的情况下和攻击实例 , 和正在初始化。其次,根据代表性 ,代表性和训练集按降序排序(6和7行)。与此同时,和按降序排序。第三,从第8行到第11行,根据交叉验证或验证数据,1-NN作为分类器。的参数精度最好的选择和参数的范围是[0,1]。节4.3选择过程的参数通过数据显示1和2。根据参数 ,第一个第一个实例实例中选择和 ,分别。最后,根据和 , 是确定的。

(一)

(b)

(一)

(b)

图3与二维用于演示实例分打点算法的选择过程。图3(一个)显示了两种类型的原始数据,它是正常的和攻击实例。圆圈是“一班”,它代表了正常的实例;广场是“二班”,这代表了攻击实例。还有10正常实例和攻击实例。根据他们的代表性,每个类的实例是排名在图3 (b)。周围的数字图像显示实例的表示的程度。数字越小,越具有代表性的实例。例如,在正常情况下,数字“1”最具代表性,“10”数量最少的代表。在图3 (c)根据参数 ,同样比例的选择在每一个类实例。当参数是0.6,前六选择每一个类的实例。

(一)

(b)

(c)

分打点的算法是基于代表性的实例。所选的实例分打点算法包含原始数据的信息。分打点算法的效率与准确性(ACC)和还原速度(RR)。与其他算法相比,在入侵检测的基准数据集实验结果,部分所示4.3证明分打点,算法是有效的,达到一个更好的准确性和还原速度之间的平衡。为每个类的相同比例的实例被选中时,分打点的算法可以处理平衡数据的问题。

根据算法1和公式(2),该算法的时间复杂度是主要相关的计算实例相同的和不同的类之间的距离。因此,算法的时间复杂度 ,在哪里代表的训练实例和总数代表的数量分类器在选择实验的参数。作为远低于 ,分打点的时间复杂度。

3.3。Representativeness-Based实例选择对不平衡数据

为了解决不平衡数据问题,representativeness-based实例选择算法,叫做RBIS-IM。通过RBIS-IM算法,为每个类是相同数量的实例选择提高平衡精度(BA)和减少减速率(RR) id。

算法2显示了RBIS-IM算法的伪代码。像算法1、算法2基于实例的代表性。原始实例是由正常的实例吗和攻击实例。和被称为多数类和少数类,分别。数量之间的差异和是巨大的。是选择的实例从原始实例的集合 ; 是选择正常实例的集合 ; 是一组选定的攻击实例 ;的参数选择实例的比例是通过交叉验证或验证集。

	输入: :训练数据集; :的比例选择实例通过交叉验证或验证组; :正常情况下称为多数类的设置; :攻击实例的集合称为少数类。
	输出: ; :组选择的实例 ; :组选择正常的实例 ; :组选择的攻击实例
(1)	正常化
(2)	初始化 , , ,根据 , ,和
(3)	为每一个在
(4)	计算由公式(2)
(5)	结束了
(6)
(7)
(8)	获得和 ;换句话说,根据 , 和按降序排序。
(9)	选择最好的达到最好的平衡精度使用1-NN分类器通过交叉验证或验证集
(10)	获得和 ,选择第一个实例中和第一实例中
(11)	获得

实例的过程中选择,选择的多数类的实例的数量不仅取决于少数类的实例的数量也是一样的少数类的选择。首先,在3 - 5行算法2计算,每个实例的代表性。根据和 , 和正在初始化。其次,根据代表性,代表性和训练集按降序排序(6和7行)。与此同时,和也在降序排序。第三,从第8行到第11行,根据交叉验证或验证数据,1-NN作为分类器;的参数选择最好的平衡精度(BA)和参数的范围是[0,1]。节4.3选择过程的参数通过数据显示4- - - - - -6。根据所选的参数 ,选择第一个第一个实例从实例和 ,分别。最后,根据和 , 是确定的。

(一)

(b)

图7两个维度是用来解释实例RBIS-IM算法的选择过程。图7(一)显示了两种类型的原始数据,其中圆表示多数类和少数广场表达类。在多数类中,有8个实例和有4个实例在少数类。根据他们的代表性,每个类的实例是排名在图7 (b)。类似地,周围的数字图像显示实例的表示的程度。数字越小,越具有代表性的实例。在图7 (c)当参数是1,第一个四个选择少数类的实例。由于选择的多数类的实例的数量取决于少数类的实例的数量是一样的,选择的少数类的,前四多数类的实例也选择。

同样,由于RBIS-IM算法是基于实例的代表性 ,选择的实例可以包含所有的原始数据的信息。和RBIS-IM算法的有效性评估平衡精度(BA)和还原速度(RR)。节4.3与其它算法相比,入侵检测的基准数据集上,实验结果表明,该RBIS-IM算法是有效的,可以在英航和RR之间实现更好的平衡。因为相同的选择为每个类的实例数量,提高入侵检测效率,RBIS-IM算法可以处理数据不平衡的问题。RBIS-IM算法的时间复杂度是一样的分打点的算法,该算法的时间复杂度。

RBIS-IM和分打点算法之间的差异主要体现在三个方面。首先,这两个算法解决的问题是不同的。RBIS-IM算法是解决数据不平衡问题,是指正常的实例的数量巨大的差异和攻击实例;分打点算法是处理平衡数据的问题,这意味着正常的实例的数量和攻击实例非常接近或相等。其次,选择了两种算法的实例的方法是不同的。在RBIS-IM算法,多数类的实例的选择是由选定的少数类的实例。选择两个类的实例的数量是一样的。分打点的算法,每一个类的实例的数量。分打点的算法,同样比例的选择对于每一个类实例。因此,选择正常的数量和攻击实例非常接近。 Thirdly, the evaluation criteria of the two algorithms are different, which are shown in Section4.2。评估分打点的ACC和RR RBIS-IM英航和RR有关。

4所示。实验

在本节中,实验是为了证明该算法的有效性。部分分为三个部分。在第一小节,两组实验数据。在第二节,介绍了评估标准。在最后一个小节,分打点,RBIS-IM算法验证平衡和不平衡的数据集。

4.1。实验数据集

在本文中,我们使用两个数据集,是知识发现和数据挖掘(KDD)杯1999数据集和DDoS 2016数据集。尽管KDD 99数据集有一些缺点,它仍然是广泛使用作为IDS的基准评价(29日- - - - - -31日]。在KDD 99数据集,10% KDD训练数据和数据库知识发现(KDD)正确的数据作为训练数据和测试数据,分别。这些数据的分布如表所示1。在KDD Cup 99数据集,数据包括正常类的标签和攻击类,分为四组:的remote-to-login (R2L)拒绝服务(DoS),该user-to-root (U2R),和探针。


类	10%的知识发现(KDD)训练数据	数据库知识发现(KDD)正确的数据

正常的	97278年	60593年
DoS	391458年	229853年
U2R	52	228年
探针	4107年	4166年
R2L	1126年	16189年
总	494021年	311029年

在KDD Cup 99数据集,每个网络连接代表一个数据记录,由41特性和一个标签指定这个记录的状态。每条记录包含41个特性:3非数字特征,和38数值特性。在数据预处理,这些非数字功能,协议类型,服务,和旗帜,必须转换成数值型数据。协议类型有三种类型:tcp、udp和icmp。根据不同类型,“协议类型”功能转换成三个特性。“服务”功能有70种不同类型,并将大量增加维度,这一功能并不是用于我们的实验。非数字特性转换表所示2。


功能名称	类型设置1	类型设置2

tcp协议类型=	tcp = 1	别人= 0
协议类型= udp	udp = 1	别人= 0
协议类型= icmp	icmp = 1	别人= 0
国旗	科幻小说= 1	别人= 0

DDoS 2016数据集于2016年出版,这是创建使用网络仿真器NS2 [32,33]。有210万个数据记录的数据集。每条记录包含28个特点:5非数字特征,和23个数值特性。这些非数字特性需要被转换成数值。正常数据和数据集包含四种类型的DDoS攻击,UDP洪水,蓝精灵,HTTP洪水和SIDDOS。在本节中,数据集,使用正常数据和UDP洪水,是用来评估提出的算法的性能。

根据平衡和不平衡的领域,知识发现和数据挖掘(KDD)杯1999年和2016年DDoS分为平衡数据集和不平衡的数据集,数据集的描述如表所示3和4。


类型	属性	类	正常/攻击在训练数据	正常/攻击测试数据

正常和DoS数据在数据库知识发现(KDD) 99数据集	42	2	10000/10000	10000/10000
DDoS 2016数据集	28	2	10000/10000	10000/10000


99年数据库知识发现(KDD)数据集	属性	类	正常/攻击在训练数据	正常/攻击测试数据

正常和U2R数据	42	2	10000/30	200/20
正常和调查数据	42	2	10000/1550	10000/1000
正常和R2L数据	42	2	10000/1000	10000/1000

4.2。评估标准

评估的有效性和性能提出的算法,使用混淆矩阵。混淆矩阵如表所示5。根据混淆矩阵,应用四个性能指标:检测率(博士,也被称为真阳性),真阴性率(TNR,也称为特异性或选择性),平衡精度(BA)和准确性(ACC)。与此同时,还原速度(RR)也适用。


类	预测消极类	预测积极类

实际负类	真阴性(TN)	假阳性(FP)
实际的积极类	假阴性(FN)	真阳性(TP)

在平衡数据,ACC和RR用于评估算法的性能提出了分打点。平等对待少数和多数实例,选择英航RBIS-IM算法的评价标准的不平衡问题。

博士的比例是正确预测攻击的攻击实例测试数据集;它是一个重要的指标反映了攻击检测模型的识别能力和被描述为攻击实例

TNR的比例正常实例中正确预测正常的测试数据集,它是一个重要的指标反映了检测模型的识别能力正常的实例和可以写成

英航和TNR博士的平均;它可以是一个领先指标不平衡数据集;它可以作为一个模型的整体性能指标。

ACC的比率是在测试数据集的实例数量正确预测实例的总数。,它可以反映的能力检测模型来区分正常和攻击实例和被定义为

RR选择实例的数量的比例是在训练数据集的总数实例;它可以显示实例的能力选择模型来选择最佳实例和可以写成

4.3。实验结果和分析

在本节中,我们使用选择的子集实例提出实例选择算法来验证实例表示和算法的有效性。实验是在平衡和不平衡的数据集进行的。所有的实验结果都通过计算100次实验的平均值。

分打点,RBIS-IM算法参数这是用来确定子集选择实例的数量。在训练阶段,参数是由网格搜索交叉确认或验证集。算法在分打点,ACC选择的参数是最好的。RBIS-IM算法,选择相关参数是最好的英国航空公司。

数据1和2显示ACC和参数之间的关系在平衡的数据集。此外,数据1和2反映参数的选择过程2016年分打点算法在DOS和DDOS数据集。数据1(一)和2(一个)显示ACC时参数的变化是在一个大区间[0.1,1]。数据1 (b)和2 (b)显示ACC时参数的变化是在一个小的区间[0.001,0.01]和[0.0721,0.0730]。图1 (b)基于图1(一)。同样,图2 (b)基于图2(一个)。从图1(一)时,最好的ACC是实现参数需要0.1的区间(0.1,1)。因此,参数的范围在图1 (b)在区间[0,0.1]。通过实验中,参数的范围t在图1 (b)在区间[0.001,0.01]。在图1 (b)据最好的ACC,参数是0.3%。

像图1,图2(一个)说明最好的ACC时获得的参数需要0.1的区间(0.1,1)。因此,参数的范围在图2 (b)在区间[0,0.1]。通过实验中,参数的范围t在图2 (b)在区间[0.0721,0.0730]。在图2 (b)据最好的ACC,参数是7.25%。

数据4- - - - - -6显示英航和参数之间的关系在不平衡数据集。当参数在区间[0.1,1]和[0.71,0.80],英航的变化探测数据集数据所示4(一)和4 (b)。数据5和6英航变动U2R和R2L参数时的数据集t在区间[0.1,1]。与此同时,数据4- - - - - -6反映参数的选择过程在RBIS-IM算法。数据4(一)英航时参数的变化是在一个大区间[0.1,1]。数据4 (b)表明BA时参数的变化是在一个小区间[0.71,0.80]。图4 (b)基于图4(一)。从图4(一)时,最好的英航是获得参数需要0.8的区间(0.1,1)。因此,参数的范围在图4 (b)在区间[0,0.8]。通过实验中,参数的范围在图4 (b)在区间[0.71,0.80]。在图4 (b)据最好的英航,参数是0.76。从数据5和6很明显,参数设置为1的条件下,英航获得最好的两个数据集。此外,相关实验进行区间[0.9,1]。实验结果表明,英航时获得最佳参数是1。

(一)

(b)

(c)

表6表明,在平衡的数据集,这三个常见的分类器,1-NN,支持向量机,和演算法,使用整个训练集和实例子集选择获得ACC, RR,分别和平均精度。99年DoS数据集KDD杯,三个分类的准确性大大提高了使用选择的实例子集算法分打点。2016年DDoS的数据集,这三个分类器通过使用实例子集也达到良好的精度。SVM的准确性和演算法使用实例子集略低于整个训练集,但分打点算法只使用7.25%的实例来获得良好的准确性(94.682%或94.668%)。这表明分打点算法可以减少RR在保持精度。两个平衡的数据集,使用实例1-NN子集的准确性高于整个训练集。这是因为选择的实例子集选择算法和1-NN提出实例。除了良好的ACC, RR的三个分类器和实例是非常小的子集,分别是0.3%和7.25%。这可以证明分打点算法可以实现更好的平衡ACC和RR。另一方面,从平均ACC的角度来看,很明显,平均ACC的实例子集远远高于在DoS整个训练集数据集。与此同时,2016年DDoS的数据集,平均ACC子集的实例仅略高于整个训练集得到的。这表明分打点算法可以选择最佳的改善ACC和减少RR为IDS实例。


数据集	实例的大小	分类器	ACC (%)	RR	平均ACC (%)

DoS	20000年	1-NN	61.000	One hundred.	63.692
		支持向量机	65.044
		演算法	65.033
	60	1-NN	99.913	0.3	93.362
		支持向量机	99.910
		演算法	80.263

DDoS 2016	20000年	1-NN	90.823	One hundred.	93.653
		支持向量机	95.059
		演算法	95.077
	1450年	1-NN	94.916	7.25	94.755
		支持向量机	94.682
		演算法	94.668

在表6,实验结果表明,该分打点算法是有效的,可以处理平衡数据问题。分打点的算法是有效的,因为它是基于代表性新实例,所示部分3所示。1。通过选择代表性实例,实例拥有整个实例的信息,有助于提高ACC和减少RR为id。

如表所示7不平衡数据集,三种常见的分类器,1-NN,支持向量机,和演算法,可以获得BA, RR,平均英航使用整个训练集和子集的实例。三个不平衡数据集KDD Cup 99。调查数据集,使用实例子集,这三个分类器精度很好。相比之下,整个训练集,英航的1-NN分类器使用实例子集是略低,而婴儿SVM和演算法更好。U2R和R2L数据集,而使用三种常见的整个训练集英航子集分类器使用实例更好。实验结果证明RBIS-IM算法可以在英航和RR之间实现更好的平衡。


数据集	实例的大小	分类器	BA (%)	RR (%)	平均BA (%)

探针	11550年	1-NN	98.825	One hundred.	98.096
		支持向量机	99.104
		演算法	96.359
	2356年	1-NN	97.887	20.398	98.148
		支持向量机	99.544
		演算法	97.013

U2R	10030年	1-NN	49.970	One hundred.	50.079
		支持向量机	49.998
		演算法	50.270
	60	1-NN	61.580	0.598	61.632
		支持向量机	61.565
		演算法	61.750

R2L	11000年	1-NN	80.465	One hundred.	74.860
		支持向量机	67.665
		演算法	76.449
	2000年	1-NN	96.068	18.182	91.445
		支持向量机	87.859
		演算法	90.407

除此之外,从平均英航的角度,调查数据集,使用实例子集平均英航是略高于整个训练集,使用。U2R和R2L数据集,而平均英航使用整个训练集,英航平均使用实例子集是大大提高了。因此,不平衡数据集上的实验结果表明,RBIS-IM算法是有效的,可以获得良好的RR同时提高英航。这是因为RBIS-IM算法也是基于代表性新实例,所示部分3所示。1。通过代表性实例,选择最优情况下提高英航和减少对IDS RR。和实验结果显示,RBIS-IM算法可以处理不平衡数据的问题。

表8和9显示ACC和RR与6实例选择算法在均衡数据集。拟议中的5分打点算法相比,算法:最近邻(新奥集团)[编辑22),测量(10],BNNT [8],CNNIR [9),和RIS 1 (11]。对于测量和RIS 1,他们选择算法只使用实例。在两个平衡的数据集,与其他5算法相比,该算法分打点ACC在桌子上达到最好的实验结果8。分打点算法达到第二RR在两个平衡数据集表9。平均表现而言,很明显分打点算法达到最好的实验结果在ACC和RR。这表明分打点的算法可以实现更好的平衡ACC和RR。它可以解决平衡数据问题。同样,它证明了分打点算法是有效的。换句话说,所选实例优化,包含整个实例的信息。这是因为实例选择过程被认为是四个因素,这部分所示3所示。1。


数据集	新奥集团	测量	BNNT	CNNIR	RIS 1	分打点

DoS	65.173	99.904	65.070	65.142	99.906	99.913
DDoS 2016	84.589	70.533	72.089	73.584	70.520	94.916
的意思是	74.881	85.219	68.580	69.633	85.213	97.415


数据集	新奥集团	测量	BNNT	CNNIR	RIS 1	分打点(%)

DoS	99.995	50.005	0.065	9.780	49.785	0.300
DDoS 2016	87.255	53.435	9.135	4.820	13.335	7.250
的意思是	93.625	51.720	4.600	7.300	31.560	3.775

表10显示6 BA实例选择算法在不平衡数据集。调查数据集,新奥集团的英航,测量,RIS 1, RBIS-IM算法很近,它们之间的最大差距小于1%。这将显示RBIS-IM算法有能力区分正常和攻击实例。U2R和R2L数据集,英航RBIS-IM算法是最好的。与其他算法相比,最小差距至少10%。从平均英航,新奥集团的平均英航,测量,和RIS 1算法非常接近,而英航的RBIS-IM算法是最好的表10。实验结果证明代表实例选择RBIS-IM算法包含整个实例的信息和RBIS-IM算法可以选择增加英航代表实例id。此外,实验结果证明RBIS-IM算法可以处理数据不平衡问题。


数据集	新奥集团	测量	BNNT	CNNIR	RIS 1	RBIS-IM

探针	98.789	98.059	70.510	87.175	98.059	97.887
U2R	49.980	49.592	50.755	50.000	49.642	61.580
R2L	80.434	79.956	53.797	63.592	85.238	96.068
的意思是	76.401	75.869	58.354	66.922	77.646	85.178

表11礼物6实例选择的RR算法在不平衡数据集。调查数据集,测量获得的RR, CNNIR, RIS 1算法很近。但是,新奥集团,其他算法相比有很大的差距。U2R数据集,除了新奥集团算法,其他算法的RR很近,不到1%。R2L数据,有一个小的RR区别三个算法,测量,CNNIR, RIS 1算法。从平均RR BNNT的RR算法是最好的。但是,很明显,新奥集团得到可怜的RR(例如99.879%)。由于新奥集团是基于最近的邻居,新奥集团只删除实例边界附近和删除限制多数类的实例。此外,新奥集团不能处理数据不平衡问题。提出RBIS-IM算法具有良好的RR(例如13.059%)。这显示RBIS-IM算法可以选择小减少RR和代表性的实例。 And the experimental results show that the RBIS-IM algorithm can deal with imbalanced data problem.


数据集	新奥集团(%)	测量(%)	BNNT (%)	CNNIR (%)	RIS 1 (%)	RBIS-IM (%)

探针	99.896	13.680	0.537	10.312	13.680	20.398
U2R	99.950	0.489	0.578	0.680	0.160	0.598
R2L	99.791	9.455	0.945	6.327	9.000	18.182
的意思是	99.879	7.875	0.687	5.773	7.613	13.059

6例选择算法的时间复杂度是出现在桌子上12。代表原始实例的数量。根据表12的时间复杂度6算法分为两种类型。一个是 ,新奥集团,BNNT, CNNIR算法。另一种是 ,测量、RIS 1分打点,RBIS-IM算法。


ID	算法	时间复杂度

1	新奥集团	O(N日志N)
2	测量	O(N²)
3	BNNT	O(N日志N)
4	CNNIR	O(N日志N)
5	RIS 1	O(N²)
6	分打点/ RBIS-IM	O(N²)

图8显示的关系平均ACC和平均7 RR算法平衡数据集和基于表6,8,9。1-NN算法使用整个训练实例,另6算法使用实例通过实例子集选择算法。平衡的数据集,分打点算法达到最好的ACC和RR。图8表明分打点算法可以选择最佳的改善ACC和减少RR为IDS实例。这些优化实例为整个实例的信息。

图9基于表7,10,11显示的关系平均英航和平均7 RR算法在不平衡数据集。很明显,平均英航RBIS-IM是最好的。和图9表明RBIS-IM算法可以选择最优增加英航和减少RR为IDS实例。尽管RBIS-IM算法的平均RR不是最低,RBIS-IM算法可以达到平均英航和平均RR之间良好的平衡。此外,它是发现RBIS-IM算法可以处理数据不平衡的问题。

5。结论

本文在分析实例选择算法及其在入侵检测的缺陷,我们提出一个新的代表性的实例来确定一个实例的重要性。计算实例的代表性,我们不仅考虑代表性实例的类别,但也在不同类别的代表性实例。这两个代表性也同样重要。此外,不同的类的实例的影响选择的实例上被视为一种优势因素。处理平衡和不平衡数据的问题,我们建议分打点,RBIS-IM算法,分别。选择过程中的实例,该算法不需要删除内部噪音实例和实例。与其他算法相比,入侵检测的基准数据集上,实验结果表明,这两个算法是有效的。分打点算法可以实现更好的准确性(ACC)和还原速度之间的平衡(RR)。类似地,RBIS-IM算法可以实现更好的平衡精度(BA)和还原速度之间的平衡(RR)。此外,也验证了提出的代表性的实例是正确的和有效的。

在未来的工作中,我们打算研究如何自动获得适当的参数建议的方法,这将减少训练时间的算法。此外,获得参数自动可以改善和提高算法的有效性和适用性。

数据可用性

在本文中,两个数据集用于入侵检测。他们是公开的,这是知识发现和数据挖掘(KDD)杯1999数据集和DDoS 2016数据集。相应的url,分别http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html和https://www.researchgate.net/publication/292967044_Dataset_Detecting_Distributed_Denial_of_Service_Attacks_Using_Data_Mining_Techniques。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是支持下由中国国家重点研发项目批准号2017 yfb0802300,部分由贵州省重大科技专项项目批准号20183001下,部分由贵州省级重点实验室的基础下的大数据批准号。2018 bdkfjj008和2018 bdkfjj020,和部分由中国全国统计科研项目批准号。2018 ly61和2019 ly82。

引用

t .港区,p .蔡、t·扬和x,“网络入侵检测使用机器学习技术,”学报2020年国际会议上新兴的趋势在信息技术和工程(ic-ETITE),页1 - 7,Vellore,印度,2020年2月。视图:谷歌学术搜索
h . Hindy d . Brosset大肠Bayne et al .,”一个分类的网络威胁和当前数据集的效果在入侵检测系统中,“IEEE访问,8卷,第104675 - 104650页,2020年。视图:出版商的网站|谷歌学术搜索
o . Adeleke”入侵检测:问题、问题和解决方案”诉讼第三国际会议信息和计算机技术(ICICT),页397 - 402,2020年3月,美国圣何塞。视图:谷歌学术搜索
Nalepa和m . Kawulok”,选择支持向量机训练集:复习一下,”人工智能审查52卷,第900 - 857页,2019年。视图:谷歌学术搜索
z h·朱z . Wang d·d·李和w·l·杜”NearCount:选择重要的实例引用计数的基础上最近的邻居,”以知识为基础的系统,190卷,2020年。视图:出版商的网站|谷歌学术搜索
公元Haro-Garcia、g . Cerruela-Garcia和n . Garcia-Pedrajas”实例选择基于提高基于实例的学习”模式识别,96卷,2019年。视图:谷歌学术搜索
c .郭Y.-J。周,y . Ping, s。罗,Y.-P。赖,Z.-K。张“高效的入侵检测使用代表性实例,”电脑与安全39卷,第267 - 255页,2013年。视图:出版商的网站|谷歌学术搜索
j·李和y王”,一种新的快速还原技术基于二进制最近邻树,”Neurocomputing卷,149年,第1657 - 1647页,2015年。视图:出版商的网站|谷歌学术搜索
l .杨朱,j .黄问:吴,d . Cheng和x香港,“约束最近邻例如减少,”软计算,23卷,不。24日,第13245 - 13235页,2019年。视图:出版商的网站|谷歌学术搜索
c·d·s·佩雷拉和g·d·c·卡瓦尔康蒂”实例选择算法基于一个排名的过程,”《2011国际神经网络联合会议,页2409 - 2416年,2011年7月,美国圣何塞。视图:谷歌学术搜索
g·d·c·卡瓦尔康蒂和r . j . o .苏亚雷斯”为模式分类排名实例中选择,”专家系统与应用程序,150卷,2020年。视图:出版商的网站|谷歌学术搜索
h . Hmida s . b . Hamida a . Borgi和m . Rukoz“分层数据基于拓扑的选择大规模的学习”学报2016年国际IEEE会议无处不在的智能和计算、先进、可信计算、可伸缩的计算和通信、云计算和大数据计算,互联网的人,聪明的世界大会(UIC / ATC / ScalCom / CBDCom / IoP / SmartWorld)图卢兹,页1221 - 1226年,法国,2016年7月。视图:谷歌学术搜索
j . Hamidzadeh: Kashefi, m . Moradi”组合加权多目标优化器例如减少两种不平衡数据的问题,“人工智能技术的工程应用,90卷,2020年。视图:谷歌学术搜索
l . Li刘贤赵,r . z太阳et al .,“Parameter-free极端不平衡分类学习机器,”神经处理信件,52卷,不。3、1927 - 1944年,2020页。视图:出版商的网站|谷歌学术搜索
李郭h . x, y . j . j .商et al .,“学习class-imbalanced数据:复习的方法和应用,“专家系统与应用程序卷,73年,第239 - 220页,2017年。视图:谷歌学术搜索
学术界。周,B.-H。郭,f . Chang“广义压缩最近邻规则数据简化方法,”《18国际会议模式识别,卷2,页556 - 559,香港,中国,2006年8月。视图:谷歌学术搜索
h·A·法耶德和A . f . Atiya”小说模板再还原方法方法,”IEEE神经网络,20卷,不。5,890 - 896年,2009页。视图:出版商的网站|谷歌学术搜索
j . Arturo Olvera-Lopez j . Ariel Carrasco-Ochoa和j·弗朗西斯科Martinez-Trinidad”一个新的快速原型基于集群的选择方法,”模式分析与应用,13卷,不。2、131 - 141年,2010页。视图:出版商的网站|谷歌学术搜索
a . a . Akinyelu和a . e . Ezugwu“自然启发实例选择支持向量机速度优化技术,”IEEE访问7卷,第154599 - 154581页,2019年。视图:出版商的网站|谷歌学术搜索
a . Akinyelu和a·o . Adewumi”布谷鸟搜索和蝙蝠算法实例的性能选择支持向量机技术与应用程序因检测速度优化,“KSII交易网络和信息系统,12卷,不。3、1348 - 1375年,2018页。视图:出版商的网站|谷歌学术搜索
c . e . Brodley“递归自动偏向选择分类器建设,”机器学习,20卷,第94 - 63页,1995年。视图:出版商的网站|谷歌学术搜索
即Tomek”,与编辑近邻规则,”一个实验IEEE系统,人与控制论》第六卷,第452 - 448页,1976年。视图:谷歌学术搜索
扬科夫斯基n和m . Grochowski”实例选择算法。算法的比较调查。”人工智能国际会议和软计算,10卷,第942 - 937页,2004年。视图:谷歌学术搜索
问:y . Wang x问:欧阳,j·c·詹”减少基于数据聚类和数据分类算法的入侵检测系统在大数据,”KSII交易网络和信息系统13卷,第3732 - 3714页,2019年。视图:谷歌学术搜索
p . Ghosh、a。萨哈和s . Phadikar”Penalty-reward基于实例选择方法在云环境中使用最近邻的概念,“Procedia计算机科学卷,89年,第89 - 82页,2016年。视图:出版商的网站|谷歌学术搜索
l .杨朱,j .黄,d . Cheng”自适应自然的邻居编辑算法”,Neurocomputing卷,230年,第433 - 427页,2017年。视图:出版商的网站|谷歌学术搜索
n . Garcia-Pedrajas j·A·罗梅罗德尔卡斯蒂略,d . Ortiz-Boyer”合作共同进化算法例如选择基于实例的学习,“机器学习,卷78,不。3、381 - 420年,2010页。视图:出版商的网站|谷歌学术搜索
j .李问:朱,吴问:“parameter-free混合实例选择算法基于当地集与自然的邻居,”应用智能,50卷,不。5,1527 - 1541年,2020页。视图:出版商的网站|谷歌学术搜索
b .贾和y .梁Anti-D链:轻量级DDoS攻击检测方案基于异构集成学习在区块链,”中国通信,17卷,不。9日,11-24,2020页。视图:出版商的网站|谷歌学术搜索
c .郭y萍:刘,美国罗,“两级混合入侵检测方法,”Neurocomputing,214卷,2016年。视图:谷歌学术搜索
加州大学信息与计算机科学、KDD Cup 99入侵检测数据集任务描述,加州大学信息与计算机科学、伯克利分校,美国,1999年,http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html。
m . Alkasassbeh g . Al-Naymat b·a·艾哈迈德和m . Almseidin”检测分布式拒绝服务攻击通过数据挖掘技术,”国际期刊《先进的计算机科学和应用程序,7卷,不。1,2016。视图:出版商的网站|谷歌学术搜索
m .戒指,s . Wunderlich d . Scheuring d·兰德斯和A . Hotho“基于网络的入侵检测数据集的调查。”电脑与安全卷,86年,第167 - 147页,2019年。视图:出版商的网站|谷歌学术搜索

安全性和通信网络

机器学习:网络安全、隐私和新兴应用程序的公共安全的机遇和挑战

文摘

1。介绍

2。实例选择技术

3所示。提出了算法

3.1。提出的代表性实例

3.2。Representativeness-Based实例选择平衡数据

3.3。Representativeness-Based实例选择对不平衡数据

4所示。实验

4.1。实验数据集

4.2。评估标准

4.3。实验结果和分析

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章