随着计算机网络技术的不断发展,入侵检测系统需要人脸检测效率和在处理大型数据存储需求。选择合理的解决该问题的方法是实例,可以减少存储空间,提高入侵检测效率通过选择具有代表性的实例。一个实例代表不仅在它的类,也在不同的类。这种代表性反映了一个实例的重要性。因为现有的实例选择算法没有考虑上述情况,选择一些实例消除了冗余的和一些重要的实例,增加存储空间,降低效率。因此,提出了一种新的代表性的实例,认为不仅同一类的所有实例的影响所选实例上的影响也不同的类的实例所选择的实例上。此外,它认为的影响不同的类的实例作为一个有利的因素。基于这一代表性,两个实例选择算法提出了处理平衡和不平衡对入侵检测数据问题。一个是业务代表实例选择平衡数据,名叫分打点,选择相同的比例从每一个类的实例。另一个是业务代表实例选择不平衡数据,这是叫RBIS-IM并选择重要的大多数实例根据少数类的实例的数量。 Compared with other algorithms on the benchmark data sets of intrusion detection, experimental results verify the effectiveness of the proposed RBIS and RBIS-IM algorithms and demonstrate that the proposed algorithms can achieve a better balance between accuracy and reduction rate or between balanced accuracy and reduction rate.
随着网络技术的不断发展和5 g,智能系统正在变得越来越普遍在人类生活的各个领域,如金融、农业、和教育。然而,智能系统已经成为许多新攻击的目标,不仅造成重大经济损失和个人信息泄漏,还在实践中阻碍智能系统的大规模部署。入侵检测技术可以有效地保护智能系统和检测到攻击,入侵检测技术的发展引起了世界各国的关注(
id基于机器学习已经成为一个重要组成部分的id (
近年来,许多实例选择技术提出了提高IDS的性能(
首先,只有部分实例的影响考虑选择实例(
其次,不同的类的实例的影响被认为是一个不利因素选择实例。同一类的实例,实例选择算法基于排名过程(ISAR) (
第三,一些实例选择算法使用抽样选择实例。实例选择算法基于分层数据拓扑结构(
最后,在入侵检测领域中,只有少数算法用于处理不平衡数据,和大多数的实例选择算法用于平衡数据的处理这个问题
鉴于上述四个问题,例如选择考虑的因素包括:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;(3)的影响,不同类型的实例是一个有利因素;和(4)实例选择算法应用到入侵检测的平衡和不平衡的域。作为现有实例选择算法没有考虑以上四个因素,选择一些实例冗余和一些重要的实例中,增加存储空间,降低效率。因此,前三个因素,我们提出一个新概念的代表性实例。这个概念是用来表达实例的重要性。考虑到第四个因素,我们提出两个选择representativeness-based实例,分打点,RBIS-IM命名。分打点算法用于处理平衡数据和从每个类选择同样比例的实例。和RBIS-IM算法用于处理不平衡数据,选择重要的大多数实例根据少数类的实例的数量。 Finally, the experimental results verify the effectiveness of proposed algorithms. Two algorithms can reduce the size of the training set while maintaining or even increasing accuracy (ACC) and balanced accuracy (BA).
本文的主要贡献如下:
代表性实例的一个新概念,提出了代表一个实例的重要性。代表性的实例,我们不仅考虑的代表性实例在其类也不同类别内代表性的实例。两个代表性有利因素;
处理平衡数据问题,分打点算法,基于代表性实例,旨在选择同样比例的正常实例和攻击实例来提高入侵检测效率。与其他算法相比,在入侵检测的基准数据集,分打点算法可以实现更好的准确性和还原速度之间的平衡。
处理数据不平衡问题,RBIS-IM算法,基于代表性实例,旨在选择相同数量的正常实例和攻击实例。与其他算法相比,在入侵检测的基准数据集,RBIS-IM算法可以实现更好的平衡精度和还原速度之间的平衡。
本文的结构如下。节
在本节中,介绍了实例选择技术的基本概念。实例的选择是选择重要的实例和消除冗余实例从原始数据。这些选择的实例可以包含原始数据的有效信息。假设
凝聚算法认为实例接近边界分类过程中扮演着重要的角色,就像支持向量机。它保留边界实例通过删除内部每一个类的实例(
凝结的版算法相反的算法。它倾向于光滑边界通过删除边界的类实例(
最后,混合算法结合了凝聚算法版本的算法来获得一个更小的子集和测试设置中可接受的精度
总之,主要有四个因素的实例选择过程:(1)同一类的所有实例的影响选择的实例;(2)不同的类的实例的影响选择的实例;(3)的影响,不同类型的实例是一个有利因素;和(4)实例选择算法应用到入侵检测的平衡和不平衡的域。从上述四个因素没有考虑在现有实例选择算法,选择一些实例冗余和一些重要的实例中,增加存储空间,降低效率。因此,我们提出算法选择两个重要实例没有删除内部实例,可以处理平衡和不平衡数据的问题。不仅与此同时,该算法考虑的影响,同一类的所有实例的选择实例的影响也不同的类的实例,并采取不同的类的实例作为一个有利的影响因素。
在本节中,我们介绍了提出representativeness-based实例选择算法。在第一小节中,我们引入一个新实例的代表性。在接下来的两个部分,两个representativeness-based算法,介绍了用于处理平衡和不平衡数据的问题。
实例选择的关键因素是决定哪些实例代表,使所选子集代表性实例的原始数据。选择具有代表性的实例,我们不仅应该考虑选择的代表性实例的类别也不同类别的代表性。换句话说,实例选择类别和不同类别的信息。的影响和不同类别的实例被看作是一个有利因素。
假设
任何实例的表示
上半年的公式(
意识到
因此,公式(
代表性的计算实例
处理平衡数据问题,representativeness-based实例选择算法选择具有代表性的实例,这叫做分打点,提高准确性(ACC)和降低还原速度(RR) id。通过分打点算法,同样比例的选择为每个类实例。算法
正常化
初始化
为每一个
计算
结束了
获得
选择最好的
获得
获得
在算法
ACC和参数之间的关系
ACC和参数之间的关系
图
分打点选择关键平衡数据中所有的类的实例。(一)原始数据。(b)根据其代表性的实例。(c)选择同样比例的实例根据参数(
分打点的算法是基于代表性
根据算法
为了解决不平衡数据问题,representativeness-based实例选择算法,叫做RBIS-IM。通过RBIS-IM算法,为每个类是相同数量的实例选择提高平衡精度(BA)和减少减速率(RR) id。
算法
正常化
初始化
为每一个
计算
结束了
获得
选择最好的
获得
获得
实例的过程中选择,选择的多数类的实例的数量不仅取决于少数类的实例的数量也是一样的少数类的选择。首先,在3 - 5行算法
英航和参数之间的关系
英航和参数之间的关系
图
英航的关系和参数t R2L数据集。
同样,由于RBIS-IM算法是基于实例的代表性
RBIS-IM和分打点算法之间的差异主要体现在三个方面。首先,这两个算法解决的问题是不同的。RBIS-IM算法是解决数据不平衡问题,是指正常的实例的数量巨大的差异和攻击实例;分打点算法是处理平衡数据的问题,这意味着正常的实例的数量和攻击实例非常接近或相等。其次,选择了两种算法的实例的方法是不同的。在RBIS-IM算法,多数类的实例的选择是由选定的少数类的实例。选择两个类的实例的数量是一样的。分打点的算法,每一个类的实例的数量。分打点的算法,同样比例的选择对于每一个类实例。因此,选择正常的数量和攻击实例非常接近。 Thirdly, the evaluation criteria of the two algorithms are different, which are shown in Section
在本节中,实验是为了证明该算法的有效性。部分分为三个部分。在第一小节,两组实验数据。在第二节,介绍了评估标准。在最后一个小节,分打点,RBIS-IM算法验证平衡和不平衡的数据集。
在本文中,我们使用两个数据集,是知识发现和数据挖掘(KDD)杯1999数据集和DDoS 2016数据集。尽管KDD 99数据集有一些缺点,它仍然是广泛使用作为IDS的基准评价(
数据库知识发现(KDD) 99年的数据的分布。
| 类 | 10%的知识发现(KDD)训练数据 | 数据库知识发现(KDD)正确的数据 |
|---|---|---|
| 正常的 | 97278年 | 60593年 |
| DoS | 391458年 | 229853年 |
| U2R | 52 | 228年 |
| 探针 | 4107年 | 4166年 |
| R2L | 1126年 | 16189年 |
| 总 | 494021年 | 311029年 |
在KDD Cup 99数据集,每个网络连接代表一个数据记录,由41特性和一个标签指定这个记录的状态。每条记录包含41个特性:3非数字特征,和38数值特性。在数据预处理,这些非数字功能,协议类型,服务,和旗帜,必须转换成数值型数据。协议类型有三种类型:tcp、udp和icmp。根据不同类型,“协议类型”功能转换成三个特性。“服务”功能有70种不同类型,并将大量增加维度,这一功能并不是用于我们的实验。非数字特性转换表所示
非数字特性转换在数据库知识发现(KDD) 99年的数据。
| 功能名称 | 类型设置1 | 类型设置2 |
|---|---|---|
| tcp协议类型= | tcp = 1 | 别人= 0 |
| 协议类型= udp | udp = 1 | 别人= 0 |
| 协议类型= icmp | icmp = 1 | 别人= 0 |
| 国旗 | 科幻小说= 1 | 别人= 0 |
DDoS 2016数据集于2016年出版,这是创建使用网络仿真器NS2 [
根据平衡和不平衡的领域,知识发现和数据挖掘(KDD)杯1999年和2016年DDoS分为平衡数据集和不平衡的数据集,数据集的描述如表所示
平衡数据集。
| 类型 | 属性 | 类 | 正常/攻击在训练数据 | 正常/攻击测试数据 |
|---|---|---|---|---|
| 正常和DoS数据在数据库知识发现(KDD) 99数据集 | 42 | 2 | 10000/10000 | 10000/10000 |
| DDoS 2016数据集 | 28 | 2 | 10000/10000 | 10000/10000 |
不平衡的数据集。
| 99年数据库知识发现(KDD)数据集 | 属性 | 类 | 正常/攻击在训练数据 | 正常/攻击测试数据 |
|---|---|---|---|---|
| 正常和U2R数据 | 42 | 2 | 10000/30 | 200/20 |
| 正常和调查数据 | 42 | 2 | 10000/1550 | 10000/1000 |
| 正常和R2L数据 | 42 | 2 | 10000/1000 | 10000/1000 |
评估的有效性和性能提出的算法,使用混淆矩阵。混淆矩阵如表所示
混淆矩阵。
| 类 | 预测消极类 | 预测积极类 |
|---|---|---|
| 实际负类 | 真阴性(TN) | 假阳性(FP) |
| 实际的积极类 | 假阴性(FN) | 真阳性(TP) |
在平衡数据,ACC和RR用于评估算法的性能提出了分打点。平等对待少数和多数实例,选择英航RBIS-IM算法的评价标准的不平衡问题。
博士的比例是正确预测攻击的攻击实例测试数据集;它是一个重要的指标反映了攻击检测模型的识别能力和被描述为攻击实例
TNR的比例正常实例中正确预测正常的测试数据集,它是一个重要的指标反映了检测模型的识别能力正常的实例和可以写成
英航和TNR博士的平均;它可以是一个领先指标不平衡数据集;它可以作为一个模型的整体性能指标。
ACC的比率是在测试数据集的实例数量正确预测实例的总数。,它可以反映的能力检测模型来区分正常和攻击实例和被定义为
RR选择实例的数量的比例是在训练数据集的总数实例;它可以显示实例的能力选择模型来选择最佳实例和可以写成
在本节中,我们使用选择的子集实例提出实例选择算法来验证实例表示和算法的有效性。实验是在平衡和不平衡的数据集进行的。所有的实验结果都通过计算100次实验的平均值。
分打点,RBIS-IM算法参数
数据
像图
数据
RBIS-IM选择关键的所有类的实例在不平衡数据。(一)原始数据。(b)根据其代表性的实例。(c)选择根据参数相同数量的实例
表
分打点的效率与1-NN算法,支持向量机,验证演算法在均衡数据集。
| 数据集 | 实例的大小 | 分类器 | ACC (%) | RR | 平均ACC (%) |
|---|---|---|---|---|---|
| DoS | 20000年 | 1-NN | 61.000 | One hundred. | 63.692 |
| 支持向量机 | 65.044 | ||||
| 演算法 | 65.033 | ||||
| 60 | 1-NN | 99.913 | 0.3 | 93.362 | |
| 支持向量机 | 99.910 | ||||
| 演算法 | 80.263 | ||||
|
|
|||||
| DDoS 2016 | 20000年 | 1-NN | 90.823 | One hundred. | 93.653 |
| 支持向量机 | 95.059 | ||||
| 演算法 | 95.077 | ||||
| 1450年 | 1-NN | 94.916 | 7.25 | 94.755 | |
| 支持向量机 | 94.682 | ||||
| 演算法 | 94.668 | ||||
在表
如表所示
与1-NN RBIS-IM算法的效率,支持向量机,验证演算法在不平衡数据集。
| 数据集 | 实例的大小 | 分类器 | BA (%) | RR (%) | 平均BA (%) |
|---|---|---|---|---|---|
| 探针 | 11550年 | 1-NN | 98.825 | One hundred. | 98.096 |
| 支持向量机 | 99.104 | ||||
| 演算法 | 96.359 | ||||
| 2356年 | 1-NN | 97.887 | 20.398 | 98.148 | |
| 支持向量机 | 99.544 | ||||
| 演算法 | 97.013 | ||||
|
|
|||||
| U2R | 10030年 | 1-NN | 49.970 | One hundred. | 50.079 |
| 支持向量机 | 49.998 | ||||
| 演算法 | 50.270 | ||||
| 60 | 1-NN | 61.580 | 0.598 | 61.632 | |
| 支持向量机 | 61.565 | ||||
| 演算法 | 61.750 | ||||
|
|
|||||
| R2L | 11000年 | 1-NN | 80.465 | One hundred. | 74.860 |
| 支持向量机 | 67.665 | ||||
| 演算法 | 76.449 | ||||
| 2000年 | 1-NN | 96.068 | 18.182 | 91.445 | |
| 支持向量机 | 87.859 | ||||
| 演算法 | 90.407 | ||||
除此之外,从平均英航的角度,调查数据集,使用实例子集平均英航是略高于整个训练集,使用。U2R和R2L数据集,而平均英航使用整个训练集,英航平均使用实例子集是大大提高了。因此,不平衡数据集上的实验结果表明,RBIS-IM算法是有效的,可以获得良好的RR同时提高英航。这是因为RBIS-IM算法也是基于代表性新实例,所示部分
表
新奥集团,精度测量、BNNT CNNIR RIS 1,分打点,平衡的数据集。
| 数据集 | 新奥集团 | 测量 | BNNT | CNNIR | RIS 1 | 分打点 |
|---|---|---|---|---|---|---|
| DoS | 65.173 | 99.904 | 65.070 | 65.142 | 99.906 | 99.913 |
| DDoS 2016 | 84.589 | 70.533 | 72.089 | 73.584 | 70.520 | 94.916 |
| 的意思是 | 74.881 | 85.219 | 68.580 | 69.633 | 85.213 | 97.415 |
减少新奥集团,测量、BNNT CNNIR RIS 1,分打点,平衡的数据集。
| 数据集 | 新奥集团 | 测量 | BNNT | CNNIR | RIS 1 | 分打点(%) |
|---|---|---|---|---|---|---|
| DoS | 99.995 | 50.005 | 0.065 | 9.780 | 49.785 | 0.300 |
| DDoS 2016 | 87.255 | 53.435 | 9.135 | 4.820 | 13.335 | 7.250 |
| 的意思是 | 93.625 | 51.720 | 4.600 | 7.300 | 31.560 | 3.775 |
表
英航的新奥集团,测量、BNNT CNNIR, RIS 1, RBIS-IM不平衡数据集。
| 数据集 | 新奥集团 | 测量 | BNNT | CNNIR | RIS 1 | RBIS-IM |
|---|---|---|---|---|---|---|
| 探针 | 98.789 | 98.059 | 70.510 | 87.175 | 98.059 | 97.887 |
| U2R | 49.980 | 49.592 | 50.755 | 50.000 | 49.642 | 61.580 |
| R2L | 80.434 | 79.956 | 53.797 | 63.592 | 85.238 | 96.068 |
| 的意思是 | 76.401 | 75.869 | 58.354 | 66.922 | 77.646 | 85.178 |
表
新奥集团,减少测量、BNNT CNNIR, RIS 1, RBIS-IM不平衡数据集。
| 数据集 | 新奥集团(%) | 测量(%) | BNNT (%) | CNNIR (%) | RIS 1 (%) | RBIS-IM (%) |
|---|---|---|---|---|---|---|
| 探针 | 99.896 | 13.680 | 0.537 | 10.312 | 13.680 | 20.398 |
| U2R | 99.950 | 0.489 | 0.578 | 0.680 | 0.160 | 0.598 |
| R2L | 99.791 | 9.455 | 0.945 | 6.327 | 9.000 | 18.182 |
| 的意思是 | 99.879 | 7.875 | 0.687 | 5.773 | 7.613 | 13.059 |
6例选择算法的时间复杂度是出现在桌子上
六个算法的时间复杂度。
| ID | 算法 | 时间复杂度 |
|---|---|---|
| 1 | 新奥集团 |
|
| 2 | 测量 |
|
| 3 | BNNT |
|
| 4 | CNNIR |
|
| 5 | RIS 1 |
|
| 6 | 分打点/ RBIS-IM |
|
图
平均ACC和平均RR的关系。
图
平均英航和平均RR的关系。
本文在分析实例选择算法及其在入侵检测的缺陷,我们提出一个新的代表性的实例来确定一个实例的重要性。计算实例的代表性,我们不仅考虑代表性实例的类别,但也在不同类别的代表性实例。这两个代表性也同样重要。此外,不同的类的实例的影响选择的实例上被视为一种优势因素。处理平衡和不平衡数据的问题,我们建议分打点,RBIS-IM算法,分别。选择过程中的实例,该算法不需要删除内部噪音实例和实例。与其他算法相比,入侵检测的基准数据集上,实验结果表明,这两个算法是有效的。分打点算法可以实现更好的准确性(ACC)和还原速度之间的平衡(RR)。类似地,RBIS-IM算法可以实现更好的平衡精度(BA)和还原速度之间的平衡(RR)。此外,也验证了提出的代表性的实例是正确的和有效的。
在未来的工作中,我们打算研究如何自动获得适当的参数
在本文中,两个数据集用于入侵检测。他们是公开的,这是知识发现和数据挖掘(KDD)杯1999数据集和DDoS 2016数据集。相应的url,分别
作者宣称没有利益冲突有关的出版。
这部分工作是支持下由中国国家重点研发项目批准号2017 yfb0802300,部分由贵州省重大科技专项项目批准号20183001下,部分由贵州省级重点实验室的基础下的大数据批准号。2018 bdkfjj008和2018 bdkfjj020,和部分由中国全国统计科研项目批准号。2018 ly61和2019 ly82。