使用入侵检测Artificial-Intelligence-Based集合体:复习一下

文摘

在基于监督学习分类,乐团已经成功地用于不同的应用领域。在文献中,许多研究人员提出了不同的乐团通过考虑不同的组合方法,训练数据集,基本分类器,和许多其他因素。基于人工智能(AI)技术发展中扮演重要角色的合奏入侵检测(ID),在其他技术有很多好处。然而,并没有全面审查一般基于ai合奏中集合ID来检查和理解他们解决身份问题的研究现状。在这里,一个更新审查乐团和分类提出了一般。本文还介绍了各种基于ai集合体的最新综述ID(特别是)在过去的十年。基于ai乐团比较的相关研究的评价指标从(1)体系结构和方法之后;(2)不同的方法利用集成学习的不同阶段;(3)其他措施用来评估分类性能的集合体。本文还提供了在这一领域未来研究的方向。 The paper will help the better understanding of different directions in which research of ensembles has been done in general and specifically: field of intrusion detection systems (IDSs).

1。介绍

网络攻击的威胁是实实在在的,这增加了一个需要频繁在互联网上获得信息在任何网络。信息安全的目标包括机密性、认证、完整性、可用性和不可抵赖性(1]。违反安全目标的活动被称为入侵。因此安全信息需要提供(1)保护的阶段:从入侵自动保护;(2)检测方法:自动检测入侵;(3)反应:反应或自动报警系统侵入;(4)恢复:修复或恢复由于入侵造成的损失2]。这些阶段,完美的入侵检测是最重要的。只有在正确的入侵检测,正确的反应和恢复阶段的信息安全可以实现。在文献中,许多IDSs开发实施各种技术等不同学科的统计技术,人工智能技术,等等。一些IDSs开发基于单一分类技术而其他IDS(称为混合/合奏IDS)实现more-than-one-classfication技术。Ensemble-based IDS有很多优势在IDS实现单一技术(指节2)。许多研究人员提出了不同的乐团ID利用弱分类器和数据集的不同特点。乐团的各个方面,许多研究者提出了不同的分类法集合体。保持基于ai技术相对于其他技术的优点和乐团,许多研究者提出了ID基于ai集合体。然而,不存在全面审查分类法的集合体(一般)和基于ai集合体为入侵检测(ID)(具体)。

本文的目标是三倍。第一个目标是提供了一个更新审查合唱团和监督分类的一般分类。第二个目的是提供了一个更新审查不同的基于ai合奏/混合分类器提出了ID在过去十年并比较他们的评价指标来源于(1)体系结构和方法遵循;(2)不同的方法利用集成学习的不同阶段;(3)其他措施用来评估分类性能的集合体。第三个目标是强调研究空白和方向在发展中有效的ID合奏。

论文概述
剩下的纸是组织如下。部分2强调艺术的国家,需要基于ai技术的利弊及其集合体的ID。部分3列出了多个基本分类器相结合的原因和好处。各种分类法提出在文献中提出了部分4。部分也描述了各种方法在不同级别生成集合体。部分5强调了各种基于ai乐团提出了ID在过去十年。相关研究比较不同评价指标。最后,部分6总结了论文并提出了未来的研究方向。

2。入侵检测

入侵检测系统(IDS)定义为“一个有效的安全技术,可以检测,预防和可能对电脑攻击”是一个标准组件的安全基础设施。监控目标的活动,如审计和网络流量数据在计算机或网络系统,然后部署各种技术以提供安全服务。IDS是分类的主要目的不干扰侵入和网络活动以一种有效的方式。入侵检测的过程中涉及到的任务:(1)数据采集/集合;(2)数据预处理和特征选择;(3)数据分析模型选择;(4)分类和结果分析(3]。处理这些任务,IDS由不同模块的有效ID。网络监控模块,数据收集和存储单元,数据分析与处理单元和信号(4,5)如图1。

基于这些模块,IDS可以分为不同的类别,比如基于主机的IDS (HIDS)与基于网络的IDS (NIDS),滥用或基于签名的id和anomaly-based id,被动的id和活跃的id等等(5]。hid灯开发监控主机系统的活动和状态,同时为多个主机nids监控网络流量。hid灯和nids设计执行误用检测和异常检测。基于异常的ID允许检测未知攻击的签名尚未提取(2]。在实践中,异常探测器产生假警报,在很大程度上,有限的数据用于训练和底层数据分布的复杂性,可能随着时间而动态变化。因为它很难收集和标签代表数据设计和验证异常检测系统,其内部的正常行为模式往往会偏离底层的数据分布。更多细节可以在[研究4,5]。

自从第一次介绍,ids评估使用许多不同的方法基于评估数据集(6]。IDS的各种特性可以被评估,这可能从性能的可用性和正确性。然而,在文献中大多数已经执行的测试主要集中在测量的准确性和有效性id,即假警报率和成功地检测到攻击的百分比。其他几个指标是由研究人员利用测量IDS的性能。这些指标可以分为三类:阈值,排名,和概率指标(7,8]。阈值指标包括分类速度(CR), F-measure (FM)和成本(CPE)的例子。不重要的距离预测是一个阈值,只有在高于或低于阈值。阈值指标的价值在于范围从0到1。排名指标包括假阳性率(玻璃钢)检出率(博士),精密(PR), ROC曲线下面积(中华民国)。排名指标的价值在于范围从0到1。这些指标取决于订购的情况下,没有实际的预测值。只要点保存,这都没有区别。这些指标衡量的攻击实例命令在正常情况下,可以被视为一个总结模型性能在所有可能的阈值。概率度量包括均方根误差(RMSE)。 Value of RMSE lies in range from 0 to 1. The metric is minimized when the predicted value for each attack class coincides with the true conditional probability of that class being normal class. Generally, these metrics are computed from confusion matrix.

IDS的性能通常是评估基于审计数据包含的合法流量和攻击。IDSs是评估通过比较真阳性率(即。,the percentage of attacks that were correctly recognized) and the false-positive rate (i.e., the percentage of legitimate traffic flagged as an attack). Many researchers tried to collect evaluation audit data. The important audit data available as benchmarked dataset are (1) DARPA evaluation dataset collected at MIT Lincoln Laboratory in year 1998, 1999, and 2000 [9];(2)知识发现(KDD)杯1999数据集10];(3)新系统调用的数据集11];(4)防御9夺旗(CTF)数据集12];(5)ITOC数据集(13];(6)收集更多的数据集从特定组织现实的评价。的细节可以进一步探讨7]。KDD cup 1999数据集是最受欢迎的公开可用的评估基准测试数据集。但是,在文献中讨论的数据集是非常被现在过时由于攻击的类型和背景流量和用于构建它的方法实现14]。

然而,在现实世界中,入侵检测过程包括高维度的网络和系统数据的处理。处理高维数据的ID是高度计算昂贵。这个原因可能失去实时功能的id。计算开销可能会减少通过应用功能还原技术,可进一步探讨在15,16]。数据也是动态变化的分布随着时间的推移,小说攻击的新模式。Nonavailability签名的小说在数据库攻击导致误警率和较低的检测精度高。事实上,从业人员和研究人员已经观察到ids可以很容易引发每天成千上万的警报,高达99%的假阳性(即。,警报错误地由良性触发事件)(17]。大多数的攻击都可能产生多个相关警报。这洪水主要是假警报使它很难识别隐藏的真阳性(即。,那些正确的警告标志攻击)17]。当前的入侵检测系统不方便网络管理员相关的警报进行逻辑分组。当前的入侵检测的另一个问题是可伸缩性,因为它是难以实现大规模部署18]。最吸引人的方式来减少假警报是开发更好的ids产生更少的假警报。减少假警报的过程是非常具有挑战性的,因为假警报的许多问题。主要问题包括(1)缺乏合适的训练数据集;(2)重要的实时需求;(3)模糊不能轻易决定构成入侵事件(例如,失败的登录);(4)固有问题正确的写作模式ID;(5)当前ids不适当的聚合和关联警报,导致洪水的假警报网络管理员(18]。

这些原因需要更快,IDS灵活的(而不是严格的阈值),和自适应(而不是固定的规则),和动态学习的新模式和聚合逻辑corelated假警报来确定根源的警报。有效的id必须解决所有这些问题包括减少假阳性和快速处理大量的网络流量和新颖的袭击是自适应变化的环境。

各种分类技术(分类)来自不同学科的应用有效地检测入侵。这些技术的例子包括统计技术,人工智能(AI)技术为基础,其领域技术(5,19,20.]。基于ai技术包括技术像decision-tree-based技术、基于规则的技术,数据挖掘技术,遗传算法技术,机器学习技术(神经网络、支持向量机、贝叶斯网络等),模式识别技术等等。(5]。在人工智能领域的最新进展导致许多研究人员基于AI技术申请成功ID。基于ai技术的潜在好处超过其他传统技术包括(1)灵活性(与阈值的定义,传统技术);(2)适应性(与特定规则的传统技术);(3)模式识别(和检测的新模式);(4)快速计算(比人类快);(4)学习能力(21]。基于ai技术帮助实现以下研究问题中的难点(22):(1)这些技术有能力学习的例子,有助于推广一组代表性的例子和允许检测新类型的入侵;(2)学习通过示例方法攻击“签名”可以自动提取标记交通数据,从而使克服人工解释的主观性侵入行为,后者目前很多IDSs中实现;(3)通过例子学习方法能够适应新的威胁。基于ai和传统IDSs的主要区别是,只有自动AIs可以学习新的规则,而在传统系统安全管理员必须为每个新的攻击类型或添加新规则允许每一个新的项目。在基于ai系统,可以训练系统的例子,而不是规则。

许多研究人员使用不同的评估数据集和评估基于ai技术申请ID。他们报道许多挑战与基于ai技术和数据集的ID。相关技术的挑战包括:(1)没有足够单一分类方法能够检测所有类的攻击可接受的误警率和检测精度23,24];(2)现有的一些技术陷入局部最小值,为全球最小值,这些技术计算昂贵;(3)现有技术无法模型正确的假设空间的问题(25];(4)等现有技术在本质上是不稳定的神经网络显示不同的结果与不同初始化由于固有的随机性培训过程;(5)不同的技术训练上相同的数据不仅可以有不同的全球表演,但他们也可能显示强烈的地方差异。每个技术都可能有自己的区域特征空间中最好执行(26]。相关评价数据集挑战包括(1)缺乏足够的质量训练数据;(2)类不平衡的训练数据导致分类器的结果会偏向多数类。

为了解决这些问题,许多研究人员利用基于ai乐团成功为ID。他们证明了基于ai集合体可以提高检测性能通过一个单一的技术/分类器(27- - - - - -29日]。乐团是采用多个基本分类器的概念和各自的预测以某种方式进行组合,以获得可靠和更准确的预测17,25]。就业的合奏和组合多个预测主要出于三个方面的描述入侵检测领域(3]:(a)相关信息可能出现在多个抽象级别,(b)可能来自多个来源的信息,和(c)这些信息需要代表人类层次的理解。

毫无疑问,基于ai合奏/混合分类器改进性能的单一分类器(23,28- - - - - -45]。但是,仍然存在一些研究问题。主要问题包括基分类器之间的差异、整体尺寸,计算开销,输入特征空间,并结合战略。

3所示。集成分类器

乐团涉及多个基本分类器,结合他们的就业预测获得可靠和更准确的预测。Dietterich [25列出三个具体原因集合体的好处:统计,计算,具象的理由。其他原因结合不同分类器包括(26)以下。(1)一个设计师可能访问许多不同的分类器,每个开发的一个不同的上下文和一个完全不同的表现/描述的同样的问题。一个例子是识别人的声音,脸,笔迹。(2)一些倍一个训练集,每个收集在不同时间或不同的环境。这些训练集甚至可能使用不同的功能。(3)不同的分类器训练相同的数据不仅可以有不同的全球表演,但他们也可能显示强烈的地方差异。每个分类器可能有自己的区域特征空间中其性能也是最好的。(4)神经网络等不稳定的分类器显示不同的结果与不同初始化培训过程固有的随机性。而不是选择最佳的网络和丢弃,可以结合不同的网络。不同的组合策略可以应用分类组合或关联警报(3]。前者的方法包括使用不同的分类器获得一个独特的决定数据模式通常与一个单一的网络包而后来的方法主要是旨在提供一种检测模式的高级描述/攻击利用不同分类器的输出/ id。

合奏有助于符合下列ID(指节的挑战2为ID的挑战)。(1)整体组成多个弱分类器而不是单个分类器。多个分类器相互补充的弱点,因此提高性能。(2)乐团使用结合知识模型问题的假设在不同的数据集的子集或特征子空间。弱分类器的组合知识有助于提高性能即使在缺乏足够多的训练数据质量。(3)因为乐团使用多个分类器,因此它有助于找到全球解决方案导致减少误警率,提高检测精度。(4)不稳定的基分类器帮助生成多样化的基分类器有效的合奏。(5)分类器训练相同数据集显示不同的性能有助于维持基分类器之间的差异。

简而言之,通过使用多个分类器训练的不同数据集的知识组合和利用不同的特征的问题,都能够提高性能(在提高检测精度和降低假阳性率)即使在缺乏足够多的训练数据质量。但是,计算多个预测在合唱团增加计算开销。许多研究者和实践者提倡整体分类器通过保持后点。(1)巨大的计算能力的可用性(应对计算开销的系综分类器);(2)对现实的评价缺乏高质量的训练数据;(3)改进的性能(在单分类器)的集合体。影响整体的效率的一个重要因素是基分类器之间的差异(46- - - - - -48]。乐团的多样性是指不同的错误由不同的基分类器的数据记录。为了产生不同的分类器,研究人员使用两种类型的方法:(1)隐式的;(2)显式的(47,49]。隐式方法不涉及任何直接的多样性而显式方法。Kuncheva和惠特克50)提出了不同的指标来衡量的多样性。多样性在合唱团可以通过使用不同的假设空间中(1)起点;(2)设定的假设;(3)假设空间的遍历(47]。一般的观察整体建设是将多个不同的分类器。

通过人工智能技术和性能增强的好处通过使用整体方法(指节2),基于ai乐团已经成功地应用于提高分类器的性能在许多领域(例如,金融51]),生物信息学52)、医药(53),信息安全(28,33,54)信息检索(55),等等,许多研究人员报告,集合体通常比个人最好的基分类器(5,33,47,51,56- - - - - -58]。他们提出了不同的概念来描述改进性能,降低泛化误差,乐团在不同领域的成功应用单个分类器。例如,Allwein et al。59]解释框架的改进的性能大边缘分类器,jonkleinberg随机歧视理论的引用(60条件的,Breiman偏见方差分析(61年]。

尽管许多研究在基于ai乐团,许多研究问题仍然没有答案,例如,有多少基分类器应该结合,应该如何结合基分类器,如何生成多样化的基分类器,应该如何分区实例的训练数据集生成基分类器,应该如何划分特征空间,特别是ID质量训练数据集,等等。

4所示。分类

整体学习过程有三个阶段:(1)合奏一代;(2)系综选择;(3)整体集成。合奏一代同质如果相同的感应算法用于生成的所有分类器集合,否则被认为是异类。在合奏生成阶段,生成不同的基分类器。这可以通过使用(1)不同初始化参数的基分类器;或(2)不同的特征空间的子集(功能);或(3)不同的数据子集(数据层)分类器训练基地。系综选择需要选择池不同的基分类器的分类器。这里可以利用不同的方法结合的基分类器获得的整体生成阶段:(1)将所有的基分类器;(2)根据聚类合并较小的子集;(3)结合减少集的基分类器对性能(即超过特定阈值。、过度生产和选择策略)(33]。整体集成涉及的组合预测的基本分类器集合中选择选择阶段。它可以使用两种不同的方法:(1)组合(也称为融合);或(2)选择46]。组合方法在于预测得到的不同的组合分类器的合奏获得最终的预测。选择方法,特别是它的动态形式,选择一个(或多个)分类器的合奏根据这些分类器的预测性能类似的数据验证集。整体集成阶段涉及许多策略结合多个预测,因为这些策略性能变化时应对不同的问题。根据灵丹妙药定理分类器组合,总有一种情况,在某些假设,结合战略给了非常糟糕的业绩(62年]。这证明没有一个完美的组合策略,也不是一般优于对方。这句话可以作为理论指导恶意用户干扰或规避系统,一旦组合战略实施是已知的。

简而言之,我们可能有不同的特性集,不同的训练集,不同的分类方法,或不同的培训课程,所有导致一组分类器,其输出可以结合,希望提高整体分类性能(26]。如果这组分类器是固定的,这个问题关注的是整体集成阶段。也可以使用一个固定的组合器和优化组输入分类器;问题集中在生成和选择阶段。

保持视图,乐团的声望和成功的应用在不同的领域,提出了各种方法在文献中创建集合体。研究者提出不同的分类法分类集合体。乐团不断进化的研究以来,没有现有的分类法,乐团的方方面面。重要分类的文献综述如下。

耆那教等。26)不同组合分类器组合方案为三个主要类别根据其架构:(1)平行;(2)级联(或串行组合);(3)层次结构(树)。在并行体系结构中,所有的个体分类器单独调用,然后他们的结果是结合合路器。大多数组合方案的文献属于这一类。在封闭的并行变异,选择单个分类器的输出或加权控制设备之前的总和。在级联结构,调用单个分类器在一个线性序列。可能的类的数目对于一个给定的模式正逐渐减少更多的序列中的分类器被调用。为了效率,不准确但廉价的分类器(低计算和测量要求)被认为是第一,其次是更精确的和昂贵的分类器。在分层架构中,单个分类器组合成一个结构,类似于一个决策树分类器。 The tree nodes, however, may now be associated with complex classifiers demanding a large number of features. The advantage of this architecture is the high efficiency and flexibility exploiting the discriminant power of different types of features. Using these three basic architectures, we can build even more complicated classifier combination systems. He listed eighteen different methods for classifier combination and divided them into different categories according to their trainability, adaptivity, and requirement on the output of individual classifiers. The combination methods include (1) voting; (2) sum, mean, median; (3) product, min, max; (4) generalized ensemble; (5) adaptive weighting; (6) stacking; (7) Borda count; (8) logistic regression; (9) class set reduction; (10) Dempster Shafer; (11) fuzzy integral; (12) mixture of local experts (MLE); (13) hierarchical MLE; (14) associative switch; (15) bagging; (16) boosting; (17) random space; (18) neural tree.

Sharkey [63年)提出了一个三维的分类,包括(1)选择或多个基本分类器的组合;乐团成员可以竞争或合作:在竞争模式下,选择一个单一的成员提供最终的预测而在合作模式中所有成员的预测相结合;(2)方法还是基于基分类器输出的直接结合;可以有自顶向下或自底向上的乐团,在自上而下的模式下,结合的方法不是基于个人的预测,而自下而上的技术考虑预测的成员在他们的组合方法,自底向上的方法是进一步分为两种方法,即固定的方法(例如,投票)和动态方法(例如,叠加);(3)方法基于纯集合体或模块化系统。纯系综系统结合一组分类器,每个解决相同的原始任务。另一方面,模块化系统的目的是将一个复杂的问题分解成几个子问题,以便每个学习算法解决了一个不同的任务或由不同的训练集训练。提出的分类夏基(63年]进一步延长Rokach [64年]。他提出分类根据组合器使用情况,分类器的依赖,多样性,整体大小和整体方法的功能应用与不同的学习算法基础。

Kuncheva [46)提出了一个基本分类产生不同的分类器。她提出,可以生成不同的分类器通过使用各种方法在四个不同的层次,即(1)结合水平;(2)分类器水平;(3)功能水平;(4)数据的水平。在组合层面,她强调积累多个分类器的组合规则,区分融合方法,结合基分类器的输出和选择方法,由单个分类器组可用的基分类器之间的选择。分类器的水平可能会考虑不同的模型和可能为特定的系综方法设计基础的学习者。在第三个层面,不同子集的特性可用于分类器。最后,不同的数据子集,集合中的每个基分类器训练自己的数据,可用于建立学习机器的委员会。她还建议有两种类型的方法开发集合体。(1)决策优化:它是指方法选择和优化组合器固定合奏的基分类器。这个方法对应级别(如上所述水平组合),(2)覆盖优化:它指的方法来创建不同的基分类器假设一个固定的组合器。该方法对应于水平B, C, D。

研究人员还提出,可训练的和nontrainable集合体。可训练的乐团需要额外的培训来创建合奏(基分类器训练期间或之后所有的基分类器训练)(33]。另一方面,nontrainable乐团不需要训练基分类器诱导后(55,65年]。

威滕和弗兰克(66年提供四种方法来生成多个模型:(1)装袋;(2)提高;(3)叠加;(4)纠错代码。

主教(67年]提出五个个体分类器相结合的方法。贝叶斯模型平均方法、委员会、提高,基于树模型和条件混合模型。推动进一步分为两种类型:(1)最小化误差指数;(2)提高误差函数。

Marsland [68年)建议增加、装袋和专家法的混合方法的集合体。

Alpaydin [69年)提出了七个多学习算法相结合的方法:(1)投票;(2)纠错输出编码;(3)装袋;(4)提高;(5)混合物的专家(6)堆放泛化;(7)级联。

Langin和拉希米31日)提出了三种不同的策略,结合基分类器,即(1)连续组合:一个连续组合使用方法,第一个,然后下一个;(2)整体组合:一个组合方法并行运行了一个额外的方法结束时提供了一个输出多个潜在的输出;(3)混合组合:一个混合的组合是两个不同的父母的产物这意味着某种形式的交互,而不是连续或平行。混合策略可以循环多次来回之间方法或在另一种方法可以嵌入一个方法。

在这项研究中,我们采用了Kuncheva提出的分类(46)和其他方面借鉴Jain et al。26]。采用这种分类法的基本原因是它的简单性,受欢迎程度,它涵盖了基本方面为构建多样化的基分类器。作者强调,不同的分类器可以通过使用不同的方法生成四个水平。水平如下。

4.1。组合水平

这个水平整体学习过程的关注整体集成阶段。这里,基本分类器的预测以某种方式结合,提高整体的性能。研究人员提出,在结合分类器有三个主要方法,即融合、选择、和混合专家系统(33]。在分类器融合,每个乐团成员应该整个特征空间的知识。在这里,每个成员都是由相同的训练数据集所有功能。合奏来确定最终的预测,组合器应用一些方法结合乐团成员在特定的预测方法得到最终的整体预测,例如,平均或多数投票(最受欢迎的)方法。在分类器的选择,每个乐团成员都应该知道一个特征空间的一部分,负责对象在这部分。这里,每个成员都是由不同的训练数据集。整体是由一个分类器的输出。

简而言之,融合基于组合方法将所有的基分类器的输出,而选择基于组合方法尽量选择最好的分类器中设置可用的基分类器。融合策略通常属于覆盖优化,而选择策略属于决策优化(33,46]。

以下4.4.1。Fusion-Based组合方法

这些方法结合基分类器的预测来确定整体预测。文学的主要方法提出如下所述。(我)多数表决的方法。在多数投票合奏,每个基分类器投票支持特定的类和类收集多数投票预计合奏最后预测(70年- - - - - -72年]。(2)阈值多数投票方法。该方法进一步推广提出的多数投票方法徐et al。73年]。这种方法是通过对选票的数量来选择一个阈值,我们可以从一个一致投票规则,由一个类,如果所有的基分类器选择同意特定类标签,为中级水平的情况下被认为是通过移动阈值的选票,一些可能的非保密费用的实例。(3)朴素贝叶斯决策方法:该方法假定分类器之间的条件独立。方法选择最高的类通过估计后验概率计算类条件概率和贝叶斯定理74年,75年]。(iv)模糊理论的方法。许多研究人员提出了模糊集理论结合基分类器使用模糊聚合连接词来确定整体预测(76年,77年]。模糊组合方法是有效的,因为他们测量每个子集的分类器的强度。从而确定任何未分类实例的类是合奏的决定基于每一个子集的能力基于分类器(50]。(v)决策模板法。决策模板的主要概念是比较典型的回答合奏的预测给定实例的类。可以使用不同的相似性度量方法来评估分类器输出和矩阵的矩阵之间的匹配模板。该方法可以应用于组合多个分类器的预测来确定整体预测(78年]。(vi)Metalearning方法。合路器的方法采用二级融合基分类器的预测来确定最后的整体预测,例如,叠加。叠加,基分类器的预测是一个中间组合器进行训练的组合预测的基分类器(79年]。metalearning方法的另一个例子是使用一个仲裁者或组合器完成递归在一个等级制度结构化输入空间的基础上,预测了基分类器。这种方法的目的是提供一种分类当基分类器不同意(仲裁者树)或结合的预测基本分类器通过学习他们的关系与正确的类标签(合路器树)80年,81年]。(七)分层结构化方法。方法一般表现为两个步骤的方法:首先,在课程的学习为一组独立的分类问题;第二,在预测的组合利用类之间的关联描述层次结构。这些方法确保精度的增加对其他平面的方法,但这是实现在整个召回成本82年,83年]。(八)布尔组合(BC)方法。布尔函数特别是结合和分离或操作最近调查结合民国空间内的不同分类器的预测(2]。这些方法被证明提高性能。分类器的方法是基于假设条件独立,各自的中华民国是光滑的和适当的。Khreich et al。2)提出了一个迭代的布尔组合(IBC)方法有效融合来自多个分类器的预测。IBC有效利用所有布尔函数应用于ROC曲线和不需要先验假设条件独立的分类器或ROC曲线的凸性。

4.1.2。选取的组合方法

这些方法来选择最佳分类器之间的一组可用的基分类器。合奏的最终预测是选定的基分类器的预测或熔融基分类器的预测子集在提到的文本描述。为了设计选取系综分类器,独立基础分类器及其能力必须决定特定的输入和选择方法(46]。重要的方法提出了在以下部分中描述的文学。(我)测试和选择方法。该方法描述了一个贪婪的方法添加一个新分类器集合,如果它减少了平方误差(71年]。该方法可以通过不同的优化方法和遗传算法辅助(84年]。(2)级联分类器的方法。在这种方法中,不同的基分类器采用顺序不保密的实例和信心的第一个分类器记录水平。如果其水平足够高,那么它的预测是合奏最终的预测。否则预测下一个可用的基分类器是必需的。这个过程是递归重复(85年]。(3)动态分类器选择方法。这种方法测量每个基分类器的能力来确定系综分类器的预测。基础能力的分类器可以利用先验信息确定动态基本分类器或通过后产生的信息的预测(86年,87年]。这种方法的局限性在于,基分类器的测量能力是计算昂贵。(iv)Clustering-Based选择方法。这种方法采用集群技术来搜索子集的基分类器对未分类的实例执行相似的预测。然后从每个集群的方法选择一个模型选择可用的基分类器的子集。这些方法也有助于提高整体的多样性(17,45,88年]。许多研究人员也使用这些方法来减少相关类似的假警报警报(18,88年]。采用这些方法分析假警报的根源17]。(v)统计选择方法。统计方法可以用来异构合奏。方法选择的基本分类器执行比其他人更好的性能。然后结合的方法选定的基分类器通过多数投票方法(前一节中描述)89年]。

4.1.3。混合专家系统

这种方法类似于系综选择的一般方法(90年]。在这种方法中,重组的基本分类器是由一个主管分类器。监督分类器选择最合适的乐团成员的基础上可用的输入数据。两个额外的组件是包含在专家模式的混合:(1)控制网络;(2)选择器。控制网络接收相同的输入向量的系综分类器,但它的功能是为每个分类器如何计算概率主管对给定的输入进行分类。这些概率,伴随着每一个分类器的预测,通过选择器,然后确定最终的输出。可以使用这些概率随机选择专家,或选择专家根据“赢者通吃”的范式,或者作为权重结合多个基本分类器的输出(33,46]。

讨论。不同的方法引用在上面部分可以概括在表1。融合是单一的和流行的方法结合不同的基分类器。这种方法假设所有的基分类器都是一样的但实际上它可能不是真实的重要性,而在选择方法,一般来说,只有一个分类器选择标签未分类的实例。因此要求系综分类器选择方法是进一步训练获得机制决定应该选择哪一个基分类器标签给定的非保密实例(33])。选择保证了设计给至少相同的训练精度最好的个体分类器。然而,该模型可能训练过度,看似低的训练误差。为了防止过度训练,我们可以使用置信区间和提名一个标识符只有当它比其他人更好46]。


优化级别	整体学习阶段	整体水平	策略采用	方法采用

决策优化	整体集成	组合水平	融合	多数表决方法(70年- - - - - -72年]
				阈值多数投票方法(73年]
				朴素贝叶斯方法(74年,75年]
				模糊理论方法(76年,77年]
				决策模板法(78年]
				Metalearning方法(79年]
				分层次结构化方法(82年,83年]
				布尔组合方法(2]
			选择	测试和选择方法(71年]
				级联分类器方法(85年]
				动态分类器选择方法(86年,87年]
				Clustering-based选择方法(17,45,88年,91年]
				统计选择方法(89年]
			混合专家系统	随机选择方法(46]
				“赢者通吃”的方法(46]
				加权法(46]

覆盖优化	系综选择	分类器的水平	同质	Clustering-based选择方法(17,45,88年,91年]
				基于阈值的选择方法(86年]
			异构	- - - - - -
	合奏一代	功能水平	特征选择/减少	随机子空间法(46]
				输入大量毁灭方法(90年]
				遗传算法(92年]
				马尔科夫毯BN (28]
				主成分分析(93年]
				信息理论(16]
		数据级别	重采样	装袋(61年]
				摇(94年]
				随机森林(95年]
				提高(96年]
				叠加(79年]
			输出代码的方法	每一个类(OPC) (97年]
				成对耦合(98年]
				纠正分类器(99年]
				成对耦合修正分类器(99年]
				纠错输出编码(One hundred.]
				数据驱动ECOC [101年]

4.2。分类器的水平

这个级别的重点是合奏的选择阶段的整体学习过程。它决定了基分类器是用来构成了整体预测。许多研究者研究了基分类器的组合在这个级别非常有利尤其是ID (23,28- - - - - -30.,32- - - - - -44]。由于事实,支持不同的基分类器执行不同在不同类别的入侵(如DoS、探针、U2R R2L,等等)。基分类器的选择可能从池中完成分类器的训练使用不同的感应算法(称为异构集合体)或相同的感应算法(称为齐次集合体)。许多研究员生成合奏通过选择不同种类的基分类器(23,24,27- - - - - -29日,36]。例如,Mukkamalla et al。27]研究了支持向量机,ann(人工神经网络),lgp(线性遗传程序),和火星(多元自适应回归样条函数)的分类数据集KDD分为五类。这些分类器在别人获得了更好的性能检测不同类型的入侵检测的准确性,攻击严重性,训练和测试时间(伸缩性)。作者报道,分类器组合可以提高系统的性能。类似的方法multiclassifier系统由萨博还主张,Serpen [23)通过结合三个不同的机器学习技术,即一个安,k - means聚类和高斯分类器。然而,他们不提供进一步的实现细节训练分类器,也不需要考虑确定的输出。然而,他们证明了分类器组合方法提高了分类速度。许多技术生成的均匀基分类器,例如,遗传算法。尽管在乐团,合并后的知识是很重要的,它的计算非常昂贵的结合从整个人口大量的分类器33]。因此,有效的选择和较小的基分类器的组合有助于减少计算开销没有显著损失性能。较小的子集的分类器可以选择根据聚类(91年]或通过选择性能超过特定阈值的分类器。然而,在一般的文献分类器组合,可以看出没有证据支持使用相同类型或不同类型的基分类器(33,46]。

4.3。功能水平

这个层次关注乐团合奏的生成阶段学习过程。这里,池的分类器是由使用不同的特征子集的数据集分类器的训练基地。基本原因这个水平是提高整体的计算效率和提高精度46]。通过减少基分类器的输入特征的数量,我们可以差距古典诅咒的影响维度描述高维稀疏数据的问题[102年]。许多特征选择技术提出了系综分类器在文献中可以进一步研究[15,16,103年]。

4.4。数据级别

这个层次关注乐团合奏的生成阶段学习过程。在这里,使用不同的数据子集分类器训练的基地。这个水平决定哪些数据子集用于每个基分类器训练。最流行的搭配方法在文献中提出并实现了利用数据的水平。这些方法用于生成不同的训练集和学习算法,可应用于获得的数据子集,以便产生多个假设。提出了各种方法在文学如下所述。(我)装袋。装袋(引导聚合)最初提出的Breiman [61年]。该方法依赖于不稳定的基分类器。基分类器的不稳定性是指对基分类器的配置和/或训练数据。装袋创建单个分类器的合奏训练每个分类器对训练数据集的随机分配。每个分类器的训练集是由随机图,与更换,N的例子是最初的训练数据集的大小;许多原始的例子可能会重复在生成的训练集而其他可能被排除在外。总体中的每个个体分类器生成具有不同训练集的随机抽样。最终预测的整体是由融合不同的个人基分类器的预测。一般的融合预测采用多数表决方法执行。然而,这并不总是可能由于数据集的大小。因此,不同的训练子集是采样替换(引导复制)从原始训练集装袋工作。如果分类器的预测基本分类器是独立和分类器有同一个人的准确性,然后上的多数投票是保证提高个人绩效(46]。(2)摇。摇的方法是一个变体装袋。该方法基于非均匀概率从训练数据集提取实例(94年]。在装袋时每个实例绘制有相等的概率从可用的训练数据集,在摇提取每个实例根据体重随机分配。(3)随机森林(RF)。这个方法是一个版本的装袋组成的决策树(DTs) (95年]。就像装袋,每个DT不同随机抽样数据集上训练,或通过抽样特性集,或两者兼而有之。多数投票预测相结合。射频的性能与演算法,但更健壮的噪声(57,95年]。(iv)提高。提高(96年)是流行meta-algorithm生成合奏(33]。这meta-algorithm可以被视为一种模型平均方法和学习的一个最强大的思想引入在过去二十年(104年]。在这种方法中,乐团填充一个分类器。每个分类器训练选择性数据从原始数据集的子集。第一基本分类器选择一致的数据。抽样分布连续分类器,不断更新,这样更困难的实例分类通常选择那些容易分类。这种方法最重视最常被误诊的例子前面的基分类器。以这种方式基本分类器集中在最困难的情况下。然后提高算法结合了基本规则的加权多数投票的基分类器是基于分类的准确性(46]。

主要区别在装袋和提高在装袋,重采样的训练集不依赖于早期的分类器的性能,而提高试图产生新的分类器,能更好地预测实例的当前整体的性能很差。(v)叠加。这(也称为堆叠泛化)是一种结合多个分类器使用的概念metalearner [79年]。与装袋和促进,堆积可能是利用不同类型的分类器结合起来。该方法包括以下步骤:(1)将训练数据集分成两个不相交的子集;(2)火车多个基本分类器在第一部分;(3)测试分类器基于第二部分;(4)使用预测从步骤(3)作为输入,输出和正确的反应,一个更高的层次分类器训练。注意,步骤(1)(3)是一样的交叉验证,而是使用“赢者通吃”的方法,基础学习者结合,可能非线性。(vi)输出代码的方法。输出代码方法通过操纵类编码的多类分类问题。这里乐团旨在部分纠正错误执行的基本分类器利用冗余比特串表示的类(25,105年]。更正确,输出编码(OC)方法分解多类问题一组两级子问题,然后重新组合原有问题结合他们实现类标签。同等的方式来思考这些方法包含在每个类编码比特串(名为码字),在训练中不同的两种基本分类器单独为了学习每个码字。当应用分类器分类新的点,一个合适的码字之间的不同测量计算合奏和码字类用于预测类(例如,汉明距离)One hundred.]。各种分解方案已经在文献中提出:在one-per-class (OPC)分解97年),(普华永道)分解成对耦合98年),纠正分类器(CC)和成对耦合修正分类器(PWC-CC) [99年]。纠错输出编码(ECOC) [One hundred.),和数据驱动ECOC [101年]。(七)三驾马车。米拿现提出的三驾马车是一个改善叠加et al。106年]。该方法包括三个阶段结合分类器。在第一阶段,它结合了所有的基分类器使用专家分类器有两个模型。第二阶段包含k metaclassifiers用于学习的预测特征专家分类器。每个metaclassifier只负责一个类,将所有的专家分类器能够将自己的特定类。第三阶段只包含一个分类器:超级分类器。这个阶段的目标是生产三驾马车的最终预测。超级分类器的输入输出产生的metaclassifiers从之前的阶段。在训练阶段,超级分类器学习的条件,使一个或多个metaclassifiers预测正确或错误。超级分类器的输出向量的概率(一个值为每个类)形成三驾马车整体方案的最终决定。 The authors reported superior performance of Troika over other stacking methods.

讨论。哪个更好装袋或增加?许多研究人员比较了两种方法包括一些大型实验(56,57,107年,108年]。一般的同意是提高达到较低的测试误差。提高方法一直被誉为最精确的可用现成的分类器在多种数据集(107年]。但是,可以看出提高方法对噪声敏感和离群值,特别是对于小数据集(46,56,107年]。装袋与嘈杂的数据是有效的在嘈杂的数据而提高对噪声非常敏感(57]。包装方法的另一个好处是,他们在本质上是平行的训练和分类阶段,而提高方法在本质上是连续的(33]。

乐团总结在表的详细信息1。

5。基于人工智能的集合体ID

许多研究人员采用基于ai乐团和混合的方法来提高性能的id。重点是分类器的组合和关联的警报警报,以减少网络安全管理员(3]。组合分类器包括发展的整体生成和选择阶段的学习,而整体集成阶段涉及的组合不同的多个分类器的预测。在下面的文章中,我们提出了重要的基于ai集合体的研究在过去的十年中,相比他们提出的各种评价指标。

Giacinto和Roli45]提出的方法基于多分类器系统的ID。该方法是基于人类专家使用的动机不同的特性来检测不同类型的攻击。生成不同的神经网络分类器的训练他们使用不同的功能KDD cup 99数据集的子集,即内在,内容,和交通特性。训练分类器融合在一起的预测产生的最终预测整体使用方法如多数投票规则,平均法则,信念函数。他们发现,这些多策略技术,尤其是信仰功能,表现好于单独所有三个神经网络。整体性能也相当于或优于单个神经网络训练在整个特征集;然而,单一神经网络并更好地识别前所未有的攻击。类似的实验也由Didaci et al。22]。

萨博和Serpen23)提出了一个multi-classifier方法来检测入侵。他们利用不同分类器,即一个安,k - means聚类和高斯分类器分类使用数据集KDD 1999不同种类的入侵。多个分类器生成的训练训练数据集的所有特征。获得最高精度不同类别的分类器使用入侵检测相应类别的入侵。他们报告说,分类器组合结果的改善分类性能。他们报告说,检测概率为88.7%,97.3%,29.8%,9.6%和0.4%的误警率调查,DoS, U2R, 0.1%, R2L攻击类,分别。

Chebrolu et al。28)提出了一个混合的方法来检测入侵。他们利用贝叶斯网络(bn)和分类和回归树(车)和他们的整体生成混合系统。他们经验证明车正常表现最好,探针,U2R和R2L和DoS的合奏的方法效果最好。生成异构合奏的个体分类器训练减少KDD cup 99数据集。合奏的方法,最终的输出决定如下:每个分类器的输出给出重量(0 - 1)规模取决于泛化精度。如果两个分类器同意然后输出相应的决定。如果有一个冲突的决策分类器最高的体重是考虑。通过使用混合方法,作者报道,正常,探测器和DOS可以检测到100%的准确率和U2R R2L精度为84%和99.47%,分别。

亚伯拉罕和托马斯(43)提出一个DT、支持向量机和DT组成的混合动力系统和支持向量机。生成的分类器是KDD99数据集上使用培训。他们在实验,观察不同的模型提供了互补的信息模式分类。合奏的最终预测计算基于得分最高的基分类器。分类器计算的分数权重分配根据培训和个人的预测性能。因此,对于一个特定的实例分类如果他们有不同的意见,然后他们的分数。分类器有得分最高的是声明为赢家,用来预测最终的输出的合奏。他们报告检测探针攻击类的100%,99.92%,68%,和97.16%的检测DoS, U2R和R2L攻击类,分别使用集合的方法。

克鲁格尔et al。109年)提出了一个multimodel方法,使用许多不同的异常检测技术(贝叶斯技术)来检测攻击web服务器和基于web的应用程序。multimodels有助于减少漏洞的检测过程对模仿攻击。系统的工作原理,通过分析客户端服务器端程序查询参考。不同的模型是由使用各种不同功能的客户端查询。系统自动获取相关参数配置文件的web应用程序(例如,长度和结构参数)和查询之间的关系(例如,访问时间和序列)的分析数据。系统需要输入web服务器日志文件,符合通用的日志格式(CLF)和生产异常分数为每个web请求。一个模型的任务是分配概率值查询作为一个整体或查询的属性之一。这种概率值反映了给定的发生的概率特征值对于一个建立档案。基于该模型输出、查询报告为一个潜在的攻击或正常。达到这一决定通过计算大量的异常分数:一个用于查询本身,一个为每个属性。 A query is reported as anomalous if at least one of these anomaly scores is above the corresponding detection threshold. The anomaly score is calculated using a weighted sum of model’s output and its probability value. The system was tested on data gathered at Google, Inc. and two universities in USA and Europe, showing promising results. However, they used anomaly detection technique (Bayesian technique) to model attribute inputs without taking into account typical semantic differences between classes of characters (alphabetic, numeric, and non-alphanumeric), which usually determine their meaning. Moreover, the authors definitely did not exploit the power of such a model, because they rounded every nonzero probability value to one. Finally, they assumed that the training set is without attacks, by filtering it with a signature-based IDS, in order to throw out at least known attacks.

类似的方法也提出了电晕et al。110年]。在这里,作者解决问题与噪声的存在(即有关。,attacks) in the training set. The proposed model composed of a set of (independent) application-specific modules. Each module, composed by multiple HMM ensembles, is trained using queries on a specific web application and, during the operational phase, outputs a probability value for each query on this web application. Furthermore, a decision module classifies the query as suspicious (a possible attack) or legitimate, applying a threshold to this probability value. Thresholds are fixed independently for each application-specific module.

Perdisci et al。88年)提出了一个clustering-based融合模块结合多个警报,帮助减少由IDSs的警报数量。生产meta-alarms为系统管理员提供一个简洁的高层次描述攻击。他们建议分配不同的预定义组攻击类的警报,称为meta-alarms。存在许多定义评估警报和meta-alarm之间的相似性。事实上,警报和meta-alarm之间的距离定义它们之间的相关性,在将应用程序定义为距离的函数功能描述每个提出警报。

黄等。42)提出了一个三层混合方法来检测入侵。第一层的系统是一个基于签名的方法使用黑名单过滤已知攻击的概念。二线系统是异常探测器,使用白名单的概念区分正常和攻击流量,通过第一层。第三层组件系统使用SVM分类未知的攻击流量分为五类,即正常,探测器,DoS, U2R和R2L。知识发现(KDD)数据集被用来训练和测试系统。他们声称94.71%的检测精度3.8%的误警率的旧的和新的攻击。

陈等人。41)提出了一个混合灵活neural-tree-based id基于柔性神经树,进化算法和粒子群优化(PSO)。他们专注于改善通过减少输入ID性能特性和基分类器相结合的混合方法。生成的分类器是通过使用不同的训练数据集的特征子集。他们经验证明了该方法的结果是改善。他们做实验用41知识发现(KDD)数据集的特性和12个特征。他们报道的98.39%、98.75%、99.70%和99.09%的检测探头,DoS, U2R和R2L攻击类使用数据集KDD的41个特征。

汗等。40)提出了一个混合的SVM和集群减少训练时间。层次聚类算法建立边界点从事最好单独的两个类的数据。这些边界点是用来训练支持向量机。这是一个迭代过程,支持向量机的训练在每一个新的水平集群节点的树正在建造中。迭代,支持向量计算和测试支持向量机停止准则来确定精度已经达到一个理想的阈值。否则,迭代过程仍在继续。作者报告了91%、97%、23%和43%的检测探头,DoS, U2R和R2L攻击类。

Toosi和Kahani39IDS)提出利用neurofuzzy分类器分类数据集KDD cup 99分为五类,即正常,探测器,DoS, U2R和R2L。该系统包括两层。在第一层,有五个简称ANFIS训练模块,探讨侵入活动从输入数据。每个简称ANFIS模块属于一个类的数据集提供一个指定输出数据的程度的相对论的具体类。第二,模糊推理模块,采用基于经验知识,进行识别的最终决定。模糊推理模块实现非线性映射的输出neurofuzzy透水层的分类器的最终输出空间指定输入数据是否正常或侵入。遗传算法用于优化neurofuzzy引擎的结构。耗费时间的系统可能是一个大问题。作者报告了84.1%、99.5%、14.1%和31.5%的检测探头,DoS, U2R和R2L攻击类。

燕和郝111年)提出了合奏ID基于改进神经网络的分公司(改善NSGA-II)。他们使用改进的莫卡选择相关的特征数据集的子集。选定的特征子集用于列车准确、多样的基分类器。最终乐团是由使用集合选择方法。他们报道改进ID的检出率和假阳性率在其他相关方法。作者报告了98.96%、99.98%、99.95%和98.51%的检测探头,DoS, U2R,和R2L攻击类为0.38%,0.03%,0.11%,和8.91%的假阳性率,分别。

香等。36)提出了一种分层混合系统涉及的多层次混合分类器,它结合了监督决策树分类器和无监督贝叶斯集群来检测入侵。它能够实现更高的真阳性比之前报道的文献中最初的KDD Cup 99数据集的训练集和测试集。然而,这是为代价较高的假阳性率。

胡锦涛et al。(112年建议一个演算法整体反过来使用决定树桩作为基分类器。他们分别利用连续和分类功能没有任何强制转换。该系统使用KDD cup 99数据集评估。他们报道90.04% -90.88%的检测率和误警率的0.31% - -1.79%。该系统受到限制的增量学习。它需要持续变化的环境的再培训。

Cretu et al。113年)提出了一个micromodel-based合奏异常传感器清洁的培训数据。在这里,不同的模型生成生产临时标签为每个训练输入,和模型结合投票方案来确定哪些地区的训练数据可能代表攻击。模型的训练,分区原来的训练数据集。

。et al。35]提出异构合奏的线性遗传规划(LGP),自适应神经模糊推理系统(简称ANFIS)和随机森林(RF)生成ID。基分类器通过使用数据集KDD cup 99职业专用的特性。他们利用rough-discrete粒子群优化(Rough-BPSO)为特定的类选择重要的特性。最终的整体预测基分类器的加权投票。他们经验证明通过分配适当的权重分类器在合奏的方法提高了检测的准确性所有类的网络流量比单个分类器。

米拿现et al。106年]提出metalearning-based方法。他们利用多个分类器,并试图利用自己的长处。他们使用C4.5决策树(114年],朴素贝叶斯[115年基于事例),聚类(116年],VFI-voting特性区间[34),和猛烈的一击117年]在5恶意软件数据集分类器作为基分类器。每个分类器属于不同分类器的家庭。他们提出的原始数据集分割成两个子集。第一个子集保留形成metadataset第二子集是用于构建基本级别的分类器。这个分类器(Metaclassifier)结合了不同的预测到最后一个。他们提高了分类器的性能通过使用三驾马车106年)在其他叠加的方法。三驾马车结合基分类器的三个阶段:专家级别,metaclassifiers,超级分类器。为了达成整体执行最好的多个数据集,他们跟着过程提出了118年]。

王等人。32)提出了一个方法,称为FC-ANN,安和模糊聚类的基础上,解决问题和帮助IDS实现更高的检测率,降低假阳性率,更强的稳定性。他们使用模糊聚类技术来生成不同的同类培训来自不同训练集的子集,这是进一步利用ANN模型作为基础模型。最后,metalearner,模糊聚合模块,用来汇总这些结果。他们报道的改进建议的方法对摘要和其他知名的方法如决策树和朴素贝叶斯的检测精度和检测的稳定性。

Khreich et al。2)提出了一个迭代的布尔组合(IBC)技术的高效融合反应从任何脆或软检测器对准固定大小的数据集在中华民国空间。该技术适用于所有布尔函数结合ROC曲线对应多个分类器。它不需要先验假设,其时间复杂度是线性分类器的数量。摘要生成模型作为基分类器训练他们使用不同数量的HMM状态和随机初始化。他们应用多个嗯数据集和最终的预测计算利用所有布尔函数应用于ROC曲线。在每个迭代中,提出技术选择的组合提高中华民国与原ROC曲线凸包和重组他们直到中华民国凸包不再提高。计算机模拟的结果进行合成(新系统调用的入侵检测数据集)和实际的基于主机的入侵检测数据表明,IBC的反应来自多个摘要可以实现更高水平的性能比布尔结合和分离组合,特别是当训练数据是有限的和不平衡。然而,IBC不允许有效地适应融合函数随着时间的推移,当新数据可用时,因为它需要一个固定数量的分类器。IBC技术进一步提高增量的布尔组合(incrBC)的作者(119年]。incrBC是ROC-based系统有效地适应合奏嗯(EoHMMs)随着时间的推移,新的训练数据,根据learn-and-combine没有多个迭代的方法。鉴于新的训练数据,生成一个新的摘要池新获得的数据使用不同的HMM状态和初始化。这些新培训的摘要的反应然后结合以前训练的摘要在民国空间使用增量的布尔组合(incrBC)技术。

戈文达拉扬和Chandrasekaran30.]介绍了混合架构的多层感知器和径向基函数和他们的合奏ID。不同的乐团成员被训练从减少数据集生成。最终的输出决定如下:每个分类器的输出给出重量(0 - 1)规模取决于泛化性能在训练过程中。如果两个分类器同意然后输出相应的决定。如果有一个冲突的决策分类器最高的体重是考虑。结果显示该方法的性能优于单一的使用基础上,分类方法。另外已经发现的多层感知器优于径向基函数分类器的整体正常行为和异常行为的情况则是完全相反的。他们报告说,该方法提供了重要的改进预测精度的ID。

穆达et al。120年提出了一种结合聚类和分类的方法。集群是由使用k - means算法形式类似的数据组在早期阶段。接下来,在第二阶段,集中攻击类别分类的数据使用朴素贝叶斯分类器。他们报道的更好的性能提出了混合方法在单一朴素贝叶斯分类器在数据集KDD 1999。但该方法受到限制,无法检测到类似的攻击如U2R和R2L。

这些相关的研究可以比较遵循一套评价指标来源于:(1)体系结构和方法之后;(2)不同的方法利用集成学习的不同阶段;(3)其他措施用来评估分类性能表中描述的集合体2。系统可以并行的体系结构,级联,或等级35),可以组合分类器的合奏或hybrid-combining方法。水平,整体水平是指不同层次(组合分类器,功能水平,或数据水平提出了(46])中使用不同的整体学习阶段(合奏一代、系综选择和整体集成)。基分类器之间的差异可以通过隐式或显式测量方法(47,49]。为了评估性能,不同的性能指标可以计算基于基准测试数据集。


研究	体系结构	结合的方法	整体学习阶段和整体水平			方法结合使用	度规	数据集	多样性	基分类器
研究	体系结构	结合的方法	一代	选择	集成			数据集	多样性	基分类器

Giacinto和Roli45]	平行	系综	功能水平	- - - - - -	融合	多数表决,平均法则,信仰的功能	错误率,玻璃钢,成本	知识发现(KDD) 99	隐式的	神经网络
萨博和Serpen23]	- - - - - -	混合动力	- - - - - -	分类器的水平	- - - - - -	Multi-classifiers方法	博士,玻璃钢	知识发现(KDD) 99	- - - - - -	神经网络,公里,GC
Chebrolu et al。28]	平行	系综	- - - - - -	分类器的水平	选择	加权法	CA	知识发现(KDD) 99	隐式的	BN,车
亚伯拉罕et al。43]	平行	系综	功能水平	分类器的水平	选择	加权法	CA	知识发现(KDD) 99	隐式的	DT,支持向量机
克鲁格尔et al。109年]	平行	系综	功能和数据级别	- - - - - -	融合	分数和概率方法	玻璃钢	现实世界的数据集	隐式的	BN
Perdisci et al。88年]	- - - - - -	系综	- - - - - -	- - - - - -	融合	聚类	- - - - - -	现实世界的数据集	- - - - - -	- - - - - -
黄等。42]	级联	混合动力	- - - - - -	- - - - - -	- - - - - -	连续组合	博士,玻璃钢	知识发现(KDD) 99	- - - - - -	支持向量机
陈等人。41]	分层	混合动力	功能水平	- - - - - -	- - - - - -	Multi-classifiers方法	博士,FNR,玻璃钢	知识发现(KDD) 99	- - - - - -	FNT
汗等。40]	级联	混合动力	- - - - - -	- - - - - -	- - - - - -	集群+分类	CA、培训时间、FP FN	知识发现(KDD) 99	- - - - - -	支持向量机、集群
Toosi和kahani39]	平行	系综	- - - - - -	分类器的水平	融合	模糊理论方法	CA,博士,玻璃钢,CPE	知识发现(KDD) 99	隐式的	神经网络,模糊逻辑
燕和郝111年]	平行	系综	功能水平	- - - - - -	选择	- - - - - -	博士,玻璃钢	知识发现(KDD) 99	隐式的	神经网络
香等。36]	级联	混合动力	数据级别	分类器的水平	- - - - - -	集群+分类	TP,《外交政策》	知识发现(KDD) 99	- - - - - -	DT,公元前
Cretu et al。113年]	平行	系综	数据级别	- - - - - -	融合	投票的方法	FP, TP	现实世界的数据	- - - - - -	回文构词法,Payl
胡锦涛et al。(112年]	平行	系综	功能水平	- - - - - -	- - - - - -	混合专家系统	博士,目前为止,计算时间	知识发现(KDD) 99	隐式的	DS
电晕et al。110年]	平行	系综	功能和数据级别	- - - - - -	融合	阈值概率方法	玻璃钢,博士	现实世界的数据集	隐式的	嗯
。et al。35]	平行	系综	功能水平	分类器的水平	融合	加权投票的方法	钙、TP、FP	知识发现(KDD) 99	隐式的	LGP,简称ANFIS,射频
米拿现et al。106年]	平行	系综	数据级别	分类器的水平	融合	元学习	CA, ROC曲线下的面积,培训时间	实时网络流量	隐式的	事例,DT, NB VFI,猛烈的一击
王等人。32]	平行	系综	数据级别	- - - - - -	融合	元学习	精度,回忆,F-measure	知识发现(KDD) 99	隐式的	神经网络、模糊逻辑、集群
Khreich et al。2]	平行	系综	- - - - - -	- - - - - -	融合	迭代的布尔组合方法	中华民国的空间	现实世界在野势力的数据集,数据集	隐式的	嗯
戈文达拉扬和Chandrasekaran30.]	平行	系综	数据级别	- - - - - -	融合	加权方法	CA	新墨西哥大学的免疫系统数据集	隐式的	延时,RBF
穆达et al。120年]	级联	混合动力	数据级别	- - - - - -	- - - - - -	集群+分类	CA,博士,玻璃钢	知识发现(KDD) 99	- - - - - -	公里,注

Abbreviations-NN:神经网络;公里:k - means聚类;GC:高斯分类器,BN:贝叶斯网络;购物车:分类和回归树;DT:决策树;支持向量机:支持向量机;FNT:模糊神经树;公元前:贝叶斯聚类;DS:决定树桩;LGP:线性遗传规划; ANFIS: adaptive neural fuzzy inference system; RF: random forest; NB: Naïve Bayes; K-NN: K-nearest neighbor; VFI: voting feature intervals; MLP: multilayer perceptron; RBF: radial basis function; HMM: hidden Markov model.

6。讨论

在过去的十年中,ID基于整体的方法被广泛研究的主题,能够满足日益增长的需求的可靠和聪明的ID。在我们看来,这些方法对入侵检测以不同的方式作出贡献。这些方法结合互补的多个分类器。他们用知识来迎接挑战的我想误警率高,检测精度低,和更好的性能在缺乏足够多的训练数据集质量。整体方法的结果被证明是比最好的分类器改进。研究人员关注异构同质的集合体。异构乐团利用不同分类器的特点提高单个分类器的结果。这是支持的事实,不同的基分类器执行不同在不同类别的入侵(如DoS、探针、U2R R2L,等等)(8]。不同分类器的性能变化对不同入侵可能所描述的两个方面。第一个方面是不同的设计分类器工作原理来优化不同的参数。例如,支持向量机基于统计理论的目的是最小化结构风险而安最小化经验风险的分类函数推导出通过最小化均方误差在训练数据集。第二个方面是对入侵的检测取决于特定的数据集的特点。但是,可用性不相关和冗余特性的影响检测分类器的性能。均质集合体关注不同功能的训练数据集和/或不同的训练子集和/或其他方法来生成不同的基分类器。应用基于ai的集合体透露,他们有优点和缺点。因此,合奏夫妇一起基分类器方法,他们相辅相成有利。由此产生的协同作用已被证明是一个有效的方法来构建具有改进的性能方面的检测准确性和假阳性率。可以看出成功就业的合奏ID取决于许多因素,包括训练数据集的大小,修改不同基分类器的训练数据集,选择准确、多样的基分类器,不同基分类器来检测入侵的能力,和水平的选择生成的基分类器,例如,组合,分类,功能,或数据的水平。 It may be concluded that by considering appropriate base classifiers, training sample size & combination method, the performance of hybrid classifier/ensemble can be improved.

我们比较相关的基于ai合奏研究ID的各种各样的方面如表所示2。大多数研究工作这里描述被训练和KDD cup 1999数据集上测试过。因为这些作品是评估在不同的环境中使用不同的训练集和测试数据集提取1999数据集KDD杯,这些研究报告不能进行批判性的分析基于这些结果。但是,很明显从结果部分中给出4所有研究没有对少数攻击类U2R和R2L攻击。原因可以是类不平衡在训练数据集或11只在这两个类攻击类型出现在测试数据集,而不是训练集,他们构成了超过50%的数据。然而,乐团使用多个分类器来提高性能的知识组合在这些少数类的攻击。但是,仍然有一个需要生成多样化的基分类器,表现良好在多数类和少数民族的攻击。许多研究人员提出了使用人群为基础的方法来生成不同的分类器。

尽管取得了一些可喜的成果,目前基于ai集合体ids,仍有挑战,未来的研究人员在这个领域。首先,高质量的基准数据集网络入侵检测是必要的。数据库知识发现(KDD) 99来自美国国防部高级研究计划局1998 & 1999数据集主要基准用来评估网络入侵检测系统的性能。然而,他们正遭受一个致命的缺点:没能逼真地模拟现实世界的网络(102年,121年]。这些数据集上的一个IDS训练和测试可能证明不可接受的性能在实际环境。为了验证id的评价结果在模拟数据集,必须开发一个方法来量化模拟和真实的相似性网络痕迹。KDD cup 1999数据集和其原始形式具有一些特殊的功能,如巨大的体积,高维度和高度倾斜的数据分布。相似的属性通常不出现在其他基准数据集,所以他们通常用于挑战和评估学习算法在监督和非监督模式。然而,这个数据集的目的也在批评[121年]。DARPA的主要批评是数据集包括违规行为,如不同的TTL攻击和正常的交通,所以,即使是一个基本的id可以达到一个很好的性能(121年)和KDD99训练和测试数据集有不同的目标假设U2R和R2L类(23]。因此,使用这些数据集是不足以揭示学习算法的效率。因此,需要开发新的和好的质量基准数据集IDS的现实的评估。在开发新的数据集,有效载荷和时间局部性信息标题信息可能被认为和有利于现实的评价id。

第二个挑战来解决基于ai合奏中大量的审计数据,很难建立有效的id。处理庞大的数据量增加计算开销,导致延迟检测入侵。入侵导致损失的检测延迟的实时能力的id。许多研究人员建议使用特征选择/还原技术(16,122年]。这些技术帮助去除不相关和冗余特性和确定合适的入侵检测功能。减少的特性减少了有效的审计数据量id。关注功能减少/选择技术强烈建议减少计算开销的集合体。一些研究人员提出使用一个分布式环境中每个节点分配一个数据集的一部分。一个用于熔断器或选择预测方法。

第三,id的一个重要特性是侵入的能力适应动态行为和正常流量。如果采用不足够灵活来应对行为变化,检测性能将明显下降。基于ai技术及其集合体可以帮助解决这个重要的问题,但仍然只有少数研究人员集中到目前为止。

大部分的方法探讨了整体学习过程的根。这个过程有三个阶段,即一代的基分类器,分类器的选择基本分类器,从选定的分类器和集成不同的预测。摘要清楚地表明,一些研究人员应用他们的知识来解决不同的问题在这些阶段进行入侵检测。但仍需要更加关注整体学习的每个阶段的问题。预计新发现,加深理解不同的技术适合不同阶段的整体学习ID问题将是未来工作的主题。

7所示。结论性的言论

基于ai技术及其集合体目前正吸引越来越多的关注从入侵检测的研究团体。他们的特性,如灵活性、适应性、新模式识别、容错、学习能力、运算速度高、噪声数据和错误恢复能力,建立有效的id的先决条件。整体方法模仿我们的第二天性做出一个重要决定之前寻找若干意见。评估的基本原则是几个单独的模式分类器,并将其集成以达到一个比一个分类分别通过他们每个人。

概述重点监督为入侵检测在过去十年中,提出基于ai合奏以来历史上这是第一个被研究并应用于多个应用程序域。更确切地说,本文的一般分类,区分决定和覆盖优化乐团,入侵检测的重要基于ai乐团在过去十年中被描述,提出考虑不同的方式监督基本分类器可以生成或结合在一起。

然而,基于分类器的实践表明,每个人都有其优点和缺点进行入侵检测。合奏有权将这些分类器的优势,这样他们的缺点将得到补偿,从而提供更好的解决方案。我们因此包括合奏学习作为一个主题。研究工作在每一个研究的结果系统地总结和比较,我们可以清楚地识别现有的入侵检测研究的挑战和强调研究方向。预期本文可以作为一个实际的通道穿过迷宫的文献。

引用

j . McCumber“信息系统安全:一个综合模型,”14国家计算机安全会议1991年美国巴尔的摩,马里兰州。视图:谷歌学术搜索
w·Khreich e·格兰杰,a .米里,r . Sabourin”迭代的布尔组合分类器在中华民国领域:应用程序与摘要异常检测,”模式识别,43卷,不。8,2732 - 2752年,2010页。视图:出版商的网站|谷歌学术搜索
电晕,g . Giacinto c . Mazzariello f . Roli和c桑松,“计算机安全信息融合:先进的、开放的问题,“信息融合,10卷,不。4、274 - 284年,2009页。视图:出版商的网站|谷歌学术搜索
s . Axelsson入侵检测系统的研究调查中,“技术。众议员CMU / SEI, 1999。视图:谷歌学术搜索
k·库马尔·g·库马尔,m . Sachdeva“基于人工智能技术的使用入侵发现一个评论,”人工智能审查,34卷,不。4、369 - 387年,2010页。视图:出版商的网站|谷歌学术搜索
c .克鲁格尔、f的数值和g .豇豆属入侵检测和关联、挑战和解决方案,先进的信息安全施普林格,2005年。
和a . r . Caruana Niculescu-Mizil”,在度量空间数据挖掘:监督学习性能标准的实证分析,”第十届ACM SIGMOD学报》国际会议上知识发现和数据挖掘(kdd - 2004)ACM出版社,页69 - 78年,2004年8月。视图:谷歌学术搜索
g·库马尔和k·库马尔监督分类器的分析入侵检测为基础的人工智能”诉讼的进展国际会议上计算和人工智能(巴西莓的11)174年,页170 - ACM数字图书馆Chitkara,印度,2011年7月。视图:出版商的网站|谷歌学术搜索
j·w·海恩斯r·p·李普曼d . j .油炸e . Tran s Boswell和m . a . Zissman”DARPA入侵检测系统评价:设计和程序,“技术。代表,麻省理工学院林肯实验室,1999。视图:谷歌学术搜索
KDDCup”,第三届国际竞争知识发现和数据挖掘工具,”1999年,http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html。视图:谷歌学术搜索
在野势力的数据集,http://www.cs.unm.edu/immsec/systemcalls.htm。
防御9日http://ictf.cs.ucsb.edu/data/defcon_ctf_09/。
ITOC数据集,http://www.itoc.usma.edu/research/dataset/。
j·麦克休“测试入侵检测系统:批判1998年和1999年美国国防部高级研究计划局入侵检测系统由林肯实验室评估,”ACM交易信息和系统安全,3 - 4卷,第294 - 262页,2000年。视图:谷歌学术搜索
k·库马尔·g·库马尔,m . Sachdeva“实证比较分析的特征减少入侵检测方法,”国际期刊的信息和电信,卷1,44-51,2010页。视图:谷歌学术搜索
g·库马尔和k·库马尔,特征选择的信息理论方法,“安全性和通信网络5卷,第185 - 178页,2012年。视图:谷歌学术搜索
k . Julisch”聚类入侵检测警报支持根本原因分析,“ACM交易信息和系统安全》第六卷,没有。4、443 - 471年,2003页。视图:出版商的网站|谷歌学术搜索
h .排除和a . Wespi聚合和关联的入侵探测警报、入侵检测的最新进展,“在计算机科学的课堂讲稿卷,2212年,第103 - 85页,2001年。视图:谷歌学术搜索
a . Patcha和j . m .公园”的概述异常检测技术:现有解决方案和最新技术趋势,”计算机网络,51卷,不。12日,第3470 - 3448页,2007年。视图:出版商的网站|谷歌学术搜索
p . Garcia-Teodoro j . Diaz-Verdejo g . Macia-Fernandez和e·巴斯克斯,“Anomaly-based网络入侵检测:技术,系统和挑战,”电脑与安全,28卷,不。1 - 2,18-28,2009页。视图:出版商的网站|谷歌学术搜索
m·c·庞塞”与人工智能入侵检测系统,”诉讼的拳头会议2004年,大学Pontificia澳马德里,版:1/28。视图:谷歌学术搜索
l . Didaci g . Giacinto f . Roli,“整体学习计算机网络入侵检测,”意大利协会第八届研讨会论文集张仁人工智能(02),锡耶纳,意大利,2002年。视图:谷歌学术搜索
m·萨博和g . Serpen机器学习算法应用于知识发现(KDD)入侵检测数据集在误用检测方面,”机器学习程序国际会议;模型、技术和应用程序(MLMTA ' 03)2003年6月,页209 - 215。视图:谷歌学术搜索
m .熊猫和m . r .智利的“数据挖掘算法的比较研究网络入侵检测,”学报第一国际会议上新兴的工程和技术趋势(ICETET ' 08),页504 - 507,IEEE计算机协会,2008年7月。视图:出版商的网站|谷歌学术搜索
t . g . Dietterich“合奏方法在机器学习,”程序的多个分类器系统。第一次国际研讨会(MCS ' 00)、麻烦的和f . Roli Eds。卷,1857在计算机科学的课堂讲稿2000年,页1 - 15、卡利亚里、意大利。视图:谷歌学术搜索
a . k . Jain r·p·w·Duin, j .毛“统计模式识别:复习一下,”IEEE模式分析与机器智能,22卷,不。1,4-37,2000页。视图:出版商的网站|谷歌学术搜索
s . Mukkamala a . h .唱,a·亚伯拉罕”入侵检测使用一个聪明的范例。”网络和计算机应用》杂志上,28卷,不。2、167 - 182年,2005页。视图:出版商的网站|谷歌学术搜索
s . Chebrolu a·亚伯拉罕和j·p·托马斯,“功能演绎和入侵检测系统的整体设计,“电脑和安全,24卷,不。4、295 - 307年,2005页。视图:出版商的网站|谷歌学术搜索
s . Peddabachigari a·亚伯拉罕,c . Grosan和j·托马斯,“建模使用混合智能系统,入侵检测系统”网络和计算机应用》杂志上,30卷,不。1,第132 - 114页,2007。视图:出版商的网站|谷歌学术搜索
“m·戈文达拉扬和r . m .•钱德拉塞卡兰入侵检测使用基于神经混合分类方法,”计算机网络,55卷,不。8,1662 - 1671年,2011页。视图:出版商的网站|谷歌学术搜索
c . Langin和拉希米,“软计算在入侵检测:艺术的状态,”环境智能和人性化计算杂志》上,1卷,不。2、133 - 145年,2010页。视图:出版商的网站|谷歌学术搜索
h . g . Wang金星数码、m .剑和h .利华国际”一种新的入侵检测方法利用人工神经网络和模糊聚类,“专家系统与应用程序,37卷,不。9日,第6232 - 6225页,2010年。视图:出版商的网站|谷歌学术搜索
诉企业,基于机器学习的网络入侵检测[博士。论文)伯恩茅斯大学,2010年6月。
g . d . Guvenir“间隔分类投票功能,”《欧洲机器学习会议,第92 - 85页,1997年。视图:谷歌学术搜索
a .。m . a . Maarof和s . m . Shamsuddin”系综分类器对网络入侵检测系统”,杂志的信息保障和安全4卷,第225 - 217页,2009年。视图:谷歌学术搜索
c, p . c .勇,l·s·孟”设计的多层次混合分类器使用贝叶斯聚类的入侵检测系统和决策树,”模式识别的字母卷,29号7,918 - 924年,2008页。视图:出版商的网站|谷歌学术搜索
n . b . Anuar h . Sallehudin a . Gani o . Zakari,“识别假警报网络入侵检测系统使用混合数据挖掘和决策树,”马来西亚计算机科学杂志》上,21卷,不。2、101 - 115年,2008页。视图:谷歌学术搜索
f . Gharibian和a . a . Ghorbani”比较研究入侵检测的监督机器学习技术,”程序的通信网络和服务研究5年会(CNSR ' 07)华盛顿特区,页350 - 358,美国2007年5月。视图:出版商的网站|谷歌学术搜索
A . n . Toosi和m . Kahani”一种新的入侵检测方法基于进化的软计算模型利用神经模糊分类器,”计算机通信,30卷,不。10日,2201 - 2212年,2007页。视图:出版商的网站|谷歌学术搜索
l·汗·m·阿瓦德,b . Thuraisingham”一种新的入侵检测系统利用支持向量机和分层聚类,“国际期刊非常大的数据基础,16卷,不。4、507 - 521年,2007页。视图:出版商的网站|谷歌学术搜索
a . y . Chen亚伯拉罕,b .杨“混合柔性neural-tree-based入侵检测系统,国际期刊的智能系统,22卷,不。4、337 - 352年,2007页。视图:出版商的网站|谷歌学术搜索
t . s .黄T.-J。李,Y.-J。李,“通过数据挖掘的方法,一个三层的id”第三届ACM学报》研讨会上挖掘网络数据(MineNet ' 07)2007年6月,页1 - 6,。视图:出版商的网站|谷歌学术搜索
答:亚伯拉罕和j·托马斯,“分布式入侵检测系统:计算智能方法,”国土安全部和国防信息系统的应用、h·阿巴斯和埃及d Eds。,pp. 105–135, Idea Group, New York, NY, USA, 2005, chapter 5.视图:谷歌学术搜索
z s, s . c . Chen g b, d .问:张,“混合神经网络和C4.5误用检测”国际会议的程序在机器学习和控制论2003年11月,页2463 - 2467。视图:谷歌学术搜索
g . Giacinto f . Roli,“一个多分类器系统的自动设计方法,”模式识别的字母,22卷,不。1、男性,2001页。视图:出版商的网站|谷歌学术搜索
l . i Kuncheva结合模式分类器:方法和算法Wiley-Interscience,纽约,纽约,美国,2004年。
g·布朗,j·怀亚特,r·哈里斯和x姚明,“多样性创建方法:调查和分类杂志的信息融合》第六卷,没有。1,5 - 20,2005页。视图:出版商的网站|谷歌学术搜索
l·k·汉森和p .班子“神经网络乐团,”IEEE模式分析与机器智能,12卷,不。10日,993 - 1001年,1990页。视图:出版商的网站|谷歌学术搜索
p . n . e . k . Tang Suganthan, x姚明,“多样性的分析措施,”机器学习,卷65,不。1,第271 - 247页,2006。视图:出版商的网站|谷歌学术搜索
l . i Kuncheva和c·j·惠特克,”措施的分类器的多样性和整体精度的关系,“机器学习,51卷,不。2、181 - 207年,2003页。视图:出版商的网站|谷歌学术搜索
w·李·r·普维斯和j·m·拉古萨,”纽约证券交易所综合指数与技术分析,预测模式识别器,神经网络和遗传算法:一个案例研究在浪漫的决策支持,”决策支持系统,32卷,不。4、361 - 377年,2002页。视图:出版商的网站|谷歌学术搜索
a·c·谭、d·吉尔伯特和y帝威,“参与蛋白质折叠分类使用新的整体机器学习方法,“基因组信息学,14卷,第217 - 206页,2003年。视图:谷歌学术搜索
p . Mangiameli d·西,r . Rampal”医疗诊断决策支持系统模型选择,”决策支持系统,36卷,不。3、247 - 259年,2004页。视图:出版商的网站|谷歌学术搜索
r . Moskovitch y Elovici, l . Rokach”检测未知的电脑蠕虫行为分类的基础上主机,“计算统计和数据分析,52卷,不。9日,第4566 - 4544页,2008年。视图:出版商的网站|谷歌学术搜索
r·p·w·Duin”,结合分类器:训练还是不要火车?“在16日学报》国际会议模式识别(ICPR ' 02)魁北克市,页765 - 770年,加拿大,2002。视图:谷歌学术搜索
e·鲍尔和r . Kohavi经验投票分类算法的比较:装袋,增加,变异,”机器学习,36卷,不。1,第139 - 105页,1999。视图:谷歌学术搜索
t . g . Dietterich”实验的比较三种方法的决策树构造集合体:装袋,提振,随机化,“机器学习,40卷,不。2、139 - 157年,2000页。视图:出版商的网站|谷歌学术搜索
r·e·班菲尔德·l·o·霍尔,k w·鲍耶和w·p·Kegelmeyer”比较决策树合奏创造的技术,”IEEE模式分析与机器智能卷,29号1,第180 - 173页,2007。视图:出版商的网站|谷歌学术搜索
e . l . Allwein r . e . Schapire, y歌手,“减少多级二进制:保证金分类器,一个统一的方法”机器学习研究杂志》上,1卷,不。2、113 - 141年,2001页。视图:谷歌学术搜索
e . m . jonkleinberg“随机算法实现的歧视,”IEEE模式分析与机器智能,22卷,不。5,473 - 490年,2000页。视图:出版商的网站|谷歌学术搜索
l . Breiman“偏差、方差和灭弧分类器,”众议员TR技术。460年,统计部门,加州大学伯克利分校,加州,美国,1996年。视图:谷歌学术搜索
胡锦涛和r . r . i阻尼器”,一个“灵丹妙药定理”为分类器组合,“模式识别第41卷。。8,2665 - 2673年,2008页。视图:出版商的网站|谷歌学术搜索
a·夏基“multi-ney系统的类型,”多个分类器系统、第三国际研讨会(MCS ' 02)f . Roli和j .难应付的。卷,2364在计算机科学的课堂讲稿,第117 - 108页,2002年。视图:谷歌学术搜索
l . Rokach”分类描述整体方法在分类任务:评论和注释的书目,“计算统计和数据分析,53卷,不。12日,第4072 - 4046页,2009年。视图:出版商的网站|谷歌学术搜索
和n . m . m . s .卡瓦纳”,结合分类器,数据依赖”4日学报》国际研讨会在多个分类器系统(MCS ' 03)、t . Windeattand和f . Roli Eds。卷,2709在计算机科学的课堂讲稿英国吉尔福德,页1 - 14,2003。视图:谷歌学术搜索
i . h .威滕·e·弗兰克,数据挖掘:实用机器学习工具和技术,摩根Kaufmann系列在数据管理系统中,摩根考夫曼,旧金山,加州,美国,第二版,2005年版。
c . m .主教模式识别和机器学习、信息科学和统计数据施普林格,纽约,纽约,美国,2006年。
s . Marsland机器学习:算法的角度,查普曼和大厅/ CRC机器学习和模式识别、CRC出版社,波卡拉顿,佛罗里达州,美国,2009年。
e . Alpaydin介绍机器学习、自适应计算和机器学习美国剑桥,麻省理工学院出版社,质量,第二版,2010年版。
f .木村和m . Shridhar手写数字识别基于多个算法,”模式识别,24卷,不。10日,969 - 983年,1991页。视图:出版商的网站|谷歌学术搜索
m . p . Perrone和l . n . Cooper:“当网络不同意:整体混合神经网络的方法,”人工神经网络在语音和视觉,r . j . Mammone Ed,页126 - 142,查普曼&大厅,伦敦,英国,1993年。视图:谷歌学术搜索
l . Lam和c . y .孙”,多数投票模式识别的应用:其行为和性能的分析,“IEEE系统,人,控制论,27卷,不。5,553 - 568年,1997页。视图:谷歌学术搜索
l ., a Krzyzak, c . y .孙”方法相结合的多分类器和手写识别他们的应用程序,“IEEE系统,人与控制论,22卷,不。3、418 - 435年,1992页。视图:出版商的网站|谷歌学术搜索
p·多明戈和m . Pazzani”的最优简单贝叶斯分类器在0 - 1损失,”机器学习卷,29号2 - 3、103 - 130年,1997页。视图:谷歌学术搜索
r·o·杜达·e·哈特和d . g .鹳,模式分类约翰·威利& Sons,纽约,纽约,美国,第二版,2001年版。
s . b .曹和j·h·金”,结合多个神经网络模糊积分的健壮的分类,“IEEE系统,人与控制论,25卷,不。2、380 - 384年,1995页。视图:出版商的网站|谷歌学术搜索
a . Verikas a . Lipnickas k . Malmqvist m . Bacauskiene和a . Gelzinis“软神经分类器的组合:一个比较研究,“模式识别的字母,20卷,不。4、429 - 444年,1999页。视图:出版商的网站|谷歌学术搜索
m .再保险和g . Valentini“集成异构数据源的基因功能预测使用决策模板和乐团的学习机器,”Neurocomputing,卷73,不。7号到9号,第1537 - 1533页,2010年。视图:出版商的网站|谷歌学术搜索
d·h·沃伯特“堆叠泛化”,神经网络,5卷,不。2、241 - 259年,1992页。视图:谷歌学术搜索
p . k . Chan和s·j·斯多夫”,元学习的准确性可伸缩的数据挖掘,”智能信息系统杂志》上,8卷,不。1,5-28,1997页。视图:谷歌学术搜索
t . Hothorn和b . Lausen捆绑分类装袋树,”计算统计和数据分析卷,49号4、1068 - 1078年,2005页。视图:出版商的网站|谷歌学术搜索
y关,c·l·迈尔斯·d·c·赫斯z Barutcuoglu, a . a . Caudy和o . g . Troyanskaya”预测基因功能层次上下文的系综分类器,”基因组生物学补充卷。9日,1条S3, 2008。视图:出版商的网站|谷歌学术搜索
g . Obozinski g . Lanckriet c·格兰特,约旦,和w·s .高贵,“蛋白质功能预测概率输出一致,”基因组生物学补充1卷。9日,文章S6, 2008。视图:出版商的网站|谷歌学术搜索
w·b·兰登和b·f·巴克斯顿,“接受者操作特征,遗传编程改进”第二届国际会议在多个分类器系统、麻烦的和f . Roli Eds。,pp. 68–77, Cambridge, UK, 2001.视图:谷歌学术搜索
大肠Alpaydin和c . Kaynak“级联分类器,”Kybernetika,34卷,不。4、369 - 374年,1998页。视图:谷歌学术搜索
g . Giacinto f . Roli,“动态分类器融合”程序的多个分类器系统。第一次国际研讨会(MCS ' 00)、麻烦的和f . Roli Eds。卷,1857在计算机科学的课堂讲稿施普林格,页177 - 189年,卡利亚里,意大利,2000年。视图:谷歌学术搜索
e·m·多斯桑托斯、r . Sabourin和p . Maupin”的动态overproduce-and-choose战略选择分类器乐团,“模式识别第41卷。。10日,2993 - 3009年,2008页。视图:出版商的网站|谷歌学术搜索
r . Perdisci g . Giacinto, f . Roli”警报聚类入侵检测系统在计算机网络中,“人工智能技术的工程应用,19卷,不。4、429 - 438年,2006页。视图:出版商的网站|谷歌学术搜索
g . Tsoumakas l .旧金山,i Vlahavas“选择性异构融合分类器,”智能数据分析,9卷,不。6,511 - 525年,2005页。视图:谷歌学术搜索
r·a·雅各布斯“结合专家的评估,概率方法”神经计算,7卷,不。5,867 - 888年,1995页。视图:谷歌学术搜索
x姚明和m。伊斯兰教,“进化人工神经网络乐团,”IEEE计算机情报杂志,3卷,31-42,2008页。视图:谷歌学术搜索
m . y . Su k c . Chang h f·魏、和c . y .林”特征加权和选择基于GA的实时网络入侵检测系统与资讯”情报与安全信息学卷,5075年,第204 - 195页,2008年。视图:出版商的网站|谷歌学术搜索
j·肖和h的歌,“一种新的入侵检测方法基于自适应共振理论和主成分分析,”程序的通信和移动计算国际会议(CMC ' 09)2009年1月,页445 - 449。视图:出版商的网站|谷歌学术搜索
r . Valentini整体方法:回顾,CRC出版社,2001年。
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
y弗洛伊德和r·e·Schapire”与一种新的提高算法实验,”30学报》国际会议上机器学习,页148 - 156年,旧金山,加州,美国,1996年。视图:谷歌学术搜索
r . Anand k . Mehrotra c·k·汉和蓝卡,“使用模块化神经网络有效的多类分类问题,“IEEE神经网络》第六卷,没有。1,第124 - 117页,1995。视图:出版商的网站|谷歌学术搜索
t . Hastie和r . Tibshirani“成对分类的耦合,统计年报,26卷,不。1,第471 - 451页,1998。视图:谷歌学术搜索
m . Moreira和大肠Mayoraz“成对耦合与纠正分类器分类,改善”第十届欧洲机器学习会议学报》上c . Nedellec和c . Rouveirol Eds。卷,1398在计算机科学的课堂讲稿,页160 - 171年,柏林,德国,1998年。视图:谷歌学术搜索
t . g . Dietterich和g . Bakiri纠错输出编码:通用的方法,来改善多级归纳学习项目,”第九届AAAI国家关于人工智能的会议,第577 - 572页,1991年。视图:谷歌学术搜索
j .周、h·彭和c . y .孙“数据驱动的多层次分类分解,”模式识别第41卷。。1,第76 - 67页,2008。视图:出版商的网站|谷歌学术搜索
j·弗里德曼和p .大厅,“装袋和非线性估计,”科技。代表,统计部门,斯坦福大学,帕洛阿尔托,加州,美国,2000年。视图:谷歌学术搜索
l . i Kuncheva f . Roli g . l . Marcialis和c·a·西普”数据子集生成的随机子空间方法的复杂性:一个实验调查,”多个Classi_er系统。第二国际研讨会(MCS的01)、麻烦的和f . Roli Eds。,pp. 349–358, Cambridge, UK, 2001.视图:谷歌学术搜索
斯维尔m .“整体学习”,研究报告RN / 11/02,伦敦大学学院计算机科学系,2011年。视图:谷歌学术搜索
大肠Mayoraz和m . Moreira”polychotomies分解成二分法,”《十四国际会议上机器学习田纳西州纳什维尔,页219 - 226,美国1997年7月。视图:谷歌学术搜索
e·米l . Rokach, y Elovici“Troika-an改善叠加模式分类的任务,”信息科学,卷179,不。24日,第4122 - 4097页,2009年。视图:出版商的网站|谷歌学术搜索
l . Breiman“灭弧分类器”,统计年报,26卷,不。3、801 - 849年,1998页。视图:谷歌学术搜索
g . Valentini整体方法基于偏见方差分析(博士。论文)意大利的热那亚大学热那亚,2003。
c .克鲁格尔、g .豇豆属和w·罗伯逊,“网络攻击的检测的多模型方法,”计算机网络,48卷,不。5,717 - 738年,2005页。视图:出版商的网站|谷歌学术搜索
电晕,d . Ariu, g . Giacinto”HMM-web:攻击检测的web应用程序框架,”IEEE国际会议通信学报》(ICC ' 09),2009年6月。视图:出版商的网站|谷歌学术搜索
y燕和h,”一个入侵检测方法改进的多目标遗传算法的基础上,“软件学报,18卷,不。6,1369 - 1378年,2007页。视图:谷歌学术搜索
w·m·胡,胡w . s .梅班克”AdaBoost-based网络入侵检测的算法,IEEE系统,人,控制论B,38卷,不。2、577 - 583年,2008页。视图:出版商的网站|谷歌学术搜索
g . f . Cretu a . Stavrou m . e . Locasto s . j .斯多夫和公元Keromytis”赶走魔鬼:消毒训练数据异常传感器”IEEE学报》研讨会上安全和隐私(SP ' 08),页81 - 95,IEEE计算机协会,2008年5月。视图:出版商的网站|谷歌学术搜索
j·r·昆兰C4.5项目机器学习美国摩根考夫曼,美国加州圣马特奥市,1997年。
g·h·约翰·p·兰利,“估计连续分布在贝叶斯分类器,”不确定性人工智能的会议,第345 - 338页,1995年。视图:谷歌学术搜索
d . w .啊哈,d . Kibler, m·k·艾伯特,“基于实例的学习算法,”机器学习》第六卷,没有。1,37 - 66年,1991页。视图:出版商的网站|谷歌学术搜索
r . c . Holte”非常简单的分类规则最常用的数据集上执行好,”机器学习,11卷,不。1,第91 - 63页,1993。视图:出版商的网站|谷歌学术搜索
j . Demšar”统计比较分类器在多个数据集,“机器学习研究杂志》上7卷,外墙面,2006页。视图:谷歌学术搜索
w·Khreich e·格兰杰,a .米里,r . Sabourin”自适应ROC-based集合体的摘要应用于异常检测,”模式识别,45卷,不。1,第230 - 208页,2012。视图:出版商的网站|谷歌学术搜索
z穆达,w·亚辛,m . n . Sulaiman和n . i Udzir”的k - means和朴素贝叶斯学习方法更好的入侵检测,”信息技术杂志,10卷,不。3、648 - 655年,2011页。视图:出版商的网站|谷歌学术搜索
m . v . Mahoney p·k·陈,“1999 DARPA /林肯实验室的分析评价网络异常检测的数据,“技术。众议员cs - 200302,计算机科学系,佛罗里达理工学院,2003。视图:谷歌学术搜索
g·库马尔和k·库马尔小说评价函数对特征选择基于信息理论,”诉讼IEEE国际会议上的电气和计算机工程(CCECE 11)尼亚加拉大瀑布,页000395 - 000399年,加拿大,2011年5月。视图:谷歌学术搜索

应用计算智能和软计算

文摘