文摘

本文解决问题,指出应用入侵检测系统(IDS)为了保证无线传感器网络的安全(轮)在计算上昂贵的传感器节点由于其有限的资源。对于这个目标,我们获得最优策略来挽救IDS代理的权力,通过量子反应平衡(改革开放),比纳什均衡更现实。入侵检测阶段制定游戏(IDG)来描述攻击者之间的相互作用和IDS代理。不同的策略的偏好结构概况进行了分析。这些结构后,支付矩阵。随着攻击者和IDS代理不断交互,舞台IDG扩展到重复IDG及其支付相应的定义。基于改革开放然后获得最优策略。这些最优策略考虑有限理性使IDS代理并不总是捍卫。传感器节点的能量消耗在执行入侵分析可以得救。实验结果表明,所采用的行为的概率攻击者可以预测,因此IDS可以回应网络相应的保护。

1。介绍

最近,无线传感器网络(网络)吸引了相当多的关注由于其广泛的应用。典型的例子存在于环境监测、健康监测、地震监测、对象跟踪等等1]。我们必须面对的主要问题之一是如何保证安全网络的广泛应用。类似传统网络,实现网络安全预防和检测机制(2- - - - - -8]。prevention-based机制,旨在防止任何攻击在它发生之前,包括加密、密钥管理和认证。相反,检测机制是明确地指出那些妥协节点分解后所采取的措施预防步骤。这种机制通常是应用使用入侵检测系统(IDS)作为第二道防线,而prevention-based机制被称为的第一道防线。IDS,入侵者识别等关键数据,入侵,入侵活动提供了缓解和弥补攻击的影响。

目前,大量的ids (9,10)已经提出了各种网络结构提供了一个重要的安全机制对局内人和局外人的攻击。然而,轮上施加一个id具有挑战性,因为传感器节点资源有限的能源、内存、计算和通信能力。一般来说,不同的方法包括异常、滥用,和基于规范检测计算昂贵,尤其是昂贵的小型传感器节点。这种情况促使我们寻求最优策略的入侵检测可能节省传感器节点的资源。

作为一个正式和数学工具,研究涉及个体之间的竞争,博弈理论为我们提供了一个有效的方法来探索优化策略在入侵检测领域的网络(11- - - - - -14]。然而,博弈论的方法有一个共同的假设,玩家完全理性和游戏的解决方案是基于纳什均衡(NE)。在真实的应用程序中,然而,所有攻击者(一个球员在博弈论)可能并不总是理性的,他们甚至不关心被发现。因此,NE-based解决方案不适合这种情况下,我们需要一个更合适的方法来解决入侵检测游戏。

现在,量子反应平衡(改革开放)已经变成了一个受欢迎的替代传统的NE行为博弈理论。维护改革开放模型假设个人信念支持平衡的策略,玩家选择,但随着假设球员做出系统性的错误或偏差的选择(15]。有两个原因导致偏差行为。一个叫做有限理性。另一个是球员的回报都是受到社会偏好的主题出现利他或公平或寻求回报公平或寻求限制不平等在回报15]。

本文采用改革寻求最优策略拯救IDS代理网络的力量。考虑到传感器节点的特点,我们构造一个阶段入侵检测游戏描述攻击者(球员)之间的相互作用和IDS代理(其他球员)。攻击者的偏好结构和IDS代理定义,导致形式支付的球员。随着舞台上游戏的发展(攻击者和IDS代理不断交互),我们扩展到一个重复博弈和定义相应的回报。我们进一步获得QRE-based策略显示攻击者和IDS代理将如何选择自己的行为。

我们所知,本文是第一工作重点探索QRE-based策略在网络入侵检测。总结了本文的主要贡献如下:(1)我们制定一个阶段根据Binmore入侵检测游戏的方法来研究策略的恶意传感器节点和IDS代理,这是能够反映出攻击者之间的相互作用和IDS代理以及他们的偏好;(2)我们扩展阶段入侵检测游戏重复入侵检测游戏通过重新定义相应的回报,这是能够反映现实,恶意传感器节点和IDS代理交互不断;(3)与其NE-based策略,我们获得QRE-based攻击者的策略和IDS代理,满足这种情况下,攻击者和IDS代理与有限理性总是让他们的决定;(4)我们意识到应用重复的一个实现入侵检测网络游戏算法的基础上计算QRE-based策略可以预测未来攻击者的行为。

本文的其余部分组织如下。节2相关工作区分之间的区别,我们概述我们的工作及其他相关工作。节3,我们构造入侵检测网络游戏和扩展阶段重复博弈。进一步说,我们给的方法计算QRE-based策略。节4,我们实现一个入侵检测机制基于QRE-based策略并给出相应的算法。节5展示我们执行实验,反复入侵检测实际上是玩游戏。最后,结论部分提供了6

采用网络吸引了相当大的关注。在良好的调查中,Butun et al。5]给出详细信息网络ids和IDSs的适用性,是紧随其后的是每个方案的分析和比较以及它们的优缺点。Al-Hamadi和陈16)被认为是一个优化问题的情况voting-based分布式入侵检测算法是用来检测和隔离恶意节点在网络。然后他们可以动态地确定最佳冗余级别适用于多路径路由实现入侵容忍的情况下。在另一篇论文17),他们分析了动态冗余管理的综合入侵检测和宽容,这是最大化网络同构集群的生命周期。应对潜在的网络拒绝服务攻击,曹et al。18较低的部分)提出了一个分布式入侵检测系统内存和功率要求。在[19],Farooqi等人提出了一个新颖的入侵检测机制预防包括在线和离线检测确保了网络的路由攻击。获得高效的性能计算资源有限的传感器节点,金正日et al。20.)开发了一种Wu-Manber算法网络入侵检测系统。通过集成系统监控模块和网络入侵检测模块,太阳et al。21)提出了一个基于过滤器扩展卡尔曼滤波机制来检测错误注入数据。他们进一步结合累积求和和广义似然比提高检测灵敏度。Shamshirband et al。22)开发了一种cooperative-based模糊人工免疫系统,Cooperative-Decision-Making模块包含了危险的探测器模块与疫苗接种模糊q学习模块生产最优网络中检测入侵防御策略。此外,riecke et al。23节能id]提出了一种轻量级,移动代理是用来检测入侵基于传感器节点的能量消耗。

选择盈利以来检测策略能够降低资源的消耗,博弈论已广泛应用于获得这些优化策略。例如,最优策略启动IDS代理安装在传感器节点信号获得的游戏(24]。确定最好的防御战略,黄等。25)提出了一个马尔可夫链的id将博弈论和误用检测和异常,雇佣的马尔可夫决策过程受到attack-pattern-mining算法来预测未来的攻击模式。Bui [Moosavi和26)被认为是零和贴现随机游戏正式制定和分析了网络入侵检测的问题。他们认为,游戏数据没有被充分认识到球员和取得了鲁棒优化方法解决这个数据不确定性。相反,一个零和随机游戏应用于(27)来预测攻击者的恶意行为。在[28),沈等人制定malware-defense微分对策,系统可以动态地选择其策略来最小化总成本而恶意软件智能地随时间变化的策略来最大化这个成本,获得最佳的动态策略系统。此外,合作游戏也应用于制定了网络入侵检测的问题。Shamshirband et al。29日结合博弈论的方法和模糊q学习算法来实现合作防御反击水槽节点和基站的场景。游戏由三名球员组成的水槽节点,一个基站,攻击者和受害者时执行网络节点收到洪水包作为DDoS攻击超越一个特定的阈值报警事件。获得安全可靠防御的虚拟传感器服务cloud-assisted轮,刘et al。30.)提出了一种随机进化联盟游戏就是能决定如何进化动态联盟应该形成virtual-sensor-service复合材料提供可靠数据和如何在面对不确定的自适应保护攻击策略。

在各种游戏类型、重复博弈由一些重复的一个阶段的比赛。这种游戏通常分为两类:有限和无限重复博弈,这取决于玩家之间的交互是有限或无限。球员在一个重复博弈必须考虑他们当前的选择策略产生的影响在随后的回合对手的策略(31日]。同一阶段的游戏,当反复播放,可能导致不同的平衡。因此,每个球员必须采取最优反应对对手,这将影响一个人的未来回报。

一些应用程序的重复博弈一直致力于无线网络的各个方面。充分的和达斯32制定一个id和传感器节点之间的重复博弈,防止网络拒绝服务(DoS)攻击。在他们提出的游戏,一个协议提出了一类基于他们的行为不同的传感器节点。在[33],Pandana等人提出了一种自学习重复博弈框架,克服自私和不合作自主节点在无线ad hoc网络。框架保证了当前数据包转发的节点间的合作,找到更好的合作概率通过自学习算法。陈等人。34)构建了一个基于无线网络的声誉的重复博弈模型,充分利用稀缺的频谱资源。模型能够帮助多个主要和次要用户和共享频谱共存。用重复博弈执行无线网络中节点间的合作,香港和郭35)提出了一个高效packet-scheduling算法导致的一个平衡。算法,无线信道资源充分的利用。其他典型的合作的应用重复博弈合作组成的多播(36,网络选择37),和电力交易(38]。此外,Sagduyu et al。39制定一个重复博弈在网络不确定性处理干扰攻击无线网络。multiattacker重复勾结游戏提出了(40]找到平衡后进位表明攻击者的最优策略。在这些平衡,建立一个安全策略来检测恶意节点相互勾结来启动选择转发攻击。此外,认知无线电用户,使用重复博弈41),能够适应他们的权力通过观察主要用户的反馈信号的干扰和传输速率得到在前面的阶段。朱和马丁内斯42)开发了一种重复博弈来解决移动传感器的覆盖优化问题。以抵御多级攻击,罗et al。43建模一个两人零和非合作的具有不完全信息的动态多级游戏找到最好的后卫行动。太阳et al。44),考虑到ad hoc网络中的节点固有的不确定性,提出了一种功率控制机制与动态重复博弈论的框架。史密斯et al。45)提出了一个动态非合作的重复博弈的传输功率控制在multi-source-destination分布式无线网络。最近,“zero-determinant策略”(46- - - - - -50重复的游戏吸引了太多的关注在科学的世界。特别是,Farraj et al。48)采用重复博弈论的配方来形容双方的交互cyber-enabled电力系统。瞬态随时间稳定使用zero-determinant策略获得显示的潜力受限的控制器。

基于重复博弈,改革开放发展中不考虑有限理性的概念,从而盈利来描述分配安全来源的困境。适合人类有限理性的对手在安全游戏,杨et al。51模仿人类行为的敌人和基于前景理论提供了新的数学模型和随机离散选择模型。修改提出了改革开发是有效的算法来计算最佳响应的安全部队在攻击不同的敌人。在[52)改革开放是用来捕捉玩家的有限理性和模型内部攻击者的行为。结果是能够预测未来内部攻击者将如何行动。然后,详细的基于游戏的检测算法利用这些结果详细描述。

3所示。构建入侵检测网络游戏

3.1。网络模型

根据分类基于IDS代理的安装位置,有纯分布式的、纯粹的集中和distributed-centralized结构(53]。纯粹的分布情况,每个传感器节点已经配备了一个IDS代理本地检查从邻近的传感器节点恶意行为。相反,纯粹的集中的情况下,基站(BS)已经配备了IDS代理,在一个特殊的协议需要收集信息从传感器节点检查传感器节点的行为。此外,对于distributed-centralized情况,介绍了监测传感器节点和已经配备了IDS代理。这些监控节点执行活动不仅像普通节点,但也检查入侵检测。

我们的网络模型采用相同的一个24),如图1。该模型属于distributed-centralized情况。然而,在聚类层次结构,每个传感器节点已经配备了一个IDS代理,不一样的情况,IDS代理只安装在监测传感器节点。当一个energy-abundant传感器节点当选为簇头(CH),同时部署IDS代理将启动IDS代理在传感器节点成员都在睡觉。因此,CH执行的任务由IDS入侵检测代理除了聚合和发送数据。

3.2。入侵检测阶段游戏

定义1。舞台(IDG)包含入侵检测游戏 ,在那里(1) 是一组球员;(2) ,在那里 合作 ,Preattack ,攻击 睡眠 ,格兰特 ,捍卫 套动作通过球员吗 分别;(3) ,在那里 套回报的球员吗 采用的策略 采用的策略 ,分别。

在定义1我们认为,攻击者的游戏 与IDS代理 。球员 实际上是指恶意传感器节点等目的,听传感器信息,摧毁一个传感器节点的通信能力,或完全禁用传感器节点。另一方面,球员 最初被称为IDS代理程序安装在CHs。我们的入侵检测游戏的目标是,从博弈论的角度,提供最优策略为IDS代理动态响应攻击者选择的策略。

作为一个攻击者,球员 有三个可能的行动。可能采取的行动合作 通常,这意味着它在其他传感器节点的通信。这个动作掩盖了其避免被对手。然而,球员的意图 是敌对的,因此其目的在于系统地安排方法,以便它可以攻击其他传感器节点的利润。一般来说,它可能披露私人信息的其他传感器节点获取信息所需完成的攻击。这些行动被称为侦察攻击,可以概括为行动Preattack 。此外,攻击者最终实现的阶段行动攻击 获得其预期利润。这个动作无疑是最危险的行动在所有。它提出,加强问题的严重性,导致许多意想不到的结果,如网络为其合法的传感器节点不可用,不准确的遥感信息,泄露私人数据。总之,玩家行为的集合

面对攻击者,球员 也有三个操作。由于传感器节点有限的资源,战略总是在IDS代理捍卫不是最优的。否则,集群头安装IDS代理将使用他们的权力迅速自处理入侵检测通常是昂贵的。球员 因此可以操作吗睡眠 节约能源。启动IDS代理后,它可能给传感器节点继续当没有发现恶意行为。注意,两种情况导致球员的事实 需要这个动作格兰特 。一个案例是,真正正常监视事件。另一个是IDS代理不能检测到恶意事件因为任何id的假阴性率。此外,玩家 将采取的措施捍卫 阻止恶意传感器节点的工作一旦违规被检测到。在总结中,动作的球员

基于上述分析,有九个可能的组合攻击者的行为和IDS代理之间的行为。例如,策略配置文件 意味着球员 徒通常球员 是节约能源的睡眠。 意味着球员 徒preattack一步和球员 授予其对手继续没有探测侦察攻击。 意味着球员 执行攻击行为和球员 防止其对手的恶意保护传感器节点的工作。

最后,让我们量化的偏好和IDG回报玩家的阶段。让这些符号 分别是偏好和冷漠。例如,如果 ,然后据说 是首选

对玩家的攻击者来说,这是最赚钱的网络攻击成功而不会辩护。自从IDS代理采取的行动睡眠格兰特不能攻击者辩护,偏好策略配置文件 是对的吗 。它的下一个选择是采取的行动合作不被保护。以下优先行动Preattack没有任何威慑力。这个动作攻击为遵循攻击者最喜欢的,这是比行动更可取合作这是辩护。最后,最坏的选择Preattack回应的行动捍卫。上述分析结果在以下偏好结构:

对玩家IDS代理,最可取的概要文件是行动合作紧随其后的是行动睡眠。以下是行动合作紧随其后的是行动格兰特因为采取的行动格兰特花更多的权力比接受检测睡眠。当需要行动捍卫,它更喜欢有序的操作攻击,Preattack,合作。这下更喜欢行动Preattack然后有序的操作睡眠格兰特。最不可取的概要文件攻击紧随其后的是行动格兰特。因此,偏好结构实现

根据Binmore的方法(54有理数,被分配到反映玩家的喜好排名(1)和(2)。然后,后乘以他们的共同因素,收益函数的值 ,免费的分数,可以形成于表1

3.3。入侵检测重复游戏

在现实的网络,玩家攻击者之间的相互作用和IDS代理不断进行。因此,舞台IDG将不止一次,它是合理的,作为一个重复博弈模型这些交互。一般来说,一个重复博弈是一种特定的风格的广泛的游戏,每一阶段都是相同的重复strategic-form游戏。《纽约时报》的重复博弈可能有限或无限。如果游戏没有结束(攻击者永远和IDS代理交互)或球员(攻击者和IDS代理)不知道游戏结束时,它被称为一个无限重复博弈,本文将采用。在重复博弈中,战略是一个完整的行动计划中描述阶段比赛。每个阶段结束时,所有玩家都能够观察到的结果阶段比赛,选择未来选择行动取决于行为的历史。重复博弈中的总体回报用规范化的折扣在每个阶段总回报的游戏。我们一再入侵检测游戏(RIDG)可以定义如下。

定义2。无限的 使人们RIDG由重复游戏 ,这是用 ,在那里(1)参与者的数量 在定义中定义1;(2)每一个球员 ,其总体战略 th阶段IDG ,在那里 , ,表示 th历史阶段, 表示该策略采用的球员 th历史阶段;(3)每一个球员 ,其总体回报 使人们的平均即时回报的每一轮重复入侵检测的游戏。

2显示的表示RIDG广泛的形式。事实上,攻击者是完全意识到IDS代理的过去的行为因为IDS代理对攻击者造成的行动。换句话说,球员 (IDS代理”)的行为是完全被球员 (攻击者)。另一方面,球员 是不完全知道的球员吗 过去的选择因为球员 法官其对手的行动与不确定性。因此,RIDG属于重复和不完全信息动态博弈。

从图2,玩家 首先需要一个行动开始节点。它可以选择行动合作,Preattack,或攻击。接下来,玩家 对其对手的行动睡眠,格兰特,或捍卫。一旦它选择行动捍卫,游戏结束。除了这种情况下,游戏将反复。

现在,让我们定义重复IDG的球员支付。玩家攻击者和IDS代理努力最大化其预期回报在多轮IDG的阶段。预期的回报通常描述为每节的和回报,乘以一个折扣因素 , 。如果折现系数不是太高,然后球员足够的未来结果的游戏感兴趣。这两名球员因此过于看重当前的收益比未来的回报。球员的总回报 , ,给出 在哪里 表示球员获得的回报 , ,采用策略 在槽时, , 。此外,与无限重复博弈轮,总回报(3)通常是平均的。因此,球员的平均折扣回报 , 可以表示为

接下来让我们分析我们RIDG策略配置文件的总数。一般来说,作为一个无限重复博弈,策略配置文件的总数 th阶段计算的数量乘以历史策略配置文件在所有阶段0,1, , ,在操作的数量 阶段。然而,在我们的RIDG,行动捍卫通过球员 意味着游戏结束。从这个意义上说,联合行动不包括终端操作的数量捍卫 。因此,策略配置文件的总数 th阶段, ,可以计算 在哪里

从(5),我们可以看到,我们的策略配置文件的总数RIDG迅速将增加所有重复阶段idg数量的增加。因此,复杂性预测未来行为的球员 通过计算子博弈的NE变得越来越高,这促使我们找到一个最优的选择,改革开放。

3.4。QRE-Based策略

改革开放为粗放型游戏首先是由麦凯维和帕尔弗里55),它提供了一个平衡与有限理性概念。改革开放不是一个平衡改进,它可以从东北获得显著不同的结果。只是为游戏单独定义策略,无论有repeated-strategy类似物的事实。特别是,它是作为一种概率开发扩展的NE和可以用来给球员的原因可能系统地偏离路径。这是因为球员在改革开放战略中做出错误选择。任何特定的策略被选择的概率是最高预期收益正相关的策略。因此,在改革开放战略的选择概率,而不是确定的。

改革开放为平衡提供了有限理性的特点实现了通过引入参数合理性的回报。用理性的参数 改变在改革开放的过程不收敛。当 ,玩家完全是非理性的。这种情况下意味着即使一个玩家不能获得更大的回报,玩家攻击者和IDS代理将选择另另一个策略由NE表示。相反,当 ,玩家会因为他们成为完全理性的在这种情况下。到目前为止,改革开放可以计算 在哪里 实际上是球员的概率 , ,选择策略 。从(6),QRE-based策略玩家攻击者可以获得和IDS代理,分别。从本质上讲,QRE-based策略是基于回报的引入扰动与行动通过玩家攻击者和IDS代理。策略配置文件是正相关的概率平均折扣回报了球员。改革开放的集合可以被视为一个对应的映射参数合理性 为一组混合策略的概率(每个操作的IDS代理将选择IDS代理)

4所示。QRE-Based了网络入侵检测的

鉴于,如图3,我们意识到应用的实现RIDG轮。数据流从传感器节点成员被监视的IDS代理安装在相应的CH。这些传感器节点可能是正常的或恶意的成员,所以他们采取可能的行动包括合作,Preattack,攻击。一旦IDS代理吵醒事件成员的传感器节点,它过滤监控事件和雇佣一个IDS引擎判断事件是否正常。

一般来说,IDS代理之前已经配置为使他们更加准确和可靠,通过配置数据发送的管理员。在完成事件检测,相关结果将最终决定暂时存储。另一方面,IDS代理开始初始化游戏所需的参数定义2。它接受事件检测和制定RIDG的结果。当RIDG构造在第一阶段,两个玩家的偏好和回报,被存储在存储游戏数据手动设置的管理员。IDS代理,采用(6),计算出改革开放概率事件检测结果和RIDG阶段。改革开放概率达到将结合id的结果,这个组合将被发送到管理员可以采取控制行动成员传感器节点通过IDS代理。后一轮RIDG玩,游戏参数将被更新存储游戏数据。特别是,两名球员的报酬是根据(调整4),它将用于下一阶段RIDG。上述过程将重复进行,直到IDS代理选择行动捍卫。事实上,年底达到这一点意味着玩家攻击者之间的相互作用和IDS代理。接下来,我们描述了算法的过程QRE-based入侵检测算法1)。

(1) ;
(2)初始化游戏所需的参数定义2;
(3)做直到玩家攻击者之间的相互作用和相应的id代理商吗
(4)吵醒监控事件;
(5)判断监控事件是正常的或与已知的恶意入侵检测技术;
(6)如果输出的检测是恶意的
(7)如果RIDG不存在
(8)构建RIDG游戏参数包括第一阶段 , , ;
(9)其他的
(10)获得RIDG从当前阶段存储游戏数据;
(11)ENDIF
(12)计算 根据(6);
(13)计算 根据(4)并将其存储到存储游戏数据为下一阶段RIDG;
(14)结果和结合id ,送他们管理员;
(15)ENDIF
(16) ;
(17)ENDDO

5。实验

与策略56),QRE-based策略计算向我们展示如何RIDG实际上是玩,见表2和数字45。这些插图表明我们能够预测攻击者的行为,所以相应的IDS代理可以提前采取适当的行动。计算每个行动开始以同样的概率。以这种方式,每一个行动都有一个概率为0.3333左右,因为有三个操作对于每个球员。此外,理性参数 开始于 在步骤1。

攻击者采取的行动的趋势图所示4,在那里 设在代表概率攻击者会选择某一策略对于一个给定的 。值得注意的是,攻击者采取行动的可能性合作Preattack逐渐减少而行动的概率攻击正在增加。从表2,当 ,行动的概率Preattack成为零约。这种情况下意味着行动Preattack已消灭了这一步。适应不断攻击者的策略,它是 当攻击者选择的行动攻击成为确定。这意味着,如果 大于161.049147,那么攻击者总是选择行动吗攻击这实际上是NE IDG的阶段。

5显示的趋势行为通过IDS代理、行动的概率睡眠格兰特减少和行动的概率捍卫正在增加。然而,而攻击者选择的变化趋势,采取的行动IDS代理收敛迅速的行动捍卫这是东北IDG的阶段。这一点,从表2,得到当 IDS代理 攻击者是161.049147左右。

6。结论

为了节省传感器节点的功率,我们提出一个方法基于改革开放使IDS代理并不总是捍卫。舞台IDG能够反映出攻击者之间的相互作用和IDS代理已经制定,我们充分考虑玩家的喜好和分配球员根据Binmore回报的方法。以反映现实,攻击者和IDS代理不断交互,我们已经延长了舞台IDG重复IDG和已经定义了相应的回报。进一步,我们给的方法计算QRE-based策略,预测未来攻击者的行为。结果,最佳反应可以建议到IDS代理网络保护。

在未来,扩展当前的游戏模型RIDG当考虑多个攻击者可能会勾结是一个有趣的工作。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是由中国国家自然科学基金支持下批准号61272034,中国浙江省自然科学基金资助下LY13F030012 LY13F020035,和绍兴大学的科学基金会拨款20145021和2014 lg1009。