文摘
针对现有的网络攻击和防御随机博弈模型,其中大多数是基于完全信息的假设,导致模型的适用性差的问题。基于实际的建模需求的网络攻击和防御过程,网络防御决策模型结合不完全信息随机游戏和深度提出了强化学习。这个模型认为攻击者的不完全信息和后卫作为后卫攻击者的不确定性的类型和使用的双重深Q-Network算法来解决这个问题的难度决定网络状态转换概率,所以网络系统可以动态地调整防御策略。最后,对该模型进行仿真实验。结果表明,在相同的实验条件下,本文提出的方法有更好的收敛速度比其他方法在解决防御均衡策略。这个模型是传统的方法和人工智能技术的融合,并提供新的研究思路的应用人工智能领域的网络安全。
1。介绍
近年来,随着信息技术的快速发展,网络攻击都增加了。许多新的攻击方法被提出。信息网络安全一直是一个热点问题1),尤其在一些传统的网络。为了减少网络的复杂性,使网络设备出现强劲的同质性,网络设备必须更容易受到网络攻击。一旦破坏了一个网络节点,整个网络系统将瘫痪。当一个恶意攻击者发射攻击利用网络设备背后的漏洞,将干扰网络的正常运行。此外,重要信息的泄漏将引起。如果情况变得更糟,整个网络系统的安全将濒临灭绝2]。由于网络系统的复杂性和隐蔽性和特性转化的攻击手段,现有的网络防御技术很难满足网络系统的安全需求,使网络系统的后卫更难保证系统的绝对安全。因此,需要一种新技术,可以分析网络攻击和防御的事件,所以网络系统后卫可以实现动态和自适应调整防御策略(3]。
为主,由于大量的类似的博弈理论的特点和网络进攻和防御的事件,如参与者的拮抗作用目标,不合作的策略和行为依赖,博弈理论相关研究网络信息安全日益新兴(4,5]。此外,随机游戏是一个动态的游戏和状态转换是由一系列的阶段。它表现良好,因为描述多个状态。因此,随机游戏迅速成为当前研究的热点在网络进攻和防守6]。王等人。7)提出了一种定量分析方法基于随机网络安全的博弈模型,分析和评估的安全目标网络基于模型生成的模拟。傅et al。8]突破困难的过程中网络进攻和防守的角度随机游戏。他们使用量化的好处防御和进攻的双重角色,提出一个新的选择算法应对的困难应对攻击的意图和战略变化的过程中网络进攻和防守。黄、张(9)针对缺陷,传统的确定性博弈模型不能准确描述了进攻和防御过程在真实的网络环境,提出了一个安全防御策略选择模型的基础上,随机进攻和防御的进化博弈模型。安全防御策略使用高斯白噪声和随机微分方程稳定性的判断定理进行了突破的方向进攻和防御策略。胡锦涛et al。(10)嵌入式非合作的信号博弈理论在网络攻击和防御和模拟动态网络攻击和防御对抗过程借助动态网络欺骗信号的衰减效应。提出了新的研究思想在网络安全主动防御的方向。魏et al。11)博弈论应用于维护电网安全,开发了一种新的模型框架通过随机博弈理论在进攻和防守之间的相互作用,并介绍了新算法提高电网抵御攻击的能力。Lei et al。12]提出了一种新的移动目标防御策略生成方法基于不完全信息的马尔科夫博弈论的经典博弈理论和完全信息假设不能描述移动目标防御对抗问题。此外,随着新兴技术的发展,人工智能和机器学习等近年来,越来越多的智能算法已经应用于网络安全领域(13,14]。为了使网络为人们提供高效和快速的服务,华et al。15)集成人工智能技术在网络安全领域,提出了一个系统检测算法基于人工智能的概念。这个工作发挥了非常支持作用的人工智能技术对网络系统进行安全检查。为了分析有限理性的影响的随机游戏网络进攻和防守,张和刘16)针对状态爆炸的问题,当网络节点数量的增加;进攻图和防御图设计压缩状态空间和提取网络状态和防御策略。在此基础上,引入智能学习算法和国防决策算法的设计具有在线学习能力将有助于选择最佳的防御策略最大的受益的一组候选策略。然而,这种方法类似于q学习算法和很容易“高估”。
尽管上述研究为分析提供解决方案的网络攻击和防御的事件,仍然有一些缺点:(1)大多数研究都是基于完全信息的假设。然而,在一个真正的网络攻击和防御的事件,由于攻击者的隐蔽,后卫不能完全领会攻击者的相关信息。(2)上述文献的收入功能都是基于已知的传输模型。但是,在许多情况下,这名后卫不能掌握系统状态转移的概率。因此,上述两点使上述文献中模型的适用性提出了贫穷。
为了应对上述问题的适用性,提高随机博弈模型分析的网络进攻和防御事件,提出了一种防御策略选择模型基于不完全信息的随机游戏。与此同时,我们利用强化学习的想法使用双深Q-Network算法随机博弈模型进行博弈分析。因此,后卫的收入可以动态地更新,可以自适应地调整防御策略。没有必要提前设置系统状态转移概率获得游戏的双方的纳什均衡。最后,通过实验,验证了该模型的有效性。
本文的主要贡献如下:(1)改善现有网络进攻和防御随机博弈模型和作为人与人之间的不完全信息在游戏中后卫的攻击者的类型,不确定性的模型可以满足真正的网络进攻和防御的场景。(2)深入强化学习算法,双DQN,引入模型,所以后卫的收入可以在线学习和更新,和模型的解的准确性提高防御策略。
本文的组织结构如下:部分1介绍了背景和相关工作。随机与不完全信息博弈模型提出了部分2。深入强化学习方法的章节中讨论3和实验分析部分4。最后,讨论了相关工作的比较分析5并给出结论6。
2。随机与不完全信息博弈模型
由于网络环境等因素和网络实体,网络攻击和防御是一个复杂和随机过程。攻击者和捍卫者的关系目标和行为依赖的反对。因此,网络攻击和防御过程可以被描述为一个随机攻击和后卫之间的博弈过程。此外,对于自己的利益,进攻和防守方总是彼此隐瞒自己的信息。因此,网络进攻和防御过程在实际环境中是一个随机游戏过程与不完全信息(17]。
2.1。离散处理的网络攻击和防御的过程
为了方便网络攻击和防御的建模和分析过程中,我们首先使离散网络攻击和防御过程(18]。整个过程被认为是一系列的时间片 ;每个时间片只包含一个网络状态,每个时间片是一个进攻和防御的游戏过程。这个过程可以被描述在图1。
随着网络攻击的发生,网络系统从一个状态转移到另一个实体的交互作用下,如图2。随机网络的状态转换系统。除了受到恶意用户的行为的影响,也受到网络中其它一些复杂的因素的影响。我们的研究目标是找到这名后卫的防守策略可以获得更高的回报在网络攻击和防御随机游戏。
2.2。网络攻击和防御随机博弈模型
由于网络的特性转化和动力学状态转换,网络的状态转换系统是长期不断变化。同时,下一个过渡态是仅与当前状态有关。总之,网络的过渡状态可以被看作是马尔可夫决策过程: ;在短期内,网络的状态转换系统是一个固定值(19]。
定义1。不完整的information-attack和国防9-tuple随机博弈模型: ,在哪里(1) 是集攻击者和捍卫者,也就是说,玩家在游戏中(2) 国家的网络系统,也就是说,一组随机游戏状态(3) 攻击者的行为集,在哪里 是攻击者的行为策略设置在系统状态我(4) 行为的后卫,在哪里 是行为策略组系统状态的后卫吗(5) 是攻击者的集合类型(6) 代表一组概率判断的后卫攻击者当系统的类型(7) 表示一组进攻和防御策略, 代表的策略 - - - - - -在系统状态的攻击者, 的概率是攻击者选择的行为 ;同样的,代表这名后卫的防守战略系统 ,和 选择的概率是行为的后卫(8) 意味着,在系统状态和攻击类型 ,进攻和防守方采取行动立即返回 (9) 是收入的函数对进攻和防守方,在哪里 代表了国家行为收益函数的进攻和防守方,和 代表的收益函数后后卫进攻和防御系统状态时采取行动和攻击类型 ; 代表了国家战略价值收益函数集的进攻和防御; 代表收益函数的后卫在进攻和防守方采取的策略 当攻击者类型在系统状态根据网络攻击和防御的分析过程和上述模型的定义,这名后卫将积累的利润函数。因此,后卫的国家战略价值利润函数表示为
3所示。强化学习和贝叶斯均衡解决方案
3.1。贝叶斯纳什均衡的过程中网络攻击和防御
因为网络进攻和防守可以被视为一个随机游戏过程和不完整的信息,平衡解决方案是贝叶斯纳什均衡。防御和进攻的双重角色,再也不能单方面改变自己的策略来提高自己的利润。
定义2。贝叶斯纳什均衡的网络进攻和防守。(1)所有的攻击策略
攻击者和(2)的所有防御策略后卫,令人满意
然后策略
是一个贝叶斯纳什均衡状态的系统,和平衡返回这个时候来标示
。
II-ADSGM本文提到的平衡解集的贝叶斯纳什均衡解决方案为每个国家的制度。这个问题可以被看作是一个二次规划问题:
在实际网络进攻和防御事件中,双方的决策往往是连续的。因此,决定将不仅影响目前还未来双方的好处。在上面的定义中,进攻和防守方获得的好处在游戏过程中应该包括当前的收益和未来收益,和利益变化动态与策略。因此,在网络攻击和防御随机游戏类型、收入函数进攻和防守的定义是
代表当前的奖励,
代表着未来回报
是折扣的因素。显然,当刨丝器,收入函数更受到未来返回,当少,收入函数更受当前返回;代表系统过渡从各州的概率的影响下行动
。因为在实际的网络攻击和防御过程系统状态转移概率是动态变化的,很难确定参数的值
,的后续解决纳什均衡系统带来了极大的不便。大多数现有的研究中,参数的值提前设置方便后续的计算,这显然是不符合实际情况。
在我们的研究中,我们的目标是解决系统的贝叶斯纳什均衡时,未知参数动态变化。进攻和防御随机构造博弈模型的均衡收入需要满足的条件,可以在线更新的进攻和防御的过程。因此,网络系统的安全需求,后卫必须适应他们的防御策略。
3.2。q学习算法
q学习的是强化学习的基本算法20.,21),收益函数 代表了收入预期代理可以获得通过的行为在国家在时间t。与回报和网络环境,具体公式如下:
是学习速率,可以动态地调整收入。后一个动态调整的过程,解决收入不依赖于系统状态转移概率。它还将弥补现有模型的不足。
进攻和防御网络实体之间的对抗是一个复杂的过程。针对防卫策略选择问题,现有的许多研究都简化了进攻和防御过程必要的(22- - - - - -24]。考虑到各种实体的行为互相影响,系统状态的转变引起的互动行为提供参考实体选择行为。因此,实体的行为学习机制在网络攻击和防御事件如图3。
3.3。解决基于双深Q-Network状态转移概率参数的算法
虽然q学习算法被广泛用于网络攻击和防御事件分析(25),它也有一些缺点:因为q学习算法使用一个Q-table存储每个国家行为的核反应能量,当状态和行为空间离散和维数不高,该算法是有效的。如果状态和行为空间是连续和维数较高,由此产生的行为空间和状态空间太大。在这种情况下,很难解决所有国家行动的价值。因此q学习不能维持如此大Q-table在内存中。
针对上述问题,一些研究人员提出使用一个模型来表示状态之间的关系和行动的价值功能。深Q-Network (DQN)是一种由深度学习和强化学习算法26]。与q学习算法相比,它使用一个神经网络近似行为价值函数,将Q-table更新转换成函数拟合问题,然后符合一个函数来代替Q-table核反应能量生成的,见公式(6)。通过这种方式,类似的状态可以得到类似的输出行为。此外,DQN算法还引入了一个目标值Q-Network独立和低于Q-Network的当前值,以及一个播放内存单元。DQN算法的结构如图4。因此,DQN算法有更好的效果比q学习算法复杂特征的提取。
虽然DQN算法更适合网络攻击和防御的分析事件比q学习算法,它也有缺点:DQN算法不能克服q学习本身固有的缺点,高估;也就是说,估计价值函数大于真实价值函数,及其根源主要是在q学习最大化操作。从公式(6),它可以得出结论,选择目标的行动 ,在哪里操作使得估计价值函数大于价值函数的真正价值。
然而,考虑到实际网络进攻和防御事件,进攻和防御方的策略并不总是选择最大化的行动核反应能量在一个给定的状态。一般来说,真正的策略是一个随机的策略;因此,直接选择核反应能量最大的行动的目标价值往往会导致目标价值大于实际价值。
为了解决这个缺点,特提出了双DQN法(27),这是使用不同的值函数的定义的选择行为和行为的评价。计算公式是
此外,由于收入 传统DQN算法只有相关环境和行为,只有一种类型的参与者参与算法,网络攻击事件,有两种类型的参与者:攻击者和防御者。因此,收益函数的双DQN算法从一个类型的参与者需要扩大到两种类型的参与者,和公式(7)需要改进。如果我们把后卫的利益作为一个例子,提高效益
通过这种方式,使用公式(8),模型的政府行动获得的价值不再取决于参数 。然后,根据学习速率 , 实现平衡增长通过学习机制。
此外,本文使用了算法解决双DQN算法的探索和利用问题;也就是说,算法随机选择下一个时间片的行为的概率并使用的概率获得纳什均衡策略。
3.4。网络自适应算法防御对策
对于每个时间片在网络攻击事件,算法使用模型和分析进攻和防御过程,解决了根据参与者的贝叶斯纳什均衡 ,并使国防决策,然后使用改进的双DQN算法进行进攻和防御对抗的过程。在线学习和执行是更新。具体方法如下。
让是网络系统的状态数,让措施的数量,攻击者可以实现在每一个国家,和我们措施的数量,每个州的后卫可以实现。算法的空间复杂度1主要是集中在存储的 , , ,和 ;因此,空间复杂度 。算法的时间复杂度1主要集中在更新吗后的战略选择。我们使用Lebg-plex算法来计算它。Lebg-plex算法的平均时间复杂度 。
|
||||||||||||||||||||||||||||||||||||
4所示。仿真实验与分析
为了验证模型的正确性和合理性提出和解决平衡的方法,使用的网络环境模拟实验利用典型的实验网络由(25),和拓扑如图5。
本文中使用的实验数据来自于麻省理工学院林肯实验室的进攻和防御行为数据库。在已知系统状态转移概率的情况下,解决纳什均衡策略的详细过程见附录b .我们使用Python 2.7实现的算法选择国防战略条件下,系统状态转移概率是未知的。算法的性能图所示6。
(一)
(b)
(c)
从图6,我们发现,在参数设置见表1的概率值选择的两种不同的策略后卫可以收敛于贝叶斯纳什均衡,这与表的计算结果是一致的2,这表明本文改进模型的准确性。同时,我们发现,国防决策值的收敛速度对应的三组不同的参数是不同的。从图可以清楚地看到,第三组达到平衡当防御的数量大约是140次,这是明显的收敛速度快于其他两组;因此,在这个例子中,使用第三组的性能模型的参数是更好的。
此外,为了验证性能模型的提出在这篇文章中,我们将本文中的方法与DQN算法来解决随机博弈模型的状态转移概率。结果如图所示7。
从图7,我们发现通过使用获得的国防战略价值DQN算法模型中经常执行比国防战略价值计算通过使用双DQN算法。这是因为DQN算法可能会导致高估。结果与我们的预期一致。我们还发现,本文提出的模型计算出的概率值的收敛速度模型的防御策略是速度比使用DQN算法。因此,上述结果表明,我们提出的模型的性能更好。
5。比较分析相关的工作
图8显示在四个不同的概率选择防御行动方法。从图中,可以发现本文方法的防御策略可以收敛于一个平衡策略学习的大约140倍。的状态转换的方法8)是一个固定值,导致某种结果之间的偏差和客观平衡的战略价值。此外,该方法假定完整的信息,这也使得计算结果比其他方法。的方法9)是一种改善方法(8),在某些方面,但这种方法获得的国防战略初期不稳定,波动很大。结果也有偏见。方法的结果在28]优于[8,9在防御的早期阶段。然而,作为防御的数量增加,它开始显示这种方法在处理高维数据的缺点。此外,q学习算法更适合处理纯策略问题。当谈到解决混合策略选择问题,该算法不执行,和国防战略将维持振荡。
如表所示3,我们已经总结了四种方法。随机游戏中使用的基本理论8,9)是相对简单和模型适用性一般;中使用的基本理论(28)是随机游戏和强化学习模型的适用性已得到改进。本文中使用的基本理论结合随机游戏,深的强化学习。相比之下,(8),本文假设不完全信息为前提,模型的适用性更好。相比之下,(9),提出的模型我们不再需要提前解决系统状态转移概率,哪个更符合实际情况的网络系统状态转换。方法相比(28摘要],不仅是我们的方法更适合处理高维网络系统状态空间,而且精度较高。总之,它是更适合的建模和分析实际网络攻击和防御的过程。
6。结论
分析了实际网络进攻和防御过程建模的需求,提出了一种防御战略决策模型基于不完全信息的随机游戏,深的强化学习。这个模型是针对游戏问题之间的进攻和防御的网络,并使用深度强化学习来解决游戏实体的好处。我们验证了我们的模型更符合网络进攻和防御过程的建模需求在现实环境。模型从理论上提出了改善现有的模型。选择深强化学习算法更适合处理高纬度游戏状态空间,和实验表明,在相同的实验条件下,本文方法有更好的收敛速度比其他方法解决防御均衡策略。因此,本文的研究结果提供了新的研究思路的选择网络安全防御策略。
在未来,我们的研究将集中在两个方面:(1)改善循环网络攻击和防御过程的准确性和(2),提高模型的适用性,以满足需求的更复杂的网络环境
附录
答:本文中使用的数学符号的含义如表所示4
b .例子计算
假设攻击者类型 ,在哪里代表一个高级攻击者和代表一个低级攻击者;攻击者的概率分布类型 。国家的网络系统 ;网络状态转换图所示9。
攻击者的行为 ,在哪里 , , ,和 。后卫的行为 ,在哪里 , , ,和 。
接下来,作者使用方法在本文中,系统状态作为一个例子来解决纳什均衡策略。已知条件如下:(1)后卫的直接回报 在国家 : (2)考虑到在实际的网络攻击和防御的事件,由于攻击行为的特性转化,假设攻击者在系统状态的初始策略是 。(3)参数设置见表1。(4)系统状态的转移概率 :
然后,根据上述已知条件(1)-(4),使用公式(1)和公式(2),贝叶斯纳什均衡在实验现场,结果如表所示2。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
本研究由国家重点支持研究和发展项目(没有。2018 yfc0808306),河北省重点研究和发展项目(19270318 d),河北物联网监测工程技术研究中心(没有。3142018055),青海省物联网重点实验室(没有。2017 - zj - y21)项目。