文摘
有效的在认知无线电网络中频谱资源管理(crn)是一种很有前途的方法,提高频谱资源的利用率。特别是,功率控制和信道分配频谱资源管理的首要任务。然而,联合设计的功率控制和信道分配是一个np难问题的研究仍处于初步阶段。在本文中,我们提出一种新颖的基于长短期记忆深的联合方法问网络(LSTM-DQN)。我们的目标是获得的信道分配方案访问点(APs)和二级用户的功率控制策略(SUs)。具体来说,接收到的信号强度信息(RSSI)收集的microbase站用作LSTM-DQN的输入。这样,RSSI的集合可以在用户之间共享。培训完成后,APs能够选择与小干扰而SUs渠道可能会访问授权渠道在一个衬底操作模式不知道任何知识的主要用户(脓)。实验结果表明,该通道是分配给APs碰撞的概率较低。此外,SUs能迅速调整自己的功率控制策略,以避免有害干扰随机环境参数变化时的脓。 Consequently, the overall performance of CRNs and the utilization of spectrum resources are improved significantly compared to existing popular solutions.
1。介绍
认知无线电网络(crn),也被称为认知无线网络(描述),是认知无线电设备时形成的有机连接通过认知基站。频谱资源管理是crn的基本任务之一,旨在实现频谱资源的高单元化通过划分成一组渠道或资源块和设计适当的管理策略。面对不断增长的移动数据容量需求,信道分配和功率控制在频谱资源管理扮演着重要角色1,2]。
频谱资源管理是确定最合适的渠道为二级用户(SUs)在不影响主用户的通信(脓)分析的基础上可用的频道。目前,优化和博弈理论已经广泛应用于频谱管理。在[3),频谱共享是根据干扰温度和射频(RF)功率每单位带宽测量的接收天线。最优解可以通过粒子群优化(PSO)算法,如果目标函数是凸的。此外,模拟退火(SA)应用于防止落入非最优解决方案。三个改进的PSO算法,即二进制PSO sociocognitive PSO,推导零算法提出了和苏的吞吐量链接在干扰条件下的比较(4]。频谱接入算法,提出了(5),提高了网络系统的吞吐量和频谱感知能力制定拉格朗日对偶优化问题,得到最优功率分配策略和目标检测概率。研究基于博弈论的频谱资源管理,核心理念是获得最优的均衡分布在SUs的频谱资源。在[6),双向拍卖模型从微观经济理论是用于电视带电视广播公司之间的交易和无线区域区域网络(WRAN)服务提供商。WRAN服务提供商,频谱招标定价问题是制定作为一个非合作的博弈模型,得到了纳什均衡。德黑兰和Uysal7)提出了一个密封的投标价格拍卖模型,旨在最大化收入的服务提供者和SUs不完整的频谱感知的条件下的满意度。谭et al。8考虑合作和非合作的频谱接入方案基于阈值策略。实验结果表明,在非合作的情况下,最优方案达到纳什均衡。
现有工作使用最优控制或游戏理论通常假设用户无线网络获得完整的环境状态信息。然而,这样的信息是困难的,如果不是不可能获得在复杂和动态场景,所以在许多情况下,解决方案必须基于局部环境信息。灵感来自新兴的人工智能,强化学习和神经网络为我们提供一个新工具应对挑战crn [9- - - - - -12]。深强化学习(DRL)已经使用模型的自由特性强化学习(RL)和深度学习的能力(DL)在频谱资源管理过程数据。DRL应用到频谱资源管理的潜在优势是三倍。首先,决策问题的最优解可以通过试验和错误,和手册的循环谱计划大大减少。所以,crn可以学习和获得有效的频谱资源管理解决方案。其次,它能够模拟复杂real-loop场景,很难模型在数学上,不断积累新的经验,以适应各种极端情况。第三,实时有效监测的动态环境,挖掘潜在的重要数据和信息,可以实现和改善crn的性能。这些优势提高一些研究工作13- - - - - -17]。例如,广域网和科恩(14)提出了一个基于深多用户分布式动态频谱接入算法强化学习,针对网络效用最大化多通道无线网络。在每一个时间段,每个SU映射其当前状态到频谱访问操作使用培训深问网络(DQN)。实验结果表明,在一些可观测环境,SUs能够学习好控制策略确保不使用在线网络性能确认(ACK)信号。刘等人。16)采取了多重代理DQN技术,进一步优化学习过程结合DQN算法转移学习这新的访问网络的SUs可以获得更多的经验和知识。
尽管上述研究工作,频谱资源管理基于DRL还处于初期阶段。现有的结果显示,状态信息的渠道有高度的自相关18,19]。然而,这个属性可能有相当大的时间间隔从当前状态。仍有很大的差距的研究这个问题。考虑长期短期记忆的非凡的网络结构,可以探索这样的自相关和使一个更好的估计状态的通道。出于当前最先进的和联合设计的局限性问题,信道分配和功率控制频谱资源管理,提出了一种长短期记忆深问网络——(LSTM-DQN)联合信道分配和功率控制算法为基础,这有助于实现频谱利用率灵活性通过共享接收到的信号强度(RSSI)在用户信息。此外,我们认为脓可能有多个选择功率控制策略,而不是一个单一的策略,选择合适的一个动态地根据变化的环境。评估表明,邻接入点(APs)访问可用通道没有冲突,而SUs最大化功率控制策略来避免有害干扰脓。
本文的其余部分组织如下。部分2介绍了系统模型和制定要解决的问题。讨论了算法的实现部分3。部分4描述了仿真实验和结果分析,最后,给出了结论和未来的工作5。
2。预赛
2.1。系统模型
提出的信道分配问题是由于大量的无线设备访问有限的频谱空间。在这样的问题,和APs之间没有一对一的连接通道。的主要挑战是相邻信道干扰(ACI)和同信道干扰(CCI)。联合优化信道分配和功率控制,不仅需要考虑中小用户的传输功率也通道在不同接入点的选择及其可能的冲突。
我们关注的系统模型如图1。有5个APs部署在该方案中,和每个AP是几个主要和次要用户随机分布在其通信范围。我们允许APs之间的重叠。例如,服务范围的AP1和AP2相互重叠,所以做AP3 AP4。相比之下,AP5独立于他人。在服务范围内的每个AP,脓总是在其授权通道上传输数据,而SUs只允许访问而不影响沟通渠道的脓。中间的基站主要负责脓的沟通。与此同时,微蜂窝技术协助SUs控制传输能量。这些微蜂窝技术收集的RSSI主要和次要用户,收集到的信息打包成数据包占用几个字节,然后送到SUs通过专用控制信道。假设每个PU调整发射功率根据自己的控制策略和总是在其授权信道传输数据。 Both PUs and SUs are ignorant of others’ power control strategy. To be more specific, PUs are never concerned about the existence of SUs. Therefore, SUs need to learn appropriate transmit power strategies through utilizing the RSSI, as to accomplish their own transmission tasks.
2.2。问题公式化
联合优化信道分配和功率控制,首先要确定是否允许同一频道不同APs之间选择。在本文中,这是不允许的,例如,we consider the case of no channel conflicts. Based on such assumption, the transmit power and control strategies of primary and secondary users are then determined. Table1指定所使用的符号。
APs的集合来标示 ,和一组可用的频道 。每个AP只能使用一个通道。信道矩阵是 被定义为每个元素 在哪里 。
因此,我们定义随着干扰矩阵,每个元素被定义为下面的公式:
为了测量服务质量,主要和次要的SINR用户需要定义。我们假设用户可以交流只有在相关相邻APs成功访问通道。让的SINR PU我在美联社p在时间t写如下:
同样,苏的SINRj在美联社p在时间t是
在多通道情况下,可用的通道和通道增益随时间变化。因此,问题变成动态,因此更加复杂。一个苏的吞吐量j在美联社p在时间t是
目标是所有SUs的总吞吐量最大化,这是表示如下:
3所示。深基于强化学习框架
由于crn的广泛应用,网络结构越来越复杂。很难建立相应的数学模型来模拟一个高度复杂的网络环境。的模范自由RL可以有效地解决这个问题。近年来,DRL显示在处理复杂问题能力和数据操作。因此,本文着重于DRL频谱资源管理的应用程序,特别是功率控制和信道分配的联合优化改善crn的鲁棒性和适应性。
3.1。RL的描述
模范自由学习是一种方法通过不断在RL与虚拟环境的交互。一般来说,RL结构问题作为一个马尔可夫决策过程(MDP)。在每一个时刻t,代理可以观察到的当前状态的环境 然后选择一个行动 。动作执行后,环境状态转换有一定概率的到一个新的国家 。与此同时,环境将反馈奖励价值 代理。原理图如图2。总之,RL旨在找到最好的策略,最大化的累积奖励价值通过有限数量的步骤(9]。
使用RL crn解决联合设计的问题,一个数组 应该是预先定义的,在哪里年代代表的环境状态,一个是苏的集合行为,然后呢 表示获得的奖励当采取下一个行动在当前状态。
3.1.1。状态空间
有5个APs部署在网络环境中,与几个主要和次要用户在每个AP。APs的SUs只能获取不完整的环境信息来实现他们的传输任务。假设L微蜂窝技术负责收集RSSI的初级和中级用户在每个AP的服务区,总共5 L微蜂窝技术是分布在整个网络环境。我们采用discretized-time模型。根据非自由空间传播(20.),收集的RSSI微蜂窝技术的区域由美联社p在时间槽t用以下方程: 在哪里被定义为
因此,这些5 APs的RSSI集成和使用作为输入层LSTM-DQN,即
3.1.2。行动空间
我们添加的苏到行动空间传输能量,并在美联社所有嫌疑犯的行动p在时间t是 在哪里代表了苏的传播力量j在美联社p。
因此,所有的行动价值APs在整个网络环境
3.1.3。奖励函数
信道分配和功率控制问题,首先需要考虑到APs的渠道选择不冲突。具体来说,APs 1和2选择不同的渠道,3和4选择不同的渠道,和5可以选择任何通道。只有在APs成功选择数据传输通道的用户可以执行。它应该考虑这两个主要和次要用户在每个AP满足服务质量要求和不超过阈值。根据约束条件,在美联社的奖励p被定义为以下方程: 在给定的约束如下: 和 访问可用的频道, 。
整个网络系统的奖励功能 代表所有获得的奖励APs的平均值。
3.2。脓的功率控制策略
我们认为脓可以调整其传输功率根据指定的控制策略和总是在授权通道传输数据。典型的功率控制策略提出了(21)是 的价值不小于最小值根据预定义的离散化阈值的范围。
我们还采用了更聪明的策略提出了(22)如下: 在哪里 ,代表的SINR PU吗我在预计的时间t+ 1。
当一个聚氨酯进行方程的智能控制策略(15),根据当前时刻SINRt和预测SINR的时间t+ 1,它只需要调整自己的传播力量只有一次。因此,这种智能策略的优点在于,它可以减少额外的能源消耗功率切换频繁造成的。同时,它综合考虑了趋势估计确定聚氨酯是否应该调整其传输功率和频谱预测的能力。
为了应对网络环境的复杂性,脓可能有多个选择功率控制策略,而不是一个单一的策略并根据实际情况选择合适的一个。方程(14)是表示作为聚氨酯的功率控制策略1,和方程(152)策略。我们将详细讨论和分析这些策略在实验部分5。
3.3。LSTM-DQN-Based联合信道分配和功率控制算法
LSTM是一种特殊的递归神经网络(RNN) (23]。如图3,LSTM单元主要包括忘记阶段,选择性记忆阶段,和输出阶段,通过忘记门实现,输入门,分别和输出门。LSTM的核心是控制细胞状态通过这三个互动门状态。它可以捕捉重要但隐性知识很长一段时间,抛弃不必要的消息。因此,它显示了优良的性能在解决问题的梯度消失或梯度爆炸在长序列的过程中训练。
一方面,它验证的状态信息渠道有高度的自相关,这可能相当长时间间隔从当前状态24]。另一方面,有巨大的潜力来提高成功的概率访问渠道由于LSTM因为LSTM独特的网络结构可以有效地获取有价值的知识,并不明显。跟踪隐式相关性在很长一段时间,我们结合LSTM DQN(如图4)将收集到的部分已知信息和获得更好的控制策略通过离线学习。一旦训练阶段完成,用户只需要沟通与中央单位通过稍微调整神经网络的重量。在每一刻,APs选择可用的通道和SUs选择最优传输能量根据DQN训练。中所示的特定算法的算法1。
|
4所示。绩效评估
在本节中,我们评估我们的算法的性能仿真实验。
4.1。实验设置
在我们的模拟场景中,有一个圆形区域的半径1000米。3 5 APs提供可用的频道。美联社1重叠与美联社2,美联社3重叠与美联社4。据美联社5独立于他人。有10个微蜂窝技术的服务范围每个AP 1聚氨酯和2 SUs争对频谱资源的访问。因此,整个网络环境包括一个基站,50微蜂窝技术,5脓,10个嫌疑犯。具体来说,PU的传动功率范围 ,和苏的传输功率范围 。白噪声为0.1兆瓦。主要和次要用户的SINR阈值是1.0 dB和0.5 dB,分别。根据路径损耗的非自由空间,现在通道模型视为2-ray地面反射模型,无线传播信道增益表达式 在路径损耗指数 , 和分别是发射机和接收机的增益,然后呢和发送和接收天线的高度,分别为(20.]。为了模拟环境的复杂变化,每次迭代的数量现在设置为40000。此外,主要和次要的位置用户环境中以及信道增益是随机初始化每10000次迭代。
LSTM-DQN是由5个隐藏层。第一个隐层是LSTM层,中间4个隐藏层完整的连接层。完整的连接层中的神经元的数量是256,128,128,和256年,分别。激活函数的第二、第三和第四个隐藏层采用ReLUs功能,第五个隐层的激活函数是双曲正切函数。此外,亚当算法用于神经网络更新的重量。训练样本的大小设置为128。最初的探索贪婪算法的概率是0.8和线性迭代次数减少到0。此外,1000年的内存条的容量,而培训是才开始达到500或更多的能力。
动态应用程序环境的复杂性,我们认为脓采取不同的功率控制策略。一个案例是脓采取单一的控制策略2。另一个现实是,每次更新环境参数,1或2的功率控制策略是选择随机的脓。提出基于LSTM-DQN联合算法将与两个基准算法:原DQN-based算法和优先级内存加上DQN——(PM-DQN)算法。
4.2。仿真结果
图5显示了不同的损失函数算法当脓采用控制策略2,和图6情节脓时的损失函数采用混合控制策略。可以看出,所有的算法迭代学习后达到收敛。我们LSTM-DQN算法有一个很大的瞬时波动环境参数变化时,略优于基准。另一方面,该算法基于PM-DQN波动较小。这是因为点大大加快收敛速度的损失函数通过切断相关,而LSTM需要关联过去的经验,这样的损失函数不快速收敛到最小值。然而,有意义的联合信道分配和功率控制问题没有马尔可夫性质。我们将在下面解释来自其他方面。
数据7和8描述的比较累积奖励当脓采用单一和混合控制策略,分别。从结果可以看出,奖励基准算法总是递减,而累积奖励LSTM-DQN和算法基于PM-DQN相对稳定。此外,LSTM-DQN更高的回报。值得注意的是,的累积奖励LSTM-DQN接近或略高于水平线0,这表明信道分配和功率控制方案仍有进一步改进的空间在未来工作。
数据9和10评估的切换成功率。一旦用户能够访问通道,成功完成传输任务在20开关,它被认为是一个成功的经验。从仿真结果可以得出结论,我们LSTM-DQN可以确保最大的成功率和迅速调整策略当环境参数随机更新。此外,聚氨酯采用混合策略时,该算法仍然可以显示良好的鲁棒性和理想的泛化能力。
数据11和12描述的比较交接步骤。我们观察到,不管脓,所采用的控制策略和算法保证最优策略平均后可以找到一个交接。它有助于减少能源消耗,大大提高用户的敏感性,能对实时环境的变化更快。此外,当环境参数更新,该算法显示了抗干扰性能和泛化能力。
然后我们分析通道如图累积冲突13和14。当脓采取单一的控制策略,该算法,该算法基于PM-DQN执行密切。在脓采用混合策略的情况,LSTM-DQN-based算法可以进一步减少渠道冲突。结果表明,该算法在处理复杂条件下有很好的潜力。
5。结论和未来的工作
针对联合设计crn的信道分配和功率控制问题,提出了一种新颖的算法基于LSTM-DQN。分析了该算法的可行性和实现过程。通过仿真实验,LSTM-DQN-based算法的优点进行了讨论和说明方面的损失函数,奖励功能,成功率,交接步骤,通道累积冲突。特别,我们的方法优于其他两个DQN-based竞争对手。
我们未来的工作将涉及使用真实的数据来验证该算法的可行性。此外,环境的各种因素,例如,移动的用户,可以考虑进一步研究大规模频谱资源管理问题。
数据可用性
使用的数据来支持本研究的发现正在禁运而研究成果商业化。请求数据,本文的发表之后的12个月内,将被相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持部分由中国国家自然科学基金(批准号61971147),专项资金从中央财政支持地方高校的发展(批准号400170044和400170044),基础的国家与地方联合工程研究中心智能制造Cyber-Physical系统,和广东省重点实验室Cyber-Physical系统(批准号008)。