在毫米波链接稳定传输容量Q-Learning-Based方案

文摘

由于不可控因素(如无线电信道质量,无线终端移动性和不可预知的障碍出现),毫米波(mmWave)链接可能会遇到一些问题,如不稳定的传输容量和较低的能源效率。在本文中,我们提出一个新的传输容量稳定方案基于q学习的机制的帮助下边缘的计算设施集成mmWave /增速低于GHz系统。与援助的方案,一个集成mmWave /增速低于GHz用户设备(UE)可以调整其传输功率和角,甚至选择稳定其传输容量的传递问题。不同于传统方案,该方案是在边缘运行计算设施,任何问题只需要提供个性化的信息(例如,基站发现,周边问题,工作状态(即。忙,空闲),位置坐标,和剩余能量水平),然后它会收到边缘计算智能和自适应制导设备。这有助于每个问题保持其传输容量稳定通过调整其无线电参数。仿真结果表明,提出的任何问题与援助计划可以实现更稳定的传输容量和更高的能源效率。

1。介绍

尽管当前的蜂窝网络可以保持服务质量(QoS)供应和提供良好的用户体验1- - - - - -5),目前在这些网络难以满足日益增长的技术能力要求未来的无线用户(6- - - - - -9]。无线网络流量和连接用户设备(问题)的数量预计将有下一代移动网络的快速增长10- - - - - -12]。丰富的频谱资源,提高频谱效率的物理层技术,和密集的网络部署是应对这种增长的关键性因素(13,14]。

尽管增速低于GHz频段具有良好的传播特点,总的可用带宽不足以支持快速增长的交通需求。因此,毫米波(mmWave)频段可以利用丰富的带宽(15- - - - - -18]。然而,尽管mmWave乐队有极其丰富的频谱资源,用户使用mmWave设备可能遭受糟糕的服务由于很高的信号阻塞损失。

采用中继站可以绕过障碍从而避免堵塞19]。然而,为了减少mmWave链接是阻塞的概率,mmWave基站应密集部署(20.]。mmWave网络基础设施,75 - 100米之间的距离mmWave基站需要完全覆盖(21),这显然会增加对网络运营商的资本和运营开支。因此,超密部署实现完整mmWave报道可能是行不通的。结合mmWave网络与现有的增速低于GHz蜂窝网络是一种可行的方式来利用mmWave技术(22]。

(即新mmWave天线模块。,QTM052) has been developed by Qualcomm [23),这可能与增速低于GHz共存天线模块在无线设备。因此,增速低于GHz天线模块可以用来连接细胞基础设施时没有任何mmWave附近基站。此外,如果一个mmWave链接受阻,增速低于GHz细胞链接也是一个选择。然而,很难保证一致的用户体验,这对移动用户更是如此。

为了保持用户体验的一致性,它应该确保尽可能稳定的传输能力。这将是一个具有挑战性的任务。虽然毫米波与视距(LOS)条件有很高的吞吐量,吞吐量急剧下降,当这样的链接被屏蔽。以来增速低于GHz细胞链接不能达到原来的吞吐量水平,它导致了糟糕的用户体验,因此这不是一个合格的替代。此外,无线设备的流动很难保持稳定的传输容量。

因为一些无线环境因素(如无线电频道质量、无线终端移动性和不可预知的障碍出现),这将影响输电能力的稳定性,可能无法控制,有必要调整一些可控参数(例如,传动功率、天线发射和接收波束宽度,和替代路径)以一种聪明的方式来抑制失控造成的不稳定因素。机器学习方法可以用来设计这样一个聪明的监管方案。

比较典型的机器学习方法(例如,支持向量机,线性判别分析,k最近的邻居,和反向传播神经网络)[24),强化学习通常由试验和错误特征学习和推迟返回。Multiarmed土匪(MAB)是一种单级的强化学习的理论模型。一些无线通信问题已经被使用马伯工具(25]。马伯问题,每个决策者都需要选择操作的一个子集的未知预期回报,其目标是获得最大的报酬随着时间(26]。因此,它必须首先解决勘探开发难题。一方面,所有的行为都应该充分探索为目的的学习他们的回报。另一方面,这些行为都被认为是产生高回报应该充分利用。

q学习的是一个模范自由强化学习技术,它由一组代理、一组,和一组操作。通过执行一个操作在一个给定的国家,代理获得奖励,我们的目标是最大化其累积奖励。通常,Q-function用于说明这样的奖励,这被认为是一个行动效用函数。问表是适应存储的值Q-function,用于评估采取一个行动的利弊在一个特定的状态。首先,每个条目在Q-table被初始化为零值,然后以迭代的方式更新后代理执行一个动作并获得相应的奖励,以及在每个时间即时合成下一个状态。

方法基于Q值具有较高的数据利用率和稳定收敛,尤其是当状态空间很小或者行为的数量很小。因此,我们将q学习方法引入到本文,将提到的可控参数与构建状态空间的不可控因素。无线设备的实际状态将被映射到这个系统维护的状态空间。系统维护的状态空间较大时,映射状态点会更接近实际状态。然而,当一个目标状态点需要在较大的状态空间搜索,它可能需要更长的时间(或更多)达到这个目标状态点。因此,培训过程Q-learning-based方案应该运行在一个资源丰富的云基础设施,而训练有素的Q表应该被发送到一个边缘的计算工具,使决策基于Q表的问题。

当任何无法控制的因素发生变化时,将当前状态转换成一个新的国家,这可能会使输电能力更好或更糟。如果是前者,用户体验通常是不受影响,但可以节省网络资源,调整控制参数。如果是后者发生,可控参数应调整增加资源供应,以抑制能力下降趋势。基于上述分析,我们提出一个Q-learning-based计划保持mmWave链接能力稳定,这主要包括以下贡献:(1)我们所知,我们是第一个结合设备间(D2D)通信方式传输功率控制、波束宽度调整,和其他环境因素(例如,链接堵塞和通信距离)来构建一个统一的状态空间,这对稳定奠定了基础在毫米波传输容量的链接。(2)任何边缘计算设施可以卸载Q表培训任务到云设施,同时它使决策基于训练Q表为每一个问题。同时,为了确保Q表信息的及时性,我们结合云计算设施与多个边缘计算设施培训每个问表。每个问题只需要定期报告其个性化的状态信息来计算边缘设备附近。因此,它不是经常参与访问链接的维护质量,维护开销小。(3)与现有的基于q学习的性能优化方法,它总是不惜一切代价优化系统性能,而该方案仅维护性能满足用户应用体验的要求,这有利于节省资源的前提下尽可能满足用户应用程序体验。(4)基于云计算培训、边缘的决定,和终端用户的参数调整,闭环流程构建,形成一个良性循环的学习和反复做,有利于抑制振荡的传播能力mmWave链接动态环境因素造成的。

本文组织如下的余数。介绍了相关的工作部分2,在系统模型中所描述的部分3。q学习解决方案在节中有详细描述4。实验设置和仿真结果给出了部分5。总结了结论和进一步的工作部分6。

由于模范自由特征,q学习已被广泛应用于各种无线网络一个聪明的决定。文献[27)提出了一个基于q学习的异构分布式多目标的策略,是建立了家庭基站的自我配置和优化。文献[28]构成Q-learning-based方案密集小细胞网络管理单元故障的目的。

解决干扰管理问题的一种小细胞(如毫微微蜂窝)、文学(29日)提出一套分布式和混合式Q-learning-based功率分配算法,目标是提高网络吞吐量,能源效率和用户体验。有效利用资源有限的传感器节点,同时满足服务质量要求,应采用一个有效的任务调度方案来解决这个问题。基于q学习的合作模型,文献[30.)设计了一个任务调度算法,它可以帮助智能传感器节点来确定下一个执行的任务。

文献[31日)设计了一种多态提高强化学习方法p持续的载波监听多路访问协议。基于q学习的深度学习,文献[32]探索传输调度机制来提高数据包传输效率在认知同物联网(物联网)。提高吞吐量和能源效率的方向混合认知无线媒体接入控制协议,文献[33)提出了一个基于q学习的通道选择算法和定向传输功率控制方案,分别。

多个无线访问的集成技术(老鼠)有助于提高网络容量。长期的最大化网络吞吐量,同时满足不同交通需求,文献[34)提出了一个智能聚合鼠访问策略和构建了一个半马尔科夫决策过程(SMDP),一些Q-learning-based计划用于解决这个SMDP的问题。

提高吞吐量和能源效率的方向混合认知无线媒体接入控制协议,文献[33)提出了一个基于q学习的通道选择算法和定向传输功率控制方案,分别。前者可以尝试基于二级用户选择最好的通道”的观察主要用户的流量和通道特性(例如,实现吞吐量和丢包),而后者允许节点可以重用的通道受到干扰约束达到最大并发传输的目的。

以上作品关注的问题的传输容量稳定mmWave链接。然而,文献[35)提出一个州q学习算法来提高mmWave回程系统的可靠性。当视线范围(仿真结果操作是不可避免的,由衍射传播工作。根据学习结果来自这个算法,该系统可以在一个预定义的时间选择合适的传播路径和开关。虽然文献[35)地址的性能可靠性研究mmWave链接,它关注回程链路的能力的提高。此外,在文献[35),每个代理只有自己的政府行动空间模型从一个局部视图的操作环境,而不是全球。因此,很难提供更准确的决策依据。

3所示。系统模型

3.1。网络体系结构

如图1,我们认为一个宏单元,包括一个集成mmWave /增速低于GHz宏观基站(MBS)一定数量(表示米)mmWave小基站(SBSs),和大量(表示n)集成mmWave /增速低于GHz问题。由于缺乏增速低于GHz乐队,所有的SBSs只是上启用mmWave乐队。众所周知,增速低于GHz频段有较小的带宽资源与mmWave乐队相比,但是他们有更好的覆盖范围和更高的稳定性。因此,增速低于GHz频段主要用于信号信息和网络控制为目的的管理mmWave链接。

增速低于GHz频段,无线信号的传播特性可以用自由空间模型近似或两个雷地面模型。然而,总结如18),mmWave信号路径损耗较高,高渗透损失,严重的大气吸收,更由于雨衰减,从而表现出明显不同的传播特性的增速低于GHz频段。因此,一个合理的原则应遵循发展的数学框架,这可以通过充分考虑模型现实mmWave传播路径损耗和堵塞。

基于随机几何mmWave传播模型(即包括三种类型的链接。,lOS, NLOS, and outage (OUT) links), where the probability of a link in any of the three states is considered as a function of distance according to [20.]。如果直接路径与两个通信节点之间存在良好的渠道传播条件,在洛杉矶的状态。否则,当这条路直接阻塞但是他们之间还有其他路径(例如,通过反射),在仿真结果的状态。此外,如果两个通信节点之间的路径损耗太大,无法建立任何联系,国家发生。

数据信息也可以传播在增速低于GHz链接在必要时(例如,mmWave乐队)的信号质量差的问题。正如上面提到的,很难达到的能力水平mmWave链接的条件。因此,只有在小交通需求的情况下,一个集成mmWave /增速低于GHz问题可以忽略的接入信道状态附近mmWave SBSs沟通并选择直接与MBS增速低于GHz频段。然而,当访问交通需求是巨大的,它必须依靠附近mmWave SBS建立高通量访问链接。通常,控制信号和简单的服务请求信息非常小,因此它们是由远程增速低于GHz宏单元。短视频或照片,立即拍摄和传输大量的数据,因此,它们是由mmWave用于高容量的小型电池。

任何问题可以找到所需的SBS通过积极启动探测包或被动接收信息从附近SBSs灯塔。当这个问题需要传输大量的视频或照片数据,只发现它可以连接SBS在仿真结果的情况下,也就是说,只有一个仿真结果存在问题和SBS之间直接沟通联系,我们考虑构建路径组成的多节的洛杉矶链接使用D2D通信模式,用于替换这个仿真结果mmWave链接。如果有一个良好的激励机制,我们相信任何问题通常都愿意充当D2D传送问题,如果处于闲置状态,也要求。这样的激励机制超出了本文的范围,但是类似的计划一直在探索一些文献[13,36]。

目标问题和选择传送问题可以充分利用宽带mmWave乐队如果他们有洛杉矶的条件。此外,我们假设边缘计算设施部署在宏单元,对计算任务可能需要卸载的问题和提供实时响应。也,因为边缘计算设施只有有限的计算资源,他们出售的复杂的训练任务q学习计划到云基础设施。

3.2。问题陈述

在本文中,我们的目标是稳定传输能力mmWave链接通过设计一个Q-learning-based方案。为此,我们首先需要建立一个为每个问题状态表,应充分考虑的因素,影响传输容量mmWave链接。

对于任何问题我和1≤我≤n,我们表示集关联的状态B_我= {b_我,我| 1≤j≤米},b_我,我∈{“无关”,“相关”}。“按”意味着问题我不能发现SBSj,而“关联”意味着问题我可以发现SBSj可能是相关的。

的集距离SBSs的问题我表示为D_我= {d_我,我| 1≤j≤米},d_我,我∈{“附近”,“中”,“远”}。“附近”意味着SBS的距离j从问题我是不到一半的SBS的最大覆盖距离吗j。如果距离SBSj从问题我比SBS的最大覆盖距离吗j,它属于类别”。“除了以上两种情况,它属于类别”中。”

的集权力SBSs传播的问题我表示为P_我= {p_我,我| 1≤j≤米},p_我,我∈{“无效的”,“低”,“中”,“高”}。“无效”意味着问题我不能与SBS沟通j即使它采用最大传输功率。的“低”、“媒介”,“高”问题我可以与SBS通信j。如果传动功率SBSj从问题我不超过三分之一的最大传输功率的问题吗我,它属于“低。“如果SBS的传动功率j从问题我超过三分之一,但不到三分之二的最大传输功率的问题吗我它属于“媒介。“如果SBS的传动功率j从问题我不少于三分之二的最大传输功率的问题吗我它属于“高”。

的集传播的角度(或发射光束宽度)SBSs问题我表示为G_我= {| 1≤j≤米},∈{“非常小”、“小”,“媒介”,“大”}。“很小”意味着问题的SBS的传动角我小于30°。“小”意味着问题的SBS的传动角我范围从30°- 90°。“中等”意味着问题的SBS的传动角我范围从90°- 180°。“大”意味着问题的SBS的传动角我超过180°。

我们表示集继电保护状态的l_我= {l_我,我| 1≤j≤米},l_我,我∈{“没有选择”,“选择”}。“没有选择”意味着问题我不选择继电保护问题将数据转发到SBS吗j,而“选择”意味着它已经这样做了。

当一个问题不能与任何SBS在当前有关,这种脱节的状态从任何SBS可能改变如果是移动。如果它保持静止一段时间,它最好保持沟通与SBS D2D通信模式。广播D2D传递请求数据包后,问题可以选择发送D2D传递响应数据包的邻国之一作为其D2D继电器。这样的邻居必须具备下列条件:(1)他们目前没有需要传输数据通过SBS但可以连接到它;(2)他们可以保持静止一段时间;(3)他们收到了D2D传送请求包。由D2D传送响应数据包,应答器将报告能力之间的联系及其相关的SBS和自己的位置坐标,以促进相应的请求者做出一个合理的决定。

自由空间的理论路径损耗(FSPL) D2D传送链接从请求者(例如,问题我)到应答器(例如,问题我′)是由Friis定律(37如下所示,用于《场景:

在(1在dB), FSPL测量;f_c是GHz的载波频率。当请求者采用其最大传输功率广播D2D传送请求,全向路径损耗下的RSS价值估计由以下公式:

在(2),和响应方的RSS价值和最大传输功率的dBm的请求者,分别和喇叭天线的接收增益和传输增益dBi的喇叭天线,分别在哪里和可能需要24.5 dBi的价值。如果这个问题我知道的可接受水平接收比特误码率(BER)的问题我′,相应的接收功率阈值问题我′估计由以下公式:

在(3),接收功率阈值是问题吗我在dB′,测量;是_th阈值是接收误码率D2D链接的问题吗我的问题我′,所需的BER值通常是10⁻⁸∼10⁻¹⁰;和环境噪声功率在接收端以瓦特。相应的战略来确定实际采用的传动功率如下:

在(4),中所需的传动功率D2D链接的问题吗我的问题我在dB′,测量;最大传输功率的问题吗我在dB测量;和路径损耗值在D2D链接的问题吗我的问题我′。当问题我知道自己的位置坐标和坐标位置的问题我′,距离问题我的问题我′的公式可以很容易地由两个点之间的距离。基于距离的问题我的问题我′,我们可以估计根据公式(1)。

基于上述问题我只希望访问SBSj状态空间,其定义如下:

在(5),有192个问题的组合状态我每个复合状态,包含五个维度单一状态。从理论上讲,组合状态的数量将呈指数增长的粒度的细化单状态值。

对于任何问题我,可采用的措施,促进生成的状态转换是通过改变的值p_我,我, ,和l_我,我后的值b_我,我和d_我,我很难控制的问题我。因此,行为问题的集合我可以定义如下:

在(6),有32的行为问题我。此外,当问题我希望访问任何人的SBSs,其状态空间定义如下:

因此,相应的行动空间的问题我定义如下:

为了专注于网络应用程序,而不是把资源用在网络性能维护,一个问题代表计算设施附近的边缘保持其状态空间并做出决定。为了确保Q表更新及时,我们使用云计算设施的组合和多个边缘计算设施来训练他们。这些问表建立云计算的训练设施,它将被发送到边缘计算设备经过一定程度的训练。基于每个训练Q表,边缘计算设施可以为每个问题做出决定来指导它的参数调整维护输电能力稳定。

同时,每个计算设施更新自己的Q表在每个决定。当一个计算设备接收到从云计算设施,训练有素的Q表更新其Q表通过计算Q表来自云计算设施和自己的当前Q表。因为每个值Q表最终将收敛于其相应的固定值从任何初始值,云计算设备或每条边计算设备可以继续训练每个Q表基于当前信息。因此,虽然更频繁变化的环境可能导致训练时间越长,它只有轻微影响的性能训练Q-tables只要训练过程正在进行。相反,当一个Q表训练了一段时间,云设施可以停止训练它节省资源。

每个问题都需要定期报告其个性化信息来计算边缘设备附近。例如,基于问题的信息我,边缘计算设备将映射问题的实际状况我在训练有素的Q表状态。从这个映射状态开始,训练有素的Q表将显示状态转换的可行路径,对应的Q值后更新相应的状态转换。每个复合状态,相应的输电能力水平估计通过一组预先确定的策略规则。在一个可行的路径状态转换,每个状态转换应该改善这个传输容量。状态转换操作将停止这个传输容量是否满足应用需求或被遍历的可行路径。解决方案的细节在下面会详细进行介绍。

4所示。q学习的计划

4.1。奖励表

奖励值在不同的州可以存储在一组奖励表,其中每个奖励表是一个二维矩阵与美国行和行动为列,如图2。本文的奖励价值问题我(1≤我≤n)被定义为传输容量,它可以获得访问SBSj(1≤j≤米)以节能的方式采取行动一个_y(1≤y≤32)状态下年代_x(1≤x≤192)表示并估计以下公式:

在(9),是five-tuple复合状态,其第一项赋值b_我,我,“按”和“相关”替换为“0”和“1”分别为简化表示。同时,第五项分配一个值l_我,我,“没有”和“选择”替换为“0”和“1”分别出于同样的原因。其他三个条款被分配一个值d_我,我,p_我,我, ,分别象征意味着任何相应的价值集可以采取。同时,一个_y在(5)是一个三个数组,从三项被分配一个值p_我,我, ,和l_我,我,分别。

此外,的带宽是问题吗我将数据发送到SBSj。环境噪声功率。通道衰减系数的问题吗我将数据发送到SBSj,可由接收端检测和测量。同时,可以通过一些经验估计公式。在这方面,总结了许多mmWave通道传播模型在文献[38),将建筑的基础这样的经验公式。问题的力量吗我将数据发送到SBSj,这是第一项一个_y。大约是接收功率增强系数,表示如下:

在(10),问题的角度吗我将数据发送到SBSj,也就是第二个任期一个_y。更大的发射角会导致较弱的接收功率,由于传动功率更分散。公式(10)大致描述这一特性。

4.2。时间槽结构

对于每个问题,沟通时间分为间隔以一个恒定的长度T_l,每个用t∈T={1,2,…},如图所示3。每个问题执行以下任务依次在每个时间间隔。首先,在信息报告槽,每个问题报告其个性化信息来计算边缘设备,例如,SBS的发现,周边问题,工作状态(即。忙,空闲),位置坐标,剩余能量水平。

然后,每个问题将等待来自边缘的反馈计算设备在等待反馈槽,在边缘计算设施委托云设施执行Q表培训任务,然后为每个问题做决定基于相应的训练Q表。加快响应,边缘计算设施可能决定使用先前的训练问表,由云计算设施训练根据收集到的信息在前面的间隔,而训练有素的Q表根据收集到的信息在当前的时间间隔将用于下一个时间间隔。

接下来,根据决策结果来自边缘的计算设备,每个问题都将调整其传输参数在参数调整槽,目标是实现稳定的访问能力尽可能。最后,每个问题将使用调整后的参数数据通信的数据传输插槽。如果前三个时段可以尽可能地缩短,第四次槽将足够长的时间,这有利于网络访问能力增强。

4.3。问表

像一个奖励表、Q表也是一个二维矩阵与美国行和操作列。问表中的每个值意味着知识获得的代理从网络环境。每个代理让学到的价值观从网络环境问表对所有可能的行动。

在一个区间的开始t一个代理(例如,问题我)状态下(例如, )选择一个动作(例如, )和接收奖励(例如, )开始下一个时间间隔t+ 1。最初,因为没有经验来学习,每个条目的Q表被初始化为0。Q值是基于以下Q-function更新:

在(11),代表一个学习速率和0≤≤1,更高的价值给当前的奖励比过去的知识更多的重量。是一个折扣因素和0≤< 1,更高的价值意味着一个代理更重视未来的回报。是下一个状态后是执行。是国务院行动最大化Q值吗。

q学习算法,学习速率和折现系数是两个重要的参数,而前者是用来测量的速度学习过程,而后者是用来衡量未来回报的比例。

4.4。状态转换策略

代理的策略(例如,问题我选择一个行动在一个给定的状态下建模如下:

在(12),表示函数的策略,最大化的价值的行动在一个给定的状态下将被选中。

对于每个问题,边缘计算设备将问表,记录每个Q值为每个环境状态和每个可能的行动。剥削是由边缘计算设备使用一个epsilon-greed算法,随机选择一个其他的行为除了最著名的行动来提高估计探索所有的Q值的概率ϵ并选择最著名的行动探索1−概率ϵ。

4.5。q学习算法的描述

伪代码描述为奖励表初始化显示为算法1第7行,具体含义是采用允许的最大传输功率,最大允许传动角,允许最遥远的距离SBS在一个特定的状态来计算奖励价值在这种状态。

	在云计算设施
	输入:和的问题我
	输出:奖励表初始化的问题我
(1)	为每个SBS做
(2)	为每一个做
(3)	为每一个做
(4)	如果问题我与SBS没有联系吗j然后
(5)	= 0
(6)	其他的
(7)	确定 , ,和根据和
(8)
(9)
(10)	如果
(11)	结束了
(12)	结束了
(13)	结束了

因为奖励表的初始化不需要任何问题的个性化信息,它可以由云设施独立处理。然而,由于动态无线通信环境中,这种个性化的信息需要定期更新奖励表。为了满足交互的及时性要求,这个更新过程应该由边缘计算设备。

在每个区间的信息报告槽与一个常数长度T_l,每一个问题(例如,我)将报告其个性化信息边缘计算工具。通常,它报告相关信息通过相关的SBS(例如,j)mmWave通道,促进SBSj估计参数基于感知的信道状态信息。如果问题我不能与任何SBS,它报告相关信息通过MBS增速低于GHz细胞通道。在随后等待反馈槽,边缘计算设施更新奖励表,委托云计算设施训练问表,并使决策基于训练Q-table每个问题。

一旦收到问题个性化信息我首先确定问题,边缘计算设施我与一个SBS根据SBS发现信息报告的问题吗我。如果它是真的,边缘计算设施会放弃更新奖励表问题我。否则,每相邻的问题问题我发现,如果边缘计算设备可以与SBS根据SBS发现信息有关报道它也闲置据报道的工作状态信息,它被认为是问题的候选人传递问题我。如果问题我有多个候选人传递问题,候选人在相同的SBS覆盖范围问题我将为主,很容易确定他们是否在同一个SBS覆盖范围基于报告的位置坐标信息。上面的筛选后,如果问题我还有多个候选人传递问题,能源储备水平最高的候选人成为导致继电保护问题的问题我。伪代码描述为奖励表更新显示算法2。

	运行在计算机设备
	输入:奖励表初始化问题我和个性化的信息报告的所有的问题
	输出:更新后的奖励表问题我
(1)	发现SBS相关的问题我根据个性化信息报告的问题我
(2)	如果没有任何SBS相关问题我然后
(3)	确定周边问题的设置根据个性化信息报告的问题我
(4)	为相邻的问题我′做
(5)	确定其关联状态和工作状态根据个性化信息报告的问题我′
(6)	如果问题我′既与SBS和闲置然后
(7)	记录作为候选人传递问题的问题我并将其存储在R设置_我
(8)	如果
(9)	结束了
(10)	提取每个候选人R设置_我在相同的覆盖范围问题我然后存储在老组_我
(11)	如果的老组_我不是空然后
(12)	选择候选人的最高能量储备水平老组_我,这是表示问题我与SBS′和关联j
(13)	为每一个做
(14)	为每一个做
(15)	确定 , ,和根据和
(16)
(17)	=
(18)	结束了
(19)	结束了
(20)	其他的如果的R设置_我不是空然后
(21)	选择候选人的最高能量储备水平R设置_我,这是表示问题我与SBS′和关联j′
(22)	为每一个做
(23)	为每一个做
(24)	确定 , 和根据和
(25)
(26)	=
(27)	结束了
(28)	结束了
(29)	如果
(30)	如果

更新后的奖励表问题我提交给云计算设施为目的的培训问表。问表训练过程的伪代码描述算法所示3。

	在云计算设施
	输入: , ,更新后的奖励表问题我
	输出:训练有素的Q表问题我
(1)	初始化每个条目的Q表为0
(2)	为每一集做
(3)	随机选择一个初始状态
(4)	= 0
(5)	为每一个做
(6)	计算根据公式(7)
(7)	问表的更新相应的条目
(8)	如果然后
(9)
(10)
(11)	如果
(12)	结束了
(13)	确定勘探概率(如0.1)基于exploration-exploitation政策
(14)	生成一个随机数从0到1
(15)	如果然后
(16)	如果可以转让到下一个状态(例如, )然后
(17)	去4
(18)	如果
(19)	其他的
(20)	随机选择一个行动
(21)	如果选择的行动可以转让到下一个状态然后
(22)	去4
(23)	如果
(24)	如果
(25)	结束了

虽然算法3可以训练Q表成功,它需要更多的资本和运营开支。也,花长时间获得训练Q表。因为一个真正的国家很少被映射到任何初始状态,其中包含”d_我,我=“远”,“我们可以定义一个筛选条件来过滤所有的初始状态”d_我,我= "。”“也就是说,如果任何初始状态不包含”d_我,我= "远”、“Q表(即培训过程是允许的。线4∼24的算法3将执行)。

此外,我们可以忽略的动作很少在搜索过程中采用的行动空间。例如,当包含“当前状态b_我,我=“关联”,“我们可以忽略包含的行动”l_我,我= "选中。”“还有,当包含当前状态”b_我,我= "不相联系的,”“我们可以忽略包含的行动”l_我,我= "没有选择。”“上面的选择行为的约束条件是用来避免线6∼11的执行算法3问表,所以它可以加快培训过程。

训练有素的Q表问题我将被发送到边缘计算设施,将用于对问题做出决定吗我。每个决策后,对应的Q值将被更新。收到一个新的训练Q表之前,现有的Q表将由边缘反复使用和更新计算设备。的伪代码描述Q-table-based决策和更新过程算法所示4。

	运行在计算机设备
	输入:r_th问题,训练有素的Q表我和当前状态
	输出:目标状态
(1)	和
(2)	计算问题的真正的能源效率值我根据个性化信息报告的问题我和公式(5),然后将它保存
(3)	如果然后
(4)	为每一个做
(5)	得到通过Q表根据和
(6)	如果然后
(7)
(8)
(9)	如果
(10)	结束了
(11)	计算根据公式(5)
(12)	如果和行动可以转让到下一个状态然后
(13)	计算根据公式(7)
(14)	问表的更新相应的条目
(15)	去4
(16)	如果
(17)	如果

在算法4能源效率,我们设定一个阈值在mmWave链接,这是表示r_th。一方面,当阈值很大,它可以维持高能源效率的系统,但平均决策时间基于Q表将会更长。另一方面,当阈值小,情况正好相反。因此,合理设置的阈值将达到适当的权衡系统的能源效率和该方案的决策速度。

为了让读者更直观的理解之间的协作关系的四个算法,算法部署的一个示例图和交互图4。对于任何问题,收集其个性化信息,然后报告边缘计算设备。另外,当它收到的反馈决定结果,它将调整其传输参数稳定传输容量的目的。

边缘计算设施,一方面,当它接收个性化信息报告的每个问题,并初始化R表来自云计算设施,它将调用算法2更新表,然后发送更新后的R表云计算设施;另一方面,当它接收训练Q表来自云计算设施,它将调用算法4为每个问题作出决定,然后决定结果的反馈。

云计算设施,一方面,它调用算法1初始化R表为每一个问题,然后发送初始化R表边缘计算设施;另一方面,当它接收到由边缘计算R表更新设施,它调用算法3训练Q表然后反馈训练Q表边缘计算设备。

5。绩效评估

5.1。模拟指标和部署设置

在我们的模拟中,我们评估的性能提出了稳定传输容量Q-learning-based方案。我们将观察的稳定传输容量的三个性能指标(即。,的number of UEs connected with SBS, the average number of state transitions, and the average energy efficiency of working UEs). The number of UEs connected with SBS is defined as the number of working UEs that can communicate with SBSs in a direct or indirect manner. The energy efficiency is defined as the ratio of data rate to power consumption, while the average energy efficiency is an average value of all the working UEs’ energy efficiency. The simulation scenario is shown in Figure1宏单元的覆盖半径1000米,mmWave小细胞覆盖半径为100米。mmWave SBSs的数量设置为固定值(即,米= 70),这些SBSs nonoverlap方式放置在宏单元。大量的问题是随机分布在宏单元。

在每个时间间隔的开始,每个问题决定的概率p_mov(例如,一个值从0.1到0.5),尽管它仍然决定留下的概率1−p_mov直到下一区间的开始。在确定移动,采用随机游走模型,问题随机选择一个方向,从0到2π,随机从0.1到1 m / s的速度,然后开始移动,直到下一个时间间隔根据所选的方向和速度。当移动问题达到模拟边界,它还是会弹回来的模拟边界,然后继续移动,在反弹角是由入射方向决定的。我们采用的mmWave通道模型73 GHz乐队和考虑三种类型的mmWave链接状态(即。从洛杉矶,和描述的仿真结果20.]。在停机状态的概率问题制定如下函数而言,这个问题的发射角SBS和之间的距离这个问题和SBS:

在(13),d是米之间的距离问题和SBS。当 ,停机状态发生的概率 ,同时仿真结果状态发生的概率。同时,我们假设的出现概率仿真结果和洛杉矶州是平等的,但没有停机状态时发生 ,而《状态总是时发生。mmWave通道的带宽设置为1 GHz,和每个问题的最大传输功率设置为20 dBm。此外,在我们的模拟场景中,洛杉矶链接的路径损耗值估计公式(1),而仿真结果的链接是由以下公式估计(20.]:

在(14),PL在dB测量;对数正态阴影方差,以分贝;和是最适合漂浮的截距和斜率测量距离(从30 - 200米),分别;和 , ,和8,86.6和2.45,分别在73 GHz mmWave乐队。

5.2。仿真结果和分析

我们比较一组的方案计划的固定采用传动功率和角度。为了方便起见,方案分为相比相比方案一(即。,的tr一个n年代米我年代年代我on power and transmission angle are fixed as one-third of the maximum value), the compared scheme two (i.e., the transmission power and transmission angle are fixed as two-thirds of the maximum value), and the compared scheme three (i.e., the transmission power and transmission angle are fixed as the maximum value).

上述四个方案,工作问题的比例(即。,的问题年代th一个thave data be transmitted through SBSs) in the total number of UEs is fixed as 50%. When the channel noise power and the thresholdr_th能源效率是100−dBm和700 Mbps / W,分别性能变化趋势的问题如图5。从图5(一个),我们看到,问题与SBS的数量增加的数量问题。背后的原因是工作问题数量的增加的数量问题,因为工作问题的比率是固定的。此外,从图5 (b)工作,我们观察到的平均能效问题几乎不随问题的数量,这表明网络规模的增加对能源效率没有明显的影响。这是因为,mmWave频带资源丰富,并能支持高并发通信。

(一)

(b)

仿真结果图5也表明,该方案明显优于其他方面的问题与SBS的数量和平均能量效率的工作问题。一方面,对于每一个工作问题与SBS不能直接沟通,该方案可以建立一个通信路径选择转发问题,这有利于增加问题的数量与SBS。另一方面,有更少的工作问题不能与SBS的方案,从而减少能源浪费,当他们都尝试连接到SBSs。

当问题的数量和阈值r_th能源效率是设置为1000和700 Mbps / W,分别与信道噪声功率的性能变化趋势如图6,这表明,问题的数量与SBS几乎不随信道噪声功率,而平均能量效率随信道噪声功率。这是因为失效链接的问题引起的高噪声功率可能恢复通过增加传动功率在一定范围内。然而,随着传动功率的增加,数据速率的增加变得越来越小的根据香农定理。仿真结果图6也证明该方案优于其他三种方案在相同的两个性能方面,在图的解释5可以应用于图吗6。

(一)

(b)

当信道噪声功率,问题的数量,和阈值r_th能源效率是设置为100−dBm, 1000,和700 Mbps / W分别性能变化趋势与工作问题的比例如图7。如图7(一),问题的数量与SBS的增长比单调的工作问题的四个方案。原因很明显,问题的数量可以同SBSs以直接或间接的方式与工作问题的数量呈正相关。

(一)

(b)

图7 (b)显示问题的平均能量效率略有降低的比率问题工作方案,虽然几乎没有其他三个方案的变化。有两个主要原因。首先,随着工作问题的比率增加,闲置问题的数量减少,从而有更少的候选人传递问题。其次,更多的工作问题意味着更多的需求传递问题。因此,在工作问题的更高比率的情况下,更少的概率有工作问题需要继电器可以选择合适的继电器,这将影响其能源效率。然而,其他三个方案不涉及使用继电器,因此他们并不影响工作的比例问题。

当信道噪声功率是固定的100−dBm和问题的数量是固定的1000年,与阈值的性能变化趋势r_th对能源效率如图8,这表明,状态转换的平均数量和平均能量效率与阈值增加r_th能源效率的方案。结果证实分析部分4.5。然而,其他三个方案不涉及状态转换,因此他们几乎不受阈值的影响r_th对能源效率。图8(一个)显示结果的均值超过时间间隔。当阈值相对较低,几乎都是在大多数时间间隔状态转换。因此,状态转换的平均数量小于1。

(一)

(b)

除了上面的模拟中,我们也比较算法的性能3之前和之后添加过滤条件。当折扣因子β被固定为0.5,性能变化趋势与学习速率α如图9。同时,当学习速率α被固定为0.5,性能变化趋势与折扣因素呢β如图10。由于事件的数量设置为一个固定值(例如,1000年我们的模拟),状态转换的平均数量可以用来间接测量不同方案的运行成本。在数据9和10,能源效率是指最好的能源效率的价值培训路径(对应于一集),而平均能量效率平均值而言最好的能源效率值路径的所有训练。

(一)

(b)

(一)

(b)

从数据9(一个)和10 ()该算法,我们可以观察到3过滤条件明显优于未经过滤条件的状态转换的平均数量。这表明它确实减少运行开销为代理过滤器在训练过程中一些不必要的初始状态。此外,数据9(一个)和10 ()显示状态转换的平均数量几乎没有变化的学习速率α和折扣因素β改变。主要原因是状态转移的数量取决于初始状态的选择和训练轮但数量关系不大α和β。

从数据9 (b)和10 (b)我们也看到,算法3过滤条件优于未经过滤条件的平均能量效率。这一现象背后的原因主要归因于一些初始状态的状态转换可以未能达到理想的状态,具有良好的能源效率。因此,它是必要的,这些在训练过程中初始状态将会被过滤掉。在实践中,问题很少遇到这些初始状态。此外,图9 (b)显示平均能量效率提高学习速率α增加,而图10 (b)显示平均能量效率降低的贴现因子β增加。

这是因为一个更大的价值α意味着一个代理目前更关注眼前的利益而不是过去的奖励。因为过去奖励不一定适应现状,更大的价值α有助于加快训练过程,从而得到更好的培训效果。同时,一个更大的价值β意味着一个代理更重视未来的回报,而不是当前的奖励。由于未来预期的不确定性,一个更大的价值β不会有助于加快培训过程,因此几乎没有改善的结果。

5.3。Q-Learning-Based方法的比较和在线学习解决方案

在介绍中提到的,q学习模型和马伯理论模型都是在强化学习的范畴。因此,在本节中,我们简要地考察一下这两种模型的性能用于解决本文的关注点。通过建模我们关心的问题作为一个上下文multiarmed土匪问题,我们设计一个上下文在线学习算法与我们的q学习方法。根据表达式(5)中定义的分段3.2,我们定义的表达式(5)作为问题的环境空间我在SBS的报道j子空间,分为六个上下文。

同时,我们定义的表达式(5)作为资源的设置问题我可以请求。根据问题的实际状况我,子空间它所属的上下文可以从上下文找到空间。在这种背景下子空间,为每个资源的集合 ,有一个相应的国家,属于一个国家的状态空间中定义的表达式(5),因此这个状态下的性能可以由公式(9)。

使用相同的算法设计思想1在[39),我们可以设计一个类似的上下文的在线学习算法,在线学习预期的资源表现在不同的上下文中。该算法假设适合,类似的问题背景,特定资源的性能将平均是相似的。这个上下文在线学习算法执行以下步骤问题我。它首先均匀分区上下文空间分成六个上下文独立子空间和了解不同资源的性能在每个子空间的上下文。

然后,在每个时期,算法执行一个勘探或开发。一个控制函数是用来确定哪些阶段进入。在探索阶段,算法随机选择一组资源的问题我,而在开发阶段,该算法选择资源显示最佳性能时选择在之前的时期。通过观察的数据量传输问题我,该算法获得的性能估计选中的资源。因此,学习不同的资源在不同的性能随着时间的推移问题上下文。为了节省空间,我们省略了算法描述。请参阅[39]的算法描述细节。比较两种类型的学习算法的特点是列在表中1。


学习算法的类型	优势	缺点

Q-learning-based方法	当Q表是训练有素,基于Q表的决策速度非常快	问的全部培训表需要足够的计算资源和需要很长时间
在线学习解决方案	不需要训练过程,从而节约培训资源	决策过程是慢于训练有素的Q表格决策过程

虽然训练阶段的q学习算法需要大量的计算资源,决策的速度问题我据一位训练有素的Q表是速度比的在线学习解决方案,不需要额外的培训阶段,这也说明了在图的结果11。基于上述仿真设置,在我们Q-learning-based方法,决定平均开销可以用平均近似状态转换的数量在所有可行的决策路径的训练有素的Q表。

(一)

(b)

上下文的在线学习解决方案,其资源空间的大小是我们Q-learning-based的行动空间一样的方法。当问题我知道它的上下文子空间,它仍然需要遍历其资源空间到达决定的结果。因此,语境在线学习解决方案要求n比较得到最好的资源如果采用一个简单的枚举模式,n代表的资源空间的大小问题我。

如果我们排名资源的资源空间的性能指标,我们可以直接选择表现最好的资源,在决定时间。然而,性能指标需要更新后每个决策基于资源的实际表现,所以新更新的值需要重新排序在原始命令表方便接下来的决定,不能省略。如果我们发现的新的位置更新原始命令表中的值基于二进制搜索方法,操作的最大数量 ,因此相应的平均值。

基于上述仿真设置,状态转换的平均数量在所有可行的决策路径的训练有素的Q表同192个国家和32操作波动在1.2和1.3之间当问题的数量变化从600年到1200年,虽然它在1.1和1.3之间波动,当信道噪声功率变化之间110 dBm和−−60 dBm。

上下文的在线学习解决方案,因为它的资源空间的大小是一样的行动空间Q-learning-based方法,n需要32,因此。因此,更新原命令表的开销后每个决策可以近似为2.5,可以用来近似上下文的决策过程开销在线学习解决方案。直觉,我们在数据显示结果(11日)和11 (b)。

当信道噪声功率小于110−dBm,它表明,通道条件都很好,无论初始状态是什么,提高性能通过改变空间状态非常有限,所以状态转换的平均数量是非常小的在我们Q-learning-based方法。然而,在上下文在线学习解决方案,基本上是不变的决策过程开销。结果,决定开销的比例在q学习方法突然下降,在在线学习解决方案。

6。结论

在本文中,我们调查了在mmWave网络和传输容量问题提出了Q-learn-based方案稳定传输能力mmWave链接从能效优化的角度来看。该方案与其他三个方案的问题与SBS的数量,状态转换的平均数量,平均能源效率。此外,我们讨论了如何降低成本Q表的培训过程。仿真结果表明,该方案使问题与SBS的最多,同时也达到最好的平均能量效率的四个方案。同时,仿真结果表明,Q表可以加速训练过程过滤一些不必要的状态和行为,和Q表性能也能满足决策需求。

数据可用性

仿真数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这个工作是支持部分由中国国家自然科学基金资助(没有。61873352和61873352)。

引用

m·t·w·j . Tan Liu Wang赵,A .刘和张,“高精度内容流行预测计算模型为移动计算通过使用矩阵完成技术,”交易新兴电信技术,2020年。视图:出版商的网站|谷歌学术搜索
刘曾y, z, x, x,和m .下榻的饭店”小说负载平衡和低响应延迟edge-cloud框架网络基于SDN,”IEEE物联网,p . 2019。视图:出版商的网站|谷歌学术搜索
j .罗x h·邓h . g . Zhang和h . m .气“QoE-driven计算边缘计算卸载,”《系统架构卷。97年,34-39,2019页。视图:出版商的网站|谷歌学术搜索
黄m . w . Liu t . Wang A .刘和张,“cloud-MEC协作任务卸载方案与服务编排,”IEEE物联网,p . 2019。视图:出版商的网站|谷歌学术搜索
k·m·陈t . Wang Ota, m .董m .赵和a·刘,“汽车智能资源分配管理网络:一个A3C学习方法,“计算机通信卷,151年,第494 - 485页,2020年。视图:出版商的网站|谷歌学术搜索
f·贾米尔,z哈米德,f . Jabeen s Zeadally和m . A . Javed”设备间通讯的调查研究问题和挑战,”IEEE通信调查和教程,20卷,不。3、2133 - 2168年,2018页。视图:出版商的网站|谷歌学术搜索
t·w·m·Peng Liu王,z曾庆红,“继电器选择联合连续包路由方案为唤醒了网络无线电使提高性能,”无线通信和移动计算ID 7230565条,卷。2020年,32页,2020年。视图:出版商的网站|谷歌学术搜索
李z和j . Gui”节能资源分配与混合TDMA-NOMA cellular-enabled机器对机器通信,”IEEE访问,7卷,不。1,第105815 - 105800页,2019。视图:出版商的网站|谷歌学术搜索
王x刘,刘,t . et al .,“自适应数据和验证消息不相交的安全路由收集能量大数据采集网络,”杂志的并行和分布式计算卷,135年,第155 - 140页,2020年。视图:出版商的网站|谷歌学术搜索
z旷,g, g . Liu和x邓小平,“节能资源分配算法在能量harvesting-based D2D异构网络,”IEEE物联网》第六卷,没有。1,第567 - 557页,2019。视图:出版商的网站|谷歌学术搜索
x邓,j .罗l .他问:刘,x,和l . Cai”合作信道分配和调度多界面的无线网状网络,”对等网络和应用程序,12卷,不。1、1 - 12,2019页。视图:出版商的网站|谷歌学术搜索
l .阴、j·s·Gui和z . w .曾庆红,“提高能效的多媒体内容自适应聚类和D2D多播,播”移动信息系统卷,2019篇文章ID 5298508, 16页,2019年。视图:出版商的网站|谷歌学术搜索
l . j . Gui回族,x周”提高胞棱智能传感设备的一生激励体系结构基于动态收费,“IEEE访问,7卷,不。1,第72715 - 72703页,2019。视图:出版商的网站|谷歌学术搜索
j .邓o . Tirkkonen r . Freij-Hollanti t . Chen和n . Nikaein”的机会转发干扰资源分配和管理综合mmWave /增速低于GHz 5 g网络,”IEEE通讯杂志,55卷,不。6,94 - 101年,2017页。视图:出版商的网站|谷歌学术搜索
李问:c . h .妞妞,a . t . Papathanassiou和g .吴”5 g网络容量:关键要素和技术,”IEEE车辆技术杂志,9卷,不。1,第78 - 71页,2014。视图:出版商的网站|谷歌学术搜索
w .下巴,z风扇,r·海恩斯,“新兴技术和研究挑战5 g的无线网络,”IEEE无线通信,21卷,不。2、106 - 112年,2014页。视图:出版商的网站|谷歌学术搜索
A·古普塔和r·k·贾”的调查5 g网络:架构和新兴技术,”IEEE访问,3卷,第1232 - 1206页,2015年。视图:出版商的网站|谷歌学术搜索
s . a . Busari k . m . s . Huq动工,l .戴和j·罗德里格斯,“毫米波大规模MIMO通信未来无线系统:一项调查,“IEEE通信调查和教程,20卷,不。2、836 - 869年,2018页。视图:出版商的网站|谷歌学术搜索
t . s . Rappaport g·r·MacCartney m . k . Samimi和美国的太阳,“宽带毫米波传播测量和信道模型对未来无线通信系统设计中,“IEEE通信,卷63,不。9日,第3056 - 3029页,2015年。视图:出版商的网站|谷歌学术搜索
m·k·m·r·Akdeniz y Liu Samimi et al .,“毫米波信道建模和细胞能力评估,”IEEE在选定地区通讯》杂志上,32卷,不。6,1164 - 1179年,2014页。视图:出版商的网站|谷歌学术搜索
t .白和r·w·希斯”为毫米波蜂窝网络覆盖范围和速度分析,“IEEE无线通信,14卷,不。2、1100 - 1114年,2015页。视图:出版商的网站|谷歌学术搜索
h . Shokri-Ghadikolaei c . Fischione g . Fodor p . Popovski和m .圭“毫米波蜂窝网络:MAC层的角度来看,“IEEE通信,卷63,不。10日,3437 - 3458年,2015页。视图:出版商的网站|谷歌学术搜索
高通公司推出第一mmWave 5 g智能手机天线,https://www.theverge.com/2018/7/23/17596746/qualcomm-mmwave-5g-antenna-smartphones-qtm052-networking-speeds-size高通公布第一mmWave 5 g智能手机天线。
s . k .海德尔江,m·a .贾姆希·h·佩尔维斯•,是pml - q和美国泰姬,“性能增强P300 ERP单一审判机器学习自适应去噪机制,“IEEE网络信,1卷,不。2019 1,页26 - 29日。视图:出版商的网站|谷歌学术搜索
美国Maghsudi和e·侯赛因”Multi-armed土匪与应用程序5 g小细胞,”IEEE无线通信,23卷,不。3、64 - 73年,2016页。视图:出版商的网站|谷歌学术搜索
p·奥尔:Cesa-Bianchi p·费舍尔,“multiarmed强盗的限定时间分析问题,”机器学习卷,47号2 - 3、235 - 256年,2002页。视图:谷歌学术搜索
g . Alnwaimi s·瓦希德,k . Moessner”在其基于lte网络的宏观动态异构学习游戏机会访问/毫微微蜂窝的部署,“IEEE无线通信,14卷,不。4、2294 - 2308年,2015页。视图:出版商的网站|谷歌学术搜索
o . Onireti A . Zoha j . Moysen et al .,“细胞密集的异构网络中断管理框架,“IEEE车辆技术,卷65,不。4、2097 - 2113年,2016页。视图:出版商的网站|谷歌学术搜索
z . b .高,b, l·f·黄c·b·陈z和w·苏”Q-learning-based LTE企业毫微微蜂窝网络功率控制,”IEEE系统杂志,11卷,不。4、2699 - 2707年,2017页。视图:出版商的网站|谷歌学术搜索
z, x, y . Zhang l .史和l .冯”的任务调度算法,基于q学习了网络共享价值函数,“计算机网络卷,126年,第149 - 141页,2017年。视图:出版商的网站|谷歌学术搜索
h . Bayat-Yeganeh诉Shah-Mansouri h . Kebriaei,“基于q学习的服务——CSMA MAC协议的无线网络,”无线网络,24卷,不。4、1251 - 1264年,2018页。视图:出版商的网站|谷歌学术搜索
j .朱y歌、江d和h的歌,“一个新的deep-Q-learning-based认知物联网传输调度机制,“IEEE物联网,5卷,不。4、2375 - 2385年,2018页。视图:出版商的网站|谷歌学术搜索
a . Carie m . Li c . Liu p . Reddy和w·贾马尔,“混合定向CR-MAC基于q学习的方向功率控制,”未来一代计算机系统卷,81年,第347 - 340页,2018年。视图:出版商的网站|谷歌学术搜索
m .严g .冯j .周,秦,“智能multi-RAT访问多智能体强化学习的基础上,”IEEE车辆技术,卷67,不。5,4539 - 4551年,2018页。视图:出版商的网站|谷歌学术搜索
,b•玛丽拉o . Falowo n·文图拉,“智能仿真结果回程5 g细胞小,”IEEE通信信,22卷,不。1,第192 - 189页,2018。视图:出版商的网站|谷歌学术搜索
陆j . Gui, y、x邓和a .刘“灵活的资源分配自适应传播策略选择细胞客户采用stackelberg博弈,“特设网络,卷66,不。11日,第84 - 64页,2017年。视图:出版商的网站|谷歌学术搜索
t·s·拉帕波特,无线通信:原则和实践美国,新世纪,上台北,第二版,2002年版。
t . s . Rappaport, y, g . r . MacCartney a . f .莫氏利施e . Mellios和j·张,“第五代的毫米波通信概述(5克)无线网络关注传播模型,”IEEE天线和传播,卷65,不。12日,第6230 - 6213页,2017年。视图:出版商的网站|谷歌学术搜索
g . h . Sim绝,a . Asadi a·克莱因和m . Hollick”在线上下文感知机学习算法5 g mmWave车载通信、”IEEE / ACM交易网络,26卷,不。6,2487 - 2500年,2018页。视图:出版商的网站|谷歌学术搜索