Actor-Critic-Algorithm-Based准确的频谱感知和传输框架和节约能源在能源贫瘠的无线传感器网络的认知无线电

文摘

频谱感知是至关重要的认知无线电网络的工作方式(CRN)。频谱可以决定是否被感知认知无线电(CR)用户可以传输。在空闲的频谱传输已经成为一个艰巨的任务,如果被认为是能源网络。CRN特设网络,因此,他们是能源有限公司,但能源收获可以确保足够的能量用于传播,从而使CRN理论上无限的寿命。剩余的能量,随着遥感的决定,决定了行动在当前时间段。传播的决定必须基于遥感的结果,因此,结合sensing-transmission CRN必须考虑的框架。sensing-transmission框架形成一个马尔可夫决策过程(MDP),并详尽解决MDP问题通过传统方法不能合理的解决方案如CRN特设网络。本文解决了MDP的问题,一个actor-critic-algorithm-based解决方案优化sensing-transmission框架提出的行动。该方案解决优化问题的基础上actor-critic算法,选择和行动带来最高的回报。最优政策是由更新参数优化问题。 The reward is calculated by the critic component through interaction with the environment, and the value function for each state is updated, which then updates the policy function. Simulation results show that the proposed scheme closely follows the exhaustive search scheme and outperforms a myopic scheme in terms of average throughput achieved.

1。介绍

无线传感器网络是无处不在的。他们是用于各种各样的应用程序和服务从智能电网、物联网,认知无线电。无线传感器网络感知的核心。遥感不仅需要收集关于事件的信息,例如,to record events and behavior of processes, but also to decide the occurrence of a phenomena. When sensor networks are employed to decide the occurrence of an event or a phenomenon, it can be generalized as the basis of diverse set of communication networks. In this way, sensor networks form the basis for cognitive radios when cognitive radios are deployed overlay, i.e., the cognitive radios have to use the licensed spectrum when not in use by the licensed user. Wireless sensor networks form the sensing base for cognitive radios in deciding whether the spectrum is free or not. So, spectrum sensing is an important task in cognitive radio networks (CRNs). The spectrum has to be sensed and the whole spectrum appropriated for the cognitive radio (CR) user if the full promise of the CRN is to be exploited. On the basis of spectrum sensing, the CR user can transmit, provided it vacates as soon as the primary user (PU) appears. This is more complicated if energy-constrained networks are considered. CRNs are ad hoc networks, and the energy for transmission may not always be available. Given the limited energy budget, the CR user has to take into consideration the long-term operation of the network. So, one of the multiple levels of transmission power can be selected, or given that transmission power is unavailable, no transmission will happen.

在一个不确定但随机环境中,行为可以学到和CR用户可以调整的政策。CR用户可以被视为一个代理的强化学习,并通过确认(ACK)信号,环境可以。在每一个时间框架,最优决策必须采取传感的基础上决定和其他系统参数,如历史信息的信念PU的存在与否。最优决策是可以习得的,但这需要大量的迭代系统达到它。这个最大的缺点是简单的强化学习(RL) [1]。相反,深RL算法可以考虑做出最佳的决定在当前时间段和设计一个最优政策的代理。

RL和深RL解决方案和算法是最有效的在有模式和模型的情况下,所以他们可以学到。环境的抽象转化为参数的基础上,可以采取的决定。在通信领域,深度RL的方法可以有效地解决许多挑战,特别是在新兴领域不同CRN的物联网异构网络(物联网)。随着通信网络变得越来越自主分散,需要优化运行环境和获得知识的基础上,就变得至关重要。CRN的问题,例如在能源贫瘠的情况下,频谱接入和传输功率优化不同的网络参数,可以设计为一个决策问题。在无线通信的随机性质,决策问题可以建模为一个马尔可夫决策过程(MDP)。MDP可以通过深RL技术解决。sensing-transmission问题是一个MDP的问题,已经解决了。

传感决定后,CR用户传输或者保持沉默。决定传输是基于当前状态和下一个状态的转移概率,以及剩余的能量,如果能量约束的网络被认为是。美国当前状态的转换是有限的。的行为也是由当前状态,这可能是去除频谱感应的组合决定,信念函数,剩下的能量。在马尔科夫决策系统中,马尔可夫链状态转移应严格遵循。所以,这些州的所有可能状态和可能的行动必须计算。在这种情况下,计算变得复杂和昂贵。

本文提出一种模范自由强化学习算法称为actor-critic算法(2,3]。actor-critic算法的优点是,它不像部分可观测计算复杂的MDP (POMDP)的方法,它不需要所有的状态转换的信息来做决定。在训练阶段,批评家的基础上更新状态信息的近似模拟参数和提要信息演员更新政策参数。actor-critic算法可能收敛于局部最优政策,但是它生成政策直接从培训,所以需要更少的计算复杂度和配方。actor-critic算法获得非凸优化问题的解决方案,提出了不完整和准确的信息的无线网络环境。

深度学习是由一组的算法和技术,试图找到重要特性的数据和模型高层抽象。深度学习的主要目的是为了避免手册描述的数据结构(如手写功能)通过自动学习数据。通常,深度学习结构的神经网络有两个或更多的隐藏层。算法可分为政策优化和动态规划。在政策优化,参数化的政策,和预期的回报最大化。这类方法包括政策梯度和derivative-free优化进化算法,而动态规划方法可以完全解决(也就是一些简单的控制问题。通过迭代和细分,mdp)。迭代和值迭代动态规划包括政策,(更有用的和现实的问题)近似版本的这些算法被认为是(例如,q学习)。actor-critic方法policy-gradient使用价值函数的方法。

学习环境的概念是嵌入在认知无线电的概念。CR用户是为了监测环境和适应他们的操作特征(操作频率、发射功率等)变化的条件。使CR用户能够从环境中学习,一些作者认为是光谱传感(机器学习算法4- - - - - -12]。在[4),一个动态博弈是制定二级用户产生感应指控由于PU活动然后完成投标成功后也为传播的机会。解决招标的问题,使用贝叶斯非参数的信念更新和学习算法,所以用户可以决定是否参与投标过程。在[5),最大化的可用频谱二级用户的传输,选择数量的CR用户通过RL同时有多个乐队。q学习也用于不同的目的。在[7),它被用来减轻干涉crn在[8),这是用于检测的主要信号频谱感知。在[9),两种方法在no-regret-based机器学习框架与恶意行为的存在与两种不同的算法,提出了一个完美的观察环境和其他部分的观察,而在(10),模式分类技术作为光谱传感的SVM和资讯调查。在[11,12),电视白色空间数据库构建通过机器学习和数据融合全球频谱感知进行决定,分别。在[11),再邻居(资讯)仅仅是用于数据恢复在一个白色的空间数据库作为多数表决机制。

最近,有很多兴趣的有效利用能源的节能意识网络架构和减少能源成本(13,14]。为此,能源资源必须根据系统的性能要求。从可再生能源能源收获(热、振动、太阳能、声学和环境无线电功率)的目的是满足能源需求,以及对减少有害排放贡献(13]。能量收获理论上允许永久一生一个特设网络运行没有任何需要外接电源或电池更换。这是一个有吸引力的模型对未来多种无线蜂窝网络和crn是最重要的。裴et al。15]研究了去除频谱感应的节能设计方案在认知无线电网络。陈等人。16)最大化吞吐量给定一个能源预算,而黄平君et al。17)设计了一个基于用途的惩罚能源消耗的目标函数。研究已经开展了关于利用能量收获特设网络(18]。多个继电器通道、能源harvesting-based方案提出了(19,20.]。王等人。21在异构网络学习能量收获,他们和Anisi et al。22)研究的影响能量收获传感和名叫网络。

深入学习是一个广大的地区,现在过度用于通信的各个方面,尤其是在智能通信等认知无线电,所以给出一个详尽的文献引用列表已经超出了本文的范围,但在这里,深度学习的应用频谱感知和频谱访问在CRN将简单地加以讨论。在[23]深q学习(DQL)算法用于选择渠道感知并最终达到最大速度。选择行动的基础上通道SINR超过一个特定的QoS要求。在[24),提出了一种DQL在异构网络由多个用户和基站。的基站用户通过DQL与选择有关。的仿真结果24)也证实DQL更好的性能比简单的q学习的计划。在[25),提出了一种深度学习计划联合用户协会,频谱访问和LTE网络的内容缓存问题。用户控制的基于云计算的服务器,他们都能够访问许可和授权频谱。不同动作的基础上选择DQL算法等优化用户协会、带宽分配给用户,时间段允许用户,并决定缓存的内容流行。在[26),动态信道接入方案提出了一种基于传感器物联网有深刻的学习,而在(27),经验回放用于找到最优政策。在[28),联合信道选择和分组转发方案提出了多传感器的情况下,在应对能源限制问题29日),通道进入能源harvesting-based物联网系统调查。

在这篇文章中,一个能源贫瘠的CRN考虑。当传播被认为是共同感知的结果,然后在一个能源贫瘠的CRN,成为一个难以解决的问题。在文献中,机器学习应用广泛(如上所示)频谱感知的过程,而不是采取联合sensing-transmission决定。传播的问题被认为是一个MDP,传统的方法用于解决这个问题(30.- - - - - -32]。部分可观测的MDP无线环境,因此,在一些观测的基础上,转换到下一个状态。POMDP问题解决通过访问所有未来可能状态采取所有可能的行动在当前状态和选择一个行动,优化网络参数。当感应到决定连同其余能源在能源贫瘠的crn被认为是国家,国家计算和解决空间变得太大。这样的POMDP解决方案的另一个问题是环境不适宜学习。作为替代传统的POMDP, actor-critic算法成为一个不错的选择。在一个actor-critic算法,代理有两部分。根据政策,演员需要一个动作而批评调整政策通过时间等参数的差异。演员的政策最优值函数的基础上进行了优化。价值函数可以有两个定义:(1)总累积奖励而从当前状态和(2)进入下一状态根据给定的政策。 In the state-action value function, the expected accumulated rewards are calculated while taking an action in the current state, and then, in the next state taking other actions according to the given policy. The value function adjusts the policy function in the actor on the basis of observations from the environment. Convergence in the actor–critic algorithm is possible. It is achieved with less complexity and fewer iterations and computations in the state space. Also, in the actor–critic algorithm, the policy is directly learned from the operational environment.

在这篇文章中,一个actor-critic-algorithm-based传感和传输提出了框架。CR用户采取本地传感的决定,然后将其发送到融合中心(FC)全球决定,这两个组成部分当地的状态。信念函数和剩下的其余国家的能源形式。形成的行动空间静默模式或传输的能量,能够实现系统的长期能源需求。CR用户可以获取能量,能量传输在当前位置也要考虑长期的能源需求。的基础上传输和应答信号,奖励分配给每一个行动。评论家评价操作并更新带来的奖励政策功能。在训练阶段,最优值函数和最优政策。

本文的其余部分组织如下。部分2给出了系统模型。节3、系统能量约束的能量收获的过程,和马尔可夫决策过程是解释说。节4,actor-critic算法,而部分5给出了仿真结果和部分6总结了纸。

2。系统模型和方法

我们考虑到一个单一的聚氨酯和CRN由很活跃CR用户,如图1聚氨酯的监视活动。考虑多个脓复杂传感过程以及涉及到其他进程调度和spectrum-handoff等。这些特殊的问题超出了本文的范围。CR用户执行光谱传感FC和报告他们的研究结果。我们假设每个槽开槽时间框架结构分为两个时段:频谱感知和传输的传感槽槽,用于数据传输。开槽框架结构被认为是在33- - - - - -41]。在这个光谱传感方法,时间框架分为两个部分。的第一部分时间被称为感应槽,而另一个是传输插槽。频谱感知的CR用户传输或保持沉默在全球传播槽的基础上决定。两个插槽的持续时间在CR用户同步通过公共控制信道和FC。

每一个CR用户使用能量光谱传感的检测方案。CR用户获得能源和接收能量的基础上做出决策。能量检测是最简单的技术,考虑到有限的资源(例如,能源和计算能力)的CR用户。常见的频谱感知问题可以克服多径衰落和阴影等利用空间多样性使用合作频谱感知,从而确保聚氨酯满足约束(33]。CR用户可以报告收到能源的实际价值或决定在本地或报告FC。第一个被称为软决定组合最优检测性能和结果,但理论上需要无限的带宽(34),而后者很难决定组合可以节省带宽,但产生劣质结果相比软报告。平衡性能和带宽效率,两者的结合可以使用软、硬决策的能量范围可以量化,如引用(34,37]。在[34),作者使用了所谓的软化硬组合方案,观察到的能量是量子化的用两位分为四个区域,每个区域由一个标签。这之间达到一个可接受的协议改进的性能造成软报告和量化过程中信息丢失(41]。本文量化是在接收到的能量是量子化的分为四个量化区域。

信号接收的CR用户,在传感槽,当聚氨酯缺席,也就是说,H₀,当聚氨酯存在,也就是说,H₁,给出在哪里加性高斯白噪声和吗是能量从PU接收的信号。接收到的能量是量子化的在哪里 , ,和量化阈值和吗代表不同的量化区域接收到的能量是量子化的。全球多数决定原则的基础上,决定。,the majority of the reported symbols become the global decision, denoted by ,在哪里t代表时间指数。局部和全局决策的组合决定了CR的状态在当前位置。

3所示。系统的约束和定义

在下面的部分中,系统约束和流程详细解释。

3.1。能量收集过程

CR用户能够获取能量。如果到达过程的能量, ,被认为是独立同分布(先验知识)序列的变量,然后呢(13]。也认为能量收获时间槽t立即在槽吗t+1。

的总能量在当前位置,t,如果CR用户传输,给出了在哪里是感应能量,是传输能量,给药

下次的残余能量槽,如果CR用户传输在当前时间段, 在哪里最大的电池容量和吗剩余能量在时间吗t。

确保长期运行的网络,当前时间槽的剩余能量来满足能源需求的一些未来的时段。因为传输能量依赖于传感的决定,其未来价值无法估计。的数量被认为是一种未来时段的能源是必需的。保持能量守恒和长期运行的网络,需要节约能源在当前时间段。未来时段的感应能量仍然固定传感发生在每个时间段的传感插槽。传输能量的消耗是依赖于传感的决定,所以事先不能确定。因此,传感的基础能源,能源约束网络的保护,以确保长期运行可以制定。让我们假设我们希望CRN功能下N未来的槽;然后,长期能源可用性的约束可以作为制定

3.2。马尔可夫过程

让PU活动遵循一个两国并存的马尔可夫过程,如图2。图2说明了马尔可夫过程的CR用户转换到另一个状态或者仍然在同一个州。在边缘,转移概率。为了简单起见,H不是写成P的下标。

感知和传输框架制定作为一个马尔可夫决策过程。马尔可夫决策过程的元组 ,S代表国家,一个是采取行动,转移概率P, R是收到的回报在一个动作状态。

局部和全局的状态是由感知决策,剩余的能量,转移概率,用。为简单起见,让我们表示当地和感知决策的组合。国家在时间t给药

过渡概率依赖于当前的局部和全局感知决策。他们将在后面详细介绍。

CR用户感知后,可以保持沉默或者传输在不同级别的传输能量来满足长期能源需求。两个传输能量水平。可以有许多水平,但制定和解决方案将成为站不住脚的。被定义为的行动空间在哪里代表传输与传输能量e¹和表示与能量传输e²,而银表示没有传播。

奖励是基于应答信号。奖励分配如下,代表了吞吐量达到给定的状态和传输能量: 在哪里和收到的信噪比CR用户。

4所示。Actor-Critic算法

CR用户可以采取行动,给定一个特定状态,并转换到另一个状态在当前时间段,决定如下:

与每个国家在(相关的奖励9)。

总折扣奖励时间槽是由价值函数的当前状态 ,计算如下(3]:

政策功能给出如下(3]: 在哪里倾向于选择行动在国家。

采取行动后,将计算奖励。计算奖励后,确定时态的区别如下: 在哪里决定了国家的影响从当前状态过渡到下一个状态。

时态的区别的基础上,更新值函数的评论家在哪里是积极的参数的评论家。倾向于选择一个动作,状态,更新在哪里是一个积极的步长参数,它决定了访问的状态数。

当前时间槽的决定是基于奖励之和在当前时间段和预期未来的奖励在下一个时间段。如果全球的决定 ,计算当前和未来时段的奖励的基础上应答信号的状态

为 ,它是在哪里给出了概率(6)将得到满足。当前时间槽的决策函数可以作为制定在哪里 ,和一个是由(8)。

训练过程是为了找到设置包括策略和最优值函数对应于每个状态。CR用户当地的决定,把能量量子化的FC区。俱乐部需要一个全球的决定,并将其发送到CR用户。基于当地的决策和全球决策,CR用户可以保持沉默或传输的两级传播能量。在每个时间段的开始,一个CR用户采取行动根据政策在一个给定的状态。将会有一个过渡到另一个状态或当前状态将被保留,和下一个状态基于剩余能量和反馈。奖励会根据计算(9)。根据(计算时间差异12后计算奖励时间差异的基础上,更新值函数(13)。倾向于选择行动在国家更新(13)。融合后,将会有一个最优值函数, ,和一组最优的政策, 。以下是CR用户可能的情况下,的基础上更新值函数和政策功能。这些病例是由系统模型和传输能量的水平。他们跑到最优值函数和最优政策。

案例1。如果 ,然后保持沉默。认为PU缺席在当前时间段使用贝叶斯规则[更新2] 在哪里区当地假警报的可能性吗和是当地的检测概率区 ,与。给出下一个时间段的信念下次的残余能量槽是更新

例2。如果 ,然后保持沉默。认为当前时间段的PU不在是利用贝叶斯规则更新相信下次槽和下一个时间段的残余能量情况下2 - 5给出了(20.)和(21),分别。

例3。如果 ,然后保持沉默。认为当前时间段的PU不在是利用贝叶斯规则更新

例4。如果 ,然后保持沉默。认为当前时间段的PU不在是利用贝叶斯规则更新

例5。如果 ,然后决定根据(18)。聚氨酯是真正的信仰缺席在当前时间段是由贝叶斯规则(如果传输和收到ACK)如下: 的残余能量CR用户对于下一个时间段是给定的相信PU将缺席下一时间段给出

例6。如果 ,然后决定根据(18)。聚氨酯是真正的信仰缺席在当前时间段是由贝叶斯规则(如果传输和收到ACK)如下: 剩余能量的CR用户下次槽和信念(23)和(24),分别。在缺乏一个应答信号的情况下,在两例5和例6中,概率为下一个时间段的信念是更新根据(20.)。
基于应答信号,奖励分配如果发生例5和例6的基础上(9)。
在图3,该方案的基本流程图。首先,局部和全局感知决策。加上剩余的能量和信念函数,决定是根据上面的情况下解释。的决定是由演员组件actor-critic算法。的基础上采取行动,与环境互动。的基础上观察,信念函数(连同剩余能量)和奖励计算更新。中给出的参数优化问题(18)更新和计算的值函数是评论家。更新后的值函数的基础上,给出的时间差异(13)确定。最终,含蓄地通过更新更新政策倾向于选择一个动作,状态,根据(15)。

5。仿真结果

在本节中,提出actor-critic-algorithm-based传感的性能和传输框架是通过仿真评估。在仿真,该方案是与一个穷举搜索方案,每个操作带来的回报在计算每个状态和最好的选择,而不是发现概率为每一个状态转换到另一个状态。这个方案可以被认为是该方案的上界。近视的方案也被认为是,能量是收获,但不考虑长期能源约束,和最大可用功率用于传播。

穷举搜索方案在文献的先例,在[42),提出了离线方案作为上界深度Q-network基础方案。离线方案假设基站已经完美的所有随机过程的知识,因此它可以把最优决策。该方案没有因果知识的过程。,未来的电池和聚氨酯的活动状态。数学运算的数量涉及的穷举搜索方案依赖于状态空间和动作空间的优势在所有随机过程的知识。数学运算的最大数量。,computational complexity, for the exhaustive search scheme is ,虽然该方案的计算复杂度是由。既和是积极的值小于1,该方案的计算复杂度小于穷举搜索方案。

当模拟提出计划,剩余能量的初始值被认为是 ; 是150兆瓦,是110兆瓦。电路功耗一直固定在21013- - - - - -15]。这些能量设置参数被认为是由于能量收获模型。能量收获模型认为本文是由作者在详细调查13)和参数的值是基于获得的模拟结果。传输能量的两个不同的值被认为是现实与遥感相比,能源消费和整体电路。传输功率是不同的仿真结果,给出不同。时间段持续时间是200 ms,感知时间是八总槽的持续时间。噪声谱密度了W / Hz [43]。CR用户的数量被认为是三个。检测的概率是0.9,假警报概率为0.1,虽然最初的信念对聚氨酯是0。0.2通道的状态转移概率。的价值保持在0.4,而是0.3。这些值被实验实现融合,不同的值会有不同的收敛行为。

图4介绍了该方案的比较与穷举搜索方案。从图我们可以看到,该方案密切遵循穷举搜索方案,它充当该方案的上界。所有的CR用户的平均信噪比是值了x设在,改变如图。迭代的数量是5000。的平均利率计算的所有槽根据(9)。信噪比是重要的感知和传输的成功。信噪比低时,CR用户将无法正常感觉,甚至当CR用户决定传输速率达到会减少由于噪声信号的比例就越高。所以,查看不同级别的信噪比性能是很重要的。在一个非常低的信噪比−9 dB,该方案开始收敛,和行为是一样的上界。穷举搜索计划,而不是采取一个优化决策,搜索子空间可用的行动,因此,选择的是全球最佳。拟议的计划,另一方面,充其量可能收敛于局部最优的政策,因此,总有差距,即使在训练收敛于最优值函数和政策。因为所有可用的子空间的行为彻底详尽的搜索方案和检查所有带来的回报所有可能的下一个状态计算,在计算上是昂贵的。拟议的计划,另一方面,减少计算复杂度,但性能密切关注上限。另一方面,该方案优于近视的方案,这与所有可用的传动功率传输。 It may achieve high throughput in some slots, but it eventually runs out of transmission energy. The state space is continuous as the energy harvested and the remaining energy are continuous functions. The size of the state space cannot be predetermined; however, the positive step parameters given in (14)和(15)确定收敛速度为代价不访问美国。穷举搜索的模拟方案,所有国家访问,除非有收敛,返回的奖励没有显著改变。所以,积极的一步参数(14)和(15)确定方案的复杂性而详尽的搜索方案,所有的州将访问,除非有一个收敛到一个稳定的回报价值。

图5介绍了错误的决定,这是由P_fd。错误决定率措施的概率PU缺席和CR用户不传输或聚氨酯缺席和CR用户传输。传感部分是相同的两个方案,但在穷举搜索方案,所有的状态和行为,和最好的选择;在该方案中,只有优化问题已经解决了,这可能是不准确的。虽然两种方案都遵循相同的quantization-based传感方案,穷举搜索方案的误差性能比提出的方案,因为该方案是基于估计下一个状态,而详尽的搜索方案检查带来的回报所有未来可能的状态并选择最好的一个。在这种情况下,穷举搜索方案假设正确的所有可能状态的信息。

图6显示了该方案的收敛性。的x设在是迭代的数量。我们可以看到,随着迭代次数的增加,系统的性能得到改善。系统性能依赖于从环境中获得信息,和这里的优化问题提出了学习的概率CR用户将有足够的精力去传输和每个行动带来的回报在一个给定的状态。增加系统运行,该方案的评论家分量能够计算,从而限制了时间的差异。时态的区别的基础上,政策参数进行了优化。多次调用该方案,有相同数量的错误,更新时间差异,因此,最好的行动(给定一个状态)可以选择。当迭代次数达到一定程度,我们可以看到,系统性能达到一个稳定的位置,尽管迭代的数量进一步增加,性能提高。因此,也有极限性能改进的迭代的数量,和性能改进超越这一点需要一种新的模式的能量收获或改变其他系统的参数和约束。

在图7,显示了能量收获率的影响。效果是由这是能量收获率。能量收获率影响收获提供能源。的x设在在图7显示不同的值。该方案匹配时穷举搜索方案收获能量低于一定的限制。这是因为当能量有限,不能进行传输时,尽管最好的操作环境的信息,因此,穷举搜索方案不能超越大幅度的方案。当有足够的可用传输能量和能量收获率提高时,有足够的能量传输,因此,决定采取穷举搜索方案的基础上优于优化问题的解决方案,不检查所有可能的解决方案。穷举搜索方案计算下一个可能状态,计算出在未来所有的州可以采取的行动,从而可以更好地知道未来能源状态。拟议的计划,另一方面,作出决定的基础上接收应答信号的概率和能源约束。因为它解决了优化问题,而不是访问所有可能状态和计算带来的奖励每个操作在所有可能的状态,该方案落定低传输能量来满足系统的能量约束。尽管没有访问所有可能状态,密切关注穷举搜索方案,该方案,在实际条件下(当所有可能状态的信息不可用),该方案基于actor-critic算法遇到作为一个可接受的选择。

收获能量仍然很低,有一个微小的机会传播更高层次的权力将被选中。因此,该方案的性能和穷举搜索方案不变的平均吞吐量尽管穷举搜索计划访问更多的国家最终传动功率较低的传输进行。但随着收获能量增加,穷举搜索方案性能更好,因为它能预测未来状态的能量,所以传输可以进行更高层次的力量。另一方面,因为不精确知识的能量收获的过程,因此未来状态的剩余能量,该方案选择与低水平的传动功率传输,因为限制了(6)。因此,穷举搜索方案使平均吞吐量比方案时的能量收获率增加。

6。结论

在本文中,被认为是联合感知和传输框架。概率从一个状态转换到另一个和一组可用的行动决定从遥感结果和剩余能量的总量。这允许一个健壮的框架CRN确保有可用的能源未来时段而实现吞吐量在当前位置。actor-critic算法制定决定下一个状态和传输能量,如果有传播。价值函数负责想出一个最优的政策,这将最优行动与每个州。培训完成后,有一个最优政策功能的环境中学到演员和评论家的相互作用的功能。该方案避免了计算所有的状态和行动空间,而找到一个动作优化奖励在给定状态。最优政策更新在每个时间段,评论家的创新行为和减少偏离最优路径。基于该方案基于强化学习actor-critic算法减少计算昂贵和详尽的解决优化问题时找到最优行动在一个给定的状态。仿真结果表明,该方案密切遵循穷举搜索解决方案尽管拥有更少的计算和最优的解决方案。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由美国国家研究基金会(NRF)授予通过韩国政府(MSIT)授予nfr - 2018 r1ab6001714。

引用

n . c .陈德良n . c .陈德良d·t·黄平君s锣et al .,“深度强化学习通信和网络的应用:一项调查显示,“2018年,http://arxiv.org/abs/1810.07862。视图:谷歌学术搜索
v . r . Konda和j . n . Tsitsiklis“Actor-critic算法”先进的神经信息处理系统s . a . Solla, t·k·利恩,K.-R。穆勒,Eds。,卷。12,MIT Press, Cambridge, MA, USA, 2000.视图:谷歌学术搜索
r·s·萨顿和a·g·Barto强化学习:介绍美国马剑桥,麻省理工学院出版社,1998年。
z汉,r .郑,h .诉穷,“重复拍卖与贝叶斯非参数学习在认知无线电网络频谱访问”IEEE无线通信,10卷,不。3、890 - 900年,2011页。视图:出版商的网站|谷歌学术搜索
j . Lunden诉Koivunen, s . r . Kulkarni和h诉穷,“基于强化学习的分布式可替换主体感知政策认知无线电网络”《2011年IEEE国际研讨会上动态频谱接入网络(DySPAN)IEEE亚琛,德国,2011年5月。视图:出版商的网站|谷歌学术搜索
m . Bkassiny k . j . Sudharman和k·a·艾弗里,“基于分布式强化学习为自主认知二级用户MAC协议,”学报》2011年第20届无线光通信会议(WOCC)美国,IEEE,纽瓦克,新泽西州,2011年4月。视图:出版商的网站|谷歌学术搜索
a . Galindo-Serrano和l . Giupponi“分布式聚合干扰控制q学习的认知无线电网络中,“IEEE车辆技术卷,59号4、1823 - 1834年,2010页。视图:出版商的网站|谷歌学术搜索
b . y . Reddy,“检测主要信号高效利用频谱使用q学习”第五届国际会议上信息技术学报》:新一代(ITNG 2008)美国IEEE,内华达州拉斯维加斯,2008年4月。视图:出版商的网站|谷歌学术搜索
问:朱、z汉和t . Başar”学习与恶意节点协作频谱感知,没有后悔的”学报2010年IEEE国际会议交流IEEE,开普敦,南非,2010年5月。视图:出版商的网站|谷歌学术搜索
崔k . m . Thilina k . w . n . Saquib和e·侯赛因”模式分类技术合作频谱感知的认知无线电网络:SVM和W-KNN方法,”学报2012年IEEE全球通讯大会(GLOBECOM)IEEE,页1260 - 1265年,2012年12月,美国阿纳海姆。视图:出版商的网站|谷歌学术搜索
m . Tang z郑、g .丁和z雪,“高效电视白色空间数据库建设通过光谱遥感和空间推理,”学报2015年IEEE第34性能计算和通信国际会议(IPCCC)IEEE,页1 - 5,南京,中国,2015年12月。视图:出版商的网站|谷歌学术搜索
a . m . Mikaeil b .郭,z,“机器学习为合作频谱感知数据融合方法,”《2014年国际会议上Cyber-Enabled分布式计算和知识发现IEEE,页429 - 434年,上海,中国,2014年10月。视图:出版商的网站|谷歌学术搜索
美国公园、h·金和d .香港“认知无线电网络能量收获,”IEEE无线通信,12卷,不。3、1386 - 1397年,2013页。视图:出版商的网站|谷歌学术搜索
l . Cai h .穷,t .烹调的菜肴,沈x, y . Liu和j·马克,“尺寸标注网络部署和资源管理在绿色网状网络,”IEEE无线通信,18卷,不。5日,58 - 65、2011页。视图:出版商的网站|谷歌学术搜索
y裴,研究。梁、k·c·格兰和k·h·李,“连续信道感知认知无线电网络的节能设计:优化传感策略,权力分配,和遥感秩序,”IEEE在选定地区通讯》杂志上卷,29号8,1648 - 1659年,2011页。视图:出版商的网站|谷歌学术搜索
y . Chen问:赵,阁下,”分布式认知无线电频谱感知和访问网络能源约束,“IEEE信号处理卷,57号2、783 - 797年,2009页。视图:出版商的网站|谷歌学术搜索
a . t .黄平君研究。梁,d . t . c . Wong y曾庆红,r·张,“机会能源贫瘠的认知无线电频谱访问,”IEEE无线通信,8卷,不。3、1206 - 1211年,2009页。视图:出版商的网站|谷歌学术搜索
j·杨,o·泽尔和s . Ulukus“广播与一个能量收集充电发射机,”IEEE无线通信,11卷,不。2、571 - 583年,2012页。视图:出版商的网站|谷歌学术搜索
h·李:Jaggi, b . Sikdar”中继协作通信调度在传感器网络能量收获,”IEEE无线通信,10卷,不。9日,第2928 - 2918页,2011年。视图:出版商的网站|谷歌学术搜索
即Krikidis、t . Charalambous和j·s·汤普森“稳定性分析和电力能源优化收获合作网络,”IEEE信号处理信件,19卷,不。1、20、2012页。视图:出版商的网站|谷歌学术搜索
l . Wang K.-K。Wong s, g .郑,r·w·希斯”新看物理层安全缓存,为异构超密度网络和无线能量收获,”IEEE通讯杂志卷,56号6,49-55,2018页。视图:出版商的网站|谷歌学术搜索
m·h·Anisi g . Abdul-Salaam m . y . i伊德里斯a·w·a·瓦哈卜i Ahmedy,“基于能量收获和电池供电的路由在无线传感器网络中,“无线网络,23卷,不。1,第266 - 249页,2017。视图:出版商的网站|谷歌学术搜索
戴x, y林·l·李,F.-Y。王”,一个有效的强化学习模型对城市交通控制,”2018年,http://arxiv.org/abs/1808.01876。视图:谷歌学术搜索
顾,大肠冬青、t . Lillicrap和s . Levine“深强化学习的机器人操纵同步off-policy更新,”学报2017年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”IEEE,页3389 - 3396年,新加坡,2017年6月。视图:出版商的网站|谷歌学术搜索
x Di, k, p .风扇,H.-C。杨,k . b . Letaief”最优资源分配在无线通信网络与用户合作,供电”IEEE无线通信,16卷,不。12日,第7949 - 7936页,2017年。视图:出版商的网站|谷歌学术搜索
k·d·赵h . Wang邵,y朱,“深强化学习与经验基于撒尔沙回放,”IEEE研讨会系列的程序计算智能(1)IEEE,页1 - 6,雅典,希腊,2016年12月。视图:谷歌学术搜索
j . w . Wang, y . Wang和m .泰勒”对合作顺序囚徒困境:深可替换主体强化学习方法,”2018年,http://arxiv.org/abs/1803.00162。视图:谷歌学术搜索
h . s . Wang Liu·h·戈麦斯和b . Krishnamachari“深强化学习动态多路访问,”《国际会议上计算、网络和通信(ICNC)IEEE,桂林,中国,2017年7月。视图:谷歌学术搜索
问:赵,b . Krishnamachari和k . Liu”对近视的传感多渠道机会访问:结构、最优性,和性能,”IEEE无线通信,7卷,不。12日,第5440 - 5431页,2008年。视图:出版商的网站|谷歌学术搜索
公元前荣格,j .公园,t.w。禁令,w·李和j·m·金”全双工广义空间调制:压缩sensing-based信号检测,”学报》2017年第九次国际会议上无处不在的和未来的网络(ICUFN)IEEE,米兰,意大利,2017年7月。视图:出版商的网站|谷歌学术搜索
崔y、w .徐和j·林,“一种新型压缩数据传输方案在缓慢时变信道,”学报2016年IEEE第27届国际研讨会在个人,室内,和移动无线电通信(PIMRC)2016年9月,IEEE,瓦伦西亚,西班牙,。视图:出版商的网站|谷歌学术搜索
m . Hirzallah w·阿菲菲,m . Krunz”Full-duplex-based率/模式适应策略wi - fi / LTE-U共存:POMDP方法,”IEEE在选定地区通讯》杂志上,35卷,不。1页,2017页。视图:出版商的网站|谷歌学术搜索
f . Rongfei h .江,“最佳多渠道合作遥感在认知无线电网络中IEEE无线通信,9卷,不。3、1128 - 1138年,2010页。视图:出版商的网站|谷歌学术搜索
j . Ma g .赵,y,“软组合和检测合作频谱感知认知无线电网络中,“IEEE无线通信,7卷,不。11日,第4507 - 4502页,2008年。视图:出版商的网站|谷歌学术搜索
美国Kyperountas:科雷亚,问:“比较合作频谱感知的融合规则衰落通道EMS研究、摩托罗拉、利,2010年,美国。
h .郭、w .江和w·罗,“线性软组合合作频谱感知认知无线电网络中,“IEEE通信信,21卷,不。7,1573 - 1576年,2017页。视图:出版商的网站|谷歌学术搜索
h . Sakran和m . Shokair“硬和软组合对不完美的渠道合作频谱感知认知无线电网络中,“电信系统,52卷,不。1,第71 - 61页,2013。视图:出版商的网站|谷歌学术搜索
h·a·沙阿·m·乌斯曼,古,”Bioinformatics-inspired量化困难combination-based异常检测合作频谱感知认知无线电网络中,“IEEE传感器杂志,15卷,不。4、2324 - 2334年,2015页。视图:出版商的网站|谷歌学术搜索
p . Kaligineedi和v . k . Bhargava传感器分配和多波段认知无线电合作传感系统,量化方案”IEEE无线通信,10卷,不。11日,第293 - 284页,2011年。视图:出版商的网站|谷歌学术搜索
j . m . r . Chen公园,和k .扁,“健壮的分布式传感在认知无线电网络中频谱”学报2008年IEEE INFOCOM-The 27日会议上计算机通信页31-35 IEEE,凤凰城,阿兹,美国,2008年4月。视图:出版商的网站|谷歌学术搜索
h·a·沙阿古,“可靠的基于机器学习的认知无线电频谱感知,“无线通信和移动计算ID 5906097条,卷。2018年,17页,2018。视图:出版商的网站|谷歌学术搜索
m·楚h . Li x廖,崔,“基于强化学习多路存取控制和预测电池能量收获在物联网系统中,“IEEE物联网》第六卷,没有。2、2009 - 2020年,2019页。视图:出版商的网站|谷歌学术搜索
h .μm .道、w .党和y肖,”联合subcarrier-relay分配和功率分配再生multi-relay OFDM系统”学报》2009年第四次国际会议在中国通信和网络IEEE,页1 - 6,西安,中国,2009年8月。视图:出版商的网站|谷歌学术搜索

无线通信和移动计算

在无线传感器网络节能和收获