研究文章
联合信道分配和功率控制基于长短期记忆深问网络在认知无线电网络中
| (1) |
初始化:能力O的内存D聚氨酯的传输能量和苏分别通道干扰矩阵
,LSTM-estimates LSTM-DQN问重量
,目标LSTM-DQN |
| (2) |
为事件= 1E做 |
| (3) |
根据初始状态
,SUs随机选择的行为与概率,否则选择行为与概率 |
| (4) |
为t= 1,T做 |
| (5) |
脓更新传输能量根据自己的功率控制策略 |
| (6) |
SUs选择行动与概率,否则选择行动 |
| (7) |
获得奖励和下一个状态 |
| (8) |
保存实验数据到内存D |
| (9) |
如果
然后 |
| (10) |
选择训练样本随机从D |
| (11) |
计算 |
| (12) |
使用梯度下降方法最小化损失函数和更新参数 |
| (13) |
如果 |
| (14) |
结束了 |
| (15) |
重置环境参数随机 |
| (16) |
结束了 |
|