研究文章
强化学习对安全性敏感的工作流应用程序调度在移动计算边缘
|
开始 |
| (1) |
初始化重播内存的大小
,和状态转换的minibatch经验的大小
; |
| (2) |
为
做 |
| (3) |
重置系统状态
; |
| (4) |
为做 |
| (5) |
在每个时间段的开始
,当前状态系统的观察; |
| (6) |
基于当前状态
,随机选择一个行动概率和选择行动最大的价值与概率; |
| (7) |
最直接的奖励可以计算和系统状态在接下来的时间槽可以观察到; |
| (8) |
状态转换的经验可以获得和存储回放记忆; |
| (9) |
最直接的回报每一步都是累积地总结; |
| (10) |
随机样本状态转换的经验从回放记忆训练问网络; |
| (11) |
计算的期望电流之间的均方误差评估价值和目标价值
: |
| (12) |
结束了 |
| (13) |
结束了 |
|