研究文章

强化学习对安全性敏感的工作流应用程序调度在移动计算边缘

算法1

基于网络的安全性敏感的工作流调度方案。
开始
(1) 初始化重播内存的大小 ,和状态转换的minibatch经验的大小 ;
(2)
(3) 重置系统状态 ;
(4)
(5) 在每个时间段的开始 ,当前状态 系统的观察;
(6) 基于当前状态 ,随机选择一个行动 概率和选择行动 最大的 价值与 概率;
(7) 最直接的奖励 可以计算和系统状态 在接下来的时间槽 可以观察到;
(8) 状态转换的经验 可以获得和存储回放记忆;
(9) 最直接的回报 每一步都是累积地总结;
(10) 随机样本 状态转换的经验从回放记忆训练网络;
(11) 计算的期望电流之间的均方误差评估 价值 和目标 价值 :
(12) 结束了
(13) 结束了