研究文章

交易收费传感器数据与双拍市场相竞边缘服务器

算法2

MaDDG算法
输入量 :连续动作空间 市场大全
输出 :均衡物价策略 市场化
一号初始化:初始化角色网络 关键网络 联想 ,并初始化相关参数 初始化目标网络 对应上两个网络和参数 ,初始重放内存
2随机初始化分布N用于动作探索;
3初始市场状态 ,并设置迭代周期
4时段交易商损失函数不归并多做
5动作选择:
6市场选择动作 显示 ,分别
7发布标价动作 ,交易商调整均衡交易策略I-PDQN算法 新状态
8存储图 内存重放
9战略培训:
10For 高山市更新策略网络,分别面向两个市场)多做
11随机样从重放内存 计算
12关键网络Q通过最小化方程损失函数更新21号)
13演艺网络 通过方程优化采样策略梯度更新20码)
14更新目标网络参数 通过方程
15结束
16结束