研究文章
交易收费传感器数据与双拍市场相竞边缘服务器
| 输入量 :连续动作空间
并
市场大全 |
| 输出 :均衡物价策略
并
市场化
并
|
| 一号初始化:初始化角色网络
关键网络
联想
并
,并初始化相关参数
并
初始化目标网络
并
对应上两个网络和参数
并
,初始重放内存
|
| 2随机初始化分布N用于动作探索; |
| 3初始市场状态
并
,并设置迭代周期
|
| 4时段交易商损失函数不归并多做 |
| 5动作选择: |
| 6市场选择动作
并
显示
,分别 |
| 7发布标价动作
,交易商调整均衡交易策略I-PDQN算法
新状态
|
| 8存储图
内存重放 |
| 9战略培训: |
| 10For
高山市更新策略网络,分别面向两个市场)多做 |
| 11随机样从重放内存
计算
|
| 12关键网络Q通过最小化方程损失函数更新21号) |
| 13演艺网络
通过方程优化采样策略梯度更新20码) |
| 14更新目标网络参数
并
通过方程
|
| 15结束 |
| 16结束 |
|