|
输入:状态集
,动作集
,配对比较矩阵
,候选网络属性矩阵
,并迭代限值
|
|
输出:训练Q表最佳行动选择策略
,用户满意度
|
| (1) |
计算属性权重基础
|
| (2) |
面向
,
|
| 3级 |
=0 |
| (4) |
结束 |
| (5) |
随机选择
初始化状态 |
| (6) |
迭代 <
|
| (7) |
面向每一州 |
| (8) |
if
<
|
| (9) |
随机选择动作 |
| (10) |
易斯语 |
| (11) |
选择与最大值对应的动作Q类值在此状态中 。 |
| 12 |
结束if |
| (13) |
性能表现
|
| (14) |
计算
按方程计算23号) |
| 15 |
观察下一状态
|
| 16 |
按方程更新Q表24码) |
| 17 |
结束 |
| (18) |
结束时间 |
| (19) |
记录与最大值对应的动作Q类值输入
|
| 20号 |
计算用户满意度
|
|