| 输入:POMDP-SFC = < S, P, R,Ω,O, b > |
| 输出:
,
。 |
| (1) |
初始化值函数的下界和上界
。 |
| (2) |
/ /下界
。 |
| (3) |
为每一个做 |
| (4) |
|
| (5) |
结束了 |
| (6) |
/ /为上界
。 |
| (7) |
为每一个做 |
| (8) |
|
| (9) |
|
| (10) |
结束了 |
| (11) |
|
| (12) |
而
做 |
| (13) |
/ /探索的信念HHVIE点集的算法在算法3 |
| (14) |
|
| (15) |
/ /更新下界
。 |
| (16) |
如果
做 |
| (17) |
为每一个做 |
| (18) |
|
| (19) |
|
| (20) |
|
| (21) |
结束了 |
| (22) |
如果 |
| (23) |
/ /更新上限
。 |
| (24) |
如果
做 |
| (25) |
为每一个做 |
| (26) |
|
| (27) |
|
| (28) |
为每一个做 |
| (29) |
|
| (30) |
|
| (31) |
结束了 |
| (32) |
|
| (33) |
|
| (34) |
结束了 |
| (35) |
如果 |
| (36) |
结束时(一)步骤1。首先,初始边界最优值的上、下界函数构造,和快速通知绑定(FIB)被选为初始边界的上限计算方法(算法6 - 10)。盲目的政策选择初始边界的下界计算方法(算法2 - 5行)。构造上、下界函数的目的是使用上界和下界函数逐渐减少的范围值函数空间和方法中的最优值函数迭代的过程。(b)步骤2。点有足够的差异在当前选择信仰点集构造扩展点集
。新信仰的观点是探索这样的继任者点最远的从最初的选择从随后的信念点有足够的每个值函数的上下界的差异扩大信仰点集
。HHIVE算法算法2所示。随后点的选择取决于信仰点的分布和价值函数,也就是说,信仰的密度点的双重选择标准和混合价值函数,为了提高算法的适应性和求解效率。在哪里是信仰的上界值点吗
,
是信仰的下界值点吗
,
的层数是信念
,和是常数。HHVIE算法的原则是开始从信仰角度b,选择最优行动最大的概率,然后选择之间的差异的最大概率加权基础上、下界,以探索新的信念
。重复迭代过程,直到差值的上、下界探索信仰点小于阈值,获得了探索信仰点集B,并完成勘探后更新值函数的上界和下界。(c)步骤3。在更新信念点集B,备份算法更新信念点集的下界,锯齿波算法更新信念的上界点集,和价值功能V是更新。(d)步骤4。重复以上步骤,直到达到阈值的算法。 |
|