TY -的A2 Papageorgiou Quanxin AU -杨,尼古拉斯·朱盟——Xinsong盟——黄Chuangxia PY - 2009 DA - 2010/01/27 TI -政策为连续时间平均迭代奖励马尔可夫决策过程在波兰空间SP - 103723六世- 2009 AB -我们研究
策略迭代算法(PIA)连续时间跳跃马尔可夫决策过程一般状态和行动空间。相应的转换利率是允许的
无限,奖励率
既不上也不下界。我们关心的标准
预计平均报酬。我们提出一组条件我们第一次建立的平均最优性方程和现在的PIA的奖励。然后在两个
略不同的情况表明,PIA产量最优(最大值)奖励,平均最优平稳策略,和平均回报最优方程的一个解。SN - 1085 - 3375你2009/103723 / 10.1155——https://doi.org/10.1155/2009/103723——摩根富林明-抽象和应用分析PB - Hindawi出版公司KW - ER