TY -的A2 - Rai,维盟——Friston卡尔盟,Ao萍PY - 2012 DA - 2011/12/21 TI -自由能,价值,和引资SP - 937860六世- 2012 AB -最近有人建议,行动和感知可以被理解为自由能最小化的感官样本。这将确保代理示例环境来最大化他们的模型的证据,这样交流与环境是可预测和自适应。然而,自由能账户并不调用奖励或强化学习的成本函数和最优控制理论。我们因此问奖励解释适应性行为是必要的。思想自由能量公式使用统计物理学来解释行动最小化感官的惊喜。相反,强化学习根植于行为主义和工程和假设代理优化政策未来的回报最大化。本文试图连接两个配方和得出结论,最优策略对应于实证先验隐藏环境状态的轨迹,这迫使代理寻找(有价值的)州他们希望遇到。SN - 1748 - 670 - 2012/937860 / 10.1155 x你——https://doi.org/10.1155/2012/937860——摩根富林明——计算和数学方法在医学PB - Hindawi出版公司KW - ER