强化学习中的国家利用

时间:2015-12-10 11:25:07

标签: utilities reinforcement-learning

在人工智能现代方法(第3版 - 罗素)一书中,我们有一个像这样的4 * 3世界: enter image description here

并且通过一些计算我并不理解我们为每个状态达到这个效用(给定R(s)= -0.04并且每个状态的γ= 1):

enter image description here

我想实现这个世界。读过这本书的人(第17章)可以向我解释一下,如何计算这个世界上每个州的公用事业?

0 个答案:

没有答案