标签: utilities reinforcement-learning
在人工智能现代方法(第3版 - 罗素)一书中,我们有一个像这样的4 * 3世界:
并且通过一些计算我并不理解我们为每个状态达到这个效用(给定R(s)= -0.04并且每个状态的γ= 1):
我想实现这个世界。读过这本书的人(第17章)可以向我解释一下,如何计算这个世界上每个州的公用事业?