Q学习中奇怪的更新功能行为

时间:2019-04-18 13:24:59

标签: python q-learning

更新q值时遇到问题。他们倾向于无限。以下代码显示了遵循Bellman方程enter image description here的更新函数:

q[board][action] = q[board][action] + lr *
immediate_reward + (discount * best_q_value_new_board - immediate_reward)

由于某种原因,这些值正在无限增长。我不知道为什么会这样。

任何输入表示赞赏!

谢谢

0 个答案:

没有答案