python - Q学习中奇怪的更新功能行为 - Thinbug

Q学习中奇怪的更新功能行为

时间：2019-04-18 13:24:59

标签： python q-learning

更新q值时遇到问题。他们倾向于无限。以下代码显示了遵循Bellman方程的更新函数：

q[board][action] = q[board][action] + lr *
immediate_reward + (discount * best_q_value_new_board - immediate_reward)

由于某种原因，这些值正在无限增长。我不知道为什么会这样。

任何输入表示赞赏！

谢谢

0 个答案:

没有答案