标签: python q-learning
更新q值时遇到问题。他们倾向于无限。以下代码显示了遵循Bellman方程的更新函数:
q[board][action] = q[board][action] + lr * immediate_reward + (discount * best_q_value_new_board - immediate_reward)
由于某种原因,这些值正在无限增长。我不知道为什么会这样。
任何输入表示赞赏!
谢谢