我一直在研究强化学习,但我不明白的是如何计算Q值。如果你使用贝尔曼方程Q(s,a) = r + γ*max(Q(s',a'))
,它会不会永远继续下去?因为Q(s',a')
需要进一步增加一个时间步长的Q值,而这只会继续下去。它是如何结束的?
答案 0 :(得分:1)
在Reinforcement Learning中,您通常会尝试查找策略(在特定状态下采取的最佳操作),并且当策略不再更改或值函数(表示预期奖励)时学习过程结束已融合。
您似乎混淆了Q-learning和Value Iteration using the Bellman equation。 Q-learning是一种无模型技术,您可以使用获得的奖励来更新 Q :
此处直接奖励 r t + 1 是在完成 a t 行动后获得的奖励州 s t 。 α是学习率,应该介于0和1之间,如果是0则不进行学习,如果是1,则只考虑最新的奖励。
Value iteration与Bellman equation:
如果模型 P a (s,s')是必需的,也定义为 P(s'| s,a) ,这是使用 a 动作从状态 s 转到 s'的概率。要检查值函数是否收敛,通常将值函数 V t + 1 与 V t 进行比较对于所有州而且如果它小于一个小值(ε),则该政策被称为收敛:
另见: