在Q Learning中,你怎么能真正获得Q值? Q(s,a)不会永远继续下去吗?

时间:2016-12-03 19:26:40

标签: reinforcement-learning q-learning

我一直在研究强化学习,但我不明白的是如何计算Q值。如果你使用贝尔曼方程Q(s,a) = r + γ*max(Q(s',a')),它会不会永远继续下去?因为Q(s',a')需要进一步增加一个时间步长的Q值,而这只会继续下去。它是如何结束的?

1 个答案:

答案 0 :(得分:1)

Reinforcement Learning中,您通常会尝试查找策略(在特定状态下采取的最佳操作),并且当策略不再更改或值函数(表示预期奖励)时学习过程结束已融合。

您似乎混淆了Q-learningValue Iteration using the Bellman equation。 Q-learning是一种无模型技术,您可以使用获得的奖励来更新 Q

Q formula

此处直接奖励 r t + 1 是在完成 a t 行动后获得的奖励州 s t 。 α是学习率,应该介于0和1之间,如果是0则不进行学习,如果是1,则只考虑最新的奖励。

Value iterationBellman equation

bellman

如果模型 P a (s,s')是必需的,也定义为 P(s'| s,a) ,这是使用 a 动作从状态 s 转到 s'的概率。要检查值函数是否收敛,通常将值函数 V t + 1 V t 进行比较对于所有州而且如果它小于一个小值(ε),则该政策被称为收敛:

converged

另见: