最佳epsilon(ε-贪婪)值

时间:2014-04-02 08:39:59

标签: machine-learning reinforcement-learning q-learning

ε-贪婪的政策

我知道Q-learning算法应该尝试在探索利用之间取得平衡。由于我是这个领域的初学者,我想实现一个简单版本的探索/开发行为。

最佳epsilon值

我的实现使用ε-greedy策略,但在决定epsilon值时我不知所措。 ε应该被算法访问给定(状态,动作)对的次数限制,还是应该被执行的迭代次数限制?

我的建议:
  1. 每次遇到给定(状态,操作)对时降低epsilon值。
  2. 执行完整的迭代后降低epsilon值。
  3. 每次遇到状态时降低epsilon值。
  4. 非常感谢!

2 个答案:

答案 0 :(得分:21)

虽然在许多简单的情况下,εk保持为0和1范围内的固定数字,但您应该知道: 通常,探索随着时间的推移而逐渐减少,因此渐近使用的策略变得贪婪,因此(如Qk→Q *)是最优的。这可以通过在k增长时使εk逼近0来实现。例如,形式εk= 1 / k的ε-共同探索时间表减小到0,因为k→∞,同时仍然满足Q学习的第二个收敛条件,即允许无限次访问所有状态 - 动作对(Singh等,2000)。

我通常做的是: 设置初始alpha = 1 / k(考虑初始k = 1或2) 在你通过试验进行试验后,随着k增加,α将减少。 它也保证了收敛。

答案 1 :(得分:0)

通常明智的做法是将ε设置为正常数,除非你有充分的理由不这样做。