reinforcement-learning - 强化学习，ε-贪婪方法与最佳行动

强化学习，ε-贪婪方法与最佳行动

时间：2018-04-22 00:50:44

标签： reinforcement-learning

在强化学习中，我们为什么要根据ε-贪婪的方法选择行动，而不是总是选择最佳行动？

2 个答案:

答案 0 :(得分：0)

我们在训练期间使用epsilon-greedy方法进行探索。这意味着当通过训练选择动作时，它被选择为具有最高Q值的动作，或者被选择为某个因子（epsilon）的随机动作。

在这两者之间进行选择是随机的，并且基于epsilon的值。最初，采取了大量的随机动作，这意味着我们从探索空间开始，但随着训练的进行，采取了具有最大q值的更多动作，并且我们逐渐开始少关注具有低Q值的动作。

在测试过程中，我们使用这种epsilon-greedy方法，但是epsilon的值非常低，因此对探索的利用存在强烈的偏见，有利于选择具有最高q值的动作而不是随机动作。但是，有时仍会选择随机行动。

这一切都是因为我们想要消除过度拟合或不合适的负面影响。

使用0的epsilon（总是选择最佳动作）是一个完全剥削的选择。例如，考虑一个迷宫游戏，其中代理的当前Q估计收敛到最优策略，除了一个网格，它贪婪地选择移动到边界（这是当前最优策略），导致它保持在同一个边界grid，如果代理达到任何这样的状态，并且它正在选择最大Q-action，它将被卡在那里。但是，在其政策中保留一个小的epsilon因子可以让它摆脱这种状态。

答案 1 :(得分：0)

如果您已经知道最佳动作是什么，那么学习就不会发生，对吧？：）

ε-greedy是“政策上”学习，这意味着你正在学习最优ε-贪婪的政策，同时用ε-贪婪的政策进行探索。您还可以通过选择与您正在学习的政策不一致的动作来学习“非政策性”，例如总是随机探索（与ε= 1相同）。

我知道这一开始会让人感到困惑，如果你随机移动，你怎么能学到什么？这里的关键知识是你学到的政策不是由你如何探索，而是由你如何计算未来奖励的总和（在常规Q-Learning的情况下，它是最大（Q [next_state]）片在Q值更新中。

这一切都假设您正在进行足够的探索，如果您没有尝试新的行动，代理商将永远无法确定哪些是最好的。