machine-learning - ε-贪婪的政策，探索率下降

您的问题有几个有效答案。从理论的角度来看，为了实现收敛，Q学习要求所有的状态 - 动作对（渐近地）经常被无限访问。

以前的条件可以通过多种方式实现。在我看来，将n简单地解释为时间步数，即代理与环境进行了多少次交互[例如Busoniu, 2010, Chapter 2]更为常见。

但是，在某些情况下，每个州的探索率可能不同，因此n是座席访问状态s的次数[例如Powell, 2011, chapter 12]

这两种解释同样有效，并确保（在其他条件下）Q学习的渐近收敛。何时更好地使用某种方法或其他方法取决于您的特定问题，类似于您应该使用的E的确切值。