machine-learning - Q-Learning：你能倒退吗？

我正在查看示例考试，并且有关于Q-learning的问题，我已将其包含在下面。在第3步中，采取的行动是如何“正确”的。而不是＆＃39; up＆＃39; （回到A2）。回到A2的Q值似乎是0.18，而右边的Q值是0.09。那么为什么代理人不会回到A2而不是去B3？

Maze & Q-Table

Solution

编辑：另外，为什么2，C的行动奖励价值为2，正确＆＃39;即使那里有一堵墙而且不可能正确？我们只是假设这不是一个可能的举动而忽略了它的Q值吗？

编辑2：然后在步骤6中，进入＆＃39;向下＆＃39;并且＆＃39;对＆＃39;在州1，C是平等的。那时代理人只是随机挑选？那么对于这个问题，我会选择最好的举动，因为代理人可能会选择它吗？

编辑3：说代理人没有回到他以前来自的状态会是真的吗？代理人是否会不止一次探索同一个州（不包括启动迷宫的新实例）？

您似乎假设您应该在下一个时间步骤中查看状态的值。这是不正确的。 Q函数回答了这个问题：

如果我处于州x，我应该采取哪种行动？

在非确定性环境中，您甚至不知道下一个状态是什么，因此无法确定您的解释采取哪种行动。

Q学习的学习部分确实在两个后续的时间步长上起作用，但在它们已知之后，它们习惯于更新 Q-功能的值。这与如何收集这些样本（状态，动作，强化，下一状态）无关。在这种情况下，样本由与环境交互的代理收集。在Q-learning设置中，代理根据策略与环境进行交互，该策略基于此处的Q函数的当前值。从概念上讲，政策的工作方式是回答我上面引用的问题。

在步骤1和2中，仅针对状态1,A和2,A修改Q功能。在第3步中，代理处于状态3,A，因此这是Q函数中唯一相关的部分。

在第3步中，采取的行动是如何“正确”而不是“向上”（回到A2）。

在州3,A中，具有最高Q值的操作是“正确”（0.2）。所有其他操作都具有值0.0。

另外，为什么2，C对于行动'正确'的奖励值为2，即使那里有一堵墙而且不可能正确？我们只是假设这不是一个可能的举动而忽略了它的Q值吗？

在我看来，2,C右边没有墙。然而，给出了Q函数，并且在这个任务中是否可以使用Q学习来达到这样的Q函数是无关紧要的。无论如何，你总是可以从任意Q函数开始Q-learning。

在Q-learning中你唯一的知识是Q函数，所以你对“墙”和其他东西一无所知 - 你根据Q函数行事，这就是这个算法的全部美。

然后在步骤6中，在状态1，C处“向下”和“向右”的Q值相等。那时代理人只是随机挑选？那么对于这个问题，我会选择最好的举动，因为代理人可能会选择它吗？

同样，您应该查看代理当前所处状态的值，因此对于1,B“正确”是最佳的 - 它具有0.1，其他操作为0.0。

要回答最后一个问题，即使它与此无关：是的，如果代理正在采取贪婪的步骤并且多个动作看起来是最佳的，那么它会在大多数常见策略中随机选择一个。

说代理人没有回到他之前来自的状态是真的吗？代理人是否会不止一次探索同一个州（不包括启动迷宫的新实例）？

没有。正如我上面所说 - 唯一的指导代理在纯Q学习中使用的是Q函数。它不知道它之前一直处于特定的状态。

Q-Learning：你能倒退吗？

1 个答案: