Question

我是强化学习的新手。所以这似乎是一个微不足道的问题

假设3个州{x，y，z}和2个行动{a，b}

为什么政策/搜索空间的总数为2 ^ 3 = 8。

考虑这些情况，

x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)

这只会给我6条政策？然后考虑* 2由于行动（b，a）它会给我12个政策。

我错过了什么吗？

Answer 1

假设确定性策略（这是您的情况），策略确定应在每个状态中执行的操作。在您的情况下，您有3个州(x,y,z)和两个可能的行为(a,b)。然后，这些是您可能的政策：

+---+---+---+
| x | y | z |
+---+---+---+
| a | a | a |
| a | a | b |
| a | b | a |
| a | b | b |
| b | a | a |
| b | a | b |
| b | b | a |
| b | b | b |
+---+---+---+

我希望现在更清楚为什么政策/搜索空间的总数是2 ^ 3 = 8。

强化学习给定有限状态和动作的策略总数

1 个答案: