强化学习给定有限状态和动作的策略总数

时间:2017-05-10 05:51:50

标签: machine-learning reinforcement-learning

我是强化学习的新手。所以这似乎是一个微不足道的问题

假设3个州{x,y,z}和2个行动{a,b}

为什么政策/搜索空间的总数为2 ^ 3 = 8。

考虑这些情况,

x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)

这只会给我6条政策?然后考虑* 2由于行动(b,a)它会给我12个政策。

我错过了什么吗?

1 个答案:

答案 0 :(得分:2)

假设确定性策略(这是您的情况),策略确定应在每个状态中执行的操作。在您的情况下,您有3个州(x,y,z)和两个可能的行为(a,b)。然后,这些是您可能的政策:

+---+---+---+
| x | y | z |
+---+---+---+
| a | a | a |
| a | a | b |
| a | b | a |
| a | b | b |
| b | a | a |
| b | a | b |
| b | b | a |
| b | b | b |
+---+---+---+

我希望现在更清楚为什么政策/搜索空间的总数是2 ^ 3 = 8。