Q学习网格世界场景

时间:2015-04-11 05:26:56

标签: machine-learning reinforcement-learning gridworld q-learning

我正在从Q-learning Perspective研究 GridWorld 。我对以下问题有疑问:

1) In the grid-world example, rewards are positive for goals, negative
   for running into the edge of the world, and zero the rest of the time.
   Are the signs of these rewards important, or only the intervals
   between them?

2 个答案:

答案 0 :(得分:1)

请记住,Q值是预期值。通过选择最大化每个给定状态的Q函数的动作来提取策略。

var colDef = {headerName: "Tree Value", valueGetter: "data.a+data.b", editable: true, newValueHandler: myNewValueHandler};

function myNewValueHandler(params) {
  // set the value you want in here using the params
}

请注意,您可以对所有Q值应用常量值,而不会影响策略。如果通过应用某个常数值来移动所有q值并不重要,则q值相对于max的关系仍然是相同的。 事实上,你可以应用任何仿射变换(Q'= a * Q + b),你的决定不会改变。

答案 1 :(得分:1)

只有相对值很重要。假设您具有以下奖励功能...

formula

现在说我们在所有奖励中添加一个常量 C ...

formula2

我们可以证明添加一个常量 C 将为所有状态的值添加另一个常量 K ,因此不会影响任何状态的相对值...

formula3

哪里...

formula4

这些值在整个过程中保持一致,因此,奖励之间的时间间隔很重要,与其符号无关。

值得注意的是,此规则并不适用于所有事件任务。通常,该规则仅在情节长度固定的情况下适用。对于每个情节的长短由动作(例如棋盘游戏)决定的任务,添加正常数可能会导致更长的学习间隔。