tensorflow - a3c连续动作探头

我想为使用鼠标移动的游戏实施强化学习。该游戏仅关心鼠标的x轴。

我的第一个尝试是使其离散。游戏将有3个动作。使用两个动作可将鼠标左右移动30个像素，使用一个动作可保持静止。它有效，但现在我想使其连续。

我所做的是使神经网络输出均值和标准差。就像这样的代码https://github.com/stefanbo92/A3C-Continuous/blob/master/a3c.py。我什至在第二次尝试中使用了此代码。游戏的宽度为480，因此A_BOUND为[-240,240]。为了使问题始终具有积极的作用，我将预测的作用添加到了240，然后将鼠标位置设置为新的位置。

例如：如果动作是240 + -240，则鼠标的x pos将为0。问题是我的神经网络在启动后几秒钟始终仅输出从240到-240的极限值。

a3c连续动作探头

0 个答案: