强化学习:具有多个参数的连续动作

时间:2019-12-06 08:30:59

标签: reinforcement-learning

我正在为战斗环境做一些RL工作。我面临着多个参数连续动作空间的问题。

动作空间可以这样描述:

动作1:MoveTo(x, y);这意味着代理将移动到目标坐标(x,y)。 x和y是连续的。

动作2:Shoot(x, y, z);这意味着特工将朝(x,y,z)方向射击。 x / y / z也是连续的。

这个动作空间是离散的还是连续的?每个动作都有多个参数,是否有一些算法可以解决这个问题?或一些类似的环境解决方案。

任何建议将不胜感激。

0 个答案:

没有答案