reinforcement-learning - 确定性政策梯度优于随机政策梯度的优势是什么？

政策梯度法的主要原因是解决连续动作空间问题，由于全局Q最大化，Q学习难以实现。

SPG可以解决连续动作空间问题，因为它通过连续概率分布来表示策略。由于SPG将其政策视为一种分配，因此需要采取积分而不是行动来获得整体奖励的梯度。 SPG采用重要性抽样来进行这种整合。

DPG通过从州到行动的确定性映射来表示政策。它可以做到这一点，因为它没有采取全局最大Q的行动，但它根据确定性映射（如果在策略上）选择行动，同时通过Q的梯度（开启和关闭策略）移动该确定性映射。然后，总体奖励的梯度具有不需要积分超过动作的形式，并且更容易计算。

可以说，这似乎是从随机政策向确定性政策转变的一步。但是随机政策首先被引入来处理连续的行动空间。确定性政策现在提供了另一种处理连续行动空间的方法。

我的观察来自这些论文：

确定性政策梯度算法

具有函数逼近的强化学习的政策梯度方法

深度强化学习的持续控制

因为策略是确定性的而不是随机的，这意味着每个州只会选择一个动作。