PPO有时仅收敛,这取决于初始化。建议保持一致?

时间:2019-07-18 17:52:05

标签: machine-learning pytorch reinforcement-learning

我正在训练PPO算法,以了解自定义环境中的某些行为。问题是,我的模型的收敛性变化很大。在某些运行中,它将开始学习,平均奖励将随着时间的流逝而缓慢增加,而在其他运行中,平均奖励将开始变得越来越负。我在pytorch中使用三层完全连接的模型。是否有任何一般建议可帮助解决此问题?我在一开始使用xavier随机初始化。

0 个答案:

没有答案