PPO剪辑如何将rt保持在[1-e,1 + e]之内?

时间:2019-06-05 11:13:06

标签: deep-learning reinforcement-learning

在PPO论文中,他们说ppo削波损耗使rt保持在[1-E,1 + E]之间,但是当rt = 1 + E且Advantage> 0时,损耗仍然是(1+ E)*优点,因此不会进一步训练(时代)将rt推出[1-E,1 + E]吗? rt移出[1-E,1 + E]时rt不会进一步增加吗?

enter image description here

0 个答案:

没有答案