关于我在Pytorch上实施PPO的几个问题

时间:2018-09-07 16:42:34

标签: python machine-learning pytorch reinforcement-learning openai-gym

今年夏天,我一直在学习RL,这周,我尝试在github上一些类似算法的存储库的帮助下,在Pytorch上实现PPO实现。

该代码运行OpenAI的Lunar Lander,但是我有几个我无法修复的错误,最大的错误是该算法可以迅速收敛以执行相同的操作,而不管其状态如何。我发现的另一个主要问题是,即使我只使用了backs()一次,也遇到一个错误,要求我将keep_graph设置为True。

因此,我看不到超过1000步获得的奖励没有改善,我不知道该算法是否需要更多步才能看到改善。

如果这种问题在该论坛中没有位置,我感到非常抱歉,我只是不知道在哪里发布。 同样,我为代码混乱而感到抱歉,这是我第一次使用这种算法,并且在pytorch和机器学习方面,我还是一个新手。

A.assign(Time_order=A.groupby('Id').Time.transform(lambda x: pd.factorize(x, sort=True)[0]))

   idx  Id  Time  Time_order
0    0   1   0.0         0.0
1    1   1   0.5         1.0
2    2   1   1.2         2.0
3    3   1   1.2         2.0
4    4   2   0.2         0.0
5    5   2   0.2         0.0
6    6   2   0.5         1.0
7    7   3   1.7         0.0

0 个答案:

没有答案