今年夏天,我一直在学习RL,这周,我尝试在github上一些类似算法的存储库的帮助下,在Pytorch上实现PPO实现。
该代码运行OpenAI的Lunar Lander,但是我有几个我无法修复的错误,最大的错误是该算法可以迅速收敛以执行相同的操作,而不管其状态如何。我发现的另一个主要问题是,即使我只使用了backs()一次,也遇到一个错误,要求我将keep_graph设置为True。
因此,我看不到超过1000步获得的奖励没有改善,我不知道该算法是否需要更多步才能看到改善。
如果这种问题在该论坛中没有位置,我感到非常抱歉,我只是不知道在哪里发布。 同样,我为代码混乱而感到抱歉,这是我第一次使用这种算法,并且在pytorch和机器学习方面,我还是一个新手。
A.assign(Time_order=A.groupby('Id').Time.transform(lambda x: pd.factorize(x, sort=True)[0]))
idx Id Time Time_order
0 0 1 0.0 0.0
1 1 1 0.5 1.0
2 2 1 1.2 2.0
3 3 1 1.2 2.0
4 4 2 0.2 0.0
5 5 2 0.2 0.0
6 6 2 0.5 1.0
7 7 3 1.7 0.0