Question

今年夏天，我一直在学习RL，这周，我尝试在github上一些类似算法的存储库的帮助下，在Pytorch上实现PPO实现。

该代码运行OpenAI的Lunar Lander，但是我有几个我无法修复的错误，最大的错误是该算法可以迅速收敛以执行相同的操作，而不管其状态如何。我发现的另一个主要问题是，即使我只使用了backs（）一次，也遇到一个错误，要求我将keep_graph设置为True。

因此，我看不到超过1000步获得的奖励没有改善，我不知道该算法是否需要更多步才能看到改善。

如果这种问题在该论坛中没有位置，我感到非常抱歉，我只是不知道在哪里发布。同样，我为代码混乱而感到抱歉，这是我第一次使用这种算法，并且在pytorch和机器学习方面，我还是一个新手。

A.assign(Time_order=A.groupby('Id').Time.transform(lambda x: pd.factorize(x, sort=True)[0]))

   idx  Id  Time  Time_order
0    0   1   0.0         0.0
1    1   1   0.5         1.0
2    2   1   1.2         2.0
3    3   1   1.2         2.0
4    4   2   0.2         0.0
5    5   2   0.2         0.0
6    6   2   0.5         1.0
7    7   3   1.7         0.0

关于我在Pytorch上实施PPO的几个问题

0 个答案: