标签: tensorflow reinforcement-learning openai-gym
每个人。 我创建了一个名为“ grid_world”的简单健身房环境。这是一个4X4的网格世界,本地人是代理商和目标。目标是将特工移至目标。我使用DQN训练我的经纪人,但发现它的表现不够好,甚至不如随机行动好。
我调试了两天,但仍然找不到任何错误。有没有人可以帮助我?预先感谢。
我的代码已上传到github:https://github.com/zhaoyu611/grid_world