Question

我已经安装了Gym Retro Mario Game。我正在以交互方式运行，可以看到奖项在我手动执行的每一个步骤中都得到印制。想知道这个奖励是如何计算的。如果有人可以指向任何py文件（位置，行号），那都很好。

解决了之前的类似问题，并完成了代码retro_env.py。找不到Mario Step and Reward的代码

回溯时，我到达文件retro_env.py。以下是应返回奖励的分步函数：

    def step(self, a):
        if self.img is None and self.ram is None:
            raise RuntimeError('Please call env.reset() before env.step()')

        for p, ap in enumerate(self.action_to_array(a)):
            if self.movie:
                for i in range(self.num_buttons):
                    self.movie.set_key(i, ap[i], p)
            self.em.set_button_mask(ap, p)

        if self.movie:
            self.movie.step()
        self.em.step()
        self.data.update_ram()
        ob = self._update_obs()
        rew, done, info = self.compute_step()
        return ob, rew, bool(done), dict(info)

但是它正在调用self.compute_step（），即：

    def compute_step(self):
        if self.players > 1:
            reward = [self.data.current_reward(p) for p in range(self.players)]
        else:
            reward = self.data.current_reward()
        done = self.data.is_done()
        return reward, done, self.data.lookup_all()

此函数在retro._retro下调用 GameDataGlue 的 current_reward（）。但是，站点包中没有_retro文件夹。不确定current_reward的计算方式

我应该能够理解马里奥奖励的计算方法。然后，我便可以将其应用于其他游戏甚至是我自己的自定义环境

Answer 1

我想出了答案。 Lib \ site-packages \ retro \ data \ stable \ SuperMarioBros-Nes 中的 scenario.json 包含奖励计算。例如，原始条目为：

  "reward": {
    "variables": {
      "xscrollLo": {
        "reward": 1
      }
    }

因此，当马里奥向右移动时，奖励分数得到了更新，但是获得硬币分数却没有更新。
我做到了像这样：

  "reward": {
    "variables": {
      "xscrollLo": {
        "reward": 2
      },
      "coins": {
        "reward": 1
      }
    }

现在，当我开始使用硬币时，我的分数开始增加。下面的示例输出：

steps=6720 episode_steps=6720 episode_returns_delta=80.0 episode_returns=3959.0
steps=6780 episode_steps=6780 episode_returns_delta=1.0 episode_returns=3960.0
steps=6840 episode_steps=6840 episode_returns_delta=1.0 episode_returns=3961.0

这里每增加1点，因为我在步骤中拿了1个硬币。
（尽管如果有人可以提供_retro.pyd的代码，那会很棒）

Openai Gym复古游戏如何获得奖项

1 个答案: