reinforcement-learning - 稀疏采样算法的参数化

我有一个关于C，H和lambda参数化的问题：“A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes”（或者对于强化学习，特别是lambda有一些一般知识的人），在第5页。

更确切地说，我没有看到参数化H，C或lambda是否依赖于诸如奖励的稀疏性或距离之类的因素的任何迹象，因为环境可能在未来的任何数量的步骤中得到奖励。

例如，假设有一个环境需要一串7个动作才能从平均起始状态获得奖励，另一个需要2个动作。在规划树木时，很明显，考虑到状态空间的通常指数分支，C（样本的大小）和H（地平线长度）应该取决于这些奖励与当前状态的距离。对于距离平均状态2步的那个，例如，H = 2就足够了。类似地，C应该依赖于奖励的稀疏性，也就是说，如果有1000个可能的状态并且只有其中一个具有奖励，则C应该高于每5个状态发现奖励（假设多个状态给出）相同的奖励与目标导向的问题相比）。

所以问题是，我的假设是正确的，还是我对采样错过了什么？链接pdf第5页的那些定义没有提及对分支因素或奖励稀疏性的任何依赖。

感谢您的时间。

稀疏采样算法的参数化

0 个答案: