machine-learning - 强化学习中的国家依赖行动

时间：2018-04-25 00:07:09

标签： machine-learning reinforcement-learning q-learning

人们如何处理不同州的法律诉讼有所不同的问题？在我的情况下，我总共有大约10个行动，法律行动不重叠，这意味着在某些州，相同的3个州总是合法的，而这些州在其他类型的州中从不合法。

如果法律行动重叠，我也有兴趣看看解决方案是否会有所不同。

对于Q学习（我的网络给了我状态/动作对的值），我想也许我可以在建构目标值时小心选择哪个Q值。（即不是选择最大值，而是选择合法行动中的最大值......）

对于Policy-Gradient类型的方法，我不太确定适当的设置是什么。在计算损失时，是否可以屏蔽输出层？

答案 0 :(得分：3)

最近两年有两项密切相关的作品：

[1] Boutilier，Craig等人。 “通过随机动作集进行计划和学习。” arXiv预印本arXiv：1805.02363（2018）。

[2] Chandak，Yash等。 “并非所有动作都总是可用时的强化学习。” AAAI。 2020年。

答案 1 :(得分：1)

目前这个问题似乎没有一个普遍而直截了当的答案。也许是因为这不是一个问题？

您为合法操作选择最佳Q值的建议实际上是建议的处理此问题的方法之一。对于策略渐变方法，您可以通过屏蔽非法操作并正确扩展其他操作的概率来实现类似的结果。

其他方法是选择非法行为给予否定奖励 - 或忽略选择而不改变环境，返回与以前相同的奖励。对于我的一个个人经历（Q学习方法），我选择了后者并且代理人学会了他必须学习的内容，但他不时将非法行为用作“不采取行动”的行动。对我来说这不是一个真正的问题，但负面的回报可能会消除这种行为。

如您所见，当行动“重叠”时，这些解决方案不会改变或不同。

回答你在评论中提出的问题 - 我不相信你可以在没有他学习合法/非法行为规则的情况下训练代理人。例如，对于每组法律行动，这需要类似于单独的网络，并且听起来不是最好的想法（特别是如果有很多可能的法律行动集）。

但这些规则的学习难度很大吗？

你必须自己回答一些问题 - 是否会使行动变得非法，难以表达/表达？当然，这是特定于环境的问题，但我会说它大多数时候并不难表达，而且经纪人只是在训练期间学习它们。如果很难，您的环境是否提供有关该州的足够信息？

答案 2 :(得分：0)

不确定我是否正确理解你的问题，但如果你的意思是在某些状态下某些行为是不可能的，那么你只需将其反映在奖励函数中（大的负值）。如果不清楚非法行为导致的状态，您甚至可以决定结束这一集。然后，代理人应该知道在特定的状态下这些行为是不可取的。

在探索模式下，代理可能仍会选择采取非法行动。但是，在开发模式下，它应该避免它们。

答案 3 :(得分：0)

我最近为connect-four构建了一个DDQ代理，并且必须解决这个问题。每当选择已经满了代币的列时，我设置的奖励相当于输掉游戏。在我的情况下，这是-100，它运作良好。

在连接四中，允许非法移动（有效地跳过一个转弯）在某些情况下对于玩家来说是有利的。这就是为什么我将奖励设定为相当于失败而不是较小的负数。

因此，如果您将负面奖励设定为大于亏损，那么您必须在您的域中考虑允许非法行动在探索中发生的影响。