reinforcement-learning - 具有函数逼近的Q学习，其中每个状态没有相同的动作集

时间：2016-08-24 17:34:10

标签： reinforcement-learning q-learning

我正在将Q-learning与函数逼近应用于每个状态没有相同操作集的问题。那时我正在计算目标

目标= R（s，a，s'）+（max_a'* Q（s'，a'））

由于每个州都没有相同的行动集，所以我是否应该在我的州定义中包含一组行动？否则发生的事情是两个状态在所有其他特征中可能彼此非常相似，除了事实上它们具有从那里开始可用的非常不同的一组动作。即使我包含一组动作，然后问题是向量的长度，因为每个状态具有不同的动作数。请帮帮我。

答案 0 :(得分：0)

我的建议是将行动表达为功能的加权和。

例如，如果您使用的是神经网络，则输入图层将为状态，输出图层将为动作的特征。您可以将Q（s，a）计算为和（NN（s）_i * a_i），其中NN（s）_i是给定输入s的神经网络的第i个输出神经元的值，a_i是给定的权重以行动为特色。

这也可以被解释为具有在最后一层具有预定权重的单个神经网络，其对于每个输入是不同的。这在概念上非常混乱，但很容易编程。