Q学习算法

时间:2016-12-08 15:09:43

标签: reinforcement-learning q-learning

下午好,我使用q-learning来模拟以下问题:一组代理可以访问2个访问点(AP)状态来上传数据。 S = {1,2}指向AP1或2的连接的状态集.A = {保持,改变}。我们假设在模拟的​​总持续时间内,代理可以访问2个AP。目标是在模拟期间上传最大数据。奖励是一个取决于时间的函数,其定义如下:R(t)= alpha * T + b,其中T是时间间隔的长度,b随时间变化。

在这种情况下,将终端条件定义为q表与预定义值的收敛是否正确?如何表达开发阶段(因为没有将步骤定义为最终目标)?

提前感谢您的帮助。

0 个答案:

没有答案