下午好,我使用q-learning来模拟以下问题:一组代理可以访问2个访问点(AP)状态来上传数据。 S = {1,2}指向AP1或2的连接的状态集.A = {保持,改变}。我们假设在模拟的总持续时间内,代理可以访问2个AP。目标是在模拟期间上传最大数据。奖励是一个取决于时间的函数,其定义如下:R(t)= alpha * T + b,其中T是时间间隔的长度,b随时间变化。
在这种情况下,将终端条件定义为q表与预定义值的收敛是否正确?如何表达开发阶段(因为没有将步骤定义为最终目标)?
提前感谢您的帮助。