deep-learning - 如何提出深度Q学习方法，以建议合适的时间段来进行特定的活动

我想提出一个深度Q学习模型，以建议最适合的时隙（24小时内的任何时隙）来进行特定的活动。

我是深度学习的新手，但是我对机器学习（监督和无监督）有基本的了解。根据我的理解，我感觉我的动作空间是连续的，因为我的移动应用程序可以预测任何时隙进行某些活动，并根据用户的反馈确定我的报酬。代理-我的移动应用动作-建议进行活动的时段奖励是根据论文行动的结果来定义的。 -如果用户在给定的时间段内进行活动，则该活动将被计为正面奖励 -如果用户推迟提醒，则将是负面奖励。有7个州（一周7天）集-一周内完成一项活动时间表

我想知道这是否是一种很好的RL方法，如果可以的话，请您提供一些参考资源。预先感谢。

如何提出深度Q学习方法，以建议合适的时间段来进行特定的活动

0 个答案: