reinforcement-learning - 奖励制度如何在强化学习中发挥作用？

就我而言，奖励的整个系统取决于要学习的神经网络中的损失函数。为了简化起见，假设损失函数为-R（rewards）。如果报酬是正的，而损失是负的，那么我们就放松模型。如果奖励为负数，则我们正在努力加强模型。这句话正确吗？最后，更大的输出层值是否会导致更好的模型？输出神经元的充气对于增加模型的复杂性和准确性是否必要？或者损失函数中的正负R是否足以正确训练RL模型？

奖励制度如何在强化学习中发挥作用？

0 个答案: