python - 如何在没有确切答案的情况下训练神经网络？

TLDR;强化学习

一般而言，培训代理人使用强化学习。它与你解释的不同，因为你似乎想要定义一个适应性启发式来告诉代理它是否正常，这可能是有偏见的。强化学习也有偏见，但它们都经过研究和研究。典型的偏差是决定先前行动的重要性的一个因素w.r.t.对当前结果的当前行动。

通过强化学习，您只能不时获得积极或消极的反馈。你只能通过那些反馈时刻来学习。不幸的是，这意味着你只能轻松学习“获胜行动”，“导致获胜行动”更难。所以你需要一个技巧，通常在你的评估函数中递归，以使它工作。好消息是，研究人员已经提出了这样的伎俩。您可以从时差学习或Q学习开始。如果您的模型基于神经网络，则通常会使用梯度下降进行训练。

如何在没有确切答案的情况下训练神经网络？

1 个答案: