标签: optimization gradient gradient-descent
我正在使用梯度下降进行优化,但是有时它会跳过最小限度,并且成本函数会增加。我添加了一个条件,如果成本函数值增加,则后退并降低学习率。运行良好。为什么我在任何地方的文学作品中都看不到这一点?我已经阅读了很多优化文献,试图适应学习率,但是他们从不退缩和修改自己的步骤。这种方法有什么问题吗?