gradient-descent - 梯度下降实施中的困惑

当我执行梯度下降实现时，我看到它对于特定的alpha值和#of迭代值收敛（我认为！）。

但是，保持alpha不变，如果我增加迭代次数，则在高迭代次数下，成本函数会有小幅增加。如果我现在降低alpha值，它看起来又像收敛，但是当我增加#of次迭代时，成本函数似乎又增加了一点。

以下是针对alpha = 0.07和迭代次数= 10000

以下是针对alpha = 0.07和迭代次数= 30000

这是正常现象还是我的实现出现问题？在这两种情况下，我也会保持正则化惩罚不变。