machine-learning - 当用于具有MSE损失的去噪自动编码器时，Ada-Delta方法不会收敛。 ReLU激活？

我刚刚为自己的深度神经网络库实现了AdaDelta（http://arxiv.org/abs/1212.5701）。该论文表示，带有AdaDelta的SGD对超参数不敏感，并且总是汇聚到某个好的地方。（至少AdaDelta-SGD的输出重建损失与经过良好调整的Momentum方法相当）

当我使用AdaDelta-SGD作为Denoising AutoEncoder中的学习方法时，它确实在某些特定设置中收敛，但并非总是如此。当我使用MSE作为损失函数，Sigmoid作为激活函数时，它收敛得非常快，并且在100个时期的迭代之后，最终重建损失优于所有普通SGD，具有Momentum的SGD和AdaGrad。

但是当我使用ReLU作为激活功能时，它没有收敛但是继续堆叠（振荡）具有高（坏）重建损失（就像你使用具有非常高学习速率的普通SGD的情况一样）。它堆积的重建损失的幅度比Momentum方法产生的最终重建损失高10到20倍。

我真的不明白为什么会发生这种情况，因为该报说AdaDelta很好。请让我知道这种现象背后的原因，并告诉我如何避免它。

当用于具有MSE损失的去噪自动编码器时，Ada-Delta方法不会收敛。 ReLU激活？

1 个答案: