neural-network - 是否存在使用S形模型激活而不是ReLu更好的情况

我正在训练一个复杂的神经网络架构，然后使用RNN对我的输入进行编码，然后是一个带有softmax输出层的深度神经网络。

我现在正在优化我的架构深度神经网络部分（单位数和隐藏层数）。

我目前正在为所有图层使用sigmoid激活。对于少数隐藏层来说这似乎没问题，但随着层数的增长，似乎sigmoid不是最佳选择。

你认为我应该首先对sigmoid进行超参数优化然后再调用ReLu，或者直接使用ReLu更好吗？

另外，你认为只有在最后一个隐藏层中使用Relu并且在最后一个隐藏层中使用sigmoid才有意义，因为我有一个softmax输出。