machine-learning - 为什么门控激活功能（在Wavenet中使用）比ReLU更好用？

我做了一些挖掘工作，并与一位朋友交谈了更多，后者向我指出了多芬等人的论文。等关于“带门控卷积网络的语言建模”。他在论文的第3部分中对此主题做了很好的解释：

LSTM通过由输入和忘记门控制的独立单元实现长期存储。这使信息可以无阻碍地流经许多时间步长。没有这些门，信息很容易在每个时间步的变换中消失。

相比之下，卷积网络不会遭受相同类型的消失梯度的影响，我们通过实验发现它们不需要忘记门。因此，我们考虑仅具有输出门的模型，这些模型使网络可以控制应通过层的层次结构传播哪些信息。

换句话说，这意味着他们采用了门的概念并将其应用于顺序卷积层，以控制正在传递的信息类型，显然，这比使用ReLU更好。

edit：但是为什么效果更好，我仍然不知道，如果有人能给我一个甚至遥不可及的直观答案，我将不胜感激，我环顾了四周，显然我们仍基于我们的判断力。

为什么门控激活功能（在Wavenet中使用）比ReLU更好用？

1 个答案: