为什么门控激活功能(在Wavenet中使用)比ReLU更好用?

时间:2019-05-09 14:18:11

标签: machine-learning neural-network deep-learning activation-function

我最近一直在阅读Wavenet和PixelCNN论文,他们都提到使用门控激活功能比ReLU更好。但是在两种情况下,他们都没有提供解释。

我已经在其他平台上(例如在r / machinelearning上)提出了要求,但是到目前为止我还没有得到任何答复。可能是他们只是(偶然)尝试了这种替换,结果产生了令人满意的结果?

参考功能: y = tanh(Wk,f * x)。 σ(Wk,g ∗ x)

S形和卷积的正切值之间的元素相乘。

1 个答案:

答案 0 :(得分:2)

我做了一些挖掘工作,并与一位朋友交谈了更多,后者向我指出了多芬等人的论文。等关于“带门控卷积网络的语言建模”。他在论文的第3部分中对此主题做了很好的解释:

  LSTM通过由输入和忘记门控制的独立单元实现长期存储。这使信息可以无阻碍地流经许多时间步长。没有这些门,信息很容易在每个时间步的变换中消失。

     

相比之下,卷积网络不会遭受相同类型的消失梯度的影响,我们通过实验发现它们不需要忘记门。因此,我们考虑仅具有输出门的模型,这些模型使网络可以控制应通过层的层次结构传播哪些信息。

换句话说,这意味着他们采用了门的概念并将其应用于顺序卷积层,以控制正在传递的信息类型,显然,这比使用ReLU更好。

edit:但是为什么效果更好,我仍然不知道,如果有人能给我一个甚至遥不可及的直观答案,我将不胜感激,我环顾了四周,显然我们仍基于我们的判断力。

相关问题