LSTM内部隐藏层的网络架构是什么?

时间:2018-03-04 08:22:37

标签: tensorflow neural-network lstm

我不确定隐藏层中的架构是什么?输出层?根据这篇博客: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 和tensLlow中的BasicLSTMCell,这是我读完一些参考后的假设:

隐藏状态:大小(h,1),然后将(h,1)矩阵输入到单元格中作为(i,f,o,g)因子。如果当前输入x具有大小(n,1),则我们将其与具有大小h * 1的先前输出连接,因此输入神经元可具有大小(n + h)。因此,权重矩阵的大小可以是(n + h)* h。

输出状态: LSTM单元格的输出,大小与隐藏状态相同,因为单元格的输入具有隐藏状态的大小,并且单元格内的计算都是逐位计算。

输出值:创建一个输出值的完全连接的图层。如果隐藏状态具有大小h * 1,则该层中的权重矩阵的大小可以是h * 1.

因此,对于具有四个输入通道(i,f,o,g)和输出层的单个LSTM单元,将有5个应该优化的权重矩阵:4个具有大小h *(n + h)对于隐藏层,1表示输出层的大小为h * 1。

我说错了吗?

我希望在完全理解之后我可以为LSTM架构绘制详细图表。谢谢!

1 个答案:

答案 0 :(得分:0)

我怀疑您对权重矩阵的解释。以我的理解,我们使用下面的矩阵。

Input - order n

State / Output - order h

four input  Matrix having order h X h+n

four output matrix having order h X h

在反向传播中,我们必须使用以下矩阵顺序

output difference delta - order h

如果我在任何方面都错了,请发表评论。