我不确定隐藏层中的架构是什么?输出层?根据这篇博客: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 和tensLlow中的BasicLSTMCell,这是我读完一些参考后的假设:
隐藏状态:大小(h,1),然后将(h,1)矩阵输入到单元格中作为(i,f,o,g)因子。如果当前输入x具有大小(n,1),则我们将其与具有大小h * 1的先前输出连接,因此输入神经元可具有大小(n + h)。因此,权重矩阵的大小可以是(n + h)* h。
输出状态: LSTM单元格的输出,大小与隐藏状态相同,因为单元格的输入具有隐藏状态的大小,并且单元格内的计算都是逐位计算。
输出值:创建一个输出值的完全连接的图层。如果隐藏状态具有大小h * 1,则该层中的权重矩阵的大小可以是h * 1.
因此,对于具有四个输入通道(i,f,o,g)和输出层的单个LSTM单元,将有5个应该优化的权重矩阵:4个具有大小h *(n + h)对于隐藏层,1表示输出层的大小为h * 1。
我说错了吗?
我希望在完全理解之后我可以为LSTM架构绘制详细图表。谢谢!
答案 0 :(得分:0)
我怀疑您对权重矩阵的解释。以我的理解,我们使用下面的矩阵。
Input - order n
State / Output - order h
four input Matrix having order h X h+n
four output matrix having order h X h
在反向传播中,我们必须使用以下矩阵顺序
output difference delta - order h
如果我在任何方面都错了,请发表评论。