machine-learning - 神经网络中的批量归一化。为什么表示身份变换很重要

我正在阅读批量标准化论文（http://arxiv.org/pdf/1502.03167.pdf），我的理解是我们更换了一个图层 sgm(X*W)图层sgm((X*N*D)*W)，其中：

我不了解带来D的可能解相关的重要性，但为什么我们需要代表身份转换呢？

如果BN(X) = sgm((X*N*D)*W)那么dW= (X*N*D)'*((X*N*D)*W - Y)和dD = (X*N)'*((X*N*D)*W - Y)*W'是正确的更新规则？