machine-learning - 梯度法的正交性正则化惩罚？

和的每一部分（[W'W - diag（W'W）] ^ 2）（你需要^ 2或abs去除符号，否则你可能有像[[1 -100] [100 1]这样的矩阵]]成本0，即使它不是正交的）是可区分的，为什么你会这样想？只涉及附加和乘法，没有别的。

更大的问题是计算复杂性，因为给定W是d x n，前向和后向传递将具有O（n ^ 2d）复杂度。因此，如果这是一个具有1000个单位的神经网络层，则这种惩罚需要1,000,000,000个计算（而不是正常反向支持中的1,000,000个）。一般而言，应该避免在权重空间中成对惩罚。你可以通过以随机方式对这种类型进行正规化来减少这种情况（类似于辍学 - 只是随机抽取K个单位并仅对它们应用penlty）。

梯度法的正交性正则化惩罚？

1 个答案: