backpropagation - 注意模型中的反向传播

我正在尝试通过成比例的点积注意模型进行反向传播。规模化点生产的注意力以Q（查询），K（键），V（值）作为输入并执行以下操作：

Attention（Q，K，V）= softmax（（Q.transpose（K））/√dk）V

这里√dk是比例因子，是一个常数。

这里Q，K和V是张量。我现在假设Q = K = V。因此，我针对Q区分了公式（softmax（（Q.transpose（Q）））Q）。我认为答案是：

softmax（（Q.transpose（Q）））+ Q.derivativeOfSoftmax（（Q.transpose（Q）））。（2 * transpose（Q））

因为我认为Q的Q.transpose（Q）的导数是2 * Q.transpose（Q）。

这是考虑张量演算规则的正确方法吗？如果不能的话，请告诉我如何进行。

在给定的论文中，可以参考按比例缩放点乘积的概念： https://arxiv.org/pdf/1706.03762.pdf