Question

In this question six months ago，jez足以帮助我对行差异的外积进行快速近似，即：

K = np.zeros((len(X), len(X)))
for i, Xi in enumerate(X):
  for j, Xj in enumerate(X):
    dij = Xi - Xj
    K += np.outer(dij, dij)

这有助于找到Fisher判别分析形式的散点图矩阵计算。但是现在我正在尝试进行局部Fisher判别分析，其中每个外部产品都由矩阵A加权，矩阵A具有关于该对的位置的信息，因此新行是：

K += A[i][j] * np.outer(dij, dij)

不幸的是，计算前一个答案中提到的未加权散布矩阵的快速方法对此不起作用，据我所知，快速更改并不容易。

线性代数绝对不是我的强项，我不擅长提出这些事情。什么是计算成对行差外积的加权和的快速方法？

Answer 1

这是一种矢量化指定计算的方法。如果你做了很多这样的事情，那么可能值得学习如何使用，＆＃34; numpy.tensordot＆＃34;。它根据标准的numpy广播将所有元素相乘，然后对用kwrd，＃34;轴＆＃34;给出的轴对进行求和。

以下是代码：

# Imports
import numpy as np
from numpy.random import random

# Original calculation for testing purposes 
def ftrue(A, X):
  ""
  K = np.zeros((len(X), len(X)))
  KA_true = np.zeros((len(X), len(X)))

  for i, Xi in enumerate(X):
    for j, Xj in enumerate(X):
      dij = Xi - Xj
      K += np.outer(dij, dij)
      KA_true += A[i, j] * np.outer(dij, dij) 
  return ftrue

# Better: No Python loops. But, makes a large temporary array.
def fbetter(A, X):
  ""
  c = X[:, None, :] - X[None, :, :]
  b = A[:, :, None] * c           # ! BAD ! temporary array size N**3
  KA_better = np.tensordot(b, c, axes = [(0,1),(0,1)])
  return KA_better

# Best way: No Python for loops. No large temporary arrays
def fbest(A, X):
  ""
  KA_best = np.tensordot(A.sum(1)[:,None] * X, X, axes=[(0,), (0,)])
  KA_best += np.tensordot(A.sum(0)[:,None] * X, X, axes=[(0,), (0,)])
  KA_best -= np.tensordot(np.dot(A, X), X, axes=[(0,), (0,)])
  KA_best -= np.tensordot(X, np.dot(A, X), axes=[(0,), (0,)])
  return KA_best


# Test script
if __name__ == "__main__":

  # Parameters for the computation 
  N = 250
  X = random((N, N))
  A = random((N, N))

  # Print the error
  KA_better = fbetter(A, X)
  KA_best = fbest(A, X)

  # Test against true if array size isn't too big
  if N<100:
    KA_true = ftrue(A, X)
    err = abs(KA_better - KA_true).mean()
    msg = "Mean absolute difference (better): {}."
    print(msg.format(err))

  # Test best against better
  err = abs(KA_best - KA_better).mean()
  msg = "Mean absolute difference (best): {}."
  print(msg.format(err))

我的第一次尝试（fbetter）制作了一个大小为NxNxN的大型临时数组。第二次尝试（fbest）永远不会比NxN更大。这种效果非常好，可达N~1000。

A timing test

此外，当输出数组较小时，代码运行得更快。 enter image description here

我安装了MKL，因此对tensordot的调用非常快并且并行运行。

感谢您的提问。这是一个很好的练习，并提醒我避免制作大型临时数组是多么重要。

快速加权散射矩阵计算

1 个答案: