Question

在我的代码中，我使用theano来计算欧氏距离矩阵（来自here的代码）：

import theano
import theano.tensor as T
MAT = T.fmatrix('MAT')
squared_euclidean_distances = (MAT ** 2).sum(1).reshape((MAT.shape[0], 1)) + (MAT ** 2).sum(1).reshape((1, MAT.shape[0])) - 2 * MAT.dot(MAT.T)
f_euclidean = theano.function([MAT], T.sqrt(squared_euclidean_distances))
def pdist_euclidean(mat):
    return f_euclidean(mat)

但是以下代码会导致矩阵的某些值为NaN。我已经读过在计算theano.tensor.sqrt()和here时会发生这种情况

在sqrt（或max（x，EPs））中添加eps

所以我在代码中添加了一个eps：

import theano
import theano.tensor as T

eps = 1e-9

MAT = T.fmatrix('MAT')

squared_euclidean_distances = (MAT ** 2).sum(1).reshape((MAT.shape[0], 1)) + (MAT ** 2).sum(1).reshape((1, MAT.shape[0])) - 2 * MAT.dot(MAT.T)

f_euclidean = theano.function([MAT], T.sqrt(eps+squared_euclidean_distances))

def pdist_euclidean(mat):
    return f_euclidean(mat)

我在执行sqrt之前添加它。我的NaN越来越少了，但我还是得到了它们。这个问题的正确解决方案是什么？我还注意到，如果MAT为T.dmatrix()则没有NaN

Answer 1

计算欧几里德距离时，有两种可能的NaN来源。

浮点表示逼近问题导致负距离，当它真的只是零时。负数的平方根是未定义的（假设您对复杂解决方案不感兴趣）。

想象一下MAT的值为

[[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763]
 [-2.3015387   1.74481176 -0.7612069   0.3190391  -0.24937038]
 [ 1.46210794 -2.06014071 -0.3224172  -0.38405435  1.13376944]
 [-1.09989127 -0.17242821 -0.87785842  0.04221375  0.58281521]]

现在，如果我们分解计算，我们会看到(MAT ** 2).sum(1).reshape((MAT.shape[0], 1)) + (MAT ** 2).sum(1).reshape((1, MAT.shape[0]))具有值

[[ 10.3838024   -9.92394296  10.39763039  -1.51676099]
 [ -9.92394296  18.16971188 -14.23897281   5.53390084]
 [ 10.39763039 -14.23897281  15.83764622  -0.65066204]
 [ -1.51676099   5.53390084  -0.65066204   4.70316652]]

和2 * MAT.dot(MAT.T)有值

[[ 10.3838024   14.27675714  13.11072431   7.54348446]
 [ 14.27675714  18.16971188  17.00367905  11.4364392 ]
 [ 13.11072431  17.00367905  15.83764622  10.27040637]
 [  7.54348446  11.4364392   10.27040637   4.70316652]]

这两个值的对角线应该相等（矢量和它自身之间的距离为零），从这个文本表示看起来它是真的，但事实上它们略有不同 - 差异太小了当我们打印像这样的浮点值时显示

当我们打印完整表达式的值（上面第二个矩阵从第一个中减去）时，这就变得很明显了

[[  0.00000000e+00   2.42007001e+01   2.71309392e+00   9.06024545e+00]
 [  2.42007001e+01  -7.10542736e-15   3.12426519e+01   5.90253836e+00]
 [  2.71309392e+00   3.12426519e+01   0.00000000e+00   1.09210684e+01]
 [  9.06024545e+00   5.90253836e+00   1.09210684e+01   0.00000000e+00]]

对角线几乎由零组成，但第二行中的项目，第二列现在是一个非常小的负值。然后，当您计算所有这些值的平方根时，在该位置得到NaN，因为负数的平方根未定义（对于实数）。

[[ 0.          4.91942071  1.64714721  3.01002416]
 [ 4.91942071         nan  5.58951267  2.42951402]
 [ 1.64714721  5.58951267  0.          3.30470398]
 [ 3.01002416  2.42951402  3.30470398  0.        ]]

计算欧几里德距离表达式相对于函数输入内部变量的梯度。这不仅发生在由于浮点近似产生的负数（如上所述），而且如果任何输入为零长度的情况下也会发生。

如果y = sqrt(x)则dy/dx = 1/(2 * sqrt(x))。因此，如果x=0或者为了您的目的，如果squared_euclidean_distances=0，那么渐变将为NaN，因为2 * sqrt(0) = 0并且除以零是未定义的。

第一个问题的解决办法可以通过强制它们不小于零来确保平方距离永远不会为负：

T.sqrt(T.maximum(squared_euclidean_distances, 0.))

要解决这两个问题（如果你需要渐变），那么你需要确保平方距离永远不是负的或零，所以用一个小的正epsilon绑定：

T.sqrt(T.maximum(squared_euclidean_distances, eps))

第一种解决方案是有道理的，因为问题只来自近似表示。第二个问题有点可疑，因为真实距离为零，因此，在某种意义上，渐变应该是不确定的。您的特定用例可能会产生一些替代解决方案，该解决方案在没有人为限制的情况下维持语义（例如，通过确保永远不会计算/使用梯度来实现零长度向量）。但是NaN值可能是有害的：它们可以像杂草一样传播。

Answer 2

只需检查

在squared_euclidian_distances中，您要添加列，行和矩阵。你确定这是你想要的吗？

更确切地说，如果MAT具有形状（n，p），则需要添加形状矩阵（n，1），（1，n）和（n，n）。

Theano似乎默默地重复每个一维成员的行（相应的列）以匹配点积的行数和列数。

如果这是你想要的

重塑时，您应该根据basic tensor functionality : reshape指定ndim=2。

如果形状是一个Variable参数，那么您可能需要使用可选的ndim参数来声明形状有多少个元素，以及重新形成的变量将具有多少个维度。

此外，似乎squared_euclidean_distances应始终为正，除非差异中的不精确误差将零值更改为小的负值。如果这是真的，并且如果负值对您所看到的NaN负责，那么您可以通过将squared_euclidean_distances与abs(...)包围起来，在不破坏结果的情况下摆脱它们。

Theano sqrt返回NaN值

2 个答案:

只需检查

如果这是你想要的