如何计算pyspark中的距离矩阵?

时间:2019-05-22 14:01:06

标签: python distributed-filesystem

我有一个包含1,00,000条记录的数据集。我需要找到该数据集的欧几里得距离矩阵。它应该创建1,00,000 * 1,00,000矩阵。在python中,我们有squareform(pdist(x))。由于我无法在rdd上执行相同的功能,如何在python的spark平台上执行此操作?

0 个答案:

没有答案