检查两个数据集数组的交集

时间:2021-05-04 16:35:55

标签: apache-spark

我想检查两个小数据集数组的交集,我这样做:

 for (Dataset<Row> dataset1 : arrayOfDatasets1) {
        for (Dataset<Row> dataset2 : arrayOfDatasets2) {
            if (dataset1.intersect(dataset2).count() != 0)
                return true;
        }
    }
    return false;

给定数据集有模式,上述方法是否合适?或者我应该使用:

dataset1.intersect(dataset2). () != sparksession.emptyDataframe()

而不是比较数据集?

0 个答案:

没有答案
相关问题