我想检查两个小数据集数组的交集,我这样做:
for (Dataset<Row> dataset1 : arrayOfDatasets1) {
for (Dataset<Row> dataset2 : arrayOfDatasets2) {
if (dataset1.intersect(dataset2).count() != 0)
return true;
}
}
return false;
给定数据集有模式,上述方法是否合适?或者我应该使用:
dataset1.intersect(dataset2). () != sparksession.emptyDataframe()
而不是比较数据集?