如何使用distibuted副本将DataFrame转换为javaRdd?

时间:2018-01-05 13:11:29

标签: java hadoop apache-spark spark-dataframe rdd

我是新手来激发优化。 我试图将hive数据读入dataFrame。然后我将dataFrame转换为javaRdd并在其上运行map函数。 我面临的问题是,在javaRdd上运行的转换是以单个任务运行的。此javaRdd上运行的转换也是单任务运行的。为了并行化,我重新分配了javaRdd。有没有更好的方法,因为重新分区需要更多的时间来改组数据。

int power(int base,int exp)
{
    int result=1;
    if(exp == 0){
        return 1;
    }
    while (exp != 0)
    {
        result=result*base;
        exp--;
    }
    return result;
}

0 个答案:

没有答案