Spark重新分配。什么是10 Gb文件的好数字

时间:2017-07-17 14:41:11

标签: java apache-spark partition

我正在尝试使用10 Gb CSV文件。我不确定问题可能来自哪里,但我的工人经常在结束前停止。

我想这可能来自糟糕的重新分配。这就是为什么我想知道10 Gb 10 Gb文件的平均重新分配数量

到目前为止,我已尝试过1和50,但失败了。我想知道我是否应该尝试像300这样的东西,或者正常的重新分配是否在1到10之间

很抱歉这个问题,但每次测试持续时间超过2小时......

Thansk的帮助

0 个答案:

没有答案