在Pyspark

时间:2015-12-28 05:52:38

标签: python-2.7 apache-spark pyspark

我有一个.bin文件,想要对其进行分区并将其作为字节数组获取。但是使用map()并没有帮助我,当我得到整个数据的大小时,它不是我文件的大小(它大于文件的大小)

为了测试它,我遇到了其他问题,当我使用getNumPartitions()获取分区数时,1在输出中打印但在map()中使用的函数被称为多个。另一个问题是当总和每个分区的大小时,结果不是我文件的大小而是大于它(我在map()函数中使用sys.getsizeof()得到大小)

  1. 如何读取.bin文件作为字节数组?和,
  2. 分区文件的固定大小是什么方式?和,
  3. 我可以进行重叠分区并设置分割位置吗?

1 个答案:

答案 0 :(得分:1)