apache-spark - Spark如何存储500GB / 1TB数据的文件

时间：2017-01-02 10:54:31

标签： apache-spark bigdata

我是Spark的新手，我读到Spark将数据存储在内存中。

现在假设我有一台配备256GB RAM和72TB硬盘的机器。我想知道，如果我加载500GB / 1TB的单个文件，那么它将存储数据。

查询：

它会将数据存储在磁盘中吗？

它会将部分数据存储在内存中，另一半存储在磁盘中吗？

提前致谢

答案 0 :(得分：2)

首先，除非使用不使用某些操作，否则对文件没有影响，因为Spark遵循惰性评估方法。

当您指定操作时，spark会处理文件

Spark会创建几个文件分区，然后根据转换和操作开始处理内存中的每个分区

现在假设分区大小多于当前可用内存然后spark将尝试将大量数据或文件块放入内存并将其放在磁盘上然后进行相应处理。

我希望这会清除您的查询。

答案 1 :(得分：0)

数据存储在磁盘上。只有在处理时才会将数据拉入内存。