python - 为什么Numpy和Pandas阵列比源数据消耗更多内存？

内存消耗在很大程度上取决于数据的存储方式。例如1因为字符串只占用一个字节，所以它需要两个字节，八个字节作为double。然后，在DaataFrame和Series的对象中创建它的开销很大。所有这些都是为了有效处理而完成的作为一般的经验法则，数据在内存中的表示将比存储中的大小更大。

BigData意味着太大而无法容纳在内存中的数据（或单个机器中的进程）。因此解析整个数据并将其加载到内存中是没有意义的。

所有BigData处理引擎都依赖于将数据拆分为块并单独（并行）处理块，然后将这些中间结果合并为一个。