大型(r)数据集的大熊猫

时间:2015-08-21 11:48:54

标签: python database sqlite pandas

我有一个相当复杂的数据库,我以CSV格式提供给我的客户端。到达该数据库的逻辑是Python处理和在sqlite3中完成的SQL连接的复杂组合。

有大约15个源数据集,从几百条记录到几百万条(但相当短)的记录。

为了清晰,可维护性和其他几个原因而不是混合使用Python / sqlite3逻辑,我希望将所有逻辑移动到一组有效的Python脚本并完全绕过sqlite3。

我理解答案和路径将是熊猫,但是请你告诉我这是否适合像上述那样的大型数据库?

1 个答案:

答案 0 :(得分:1)

我一直在使用Pandas数据集>大小为20 GB(在具有8 GB RAM的Mac上)。

我的主要问题是知道bug in Python使得无法在OSX上编写大于2 GB的文件。但是,使用HDF5会绕过它。

我发现thisthis文章中的提示足以让所有内容都能正常运行。主要课程是检查数据框的内存使用情况,并将列的类型转换为尽可能小的数据类型。