使用Python存储和访问大数据

时间:2012-10-08 12:01:14

标签: python bigdata

我即将开始处理大小约为500 GB的数据。我希望能够在任何给定时间使用Python访问数据的小组件。我正在考虑使用PyTables或MongoDB与PyMongo(或Hadoop - 感谢Drahkar)。是否有其他文件结构/ DB我应该考虑?

我将要做的一些操作是计算从一个点到另一个点的距离。基于布尔测试等的索引提取数据。结果可能会在网上上线,但目前只能在桌面上用于分析。

干杯

1 个答案:

答案 0 :(得分:1)

如果您正在认真研究大数据流程的数据处理,我强烈建议您研究一下Hadoop。一个提供者是Cloudera(http://www.cloudera.com/)。它是一个非常强大的平台,其中包含许多用于数据处理的工具。包括Python在内的许多语言都有用于访问数据的模块,而且一旦你为它构建了各种mapreduce,Hive和hbase作业,hadoop集群就可以为你做大量的处理。