将大型文本文件迁移到数据库格式

时间:2016-01-29 04:42:43

标签: python mongodb bigdata

我有一个大文本文件(400 MB),其中包含如下格式的数据:

805625228 linked to 670103907:0.981545
805829325 linked to 901909901:0.981545
803485795 linked to 1030404117:0.981545
805865780 linked to 811300706:0.981545

与ID相关联的ID:Probability_of_link

...
...
....
...
...

文本文件包含数百万个这样的条目,我有几个这样的文本文件。 作为分析数据的一部分,我多次解析数据(每个文本文件的格式不同)。在使用Python解析和处理数据时,我注意到我的内存使用量有时会高达3 GB。

将这些数据转储到文本文件有什么更好的方法?我可以将它存储在json / sql数据库中;它会给我带来多大的性能提升?什么样的数据库最适合这些数据?

仅供参考,上面显示的所有数据都是由包含数百万行的结构化.csv文件生成的。

0 个答案:

没有答案