推荐用于处理大量数据的语言或工具

时间:2009-10-16 15:46:54

标签: programming-languages dataset

我有一个大型数据集(1GB纯压缩文本)。

现在我正在根据数据中的信息重写数据集,例如:

  • 将2009-10-16变为星期五
  • 计算事情发生的次数和持续时间

现在我正在用Java做这一切。我想知道是否有人知道实际设计用于此类工作的工具或语言。它可以用Java编写,但我写了很多样板代码。

7 个答案:

答案 0 :(得分:5)

Perl就是答案。它是为处理文本数据而创建的。

答案 1 :(得分:3)

可以找到关于字符串数据的大数据集操作的扩展讨论here。它讨论了更多语言及其特定优势,以及Unix / Linux shell脚本作为替代选项。

答案 2 :(得分:2)

答案 3 :(得分:2)

我一直在使用Python来完成这类工作。这些脚本很容易编写,因为Python很容易学习,并且有很好的文档库和核心语言功能。 Python与命令行相结合,让我很轻松。

在您的情况下,对于一个文件,我会编写脚本并执行:

  

zcat big_file.dat.gz | my_script.py

如果您不喜欢命令行工作,也可以使用Python的库来处理压缩文件。

正如其他人所提到的,Perl也同样出色。要么做到这一点。

答案 4 :(得分:1)

根据数据的结构方式,您可能不希望专注于语言,但是存储 - 您可以将这些内容提供给数据库并让数据库完成繁重工作吗?

答案 5 :(得分:0)

我建议使用AWK。 Wikipedia entry的第一行说明了一切。

  

AWK是一种编程语言,用于处理文件或数据流中基于文本的数据

答案 6 :(得分:0)

我最终使用了scala。我发现它对我正在做的工作非常有用。我可以轻松地将它集成到我的java代码中。