Hadoop起点

时间:2017-05-03 13:27:45

标签: php mysql hadoop

每个月我都会收到一个大小为2 GB的CSV文件。我在MySql数据库的表中导入这个文件,这几乎是即时的。

然后使用PHP,我查询此表,从该表中过滤数据并将相关数据写入其他几个表。这需要几天时间 - 所有查询都会进行优化。

我想将此数据移至Hadoop,但不明白应该是什么起点。我正在研究Hadoop,我知道这可以使用Sqoop完成,但仍然太困惑,从如何将这些数据迁移到Hadoop的方面开始。

1 个答案:

答案 0 :(得分:1)

使用Apache Spark可能在Python中,因为它易于入门。尽管Spark的使用可能过度,但考虑到它的速度和可扩展性,在此方面付出额外的努力是没有害处的。

您可能希望切换到Spark直接提供要访问的API的任何其他数据库(Hive / Hbase等)。它是可选的,因为只需要很少的额外代码,只有在你不想改变的情况下才能使用MySql。

总体设计如下:

  • 您的每月CSV文件将位于HDFS上的已知位置。
  • Spark应用程序将读取此文件,执行任何转换,将结果写入MySql(或任何其他存储)

涉及的系统:

  • HDFS
  • 火花
  • MySql /其他存储
  • 可选集群,使其可扩展