破坏HDFS中的小文件

时间:2014-04-16 02:57:09

标签: hadoop hdfs apache-spark cloudera-cdh

我们在Mesos 0.17上针对CDH5运行Spark 0.9.1。到目前为止,我们继续使用CDH系列的'mr1'版本,以便我们可以在较小的文件上运行filecrush项目。出于各种原因,我们希望能够自由升级到MR-2。

在Hadoop的map / reduce之外是否存在任何工具?我们今天使用的filecrush库是非常重要的,因此将模式转换为Spark似乎并不简单。

1 个答案:

答案 0 :(得分:0)

MR1代码通常无需更改(或极少数),可以重新编译MR2库。这不起作用吗?这可能非常简单。

你不会直接将它翻译成Spark,但是通过映射一堆文件并使用不同的分区输出结果,你可以很容易地实现类似的效果。您可能遇到的问题与Spark将要使用HDFS及其InputFormat来将您的数据读入分割一样,这就是您的问题开始时的问题。