map reduce从ftp读取文件

时间:2012-11-20 07:44:19

标签: hadoop ftp parallel-processing mapreduce hadoop-streaming

我们有一个从FTP服务器下载文件的应用程序。我们计划使用Map reduce从ftp下载文件来提高效率。我的第一个问题是,实际上是否可以使用Map reduce来提高效率?我们在逻辑上争论的是,每个映射器中的许多映射器和读取通道实际上会更快地并行地进行下载过程。 但是,如果有的话,我们不确定技术障碍。有什么指针吗?

1 个答案:

答案 0 :(得分:0)

如果您希望通过使用Map Reduce来提高下载速度,那么这将无济于事。

如果您拥有价值100Gb的文件并且想要处理它们并有效地查找特定单词的计数,那么使用Map Reduce可以做些什么。但即使对于Map Reduce来说,也不能直接在FTP上可用的文件之上工作。为了使Map Reduce工作,您需要在Hadoop分布式文件系统(HDFS)中提供该文件。

了解什么是和不是hadoop阅读this帖子。