Amazon Elastic Map减少Hadoop作业

时间:2014-10-15 17:32:39

标签: hadoop amazon-s3 elastic-map-reduce amazon-emr

我是亚马逊网络服务和Map Reduce员工的新手。我的基本问题是我正在尝试制作一个学术项目基本上我正在处理大量图像,我需要检测其中的特定对象。之后我需要一个由key = averageRGB和value = BufferedImage检测到的对象填充的Map。我设法做这个应用程序单线程,这不是一个问题。我的问题是:如果我制作地图减少工作,我可以实现前面提到的地图吗?如果这是可能的..我可以在作业完成之前使用Map对它做一些事情,这样我得到了最终的结果吗?还有最后一个问题......如果我将我的示例数据上传到S3存储桶中的单个文件夹中,亚马逊的Elastic Map Reduce会将这些数据拆分到集群上并使进程并行化,或者我必须自己拆分数据集群?

请原谅我的无知,但我无法在网上找到正确的答案。

谢谢

1 个答案:

答案 0 :(得分:0)

是的,你可以像你提到的那样使用地图。

再次在reducer中,您将获得键和值的映射,您可以在发送最终结果之前进行更多计算。

将数据上传到s3bucekt时。您可以使用path作为s3n进行输入。同时使用s3n

指定存储输出的s3bucket路径

当您使用s3n提供输入路径时,EMR会自动将文件下载到EMR节点并将其拆分并分布在所有节点上。我们不需要为此目的做任何事情。