在AWS弹性地图/ reduce上运行MRToolkit hadoop作业

时间:2010-08-05 00:01:40

标签: ruby amazon-web-services hadoop mapreduce

MRToolkit - 非常适合在编写Hadoop作业时远离Java。很明显,该库是为了与EC2集群接口而编写的,而不是与Amazon的弹性映射/缩减系统接口。有没有人深入了解使用弹性地图/减少服务器上的工具包定义的运行作业?从网络界面来看,这一点并不明显,我希望避免在EC2上手动设置群集的麻烦。

我已经研究了'streaming'选项下的上传文件(就像MRToolkit使用的那样),但亚马逊期望mapper和reducer的单独文件 - 典型的MRToolkit样式将它们定义在单个文件中作为子类预定义的Base(Map | Reduce)类。

非常感谢任何想法。

艾萨克

1 个答案:

答案 0 :(得分:1)

这是可行的,但不是通过Web GUI。

  • 下载并安装Ruby Client
  • 创建群集:elastic-mapreduce --create --alive [params to size cluster]
  • 确认您的弹性地图Reduce主安全组已打开端口22
  • SSH进入主节点
  • 使用git / scp复制应用程序代码
  • 运行您的应用