开始使用最新版本的hadoop和ec2

时间:2013-04-29 16:49:21

标签: java ubuntu hadoop amazon-web-services amazon-ec2

我正在跟随Hadoop in Action开始使用带有ec2的hadoop。我正在运行ubuntu并已下载并安装了最新版本的Hadoop。我在这个命令上遇到了障碍:

hadoop-ec2 launch-cluster mycluster 2

  

这本书说“Hadoop EC2工具在目录中   您的Hadoop安装下的src / contrib / ec2 / bin。回想一下我们的   ec2-init.sh脚本已将该目录添加到您的系统中   路径。在该目录中有hadoop-ec2,这是一个元命令   执行其他命令。要在ec2上启动Hadoop集群,请使用:

     

hadoop-ec2 launch-cluster<群集名称> <数的从站>


我得到的回复是:hadoop-ec2: command not found

我注意到未设置变量$HADOOP_HOME

看起来这本书已经过时了。

  1. 有人可以指导我参考过去几个月创建的有关如何使用ec2设置hadoop的教程吗?
  2. 经过一些快速的谷歌搜索后,似乎已弃用HADOOP_HOME。这是真的吗?
  3. 我可以毫无问题地执行ec2-describe-images。并获得我可以使用的所有可用图像。为什么hadoop-ec2命令不起作用?
  4. 感谢您的指导。

1 个答案:

答案 0 :(得分:1)

不幸的是,专用页面Running Hadoop on Amazon EC2(实际上不方便HADOOP_HOME)本身已经过时了,似乎不适用于最新的稳定版本(在撰写本文时1.0.4)。我不知道更新的“原生”教程,但显然用户对通过Apache Whirr的方法感到非常满意(顺便提一句,在2007年开始作为Apache Hadoop中的一些bash脚本运行EC2上的Hadoop集群)。

因此可以使用Getting Started with Whirr™,此外还有相关的第三方教程,例如:

我希望你能够将书中关于使用Apache Hadoop的信息与关于通过Apache Whirr运行Hadoop集群的信息合并 - 祝你好运!