什么是Hadoop最佳实践的网站

时间:2013-04-02 06:06:18

标签: hadoop

什么是Hadoop最佳实践的网站,而不是我可以逐步创建新项目和小例子的书籍。我无法找到这样的网站,请分享。

2 个答案:

答案 0 :(得分:1)

雅虎开发者在Apache Hadoop: Best Practices and Anti-Patterns

上发表了一篇很棒的文章

答案 1 :(得分:0)

Hadoop不是一个单一的应用程序,而是一个分布式处理框架,由几个位于此框架之上的应用程序使用。 Pig,Hive,HBase,Cassandra等是针对特定要求而设计的许多此类应用中的一小部分。所有这些应用程序下面都使用Hadoop框架,主要由分布式文件系统(HDFS)和分布式处理(MapReduce)组成。

从技术上讲,当您拥有最低限度的Hadoop集群(仅限HDFS + MapReduce)时,您可以开始编写基于MapReduce的应用程序(通过Hadoop Streaming支持Java或其他语言)来处理某些数据。

您可以做的是首先从Cloudera或Hortonworks发行版下载预构建/配置的Hadoop虚拟映像,并使其在您的计算机上运行。之后开始学习用Java编写MapReduce作业并在虚拟机中运行。

以下是download Cloudera Hadoop Distribution VM

的网址

这是学习编写最简单的wordcount工作的link