来自2台独立机器的Hadoop日志文件分析

时间:2014-05-15 04:47:40

标签: hadoop

我对Hadoop更新鲜。我必须找到用户之间交易的符号趋势。

我有2台机器b040n10和b040n11。机器中的文件如下所述:

b040n10:/u/ssekar>ls -lrt
-rw-r--r--   1 root root      482342353 Feb  8  2014 A.log
-rw-r--r--   1 root root      481231231 Feb  8  2014 B.log

b040n11:/u/ssekar>ls -lrt 
-rw-r--r--   1 root root      412312312 Feb  8  2014 C.log
-rw-r--r--   1 root root      412356315 Feb  8  2014 D.log

有一个名为" symbol_name "在所有这些日志上(例如下面的例子)。

IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56

我在笔记本电脑上运行Hadoop,我有2台机器连接到我的笔记本电脑(可以用作Datanodes)。 我现在的任务是获取 symbol_name 列表和符号计数。 如下所述: ABC - 2 XYZ - 1

我现在应该: 1.将所有文件(A.log,B.log,C.log,D.log)从b040n10和b040n11复制到我的笔记本电脑, 2.向HDFS系统发出copyFromLocal命令并分析数据?

还是有更好的方法来找到symbol_name和count而不将这些文件复制到我的笔记本电脑上吗?

问题是基本问题,但我是Hadoop的新手,请帮助我理解并更好地使用Hadoop。如果需要有关该问题的更多信息,请与我们联系。

由于

1 个答案:

答案 0 :(得分:0)

将文件从Hadoop复制到本地笔记本电脑违背了Hadoop的全部目的,即将处理移动到数据而不是。因为当你真的拥有" BigData"时,你无法移动数据来在本地处理它。

您的问题是Map / Reduce的典型案例,您需要的只是一个计算每个符号出现次数的作业。只需搜索Map / Reduce WordCount example并根据您的情况进行调整

相关问题