Question

我对Hadoop更新鲜。我必须找到用户之间交易的符号趋势。

我有2台机器b040n10和b040n11。机器中的文件如下所述：

b040n10:/u/ssekar>ls -lrt
-rw-r--r--   1 root root      482342353 Feb  8  2014 A.log
-rw-r--r--   1 root root      481231231 Feb  8  2014 B.log

b040n11:/u/ssekar>ls -lrt 
-rw-r--r--   1 root root      412312312 Feb  8  2014 C.log
-rw-r--r--   1 root root      412356315 Feb  8  2014 D.log

有一个名为＆＃34; symbol_name ＆＃34;在所有这些日志上（例如下面的例子）。

IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56

我在笔记本电脑上运行Hadoop，我有2台机器连接到我的笔记本电脑（可以用作Datanodes）。我现在的任务是获取 symbol_name 列表和符号计数。如下所述： ABC - 2 XYZ - 1

我现在应该： 1.将所有文件（A.log，B.log，C.log，D.log）从b040n10和b040n11复制到我的笔记本电脑， 2.向HDFS系统发出copyFromLocal命令并分析数据？

还是有更好的方法来找到symbol_name和count而不将这些文件复制到我的笔记本电脑上吗？

问题是基本问题，但我是Hadoop的新手，请帮助我理解并更好地使用Hadoop。如果需要有关该问题的更多信息，请与我们联系。

由于

Answer 1

将文件从Hadoop复制到本地笔记本电脑违背了Hadoop的全部目的，即将处理移动到数据而不是。因为当你真的拥有＆＃34; BigData＆＃34;时，你无法移动数据来在本地处理它。

您的问题是Map / Reduce的典型案例，您需要的只是一个计算每个符号出现次数的作业。只需搜索Map / Reduce WordCount example并根据您的情况进行调整

来自2台独立机器的Hadoop日志文件分析

1 个答案: