在Hadoop中预处理和提取数据

时间:2014-02-27 05:14:55

标签: hadoop preprocessor hdfs flume data-integration

我们有两种类型的日志:

1)会话日志:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME

2)EVENT LOG:SESSION_ID,DATE_TIME,X,Y,Z

我们只需要存储事件日志,但是希望将SESSION_ID替换为其对应的USER_ID。我们应该使用哪些技术(即Flume?)将数据存储在HDFS中?

谢谢!

1 个答案:

答案 0 :(得分:0)

是Flume可用于将日志文件移动到HDFS。

要用USER_ID替换SESSION_ID,您可以:

使用Shell脚本执行此操作 - 并生成“已修改的事件日志文件” - 这就是Flume将选择的内容。这将是最简单的方法。

相关问题