在文件中用名称替换名称

时间:2015-09-12 14:36:27

标签: hadoop

我是hadoop的新手,我要求清理帐户号,姓名和地址详细信息的文件,我需要更改这些名称和地址详细信息以及其他文件中存在的其他名称和地址。 对Mapreduce或Hive都很好。 需要帮助。 谢谢。

2 个答案:

答案 0 :(得分:0)

您可以编写简单的仅Mapper作业(将reducer设置为零),更新信息并将其存储在其他位置。验证作业的输出(如果它是否符合预期),然后删除旧文件。 记住,HDFS不支持插入编辑和覆盖文件。

Hadoop - MapReduce Tutorial

答案 1 :(得分:0)

您也可以使用Hive来完成此任务。

  1. 根据您的清理逻辑编写配置单元UDF
  2. 将以上UDF用于要在新Hive表中清理和存储数据的hive表中的每一列。
  3. 3.您可以删除旧的蜂巢表。