优化Hadoop的记录编写

时间:2019-01-03 23:51:12

标签: hadoop mapreduce

有人有效地解决了这个问题吗?

比方说,您正在向HDFS写入包含数百万条记录的大型.csv文件。通常,某些记录将跨物理HDFS块拆分。当MapReduce作业正在运行时,存在拆分记录时将进行远程访存。

能够以一种更智能的方式写数据,而这将使您停止使用整个块,这将是很棒的。在写入时,您可以轻松确定要在一个块上放入多少条记录,以确保没有记录被拆分。这样一来,MapReduce作业将永远不必到达远程块。

有没有人看到这样做的方法?

0 个答案:

没有答案