hadoop - 优化Hadoop的记录编写

有人有效地解决了这个问题吗？

比方说，您正在向HDFS写入包含数百万条记录的大型.csv文件。通常，某些记录将跨物理HDFS块拆分。当MapReduce作业正在运行时，存在拆分记录时将进行远程访存。

能够以一种更智能的方式写数据，而这将使您停止使用整个块，这将是很棒的。在写入时，您可以轻松确定要在一个块上放入多少条记录，以确保没有记录被拆分。这样一来，MapReduce作业将永远不必到达远程块。

有没有人看到这样做的方法？