并行读取Flume spoolDir

时间:2014-09-16 18:01:45

标签: apache flume flume-ng

由于我不允许在prod服务器上设置Flume,我必须下载日志,将它们放入Flume spoolDir并从通道中使用接收器并写入Cassandra。一切都很好。

但是,因为我在spoolDir中有很多日志文件,并且当前设置一次只处理1个文件,所以需要一段时间。我希望能够同时处理许多文件。我想到的一种方法是使用spoolDir,但将文件分配到5-10个不同的目录,并定义多个源/通道/接收器,但这有点笨拙。有没有更好的方法来实现这一目标?

由于

1 个答案:

答案 0 :(得分:2)

仅供记录,已在Flume的邮件列表中回答:

Hari Shreedharan写道:

  

不幸的是,没有。 spoolDir源保持单线程,因此反序列化器实现可以保持简单。使用mutliple spoolDir源的方法是正确的,尽管它们都可以写入相同的通道 - 因此您只需要更多的源,它们都可以共享相同的通道和您除非您想更快地提取数据,否则不需要更多接收器。

http://mail-archives.apache.org/mod_mbox/flume-user/201409.mbox/browser