将条目插入ElasticSearch的最佳方法是什么?

时间:2016-01-11 14:00:03

标签: java elasticsearch elasticsearch-hadoop

我是ElasticSearch的新手,我有一个包含180个字段和1200万行的文件。我已经创建了一个索引并在ElasticSearch和Java Program中输入,但需要1.5小时。有没有其他最好的方法来减少时间将数据加载到ElasticSearch。我已经尝试了一个map reduce程序,但有时会失败并生成重复的条目,并且比顺序程序的时间花费更多的时间。

有人可以给出好的建议吗?

1 个答案:

答案 0 :(得分:0)

使用ES-hadoop插件时,您可以禁用推测执行以避免重复输入。使用map-reduce索引数据时,尝试微调批量api的批量大小。 有关详细信息,请参阅: - https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html并尝试更改默认值以获得最佳效果。还尝试增加ES堆大小。您也可以使用ES的apache Tika或mapper附件插件从文件中提取信息。

希望它有所帮助!