快速索引solr上的大型数据集

时间:2015-07-29 15:08:50

标签: performance indexing solr dataset

我有几百万条记录,我需要它们在Solr中编入索引。一旦他们被编入索引,他们就不会被更改,并且这些集合仅用于"阅读"。我通过将xml文档发布到REST API来遵循该模式,它工作正常......即使需要一些时间(配置针对读取和缓存进行了优化);

但我想知道......是否有更好/更快的方法 - 可能避开HTTP /网络层?在本地工作以构建集合,将其复制到solr服务器然后添加/交换集合?

一个选择可能是第二个/备份核心的自定义DIH和完成后交换 - 但这意味着我必须"吃" solr上用于缓存的内存减慢了搜索速度。

我正在寻找/希望找到一个断开连接的解决方案 - 比如一个命令行工具,在不同的机器上运行,并且配置已针对写入进行了优化,然后在生产中复制核心,并将旧的交换为新的。

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

几百万条记录不应成为问题。

检查您提交的频率,并可能禁用软提交或使其更高。

您还可以从多个客户端向一个Solr实例发送文档,并获得一些多线程优势。

你当然可以写一个小的SolrJ客户端来索引本地/嵌入式核心,然后将该核心交换到生产中。