solr multicore vs sharding vs 1大集合

时间:2015-07-29 05:08:03

标签: solr architecture solrcloud

我目前拥有一个包含4000万份文档且索引大小为25 GB的单个集合。集合每n分钟更新一次,因此删除的文档数量不断增加。 该集合中的数据是1000多个客户记录的合并。每位客户的文档数量平均约为100,000条记录。

现在说,我试图了解不断增长的删除文档大小。由于索引大小不断增加,磁盘空间和内存都在用完。并希望将其减少到可管理的大小。

我一直在考虑将数据分成多个核心,每个客户1个。这样我就可以轻松管理较小的集合,并且可以快速创建/更新集合。我担心的是收藏数量可能会成为一个问题。有关如何解决此问题的任何建议。

Solr: 4.9
Index size:25 GB
Max doc: 40 million
Doc count:29 million

由于

1 个答案:

答案 0 :(得分:2)

我有类似的问题,有多个客户和大索引数据。

我通过为客户创建一个单独的核心来实现3.4版本。

即每个客户一个核心。创建核心是某种创建索引或分割数据的方式,就像我们在分片时一样......

在这里,您要将较大的索引数据拆分为不同的较小段。

无论搜索将会发生什么,它都将携带较小的索引段..因此响应时间会更快..

我现在已经创建了近700个核心,并且它对我运行良好。

截至目前,我没有遇到管理核心问题......

我建议使用核心和分片的组合......

它将帮助您实现

允许为具有不同行为的每个核心配置不同的配置,并且不会对其他核心产生影响。

您可以以不同方式对每个核心执行更新,加载等操作。