Question

我目前拥有一个包含4000万份文档且索引大小为25 GB的单个集合。集合每n分钟更新一次，因此删除的文档数量不断增加。该集合中的数据是1000多个客户记录的合并。每位客户的文档数量平均约为100,000条记录。

现在说，我试图了解不断增长的删除文档大小。由于索引大小不断增加，磁盘空间和内存都在用完。并希望将其减少到可管理的大小。

我一直在考虑将数据分成多个核心，每个客户1个。这样我就可以轻松管理较小的集合，并且可以快速创建/更新集合。我担心的是收藏数量可能会成为一个问题。有关如何解决此问题的任何建议。

Solr: 4.9
Index size:25 GB
Max doc: 40 million
Doc count:29 million

由于

Answer 1

我有类似的问题，有多个客户和大索引数据。

我通过为客户创建一个单独的核心来实现3.4版本。

即每个客户一个核心。创建核心是某种创建索引或分割数据的方式，就像我们在分片时一样......

在这里，您要将较大的索引数据拆分为不同的较小段。

无论搜索将会发生什么，它都将携带较小的索引段..因此响应时间会更快..

我现在已经创建了近700个核心，并且它对我运行良好。

截至目前，我没有遇到管理核心问题......

我建议使用核心和分片的组合......

它将帮助您实现

允许为具有不同行为的每个核心配置不同的配置，并且不会对其他核心产生影响。

您可以以不同方式对每个核心执行更新，加载等操作。