我怎样才能近似计算Solr指数大小

时间:2013-07-14 14:15:54

标签: solr

如何近似计算使用solr创建的索引大小(内存使用量)?我知道有很多变量进入计算,但只是需要10GB还是10MB。

例如,我有1000个文档,只有 id text 的字段,并且想要确定字段类型是字符串还是text_general。如果我添加另一个字段,大小如何变化。

也许,如果anybode可以如此感激,并在这里写一些关于真实指数的统计数据。

1 个答案:

答案 0 :(得分:1)

Solr指数大小取决于许多因素

  1. 定义的字段数
  2. 索引或存储的这些字段的配置。存储的字段通常会导致索引增长
  3. 为该字段定义的类型和字段类型。例如字符串字段作为整体存储。但是,文本字段将生成多个令牌,具体取决于对字段执行的分析类型。例如边缘克,ngram,同义词等会导致生成多个令牌,如果存储将在索引中维护。
  4. 您要编制索引的字段的内容。如果生成的标记更常见而且不是唯一的,那么Lucene会存储一个小的索引大小,因为它存储了标记字典,并且只是指向文档中的标记。
  5. 保持位置对于索引大小来说可能非常昂贵,因此如果不使用位置则避免使用
  6. 以及更多。