全文Solr统计搜索

时间:2010-12-28 22:59:05

标签: lucene solr

考虑我有两个索引Solr 4.0的文档。每个都有2个字段 - 唯一ID和文本DATA字段。 DATA字段包含几段文字。谁可以告诉我应该使用哪种分析器/解析器以及如何构建统计查询以找出所有文档的所有DATA字段中最常用单词的排序列表。

3 个答案:

答案 0 :(得分:1)

对于最常用的字词,请查看terms-statistical component

答案 1 :(得分:1)

除了这里提到的答案,你可以使用“HighFreqTerms”类:它在lucene-misc-4.0 jar(与Solr捆绑在一起)。

这是一个命令行应用程序,可让您按文档频率或总术语频率(-t选项)查看任何字段的首要术语

以下是用法:


java org.apache.lucene.misc.HighFreqTerms  [-t] [number_terms] [field]
   -t: include totalTermFreq

这是原始补丁,已提交并位于4.0(主干)和branch_3x代码库中:https://issues.apache.org/jira/browse/LUCENE-2393

答案 2 :(得分:0)

对于基于 keyword tokenizer 的ID字段使用分析器,它会将该字段的所有内容作为单个标记。

对于DATA字段,请使用 language specific analyzer 。请注意,文本auto-detect the languagepatch可能会this

我不确定,如果可以找到Solr最常用的单词,但如果你可以自己使用Lucene,请注意HighFreqTerms问题。我自己的建议是使用Luke项目中的{{3}}类。