如何统计集合/索引中的所有令牌计数

时间:2016-11-23 23:15:57

标签: java lucene information-retrieval

我使用Lucene 5.3.1并且我已经索引了一些文档,现在我正在尝试找到一个内置函数来计算所有令牌数(跨集合/索引)

我知道我可以遍历所有文件并对其长度进行总结。但由于我的复杂算法增加了运行时间,我试图避免这种方法。我认为lucene可能有这个api ......

毕竟,我用谷歌搜索了这个函数(或任何类似的函数),但我找不到任何有用的链接。

现在的问题是:是否有任何内置函数返回集合中所有TOKENS的数量(即整个索引)?如果没有,还有其他最佳方法吗?

感谢任何帮助,谢谢。

1 个答案:

答案 0 :(得分:1)

最终我找到了解决方案。

我以下列方式使用CollectionStatistics

CollectionStatistics collectionStats = indexSearcher.collectionStatistics("Body");
long token_count = collectionStats.sumTotalTermFreq();

sumTotalTermFreq()方法返回集合中的ALL TOKENS。它可以修复任何查询。

相关问题