文档中术语的频率

时间:2012-03-11 22:34:45

标签: java lucene

我已经通过lucene索引了一组文本文件。另外,我已经存储了TermVectors。但是我想知道O(1)中某些文档中某些术语的频率。有可能吗?

我的意思是,是否有函数(术语术语,整数 docNum ,它返回 术语的频率文档 docNum 中的

1 个答案:

答案 0 :(得分:1)

没有现成的功能,你必须编写一些代码。首先使用IndexReader.termDocs(Term)。这将为您提供一个TermDocs实例,通常是Lucene,一个类似Cursor的对象。现在调用TermDocs.skipTo(int),然后调用TermDocs.next(),然后调用TermDocs.freq()。如果您在开始时确定您的文档包含您的术语,就是这样;否则在每一步后检查是否可以继续。 Javadocs为所涉及的每一步都写得很好。

相关问题