为字典生成单词计数

时间:2011-10-25 08:28:52

标签: unix dictionary

我有索引过程,它从mysql数据库获取文件并将它们放入solr。

我想记录每个单词出现的拼写次数。

显然我可以将它们全部转储到一个纯文本文件中,然后sort | uniq -c该文件,并将所有单词保留在N以上 - 是它要走的路,还是有更聪明的方法?

1 个答案:

答案 0 :(得分:1)

在SOLR中你有方面。您可以尝试使用facet.field指向存储您感兴趣的文本数据的字段来执行构面搜索。您可以使用facet.mincount在特定频率级别上剪切输出列表。确保设置facet.zeroes = false以从结果频率列表中排除任何可能的零。