从elasticsearch api中获取词干

时间:2013-10-24 05:12:39

标签: lucene elasticsearch stemming

我正在开展一个项目,我正在使用elasticsearch来分析推文。我正在制作一个他们最常推文的热门话题(人们的兴趣)列表。

由于推文大部分时间都有必须在可以用作列表(兴趣)名称之前删除的词语。

Elasticsearch擅长从数据库中搜索它处理停用词;药品;在后台,但我想知道是否有一种方法可以从弹性搜索API中得到我的推文中的词干。

我认为apache lucene可以做到这一点,但我想坚持使用elasticsearch。

任何人都可以建议我在弹性搜索中实现这一目标。

提前致谢!!!

  • 修改: -

假设我们有3个单词,例如。演奏,演奏,演奏等。

这些单词在词干之后是相同的(播放),所以我想在这里增加只播放(词干)的计数,而不是3个非词干的单个计数。

希望这个例子能让我的目标更清晰。

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

使用雪球分析仪可以实现这一目标。

https://gist.github.com/jiren/7263138