为德语创建Lucene Analyzer

时间:2014-08-27 15:32:26

标签: lucene analyzer

我使用以下链来分析德语: " SimpleTokenizer - > LowerCase - >停用词 - >解混合器 - >关键词 - Stemmer" Decompounder的类型是DictionaryCompoundWordTokenFilter。 通过我不懂德语,结果令牌看起来不太好。

我的问题: 1)这个链是否一般会产生场景?特别是,我使用Stop两次:在Decompounder之前和之后为了捕捉前后的单词。这是对的吗? 2)显然,Decompounder的成功取决于字典的质量。请为Decompounder提供好的词典。

此致

0 个答案:

没有答案
相关问题