Solr的多语言分析与词干

时间:2012-12-21 13:36:06

标签: solr multilingual

我们有一个应用程序可以获取不同语言的文本。我们的目标是理解文本的语言,使用不同的词干分析每种语言并对其进行索引。我能够使用Solr's Language Detection机制检测语言。

现在,我想使用每种语言的不同fieldType动态分析文本,并将每个文本存储在不同的字段中。

例如,假设我在schema.xml中有以下字段。

<!-- English -->
<field name="text_en" type="text_en" indexed="true" stored="true"/>

<!-- German -->
<field name="text_de" type="text_de" indexed="true" stored="true"/>

<!-- Turkish -->
<field name="text_tr" type="text_tr" indexed="true" stored="true"/>

当我检测到该文本是英文时,我想将其动态添加到text_en字段,该字段将使用与其他字段不同的技术进行分析/截取。

Solr上有内置机制支持吗?如果是,我该如何配置它?或者我应该为此目的开发插件吗?

1 个答案:

答案 0 :(得分:2)

请查看language detection parameter 对我而言,首先你必须使用默认值或覆盖映射以将语言映射到字段,其中语言字母代码(如en,de,....)是字段名称的一部分。

看看这个:

http://alisalimi25.blogspot.de/2012/07/phonetic-search-and-language-detection.html

... ad看起来会填充字段的示例:title_na,title_da,...

抱歉,我不是百分百肯定,但这就是我解释文档的方式。

相关问题