有没有办法告诉elasticsearch标准分类器不要考虑$,@,#作为分隔符?

时间:2015-07-16 07:13:29

标签: elasticsearch tokenize delimiter

我正在寻找一种不应该考虑$,@,#等特殊字符的方法。作为使用标准tokenizer的分隔符。它可以通过使用空格标记器和字分隔符过滤器组合来实现。但我希望使用标准分析仪,因为我不确定它是如何生成令牌以及利用标准分类器的其他好处。

如果无法使用标准标记生成器执行此操作。请给我一些建议如何在内部发生令牌生成以及标准tokenizer的其他好处。

- 由于

1 个答案:

答案 0 :(得分:0)

您可以使用uax_url_email标记程序。这是对此的描述,

    UAX URL Email Tokenizer
    The uax_url_email tokenizer is like the standard tokenizer
 except that it recognises URLs and email addresses as single tokens.

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-uaxurlemail-tokenizer.html