用于识别数字的Sphinx

时间:2017-04-05 16:53:46

标签: sphinx

因为我不希望15.50索引为15 50,所以我在Exceptions文件中添加了Sphinx Configuration文件的添加内容,例如。

1.50 => 1.50

然而,这很快就会失控。

我试着做一个正则表达式,例如。

(([0-9]{1,3}))\.([0-9]{2})=>\1.\2

然而显然现在用Regexp来做太晚已经太晚了。理想情况下,我可以强制此操作在与异常相同的阶段发生,这样我就可以在异常中逐个处理所有排列(对于偶尔具有3个或更多小数位的#s,例如{{1},它变得非常难以处理}。

我可以强制此regexp_filter在32.243被忽略之前发生异常,或者我被迫将.添加到. Sphinx吗? / p>

1 个答案:

答案 0 :(得分:0)

不要认为这个时期以前被忽略了,它在更换后仍然被忽略了。 Exceptions作为常规标记化规则的例外(因此匹配单词不会通过系统的其他部分),这就是为什么适合你。而正则表达式过滤器,只是“转换”'在正常处理之前的数据,它没有被绕过。

请看blend_chars http://sphinxsearch.com/docs/current.html#conf-blend-chars ...也许是混合字符的时期可以帮助你。