正则表达式组和子组

时间:2011-06-25 08:21:47

标签: regex lucene solr

是否可以使用正则表达式捕获整个短语以及短语连接中的每个单词?

所以:

smith jones

要返回:

smith,jones,smithjones

此外,由于其他约束(solr PatternTokenizer),我只能使用一个分组。

1 个答案:

答案 0 :(得分:1)

看起来你没有一些额外的工作就能做到这一点。使用PatternTokenizerFactory,您只能使用正则表达式的“匹配”部分,因此您无法进行替换。

为什么不创建自己的tokenizer,它使用PatternTokenizer创建的令牌流,然后构建一个它最后返回的连接字符串?