如何在Nutch 1.7的regex-urlfilter中设置不区分大小写的正则表达式

时间:2013-12-17 11:04:41

标签: regex web-crawler nutch

我需要根据用户输入过滤网址,但过滤器不能区分大小写。 例如,我的用户想要过滤以Sewer.pdf结尾的文件。 如果我创建这样的正则表达式:

+Sewer\.pdf$ 

工作正常,但用户可能已输入SEWER.PDF,它将跳过该文件。 我的解决方案是创建一个这样的规则:

+[Ss][Ee][Ww][Ee][Rr]\.[Pp][Dd][Ff]

然而,看起来应该有像正则表达式中的/ i这样的东西会更容易。

有谁知道如何以更好的方式做到这一点?

1 个答案:

答案 0 :(得分:4)

您可以尝试添加不区分大小写的标记(?i)

.*(?i)SEWER\.PDF