Apache Nutch

时间:2018-06-02 00:37:41

标签: java regex apache nutch

我希望按照以下格式过滤网址:https://www.abcd.com/def/ *这意味着只要域名为www.abcd.com并且/ def /是必需的,def / ok之后的任何内容,但是很多时候我仍然无法弄清楚如何编写正确的正则表达式。

1 个答案:

答案 0 :(得分:0)

这可能有效:

 +^https://www.abcd.com/def/(.*)
#(skip URLs containing certain characters as probable queries, etc.)
 -^https://www.abcd.com/def/[?*!@=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
 -^https://www.abcd.com/def/.*(/[^/]+)/[^/]+\1/[^/]+\1/
#comment "accept everything else"   
#+.
相关问题