将Nutch配置为仅索引Solr中的特定文件类型

时间:2012-05-30 16:52:28

标签: solr nutch

我正在寻找一种方法来配置Nutch来抓取网页,但只将某些类型的文件(特定的XML)索引到Solr中。我很确定自定义插件可以完成这项工作,可能基于索引更多代码,但除非必须,否则我宁愿不这样做。我也确定我可以将所有内容都吸收到Solr中,然后使用Solr的API删除不需要的内容,但这有点笨拙。有没有办法配置Nutch只索引Solr中的某些文件类型?

2 个答案:

答案 0 :(得分:0)

在nutch中,您可以为网址定义过滤器。如何通过fileextension的名称进行过滤?

答案 1 :(得分:0)

您可以根据扩展名过滤文件类型 您可以在regex-urlfilter.txt

中指定要包含或排除的扩展程序

e.g。排除( - ): -

  

#skip图像和其他后缀我们还无法解析29#以获得更广泛的覆盖率使用urlfilter-suffix插件    - (GIF |。GIF | JPG | JPG | PNG | PNG | ICO | ICO | CSS | CSS |坐| SIT | EPS | EPS | WMF | WMF |拉链| ZIP | PPT | PPT |英里| MPG | XLS | XLS | GZ | GZ |转速| RPM | TGZ | TGZ | MOV | MOV | EXE | EXE | JPEG | JPEG | BMP | BMP | JS | JS)$

使用+您只需指定包含列表。

相关问题