如何配置Nutch扩展zip文件并将内容发送到Solr

时间:2014-05-05 02:01:55

标签: solr nutch apache-tika

我正在使用Nutch(2.2.1)来抓取和索引一组网页。这些页面包含许多.zip文件,每个.zip包含许多文档。我将使用Solr(4.7)搜索已爬网的数据,并且在Solr中,我希望每个文档(在每个zip中)都有自己的记录。

有人能建议一个很好的方法来设置它吗?

是否可以在Nutch中解压缩.zip文件,并让Nutch向Solr发送多个记录,一个用于.zip内的每个文件?如果是这样,怎么样?我是否需要编写插件,或者这可以通过配置选项单独完成?

另一方面,使用单独的应用程序扩展和索引Nutch以外的zip文件会更有意义吗?

非常感谢任何建议。

谢谢!

0 个答案:

没有答案
相关问题