如果我想索引它们,是否需要使用Nutch来抓取本地文件?

时间:2013-10-17 18:10:54

标签: solr elasticsearch nutch

我对使用Nutch的理解是将网页下载到本地文件系统,以便ElasticSearch / Solr可以将其编入索引。

如果我想索引本地文件系统,因为所有文件都在本地文件系统中,我还需要使用Nutch吗?

感谢。

2 个答案:

答案 0 :(得分:3)

如果文件已存在,您可以让Nutch抓取文件系统。您需要激活protocol-file插件。

或者Behemoth也是一个不错的选择。查看其Apache Tika模块,从原始文档中提取文本和元数据,以及solr模块。

答案 1 :(得分:1)

您可以使用数据导入处理程序。看到 https://wiki.apache.org/solr/DataImportHandler#FileListEntityProcessor