搜索文件的内容

时间:2014-02-05 12:07:08

标签: lucene

好的我打算在我的内联网中创建一个本地搜索引擎,搜索xls,xlsx,doc,docx,pdb等文件的内容。

在互联网上搜索后,我想Luke Lucene可以用于此。我对吗? Lucene可以整合到网站中吗?

我有大约500 Gb的文件,Lucene可以处理这么多文件吗?还有其他选择吗?

我只知道C和CPP的基础知识。我对此没有任何先验知识。我是一名自学者,请为我推荐一本关于Lucene的好书。

1 个答案:

答案 0 :(得分:1)

是的,Lucene可以用于此。但是你需要自己编写一些代码(因为Lucene只是一个库): - 抓取代码 - 文本提取 - 建立一个搜索者应用程序..

因此您可能会更好地查看构建于Lucene之上的solr,并且具有许多您可以使用的内置功能:可以使用任何语言访问的可靠服务器和dih您的爬行需求,tika集成文本提取等许多其他内容