如何使用lucene.net索引文件,如.txt,.pdf,.doc等?

时间:2012-06-01 18:59:30

标签: lucene.net

我是Lucene .net的新手。如何使用lucene.net?索引文件,如.txt,.pdf,.doc等,以及我们可以使用lucene.net索引的所有文件?

2 个答案:

答案 0 :(得分:2)

Lucene.net不知道索引特定文件。您必须自己索引文件。

我会使用IFilters提取文档中的文本,然后使用Lucene.net创建搜索索引。

您可以在codeproject.com上搜索有关使用IFilters&的多篇文章。 lucene.net

答案 1 :(得分:0)

在索引文件之前,您需要以适当的方式从中提取文本。 Lucene或Lucene.net不这样做。对于文本提取,您可以在Windows中使用IFilter。 IFilter可能不稳定,您需要使用具有线程问题的COM。此外,使用具有不同版本文档的不同ifilter是一个真正的麻烦。

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

www.ifilter.org

有文字提取的商业替代品,但它们真的很贵。

http://www.isys-search.com/products/document-filters

http://www.oracle.com/us/technologies/embedded/025613.htm

Apache Tika是商业用途的一个很好的开源替代品。它是在Java。

http://tika.apache.org/

我强烈建议您使用Apache Solr/Lucene代替Lucene.net Solr .NET client。 Solr内置了Tika集成功能,可以实现您想要的功能。您无需了解Java即可使用Solr。它是一个可以在轻量级应用程序服务器上运行的独立Web服务。

如果您使用Lucene.Net构建文档搜索解决方案,您将遇到许多已在Solr中解决的问题。

http://www.lucidimagination.com/devzone/technical-articles/content-extraction-tika

http://wiki.apache.org/solr/ExtractingRequestHandler

这里有关于Lucene vs Solr的很好的讨论。

Search Engine - Lucene or Solr