我们可以在Solr搜索引擎中搜索.txt文件吗?

时间:2014-04-04 16:14:04

标签: solr solr-cell

我在文档回顾中使用solr搜索引擎来实现我的项目目的。我的数据集采用.txt文件格式。但是solr只为json,xml,pdf和其他一些文件格式提供了选项。文本文件没有选项 我是否需要在solr中对.txt文件作为数据集进行一些修改?

5 个答案:

答案 0 :(得分:0)

您需要做的就是索引您的txt文件。

有关更多信息和具体示例,请查看此处 - http://www.slideshare.net/LucidImagination/indexing-text-and-html-files-with-solr-4063407

答案 1 :(得分:0)

很可能你会在.txt文件中使用空格分隔文件。因此,要索引.txt文件,你可以编写python脚本来将文件流式化为solr并执行提交。

答案 2 :(得分:0)

除了txt文件,Solr还可以索引其他几种文档格式。有关详细信息,请查看Apache Tika

答案 3 :(得分:0)

您可以使用CSV请求处理程序来处理此问题。 https://wiki.apache.org/solr/UpdateCSV 在这里,您可以配置分隔符和转义字符。例如:如果你有一个" |"分隔文件,您可以指定"& separator = |"

以下是索引标签限制文本文件:

curl' http://localhost:8983/solr/update/csv?commit=true&separator=%09&escape= \& stream.file = / tmp / result.txt'

答案 4 :(得分:0)

我在快速入门指南https://lucene.apache.org/solr/5_3_1/quickstart.html

中找到了一个非常有用的内容
java -classpath /solr-5.0.0/dist/solr-core-5.0.0.jar -Dauto=yes
-Dc=gettingstarted -Ddata=files -Drecursive=yes org.apache.solr.util.SimplePostTool docs/

对我来说特别有用的部分是-Dauto=yes。启用此选项后,Solr可以处理多种类型的文件(不要问我原因)

Entering auto mode. File endings considered are xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log

我所知道的是我打开了该选项,现在我的实例将接受pdf,xml和txt文件。