在solr搜索时如何显示文件的内容而不是文件名

时间:2017-04-12 14:17:30

标签: search solr filenames

我有很多pdf文件(文本里面),我想构建一个简单的搜索引擎来搜索包含给定关键字的句子。几个小时后'在搜索中,我选择了solr作为工具。

我是solr的新手。我下载了最新的solr 6.5.0并在windows 7中进行了设置。 我使用以下命令创建了一个名为gettingstarted的集合,并可以通过访问链接http://localhost:8983/solr/gettingstarted/browse

来搜索操作
bin\solr.cmd start
bin\solr.cmd create -c gettingstarted
java -Dauto -Dc=gettingstarted -Drecursive -jar example/exampledocs/post.jar  *.pdf

但是,它仅显示包含关键字的文件名,而不是文件的详细信息行。下图显示了这种情况:Only filename rather than sentences which contains keywords

我还尝试了名为techproducts的集成示例,令我惊讶的是,它可以显示包含关键字的确切句子。下图显示了这种情况:show the sentences

所以我有一个问题,如果我可以做一些事情来启用包含确切关键字的句子在第一张图片中显示。我不了解速度,配置文件甚至基本原理。我只想让它工作,给出详细的搜索结果。我不关心安全问题,也不关心它的显示方式(丑陋可以)。

这是我和solr一起玩的第一天,所以也许我对这个描述犯了一些错误。谢谢你的耐心。我需要你的帮助。

1 个答案:

答案 0 :(得分:1)

http://localhost:8983/solr/gettingstarted/browse 这是示例UI应用程序(solritas),默认情况下带有solr。

您应该使用/ select请求处理程序进行查询,它会处理您查询和检索结果。  http://localhost:8983/solr/gettingstarted/select?q=keyword

索引PDF。

当您索引pdf时,pdf中的所有内容默认都会转到名为content的字段。

示例:

假设您已经创建了gettingstarted集合。

导航到目录example/exampledocs/并点击此命令。

java -Dauto -Dc=gettingstarted -jar post.jar solr-word.pdf

如果索引成功。转到管理员并在pdf中搜索关键字,它应该给内容字段赋值(pdf中的文本)

示例查询请求网址

http://localhost:8983/solr/gettingstarted/select?q=solr&wt=json&indent=on