使用Solr Cell搜索索引PDF时没有结果

时间:2012-02-06 23:03:52

标签: pdf solr solr-cell

我一直在与Solr合作一段时间,我最近尝试过solr-cell组件并且我正在索引一些PDF,但我在this thread中提出了完全相同的问题。

当我在管理控制台中搜索*:*时,会列出PDF。但是,当我在PDF中搜索内容时,我没有得到任何结果。

我已经尝试了从那里给出的答案没有运气的命令,我仍然有同样的问题,我尝试过不同的Solr版本(我使用3.5 btw),不同的PDF,我已经改变了字段在schema.xml中,我修改了solrconfig.xml中的RequestHandlers,但似乎没有任何效果。任何帮助都将是任何赞赏。

1 个答案:

答案 0 :(得分:0)

我终于开始工作了。事实证明这是fmap.content输入参数的问题。我没有直接在solrconfig.xml文件中的RequestHandler上声明它,而是在我用来索引PDF文件的curl命令中传递它:

curl 'http://localhost:8080/solr/solrcell/update/extract?map.content=text&map.stream_name=id&commit=true' -F "file=@mccm.pdf"

我知道这种方式应该也可以,但你可以看到有一个'map'而不是'fmap' (我使用的是先前版本的solr中的书籍示例)。

我选择保留在solrconfig.xml文件中显式声明的fmap输入参数,以免我遇到任何问题:

<str name="fmap.content">text</str>


感谢您的帮助。