Apache Solr - 索引PDF文件

时间:2012-03-29 21:46:09

标签: solr lucene solr-cell

您好我已尝试使用二进制发行版本以及编译源代码我自己。尝试用Apache Tomcat运行它。但是当我使用pdf文件进行索引时,我总是遇到以下错误。我正在使用Solr的示例项目中提供的post.jar。

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)

我也试过在Win 7(JDK 1.7)和Centos(1.6)上运行它。

我搜索了互联网,并在bug跟踪器上找到了Jetty jar文件的修补版本,但即使在更换后仍然存在这个问题。

我真的很感激帮助,因为我被困在这里,我无法继续进行进一步的任务。

由于

1 个答案:

答案 0 :(得分:3)

Solr更新是一种特定的XML格式,因此拒绝PDF文件。

您可以配置解析PDF文件的提取请求处理程序,然后将提取的文本作为更新处理。

请参阅:http://wiki.apache.org/solr/ExtractingRequestHandler