如何将pdf文件从HDFS索引到Solr

时间:2016-05-03 05:25:05

标签: hadoop pdf solr hdfs

我是Apache solr的新手 我的项目中有一个要求,我必须将pdf文件从HDFS上传到Solr,并从那里我想要使用Solr rest API。 我在本地文件系统中总共有40k pdf文档,首先我将它们推送到HDFS。但从那里到Solr我真的没有任何想法

另一件事是在索引到solr时,我想从pdf文档中读取一些数据并将数据索引到Solr中。 示例:我想要从pdf文档中获取候选名称,候选位置,并将它们推送到solr架构,看起来像,

x = [1,4,5,3,6,2,7,4,3]';
A = flipud(reshape(x,3,3)');

我通过互联网搜索了这个,但找不到合适的解决方案

1 个答案:

答案 0 :(得分:0)

尝试使用https://github.com/lucidworks/hadoop-solr

您应该尝试使用DirectoryIngestMapper,它有Tika解析,但您必须自定义它。