如何使用Nutch 1.6抓取PDF文档?

时间:2013-08-07 04:29:53

标签: parsing pdf nutch

我正在使用Apache-nutch 1.6,我的要求是将PDF文档抓取为.pdf文件本身,但我无法将pdf文件作为文本本身抓取。  在我的nutch-site.xml中,我只给http.agent.name,http.robots.name,http.proxy.host ..我应该添加任何东西......  在我的插件中,我只有parse-tika,还有什么可以添加......如果是这样建议我链接......

我可以抓取.html但是.pdf文件没有parsetext ....

错误:  parse.ParseUtil - 无法成功解析application / pdf类型的内容http://nutch.apache.orgmailing_lists.pdf  parse.ParseSegment - 解析时出错:http://nutch.apache.org/mailing_lists.pdf:失败(2,200):org.apache.nutch.parse.ParseException:无法成功解析内容

提前致谢....

1 个答案:

答案 0 :(得分:2)

据我所知...检查pdpage.class(此类路径:pdfbox-app-1.8.2 / org / apache / pdfbox / pdmodel / PDPage.class)是否包含您的pdfbox。它是您的问题所必需的。