使用nutch抓取PDF文档

时间:2013-08-05 09:35:44

标签: pdf nutch

我也必须从给定的URL抓取PDF文档... 建议任何工具/ API来抓取PDF文档也... 现在我使用nutch来抓取但我无法从给定的URL抓取PDF ...我应该使用任何插件来抓取nutch中的PDF吗?

seed.txt - > http://nutch.apache.org 正则表达式-urlfilter.txt ---> + ^ HTTP://([A-Z0-9] *)* nutch.apache.org /

先谢谢

3 个答案:

答案 0 :(得分:2)

  1. 修改 regex-urlfilter.txt 并删除任何" pdf"
  2. 修改后缀-urlfilter.txt 并删除任何" pdf"
  3. 修改 nutch-site.xml ,添加" parse-tika"和" parse-html"在里面 plugin.includes部分。这应该是这样的
  4. 这个答案来自here。我在Nutch上工作时已经测试过了

    <property>
    
    
    <name>plugin.includes</name>
      <value>protocol-http|urlfilter-regex|parse-(html|tika|text)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
      <description>
        ...
      </description>
    </property>
    

答案 1 :(得分:0)

使用Nutch的parse-tika插件。纯文本,XML,OpenDocument(OpenOffice.org),Microsoft Office(Word,Excel,Powerpoint),PDF,RTF,MP3(ID3标签)均由Tika插件解析

答案 2 :(得分:0)

我发现即使你使用了tika插件,它仍然无法将pdf或任何ms office文件抓取到crawldb中。您需要添加网址,以便在 白名单中的 在nutch-site.xml 中抓取以获取pdf和任何ms office文件:

<property>
  <name>http.robot.rules.whitelist</name>
  <value>xxx.xxx.xxx.xxx</value>
  <description>Comma separated list of hostnames or IP addresses to ignore 
  robot rules parsing for. Use with care and only if you are explicitly
  allowed by the site owner to ignore the site's robots.txt!
  </description>
</property>