Nutch readlinkdb不输出任何内容

时间:2012-10-08 11:42:07

标签: nutch web-crawler

我使用Nutch 1.5进行爬网(使用了crawl命令),发布此readlinkdb转储不包含任何内容。此外,在索引过滤器中,inlinks为空。是什么导致inlinks为null?

1 个答案:

答案 0 :(得分:3)

也许您只是为某个特定网站编制索引。在这种情况下,如果db.ignore.internal.links中的nutch-default.xml为真,则nutch将不会存储内部链接。在nutch-site.xml中将其设置为false,您的linkdb将开始增长。

<property>
  <name>db.ignore.internal.links</name>
  <value>false</value>
  <description>If true, when adding new links to a page, links from
  the same host are ignored.  This is an effective way to limit the
  size of the link database, keeping only the highest quality
  links.
  </description>
</property>