Nutch 1.14-不抓取页面中的所有链接

时间:2019-02-15 11:50:00

标签: solr web-crawler nutch

我在使用Solr 6.4.2时获得了1.14的支持 Nutch不会抓取(跟踪)页面中的所有链接

<property>
  <name>db.ignore.internal.links</name>
  <value>false</value>
</property>
<property>
  <name>db.ignore.external.links</name>
  <value>false</value>
</property>

1 个答案:

答案 0 :(得分:0)

这里有很多可能性,nutch-site.xml包含许多属性。

您是否已检查过此内容?

<property>
   <name>db.max.outlinks.per.page</name>
   <value>100</value>
   <description>The maximum number of outlinks that we'll process for a page.
       If this value is nonnegative (>=0), at most db.max.outlinks.per.page outlinks
       will be processed for a page; otherwise, all outlinks will be processed.
   </description>
</property>