Nutch Crawl - 删除每个抓取影响的细分

时间:2017-06-28 10:09:36

标签: solr nutch

我注意到在每次Nutch爬行期间,发送给Solr的索引都不一致。有时会显示网页的最新更改,有时会显示较旧的更改。

原因

注意到Nutch正在将旧片段的索引提供给Solr。

当前解决方案

在获取之前删除所有旧段并且似乎解决了问题。

问题

想知道这种方法是否有任何影响,或者我对此的理解是不正确的。还想知道为什么Nutch在抓取过程中不会自动删除较旧的片段。

感谢。

1 个答案:

答案 0 :(得分:0)

如果多个段被索引(再次)并且两个或多个段中包含相同的段,则无法保证最新版本已编制索引。这是一个已知问题(NUTCH-1416)。最简单的解决方案是仅将最近提取的段发送给索引器。脚本bin/crawl执行此操作,索引步骤在每个周期结束时为在此周期中提取的段完成。