web-crawler - 如何动态更改StormCrawler的开始，跟随和不跟随网址

我是StormCrawler的新手，我第一次实现了网络爬虫，到目前为止我对该产品非常满意！

我正在使用StormCrawler v1.5.1和Elastic 5.5.1，并根据提供的＆＃34; ESCrawlTopology.java＆＃34;设置我的拓扑。

我希望能够在拓扑运行时更改起始URL（种子）和follow- / no-follow-URL。到目前为止我得到的是一个redis-DB，它拥有这个配置和一个URL-Filter，它使用redis来读取其后续跟随模式。我还实现了一个start-url spout，它从redis中读取，检测更改并通过status-updater将新发现的start-urls发布为弹性。到目前为止，这种设置效果很好。

对于跟随/不遵循规则，我还实施了一个检测更改的spout，并从＆＃34; index＆＃34; - 和＆＃34; status＆＃34; -Index中删除所有不再匹配的URL在弹性中使用＆＃34; DeleteByQuery＆＃34; -Elastic-action。我没有使用Status-Updater或DeletionBolt。

即使这样有效，但感觉不对，我确实看到了潜在的问题。首先，我无法使用状态更新程序的缓存，因为删除不是通过此组件完成的，因此缓存不会更新，从而阻止状态更新程序添加曾经添加，删除和再次添加的URL。其次，当一个或多个URL被排除或解析时，它们被排除并从＆＃34; status＆＃34;中删除。和＆＃34;索引＆＃34;我不确定结果。我希望正在处理的URL尽管被排除在外，但仍会被编入索引。

我还尝试了一个设置，我将所有排除的URL发送到状态更新程序，并显示ERROR状态。与DeletionBolt结合使用会导致URL从＆＃34; index＆＃34; -index中取出。这似乎是一个更清洁的解决方案 - 但是被排除在外的URL永远不会再被重新编入索引，因为它们位于＆＃34;状态＆＃34; -index为＆＃34; ERROR＆＃34;。

我眼中最好的解决方案是：

使用状态＆＃34; REMOVED＆＃34;在＆＃34; status＆＃34; -index中标记排除的网址（暂时不可用）
让所有组件（fetcher，parser ...）都知道＆＃34; REMOVED＆＃34;放弃当前正在处理的已排除网址的状态
实施一个清理过程，该过程发送所有＆＃34; REMOVED＆＃34; DeletionBolt的URL也会从＆＃34; status＆＃34;中删除此URL。在acking

目前我没有看到实现这一点的方法，如果没有对StormCrawler的核心组件进行重大调整，因为目前没有这样的状态和＃34; REMOVED＆＃34;。

您对此问题的看法是什么？可能的解决方案是什么？

如何动态更改StormCrawler的开始，跟随和不跟随网址

1 个答案: