web-crawler - Stormcrawler是否遵循次级JavaScript页面内容加载？

Stormcrawler是否遵循次级JavaScript页面内容加载？

时间：2018-10-22 20:22:53

标签： web-crawler nutch stormcrawler

从我对webmd.com的抓取结果来看，似乎可能并非如此，我认为期望如此之高太过复杂了。但我想我还是要仔细检查。

因此，如果我有一个页面在初始页面加载后使用JavaScript加载其主体，那么Stormcrawler是否有任何方法可以等待该次要内容加载然后抓取页面？

我想除了极高级别和复杂的爬虫（例如Google或Bing可能会使用的爬虫）之外，没有其他爬虫会这样做-甚至可能不需要，因为这需要浏览器级的智能和复杂性。关于您甚至如何实现这种身材行为的想法都会产生焦虑。

1 个答案:

答案 0 :(得分：0)

StormCrawler具有selenium-based protocol implementation，可将导航委派给浏览器。 tutorial on our blog解释了如何使用它。我倾向于使用Chromedriver并在可视模式下以Chrome进行测试以进行测试和调试，然后将其切换为无头产品。基本上，您让浏览器处理动态内容。您甚至可以实施导航操作，例如单击按钮，填写表单等...这对于爬网特定站点很有用，但对于常规爬网而言，性能可能并不理想。