如何使用Apache Nutch抓取ajax网站

时间:2018-06-08 09:03:20

标签: nutch

我想使用Apache Nutch抓取此网站:https://511.org/alerts/traffic/incidents。该网页已动态加载ajax内容。如果我使用默认配置抓取它,Nutch只会带来页眉和页脚,并且动态加载的内容会丢失。我正在使用Nutch 1.14。

1 个答案:

答案 0 :(得分:0)

使用Nutch 1.14,您可以使用Nutch SeleniumNutch Interactive Selenium插件来抓取动态加载元素的网页。

相关问题