如何使用apache nutch抓取几个主题的数据?

时间:2016-08-18 15:17:37

标签: apache nutch

我正在使用apache nutch在rosettacode上执行爬网。我不想浏览整个网站,我只想抓取选定的主题(例如http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go)。但我无法执行爬行,它给我一个错误说“没有提取的网址..检查你的种子列表和网址过滤器”。任何人都可以帮我解决这个问题吗?

1 个答案:

答案 0 :(得分:1)

你提供的网址实际上是在注入阶段拒绝。

您必须指定接受regex-urlfilter.txt中的网址的正则表达式,或将其保留为-[?*!@=] ,这意味着它接受所有网址。

AVAssetExportSession

以上模式拒绝您的网址。因为,它包含 =