线程“主”中的异常java.lang.ClassNotFoundException错误

时间:2019-04-25 15:42:53

标签: apache web-crawler nutch

我运行hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5 但是我收到以下错误:

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
        at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:348)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:316)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:236)

我在/home/apache-nutch-2.3.1/build/中创建了一个urls / seed.text文件,其中包含以下URL: http://nutch.apache.org    http://apache.org 然后按如下方式编辑conf / regex-urlfilter.txt: +^http://([a-z0-9]*\.)*apache.org/

1 个答案:

答案 0 :(得分:1)

自版本1.8起,已删除类org.apache.nutch.crawl.Crawl。建议改为运行shell脚本bin / crawl。它将为爬网的每个步骤启动Hadoop作业:注入,生成,获取,解析等。