如何配置nutch-default.xml的位置?

时间:2019-03-28 15:24:22

标签: java nutch

我正在尝试从Java内部使用Nutch(而不是作为命令行工具)。这就是我正在做的:

import org.apache.hadoop.conf.Configuration;
import org.apache.nutch.crawl.InjectorJob;
String[] args = {"/tmp/my-urls-dir"};
Configuration conf = new Configuration();
new InjectorJob(conf).run(args);

我得到:

java.lang.Exception: java.lang.IllegalArgumentException: plugin.folders is not defined
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

似乎没有找到nutch-default.xml,这就是为什么没有加载插件的原因(我也很好奇它们的位置,因为我没有在nutch-2.3.1.jar中看到它们)。我想念什么?我的依赖:

<dependency>
  <groupId>org.apache.nutch</groupId>
  <artifactId>nutch</artifactId>
  <version>2.3.1</version>
</dependency>

如果您能带我一些在线教程,以了解如何将Nutch集成到Java应用程序中(而不是作为命令行工具),那将是很棒的事情。

0 个答案:

没有答案