如何在Windows中配置nutch 1.8错误:nutch:找不到命令

时间:2014-04-28 06:45:54

标签: apache nutch

我正在尝试在Windows 7中配置nutch,我已经按照以下步骤进行了操作

我已经下载并解压缩了apache nutch 1.8, 我在conf / nutch-site.xml中指定了代理名称,如

<configuration>
<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>
</configuration>

在apache home中按照命令执行 - &gt;

mkdir -p urls

cd urls

touch seed.txt - &gt;在urls /下创建一个文本文件seed.txt,其中包含以下内容(每个网站需要一个网址,以便您希望Nutch抓取)。

nutch.apache.org /

在conf / regex-urlfilter.txt中使用 - &gt;编辑+ ^([a-z0-9] *。)* nutch.apache.org/

但在我做的时候在bin中

bin / nutch crawl urls -dir crawl -depth 3 -topN 5

发生

错误 - &gt; bash:nutch:命令未找到

为什么?

1 个答案:

答案 0 :(得分:0)

Nutch脚本是为linux环境编写的。

你可以使用它(虽然它似乎需要做更多的工作才能完成):

https://github.com/veggen/nutch-windows-script

按照此处的建议设置Cygwin:

http://wiki.apache.org/nutch/GettingNutchRunningWithWindows