错误:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在

时间:2015-05-29 10:25:45

标签: java hadoop solr fetch nutch

我是nutch和solr整合的新手。

我想抓取新的网址,所以我在ubuntu中安装了solr版本4.6.0和nutch版本1.6。首先我从一些配置开始,但我仍然收到此错误:

  

org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin / 20150529030452 / crawl_parse

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text

在文件日志中,我收到此错误:

  

2015-05-29 03:05:41,153 ERROR security.UserGroupInformation -PriviledgedActionException as:cloudera

     

原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text

     

2015-05-29 03:05:41,153 ERROR solr.SolrIndexer - org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452 / crawl_fetch

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data

     

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text

这是什么意思,请您解释一下这个问题,我该如何解决呢。

我将非常感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

如果您正在使用Mac OS中的bin/crawl或任何基于Unix的操作系统(如FreeBSD),请切换到Ubuntu。我相信这是抓取脚本的错误。我之前遇到过这种情况,而是使用了Ubuntu。