在关注此链接后,我收到此错误但无法弄清楚 http://wiki.apache.org/nutch/NutchTutorial
runtime / local $ bin / nutch解析$ s1 ParseSegment:从2013-10-11 17:43:36开始 ParseSegment:segment:crawl / segments / 20131011173126 线程“main”中的异常java.io.IOException:段已经解析了! 在org.apache.nutch.parse.ParseOutputFormat.checkOutputSpecs(ParseOutputFormat.java:89) 在org.apache.hadoop.mapred.JobClient $ 2.run(JobClient.java:975) 在org.apache.hadoop.mapred.JobClient $ 2.run(JobClient.java:936) at java.security.AccessController.doPrivileged(Native Method) 在javax.security.auth.Subject.doAs(Subject.java:415) 在org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190) 在org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936) 在org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910) 在org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353) 在org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:213) 在org.apache.nutch.parse.ParseSegment.run(ParseSegment.java:247) 在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在org.apache.nutch.parse.ParseSegment.main(ParseSegment.java:220)
答案 0 :(得分:0)
当您想要解析已经解析的段时,会发生这种情况。请注意,如果您使用“crawl”命令,它还会解析该段。
如果您真的想再次解析,只需删除段内的crawl_parse目录(即crawl / segments / 20131011173126 / crawl_parse)并再次发出parse命令。