如何解决segment:crawl / segments / *错误

时间:2013-10-11 12:19:21

标签: nutch

在关注此链接后,我收到此错误但无法弄清楚 http://wiki.apache.org/nutch/NutchTutorial

runtime / local $ bin / nutch解析$ s1 ParseSegment:从2013-10-11 17:43:36开始 ParseSegment:segment:crawl / segments / 20131011173126 线程“main”中的异常java.io.IOException:段已经解析了!     在org.apache.nutch.parse.ParseOutputFormat.checkOutputSpecs(ParseOutputFormat.java:89)     在org.apache.hadoop.mapred.JobClient $ 2.run(JobClient.java:975)     在org.apache.hadoop.mapred.JobClient $ 2.run(JobClient.java:936)     at java.security.AccessController.doPrivileged(Native Method)     在javax.security.auth.Subject.doAs(Subject.java:415)     在org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)     在org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)     在org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910)     在org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353)     在org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:213)     在org.apache.nutch.parse.ParseSegment.run(ParseSegment.java:247)     在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)     在org.apache.nutch.parse.ParseSegment.main(ParseSegment.java:220)

1 个答案:

答案 0 :(得分:0)

当您想要解析已经解析的段时,会发生这种情况。请注意,如果您使用“crawl”命令,它还会解析该段。

如果您真的想再次解析,只需删除段内的crawl_parse目录(即crawl / segments / 20131011173126 / crawl_parse)并再次发出parse命令。

相关问题