nutch - 有没有办法解析http响应头字段?

时间:2012-01-31 10:25:15

标签: java http-headers web-crawler nutch

我可以使用nutch解析http respone标题字段吗?

是否需要配置内置功能?

我看过网络,我找不到任何关于此的信息。

而且,如果我进行本地文件系统爬网,有没有办法解析文件的标题? (大小,描述等字段?)

1 个答案:

答案 0 :(得分:-1)

见第144行here。您可以看到可以获取http响应标头,您可以使用该信息。

第二个问题: 对于解析不同的文件类型,有nutch提供的插件。您需要针对特定​​文件类型进行相同的研究并开始使用。