如何抓取英文网站,避免抓取其他语言?

时间:2012-09-05 06:40:03

标签: nutch language-detection

您好我只需抓取他们的语言为英语的网站。我知道nutch可以通过语言检测器之类的插件检测网站的语言但是我需要阻止nutch抓取无英语网站。虽然我知道我们需要抓取一个页面来理解我想要离开网站的语言,我们才能首先检测到该语言。你能告诉我它是否可能吗?例如,如果提取了两到三页的网站并且它们不是英文,那么nutch应该离开网站并放弃这些网页及其中的所有网址。谢谢你的帮助。

1 个答案:

答案 0 :(得分:2)

如果您快速查看HTTP请求参数(http://en.wikipedia.org/wiki/List_of_HTTP_header_fields),可以要求提供内容语言,您将得到如下答案:“内容 - 语言: EN”。

您不需要执行GET请求(并下载整个页面),您可以在HEAD请求中请求此参数(以便仅下载标题)。

关于“例如,如果提取了两到三页的网站并且他们不是英文,那么nutch应该离开网站并放弃这些页面及其中的所有网址。” 网站可以是多语言。因此,您可以获得西班牙语(或其他)的3个第一页,但您将离开该网站,尽管有一些英文页面。