nutch - 如何抓取英文网站，避免抓取其他语言？

如何抓取英文网站，避免抓取其他语言？

时间：2012-09-05 06:40:03

标签： nutch language-detection

您好我只需抓取他们的语言为英语的网站。我知道nutch可以通过语言检测器之类的插件检测网站的语言但是我需要阻止nutch抓取无英语网站。虽然我知道我们需要抓取一个页面来理解我想要离开网站的语言，我们才能首先检测到该语言。你能告诉我它是否可能吗？例如，如果提取了两到三页的网站并且它们不是英文，那么nutch应该离开网站并放弃这些网页及其中的所有网址。谢谢你的帮助。

1 个答案:

答案 0 :(得分：2)

如果您快速查看HTTP请求参数（http://en.wikipedia.org/wiki/List_of_HTTP_header_fields），可以要求提供内容语言，您将得到如下答案：“内容 - 语言： EN”。

您不需要执行GET请求（并下载整个页面），您可以在HEAD请求中请求此参数（以便仅下载标题）。

关于“例如，如果提取了两到三页的网站并且他们不是英文，那么nutch应该离开网站并放弃这些页面及其中的所有网址。” 网站可以是多语言。因此，您可以获得西班牙语（或其他）的3个第一页，但您将离开该网站，尽管有一些英文页面。