不同页面到不同的Nutch核心(在同一个域内)

时间:2011-10-11 13:42:40

标签: solr search-engine nutch lucene

如何指示Nutch将第1页属于核心,将第2页视为属于不同核心(来自同一域的两个页面)?

实际情况:让我们说Nutch正在抓取并编制索引www.businessweek.com;我们还说我有一个名为“日本”的核心和另一个名为“法国”的核心。

我希望页面http://www.businessweek.com/magazine/content/05_51/b3964049.htm仅针对法国核心编入索引,因为它与法国相关但与日本无关。

因此,我希望页面http://www.businessweek.com/magazine/content/11_27/b4235016555525.htm仅针对日本核心编制索引,但不希望为法国编制索引。

假设我们已经知道如何识别某个页面属于某个特定标签... Nutch如何被指示呢?

1 个答案:

答案 0 :(得分:0)

Nutch只能使用单一索引。页面被抓取并编入索引 - 或者不会。 您可以使用正则表达式网址过滤器来阻止某些网页被抓取。

不幸的是,您宣传的网页完全相同。除标题标记外,标题相同。您无法从URL获取任何信息。

假设您的问题标题中有拼写错误并且您想要将不同的页面添加到不同的Solr核心,您可以执行以下操作:

  • 将所有页面添加到两个solr核心
  • 执行法语核心的删除查询,删除不符合特定条件的所有内容:

    curl $ FRENCH_SERVER / update -H“Content-Type:text / xml”--data-binary' NOT title:French '2&> 1 curl $ JAPANESE_SERVER / update -H“Content-Type:text / xml”--data-binary' NOT title:Japan '2&> 1

(这些命令未经过测试,请自行承担风险:)。