以编程方式更改nutch索引中的url域

时间:2011-03-09 16:36:13

标签: nutch

我目前正在为网站内容制作搜索引擎(仅限在该网站内搜索)。但是,我正在考虑在登台服务器中构建索引。它是这样的: 1.我在www.staging_server.com上发布我的代码 2.我在www.staging_server.com上索引页面 3.我将代码在www.staging_server.com上复制到www.production_server.com 4.我将索引复制到www.production_server.com index ???

步骤4的问题在于,步骤2中创建的索引中的URL采用www.staging_server.com/index,www.staging_server.com/whatever,www.staging_server / anything的形式。但我需要的是www.production_server.com/index,www.production_server.com/whatever,www.production_server.com/anything

我想知道索引中的url是否可以通过编程方式进行更改。如果是的话,怎么做?

注意:我是初学者,所以请怜悯我

1 个答案:

答案 0 :(得分:1)

如果您只在爬网后使用索引,则可以使用Lucene IndexReader打开索引,并使用IndexModifier添加新记录。您可以翻阅每个文档,使用新URL创建文档的副本,然后将新文档添加回索引。如果您不将原始文档保留在索引中,则需要删除原始文档。

Lucene不允许更新索引,而是删除旧记录并插入新记录。