我什么时候使用solrindex [-filter]和[-normalize]?

时间:2013-08-16 14:13:22

标签: nutch

在Nutch wiki中,它建议使用以下内容:

bin/nutch solrindex <solr url> <crawldb> [-linkdb <linkdb>] [-params k1=v1&k2=v2...] (<segment> ... | -dir <segments>) [-noCommit] [-deleteGone] [-filter] [-normalize]

的目的是什么?
[-filter] [-normalize]

当Nutch有多个过滤器和规范化配置文件?

automaton-urlfilter.txt
domain-urlfilter.txt
regex-urlfilter.txt
suffix-urlfilter.txt
regex-normalize.xml
host-urlnormalizer.txt

1 个答案:

答案 0 :(得分:0)

索引到Solr时,默认情况下这些配置文件设置为false,因此如果您希望将传递给Solr的索引标准化或归档,那么您将启用这些选项。

对我而言,这似乎是一个毫无意义的选择,但仅仅因为我不希望我的Solr配置如何工作,但它是一个更高级的功能,将使少数人受益