Norconex HTTP收集器标记器字段

时间:2017-11-08 18:49:10

标签: web-crawler amazon-cloudsearch

我正在使用Norconex HTTP收集器和导入器。我在哪里可以找到有关标记器可用字段的信息。 I.E.会在这里的字段:

<tagger class="com.norconex.importer.handler.tagger.impl.KeepOnlyTagger">
     <fields>id,title,keywords,description,content,document.reference, document.contentType</fields>
</tagger>

我专门寻找网页的状态代码(200,404等)和网址的来源(所以,如果网址为http://www.example.com/page/welcome我想要{{3 }})

我在网上找不到任何信息,而且我一直在搜索

1 个答案:

答案 0 :(得分:1)

我知道这个答案来得很晚,但是我们的HTTP Collector社区支持站点是here

Merge(Leftarray, Rightarray, Array) { nL <- length(Leftarray) nR <- length(Rightarray) i <- j <- k <- 0 while (i < nL && j < nR) { if (Leftarray[i] <= Rightarray[j]) Array[k++] <- Leftarray[i++] else Array[k++] <- Rightarray[j++] } while (i < nL) { Array[k++] <- Leftarray[i++] } while (j < nR) { Array[k++] <- Rightarray[j++] } } Mergesort(Array) { n <- length(Array) if (n < 2) return mid <- n / 2 Leftarray <- array of size (mid) Rightarray <- array of size (n-mid) for i <- 0 to mid-1 Leftarray[i] <- Array[i] for i <- mid to n-1 Right[i-mid] <- Array[mid] Mergesort(Leftarray) Mergesort(Rightarray) Merge(Leftarray, Rightarray) } 是导入器模块的一部分,您可以在其站点上找到其文档:https://www.norconex.com/collectors/importer/configuration#tbl-tagger

打开this Github ticket,其中涉及捕获站点域。它讨论了几种方法。一种是像这样使用KeepOnlyTagger

ReplaceTagger

无效的URL不会发送到您的... <importer> ... <preParseHandlers> ... <tagger class="com.norconex.importer.handler.tagger.impl.ReplaceTagger"> <replace fromField="document.reference" toField="MyCustomDomainField" regex="true" wholeMatch="true"> <fromValue>https?://(.*?)(/.*|:.*|$)</fromValue> <toValue>$1</toValue> </replace> </tagger> ... </preParseHandlers> ... </importer> ... ,但是您可以使用事件监听器捕获所有HTTP状态代码。您可以使用URLStatusCrawlerEventListener来做到这一点。