使用NUTCH和Solr抓取并索引特定的html标记

时间:2016-07-27 12:54:22

标签: html solr nutch

现在我正在抓取像ebay for cars这样的网站,www.standvirtual.com

在我的nutch regex-urlfilter.txt + ^ http://([a-z0-9] *。)* standvirtual.com/carros/anuncios/这样只是抓取汽车的广告,但是像这样的nutch将索引整个内容页面,我只想索引该页面的特定部分,如添加标题,描述等...

例如: 让我们想象一下这款游戏的标题是奥迪a3 2.0cc 和奥迪a3 2000cc与交流,柴油...

1 个答案:

答案 0 :(得分:0)

您必须覆盖parsefilter并使用Jsoup选择器选择要爬网和索引的部分。 看看这个https://stackoverflow.com/a/38854219/5676586