如何获得网站上最少的文章使用portia

时间:2015-09-01 09:26:20

标签: scrapy portia

我正在使用portia来抓取网站的文章,现在我想知道如何在运行portia spider时每天获得最少的文章?

我知道要使用文章中的日期时间,并与现在的datetime进行比较。但是有更好的吗?

1 个答案:

答案 0 :(得分:2)

取决于网站的结构,但如果每篇文章都在不同的网址中,您可以使用deltafetch蜘蛛中间件过滤以前抓取中已访问过的网址。

启用安装scrapylib并将其添加到settings.py:

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True