Scrapy在停止和恢复时重新开始网址

时间:2016-02-25 13:55:28

标签: python scrapy

我使用scrapy从文件中删除网址列表:

class MySpider(CrawlSpider):
    name = 'some_spider'
    allowed_domains = ['example.com']
    start_urls=open(urls_file).read().splitlines()

    def parse(self, response):
        print response.url

一切正常,除非我停止并继续使用持久队列,Scrapy重新整理整个列表。我的开始和恢复命令:

scrapy crawl some_spider -s JOBDIR=state_dir

我看到scrapy实际上写入状态目录,但requests.seen文件保持为0 KB。我也尝试使用BaseSpider,但结果是相同的

0 个答案:

没有答案