导出包含startURL的CSV

时间:2013-03-27 05:22:08

标签: scrapy

我在使用Scrapy抓取图像并将结果导出为CSV时遇到了一些问题。我的设置是:

FEED_URI = 'export.csv'
FEED_FORMAT = 'csv'

第一个问题是导出是JSON,而不是CSV。另一个问题是我希望导出包含start_urls,因此导出应该是:

start_url, original_image, scraped_image
http://www.bk.com, http://www.bk.com/images/bk-logo-rv.png, http://mysite.com/53948534985374.jpg

这就是我正在运行的命令:

scrapy crawl image_downloader -L ERROR --logfile=log

这就是管道:

class ImageDownloaderPipeline(ImagesPipeline):

    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            yield Request(image_url)

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item

有人可以帮帮我吗?

谢谢!

0 个答案:

没有答案
相关问题