使用S3支持Scrapy

时间:2016-11-01 22:04:22

标签: amazon-s3 scrapy

过去几个小时我一直在苦苦挣扎但似乎在这里失明。我正在尝试在scrapy和亚马逊S3之间建立链接,但不断收到存储桶不存在的错误(确实存在,检查了十几次)。

<小时/> 错误消息:

2016-11-01 22:58:08 [scrapy] ERROR: Error storing csv feed (30 items) in: s3://onvista.s3-website.eu-central-1.amazonaws.com/feeds/vista/2016-11-01T21-57-21.csv

结合使用
botocore.exceptions.ClientError: An error occurred (NoSuchBucket) when calling the PutObject operation: The specified bucket does not exist

<小时/> 我的settings.py

ITEM_PIPELINES = {
    'onvista.pipelines.OnvistaPipeline': 300,
    #'scrapy.pipelines.files.S3FilesStore': 600
}

AWS_ACCESS_KEY_ID = 'key'
AWS_SECRET_ACCESS_KEY = 'secret'
FEED_URI = 's3://onvista.s3-website.eu-central-1.amazonaws.com/feeds/%(name)s/%(time)s.csv'

FEED_FORMAT = 'csv'

<小时/> 有没有人可以让我一瞥?

1 个答案:

答案 0 :(得分:3)

不是通过 Hosed Website URL 引用Amazon S3存储桶,而是按名称引用它。

scrapy Feed Exports文档提供了一个示例:

s3://mybucket/scraping/feeds/%(name)s/%(time)s.json

在你的情况下,那就是:

s3://onvista/feeds/%(name)s/%(time)s.json