Scrapy下载文件错误

时间:2016-06-09 18:49:50

标签: error-handling web-scraping scrapy http-status-code-301

我正在使用Scrapy中的文件管道从http://opensubtitles.org下载字幕文件。

我有一个所有http://dl.opensubtitles.org链接的列表,我的蜘蛛跟随这些链接并将网址发送到管道。

它可以启动,我可以下载第一个~100个文件,没有任何问题。

然而,在那时链接似乎会产生错误:

  

2016-06-09 11:44:02 [scrapy]警告:文件(代码:301):从http://dl.opensubtitles.org/en/download/vrf-108d030f/sub/24617>下载文件时出错;在

中提到

它与我的代码有关吗?

这些在我的设置中:

ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1}

FILES_STORE = 'C:/Users/Rohan/Documents/Fitroom/subtitles/subFiles'

这是我的管道:

class SubtitlesPipeline(object):
    def process_item(self, item, spider):
        return item

谢谢!

1 个答案:

答案 0 :(得分:0)

由于下载超时可能会发生此错误,因为文件可能更大。增加下载时间。 在setting.py文件中试试这个

DOWNLOAD_TIMEOUT = 500
相关问题