使用scrapy media_pipeline,大文件下载失败

时间:2016-07-08 15:48:24

标签: scrapy

有些文件较小但有些文件超过300M。那些大的无法下载。我使用media_pipeline下载文件。输出:

2016-07-08 18:11:22 [scrapy] WARNING: Received (208954047) bytes larger than download warn size (200000000).

这反复多次。然后

Gave up retrying <GET http://pmd.foxsports.com.au/free/nogeoblock/2016/07/06/DVU_20160607_AFL_TONIGHT_201607061809/DVU_20160607_AFL_TONIGHT_201607061809_1596.mp4> (failed 3 times): User timeout caused connection failure: Getting http://pmd.foxsports.com.au/free/nogeoblock/2016/07/06/DVU_20160607_AFL_TONIGHT_201607061809/DVU_20160607_AFL_TONIGHT_201607061809_1596.mp4 took longer than 1800.0 seconds..

1800秒的超时非常大。 300M文件下载在我的频道上花费更少。然而,不起作用。我知道我可以使用一些外部的lib / downloader。但如果可能的话,我想通过框架手段来做到这一点。

UPD:具体情况如下: 0)在settings.py中调整超时时间(超时int&#34; meta&#34;请求字段不起作用) 1)请求(6)文件的数量通过MediaPipeline.get_media_requests传递。每个请求对应一个大文件 2)有些文件下载得很好 3)在某些时候,不下载其他文件。所有剩余文件都会因超时而失败框架重试下载但无济于事。超时重复尝试次数。 4)使用wget

可以很好地下载相同的文件

0 个答案:

没有答案
相关问题