Question

有些文件较小但有些文件超过300M。那些大的无法下载。我使用media_pipeline下载文件。输出：

2016-07-08 18:11:22 [scrapy] WARNING: Received (208954047) bytes larger than download warn size (200000000).

这反复多次。然后

Gave up retrying <GET http://pmd.foxsports.com.au/free/nogeoblock/2016/07/06/DVU_20160607_AFL_TONIGHT_201607061809/DVU_20160607_AFL_TONIGHT_201607061809_1596.mp4> (failed 3 times): User timeout caused connection failure: Getting http://pmd.foxsports.com.au/free/nogeoblock/2016/07/06/DVU_20160607_AFL_TONIGHT_201607061809/DVU_20160607_AFL_TONIGHT_201607061809_1596.mp4 took longer than 1800.0 seconds..

1800秒的超时非常大。 300M文件下载在我的频道上花费更少。然而，不起作用。我知道我可以使用一些外部的lib / downloader。但如果可能的话，我想通过框架手段来做到这一点。

UPD：具体情况如下： 0）在settings.py中调整超时时间（超时int＆＃34; meta＆＃34;请求字段不起作用） 1）请求（6）文件的数量通过MediaPipeline.get_media_requests传递。每个请求对应一个大文件 2）有些文件下载得很好 3）在某些时候，不下载其他文件。所有剩余文件都会因超时而失败框架重试下载但无济于事。超时重复尝试次数。 4）使用wget

可以很好地下载相同的文件

使用scrapy media_pipeline，大文件下载失败

0 个答案: