scrapy - 如何用scrapy下载文件？ - Thinbug

如何用scrapy下载文件？

时间：2016-07-11 09:00:54

标签： scrapy

我想知道你会使用什么技术，例如一个页面包含6个视频的链接，每个300Mb，你想要全部下载它们。我应该写我的自定义下载器吗？

我习惯使用MediaPipeline，但它使用的框架调度程序存在以下问题：

您永远不知道当前正在下载哪个文件
您无法了解下载进度/状态，直至失败
奇怪的超时行为： a）看起来超时应用于整个请求下载操作，而不仅仅是暂停下载。因此，如果超时为5分钟，我将永远无法下载需要6分钟下载的文件。 b）如果你发出5个并发的长请求，其中一个请求时间太长，你将得到所有这些请求（尚未完成）超时。您必须在设置中将并发请求数限制为1（这将影响整个蜘蛛）。

1 个答案:

答案 0 :(得分：0)

您可以在检索视频链接后使用Youtube downloader。

如果视频尚未完成下载，Youtube下载器会尝试继续播放。你也可以强迫它继续。如果单次下载需要很长时间，请在它周围写一个包装器以实现并发。

免责声明：我并非与该软件包的维护人员有任何关系。