如何使用Scrapy设置proxymesh?

时间:2017-01-22 21:56:25

标签: python scrapy http-proxy

我有一些Scrapy代码,我想开始使用proxymesh。 proxymesh documentation隐晦地说:

  

对于scrapy爬网框架,您必须设置http_proxy   环境变量[...]然后activate HttpProxyMiddleware。

我理解如何设置http_proxy环境变量,但是如何激活HttpProxyMiddleware"从文档中并不完全明显。我我需要在Scrapy项目中向settings.py添加以下内容:

DOWNLOADER_MIDDLEWARES = {
    'myproject.middleware.ProxyMeshMiddleware': 100,
}

但是我认为我还需要添加一些实际的中间件代码,大概是在middleware.py文件中?

我找到this gist,所以我想我可以将其复制并粘贴到middleware.py,但我不确定它是否准确。它似乎使用了proxymesh文档中推荐的不同环境变量。

1 个答案:

答案 0 :(得分:2)

您所指的是从OS环境变量中读取ProxyMesh设置的要点,否则它是基本Scrapy HttpProxyMiddleware的略微修改的代码,应该运行良好。

您还可以查看我支持代理轮换的Proxymesh Middleware https://github.com/mizhgun/scrapy-proxymesh的非常简单的实现(如果您有多个端点的ProxyMesh计划)和可自定义的超时。