使用Python发送数千个帖子请求的最快方法是什么?

时间:2013-04-01 22:17:19

标签: python http post

我想以最快的方式发出数千个POST请求。我怎么能用Python做到这一点?

到目前为止,我只有一个for循环,它多次调用以下函数:

def post(word):
    data = json.dumps({"word":word})
    url = "http://127.0.0.1:8000/updateword"
    req = urllib2.Request(url, data, {'Content-Type': 'application/octet-stream'})
    response=None
    try:
        f = urllib2.urlopen(req)
        response = f.read()
        f.close()
    except urllib2.HTTPError, error:
        k= open('error.html','w')
        k.write(error.read())
        k.close()
    return response

有更好的方法吗?

1 个答案:

答案 0 :(得分:5)

您编写代码的方式,它会在发送下一个请求之前等待对一个请求的响应。 (最重要的是,它可能不会重用HTTP连接,这意味着您必须处理每个请求的套接字创建/关闭开销。然后,根据您正在测试的内容,很有可能实际上使它成为一个更好的测试。)

同时发出多个请求的最简单方法是使用线程。最简单的方法是使用concurrent.futures(或futures from PyPI,如果您使用的是2.x或3.1):

with concurrent.futures.ThreadPoolExecutor(max_workers=10) as pool:
    results = pool.map(post, words)
    concurrent.futures.wait(results)

如果您愿意,可以编写自己的主题,只需将每个主题分配给words的1/10,然后让它循环调用post

def posts(words):
    for word in words:
        post(word)

groupsize = len(words)/10
t = [threading.Thread(target=posts, args=[words[i*groupsize:(i+1)*groupsize]]
     for i in range(10)]
for thread in t:
    thread.start()
for thread in t:
    thread.join()

无论哪种方式,显然我只是凭空掏出这个数字10(因为它比大多数浏览器或Web服务客户端允许你创建的最大同时连接数多一点),但你会想要做一些性能测试以找到最佳价值。

如果事实证明最佳​​值是 huge ,如500或者其他什么,那么您可能会遇到使用线程可以做的限制。在这种情况下,您应该考虑使用greenlets。最简单的方法是使用gevent - 最简单的方法是重写代码以使用grequests代替urllib2

同时,如果实际读取浪费时间,并且您实际上不需要响应,并且它们相当大,并且您不想测试服务器发送实际响应的能力,您可能希望一旦你知道你将获得正确的数据就关闭套接字。您可以通过编写自己的处理程序 使用urllib2执行此操作,但这听起来像是很多工作。我认为在这种情况下实际上更简单,只需降低到套接字的级别。首先,记录为每个POST发送的请求,以及在事情有效时返回的预期200行。然后做这样的事情:

with closing(socket.socket()) as c:
    c.connect(('127.0.0.1', 8000))
    c.send(REQUEST_STRING_FORMAT.format([word]))
    with c.makefile() as f:
        response = f.readline()
        if response != RESPONSE_200_STRING:
            response += f.read()
            with open('error.html','w') as k:
                k.write(response)