在我的Python GAE应用程序中,以下代码片段在生产中比在本地运行时慢很多。处理过程如下:
以下是代码:
def process_items(self, text):
item_list = text.split()
item_set = set()
n_valid = 0
n_invalid = 0
n_dups = 0
out = ""
for item in item_list:
if item in item_set:
n_dups += 1
out += "DUPLICATE: %s\n" % item
elif valid_item(item): # This compares against a compiled RE
item_set.add(item)
n_valid += 1
out += "%s\n" % item
else:
n_invalid += 1
out += "INVALID: %s\n" % item
return out
当我在本地开发服务器上运行时,一个50,000行的1MB文件需要5秒钟才能处理。
当我在生产中运行时,同一个文件需要一分钟,请求超时。文件上传只需要大约一秒钟,所以我知道瓶颈是上面的代码。
过去,生产代码的速度与我的本地代码大致相同。我认为这段代码没有改变,所以我怀疑谷歌可能会有变化。
知道为什么这段代码现在生产速度慢得多? 我可以做些什么来使这段代码更快?我需要向用户返回一个带注释的文件,指出哪些行是重复的,哪些行是无效的。
编辑:
为了回应mgilson的评论,我尝试了以下代码,它在执行时间上产生了巨大的差异!之前在一分钟后超时的处理现在只需要大约5秒钟。 GAE仍然比预期慢(即使考虑到相对较慢的服务器CPU),但是使用改进的算法,现在对我来说无关紧要。
def process_items(self, text):
item_list = text.split()
item_set = set()
n_valid = 0
n_invalid = 0
n_dups = 0
for i, item in enumerate(item_list):
item = item.strip()
if item in item_set:
n_dups += 1
item_list[i] = "DUPLICATE: %s" % item
elif valid_item(item): # This compares against a compiled RE
item_set.add(item)
n_valid += 1
item_list[i] = item
else:
n_invalid += 1
item_list[i] = "INVALID: %s" % item
return "\n".join(item_list)
答案 0 :(得分:4)
GAE生产运行速度比本地运行速度慢并不出乎意料 - 根据您的instance class,您的生产CPU可以低至600MHz,这比大多数开发人员计算机要慢得多。
可以做一件事来加快速度,就是将结果累积到列表中(或从生成器中产生)然后使用str.join
来获得完整的结果:< / p>
def process_items(self, text):
item_list = text.split()
item_set = set()
n_valid = 0
n_invalid = 0
n_dups = 0
out = []
for item in item_list:
if item in item_set:
n_dups += 1
out.append("DUPLICATE: %s\n" % item)
elif valid_item(item): # This compares against a compiled RE
item_set.add(item)
n_valid += 1
out.append("%s\n" % item)
else:
n_invalid += 1
out.append("INVALID: %s\n" % item)
return "".join(out)