Question

在我的Python GAE应用程序中，以下代码片段在生产中比在本地运行时慢很多。处理过程如下：

在POST中加载大约1 MB的文本文件。文本文件的每一行都是“项目”。
我的代码从文本文件中创建一个项目列表，并检查重复项和有效性（通过与已编译的RE进行比较）。

以下是代码：

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    out = ""
    for item in item_list:
        if item in item_set:
            n_dups += 1
            out += "DUPLICATE: %s\n" % item
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            out += "%s\n" % item
        else:
            n_invalid += 1
            out += "INVALID: %s\n" % item
    return out

当我在本地开发服务器上运行时，一个50,000行的1MB文件需要5秒钟才能处理。

当我在生产中运行时，同一个文件需要一分钟，请求超时。文件上传只需要大约一秒钟，所以我知道瓶颈是上面的代码。

过去，生产代码的速度与我的本地代码大致相同。我认为这段代码没有改变，所以我怀疑谷歌可能会有变化。

知道为什么这段代码现在生产速度慢得多？我可以做些什么来使这段代码更快？我需要向用户返回一个带注释的文件，指出哪些行是重复的，哪些行是无效的。

编辑：

为了回应mgilson的评论，我尝试了以下代码，它在执行时间上产生了巨大的差异！之前在一分钟后超时的处理现在只需要大约5秒钟。 GAE仍然比预期慢（即使考虑到相对较慢的服务器CPU），但是使用改进的算法，现在对我来说无关紧要。

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    for i, item in enumerate(item_list):
        item = item.strip()
        if item in item_set:
            n_dups += 1
            item_list[i] = "DUPLICATE: %s" % item
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            item_list[i] = item
        else:
            n_invalid += 1
            item_list[i] = "INVALID: %s" % item
    return "\n".join(item_list)

Answer 1

GAE生产运行速度比本地运行速度慢并不出乎意料 - 根据您的instance class，您的生产CPU可以低至600MHz，这比大多数开发人员计算机要慢得多。

可以做一件事来加快速度，就是将结果累积到列表中（或从生成器中产生）然后使用str.join来获得完整的结果：< / p>

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    out = []
    for item in item_list:
        if item in item_set:
            n_dups += 1
            out.append("DUPLICATE: %s\n" % item)
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            out.append("%s\n" % item)
        else:
            n_invalid += 1
            out.append("INVALID: %s\n" % item)
    return "".join(out)

GAE Python代码在生产中比本地慢

1 个答案: