如何检查字符串是否具有相同的字符?蟒蛇

时间:2013-08-20 00:48:50

标签: python string python-2.7

我需要能够辨别出一个任意长度的字符串,大于1(并且只是小写),是否在基本字符串或模板字符串中具有相同的字符集。

例如,取字符串“aabc”:“azbc”和“aaabc”为假,而“acba”为真。

有没有一种快速的方法在python中执行此操作而不跟踪第一个字符串的所有排列,然后将其与测试字符串进行比较?

5 个答案:

答案 0 :(得分:10)

对两个字符串进行排序,然后比较它们:

sorted(str1) == sorted(str2)

如果字符串的长度可能不同,您可能需要首先确保它们以节省时间:

len(str1) == len(str2) and sorted(str1) == sorted(str2)

答案 1 :(得分:5)

这是O(n)解决方案

from collections import Counter
Counter(str1) == Counter(str2)

但使用O(n * log n)的{​​{1}}解决方案对sorted

的合理值可能更快

答案 2 :(得分:1)

这是@Joowani解决方案的变体,只使用一个字典并且运行得更快(至少在我的机器上):

def cmp4(str1, str2):
    if len(str1) != len(str2):
        return False
    d = collections.defaultdict(int)
    for c in str1:
        d[c] += 1
    for c in str2:
        d[c] -= 1
    return all(v == 0 for v in d.itervalues())

答案 3 :(得分:0)

这是另一个O(n)解决方案,比其他解决方案更长但更快:

def cmp(str1, str2):
    if len(str1) != len(str2):
        return False

    d, d2 = {}, {}
    for char in str1:
        if char not in d:
            d[char] = 1
        else:
            d[char] += 1
    for char in str2:
        if char not in d:
            return False
        if char not in d2:
            d2[char] = 1
        else:
            d2[char] += 1

    return d == d2

它与gnibber的解决方案基本上做同样的事情(但由于一些奇怪的原因,来自集合库的 Counter()似乎很慢)。以下是一些时间结果:

setup = '''
import collections
from collections import Counter

s1 = "abcdefghijklmnopqrstuvwxyz" * 10000
s2 = s1[::-1]

def cmp1(str1, str2):
    if len(str1) != len(str2):
        return False

    d, d2 = {}, {}
    for char in str1:
        if char not in d:
            d[char] = 1
        else:
            d[char] += 1
    for char in str2:
        if char not in d:
            return False
        if char not in d2:
            d2[char] = 1
        else:
            d2[char] += 1
    return d == d2

def cmp2(str1, str2):
    return len(str1) == len(str2) and sorted(str1) == sorted(str2)

def cmp3(str1, str2):    
    return Counter(str1) == Counter(str2)

def cmp4(str1, str2):
    if len(str1) != len(str2):
        return False
    d = collections.defaultdict(int)
    for c in str1:
        d[c] += 1
    for c in str2:
        d[c] -= 1
    return all(v == 0 for v in d.itervalues())
'''

    timeit.timeit("cmp1(s1, s2)", setup=setup, number = 100)
    8.027034027221656
    timeit.timeit("cmp2(s1, s2)", setup=setup, number = 100)
    8.175071701324946
    timeit.timeit("cmp3(s1, s2)", setup=setup, number = 100)
    14.243422195893174
    timeit.timeit("cmp4(s1, s2)", setup=setup, number = 100)
    5.0937542822775015

此外,当字符串大小很小且实际上它们具有相同的字符时,David的解决方案会出现在顶部。

编辑:更新了测试结果

答案 4 :(得分:0)

不同的方式。通过使用我们忽略最多的“集合”:

if len(set(str1) - set(str2)) == 0:
    print "Yes"