python验证码解码器库

时间:2012-12-01 22:00:45

标签: python image image-processing python-imaging-library captcha

我需要一个用于python的Captcha解码器来读取简单的图像验证码,如下图所示:

captcha

simple captcha

captcha

你知道一个图书馆可以帮助我阅读这个验证码吗?

如果你不知道用于阅读验证码的图书馆,你能帮我用PIL阅读这个(和其他类似的)?

3 个答案:

答案 0 :(得分:5)

我希望这个验证码不会在任何地方使用。

以下是解码它的虚拟方法。基本上你需要的是这些验证码中存在的从0到9的模式。从你的例子中,我只有0 3 4 5 7 8的模式。因为一切都固定在它们上面,你知道在哪里分割每个字符。您还知道每个字符都是一些固定大小和固定字体。如果它还包括字母或更多字符,但具有固定大小和字体,则可以轻松调整以下代码。

代码的作用是:a)加载模式(我认为它们被命名为n0.png,n1.png,...); b)将验证码分成NUMS部分; c)在每个模式和每个分割数之间做一个平方差的和; d)确定分割数是具有最小总和的分割数。它按顺序返回每个数字的列表,显示在验证码中。要获取初始模式,您可以取消注释保存拆分号码的行,在该段之后放置return,然后调整文件名。

import sys
from PIL import Image, ImageOps

PAT_SIZE = (8, 10)
NUMS = 3
FIRST_NUM_OFFSET = 5
NUM_OFFSET = (1, 3)


NUMBERS = []
for i in xrange(10):
    try:
        NUMBERS.append(Image.open('n%d.png' % i).load())
    except IOError:
        print "I do not know the pattern for the number %d." % i
        NUMBERS.append(None)


def magic(fname):
    captcha = ImageOps.grayscale(Image.open(fname))
    im = captcha.load()

    # Split numbers
    num = []
    for n in xrange(NUMS):
        x1, y1 = (FIRST_NUM_OFFSET + n * (NUM_OFFSET[0] + PAT_SIZE[0]),
                NUM_OFFSET[1])
        num.append(captcha.crop((x1, y1, x1 + PAT_SIZE[0], y1 + PAT_SIZE[1])))

    # If you want to save the split numbers:
    #for i, n in enumerate(num):
    #    n.save('%d.png' % i)

    def sqdiff(a, b):
        if None in (a, b): # XXX This is here just to handle missing pattern.
            return float('inf')

        d = 0
        for x in xrange(PAT_SIZE[0]):
            for y in xrange(PAT_SIZE[1]):
                d += (a[x, y] - b[x, y]) ** 2
        return d

    # Calculate a dummy sum of squared differences between the patterns
    # and each number. We assume the smallest diff is the number in the
    # "captcha".
    result = []
    for n in num:
        n_sqdiff = [(sqdiff(p, n.load()), i) for i, p in enumerate(NUMBERS)]
        result.append(min(n_sqdiff)[1])
    return result

print magic(sys.argv[1])

答案 1 :(得分:2)

这是一个很好的项目,出于学术原因,我不久前对此感兴趣。您有几个选择:

  1. 您可以在此网站的帮助下撰写自己的文章:http://www.wausita.com/captcha/

  2. 您使用OpenCV进行匹配。

  3. 如果认为有一个专门的神经网络图像匹配库,但我似乎无法找到它。

    基本上正如其他人所说,你想要消除噪音,分成单个字符并使用选择的技术将其与模型字符进行比较。

答案 2 :(得分:1)

我希望你真诚地使用它,你不会伤​​害(/垃圾)任何人。

我不会写你的脚本也不会转发你的外部插件。但是如果你自己写这个,这可能会有所帮助:

  • 如果您正在尝试解码特定的验证码模式,您应该收集所有字符(我从您附加的示例中看到它只是数字,因此不应该有很多工作)。
  • 将所有字符放在一个文件中并使用PIL
  • 进行分析
  • 将每个字符,其位置及其含义保存在数组中。
  • 获取验证码图像 - 必要时清除背景噪音。
  • 将Captcha图像拆分为字符大小,并通过自制的字典字典进行交叉。