用ASCII等效替换特殊字符

时间:2010-07-07 12:12:49

标签: python unicode

是否有任何可以将特殊字符替换为ASCII等效字符的lib,例如:

"Cześć"

为:

"Czesc"

我当然可以创建地图:

{'ś':'s', 'ć': 'c'}

并使用一些替换功能。但是我不想将所有等价物硬编码到我的程序中,如果有一些功能已经这样做了。

6 个答案:

答案 0 :(得分:31)

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import unicodedata
text = u'Cześć'
print unicodedata.normalize('NFD', text).encode('ascii', 'ignore')

答案 1 :(得分:14)

您可以通过以下方式获得大部分内容:

import unicodedata

def strip_accents(text):
    return ''.join(c for c in unicodedata.normalize('NFKD', text) if unicodedata.category(c) != 'Mn')

不幸的是,存在重音拉丁字母,不能分解为ASCII字母+组合标记。你必须手动处理它们。其中包括:

  • Æ→AE
  • Ð→D
  • Ø→O
  • Þ→TH
  • ß→ss
  • æ→ae
  • ð→d
  • ø→o
  • þ→th
  • Œ→OE
  • œ→oe
  • ƒ→f

答案 2 :(得分:3)

试用trans包。看起来很有希望。支持波兰语。

答案 3 :(得分:3)

我是这样做的:

POLISH_CHARACTERS = {
    50309:'a',50311:'c',50329:'e',50562:'l',50564:'n',50099:'o',50587:'s',50618:'z',50620:'z',
    50308:'A',50310:'C',50328:'E',50561:'L',50563:'N',50067:'O',50586:'S',50617:'Z',50619:'Z',}

def encodePL(text):
    nrmtxt = unicodedata.normalize('NFC',text)
    i = 0
    ret_str = []
    while i < len(nrmtxt):
        if ord(text[i])>128: # non ASCII character
            fbyte = ord(text[i])
            sbyte = ord(text[i+1])
            lkey = (fbyte << 8) + sbyte
            ret_str.append(POLISH_CHARACTERS.get(lkey))
            i = i+1
        else: # pure ASCII character
            ret_str.append(text[i])
        i = i+1
    return ''.join(ret_str)

执行时:

encodePL(u'ąćęłńóśźż ĄĆĘŁŃÓŚŹŻ')

它将产生如下输出:

u'acelnoszz ACELNOSZZ'

这适用于我 - ; D

答案 4 :(得分:1)

unicodedata.normalize噱头最好被描述为半屁股。这是一个robust approach,其中包含一个没有分解的字母的地图。请注意注释中的其他地图条目。

答案 5 :(得分:0)

unidecode软件包最适合我:

from unidecode import unidecode
text = "Björn, Łukasz and Σωκράτης."
print(unidecode(text))
# ==> Bjorn, Lukasz and Sokrates.

您可能需要安装软件包:

pip install unidecode

如其他答案所建议的,上述解决方案比对unicodedata.normalize()的输出进行编码(和解码)更容易,更可靠。

ret = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore')
print(ret)
# ==> b'Bjorn, ukasz and .'
# Besides not supporting all characters, the returned value is a
# bytes object in python3. To yield a str type:
ret = ret.decode("utf8") # (not required in python2)