Python到ASCII的特殊HTML字符

时间:2014-03-24 08:47:22

标签: python ascii special-characters non-ascii-characters html-escape-characters

我想将网页阅读时看到的特殊字符转换为ASCII格式。我已经尝试了很多,但我无法弄清楚。我将在下面给出一些示例,这些示例存储在Python中的字符串中。我不知道网页的当前编码是什么,但我想将其转换为ASCII格式。

Apaydın Ünal > want this to Apaydin Unal
Íñigo Martínez > want this to Inigo Martinez
Üstünel > want this to Ustunel

谁能帮帮我?

编辑: 谢谢,我忘了。我使用的是Python 2.7

1 个答案:

答案 0 :(得分:1)

尝试https://pypi.python.org/pypi/Unidecode

>>> from unidecode import unidecode
>>> unidecode(u'ko\u017eu\u0161\u010dek')
'kozuscek'

要检测编码,请参阅问题Determine the encoding of text in Python

相关问题