将二进制字符串的文本转储转换为真实字符串

时间:2018-06-28 15:46:28

标签: python python-3.x utf-8 cyrillic pdfminer

python库向我输出文本转储的二进制utf-8字符串,如下所示:

In [1]: string
Out[1]: "b'\\xd0\\x9f\\xd1\\x80\\xd0\\xb5\\xd0\\xb4\\xd0\\xb8\\xd1\\x81\\xd0\\xbb\\xd0\\xbe\\xd0\\xb2\\xd0\\xb8\\xd0\\xb5'"

In [2]: type(string)
Out[2]: str

我需要从中恢复真实的字符串,就像它们是真实的二进制字符串一样:

In [91]: string_b
Out[91]: b'\xd0\x9f\xd1\x80\xd0\xb5\xd0\xb4\xd0\xb8\xd1\x81\xd0\xbb\xd0\xbe\xd0\xb2\xd0\xb8\xd0\xb5'

In [92]: type(string_b)
Out[92]: bytes

In [93]: string_b.decode('UTF-8')
Out[93]: 'Предисловие'

我该怎么做?

2 个答案:

答案 0 :(得分:3)

使用ast.literaleval来读取字符串,就像在python代码中一样:

import ast
res = ast.literal_eval("b'\\xd0\\x9f\\xd1\\x80\\xd0\\xb5\\xd0\\xb4\\xd0\\xb8\\xd1\\x81\\xd0\\xbb\\xd0\\xbe\\xd0\\xb2\\xd0\\xb8\\xd0\\xb5'")
res
b'\xd0\x9f\xd1\x80\xd0\xb5\xd0\xb4\xd0\xb8\xd1\x81\xd0\xbb\xd0\xbe\xd0\xb2\xd0\xb8\xd0\xb5'
res.decode("UTF-8")
'Предисловие'

答案 1 :(得分:1)

如果您的字符串包含二进制字符串的repr,则可以使用ast.literal_eval返回。