无法删除文字中隐藏的字符?

时间:2017-12-21 08:52:09

标签: python

<pre>str_1 = u"tác toàn diện giữa Việt Nam và Ukraine ."
str_2 = u"tác toàn diện giữa Việt Nam và Ukraine ."
for w in str_1.split():
    for w1 in str_2.split():
        if w == w1:
            print(w)
</pre>

输出:

Nam
Ukraine
.

我从在线报纸上复制了字符串str_1。

str_2是我输入的句子。

我猜str_1包含隐藏的字符,因为当我比较它时,输出显示某些单词不一样。

1 个答案:

答案 0 :(得分:1)

如果您尝试将两个字符串编码为utf8:

str_1 = u"tác toàn diện giữa Việt Nam và Ukraine ."
str_2 = u"tác toàn diện giữa Việt Nam và Ukraine ."
print(str_1.encode('utf8'))
>> b'ta\xcc\x81c toa\xcc\x80n di\xc3\xaa\xcc\xa3n gi\xc6\xb0\xcc\x83a Vi\xc3\xaa\xcc\xa3t Nam va\xcc\x80 Ukraine .'
print(str_2.encode('utf8'))
>> b't\xc3\xa1c to\xc3\xa0n di\xe1\xbb\x87n gi\xe1\xbb\xafa Vi\xe1\xbb\x87t Nam v\xc3\xa0 Ukraine .'

你可以看到它实际上两个字符串是不同的。仔细观察,str_1和str_2中的“diện”之间的差异是,在str_1中,n下面有一个小点,而str_2中的下面有一个小点