Question

我正在使用pdfplumber抓取PDF文本。然后，我使用write（来自软件包string）将其写入文本文件。直到pdf开始添加特殊字符（例如↓）之前，此方法都运行良好。现在，当我将其写入文本文件时，会出现unicode错误。无论如何，有没有忽略这个特殊字符并写下其余部分的文字？

代码：

dataFile = open('AgW1.txt','w')
for eachitem in aList:
    dataFile.write(str(eachitem)+'\n')

跟踪：

UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-12-13532302c2d5> in <module>
      1 for eachitem in aList:
----> 2     dataFile.write(str(eachitem)+'\n')

~\Anaconda3\lib\encodings\cp1252.py in encode(self, input, final)
     17 class IncrementalEncoder(codecs.IncrementalEncoder):
     18     def encode(self, input, final=False):
---> 19         return codecs.charmap_encode(input,self.errors,encoding_table)[0]
     20 
     21 class IncrementalDecoder(codecs.IncrementalDecoder):

UnicodeEncodeError: 'charmap' codec can't encode character '\u2193' in position 63: character maps to <undefined>

Answer 1

尝试将utf-8编码添加到打开的文件中，即dataFile = open('AgW1.txt','w', encoding='utf-8')。

阅读PDF时忽略特殊字符

1 个答案: