728;~˚！“”˘˙˝˛˛˛˛〜˘˛˙“˘”〜＃$˙˚％＆amp;˘˛ ~'˙˙％˝˛˙~~'＃$％＆amp;（'％$＆amp;））$ $ +％＃， - 。+＆amp;＆amp;˝（））˝） ˝+ ,, - 。/ 012）（˝）*˝+， - 3˙/ 0245）6＃57 + 82,55）6＃57 +，+ 2，+ /！＃!!＆amp; ;˘˘1“％˘20˛˛307％4！˘”6˛˝˘＆amp; /＆amp; 4“9％6％4％4＆amp;5˘2）˘˘˛％：6（< / H1>

Question

如何从Python中提取PDF文件中的文本？

我尝试了以下内容：

import sys
import pyPdf

def convertPdf2String(path):
      content = ""
      pdf = pyPdf.PdfFileReader(file(path, "rb"))
      for i in range(0, pdf.getNumPages()):
          content += pdf.getPage(i).extractText() + " \n"
          content = " ".join(content.replace(u"\xa0", u" ").strip().split())
      return content

f = open('a.txt','w+')

f.write(convertPdf2String(sys.argv[1]).encode("ascii","xmlcharrefreplace"))
f.close()

但结果如下，而不是可读的文字：

728;~˚！“”˘˙˝˛˛˛˛〜˘˛˙“˘”〜＃$˙˚％＆amp;˘˛ ~'˙˙％˝˛˙~~'＃$％＆amp;（'％$＆amp;））$ $ +％＃， - 。+＆amp;＆amp;˝（））˝） ˝+ ,, - 。/ 012）（˝）*˝+， - 3˙/ 0245）6＃57 + 82,55）6＃57 +，+ 2，+ /！＃!!＆amp; ;˘˘1“％˘20˛˛307％4！˘”6˛˝˘＆amp; /＆amp; 4“9％6％4％4＆amp;5˘2）˘˘˛％：6（< / H1>

Answer 1

如果您运行的是linux或mac，则可以在代码中使用 ps2ascii 命令：

import os

input="someFile.pdf"
output="out.txt"
os.system(("ps2ascii %s %s") %( input , output))

如何从Python中提取PDF文件中的文本？

1 个答案: