将扫描的PDF表转换为Excel

时间:2019-06-20 11:57:37

标签: python excel pdf ocr

我有一个扫描的PDF,它具有一些表格格式的随机数据,并且想要将其复制到Excel工作表中。

我玩过数字PDF,并使用“表格”提取表格,但扫描的PDF需要OCR(在Google上可以看到)。 我知道涉及到OCR(tesseract),但不知道我应该采取什么方法解决问题。

2 个答案:

答案 0 :(得分:0)

看看Tesseract的TSV(制表符分隔值)输出格式,看看Excel是否可以读取或导入它。可能需要一些转换才能将其转换为Excel可以使用的格式。

https://digi.bib.uni-mannheim.de/tesseract/manuals/tesseract.1.html

答案 1 :(得分:0)

免费的OCR API具有table recognition模式。

在OCR API中,isTable = true开关触发表扫描逻辑。 OCR API文档的表OCR标志部分提供了更多详细信息。

Python code here

相关问题