python - 将扫描的PDF表转换为Excel - Thinbug

将扫描的PDF表转换为Excel

时间：2019-06-20 11:57:37

标签： python excel pdf ocr

我有一个扫描的PDF，它具有一些表格格式的随机数据，并且想要将其复制到Excel工作表中。

我玩过数字PDF，并使用“表格”提取表格，但扫描的PDF需要OCR（在Google上可以看到）。我知道涉及到OCR（tesseract），但不知道我应该采取什么方法解决问题。

2 个答案:

答案 0 :(得分：0)

看看Tesseract的TSV（制表符分隔值）输出格式，看看Excel是否可以读取或导入它。可能需要一些转换才能将其转换为Excel可以使用的格式。

https://digi.bib.uni-mannheim.de/tesseract/manuals/tesseract.1.html

答案 1 :(得分：0)

免费的OCR API具有table recognition模式。

在OCR API中，isTable = true开关触发表扫描逻辑。 OCR API文档的表OCR标志部分提供了更多详细信息。

Python code here